Mākslīgā intelekta veiktspēju var mērīt arī santehniķos

Hao AI pētniecības organizācija Kalifornijas Universitātē Sandjego, testē mākslīgo intelektu (MI) ar reāllaika Super Mario Bros. spēlēs palīdzību. Vislabāk veicās Anthropic modelim Claude 3.7, kam sekoja Claude 3.5. Tikmēr Google modelis Gemini 1.5 Pro un OpenAI modelis GPT-4o saskārās ar problēmām.

Jāatzīmē, ka šī nebija gluži tā pati Super Mario Bros. versija, kas tika izdota 1985. gadā. Spēle darbojās emulatorā un bija integrēta ar GamingAgent, kas ļāva MI modeļiem kontrolēt Mario.

GamingAgent Hao laboratorija izstrādāja iekšēji savām vajadzībām, tas nodrošina MI pamata instrukcijas, piemēram: “Ja tuvumā ir šķērslis vai ienaidnieks, pārvietojies/leci pa kreisi, lai izvairītos,” kā arī spēles šis rīks veido spēles ekrānuzņēmumus. MI pēc tam ģenerēja ievades Python koda formā, lai kontrolētu Mario.

Pētnieki uzsver, ka spēle piespieda katru modeli mācīties plānot sarežģītas kustības un izstrādāt spēles stratēģijas. Interesanti, ka modeļi ar spēcīgām loģiskās domāšanas prasmēm, piemēram, OpenAI modelis o1, kas risina problēmas soli pa solim, uzrādīja sliktākus rezultātus nekā modeļi bez šādām spējām.

Viens no galvenajiem iemesliem, kāpēc loģiski domājošie modeļiem slikti iet ar reāllaika spēlēm, ir tas, ka tiem nepieciešams laiks (parasti vairākas sekundes), lai pieņemtu lēmumu par darbību. Sekundes aizkave var nozīmēt atšķirību starp veiksmīgu lēcienu un kritienu nāvē.

“Sony X1000 THE COLLEXION” premium bezvadu austiņu apskats – šika dzimšanas dienas dāvana!

Iepazīstamies ar “Denon Home 200”, “Denon Home 400” un “Denon Home 600” bezvadu skandām

“Xiaomi Watch 5” viedpulksteņa apskats – vairāk, nekā sākumā varētu nojaust

“Mobvoi TicNote” apskats – digitālie balss ieraksti un pieraksti kļuvuši vienkāršāki

Jauns likumprojekts varētu liegt “Mercedes” tirgot mašīnas ASV

“Tesla Cybertruck” par ko pircēji reiz samaksāja līdz pat 150 000 dolāru, piedzīvo brutālu cenu kritumu

Baltijas valstīs beidzot oficiāli ienāks “Polestar” auto zīmols

“Uber” plāno autonomo taksometru testu programmu Minhenē

“ASUS” prezentē “Ascent QN10” – pasaulē pirmo mini datoru ar “Snapdragon X2 Elite” procesoru

“ASUS” prezentē iespaidīgu “ROG Astral GeForce RTX 5090 Edition 20” videokarti ar 800W jaudu un AMOLED ekrānu

“Qualcomm” ar “Snapdragon C” procesoru dosies cīņā pret “Apple MacBook Neo”

“Dell” atgriež leģendāro “XPS 13” kā pieejamas cenas “MacBook Neo” konkurentu

Ko Kursors Tev Neraksta #186

Ko Kursors Tev Neraksta #185 + Reinis Traidās

Ko Kursors Tev Neraksta #184

Ko Kursors Tev Neraksta #183 + Dāvids Rundelis (CellDrive)

Piedalies Kursors.lv konkursā un laimē “Xiaomi Oscillation Electric Toothbrush Pro” zobu birsti (noslēdzies)

Piedalies Kursors.lv konkursā un laimē “herQs Pin Pro” viedo gaļas termometru (noslēdzies)

Piedalies Kursors.lv konkursā un laimē Nothing Phone (2) Plus viedtālruni (noslēdzies)

Logitech MX ERGO datorpeles konkurss (noslēdzies)

Mākslīgā intelekta veiktspēju var mērīt arī santehniķos

Jaunākie raksti

“ASUS” prezentē “Ascent QN10” – pasaulē pirmo mini datoru ar “Snapdragon X2 Elite” procesoru

“Garmin” dati atklāj Latvijas skrējēju un riteņbraucēju paradumus

Neesi stulbs un lidojuma laikā nenosauc savu ierīci šādos nosaukumos

“Ferrari” nebūvēs pašbraucošus auto, un arī iekšdedzes dzinēji nekur nepazudīs

Jauns likumprojekts varētu liegt “Mercedes” tirgot mašīnas ASV

Jaunākie komentāri