Izrādās, lai izstrādātu spējīgu un kaut cik zinošu mākslīgā intelekta (MI) modeli, nav nepieciešami vairāki miljardi dolāru. To pierādījuši Stenfordas un Vašingtonas Universitātes pētnieki, kuriem nepilnas pusstundas laikā izdevies radīt zemu izmaksu MI argumentācijas modeli, kas varētu konkurēt ar “OpenAI” risinājumiem.
Jaunais modelis ar nosaukumu “s1” tika izstrādāts nieka 26 minūtēs, iztērējot tam mazāk nekā 50 dolārus. Modelis tika apmācīts, izmantojot nelielu datu kopu ar 1000 jautājumiem. Sākotnēji bija plānots izmantot 59 000 jautājumu kopu, taču pētnieki saprata, ka lielāka datu kopa nesniedz būtiskus ieguvumus. Tāpat “s1” izveidē tika izmantotas 16 “Nvidia H100” grafiskās kartes, kas ir salīdzinoši neliels skaitļošanas resurss. Savukārt pats modelis balstīts uz “Alibaba Cloud” atvērtā koda modeli “Qwen 2.5”.
“s1” izstrādē pētnieki izmantoja arī tā saukto destilācijas metodi, kas ļauj mazākiem MI modeļiem mācīties, balstoties uz lielāku modeļu atbildēm. Šajā gadījumā “s1” mācījās no “Google” MI modeļa “Gemini 2.0 Flash Thinking Experimental” atbildēm. Tiesa, “Google” noteikumos stāv rakstīts, ka ir aizliegts izmantot “Gemini” API, lai izstrādātu konkurējošos risinājumus. Līdz ar to “Google” būtu pārmijams kāds nopietns vārds ar šiem pētniekiem.
Katrā ziņā ar šo eksperimentu pētnieki pierādīja, ka MI modeļu izveidē nav obligāti jāiegulda miljardiem dolāru. Savukārt mazāku un lētāku MI modeļu attīstība var pilnībā mainīt nozari un pavērt plašākas iespējas mazākiem uzņēmumiem veidot savus konkurētspējīgus risinājumus.



Komiski. Un gan jau ne viss ir tik vienkārši. Bet virzienu tomēr parāda – miljardu tēriņi MI attīstībai tomēr ir par daudz drukni. Katrs tuvāk vai tālāk stāvošais tur grib pasmelt treknu krējuma kārtiņu piesaucot burvju vārdu MI.
Interesanti, kas tieši maksāja tos 50 dolārus? Pētnieku atalgojums? Patērētā elektrība pētījuma laikā? dators uz kā taisīja eksperimentu? 16 “Nvidia H100” grafiskās kartes laikam tomēr maksā drusku vairāk…
Pirmkārt jābeidz kropļot jēdzienus un datu modeļus jābeidz saukt par “intelektu”. Tur nav nekā no intelekta vai saprāta. Un tas vienlīdz attiecas uz OpenAI, Google, ķīniešiem utt.
Pilnīgi piekrītu. Bet mūsdienās tas jau ir palicis par normu – vēlamo saukt par esošo.
Un kas ir intelekts? Copilots saka, ka
Kognitīvās spējas: Šeit ietilpst atmiņa, uzmanība, valodas prasmes, problēmu risināšana un loģiskā domāšana.
Emocionālais intelekts: Spēja atpazīt, izprast un pārvaldīt savas un citu emocijas.
Sociālais intelekts: Spēja saprasties ar citiem cilvēkiem, veidot attiecības un veiksmīgi darboties sabiedrībā.
Radošais intelekts: Spēja radīt jaunus un oriģinālus risinājumus, idejas un mākslas darbus.
Pirmie 3 punkti esošo MI gadījumā pat var tikt akceptēti. Ar 4 tā pašvakāk, bet lielai daļai cilvēku jau arī nebūt nav tik spīdoši ar to visu :)
Nu re, tātad mēs MI tikai tad atzīsim, kad būs pārāks par lielāko daļu cilvēku. Un klupšanas akmens cilvēkiem ir radošais intelekts. Tātad virspusēji spriežot, tu analizējot jau šobrīd cilvēkus norakstīji miskastē un MI sanāk ir jau pārāks. Bet skatāmies dziļāk. MI nav formulas radīt kaut ko no sajūtu, iespaidu, emocīju, pieredzes u.t.t. kopuma. Tas rada tikai no ievāktiem datiem. Tatad nākošais solis ir iedot MI emocijas un jušanai sensorus…. Es gan teiktu, ka tas arī būs cilvēces pedējais izgudrojums. Nav daudz jādomā, ka MI nosauks cilvēku par parazītu.
Būtiski nejaukt vispārīgo mākslīgo intelektu (AGI) ar “parasto” mākslīgo intelektu (AI). Tur arī rodas lielākais pārpratums, kad “vidējais cilvēks” domā, ka MI ir jābūt visās jomās tikpat gudram kā cilvēkam, kamēr nozares speciālisti nodala abus jēdzienus un AI ir domāts kā šaura apgabala intelekts, kas spēj aizstāt cilvēku tikai konkrētos uzdevumos.
Par AGI vēl notiek strīdi, kādiem vajadzētu būt kritērijiem, taču nevienam nav šaubu, ka AGI vēl nav sasniegts.
50 dolārus maksāja dažas minūtes virtuālā servera laika Azure, AWS vai Google Cloud. Iemaksā naudu un izīrē serveri ar kaut vai simts H100 kartēm. Tikai ar 50$ pietiks dažām minūtēm labākajā gadījumā.
Kas attiecas uz “jauno” modeli, tad Qwen 2.5 modeļa, kurš tika izmantots par pamatu, Alibaba ir ielicis daudzus jo daudzus miljonus, tā kā nebūtu korekti saukt fine tuning par jauna modeļa radīšanu. Es arī varu paņemt Qwen 2.5 lielo nodeli ar 72B parametru, uzrakstīt custom instrukcijas un apgalvot, ka esmu izveidojis ChatGPT konkurentu, iztērējot necik.
Pat ja visu atrada plauktā un atļāva paņemt uz testa laiku, neticu, ka pētnieku (nez cik daudz tur piedalījās, bet pieņemsim ka vismaz 3, jo runa gāja par daudziem), alga būtu 100/3 eiro stundā. Nodokļus ieskaitot.
Tiršana tas viss. Palietojot izslavēto DeepSeek ir skaidri redzams, ka viņš ir tups kā zābaks. Nezinu, ko viņi tur mēģinājuši mācīt no ChatGTP.
Nez, atkarīgs, ko tam jautā. Nevajag jautāt modelim faktus par kādiem notikumiem vai lietām, jo LLM nav paredzēts, lai aizstātu Wikipēdiju. Programmētājiem Deepseek labi noder – tas man uzrakstīja vairākas pagaras koda funkcijas ne sliktāk par Anthropic Claude (kas vairākos gadījumos ir labāks par ChatGPT, ja runājam par bezmaksas versijām).
Diezgan maldinoši, jo 50 dolāri ir izmaksas fine tuning. Qwen 2.5 modeļa sintēzē, kurš tika izmantots par pamatu, Alibaba ir ielicis daudzus jo daudzus miljonus. Tikpat labi es varētu paņemt Qwen 2.5 72B, uzrakstīt custom instrukcijas un apgalvot, ka esmu izveidojis ChatGPT konkurentu, iztērējot necik.
Man lūdzu 16 “Nvidia H100” par $50.
Tiem, kas nezina, neviens neapmāca AI modeļus on premises. Tiek īrēti virtuālie serveri Amazon AWS, Google Cloud vai Microsoft Azure, kur tiek iemaksāti tie paši 50$ un var “nopirkt” laiku uz kaut vai tūkstoš H100 vai H200 kartēm. Visticamāk gan ar 50$ pietiktu tikai, lai apmaksātu dažas minūtes procesēšanas laika
Ahujennais sasniegums kad citi jau smagāko darbu ir izdarījuši tavā vietā. Novelc LLM no github, uzlaid mācīties uz Gemini, un tad paziņo, ka AI ir elementārs sūds, kas neko nemaksā un katrs skolnieks var uztaisīt…