Tie, kuri ikdienā izmanto mākslīgā intelekta (MI) čatbotus, gan jau būs novērojuši, ka pārāk ilgas sarunas tos nogurdina. Nereti tas izpaužas kā aplami apgalvojumi, kļūdainas, neprecīzas atbildes. Par to pārliecinājies arī “Microsoft”, kas ar “Salesforce” veiktā pētījumā secinājis, ka pēc garām sarunām MI čatboti tiešām mēdz stāstīt aplamības.
Pētījuma ietvaros tika analizētas vairāk nekā 200 000 sarunas ar populāriem MI modeļiem, tostarp “GPT-4.1”, “Gemini 2.5 Pro”, “Claude 3.7 Sonnet”, “o3”, “DeepSeek R1” un “Llama 4”. Pētnieki secinājuši, ka īsās sarunās tie darbojas ļoti labi un 90 % gadījumu sniedz precīzu un izsmeļošu informāciju. Taču garās sarunās vai situācijās, kad lietotājs uzdod vairākus jautājumus pēc kārtas, sākas ziepes, un precizitāte noslīd līdz 65 %. Tas nenozīmē, ka MI čatbots pēkšņi kļūst stulbāks. Tas sarunas gaitā vienkārši var apjukt vai balstīties uz iepriekš sniegtu kļūdainu informāciju.
Ir vairāki iemesli, kāpēc MI čatboti tā uzvedas. Pirmkārt, tie var atbildēt pārāk ātri, pirms vēl lietotājs ir devis pilnīgu informāciju vai izskaidrojis problēmu. Otrkārt, patiesībā liela problēma ir tieši garas sarunas. Jo ilgāk čats turpinās, jo atbildes kļūst garākas, un čatbots tajās iepin vairāk pieņēmumu un nepārbaudītu informāciju. Līdz ar to galvenais secinājums ir tāds, ka čatbots ir noderīgs rīks, taču lielākoties īsās sarunās.




Kolosāli vērtīgs pētījums. Izanalizēts GPT-4.1 laikā kad aktuālais modelis ir 5.3, Gemini 2.5, kad aktuālais modelis ir 3.1 un Sonet 3.7 ar aktuālo modeli 4.6.
Starp šīm versijām atšķirība ir kosmoss, un ka šis pētījums iznācis šobrīd tad tas ir bijis viens fantastiski bezjēdzīgs veids izmest naudu neaktuālā pētījumā.
Bet kādi virsraksti top. Par iztērēto naudu ir jāatskaitās ar kaut kādiem rezultātiem. Kamēr to veic, gads paiet. Informācija sen jaubir novecojusi, bet šo pētījumu izmantos kā virsrakstu, ka viss ir slikti arī pēc gada.
Konkrēti šajā gadījumā neredzu lielu atšķirību starp tā laika un šī brīža modeļiem. Garākās sarunās ChatGPT joprojām raksta muļķības un daudz kļūdās. Varbūt citi modeļi ir uzticamāki.
Pat ja atšķirība ir liela, tomēr arhitektūras līmenī problēma nav atrisināta. Jo lielāks konteksts, jo vairāk modeļi apjūk. Tāda nu ir tā “LLM fizika”. Jāgaida citas arhitektūras, kas operē nevis ar valodu, bet idejām. Jans Lekuns jau kaut ko perina… Atslēgvārdi JEPA un “large concept models” un “latent space reasoning”.
Kad man uznāk vēlme pafantazēt un izspēlēt ar MI garus fantastikas piedzīvojumus, šo problēmu kaut cik palīdz atrisināt automātiska apkopošana. Kad konteksts pārsniedz manu izvēlēto apjomu (10k tokenu), mana programma automātiski nosūta MI pieprasījumu apkopot sarunu un tad padodu tam atpakaļ apkopojumu un dažus pēdējos ziņojumus. Rezultāts ir diezgan labs, tā var uzturēt dienām ilgu piedzīvojumu stāstu un arī izmaksu ziņā sanāk daaaudz lētāk nekā ja sūtītu visu kontekstu.
Viss pareizi, MI cenšās balstīties uz iepriekšējo sarunu, bet to ne vienmēr tā vajag darīt. Tāpēc tev pašam jāsaprot kurā brīdī pareikt – mainās tēma vai sarunas temats.
Es katrai tēmai/sarunai taisu jaunu pavedienu un nemēģinu visu maukt vienā.
Ja nav nekas parāk svarigs ,var 3 tēmas vienā sarunā.
Vismaz es savas betiņas tā pedējā laikā pulos uztrennēt.
Pareizi jau ir, ilgstoši runājot vienā sarakstē, Mi pazeminās līdz sarunas biedra līmenim. Un, kā jau minēts, kļūst attiecīgi dumjāks 😅
Paga. Tad Zeme ir plakana ja?
Pietiek palasīt FB vai Threads, kā un ko tauta caurmērā raksta un par ko domā, lai MI čatbotam nebūtu izaugsmes cerību. 10% sabiedrības ir turīgi, 20% ir ar prāta spējām, pārējie – liels jautājums.
Jā.Kā kurā reizē un kā kurā tēmā.Parasti pēc kāda laika sāk atkārtot vienus un tos pašus faktus.Līdzīgs iespaids- kā kad cilvēkam zud koncentrēšanās spējas.
Ieteiktu prasīt svarigāko sākumā un citu tēmu izvērst citā sarunā/ ieejot atkal no jauna/
BET es esmu pazistama tikai ar betām.Tām ir mazāki ierobežojumi un labākas spriestspējas.
Šeit jautājums pēc būtības – kas īsti skaitās “garākas sarunas”? Vai 15 jautājumi , 100 , sarunas sadalītas pakārtotos pavedienos, bet varbūt t.s. “projekti”, “bibliotēkas? Tāpat jautājums – vai 15 vaicājumi, kur katrā ir tikai 1 jautājums vai 10 (piem. kopā ar paša paskaidrēm, no kā jautājumi izriet)? Utt. Te nav viennozīmīga skaidrojuma un izpētes metodikas, lai varētu šādi secināt.
Ja tas tā ir, tas pierāda, ka MI definīcija tiek vazāta apkārt bez pamatojuma. MI čatbots pašapmācītos, ja tur tās MI komponentes reāli būtu. Bet varbūt MI pārāk daudz sarunājas ar poor Baltics? Tur nekas labs nevar sanākt. :)
Tāpēc, ka tokeni ātrāk beidzas. Tā iepriekšējo sarunu analīze paņem laiku un nav vairs laika kārtīgi atbildēt.