Pēdējā laikā “Anthropic” savam mākslīgā intelekta (MI) čatbotam “Claude” pievienojis vairākas noderīgas funkcijas, tostarp spēju atcerēties iepriekšējās sarunas. Tagad uzņēmums informējis, ka tā vadošie MI modeļi – “Claude Opus 4″ un “Claude Opus 4.1” -var pārtraukt sarunas, kas tiek uzskatītas par “pastāvīgi kaitīgām vai aizskarošām”. Visai pārsteidzoši, ka “Anthropic” apgalvo, ka tas tiek darīts nevis lietotāju drošības dēļ, bet MI modeļu aizsardzībai.
Sarunas pārtraukšanu “Anthropic” raksturo kā “pēdējo līdzekli” pēc tam, kad lietotāji atkārtoti lūguši “Claude” čatbotam ģenerēt potenciāli kaitīgu saturu, neņemot vērā iepriekšējos atteikumus to darīt. Ja “Claude” izvēlēsies pārtraukt sarunu, lietotājs vairs nevarēs sūtīt jaunas ziņas šajā konkrētajā sarunā. Tiesa, joprojām būs iespēja veidot jaunas sarunas un atkārtoti mēģināt nosūtīt iepriekšējos ziņojumus ar lūgumu ģenerēt nevēlamu saturu. Taču šādā veidā lietotājs, visticamāk, tikai izšķiedīs laiku, jo atkal saņems “Claude” atteikumu.
Testējot “Claude Opus 4” MI modeli, “Anthropic” secināja, ka tas izrādīja “spēcīgu un pastāvīgu nepatiku pret kaitīgu saturu”. Tas izteikti tika novērots situācijā, kad čatbotam tika lūgts uzģenerēt seksuāla rakstura saturu, kas saistīts ar nepilngadīgajiem, kā arī tad, kad tam bija jāsniedz informācija, kas varētu veicināt teroristikas darbības. Uzņēmums apgalvo, ka šajos gadījumos “Claude” izrādīja “acīmredzamas ciešanas” un “vēlmi pēc iespējas ātrāk pārtraukt šīs kaitīgās sarunas”.
Vienlaikus “Anthropic” norāda, ka sarunas, kas izraisa šāda veida reakciju no čatbota, esot “ekstrēmi gadījumi” un piebilst, ka lielākā daļa lietotāju ar to nesaskarsies, pat ja tēmas būs pretrunīgas, ieskaitot kaitējuma nodarīšanu sev vai citiem. Šajā ziņā uzņēmums sadarbojas ar tiešsaistes krīzes atbalsta sniedzēju “Throughline”, kas palīdz ģenerēt atbildes uz vaicājumiem, kas saistīti ar paškaitējumu un garīgo veselību.




Viena no lietām, kas mašīnu izpildījumā bojās un traucēs cilvēka dzīvei nākotnē – jau tagad traucē, un dažos gadījumos nepārsūdzami – ir minēta šajā rakstā. Atliek tikai sastādīt noteikumus ar nevēlamiem atslēgas vārdiem. Ieskaitot ar rupjām loģikas kļūdām, bet ar formāli attaisnotu pieeju. Bots no viena DC++ kolektīvā čata meta ārā par to, ka uzrakstīji vārdus Piebalgas alus. Tagad tas ir nonācis jaunā līmenī.
Jā un uzbrukuma taktiku arī neatklāj. Tikai aizsargāties un vērsties policijā. Tas viss domāts dārzeņiem. Dc++ brīvi lejuplādē porno bet piebalgas alu filtrē. Dilema.
Tur nav daudz variantu. 1) DC servera admins dēļ jaunības muļķības reiz pārlietojies Piebalgas alu un tagad viņam pret to ir alerģija, 2) viņš ir daļā ar kādu citu alus ražotāju.
Senāk.kaut kādā tusiņā dzirdeēju kaut kāda prinča viedokli uzskatu, ka ir tādas meitenes kuras ir kā alus. Viegli dabūt, padzert, neliels reibums un atslābinājums. Varbūt šis savā demobiskajā hubā vēršas pret cilvēkiem kuru ar Piebalgas alu domā meitenes no piebalgas.
Ir viens, ko tu nesaskati. Vārdā Piebalga ir atrodams lamu vārds ebal. :) Šis ir labs piemērs mašinālai domāšanai un izpildījumam.