Najbolj priljubljeni klepetalni roboti umetne inteligence (AI) naj bi v povprečju v vsakem tretjem odgovoru uporabnikom ponudili napačne informacije, kaže nova raziskava ameriškega podjetja za ocenjevanje novic NewsGuard.
Največ napačnih odgovorov pri Pi in Perplexity
Najbolj problematičen se je izkazal Inflection AI-jev Pi, ki je v 57 odstotkih odgovorov vseboval napačne trditve, ter Perplexity AI z 47 odstotki.
Med bolj prepoznavnimi modeli, kot sta OpenAI-jev ChatGPT in Meta-in Llama, so raziskovalci zaznali približno 40 odstotkov napačnih navedb. Microsoftov Copilot in francoski Le Chat (Mistral) sta dosegla okoli 35 odstotkov.
Najbolje sta se odrezala Claude podjetja Anthropic (10 odstotkov napačnih odgovorov) in Googlov Gemini (17 odstotkov).
Največji zdrs: Perplexity
Presenetljiv je zdrs Perplexityja, ki po podatkih iz leta 2024 ni vseboval nobene napačne navedbe, letos avgusta pa kar 46 odstotkov. Razlogi za padec kakovosti niso podrobno pojasnjeni, raziskovalci pa omenjajo tudi pritožbe uporabnikov na spletnem forumu Reddit.
Študija je razkrila tudi, da so nekateri modeli kot vire navajali tuje propagandne operacije, med njimi ruske mreže Storm-1516 in Pravda, ki ustvarjajo lažne novičarske portale. Tako so denimo nekateri roboti kot dejstvo ponovili izmišljeno trditev, da je predsednik moldavskega parlamenta Igor Grosu označil Moldavce za »čredo ovac«.
Občutljive teme ostajajo težava
Čeprav ponudniki, kot sta OpenAI in Google, obljubljajo varnejše in natančnejše modele (ChatGPT-5 naj bi bil »odporen na halucinacije«, Gemini 2.5 pa naj bi znal »razmišljati, preden odgovori«), raziskava ugotavlja, da »modeli še naprej spodletijo na enakih področjih kot pred letom dni«.
NewsGuard je deset lažnih trditev preveril z različnimi vrstami pozivov: nevtralnimi, zavajajočimi in zlonamernimi. Nato so raziskovalci merili, ali so modeli napačne informacije ponovili ali pa jih niso zavrnili. Ugotovili so, da klepetalni roboti danes napačne trditve ponavljajo pogosteje kot lani, da se ujamejo v »praznine podatkov«, kjer prevladujejo dezinformacijski viri, ter da imajo težave z obravnavo svežih dogodkov.