Grok, Claude, Gemini i ChatGPT. Cztery wersje faktów o Iranie

Cztery najpopularniejsze chatboty AI dostały to samo pytanie o wypowiedź sekretarza stanu Marco Rubio na temat celów wojennych Trumpa wobec Iranu — i każdy odpowiedział inaczej. Fast Company przeprowadził prosty test: wrzucił jedno pytanie do Groka, Claude’a, Gemini i ChatGPT, oczekując weryfikacji faktów. Dostał cztery różne wersje rzeczywistości.

Jedno pytanie, cztery różne fakty

Eksperyment nie wymagał skomplikowanego promptowania ani zaawansowanej wiedzy technicznej. Dziennikarze Fast Company zapytali modele o stanowisko administracji Trumpa w kwestii Iranu — konkretnie o to, co twierdził Rubio. Żaden z chatbotów nie zgodził się z pozostałymi co do kluczowych szczegółów.

To nie jest kwestia niuansów interpretacyjnych. Rozbieżności dotyczyły konkretnych twierdzeń faktycznych — tego rodzaju informacji, które albo są prawdziwe, albo nie.

Dlaczego modele kłócą się o fakty?

Każdy z czterech modeli ma inny cutoff danych treningowych, inne źródła i — co ważniejsze — inną architekturę systemu odpowiedzi na pytania o bieżące wydarzenia polityczne. Grok od xAI ma dostęp do X w czasie rzeczywistym, co teoretycznie daje mu przewagę w aktualności. Gemini od Google może sięgać do indeksu wyszukiwarki. ChatGPT i Claude w podstawowych wersjach częściej opierają się na danych treningowych.

Problem w tym, że dostęp do aktualnych danych nie gwarantuje spójności odpowiedzi. Model może znaleźć dwa sprzeczne artykuły i wybrać ten, który lepiej pasuje do wzorców w jego treningu — nie koniecznie ten dokładniejszy.

Fact-checking przez AI to wciąż eksperyment

Chatboty były przez ostatnie dwa lata intensywnie marketingowane jako narzędzia do weryfikacji informacji. Newsrooomy na całym świecie testują ich integrację z procesami redakcyjnymi. Kilka organizacji fact-checkingowych odpalało pilotaże z automatycznym sprawdzaniem twierdzeń polityków.

Test Fast Company pokazuje, że przy pytaniach o bieżącą politykę zagraniczną — dziedzinę, gdzie fakty zmieniają się z dnia na dzień i gdzie stawką jest wiarygodność — modele nie osiągają poziomu zgodności potrzebnego do zastąpienia ludzkiego weryfikatora.

Co ciekawsze: żaden z modeli prawdopodobnie nie przyznał się do niepewności w sposób, który faktycznie ostrzegałby użytkownika przed potencjalną błędnością odpowiedzi. Chatboty mają systemową tendencję do odpowiadania z podobną pewnością siebie niezależnie od tego, czy opierają się na twardych danych, czy na ekstrapolacji.

Rubio jako test na aktualność

Wybór akurat wypowiedzi Rubio o Iranie nie jest przypadkowy z perspektywy metodologicznej. To temat, który:

dotyczy bieżącej polityki zagranicznej z wieloma szybko zmieniającymi się detalami
łączy publiczne wypowiedzi polityka z oficjalnym stanowiskiem administracji
wymaga rozróżnienia między tym, co Rubio powiedział, a tym, co faktycznie jest polityką USA

Każdy z tych elementów to osobna pułapka dla modelu językowego trenowanego na historycznych danych.

Cztery odpowiedzi, cztery różne rzeczywistości

Fast Company nie ujawnił w skrócie artykułu, która z odpowiedzi była najbliższa prawdy — to szczegół, który prawdopodobnie znajdzie się w pełnej wersji tekstu. Sam fakt rozbieżności jest jednak wystarczająco wymowny.

Użytkownik, który zapyta jednego chatbota o fakty polityczne i dostanie pewną, płynnie sformułowaną odpowiedź, nie ma żadnego sygnału, że trzy inne systemy odpowiedziałyby zupełnie inaczej. To strukturalny problem modeli, które optymalizują pod kątem spójności stylistycznej, nie faktograficznej.

Anthropic, OpenAI, Google i xAI pracują nad tzw. groundingiem — mechanizmami zakotwiczającymi odpowiedzi w weryfikowalnych źródłach. Perplexity zbudowało na tym całą swoją przewagę produktową, cytując źródła przy każdej odpowiedzi. Ale nawet cytowanie źródeł nie rozwiązuje problemu, gdy modele wybierają różne źródła do tego samego pytania.

Który z czterech chatbotów był najbliżej prawdy w kwestii Rubio i Iranu?