ChatGPT myli rekomendacje WIRED. Wszystkie odpowiedzi błędne.

ChatGPT nie wie, co poleca WIRED

Redakcja WIRED zapytała ChatGPT o konkretne rekomendacje produktowe ze swoich własnych recenzji — i dostała kompletnie błędne odpowiedzi. Nie jedną. Nie dwie. Wszystkie.

Test obejmował trzy kategorie: telewizory, słuchawki i laptopy. Każda z nich ma na WIRED regularnie aktualizowane rankingi oparte na rzeczywistych testach redakcyjnych. ChatGPT zamiast wskazać aktualne wybory recenzentów, odpalił własne wersje tych list — niezgodne z tym, co faktycznie opublikowała redakcja.

Dlaczego model nie może po prostu sprawdzić strony?

To jest sedno problemu. ChatGPT operuje na danych treningowych z określonego cutoff date, a zawartość stron internetowych zmienia się szybciej niż modele są retrenowane. WIRED regularnie aktualizuje swoje rankingi produktowe — nowy model słuchawek wychodzi, stary wypada z listy — i żaden statyczny snapshot danych treningowych tego nie nadąży.

Dodatkowy problem: model nie tylko nie zna aktualnych list, ale też nie sygnalizuje tej niewiedzy. Zamiast powiedzieć “nie mam dostępu do aktualnych rekomendacji WIRED”, generuje odpowiedź, która brzmi pewnie i kompetentnie, a jest po prostu zmyślona. To klasyczna hallucynacja — model woli dać cokolwiek niż przyznać się do luki.

Czym ChatGPT z wtyczką do przeglądania internetu? Tu pojawia się kolejna warstwa: nawet wersja z dostępem do sieci nie gwarantuje trafienia w aktualną, właściwą stronę z rankingiem. Zależy to od jakości indeksowania, struktury strony i tego, czy model w ogóle trafi na właściwy URL.

Problem jest szerszy niż jeden test

WIRED nie jest odosobnione. Każda redakcja z rankingami produktowymi — czy to The Verge, Rtings, czy Wirecutter — mierzy się z tym samym efektem: ChatGPT udaje eksperta od ich zawartości, nie będąc nim.

To ma konkretne konsekwencje dla użytkowników szukających rekomendacji zakupowych przez AI. Zamiast faktycznego researchu dostają syntetyczne odpowiedzi, które brzmią jak wynik research, a są kompilacją statystycznych wzorców z danych treningowych. Różnica między “model wie, że Sony WH-1000XM5 to aktualny numer jeden na liście WIRED” a “model wie, że Sony WH-1000XM5 to popularny produkt i że WIRED pisze o popularnych produktach” jest niewidoczna dla końcowego użytkownika.

Perplexity w tym teście wypadłoby prawdopodobnie lepiej — ten model wyraźnie indeksuje aktualne strony i cytuje źródła z linkami. Ale WIRED testował ChatGPT, bo to narzędzie, po które sięga większość ludzi szukających rekomendacji głosem lub przez interfejs czatowy.

Rekomendacje AI a ślepe zaufanie

OpenAI wrzuciło do ChatGPT możliwość wyszukiwania sieciowego w wybranych planach, ale domyślne zachowanie modelu to nadal generowanie odpowiedzi z pamięci. Użytkownik bez wiedzy technicznej nie wie, kiedy model sięga do sieci, a kiedy produkuje z głowy.

To nie jest niszowy problem dla entuzjastów technologii sprawdzających benchmarki. Miliony ludzi używają ChatGPT do decyzji zakupowych — od laptopów za 5 000 zł po słuchawki do codziennego użytku. Jeśli model konsekwentnie myli rekomendacje jednego z najbardziej rozpoznawalnych technologicznych mediów na świecie, skala błędnych decyzji zakupowych opartych na AI jest trudna do oszacowania.

Redakcja WIRED nie opublikowała przy okazji tego testu żadnej metodologii — ile pytań, w jakiej formie, czy testowali różne wersje modelu. Jeden test to nie audyt. Ale kierunek jest jasny: ChatGPT jako narzędzie do researchu produktowego opartego na konkretnych źródłach działa gorzej, niż większość użytkowników zakłada.

Czy OpenAI planuje lepiej integrować treści wydawców z odpowiedziami modelu? Negocjacje licencyjne z mediami trwają — m.in. z Condé Nast, wydawcą WIRED — ale na razie żadna umowa nie gwarantuje dokładności rekomendacji produktowych w czasie rzeczywistym.