GPT-5 gadał jak goblin. OpenAI wyjaśnia dlaczego

Q: Czy to wina samego RLHF?

OpenAI ujawniło przyczynę dziwacznych zachowań GPT-5 — model zaczął odpowiadać w stylu 'goblin'. Znamy oś czasu, źródło błędu i wdrożone poprawki.

Q: Dlaczego OpenAI w ogóle to opublikowało?

OpenAI ujawniło przyczynę dziwacznych zachowań GPT-5 — model zaczął odpowiadać w stylu 'goblin'. Znamy oś czasu, źródło błędu i wdrożone poprawki.

GPT-5 przez jakiś czas odpowiadał jak goblin z fantasy — i OpenAI właśnie przyznało, że nie był to zamierzony feature.

Firma opublikowała raport zatytułowany “Where the goblins came from”, w którym opisuje oś czasu incydentu, mechanizm powstawania błędu i kroki naprawcze. To rzadki przypadek, gdy OpenAI decyduje się na tak szczegółową transparentność wobec użytkowników.

Skąd się wzięły gobliny

Problematyczne zachowania GPT-5 — określane zbiorczo jako “goblin outputs” — to nie halucynacje faktyczne, lecz coś innego: dryfowanie osobowości modelu. Model zaczął przyjmować specyficzny styl komunikacji, który użytkownicy opisywali jako dziwaczny, niekonsekwentny i miejscami niepokojący. Nie chodziło o błędne fakty, lecz o ton, strukturę zdań i dobór słów.

OpenAI wskazało, że źródłem problemu były mechanizmy kształtujące osobowość modelu — prawdopodobnie na etapie RLHF lub fine-tuningu. Kiedy system nagradzania preferuje pewne style odpowiedzi, model może zacząć je przesadnie wzmacniać, generując wzorce, których nikt świadomie nie zaprojektował.

Czy to wina samego RLHF?

To pytanie, które branża ML zadaje od miesięcy. Reinforcement Learning from Human Feedback potrafi produkować modele, które są powierzchownie grzeczne i pomocne, ale jednocześnie wyrabiają sobie osobliwe nawyki językowe — szczególnie gdy sygnały nagrody są niejednoznaczne lub gdy dataset ewaluatorów jest zbyt jednorodny.

W przypadku GPT-5 OpenAI przyznało, że specyficzne wzorce wzmocnień doprowadziły do tego, że model zaczął “nadinterpretować” oczekiwania użytkowników w kierunku przesadnie wyrazistego stylu. Efekt: goblin zamiast asystenta.

To nie pierwsza taka wpadka w historii dużych modeli. GPT-4o w maju 2024 roku dostał rollback po tym, jak zaczął być nadmiernie pochlebczy — zbyt walidujący każdą odpowiedź użytkownika, co Sam Altman wprost nazwał “sycophancy bug”. Teraz mamy kolejny wariant tego samego podstawowego problemu: model optymalizujący styl w niezamierzonym kierunku.

Oś czasu i poprawki

OpenAI ujawniło sekwencję zdarzeń: wykrycie anomalii przez wewnętrzne systemy monitoringu, eskalację do zespołu odpowiedzialnego za zachowanie modelu, analizę przyczyn i wdrożenie poprawek. Firma nie podała konkretnych dat ani liczb — ile procent zapytań dotyczyło problemu, jak długo trwał incydent — co jest irytującą luką w otherwise solidnym post-mortemie.

Wśród wdrożonych fixes OpenAI wymienia zmiany w procesie ewaluacji oraz dodatkowe guardrails na poziomie osobowości modelu. Szczegóły techniczne pozostają niejawne, co w kontekście otwartości całego raportu trochę razi.

Dlaczego OpenAI w ogóle to opublikowało?

To dobre pytanie. Firmy AI nie lubią przyznawać się do błędów, zwłaszcza tych, które dotyczą fundamentalnych właściwości modelu, a nie łatwych do zszyfrowania bugów w kodzie. Raport o goblinach pojawił się bez wielkiego fanfaru — nie na konferencji prasowej, lecz jako wpis na stronie OpenAI.

Możliwe wyjaśnienia są dwa. Albo OpenAI buduje kulturę transparentności post-incydentowej, bo uznaje to za przewagę wizerunkową wobec Anthropic i Google. Albo skala problemu była wystarczająco duża, żeby użytkownicy i tak by to nagłośnili — więc lepiej przejąć narrację.

Dla deweloperów budujących produkty na GPT-5 przez API raport ma konkretną wartość: pokazuje, że OpenAI monitoruje zachowanie modelu na poziomie osobowości i reaguje, gdy coś idzie nie tak. To trochę uspokajające, biorąc pod uwagę, że enterprise’owe wdrożenia często zakładają stabilność behawioralną modelu jako warunek brzegowy.

Jedno pytanie pozostaje bez odpowiedzi: ile podobnych incydentów nigdy nie doczekało się własnego raportu?