Codex ma zakaz gadania o goblinach. Serio.
- OpenAI umieściło w systemowych instrukcjach agenta Codex zakaz rozmawiania o goblinach, gremlinach, szopach i innych stworzeniach.
- Zasada dopuszcza wyjątki tylko wtedy, gdy temat jest absolutnie i jednoznacznie powiązany z zadaniem kodowania.
- Ujawniony fragment promptu pokazuje, jak szczegółowe i nieoczekiwane bywają wewnętrzne reguły sterujące agentami AI.
W oficjalnych instrukcjach systemowych agenta Codex OpenAI zakazało mu rozmawiania o goblinach, gremlinach, szopach, trollach, ograch, gołębiach i „innych zwierzętach lub stworzeniach” — chyba że temat jest „absolutnie i jednoznacznie istotny”. Zdanie pochodzi wprost z ujawnionego fragmentu promptu sterującego tym narzędziem.
Skąd w ogóle gobliny w agentach kodowania?
Codex to agent zaprojektowany do pisania, debugowania i refaktoryzowania kodu. Logiczne pytanie brzmi: co goblin robi w systemowych instrukcjach narzędzia do programowania? Odpowiedź jest prosta i trochę rozczarowująca — użytkownicy wyraźnie próbowali wciągnąć go w rozmowy fantasy albo kazali mu generować treści niezwiązane z kodem. OpenAI zdecydowało zatem zakleić tę dziurę na poziomie promptu, literalnie wymieniając kategorie fantastycznych stworzeń.
Zakaz jest sformułowany ze specyficzną precyzją. Nie ma tu ogólnego „nie rozmawiaj o tematach niezwiązanych z programowaniem” — jest konkretna lista: gobliny, gremliny, szopy, trolle, ogry, gołębie. Ktoś w OpenAI siedział i myślał: co jeszcze?
Prompt engineering w praktyce wygląda właśnie tak
To ujawnienie to rzadki wgląd w kuchnię instrukcji systemowych dużych modeli. Większość firm traktuje swoje prompty jak tajemnicę handlową i faktycznie mają ku temu powody — dobrze napisany prompt potrafi znacząco zmienić zachowanie modelu bez żadnego fine-tuningu.
Fragment z Codexa pokazuje, że praca nad agentami AI to często żmudne łatanie bardzo konkretnych dziur. Model zaczął gadać o goblinach — ktoś to zauważył, ktoś inny dopisał regułę, ktoś trzeci zatwierdził PR. Tak wygląda alignment w skali mikro.
Wewnętrzne dokumenty i wycieki promptów zdarzają się coraz częściej. Anthropic, OpenAI i Google regularnie mają swoje instrukcje systemowe odczytywane przez dociekliwych użytkowników próbujących ominąć ograniczenia modelu. Codex tym razem nie był celem ataku — OpenAI samo opublikowało fragment jako część dokumentacji.
Czy to śmieszne, czy niepokojące?
Obie odpowiedzi są poprawne jednocześnie. Z jednej strony zakaz gadania o goblinach brzmi jak materiał na mema i Hacker News zareagowało zgodnie z oczekiwaniami. Z drugiej — pokazuje realny problem z agentami AI działającymi autonomicznie.
Codex nie jest chatbotem do pogawędek. Ma wykonywać zadania: pisać kod, uruchamiać testy, commitować zmiany. Każda sekunda spędzona na dyskusji o folklorze to zmarnowany token i zmarnowany czas użytkownika. OpenAI wyceniło subskrypcję ChatGPT Pro z dostępem do agentów na 200 dolarów miesięcznie — przy takich kwotach dygresje o trollach bolą podwójnie.
Mechanizm jest też przejawem szerszego trendu: zamiast ufać, że model sam oceni co jest „na temat”, firmy coraz częściej piszą explicite listy zakazanych zachowań. To podejście działa, ale skaluje się fatalnie. Jutro pojawi się nowy edge case i ktoś dopisze zakaz rozmów o smokach.
Lista zakazanych stworzeń według OpenAI
Dla porządku, pełna lista z ujawnionego promptu:
- gobliny
- gremliny
- szopy pracze
- trolle
- ogry
- gołębie
- „inne zwierzęta lub stworzenia”
Ta ostatnia pozycja to klasyczna klauzula catch-all, która teoretycznie zakazuje Codexowi rozmów o kotach, dinozaurach i bakteriach — chyba że piszesz akurat symulator ekosystemu.
Fragment promptu pojawił się w oficjalnej dokumentacji OpenAI dotyczącej Codexa. Firma nie skomentowała, ile konkretnie sesji zakończyło się dyskusją o goblinach zanim ktoś zdecydował się to zablokować.”, “coverImageAlt”: “Ilustracja przedstawiająca agenta AI z kodem na ekranie i przekreślonym gobli