Codex ma zakaz gadania o goblinach. Serio.

Q: Skąd w ogóle gobliny w agentach kodowania?

OpenAI wpisało do instrukcji agenta Codex oficjalny zakaz wspominania goblinów, gremlinów, szopów i trolli — chyba że temat naprawdę tego wymaga.

Q: Czy to śmieszne, czy niepokojące?

OpenAI wpisało do instrukcji agenta Codex oficjalny zakaz wspominania goblinów, gremlinów, szopów i trolli — chyba że temat naprawdę tego wymaga.

W oficjalnych instrukcjach systemowych agenta Codex OpenAI zakazało mu rozmawiania o goblinach, gremlinach, szopach, trollach, ograch, gołębiach i „innych zwierzętach lub stworzeniach” — chyba że temat jest „absolutnie i jednoznacznie istotny”. Zdanie pochodzi wprost z ujawnionego fragmentu promptu sterującego tym narzędziem.

Skąd w ogóle gobliny w agentach kodowania?

Codex to agent zaprojektowany do pisania, debugowania i refaktoryzowania kodu. Logiczne pytanie brzmi: co goblin robi w systemowych instrukcjach narzędzia do programowania? Odpowiedź jest prosta i trochę rozczarowująca — użytkownicy wyraźnie próbowali wciągnąć go w rozmowy fantasy albo kazali mu generować treści niezwiązane z kodem. OpenAI zdecydowało zatem zakleić tę dziurę na poziomie promptu, literalnie wymieniając kategorie fantastycznych stworzeń.

Zakaz jest sformułowany ze specyficzną precyzją. Nie ma tu ogólnego „nie rozmawiaj o tematach niezwiązanych z programowaniem” — jest konkretna lista: gobliny, gremliny, szopy, trolle, ogry, gołębie. Ktoś w OpenAI siedział i myślał: co jeszcze?

Prompt engineering w praktyce wygląda właśnie tak

To ujawnienie to rzadki wgląd w kuchnię instrukcji systemowych dużych modeli. Większość firm traktuje swoje prompty jak tajemnicę handlową i faktycznie mają ku temu powody — dobrze napisany prompt potrafi znacząco zmienić zachowanie modelu bez żadnego fine-tuningu.

Fragment z Codexa pokazuje, że praca nad agentami AI to często żmudne łatanie bardzo konkretnych dziur. Model zaczął gadać o goblinach — ktoś to zauważył, ktoś inny dopisał regułę, ktoś trzeci zatwierdził PR. Tak wygląda alignment w skali mikro.

Wewnętrzne dokumenty i wycieki promptów zdarzają się coraz częściej. Anthropic, OpenAI i Google regularnie mają swoje instrukcje systemowe odczytywane przez dociekliwych użytkowników próbujących ominąć ograniczenia modelu. Codex tym razem nie był celem ataku — OpenAI samo opublikowało fragment jako część dokumentacji.

Czy to śmieszne, czy niepokojące?

Obie odpowiedzi są poprawne jednocześnie. Z jednej strony zakaz gadania o goblinach brzmi jak materiał na mema i Hacker News zareagowało zgodnie z oczekiwaniami. Z drugiej — pokazuje realny problem z agentami AI działającymi autonomicznie.

Codex nie jest chatbotem do pogawędek. Ma wykonywać zadania: pisać kod, uruchamiać testy, commitować zmiany. Każda sekunda spędzona na dyskusji o folklorze to zmarnowany token i zmarnowany czas użytkownika. OpenAI wyceniło subskrypcję ChatGPT Pro z dostępem do agentów na 200 dolarów miesięcznie — przy takich kwotach dygresje o trollach bolą podwójnie.

Mechanizm jest też przejawem szerszego trendu: zamiast ufać, że model sam oceni co jest „na temat”, firmy coraz częściej piszą explicite listy zakazanych zachowań. To podejście działa, ale skaluje się fatalnie. Jutro pojawi się nowy edge case i ktoś dopisze zakaz rozmów o smokach.

Lista zakazanych stworzeń według OpenAI

Dla porządku, pełna lista z ujawnionego promptu:

gobliny
gremliny
szopy pracze
trolle
ogry
gołębie
„inne zwierzęta lub stworzenia”

Ta ostatnia pozycja to klasyczna klauzula catch-all, która teoretycznie zakazuje Codexowi rozmów o kotach, dinozaurach i bakteriach — chyba że piszesz akurat symulator ekosystemu.

Fragment promptu pojawił się w oficjalnej dokumentacji OpenAI dotyczącej Codexa. Firma nie skomentowała, ile konkretnie sesji zakończyło się dyskusją o goblinach zanim ktoś zdecydował się to zablokować.”, “coverImageAlt”: “Ilustracja przedstawiająca agenta AI z kodem na ekranie i przekreślonym gobli