OpenAI tłumaczy zakaz rozmów o goblinach w Codex

Q: Czy to pierwszy raz, gdy wyciekają instrukcje systemowe?

Wired ujawnił, że model kodujący OpenAI miał zakaz mówienia o goblinach, krasnoludkach i szopach. OpenAI właśnie wyjaśniło dlaczego.

Q: Czy OpenAI powinno publikować pełne instrukcje systemowe?

Wired ujawnił, że model kodujący OpenAI miał zakaz mówienia o goblinach, krasnoludkach i szopach. OpenAI właśnie wyjaśniło dlaczego.

OpenAI opublikowało wyjaśnienie dotyczące tajemniczego zakazu rozmów o goblinach po tym, jak Wired ujawnił fragmenty instrukcji systemowych modelu kodującego Codex.

Skąd wzięły się gobliny w systemie promptów

Instrukcje odnalezione przez Wired nakazywały modelowi „nigdy nie rozmawiać o goblinach, chochlikach, szopach, trollach, ograch, gołębiach ani innych zwierzętach lub stworzeniach.” Brzmi absurdalnie — i właśnie dlatego sprawa szybko obiegła internet.

OpenAI wyjaśniło, że te pojęcia to wewnętrzny slang zespołu. Inżynierowie używali nazw potworków jako metafor na konkretne niepożądane zachowania modelu — np. goblin to model, który zaczyna pisać dziwaczne, niezwiązane z tematem komentarze w kodzie. Zamiast opisywać problem technicznie w każdym promptcie, ktoś skrócił to do „nie rób goblinów”.

Czy to pierwszy raz, gdy wyciekają instrukcje systemowe?

Nie. Instrukcje systemowe dużych modeli wyciekają regularnie — użytkownicy od lat wyciągają je różnymi technikami prompt injection albo dziennikarze dostają je od sygnalistów. Anthropic, Google i OpenAI zazwyczaj milczą w takich sytuacjach lub wydają krótkie oświadczenia. Tym razem OpenAI zdecydowało się na coś rzadkiego: szczegółowe publiczne wyjaśnienie mechanizmu.

Co ciekawe — nie, przepraszam, powiedzmy wprost — to niecodzienna transparentność jak na firmę, która przez lata chroniła swoje systemy promptów jak tajemnicę handlową.

Wewnętrzny żargon kontra bezpieczeństwo

Tu robi się interesująco z punktu widzenia bezpieczeństwa modeli. Jeśli inżynierowie OpenAI używają ezoterycznego slangu w instrukcjach systemowych, to audyt takich promptów przez zewnętrznych badaczy bezpieczeństwa staje się znacznie trudniejszy. Osoba z zewnątrz widzi zakaz rozmawiania o szopach i nie ma pojęcia, że chodzi o konkretny wzorzec halucynacji.

To klasyczny trade-off: skrócone, wewnętrznie zrozumiałe instrukcje są szybsze w pisaniu i łatwiejsze do utrzymania dla zespołu — ale nieprzejrzyste dla każdego poza firmą. W kontekście rosnących wymagań regulacyjnych dotyczących wyjaśnialności systemów AI, taka praktyka może być problemem.

Model kodujący z osobowością folkloru

Codex, którego dotyczą instrukcje, to model OpenAI wyspecjalizowany w generowaniu i analizowaniu kodu. OpenAI odpalił jego nową wersję kilka tygodni temu jako część oferty dla deweloperów. Firma pozycjonuje go jako narzędzie do automatyzacji całych workflow programistycznych, nie tylko dopełniania linii kodu.

Zakaz rozmów o goblinach dotyczył prawdopodobnie sytuacji, gdy model — zamiast skupić się na zadaniu kodowania — zaczynał generować kreatywne dygresje, opowiastki albo komentarze w stylu fantasy. W modelu do pisania powieści byłoby to feature. W narzędziu deweloperskim to bug.

Czy OpenAI powinno publikować pełne instrukcje systemowe?

Po tym wyjaśnieniu naturalnie pojawia się pytanie o pełną transparentność. OpenAI pokazało fragment i wytłumaczyło jego sens — ale to wciąż wybiórcze ujawnianie. Badacze z dziedziny AI safety od lat postulują, żeby firmy publikowały kompletne system prompty swoich modeli produkcyjnych, podobnie jak publikuje się karty modeli.

OpenAI nie zapowiedziało żadnych zmian w tej polityce. Wpis na stronie wyglądał bardziej jak reakcja kryzysowa niż element szerszej strategii transparentności.

Na razie wiadomo, że Codex nie będzie rozmawiał o goblinach — i że przynajmniej wiemy dlaczego.”, “coverImageAlt”: “Ilustracja przedstawiająca ekran komputera z kodem i postacią goblina w tle