Claude Opus 4 zbudował kompilator C bez nadzoru człowieka

Q: Jak działa tryb agent teams?

Anthropic puścił Claude Opus 4 w konfiguracji wielu równoległych agentów i kazał mu zbudować kompilator C. Potem po prostu odszedł.

Q: Dlaczego akurat kompilator C?

Anthropic puścił Claude Opus 4 w konfiguracji wielu równoległych agentów i kazał mu zbudować kompilator C. Potem po prostu odszedł.

Anthropic odpuścił i pozwolił agentom działać

Anthropik uruchomił Claude Opus 4 w konfiguracji “agent teams” — wiele równoległych instancji modelu pracujących nad jednym zadaniem — zlecił im zbudowanie kompilatora języka C, a potem, jak sami przyznają, “w większości odeszli”. Eksperyment opisują na swoim blogu inżynieryjnym jako lekcję na temat przyszłości autonomicznego wytwarzania oprogramowania.

Kompilator C to nie jest aplikacja do zrobienia w weekend. Wymaga zaprojektowania leksera, parsera, drzewa składniowego AST, generatora kodu pośredniego i backendu produkującego instrukcje maszynowe. Tradycyjnie takie projekty zajmują zespołom doświadczonych programistów miesiące, czasem lata.

Jak działa tryb agent teams?

W tej konfiguracji Claude nie jest pojedynczym asystentem odpowiadającym na pytania. Wiele instancji modelu pracuje równolegle nad różnymi częściami problemu, komunikuje się między sobą i koordynuje pracę. System sam decyduje o podziale zadań i strategii rozwiązania — człowiek nie micromanaguje każdego kroku.

To jakościowa różnica w stosunku do standardowego użycia modelu.

Dlaczego akurat kompilator C?

Wybór nie był przypadkowy. Kompilator C to jeden z lepszych benchmarków dla autonomicznych systemów — ma jasne kryteria sukcesu: kod albo się kompiluje i uruchamia, albo crashuje. Nie ma tu subiektywnej oceny stylu ani estetyki.

Do tego standard języka C jest precyzyjnie zdefiniowany, więc agenci mieli konkretną specyfikację, której się trzymać. Istnieją też tysiące gotowych testów weryfikujących poprawność kompilatorów — wynik można zmierzyć obiektywnie, bez interpretacji.

Złożoność architektoniczna projektu oznacza, że system musiał koordynować pracę nad wieloma współzależnymi komponentami jednocześnie. To sprawdzian z czegoś więcej niż pisanie kodu — to sprawdzian z planowania i koordynacji.

Czego Anthropic jeszcze nie ujawnił

Blog inżynieryjny Anthropic nie podaje kilku istotnych liczb. Nie wiemy, ile czasu trwał cały proces. Nie wiemy, ile razy system się wywalił i wymagał restartu. Nieznana jest jakość i wydajność skompilowanego kodu ani to, czy wygenerowany projekt jest utrzymywalny przez ludzkich programistów.

Anthropic zapowiedział publikację kolejnych szczegółów technicznych — bez konkretnej daty.

OpenAI i Google też to robią

Experyment wpisuje się w wyścig, który toczą wszyscy duzi gracze. OpenAI rozwija własne rozwiązania agentowe, Google DeepMind testuje podobne konfiguracje w projektach wewnętrznych. Anthropic opublikował jednak konkretny przypadek z nazwanym zadaniem i opisaną metodologią — to rzadziej spotykane podejście w branży, gdzie większość podobnych eksperymentów zostaje wewnątrz firmy.

Jeśli zestawy agentów potrafią samodzielnie zbudować kompilator — co z aplikacjami webowymi, systemami baz danych czy warstwami sieciowymi? Anthropic na razie nie odpowiada na to pytanie wprost.