Claude Opus 4 zbudował kompilator C bez nadzoru człowieka
- Anthropic uruchomił Claude Opus 4 w trybie agent teams i zlecił mu samodzielne zbudowanie kompilatora języka C bez bieżącego nadzoru inżynierów.
- Kompilator C to złożone narzędzie wymagające implementacji leksera, parsera, drzewa składniowego i generatora kodu maszynowego — zadanie, które zespołom programistów zajmuje miesiące.
- Anthropic opisuje eksperyment jako lekcję na temat autonomicznego wytwarzania oprogramowania i zapowiada publikację szczegółów technicznych.
Anthropic odpuścił i pozwolił agentom działać
Anthropik uruchomił Claude Opus 4 w konfiguracji “agent teams” — wiele równoległych instancji modelu pracujących nad jednym zadaniem — zlecił im zbudowanie kompilatora języka C, a potem, jak sami przyznają, “w większości odeszli”. Eksperyment opisują na swoim blogu inżynieryjnym jako lekcję na temat przyszłości autonomicznego wytwarzania oprogramowania.
Kompilator C to nie jest aplikacja do zrobienia w weekend. Wymaga zaprojektowania leksera, parsera, drzewa składniowego AST, generatora kodu pośredniego i backendu produkującego instrukcje maszynowe. Tradycyjnie takie projekty zajmują zespołom doświadczonych programistów miesiące, czasem lata.
Jak działa tryb agent teams?
W tej konfiguracji Claude nie jest pojedynczym asystentem odpowiadającym na pytania. Wiele instancji modelu pracuje równolegle nad różnymi częściami problemu, komunikuje się między sobą i koordynuje pracę. System sam decyduje o podziale zadań i strategii rozwiązania — człowiek nie micromanaguje każdego kroku.
To jakościowa różnica w stosunku do standardowego użycia modelu.
Dlaczego akurat kompilator C?
Wybór nie był przypadkowy. Kompilator C to jeden z lepszych benchmarków dla autonomicznych systemów — ma jasne kryteria sukcesu: kod albo się kompiluje i uruchamia, albo crashuje. Nie ma tu subiektywnej oceny stylu ani estetyki.
Do tego standard języka C jest precyzyjnie zdefiniowany, więc agenci mieli konkretną specyfikację, której się trzymać. Istnieją też tysiące gotowych testów weryfikujących poprawność kompilatorów — wynik można zmierzyć obiektywnie, bez interpretacji.
Złożoność architektoniczna projektu oznacza, że system musiał koordynować pracę nad wieloma współzależnymi komponentami jednocześnie. To sprawdzian z czegoś więcej niż pisanie kodu — to sprawdzian z planowania i koordynacji.
Czego Anthropic jeszcze nie ujawnił
Blog inżynieryjny Anthropic nie podaje kilku istotnych liczb. Nie wiemy, ile czasu trwał cały proces. Nie wiemy, ile razy system się wywalił i wymagał restartu. Nieznana jest jakość i wydajność skompilowanego kodu ani to, czy wygenerowany projekt jest utrzymywalny przez ludzkich programistów.
Anthropic zapowiedział publikację kolejnych szczegółów technicznych — bez konkretnej daty.
OpenAI i Google też to robią
Experyment wpisuje się w wyścig, który toczą wszyscy duzi gracze. OpenAI rozwija własne rozwiązania agentowe, Google DeepMind testuje podobne konfiguracje w projektach wewnętrznych. Anthropic opublikował jednak konkretny przypadek z nazwanym zadaniem i opisaną metodologią — to rzadziej spotykane podejście w branży, gdzie większość podobnych eksperymentów zostaje wewnątrz firmy.
Jeśli zestawy agentów potrafią samodzielnie zbudować kompilator — co z aplikacjami webowymi, systemami baz danych czy warstwami sieciowymi? Anthropic na razie nie odpowiada na to pytanie wprost.