Claude 4 Opus miażdży GPT-5 w kodowaniu. 72.5% na SWE-bench

72.5% — nowy rekord SWE-bench

Claude 4 Opus wykręcił 72.5% na SWE-bench, benchmarku testującym zdolność modeli AI do rozwiązywania prawdziwych issue’ów z repozytoriów GitHub. Dla porównania — poprzedni lider, Claude 3.5 Sonnet, osiągał około 49%. Skok o ponad 23 punkty procentowe w jednej generacji to coś, czego branża nie widziała od premiery GPT-4.

SWE-bench nie sprawdza czy model potrafi napisać funkcję sortującą listę. Testuje coś znacznie trudniejszego — model dostaje opis buga z prawdziwego projektu open source, musi zlokalizować problem w kodzie źródłowym, zrozumieć architekturę i wrzucić działający patch. To zadanie, przy którym większość juniorów programistów miałaby problemy.

GPT-5 w tyle

Anthropic ogłosił że Claude 4 Opus wyprzedza GPT-5 w zadaniach programistycznych. Firma nie podała konkretnych liczb porównawczych, więc nie wiemy czy mówimy o różnicy 2 czy 15 punktów procentowych. OpenAI nie skomentował jeszcze tych twierdzeń.

Warto pamiętać że firmy AI lubią dobierać benchmarki pod siebie. Anthropic chwali się SWE-bench, bo tam wygrywa. OpenAI pewnie znajdzie test, w którym GPT-5 miażdży konkurencję. Tak działa marketing w tej branży.

Niemniej SWE-bench ma konkretną zaletę — używa prawdziwego kodu z prawdziwych projektów. Trudno go zhackować trenując model na danych testowych, bo issue’y pochodzą z różnych repozytoriów i dotyczą różnych języków programowania.

Agentyczne kodowanie — co to właściwie znaczy

Anthropic mocno podkreśla że Claude 4 Opus to model zaprojektowany pod agentyczne podejście. Zamiast odpowiadać na pojedyncze prompty, ma samodzielnie planować wieloetapowe zadania.

W praktyce wygląda to tak — dajesz Claude’owi dostęp do terminala i systemu plików, opisujesz co chcesz osiągnąć, a on sam decyduje jakie pliki otworzyć, jakie komendy odpalić, jak debugować błędy. Nie musisz prowadzić go za rękę przez każdy krok.

To zmiana paradygmatu. Dotychczas LLM-y były interaktywnymi asystentami — zadajesz pytanie, dostajesz odpowiedź, poprawiasz, iterujesz. Agent działa bardziej jak junior developer, któremu zlecasz zadanie i wracasz po godzinie sprawdzić efekty.

Czy to działa w praktyce? Benchmark sugeruje że tak, ale 72.5% to wciąż nie 100%. Prawie co trzeci bug Claude 4 Opus rozwiązuje źle lub wcale. W produkcyjnym kodzie to nadal wymaga code review przez człowieka.

Co z ceną i dostępnością

Anthropic nie podał jeszcze cennika dla Claude 4 Opus. Poprzednia wersja Opus (Claude 3 Opus) kosztowała $15 za milion tokenów wejściowych i $75 za milion wyjściowych — ponad 10x drożej niż Sonnet. Można założyć że nowy Opus będzie w podobnym przedziale cenowym, czyli modelem dla firm z budżetem, nie dla hobbystów.

Dostępność też pozostaje pytaniem. Claude 3 Opus przez długi czas był dostępny tylko przez API i plan Pro, bez opcji darmowego testowania. Anthropic nie wspomniał czy tym razem będzie inaczej.

Wyścig się zaostrza

Premiera Claude 4 Opus to kolejny sygnał że wyścig AI przyspiesza zamiast zwalniać. OpenAI wypuścił GPT-5 kilka tygodni temu. Google podobno szykuje Gemini 2.5 Ultra na kwiecień. Meta testuje Llama 4 w zamkniętym gronie partnerów.

Dla programistów to dobra wiadomość — konkurencja oznacza lepsze narzędzia. Dla branży AI to pytanie o sustainability. Trenowanie modeli tej klasy kosztuje setki milionów dolarów. Anthropic zebrał ostatnio $2 mld od Amazon, ale ta kasa nie jest nieskończona.

Claude 4 Opus jest dostępny od dziś przez API Anthropic. Model Claude 4 Sonnet — tańsza, szybsza wersja — ma pojawić się w ciągu najbliższych tygodni.