Claude 4 Opus miażdży GPT-5 w kodowaniu. 72.5% na SWE-bench
- Claude 4 Opus osiągnął 72.5% na SWE-bench, co czyni go najlepszym modelem AI do zadań programistycznych w historii tego benchmarku.
- Model wyprzedza GPT-5 w testach kodowania, choć Anthropic nie podał szczegółowych porównań liczbowych między oboma systemami.
- Firma stawia na agentyczne podejście do programowania, gdzie AI samodzielnie planuje, pisze i debuguje kod bez ciągłej interwencji użytkownika.
72.5% — nowy rekord SWE-bench
Claude 4 Opus wykręcił 72.5% na SWE-bench, benchmarku testującym zdolność modeli AI do rozwiązywania prawdziwych issue’ów z repozytoriów GitHub. Dla porównania — poprzedni lider, Claude 3.5 Sonnet, osiągał około 49%. Skok o ponad 23 punkty procentowe w jednej generacji to coś, czego branża nie widziała od premiery GPT-4.
SWE-bench nie sprawdza czy model potrafi napisać funkcję sortującą listę. Testuje coś znacznie trudniejszego — model dostaje opis buga z prawdziwego projektu open source, musi zlokalizować problem w kodzie źródłowym, zrozumieć architekturę i wrzucić działający patch. To zadanie, przy którym większość juniorów programistów miałaby problemy.
GPT-5 w tyle
Anthropic ogłosił że Claude 4 Opus wyprzedza GPT-5 w zadaniach programistycznych. Firma nie podała konkretnych liczb porównawczych, więc nie wiemy czy mówimy o różnicy 2 czy 15 punktów procentowych. OpenAI nie skomentował jeszcze tych twierdzeń.
Warto pamiętać że firmy AI lubią dobierać benchmarki pod siebie. Anthropic chwali się SWE-bench, bo tam wygrywa. OpenAI pewnie znajdzie test, w którym GPT-5 miażdży konkurencję. Tak działa marketing w tej branży.
Niemniej SWE-bench ma konkretną zaletę — używa prawdziwego kodu z prawdziwych projektów. Trudno go zhackować trenując model na danych testowych, bo issue’y pochodzą z różnych repozytoriów i dotyczą różnych języków programowania.
Agentyczne kodowanie — co to właściwie znaczy
Anthropic mocno podkreśla że Claude 4 Opus to model zaprojektowany pod agentyczne podejście. Zamiast odpowiadać na pojedyncze prompty, ma samodzielnie planować wieloetapowe zadania.
W praktyce wygląda to tak — dajesz Claude’owi dostęp do terminala i systemu plików, opisujesz co chcesz osiągnąć, a on sam decyduje jakie pliki otworzyć, jakie komendy odpalić, jak debugować błędy. Nie musisz prowadzić go za rękę przez każdy krok.
To zmiana paradygmatu. Dotychczas LLM-y były interaktywnymi asystentami — zadajesz pytanie, dostajesz odpowiedź, poprawiasz, iterujesz. Agent działa bardziej jak junior developer, któremu zlecasz zadanie i wracasz po godzinie sprawdzić efekty.
Czy to działa w praktyce? Benchmark sugeruje że tak, ale 72.5% to wciąż nie 100%. Prawie co trzeci bug Claude 4 Opus rozwiązuje źle lub wcale. W produkcyjnym kodzie to nadal wymaga code review przez człowieka.
Co z ceną i dostępnością
Anthropic nie podał jeszcze cennika dla Claude 4 Opus. Poprzednia wersja Opus (Claude 3 Opus) kosztowała $15 za milion tokenów wejściowych i $75 za milion wyjściowych — ponad 10x drożej niż Sonnet. Można założyć że nowy Opus będzie w podobnym przedziale cenowym, czyli modelem dla firm z budżetem, nie dla hobbystów.
Dostępność też pozostaje pytaniem. Claude 3 Opus przez długi czas był dostępny tylko przez API i plan Pro, bez opcji darmowego testowania. Anthropic nie wspomniał czy tym razem będzie inaczej.
Wyścig się zaostrza
Premiera Claude 4 Opus to kolejny sygnał że wyścig AI przyspiesza zamiast zwalniać. OpenAI wypuścił GPT-5 kilka tygodni temu. Google podobno szykuje Gemini 2.5 Ultra na kwiecień. Meta testuje Llama 4 w zamkniętym gronie partnerów.
Dla programistów to dobra wiadomość — konkurencja oznacza lepsze narzędzia. Dla branży AI to pytanie o sustainability. Trenowanie modeli tej klasy kosztuje setki milionów dolarów. Anthropic zebrał ostatnio $2 mld od Amazon, ale ta kasa nie jest nieskończona.
Claude 4 Opus jest dostępny od dziś przez API Anthropic. Model Claude 4 Sonnet — tańsza, szybsza wersja — ma pojawić się w ciągu najbliższych tygodni.