Benchmarki AI są zepsute. Branża szuka zamiennika.

Benchmarki AI mierzą nie to, co trzeba

MIT Technology Review stawia twardą tezę: branża AI od dekad używa benchmarków, które były sensowne w 2012 roku, a dziś wprowadzają w błąd. Standardowe testy — czy model pokona człowieka w szachach, matematyce olimpijskiej albo kodowaniu — dają wyniki, które wyglądają świetnie w komunikatach prasowych, ale słabo korelują z tym, czy dany system faktycznie przyda się w pracy.

Problem jest strukturalny. Benchmark to statyczna lista zadań z góry zdefiniowanymi odpowiedziami. Model trenuje się na miliardach tokenów z internetu, a internet zawiera już wcześniejsze wersje tych samych benchmarków, odpowiedzi użytkowników i dyskusje o nich. Wynik: modele de facto uczą się testów, a nie umiejętności, które testy miały mierzyć. Nazywa się to contamination — skażenie danych treningowych danymi ewaluacyjnymi.

Wykręcić 90% na MMLU to za mało

GPT-4 zdobył ponad 86% na MMLU (Massive Multitask Language Understanding), który przez lata był złotym standardem. Kilka miesięcy po premierze GPT-4 kolejne modele przekroczyły 90%. Tymczasem użytkownicy zgłaszali, że te same modele gubią się w prostych zadaniach wieloetapowych albo hallucynują fakty, których MMLU nie testuje.

Podobna historia powtórzyła się z HumanEval — benchmarkiem mierzącym umiejętności kodowania. Modele wykręcają na nim wyniki powyżej 90%, ale inżynierowie wiedzą, że zlecenie im napisania działającego, produkcyjnego kodu to inna bajka. HumanEval sprawdza izolowane funkcje z jednym wejściem i jednym wyjściem. Prawdziwy kod to repozytoria, zależności, kontekst i debugowanie przez iteracje.

Kto proponuje alternatywy?

Środowisko nie stoi w miejscu. Kilka kierunków zbiera dziś największe zainteresowanie:

GAIA (General AI Assistants) — benchmark Meta i HuggingFace z 2023 roku testuje agentów AI na zadaniach wymagających wielu kroków, korzystania z narzędzi i rozumowania przyczynowo-skutkowego. Wyniki modeli są tam znacznie niższe — GPT-4 z pluginami zdobył około 15% na najtrudniejszym poziomie.
AgentBench — ocenia modele w ośmiu środowiskach symulujących prawdziwe zadania: obsługa baz danych, nawigacja po stronach, zarządzanie plikami. Tu też wyniki topowych modeli spadają dramatycznie w porównaniu z klasycznymi benchmarkami.
Evals oparte na danych syntetycznych — Anthropic i OpenAI budują własne, wewnętrzne zestawy testów generowane dynamicznie, żeby uniknąć skażenia. Szczegóły trzymają dla siebie.

Żaden z tych podejść nie stał się jeszcze standardem branżowym. Każda firma używa własnego zestawu metryk, co utrudnia porównywanie modeli i daje pole do cherry-pickingu wyników w komunikatach marketingowych.

Człowiek jako punkt odniesienia to zły pomysł

Głębszy problem leży w samym założeniu: że człowiek to właściwy benchmark. Jeśli model koduje szybciej niż przeciętny junior developer, to według starego paradygmatu — sukces. Ale to nie znaczy, że senior engineer chciałby puścić ten kod na produkcję bez review.

Poza tym AI wdrażane dziś w firmach rzadko działa solo. Działa jako element pipeline’u: zbiera dane, wywołuje API, przekazuje wyniki do kolejnego agenta albo człowieka. Ocenianie takiego systemu przez pryzmat tego, czy bije człowieka w izolowanym zadaniu, mija się z celem.

Anthropic wprost przyznało w jednym z technicznych raportów z 2024 roku, że wewnętrznie traktuje benchmarki jako wskaźnik minimalny, a nie miarę możliwości. OpenAI podobnie zaczęło akcentować evals zadaniowe przy premierze o3.

Branża zarabia na słabości benchmarków

Cyniczny wniosek jest taki, że obecny system działa całkiem dobrze — dla firm AI. Wysoki wynik na popularnym benchmarku to darmowy PR. Trudno go zakwestionować, bo metodologia jest skomplikowana, a przeciętny dziennikarz nie będzie weryfikował, czy dane treningowe były czyste.

Niezależne organizacje takie jak EleutherAI czy Hugging Face próbują budować otwarte, weryfikowalne zestawy ewaluacyjne. Scale AI ogłosiło w 2024 roku własną platformę SEAL do oceny modeli przez ekspertów dziedzinowych — nie automaty. Pytanie, czy te inicjatywy urosną szybciej niż kolejna iteracja MMLU-bis, którą ktoś wyda za sześć miesięcy.