Microsoft wie, dlaczego AI zawodzi. ADeLe to mierzy

Q: Czym różni się to od dotychczasowych narzędzi ewaluacyjnych?

Microsoft Research stworzył ADeLe — system mapujący zdolności LLM, który wyjaśnia porażki modeli i przewiduje wyniki na nieznanych zadaniach.

Q: Przewidywanie bez testowania — czy to działa?

Microsoft Research stworzył ADeLe — system mapujący zdolności LLM, który wyjaśnia porażki modeli i przewiduje wyniki na nieznanych zadaniach.

Q: Czy branża zaadoptuje nowy standard?

Microsoft Research stworzył ADeLe — system mapujący zdolności LLM, który wyjaśnia porażki modeli i przewiduje wyniki na nieznanych zadaniach.

Microsoft Research odkrywa, co naprawdę mierzą benchmarki AI

Microsoft Research opublikował ADeLe — framework, który zamiast pytać „ile punktów zdobył model?”, pyta „jakie zdolności ten model faktycznie posiada?” Standardowe benchmarki od lat mają ten sam problem: mówią, że GPT-4 zdobył 87% na egzaminie X, ale nie tłumaczą, dlaczego oblał zadanie Y i czy poradzi sobie z zadaniem Z, którego jeszcze nie testowaliśmy.

ADeLe (Ability Description & Level Estimation) podchodzi do sprawy inaczej. Zamiast traktować model jak czarną skrzynkę z wynikiem na końcu, system dekomponuje zadania na konkretne zdolności poznawcze — rozumowanie logiczne, pamięć roboczą, wnioskowanie przez analogię — i osobno ocenia poziom każdej z nich.

Czym różni się to od dotychczasowych narzędzi ewaluacyjnych?

Benchmarki jak MMLU, HumanEval czy BIG-Bench mierzą wynik końcowy. Zdałeś albo nie. ADeLe próbuje zbudować coś w rodzaju profilu psychometrycznego dla modelu — analogicznego do tego, jak testy IQ nie dają jednego wyniku, ale rozkładają inteligencję na podskale.

Praktyczna różnica jest taka: jeśli model zawodzi na zadaniu matematycznym, ADeLe wskaże, czy problem leży w rozumowaniu wieloetapowym, reprezentacji liczb, czy może w zrozumieniu treści zadania. To pozwala inżynierom AI odpalić konkretny fix zamiast strzelać w ciemno.

System działa przez przypisanie każdemu zadaniu “profilu zdolnościowego” — zestawu wymaganych umiejętności z określonym poziomem trudności. Następnie dopasowuje ten profil do zmierzonych zdolności konkretnego modelu i na tej podstawie generuje predykcję wyniku.

Przewidywanie bez testowania — czy to działa?

Najbardziej obiecująca część ADeLe to zdolność do przewidywania wyników na zadaniach, których model jeszcze nie widział. Microsoft twierdzi, że framework osiąga znacznie wyższą trafność predykcji niż ekstrapolacja z istniejących benchmarków.

To duża sprawa dla firm wdrażających LLM w produkcji. Zamiast przepuszczać model przez setki testów przy każdym update, można odpalić ADeLe, dostać profil zdolnościowy i wywnioskować, gdzie model będzie świecił, a gdzie obleje — jeszcze przed kosztownym procesem ewaluacji.

Microsoft testował framework na różnych rodzinach modeli, w tym własnych modelach Phi oraz modelach innych dostawców. Wyniki pokazują, że profil zdolnościowy jest stabilny i przewidywalny — zmiana rozmiaru modelu lub drobne dostrojenie daje przewidywalne przesunięcia w profilu.

Agenci AI i nowy problem ewaluacji

ADeLe pojawia się w momencie, gdy branża ma poważny kłopot z ewaluacją agentów AI. Single-turn benchmarki kompletnie nie nadają się do oceny systemów, które wykonują wieloetapowe zadania w pętli. Agent może wykręcić dobry benchmark na rozumieniu tekstu, a potem kompletnie się wysypać przy autonomicznym przeglądaniu internetu.

Framework Microsoft Research adresuje ten problem przez modelowanie zdolności potrzebnych do konkretnych typów zadań agentowych — planowania, śledzenia stanu, obsługi błędów. Zamiast pytać „czy agent wykonał zadanie?”, ADeLe pyta „czy agent miał zdolności potrzebne do wykonania tego zadania i na jakim poziomie?”

To podejście może zmienić sposób, w jaki firmy dobierają modele do konkretnych zastosowań. Zamiast kierować się ogólnym rankingiem na popularnym benchmarku, można dopasować profil zdolnościowy modelu do profilu wymagań konkretnego zadania produkcyjnego.

Czy branża zaadoptuje nowy standard?

To jest właśnie pytanie, które ADeLe pozostawia otwarte. Framework jest dobrze zaprojektowany i rozwiązuje realny problem — ale historia pokazuje, że zmiana standardów ewaluacyjnych w branży AI idzie opornie. MMLU ma swoje wady od lat, a firmy i tak go raportują w każdym papierze.

Microsoft ma jednak dźwignię, której brakuje akademickim propozycjom: integrację z Azure AI i bezpośredni dostęp do klientów enterprise, którzy płacą za modele i oczekują przewidywalnych wyników. Jeśli ADeLe wyląduje jako część standardowej dokumentacji modeli Phi lub narzędzi Azure AI Foundry, adopcja może pójść znacznie szybciej niż przy typowych paperach badawczych.

Microsoft Research nie podał jeszcze daty publicznego udostępnienia narzędzia ani szczegółów dotyczących ewentualnej integracji z Azure.”, “coverImageAlt”: “Ilustracja przedstawiająca sieć neuronową z rozłożonymi zdolnościami poznawczymi na ekranie