Microsoft mierzy roboty. AsgardBench testuje AI w kuchni

Q: Co dokładnie mierzy AsgardBench?

Microsoft Research opublikował AsgardBench — benchmark oceniający, jak dobrze AI radzi sobie z planowaniem zadań w środowiskach 3D.

Q: Dlaczego akurat teraz?

Microsoft Research opublikował AsgardBench — benchmark oceniający, jak dobrze AI radzi sobie z planowaniem zadań w środowiskach 3D.

Q: Kto może z tego skorzystać?

Microsoft Research opublikował AsgardBench — benchmark oceniający, jak dobrze AI radzi sobie z planowaniem zadań w środowiskach 3D.

Microsoft Research opublikował AsgardBench — benchmark zaprojektowany do oceny systemów AI, które muszą planować działania w oparciu o to, co faktycznie widzą w trójwymiarowym, interaktywnym środowisku.

Robot w kuchni to poważny problem badawczy

Scenariusz brzmi prosto: robot ma umyć kubek. Ale co, jeśli kubek jest już czysty? Co, jeśli zlew jest zajęty? Właśnie takie sytuacje — wymagające obserwacji, decyzji i korekty planu w locie — stanowią trzon testów AsgardBench. To dziedzina tzw. embodied AI, czyli systemów działających w środowiskach fizycznych lub symulowanych, gdzie percepcja wzrokowa bezpośrednio wpływa na każdy kolejny krok.

Dotychczasowe benchmarki dla agentów AI często testowały albo samo rozumowanie językowe, albo prostą nawigację. AsgardBench łączy jedno z drugim i dodaje trzeci wymiar: interaktywność. Agent musi nie tylko widzieć i planować, ale też wykonywać sekwencje działań, które zmieniają stan środowiska — i radzić sobie, gdy coś pójdzie nie tak.

Co dokładnie mierzy AsgardBench?

Benchmark ocenia kilka konkretnych zdolności:

Visually grounded planning — czy agent planuje na podstawie tego, co widzi, a nie tylko na podstawie instrukcji tekstowej
Interaktywne adaptowanie planu — czy system koryguje działania, gdy środowisko zmienia się w trakcie wykonywania zadania
Długie horyzonty decyzyjne — zadania wymagają wielu kroków, nie jednej odpowiedzi
Obsługa wyjątków — system musi rozpoznać, że sytuacja odbiega od założeń i odpowiednio zareagować

Środowisko testowe to realistyczna symulacja 3D, gdzie obiekty mają właściwości fizyczne, a ich stan zmienia się w zależności od działań agenta. To odróżnia AsgardBench od benchmarków opartych na statycznych obrazach lub prostych grach 2D.

Dlaczego akurat teraz?

Microsoft Research nie wybrał tego momentu przypadkowo. Przez ostatnie 18 miesięcy branża odpalała kolejne generacje multimodalnych modeli — GPT-4V, Gemini, Claude — ale brakowało standaryzowanego sposobu oceny, jak te modele radzą sobie w środowiskach wymagających działania, nie tylko odpowiedzi. Tekst i statyczny obraz to za mało, żeby ocenić przydatność AI w robotyce czy automatyzacji przestrzennej.

AsgardBench ma wypełnić tę lukę. Jeśli się przyjmie jako standard, producenci modeli będą musieli raportować wyniki właśnie na nim — podobnie jak dziś raportują na MMLU czy HumanEval.

Obecne modele nie wypadają dobrze

Wyniki wstępnych testów na AsgardBench pokazują, że nawet najnowsze systemy multimodalne mają poważne problemy z długoterminowym planowaniem w dynamicznych środowiskach. Modele radzą sobie przyzwoicie z krótką sekwencją kroków, ale ich skuteczność spada wyraźnie przy zadaniach wymagających więcej niż kilku decyzji z obserwacją. Konkretnych liczb Microsoft Research nie podał w dostępnym fragmencie materiału, ale sam fakt stworzenia benchmarku sugeruje, że wyniki były na tyle słabe, że miało sens mierzyć je systematycznie.

Kto może z tego skorzystać?

AsgardBench to narzędzie przede wszystkim dla zespołów badawczych rozwijających systemy robotyczne i agentów AI zdolnych do działania w przestrzeni fizycznej. Ale implikacje są szersze — każda firma budująca agentów do automatyzacji złożonych procesów (nie tylko robotycznych) zyska lepszy sposób walidacji, czy ich system faktycznie rozumie kontekst sytuacyjny, czy tylko dopasowuje wzorce.

Microsoft umieszcza AsgardBench w kontekście szerszego trendu: AI przestaje być tylko narzędziem do generowania tekstu i zaczyna być testowana jako agent działający w świecie. To zmienia wymagania ewaluacyjne — i Microsoft chce ustawić się jako ten, kto te wymagania definiuje.

Czy inne laboratoria zaadoptują AsgardBench jako standard, czy odpalą własne, konkurencyjne benchmarki — to pytanie, które zadecyduje o realnym wpływie tego projektu na kierunek badań nad embodied AI w najbliższych latach.