GRASP planuje długoterminowo. Modele świata nareszcie działają.

Q: Jak GRASP to obchodzi?

Badacze z Berkeley opublikowali GRASP — metodę gradientowego planowania dla modeli świata, która radzi sobie z horyzontami czasowymi, gdzie inne metody się sypią.

Q: Czy gradient wystarczy do sterowania robotem?

Badacze z Berkeley opublikowali GRASP — metodę gradientowego planowania dla modeli świata, która radzi sobie z horyzontami czasowymi, gdzie inne metody się sypią.

Badacze z Berkeley AI Research opublikowali GRASP — metodę gradientowego planowania dla modeli świata, która atakuje jeden z najtwardszych problemów w uczeniu maszynowym: co zrobić, gdy agent musi planować na wiele kroków do przodu, a błędy kumulują się szybciej niż model zdąży je skorygować.

Modele świata mają problem z pamięcią długoterminową

Modele świata (world models) to w skrócie nauczony symulator — agent uczy się przewidywać, jak jego akcje zmieniają środowisko, zamiast próbować wszystkiego na żywo. Problem polega na tym, że przy długich horyzontach planowania błędy predykcji narastają lawinowo. Po 50 krokach model świata może serwować kompletne bzdury, a agent na podstawie tych bzdur podejmuje kolejne decyzje.

Większość dotychczasowych podejść albo skracała horyzont planowania do bezpiecznych kilku kroków, albo robiła kosztowne próbkowanie Monte Carlo w nadziei, że jakaś trajektoria trafi w optimum. Ani jedno, ani drugie nie skaluje się dobrze.

Jak GRASP to obchodzi?

GRASP (Gradient-based planning) idzie inną drogą — propaguje gradienty bezpośrednio przez rozwinięty w czasie model świata, żeby zoptymalizować całą sekwencję akcji naraz. To trochę jak backpropagation przez czas, ale zamiast trenować sieć, optymalizujesz plan działania.

Brzmi jak przepis na eksplodujące gradienty — i tu właśnie tkwi sedno wkładu badaczy. Zespół z Berkeley opracował techniki stabilizacji tego procesu, które pozwalają faktycznie wykręcić użyteczne plany na horyzontach, gdzie wcześniej metody gradientowe się rozjeżdżały.

Demonstracjami są dwa zadania robotyczne: BallNav, gdzie agent musi nawigować piłką przez przeszkody, oraz Push-T, klasyczny benchmark manualnej manipulacji obiektami wymagający precyzyjnego sekwencjonowania ruchów. Oba wymagają planowania na wielu krokach z dokładnym przewidywaniem fizyki.

Czy gradient wystarczy do sterowania robotem?

Tu pojawia się realne pytanie. Gradientowe planowanie zakłada, że model świata jest różniczkowalny — a to dość silne założenie. Prawdziwe środowiska fizyczne mają kontakty, tarcie, nieciągłości. Ile z tej magii zostaje, gdy model musi obsłużyć zderzenia zamiast gładkich trajektorii?

Badacze testowali to właśnie na zadaniach z kontaktem fizycznym — Push-T wymaga pchania obiektu z precyzją, co implikuje nieciągłości w dynamice. Wyniki na gifach demonstracyjnych wyglądają przekonująco, ale szczegółowe liczby porównawcze z konkurencyjnymi metodami wymagają lektury pełnego paperu.

Historycznym problemem gradientowego planowania jest też tzw. local minima — optymalizator wpada w lokalne minimum i tkwi tam, zamiast znaleźć globalnie lepszą trajektorię. GRASP musi jakoś z tym walczyć, bo w zadaniach manipulacji lokalne minima to norma, nie wyjątek.

Berkeley znowu bawi się w model-based RL

Berkeley od lat jest jednym z głównych ośrodków model-based reinforcement learning. Wcześniejsze prace tego środowiska — MBPO, PETS, Dreamer (choć ten ostatni to DeepMind) — ustawiły standardy w tej niszy.

GRASP trafia w moment, gdy zainteresowanie world models mocno rośnie. Yann LeCun od lat promuje architekturę JEPA jako przyszłość AI opartą właśnie na modelach świata. Tesla używa wewnętrznych world models do symulacji jazdy. DeepMind wbudował world model w Gato i kolejne systemy.

Różnica między akademicką pracą z Berkeley a tymi zastosowaniami jest taka, że GRASP skupia się na wydajnym planowaniu w czasie inferencji, nie tylko na jakości nauczonego modelu. To przesunięcie akcentu: zakładamy, że model świata mamy — pytanie brzmi, jak go efektywnie wykorzystać do długoterminowych decyzji.

Skalowanie poza benchmarki

BallNav i Push-T to czyste, kontrolowane środowiska. Interesujące będzie, czy metoda utrzyma przewagę na bardziej chaotycznych domenach — robotyce w otwartym świecie, grach z dużą przestrzenią akcji albo zadaniach wymagających rozumowania na poziomie symbolicznym, nie tylko fizycznym.

Pełna publikacja dostępna jest na blogu BAIR pod adresem bair.berkeley.edu.