Gemini Robotics-ER 1.6: roboty lepiej widzą przestrzeń
- Google DeepMind wypuścił Gemini Robotics-ER 1.6, model skupiony na wzmocnieniu rozumowania przestrzennego w autonomicznych robotach.
- Nowa wersja wprowadza ulepszone przetwarzanie widoków z wielu kamer jednocześnie, co pozwala robotom lepiej orientować się w fizycznym środowisku.
- Model celuje w zadania wykonywane w realnym świecie, gdzie precyzja przestrzenna decyduje o powodzeniu operacji.
Google DeepMind wypuścił Gemini Robotics-ER 1.6 — nową wersję modelu zaprojektowanego specjalnie do sterowania autonomicznymi robotami w fizycznym świecie. Dwa obszary dostały największy zastrzyk uwagi inżynierów: rozumowanie przestrzenne i przetwarzanie obrazu z wielu kątów jednocześnie.
Robot musi widzieć jak człowiek — tylko lepiej
Problemy z percepcją przestrzenną to od lat pięta achillesowa robotyki. Człowiek instynktownie wie, że kubek stoi za talerzem i trzeba obejść przeszkodę — robot musi to wyliczyć. Gemini Robotics-ER 1.6 dostał ulepszony mechanizm rozumienia relacji między obiektami w trójwymiarowej przestrzeni, bez potrzeby ręcznego mapowania sceny przez inżyniera.
Kluczowa zmiana dotyczy obsługi wielu kamer naraz. Zamiast polegać na jednym oku — często wystarczającym w laboratorium, zawodnym w terenie — model integruje strumienie z kilku czujników wizualnych i buduje spójny obraz sytuacji. To podejście bliższe temu, jak pracują autonomiczne samochody, nie tradycyjne ramiona przemysłowe.
Czy to wystarczy do pracy poza laboratorium?
Tu zaczyna się ciekawy problem. Większość pokazów robotycznych wygląda świetnie na filmie: starannie oświetlone pomieszczenie, znane obiekty, powtarzalne zadania. Rzeczywiste magazyny, kuchnie szpitalne czy place budowy rządzą się innymi prawami — zmienne oświetlenie, bałagan, nieoczekiwane przeszkody.
DeepMind stawia właśnie na tę niszę. Fraza “real-world robotics tasks” w nazwie projektu to deklaracja, nie opis aktualnego stanu. Model ma rozwiązywać zadania wymagające rozumienia kontekstu fizycznego — chwytanie obiektów o nieregularnych kształtach, nawigacja w częściowo widocznych przestrzeniach, reagowanie na zmiany w otoczeniu bez ponownego trenowania.
Brakuje jednak konkretnych benchmarków z zewnętrznych testów. DeepMind opisuje możliwości modelu własnym językiem, bez porównania z RoboFlamingo, OpenVLA czy innymi modelami wizualno-ruchowymi, które w ostatnich miesiącach też wykręcały nowe wyniki.
Embodied reasoning — co to właściwie znaczy
Nazwa “ER” w Gemini Robotics-ER oznacza Embodied Reasoning — rozumowanie ucieleśnione. Chodzi o coś konkretnego: model nie tylko analizuje obraz, ale rozumie, że robot ma ciało, które zajmuje przestrzeń, ma ograniczenia mechaniczne i musi planować ruch tak, żeby nie zderzyć się sam ze sobą ani z otoczeniem.
To koncepcyjnie inne podejście niż klasyczne modele wizyjne wrzucone na wejście kontrolera robota. Zamiast “widzę obiekt X w pozycji Y, przesuń ramię”, model integruje planowanie ruchu z rozumieniem sceny. Google testował to podejście w poprzednich wersjach, 1.6 to iteracja, nie restart.
Model wchodzi w szerszy ekosystem Gemini używany przez DeepMind w różnych projektach — od AlphaFold po systemy sterowania. Robotyka to jeden z frontów, na których Gemini próbuje udowodnić użyteczność poza generowaniem tekstu i obrazów.
Co z dostępnością dla deweloperów?
DeepMind nie ogłosił daty publicznego dostępu do Gemini Robotics-ER 1.6 ani warunków licencyjnych. Poprzednie modele z rodziny Gemini Robotics były dostępne w ograniczonym zakresie przez Google Cloud i programy partnerskie — podobna ścieżka wydaje się prawdopodobna.
Dla firm budujących roboty na bazie zewnętrznych modeli to ważna zmienna. Wdrożenie modelu DeepMind zamiast własnego rozwiązania oznacza zależność od infrastruktury Google, cen API i decyzji o deprecjacji kolejnych wersji. Nikt tego głośno nie mówi przy premierach, ale firmy robotyczne pytają o to przy każdym kontrakcie.
Inne laboratoria nie stoją w miejscu: Physical Intelligence (Pi) zebrało w 2024 roku 400 mln dolarów właśnie na modele do robotyki, a Figure AI i Apptronik podpisały umowy z BMW i Mercedes-Benz na testy w fabrykach. Gemini Robotics-ER 1.6 wchodzi na rynek, który przestał być akademicki.