Transformery nie wystarczą do AGI. Branża ma problem.

Q: Czy skalowanie nadal działa?

Big Tech wpompowuje miliardy w skalowanie LLM-ów, ale coraz więcej badaczy twierdzi, że architektura transformerów ma ograniczenia nie do przeskoczenia.

Q: Ile kosztuje ten zakład?

Big Tech wpompowuje miliardy w skalowanie LLM-ów, ale coraz więcej badaczy twierdzi, że architektura transformerów ma ograniczenia nie do przeskoczenia.

Branża AI może stawiać biliony dolarów na architekturę, która po prostu nie dojedzie do mety — tak brzmi coraz głośniej artykułowana teza krytyków modeli transformerowych. Big Tech — od OpenAI przez Google DeepMind po Anthropic — pompuje bezprecedensowe środki w skalowanie LLM-ów, zakładając że większy model to bliżej AGI. Coraz więcej badaczy mówi wprost: to błędne założenie.

Transformer ma sufit

Architektura transformerów, zaprezentowana przez Google w 2017 roku w słynnym artykule “Attention Is All You Need”, stała się fundamentem całej współczesnej generacji modeli językowych. GPT-4, Claude 3, Gemini — wszystkie chodzą na tym samym silniku. Problem w tym, że “attention mechanism” — mechanizm uwagi, który sprawia że modele rozumieją kontekst — ma ograniczenia kwadratowe względem długości sekwencji. Im dłuższy kontekst, tym więcej zasobów obliczeniowych potrzeba w tempie eksponencjalnym.

To jednak nie jest największy zarzut. Fundamentalnym problemem jest coś, co badacze nazywają “brakiem grounded reasoning” — modele transformerowe statystycznie przewidują kolejny token, nie rozumują przyczynowo-skutkowo. Mogą wykręcać imponujące wyniki na benchmarkach matematycznych, jednocześnie polegając na zapamiętanych wzorcach zamiast na prawdziwej dedukcji.

Czy skalowanie nadal działa?

Przez lata branży wystarczyło jedno zaklęcie: więcej danych, większy model, lepsza karta graficzna. Prawa skalowania Kaplan et al. z 2020 roku zdawały się obiecywać liniowy postęp. Problem w tym, że te prawa zaczynają wykazywać oznaki nasycenia.

OpenAI wrzuciło GPT-4 z setkami miliardów parametrów i budżetem treningowym szacowanym na ponad 100 milionów dolarów. Kolejne modele kosztują więcej, ale przyrost możliwości maleje. Anthropic sam przyznał w swoich analizach, że proste skalowanie nie rozwiązuje problemu halucynacji ani rozumowania wielokrokowego. Google DeepMind eksperymentuje z architekturami hybrydowymi właśnie dlatego, że widzi te same ograniczenia.

Jan LeCun z Meta od lat twierdzi, że LLM-y nigdy nie osiągną AGI — i robi to z pozycji kogoś, kto zbudował część fundamentów pod współczesne sieci neuronowe. Jego alternatywna propozycja, architektura JEPA (Joint Embedding Predictive Architecture), zakłada że prawdziwa inteligencja wymaga wewnętrznego modelu świata, nie tylko przewidywania tokenów.

Alternatywy czekają w kolejce

Na stole leżą różne propozycje. Neurosymboliczne systemy hybrydowe próbują połączyć statystyczne LLM-y z klasycznym rozumowaniem symbolicznym — tak jak ludzki mózg łączy intuicję z logiką. State Space Models, jak Mamba, próbują rozwiązać problem złożoności obliczeniowej transformerów przy długich sekwencjach.

Są też podejścia bardziej radykalne: modele oparte na przyczynowości Judei Pearla, systemy inspirowane architekturą mózgu (neuromorphic computing) czy uczenie przez wzmacnianie w otwartych środowiskach — zamiast trenowania na statycznych zbiorach danych.

Żadna z tych alternatyw nie jest gotowa do przejęcia pałeczki. Mamba wygląda obiecująco przy długich kontekstach, ale brakuje jej skali i danych treningowych co do których transformery mają dekadę przewagi. Systemy neurosymboliczne są trudne do skalowania i wymagają ręcznego inżynierowania wiedzy.

Ile kosztuje ten zakład?

Microsoft zarezerwował 80 miliardów dolarów na infrastrukturę AI tylko na rok fiskalny 2025. SoftBank ogłosił inwestycje rzędu 100 miliardów dolarów w USA, z czego znaczna część trafia do firm rozwijających transformery. Amazon Web Services, Google Cloud i Azure ścigają się w budowie datacenter pod obciążenia GPU.

Kapitał jest po stronie status quo. Firmy, które odpalają ogromne klastry obliczeniowe pod transformery, mają żywotny interes w tym, żeby obecna architektura wystarczyła. Zmiana paradygmatu oznaczałaby odpisanie miliardów w infrastrukturze.

Tymczasem DeepMind odpalił AlphaFold i AlphaGeometry — systemy które nie są czystymi LLM-ami i rozwiązują konkretne naukowe problemy lepiej niż ludzcy eksperci. Oba łączą elementy uczenia maszynowego z ustrukturyzowanym rozumowaniem. Może to właśnie ten kierunek, nie kolejny GPT z większą liczbą parametrów, jest właściwą drogą do czegoś, co zasłuży na skrót AGI.