Epoka skoków LLM skończyła się. Liczy się specjalizacja.
- Skoki wydajności LLM między kolejnymi generacjami wyraźnie spłaszczyły się i dziś to modele wyspecjalizowane domenowo wykręcają największe przyrosty możliwości.
- MIT Technology Review argumentuje, że dostosowywanie modeli do konkretnych branż staje się architektoniczną koniecznością, nie opcją.
- Firmy, które wciąż liczą na kolejną ogólną wersję GPT jako odpowiedź na swoje problemy, mogą czekać na wzrost, który już nie nadejdzie w tej formie.
Skoki 10x już nie wracają
Era, w której każda nowa generacja LLM podwajała lub dziesięciokrotnie zwiększała możliwości rozumowania i kodowania, dobiegła końca. MIT Technology Review stwierdza to wprost: przyrosty spłaszczyły się do przyrostowych ulepszeń, a rynek zdążył się do tego przyzwyczaić szybciej niż chciałby przyznać.
Jeden wyjątek od tej reguły to modele wyspecjalizowane domenowo. Tam nadal widać skoki wydajności — nie liniowe, ale rzeczywiste, mierzalne przeskoki w zdolnościach.
Czym jest specjalizacja modelu i dlaczego teraz?
Customizacja modelu to nie tylko fine-tuning na kilkuset przykładach. Chodzi o całą architekturę decyzji: kiedy trenować model od podstaw na danych branżowych, kiedy stosować RLHF z ekspertami dziedzinowymi, kiedy wystarczy RAG z odpowiednio skonstruowaną bazą wiedzy, a kiedy trzeba wejść głębiej w modyfikację wag.
Przez ostatnie dwa lata firmy szły na skróty — brały GPT-4 lub Claude’a, owijały promptem systemowym i nazywały to „rozwiązaniem branżowym”. W obszarach z niską stawką to działało. W medycynie, prawie, finansach i produkcji przemysłowej takie podejście generuje błędy, które kosztują więcej niż oszczędności na czasie wdrożenia.
MIT Technology Review wskazuje, że to właśnie te wysokostawkowe sektory wymuszają teraz zmianę podejścia architektów systemów AI.
Gdzie widać realne skoki
W radiologii modele trenowane wyłącznie na obrazach medycznych z annotacjami specjalistów wykręcają wyniki niemożliwe do uzyskania przez modele ogólne — nawet po długim prompt engineeringu. Podobnie w analizie kontraktów prawnych, gdzie precyzja terminologii i znajomość jurysdykcji robi różnicę między użytecznym narzędziem a generatorem halucynacji.
To nie jest kwestia większego modelu. Llama 3 70B wytrenowana na danych z konkretnej niszy często bije GPT-4o w tej niszy. Rozmiar przestał być jedynym wyznacznikiem jakości.
Architektura decyzji, nie tylko architektura modelu
Zmiana, którą opisuje MIT Technology Review, to nie tylko wybór techniki ML. To zmiana w tym, jak organizacje powinny myśleć o inwestycjach w AI.
Dotychczasowy model: poczekaj na nową wersję od OpenAI, Anthropic lub Google, zaktualizuj API, ciesz się wzrostem. Ten model przestał działać — nie dlatego, że firmy przestały wydawać nowe modele, ale dlatego, że różnica między GPT-4o a kolejną wersją w zadaniach ogólnych jest coraz trudniej wyczuwalna w produkcji.
Nowy model wymaga: zbudowania własnego pipeline’u do zbierania i annotowania danych domenowych, inwestycji w infrastrukturę fine-tuningu lub współpracy z dostawcami oferującymi customizację, oraz zdefiniowania benchmarków specyficznych dla własnej branży — a nie polegania na MMLU czy HumanEval.
Kto na tym zarobi
Najbardziej oczywistymi beneficjentami tego trendu są firmy oferujące platformy do fine-tuningu i treningu modeli: Together AI, Anyscale, Modal, a po stronie chmurowej — Azure AI Studio i Google Vertex AI z opcjami customizacji.
Drugą grupą są firmy posiadające unikalne, wysokiej jakości dane branżowe, które do tej pory nie traktowały ich jako aktywu AI. Szpitale z dekadami zanonimizowanych opisów radiologicznych, kancelarie z bazami precedensów, zakłady przemysłowe z danymi z sensorów — to wszystko staje się surowcem, którego ogólne modele nie mają i nie dostaną.
Trzecia grupa to wąski rynek specjalistów od domain adaptation — ludzi rozumiejących zarówno ML, jak i konkretną branżę. Ich stawki rosną szybciej niż stawki generalistycznych inżynierów AI.
Open source zmienia równanie
Jeszcze rok temu customizacja własnego modelu była domeną firm z budżetami rzędu dziesiątek milionów dolarów. Llama 3, Mistral i Qwen zmieniły ten rachunek. Odpalenie procesu fine-tuningu na Llama 3.1 8B dla startupu z 20 osobami to dziś zadanie na kilka tygodni i budżet liczony w tysiącach, nie milionach dolarów.
To oznacza, że bariera wejścia w specjalizację modeli spadła drastycznie — i to właśnie może być powód, dla którego MIT Technology Review określa zmianę jako „architektoniczny imperatyw”, a nie odległy trend.
Czy startupy budujące ogólne asystenty AI bez planu na specjalizację mają jeszcze rok, zanim ich propozycja wartości wyparuje?