Amazon otworzył laboratorium Trainium. NVIDIA ma problem
- Amazon po raz pierwszy pokazał dziennikarzom swoje laboratorium chipów Trainium, które są sercem 50-miliardowej inwestycji w OpenAI.
- Autorski akcelerator AI Amazona przyciągnął już Anthropic, OpenAI i Apple jako klientów produkcyjnych.
- Jeśli Trainium faktycznie obniży koszty trenowania modeli, wszyscy klienci AWS odczują różnicę w rachunkach za infrastrukturę.
Amazon otworzył drzwi do laboratorium, które kosztuje 50 mld dolarów
Amazon wpuścił dziennikarzy do swojego laboratorium chipów Trainium w ramach Amazon Web Services — i zrobił to dokładnie wtedy, gdy ogłaszał 50-miliardową inwestycję w OpenAI. Zbieżność nieprzypadkowa. Trainium to fundament, na którym Amazon buduje alternatywę dla dominacji NVIDIA.
NVIDIA kontroluje dziś około 80% rynku chipów do trenowania modeli AI. Ceny rosną, dostępność bywa problematyczna, a duże firmy tech są przywiązane do jednego dostawcy jak na smyczy. Amazon postanowił tę smycz przeciąć.
Anthropic, OpenAI i Apple — kto trenuje na Trainium?
Lista klientów, którzy postawili na Trainium, robi wrażenie. Anthropic — twórcy Claude’a. OpenAI — twórcy GPT-4 i ChatGPT. Apple — najbardziej zaskakujące nazwisko na tej liście.
To nie są firmy testujące nową zabawkę. Każda z nich wydaje setki milionów dolarów rocznie na infrastrukturę obliczeniową. Fakt, że zdecydowały się odpalić produkcyjne workloady na Trainium, mówi więcej o dojrzałości tych chipów niż jakikolwiek benchmark.
Trainium kontra NVIDIA — specjalista kontra generalista
Amazon projektował Trainium z myślą o jednym zadaniu: trenowaniu dużych modeli językowych. GPU NVIDIA muszą obsługiwać grafikę, obliczenia naukowe i AI jednocześnie — Trainium robi tylko jedno, ale robi to lepiej.
AWS wskazuje cztery przewagi swojego chipu: niższy koszt za token treningu, lepsza efektywność energetyczna przy dużych modelach, głębsza integracja z ekosystemem chmurowym oraz — i to jest argument, który w 2023 i 2024 roku bił na głowę całą konkurencję — brak kolejek. Gdy firmy walczyły o każdy dostępny H100, klienci AWS z Trainium skalowali bez problemów z dostępnością. Amazon kontroluje całą linię produkcyjną, więc nie jest uzależniony od alokacji mocy produkcyjnych TSMC dla NVIDIA.
Czy NVIDIA ma się czego bać?
Nie natychmiast. NVIDIA ma wieloletni ekosystem CUDA, który programiści znają na pamięć. Migracja na nową architekturę to miesiące pracy inżynierów i realne koszty — nie decyzja podejmowana z dnia na dzień.
Ale wyścig przyspiesza. Google rozwija własne TPU. Microsoft współpracuje z AMD nad alternatywami. Meta projektuje własne akceleratory. Amazon z Trainium dołącza do tego grona z produktem, który ma już klientów płacących prawdziwe pieniądze. Efektem ubocznym tej rywalizacji może być spadek cen infrastruktury obliczeniowej, większa różnorodność architektur i szybszy dostęp do mocy obliczeniowej dla mniejszych graczy.
Lock-in to odwrotna strona medalu
Europejskie startupy i firmy AI korzystające z AWS mogą odczuć obniżkę kosztów, jeśli Trainium faktycznie dostarczy to, co obiecuje. Efekty niższych cen infrastruktury rozchodzą się po całej platformie niezależnie od lokalizacji klienta.
Pojawia się jednak pytanie o uzależnienie od dostawcy. Modele trenowane na Trainium mogą wymagać specyficznych optymalizacji pod tę architekturę. Migracja do Google Cloud czy Azure później będzie dużo trudniejsza niż przy standardowych workloadach GPU. Klienci zamieniają uzależnienie od NVIDIA na uzależnienie od AWS — czy to faktycznie lepszy układ, każdy musi policzyć sam.