Amazon otworzył laboratorium Trainium. NVIDIA ma problem

Q: Anthropic, OpenAI i Apple — kto trenuje na Trainium?

Amazon wpuścił dziennikarzy do lab chipów Trainium. Anthropic, OpenAI i Apple już korzystają. W tle 50 mld dol. inwestycji w OpenAI.

Q: Czy NVIDIA ma się czego bać?

Amazon wpuścił dziennikarzy do lab chipów Trainium. Anthropic, OpenAI i Apple już korzystają. W tle 50 mld dol. inwestycji w OpenAI.

Amazon otworzył drzwi do laboratorium, które kosztuje 50 mld dolarów

Amazon wpuścił dziennikarzy do swojego laboratorium chipów Trainium w ramach Amazon Web Services — i zrobił to dokładnie wtedy, gdy ogłaszał 50-miliardową inwestycję w OpenAI. Zbieżność nieprzypadkowa. Trainium to fundament, na którym Amazon buduje alternatywę dla dominacji NVIDIA.

NVIDIA kontroluje dziś około 80% rynku chipów do trenowania modeli AI. Ceny rosną, dostępność bywa problematyczna, a duże firmy tech są przywiązane do jednego dostawcy jak na smyczy. Amazon postanowił tę smycz przeciąć.

Anthropic, OpenAI i Apple — kto trenuje na Trainium?

Lista klientów, którzy postawili na Trainium, robi wrażenie. Anthropic — twórcy Claude’a. OpenAI — twórcy GPT-4 i ChatGPT. Apple — najbardziej zaskakujące nazwisko na tej liście.

To nie są firmy testujące nową zabawkę. Każda z nich wydaje setki milionów dolarów rocznie na infrastrukturę obliczeniową. Fakt, że zdecydowały się odpalić produkcyjne workloady na Trainium, mówi więcej o dojrzałości tych chipów niż jakikolwiek benchmark.

Trainium kontra NVIDIA — specjalista kontra generalista

Amazon projektował Trainium z myślą o jednym zadaniu: trenowaniu dużych modeli językowych. GPU NVIDIA muszą obsługiwać grafikę, obliczenia naukowe i AI jednocześnie — Trainium robi tylko jedno, ale robi to lepiej.

AWS wskazuje cztery przewagi swojego chipu: niższy koszt za token treningu, lepsza efektywność energetyczna przy dużych modelach, głębsza integracja z ekosystemem chmurowym oraz — i to jest argument, który w 2023 i 2024 roku bił na głowę całą konkurencję — brak kolejek. Gdy firmy walczyły o każdy dostępny H100, klienci AWS z Trainium skalowali bez problemów z dostępnością. Amazon kontroluje całą linię produkcyjną, więc nie jest uzależniony od alokacji mocy produkcyjnych TSMC dla NVIDIA.

Czy NVIDIA ma się czego bać?

Nie natychmiast. NVIDIA ma wieloletni ekosystem CUDA, który programiści znają na pamięć. Migracja na nową architekturę to miesiące pracy inżynierów i realne koszty — nie decyzja podejmowana z dnia na dzień.

Ale wyścig przyspiesza. Google rozwija własne TPU. Microsoft współpracuje z AMD nad alternatywami. Meta projektuje własne akceleratory. Amazon z Trainium dołącza do tego grona z produktem, który ma już klientów płacących prawdziwe pieniądze. Efektem ubocznym tej rywalizacji może być spadek cen infrastruktury obliczeniowej, większa różnorodność architektur i szybszy dostęp do mocy obliczeniowej dla mniejszych graczy.

Lock-in to odwrotna strona medalu

Europejskie startupy i firmy AI korzystające z AWS mogą odczuć obniżkę kosztów, jeśli Trainium faktycznie dostarczy to, co obiecuje. Efekty niższych cen infrastruktury rozchodzą się po całej platformie niezależnie od lokalizacji klienta.

Pojawia się jednak pytanie o uzależnienie od dostawcy. Modele trenowane na Trainium mogą wymagać specyficznych optymalizacji pod tę architekturę. Migracja do Google Cloud czy Azure później będzie dużo trudniejsza niż przy standardowych workloadach GPU. Klienci zamieniają uzależnienie od NVIDIA na uzależnienie od AWS — czy to faktycznie lepszy układ, każdy musi policzyć sam.