Amazon uruchamia instancje G7e z NVIDIA RTX PRO 6000 Blackwell na SageMaker AI. Każde GPU oferuje 96 GB GDDR7.

SageMaker dostaje GPU Blackwell. 96 GB pamięci na instancję

Amazon Web Services właśnie odpaliło instancje G7e na SageMaker AI — wyposażone w karty NVIDIA RTX PRO 6000 Blackwell Server Edition z 96 GB pamięci GDDR7 na każde GPU.

Specyfikacja, która robi robotę

G7e to nie jest kosmetyczny update. Każda karta daje 96 GB GDDR7, a instancje można konfigurować z 1, 2, 4 lub 8 GPU — czyli szczyt daje 768 GB pamięci GPU w jednym węźle. Dla porównania: popularne instancje ml.p4d.24xlarge z A100 oferują 320 GB łącznie (8× 40 GB HBM2). Blackwell wchodzi tutaj z prawie 2,5-krotnie większą pulą VRAM.

RTX PRO 6000 Blackwell Server Edition to wersja datacenter karty zapowiedzianej przez NVIDIA na początku 2025 roku. GDDR7 zamiast HBM oznacza inny profil kosztów przy produkcji, ale przepustowość pamięci i tak skacze względem poprzedniej generacji.

Czy to odpowiedź na rosnące modele 70B+?

Modele pokroju Llama 3.1 405B, Mixtral lub Falcon 180B od dawna sprawiają ból głowy przy deploymencie — trzeba ciąć precyzję do INT4 albo rozkładać model na wiele węzłów, co komplikuje infrastrukturę i podnosi latencję. 96 GB VRAM na GPU zmienia rachunek.

Llama 3.1 70B w FP16 zajmuje około 140 GB — dwie karty G7e załatwiają to bez tensor parallelism. Większe modele 180B+ nadal wymagają skalowania, ale przy 8 GPU i 768 GB łącznego VRAM da się zmieścić niemal każdy publicznie dostępny model bez agresywnej kwantyzacji.

Przed erą instancji z tak dużym VRAM operatorzy często wybierali między jakością a kosztem: albo INT4 i szybka inferencja, albo FP16 i drogi multi-node setup. G7e przesuwa ten próg.

SageMaker kontra własny klaster

Zarządzany deployment na SageMaker kusi prostotą — nie trzeba samemu ogarniać sterowników CUDA, NCCL i konfiguracji sieciowej między węzłami. AWS opakowuje to w swój ekosystem: autoskalowanie, endpoint monitoring, integracja z S3 i IAM.

Cena jeszcze nie jest oficjalnie podana w materiałach źródłowych, ale instancje z GPU Blackwell w EC2 (rodzina G6e) były wyceniane wyżej niż A10G — G7e na SageMaker prawdopodobnie pójdzie podobnym torem. Dla firm robiących inferencję na dużą skalę kluczowe będzie policzenie koszt-per-token względem alternatyw: własnego klastra H100 albo API od Anthropic czy OpenAI.

Dla kogo to ma sens?

Przede wszystkim dla firm, które:

chcą deployować modele open source bez dzielenia się danymi z zewnętrznym providerem API
potrzebują niskiej latencji przy dużych modelach i mają ruch wymagający dedykowanych endpointów
operują w regulowanej branży (finanse, medycyna) gdzie dane nie mogą opuszczać własnej infrastruktury
testują modele 70B+ i nie chcą bawić się w ręczny sharding

Dla małych zespołów robiących prototypy — nadal tańsze będzie odpalenie inferecji przez API. G7e celuje w enterprise deployment, gdzie prywatność i kontrola nad modelem ważą więcej niż koszt per call.

Czy Blackwell wypycha Hopper z SageMaker?

AWS nadal oferuje instancje z A100 (ml.p4d) i H100 (ml.p5). G7e dołącza do portfolio jako opcja z innym profilem — dużo VRAM, architektura Blackwell, ale bez HBM3e który mają H100 i H200. Przepustowość pamięci HBM3e w H100 SXM wynosi 3,35 TB/s; GDDR7 w RTX PRO 6000 będzie niższe, choć NVIDIA nie opublikowała jeszcze pełnych specyfikacji dla wersji Server Edition.

To oznacza, że G7e może być lepszy przy zadaniach ograniczonych pojemnością pamięci (duże modele, długie konteksty), a H100 wygra tam gdzie liczy się czysty bandwidth — batch inference z krótkimi sekwencjami.

AWS nie podał jeszcze dat dostępności G7e we wszystkich regionach ani pełnego cennika instancji.