Meta ujawnia trzy techniki paralelizmu. Inference LLM przyspiesza o rząd

Inżynierowie Meta opublikowali szczegóły trzech metod optymalizacji inference: tensor parallelism, context parallelism i expert parallelism.
Meta ujawnia trzy techniki paralelizmu. Inference LLM przyspiesza o rząd
TL;DR
  • Meta opublikowała dokumentację trzech zaawansowanych technik paralelizmu wykorzystywanych do optymalizacji inference dużych modeli językowych w aplikacji Meta AI.
  • Tensor parallelism dzieli obliczenia na wiele GPU, context parallelism radzi sobie z długimi kontekstami, a expert parallelism rozdziela pracę między wyspecjalizowane moduły w modelach MoE.
  • Techniki te bezpośrednio wpływają na przepustowość, latencję i efektywność wykorzystania zasobów sprzętowych w produkcyjnych systemach AI.

Trzy filary skalowalnego inference

Meta udostępniła szczegółową dokumentację technik paralelizmu, które napędzają inference modeli LLM w aplikacji Meta AI. Inżynierowie firmy skupili się na trzech podejściach: tensor parallelism, context parallelism i expert parallelism — każde rozwiązuje inny wąski gardło w przetwarzaniu zapytań.

To nie jest akademicka praca badawcza. Meta opisuje rozwiązania działające w produkcji, obsługujące miliony użytkowników dziennie.

Tensor parallelism — jak podzielić gigantyczną macierz

Podstawowy problem z dużymi modelami: nie mieszczą się na jednym GPU. Model o 70 miliardach parametrów potrzebuje ponad 140 GB pamięci tylko na wagi. Najlepsze karty graficzne mają 80 GB.

Tensor parallelism rozwiązuje to przez podział pojedynczych operacji macierzowych na wiele akceleratorów. Zamiast trzymać całą warstwę transformera na jednym GPU, Meta dzieli ją między 4, 8 lub 16 kart. Każda wykonuje fragment obliczeń, wyniki są agregowane przez szybką komunikację NVLink.

Kluczowa metryka to stosunek czasu obliczeń do czasu komunikacji. Im większy model i im dłuższe sekwencje, tym bardziej opłaca się rozpraszanie. Przy krótkich zapytaniach narzut komunikacyjny zjada zyski z paralelizmu.

Context parallelism dla długich kontekstów

Modele z kontekstem 128k tokenów albo dłuższym mają inny problem. Mechanizm attention skaluje się kwadratowo z długością sekwencji — podwojenie kontekstu oznacza czterokrotny wzrost obliczeń.

Context parallelism dzieli sekwencję wejściową między akceleratory. Każdy GPU przetwarza fragment kontekstu, a specjalne mechanizmy zapewniają poprawną wymianę informacji między fragmentami podczas obliczania attention. Meta stosuje tu ring attention i podobne techniki rozproszonego attention.

Efekt? Przetwarzanie dokumentów o długości 100 tysięcy tokenów bez eksplozji latencji. Użytkownik wkleja długi PDF do Meta AI i dostaje odpowiedź w rozsądnym czasie.

Expert parallelism w modelach MoE

Llama 3.1 405B i podobne modele używają architektury Mixture of Experts. Zamiast aktywować wszystkie parametry dla każdego tokena, router wybiera kilku “ekspertów” — wyspecjalizowane podsieci. Model ma 405 miliardów parametrów, ale przy każdym tokenie wykorzystuje może 50 miliardów.

Expert parallelism rozmieszcza różnych ekspertów na różnych GPU. Gdy router wybiera ekspertów dla danego tokena, zapytanie trafia do właściwego akceleratora. To wymaga sprytnego load balancingu — niektórzy eksperci są popularniejsi od innych.

Meta musiała rozwiązać problem nierównomiernego obciążenia. Jeśli wszyscy użytkownicy pytają o kod, eksperci od programowania są przeciążeni, a eksperci od poezji się nudzą. Dynamiczne routowanie i replikacja popularnych ekspertów łagodzą ten problem.

Łączenie technik w praktyce

W produkcji Meta używa wszystkich trzech technik jednocześnie. Tensor parallelism dla pojedynczych warstw, context parallelism dla długich sekwencji, expert parallelism dla modeli MoE. Konfiguracja zależy od konkretnego modelu i charakterystyki ruchu.

Inżynierowie optymalizują trzy metryki: latencję pierwszego tokena (TTFT), przepustowość tokenów na sekundę i wykorzystanie GPU. Trade-offy są nieuniknione. Większy tensor parallelism obniża latencję, ale zwiększa koszty komunikacji. Więcej replik ekspertów poprawia load balancing, ale zużywa pamięć.

Co to oznacza dla reszty branży

Meta nie opatentowała tych technik — są dostępne dla każdego, kto chce je zaimplementować. vLLM, TensorRT-LLM i inne frameworki inference już implementują podobne rozwiązania.

Praktyczna konsekwencja: samodzielny hosting modeli 70B+ staje się bardziej dostępny. Rok temu potrzebowałeś klastra i zespołu inżynierów. Dziś framework z dobrą implementacją paralelizmu pozwala odpalić Llama 3.1 70B na czterech konsumenckich GPU.

Meta nie podała konkretnych liczb przyspieszenia — to dokumentacja techniczna, nie benchmark. Ale kierunek jest jasny: inference dużych modeli przestaje być monopolem firm z nieograniczonymi budżetami na sprzęt.

[AI] Artykuł powstał z pomocą AI na podstawie weryfikowanych źródeł i zredagowany przez redakcję Odkrywaj.AI.