Meta open-sourcuje RCCLX. Komunikacja GPU na AMD przyspiesza.

Meta stawia na AMD

Meta udostępniła publicznie RCCLX — rozszerzoną wersję biblioteki RCCL (ROCm Communication Collectives Library) służącej do komunikacji między kartami graficznymi AMD. Firma testowała ją na własnych wewnętrznych workloadach przed wypuszczeniem kodu na zewnątrz.

RCCL to odpowiednik NCCL od Nvidii — biblioteki niezbędnej do synchronizacji danych między wieloma GPU podczas trenowania dużych modeli językowych. Bez wydajnej komunikacji kolektywnej, skalowanie na setki czy tysiące kart jest praktycznie niemożliwe. Meta postanowiła nie czekać na AMD i sama dopracowała ich narzędzie.

Pełna integracja z Torchcomms

RCCLX działa bezpośrednio z Torchcomms — warstwą abstrakcji PyTorcha odpowiedzialną za komunikację rozproszoną. Deweloperzy mogą przełączać się między backendami bez przepisywania kodu treningowego.

Dla zespołów badawczych pracujących na klastrach AMD to konkretna oszczędność czasu. Zamiast walczyć z niskopoziomowymi bugami w komunikacji, mogą skupić się na eksperymentach z architekturą modeli. Meta twierdzi, że optymalizacje w RCCLX pochodzą z rzeczywistych scenariuszy użycia — nie z syntetycznych benchmarków.

Dlaczego AMD ma znaczenie dla Meta

Meta od lat inwestuje w dywersyfikację swojej infrastruktury sprzętowej. Zależność od jednego dostawcy GPU — Nvidii — oznacza ryzyko cenowe i dostępnościowe. W 2023 roku firma zamówiła 350 tysięcy chipów MI300X od AMD, co było jednym z największych zamówień w historii tej platformy.

Problem w tym, że ekosystem softwarowy AMD wciąż ustępuje CUDA. RCCL istnieje, ale jego wydajność i stabilność nie dorównywały NCCL. Meta postanowiła rozwiązać to we własnym zakresie, a teraz dzieli się wynikami ze społecznością.

Co konkretnie ulepsza RCCLX

Meta nie opublikowała jeszcze pełnej dokumentacji porównawczej, ale wstępne informacje wskazują na optymalizacje w operacjach all-reduce i all-gather — dwóch najczęściej używanych primitywach w treningu rozproszonym. To właśnie te operacje pochłaniają najwięcej przepustowości podczas synchronizacji gradientów między GPU.

Firma zapowiada dalszy rozwój biblioteki wraz ze społecznością open source. Kod trafił na GitHub, choć szczegóły licencji i roadmap nie zostały jeszcze w pełni ujawnione.

Szerszy kontekst: wyścig o alternatywę dla CUDA

Google rozwija JAX i TPU, Microsoft współpracuje z AMD nad własnymi rozwiązaniami, a teraz Meta wypuszcza RCCLX. Każdy z gigantów technologicznych próbuje zmniejszyć swoją zależność od Nvidii, która kontroluje ponad 80% rynku akceleratorów AI.

AMD zwiększa produkcję MI300X i zapowiada kolejne generacje chipów. Jednak bez solidnego oprogramowania — bibliotek komunikacyjnych, kompilatorów, debuggerów — hardware nie wystarczy. RCCLX to cegiełka w budowaniu ekosystemu, który mógłby realnie konkurować z CUDA.

Kto skorzysta najbardziej

Mniejsze laboratoria badawcze i startupy AI, które nie mogą sobie pozwolić na ceny Nvidii, zyskują teraz sprawdzone narzędzie do pracy z AMD. Uniwersytety kupujące klastry MI250X i MI300X dostaną bibliotekę przetestowaną na skali Meta — to nie jest projekt hobbystyczny.

Oczywiście RCCLX nie rozwiązuje wszystkich problemów ekosystemu AMD. Nadal brakuje odpowiedników wielu bibliotek CUDA, a dokumentacja ROCm pozostawia wiele do życzenia. Ale każdy stabilny komponent open source zmniejsza barierę wejścia.

Meta nie podała, ile własnych zasobów inżynierskich przeznaczyła na rozwój RCCLX ani jak długo trwały prace.