Meta skaluje modele reklamowe do rozmiarów LLM

Meta wpycha LLM-scale w silnik reklamowy

Meta ogłosiła wdrożenie Adaptive Ranking Model (ARM) — architektury, która wprowadza modele reklamowe w rozmiary dotychczas zarezerwowane dla dużych modeli językowych, jednocześnie wyginając krzywą kosztów inference tak, żeby całość była w ogóle opłacalna.

Chodzi o konkretny problem: modele LLM-scale mają parametry liczone w miliardach i świetne wyniki, ale ich obsługa w czasie rzeczywistym przy miliardach zapytań reklamowych dziennie to przepis na astronomiczne rachunki za prąd i GPU. Meta twierdzi, że ARM to rozwiązanie tej sprzeczności.

Jak Meta ugina krzywą skalowania

Zamiast serwować pełny model przy każdym zapytaniu, ARM dynamicznie dostosowuje głębokość obliczeń do danego przypadku. Część zapytań wystarczy obsłużyć lżejszą ścieżką, inne wymagają pełnej mocy modelu. System sam decyduje, ile compute’u rzeczywiście potrzeba.

To podejście znane w świecie ML jako adaptive computation lub early exit — ale Meta aplikuje je w skali, której większość firm nigdy nie doświadczy. Setki milionów użytkowników, tysiące zapytań na sekundę, zero tolerancji na opóźnienia widoczne dla użytkownika.

Dodatkowo Meta zastosowała techniki optymalizacji na poziomie kerneli GPU oraz zmianę precyzji obliczeń w zależności od etapu rankingu. Rezultat: model LLM-scale działa w latency akceptowalnej dla systemu reklamowego działającego w czasie rzeczywistym.

RecSys dostaje turbodoładowanie

Systemy rekomendacji Meta od lat należą do najbardziej zaawansowanych na świecie — algorytmy Facebooka i Instagrama przetestowano na użytkownikach w skali, której żaden akademicki benchmark nie odwzoruje. ARM to kolejny krok w tej ewolucji.

Tradycyjne modele rankingowe reklam to stosunkowo małe sieci neuronowe zoptymalizowane pod kątem szybkości. Wprowadzenie LLM-scale do tego pipeline’u daje dostęp do znacznie bogatszych reprezentacji użytkowników i kontekstu — co w teorii przekłada się na trafniejsze dopasowanie reklamy do osoby i momentu.

Meta nie podaje konkretnych liczb poprawy CTR ani konwersji w publicznych materiałach, ale sam fakt wdrożenia produkcyjnego sugeruje, że wyniki uzasadniły koszty inżynierskie projektu.

Inference scaling w reklamach to trudniejszy problem niż w chatbotach

Chatbot może sobie pozwolić na odpowiedź po 2-3 sekundach. System aukcji reklamowych musi wyłonić zwycięzcę w pojedynczych milisekundach, jednocześnie oceniając tysiące kandydatów. To zupełnie inny reżim wymagań.

Dlatego techniki inference optimization stosowane przy ChatGPT czy Claude nie przekładają się bezpośrednio na RecSys. Meta musiała opracować własne podejście — ARM jest tego efektem.

Firma publikuje szczegóły techniczne na swoim blogu inżynierskim, co jest typowe dla Meta AI: otwartość na poziomie technicznym, przy jednoczesnym zachowaniu danych biznesowych tylko dla siebie.

Kto na tym zarabia — i kto płaci

Bezpośrednimi beneficjentami są reklamodawcy: lepszy model rankingowy oznacza trafniejsze wyświetlenia i lepszy zwrot z wydatków na reklamy. Meta sprzedaje im skuteczność, więc każda poprawa modelu to argument za zwiększeniem budżetów reklamowych.

Po drugiej stronie równania są użytkownicy, którym ARM serwuje reklamy jeszcze dokładniej dopasowane do ich zachowań i preferencji. Czy to poprawa doświadczenia, czy głębsze profilowanie — zależy od punktu widzenia.

Meta wydała w 2024 roku ponad 37 miliardów dolarów na capex związany z infrastrukturą AI — ARM to jeden z konkretnych projektów, które muszą uzasadnić tę kwotę.

Czy inne platformy reklamowe nadążą?

Google od lat stosuje własne zaawansowane modele w Google Ads i Discovery. TikTok buduje infrastrukturę ML agresywnie od kilku lat. Ale skala Meta — połączona baza Facebooka, Instagrama, WhatsAppa i Threads — daje unikalny zbiór danych treningowych, którego żaden konkurent nie replikuje jeden do jednego.

Publikacja szczegółów technicznych ARM na blogu inżynierskim Meta to zaproszenie dla społeczności badaczy do analizy podejścia — a dla konkurencji sygnał, gdzie poprzeczka jest ustawiona.