Amazon uczy Novę oceniać samą siebie przez RLAIF

Q: Czy LLM-sędzia jest obiektywny?

Amazon opisał, jak stosuje RLAIF do fine-tuningu modeli Nova — LLM zastępuje ludzkich ewaluatorów i nagradza model za lepsze odpowiedzi.

Q: Czy to zastąpi ludzkich annotatorów?

Amazon opisał, jak stosuje RLAIF do fine-tuningu modeli Nova — LLM zastępuje ludzkich ewaluatorów i nagradza model za lepsze odpowiedzi.

Amazon opisał na swoim blogu maszynowym, jak RLAIF — czyli reinforcement learning with AI feedback — działa w praktyce przy trenowaniu modeli Amazon Nova. Zamiast płacić ludziom za ocenianie tysięcy odpowiedzi, system używa innego modelu językowego jako sędziego, który przyznaje nagrody lub kary treningowemu modelowi.

LLM jako sędzia: jak to technicznie działa

W klasycznym RLHF człowiek porównuje dwie odpowiedzi i wskazuje lepszą — to generuje sygnał nagrody. W RLAIF ten sam krok wykonuje model-sędzia. Amazon odpalił ten schemat na Novie, gdzie jeden model z rodziny ocenia outputy drugiego, a wyniki trafiają do pętli reinforcement learningu.

Konkretnie: model generuje kilka wariantów odpowiedzi na to samo pytanie, sędzia rankinguje je według zadanych kryteriów jakości, a najlepiej ocenione odpowiedzi wzmacniają wagi przez policy gradient. Cały cykl kręci się iteracyjnie — model uczy się produkować coraz lepiej oceniane outputy.

Słaby punkt tej architektury to ryzyko reward hacking: model może nauczyć się pisać odpowiedzi, które podobają się sędziemu, ale nie są faktycznie lepsze. Amazon w swoim opisie zaznacza, że wybór odpowiednio silnego i dobrze zpromptowanego sędziego jest tu krytyczny.

Czy LLM-sędzia jest obiektywny?

To pytanie spędza sen z powiek każdemu, kto odpalał RLAIF w produkcji. Modele-sędziowie mają udokumentowane bias: preferują dłuższe odpowiedzi, teksty w stylu, który sami generują, oraz odpowiedzi zaczynające się od potwierdzenia pytania. Amazon nie podał konkretnych liczb pokazujących, jak te biasy wpłynęły na Nova — to luka w opublikowanym materiale.

Badania Anthropic z 2024 roku pokazały, że modele-sędziowie potrafią być spójne wewnętrznie, ale systematycznie mylić się w tych samych kategoriach pytań. Przy fine-tuningu to oznacza, że model uczy się być dobry tam, gdzie sędzia jest dobry, i dziedziczy jego martwe strefy.

Amazon zaleca kalibrowanie sędziego na próbce ludzkich ocen przed odpaleniem pełnej pętli treningowej. Proste, ale ktoś musi to zrobić ręcznie — co przywraca część kosztów, które RLAIF miało eliminować.

Nova jako kandydat do fine-tuningu

Rodzina Amazon Nova trafiła na rynek w listopadzie 2024 roku. Obejmuje modele Micro, Lite, Pro i Premier — zróżnicowane pod kątem kosztów i możliwości. Fine-tuning przez Amazon Bedrock jest dostępny dla wybranych wariantów, a RLAIF to nowsze uzupełnienie klasycznego supervised fine-tuningu.

Praktyczne zastosowania opisane przez Amazon to między innymi:

dostrajanie modelu do konkretnego tonu komunikacji firmy
poprawa jakości odpowiedzi w wąskiej domenie (np. obsługa klienta w branży finansowej)
redukcja halucynacji przez nagradzanie odpowiedzi z odwołaniem do kontekstu

Amazon Bedrock pobiera opłaty za tokeny użyte podczas treningu — fine-tuning przez RLAIF generuje znacznie więcej tokenów niż klasyczny SFT, bo każda iteracja wymaga wielokrotnego przejścia modelu-sędziego przez wygenerowane odpowiedzi.

Dlaczego to ma znaczenie dla enterprise

Firmy, które budują produkty na bazie modeli fundacyjnych, często trafiają na ścianę: bazowy model jest dobry ogólnie, ale słaby w ich konkretnym use case. Hired annotators to wolne i drogie rozwiązanie. RLAIF z LLM-as-a-judge skraca ten cykl — zamiast tygodni zbierania ludzkich ocen, można odpalić treningową pętlę w ciągu dni.

W benchmarkach opublikowanych przez AWS, modele Nova po RLAIF wykazały poprawę w ocenach ludzkich ewaluatorów na zadaniach domeny-specific. Amazon nie podał konkretnych punktów procentowych ani nazwy benchmarku — co utrudnia weryfikację tych twierdzeń.

Czy to zastąpi ludzkich annotatorów?

Nie całkowicie i nie wkrótce. RLAIF dobrze skaluje się na zadaniach, gdzie jakość jest względnie łatwa do zdefiniowania — poprawność faktyczna, spójność logiczna, ton. Przy subiektywnych zadaniach kreatywnych albo ocenie wrażliwości kulturowej model-sędzia wypada gorzej niż zróżnicowany panel ludzi.

Meta w 2024 roku opublikowała dane pokazujące, że RLAIF osiąga 87% zgodności z ludzkimi ocenami na standardowych zadaniach NLP, ale spada do 61% przy zadaniach wymagających kontekstu kulturowego. Amazon nie odniósł się do tego podziału w swoim opisie.

Blog post Amazon kończy się zachętą do eksperymentowania z własnym pipeline przez Amazon Bedrock — co jest jednocześnie dokumentacją techniczną i materiałem sprzedażowym.