Musk pod przysięgą: xAI trenowało na modelach OpenAI

Elon Musk zeznał pod przysięgą, że xAI używało modeli OpenAI do trenowania Groka — i od razu dodał, że wszyscy tak robią. To przyznanie padło w ramach trwającego sporu prawnego między Muskiem a OpenAI, gdzie Musk jest jednocześnie powodem i teraz — mimowolnie — głównym świadkiem przeciwko sobie.

Czym jest distillation i dlaczego OpenAI go zakazuje

Distillation to technika, w której jeden model uczy się, naśladując outputy innego, zazwyczaj większego i droższego modelu. Zamiast trenować od zera na surowych danych, mniejszy model dostaje gotowe odpowiedzi lepszego modelu jako wzorzec. Efekt: tańszy trening, często zaskakująco dobry wynik.

OpenAI wprost zabrania tego w swoich Terms of Service — punkt dotyczący zakazu używania outputów do trenowania konkurencyjnych modeli jest tam od lat. Naruszenie tych warunków to nie tylko etyczny problem, ale też podstawa do roszczeń kontraktowych.

Musk twierdzi, że branża robi to nagminnie

Argumentacja Muska sprowadza się do jednego: skoro wszyscy to robią, to nie może być złe. To klasyczna linia obrony, która rzadko dobrze działa w sądzie. Meta, Mistral, Alibaba — wszystkie te firmy oskarżano o podobne praktyki przy trenowaniu własnych modeli na danych lub outputach cudzych systemów.

Problem polega na tym, że “wszyscy to robią” nie jest równoznaczne z “to jest legalne” ani tym bardziej z “OpenAI na to zezwala”. Musk podpisał warunki korzystania z API — albo jego pracownicy to zrobili w imieniu xAI — co oznacza, że argument o branżowej normie może nie wystarczyć.

Czy zeznanie Muska zaszkodzi jego pozwowi?

To ironiczne w stopniu wręcz klinicznym: Musk pozwał OpenAI, zarzucając firmie zdradę misji non-profit i komercjalizację technologii, która miała służyć ludzkości. Teraz, zeznając w tej samej sprawie, przyznał, że jego własna firma mogła naruszać warunki korzystania z produktów OpenAI.

Prawnicy OpenAI z pewnością już cyzelują odpowiednie fragmenty transkryptu. Przyznanie się do distillation pod przysięgą to materiał, który można wykorzystać zarówno jako kontratak w bieżącym sporze, jak i podstawę do osobnego powództwa.

xAI odpalił Groka publicznie w listopadzie 2023 roku — zaledwie kilka miesięcy po tym, jak Musk odszedł z zarządu OpenAI. Tempo, w jakim xAI wykręcił działający model językowy, od początku budziło pytania o źródła danych treningowych.

Branżowy standard czy wygodna narracja

Musk nie jest pierwszym, który sięga po argument “industrystandard”. Kiedy Google DeepMind, Anthropic czy Meta trenują nowe modele, robią to na własnych danych, syntetycznych danych generowanych przez własne systemy albo — jak w przypadku Llamy — na danych z internetu z różnym poziomem legalności.

Distillation z cudzego, komercyjnego API to jednak inna kategoria. Tu nie chodzi o scrapowanie publicznych treści, ale o celowe użycie płatnej usługi w sposób wprost sprzeczny z umową.

OpenAI od miesięcy zaostrzał monitoring użycia swojego API pod kątem właśnie takich praktyk — firma wbudowała mechanizmy wykrywające wzorce zapytań sugerujące distillation. Ile firm faktycznie złapano i ile z nich ma nazwisko Musk w zarządzie — tego jeszcze nie wiemy.