Wyciek u Mercor. Meta zamraża współpracę z dostawcą danych
- Meta zawiesiła współpracę z Mercor, jednym z głównych dostawców danych dla laboratoriów AI, po potwierdzonym incydencie bezpieczeństwa.
- Wyciek mógł ujawnić szczegóły dotyczące sposobu trenowania modeli przez czołowe firmy z branży AI.
- Kilka dużych laboratoriów AI wszczęło własne dochodzenia w sprawie zakresu naruszenia danych.
Meta wstrzymała współpracę z Mercor po tym, jak firma ujawniła incydent bezpieczeństwa, który mógł narazić na szwank dane treningowe kilku największych laboratoriów AI na świecie.
Mercor nie jest przypadkowym graczem
Mercor to jeden z czołowych vendorów danych w branży AI — firma, której istnienia większość użytkowników ChatGPT czy Claude nigdy nie miała powodów szukać w Google. Dostarcza dane niezbędne do trenowania modeli, co stawia ją w samym centrum tego, jak największe laboratoria budują swoje systemy. Kiedy coś wycieka z takiego miejsca, nie chodzi o adresy e-mail użytkowników — chodzi o to, jak firmy warte dziesiątki miliardów dolarów uczą swoje modele myśleć.
Co właściwie mogło wyciec?
Szczegóły incydentu nie zostały jeszcze w pełni ujawnione publicznie. Wiadomo, że naruszenie dotyczyło danych, które mogły odsłonić metody trenowania modeli AI używane przez laboratoria współpracujące z Mercor. To informacje, które firmy takie jak Meta, Anthropic czy OpenAI pilnują bardziej niż własnych haseł do Twittera — bo właśnie tam kryją się ich rzeczywiste przewagi konkurencyjne.
Dane treningowe i pipeline’y treningowe to sekrety, które nie mają ceny rynkowej. Sposób doboru danych, ich filtrowania, ważenia poszczególnych przykładów — to przepisy kulinarne branży AI, których nikt nie wrzuca do publicznego repo na GitHubie.
Czy to pierwszy taki przypadek w branży?
Branża AI od lat operuje na danych dostarczanych przez zewnętrznych vendorów, a bezpieczeństwo całego łańcucha dostaw danych rzadko trafia na pierwsze strony gazet — dopóki coś nie pójdzie nie tak. Mercor nie jest jedyną firmą tego typu, ale należy do tych, które obsługują klientów z górnej półki.
Incydenty bezpieczeństwa u dostawców danych nie są absolutną nowością. Samsung w 2023 roku stracił wewnętrzny kod źródłowy przez pracowników wklejających dane do ChatGPT. Tutaj sytuacja jest odwrócona — to nie klient, ale dostawca mógł stać się wektorem ataku.
Dochodzenia trwają, lab-y milczą
Kilka laboratoriów AI wszczęło własne śledztwa, żeby ustalić, jakie konkretnie dane mogły zostać naruszone i czy trafiły w niepowołane ręce. Meta oficjalnie potwierdziła zawieszenie współpracy — to rzadki krok, który sugeruje, że wewnętrzna ocena ryzyka wypadła poważnie.
Anthropic ani OpenAI nie ogłosiły publicznie swoich działań, choć według doniesień obie firmy prowadzą własne analizy. Milczenie w takich sytuacjach mówi tyle samo co komunikat prasowy.
Kto odpowiada za bezpieczeństwo danych treningowych?
To pytanie, które branża AI odkłada na później od lat. Kiedy laboratorium zleca zbieranie lub przetwarzanie danych zewnętrznej firmie, łańcuch odpowiedzialności za bezpieczeństwo robi się nieoczywisty. Regulacje takie jak EU AI Act zaczynają dotykać kwestii przejrzystości danych treningowych, ale audyt bezpieczeństwa całego łańcucha dostaw to już osobna historia.
Mercor, jako firma pośrednicząca między laboratoriami a danymi, siedziała dokładnie w tym miejscu, gdzie przepływają najwrażliwsze informacje branży. Czy laboratoria wymagały od niej standardów bezpieczeństwa porównywalnych z własnymi? To pytanie, na które odpowiedź poznamy przy okazji dochodzeń — albo przy okazji kolejnego wycieku.
Meta na razie nie podała daty ewentualnego wznowienia współpracy z Mercor.