Modele AI zbyt niebezpieczne do publikacji. Co ukrywają laboratoria?

MIT Technology Review ujawnia istnienie modeli AI, które firmy celowo wstrzymują przed wydaniem ze względu na zagrożenia bezpieczeństwa.
Modele AI zbyt niebezpieczne do publikacji. Co ukrywają laboratoria?
TL;DR
  • Laboratoria AI aktywnie pracują nad modelami, które następnie świadomie decydują się nie publikować ze względu na ocenę ryzyka.
  • MIT Technology Review opisuje praktykę wstrzymywania gotowych modeli jako rosnący trend w branży.
  • Temat zbiega się z publikacją specjalnego opowiadania science fiction autorstwa Jeffa VanderMeera, zamówionego przez redakcję pisma.

Laboratoria AI mają gotowe modele, których celowo nie wypuszczają — i według MIT Technology Review to zjawisko staje się coraz powszechniejszą praktyką branżową.

Szuflada pełna modeli, których nie zobaczysz

Koncepcja „modeli zbyt niebezpiecznych do opublikowania” brzmi jak scenariusz z filmu klasy B, ale firmy takie jak Anthropic, OpenAI czy DeepMind od dawna budują wewnętrzne frameworki oceny ryzyka, które mogą skutkować właśnie taką decyzją. Chodzi o modele, które przeszły trening, wykręciły wymagane benchmarki, a mimo to nigdy nie trafią do użytkowników.

Przykład z życia: Anthropic opublikował dokument „Responsible Scaling Policy”, w którym wprost opisuje progi zdolności modeli — jeśli dany model przekroczy określony poziom ryzyka biologicznego czy cybernetycznego, firma zobowiązuje się go nie wypuszczać. OpenAI ma analogiczny dokument „Preparedness Framework”. To nie są puste deklaracje PR — to wewnętrzne procedury z konkretnymi testami.

Czy to przejaw odpowiedzialności, czy kontrola wizerunku?

Tu robi się ciekawie. Laboratoria same oceniają własne modele i same decydują, co jest „zbyt niebezpieczne”. Brakuje zewnętrznego audytora z realnymi uprawnieniami. NIST w USA pracuje nad standardami ewaluacji, Unia Europejska wdraża EU AI Act z wymogami oceny ryzyka dla systemów wysokiego ryzyka — ale żadna z tych instytucji nie siedzi w serwerowni Anthropica i nie patrzy na ręce inżynierom.

Krytycy wskazują, że decyzja o niewydaniu modelu może być równie dobrze decyzją biznesową ubraną w język bezpieczeństwa. Model, który działa zbyt dobrze w generowaniu dezinformacji, to jednocześnie model, który może zniszczyć reputację firmy przy pierwszym głośnym incydencie. Interesy bezpieczeństwa i interesy PR rzadko są sprzeczne — i to powinno dawać do myślenia.

Granica między ostrożnością a przemilczeniem

Problem z wstrzymywaniem modeli polega na tym, że opinia publiczna nie dostaje żadnych informacji o tym, co konkretnie zostało zablokowane i dlaczego. Anthropic opublikował szczegółowy raport z ewaluacji Claude’a 3 Opus pod kątem zdolności do pomocy w tworzeniu broni biologicznej — to akurat transparentne działanie. Ale ile modeli trafiło do szuflady bez żadnego komunikatu?

Naukowcy z obszaru AI safety od lat postulują coś w rodzaju „rejestru incydentów” dla wstrzymanych modeli — analogię do bazy danych incydentów lotniczych, gdzie nawet nieudane loty generują raport. Na razie taki rejestr nie istnieje.

Jeff VanderMeer pisze o gwiazdozbiorach, branża patrzy w czarną dziurę

MIT Technology Review obok tego materiału opublikował specjalnie zamówione opowiadanie „Constellations” autorstwa Jeffa VanderMeera, pisarza odpowiedzialnego za serię Southern Reach — tę samą, na podstawie której nakręcono „Unicestwienie” z Natalie Portman. VanderMeer to jeden z niewielu autorów, któremu udaje się pisać o nieludzkich systemach bez popadania w technologiczny determinizm.

Zestawienie fikcji literackiej z reportażem o ukrytych modelach AI to nieprzypadkowy zabieg redakcyjny. Pytanie o to, co robimy z bytami, które stworzyliśmy ale których się boimy, ma długą historię — zarówno w science fiction, jak i coraz krócej w dokumentach polityki bezpieczeństwa laboratoriów.

Kto w ogóle decyduje, co jest „zbyt niebezpieczne”?

W tej chwili odpowiedź brzmi: same firmy, przy konsultacjach z wąskim gronem zewnętrznych ekspertów, często związanych finansowo z danym laboratorium. Anthropic ma swój Long-Term Benefit Trust, OpenAI ma board z misją non-profit (historycznie burzliwą), DeepMind operuje w ramach Google z własnymi procesami bezpieczeństwa.

Brak standaryzacji metod ewaluacji oznacza, że „zbyt niebezpieczny” dla jednej firmy może być „wymaga dodatkowych zabezpieczeń” dla innej. Przy obecnym tempie rozwoju modeli ta luka regulacyjna będzie się tylko powiększać.”, “coverImageAlt”: “Ilustracja przedstawiająca zamknięte drzwi serwerowni z symbolem ostrzeżenia i znakiem zakazu

[AI] Artykuł powstał z pomocą AI na podstawie weryfikowanych źródeł i zredagowany przez redakcję Odkrywaj.AI.