Anthropic łączy rywali. 47 firm przeciw AI-hakerom.
- Anthropic ogłosiło Project Glasswing — inicjatywę skupiającą ponad 47 organizacji, w tym Apple i Google, skupioną na cyberbezpieczeństwie AI.
- Do projektu firma wrzuciła nowy model Claude Mythos Preview, zaprojektowany specjalnie do testowania zagrożeń cybernetycznych generowanych przez systemy AI.
- Celem konsorcjum jest wypracowanie metod ochrony infrastruktury przed atakami, które same modele językowe mogą przeprowadzać lub umożliwiać.
Anthropic zebrało Apple, Google i ponad 45 innych organizacji w jednym projekcie — Project Glasswing — którego zadaniem jest ochrona przed cyberatakami przeprowadzanymi lub wspomaganymi przez modele AI. Do tego zestawu firma dorzuciła świeży model: Claude Mythos Preview, zbudowany z myślą o testowaniu ofensywnych i defensywnych możliwości AI w cyberprzestrzeni.
Rywale przy jednym stole
Anthropic, OpenAI i Google to firmy, które normalnie walczą o każdy benchmark i każdego enterprise’owego klienta. Fakt, że Apple i Google siadają do projektu prowadzonego przez Anthropic, pokazuje jak bardzo branża boi się scenariusza, w którym modele AI zaczynają działać jako autonomiczne narzędzia hakerskie. Nikt nie chce być pierwszą ofiarą.
Project Glasswing nie jest kolejnym think tankiem produkującym PDF-y z rekomendacjami. Konsorcjum ma testować rzeczywiste możliwości modeli — sprawdzać, czy i jak szybko AI potrafi wykrywać luki w systemach, pisać exploity albo obchodzić zabezpieczenia. To red-teaming na skalę przemysłową.
Claude Mythos Preview — po co nowy model?
Anthropicowi nie wystarczył Claude 3.5 ani żadna z obecnych wersji. Mythos Preview to model wyspecjalizowany — nie generalist do pisania maili i streszczania dokumentów, ale narzędzie skrojone pod analizę cyberzagrożeń. Szczegółów technicznych Anthropic na razie nie upubliczniło: nie wiadomo ani ile parametrów ma model, ani na jakich danych był trenowany.
To celowy zabieg. Wypuszczenie modelu o zdolnościach ofensywnych razem z pełną dokumentacją byłoby zaproszeniem do nadużyć. Mythos Preview trafia najpierw do partnerów z Project Glasswing — firm i instytucji, które podpisały stosowne umowy i mają infrastrukturę do bezpiecznych testów.
Czy to nie jest dawanie hakerów hakerowi?
Największy paradoks tej inicjatywy leży w samym narzędziu. Żeby testować, czy AI potrafi hakować systemy, trzeba zbudować AI, która — przynajmniej częściowo — potrafi hakować systemy. Mythos Preview musi rozumieć wektory ataku, żeby je identyfikować i przed nimi bronić.
Anthropicowi zależy na tym, żeby tę technologię rozwijać w kontrolowanym środowisku, zanim ktoś zrobi to bez żadnych zabezpieczeń i wrzuci na GitHub. Logika jest prosta: jeśli my tego nie zbadamy, zbada ktoś inny — i niekoniecznie po to, żeby napisać raport dla konsorcjum.
Historia branży bezpieczeństwa zna ten schemat. Firmy antywirusowe od dekad zatrudniają byłych hakerów. Pentesterzy włamują się do systemów na zlecenie właścicieli. Glasswing to ten sam model, tylko że zamiast ludzi — modele językowe.
47 organizacji to dużo i mało jednocześnie
Ponad 45 partnerów brzmi imponująco, ale Anthropic nie ujawniło pełnej listy. Wiemy o Apple i Google. Reszta pozostaje anonimowa, przynajmniej na razie. Bez wiedzy kto konkretnie siedzi przy tym stole, trudno ocenić, czy to rzeczywiście przekrojowa reprezentacja branży, czy starannie dobrane grono firm z podobnymi interesami.
Globalna infrastruktura krytyczna — sieci energetyczne, systemy finansowe, szpitale — działa na oprogramowaniu, które powstawało zanim ktokolwiek poważnie myślał o AI jako wektorze ataku. Łatanie tych systemów idzie wolno. Modele językowe uczą się szybko.
Co dalej z Mythos Preview?
Anthropicowi zależy, żeby wyniki testów trafiły do szerszego obiegu — przynajmniej w postaci ogólnych wniosków i rekomendacji. Harmonogram publikacji wyników nie jest znany. Nie wiadomo też, czy Mythos Preview trafi kiedykolwiek do szerszej dystrybucji, czy pozostanie narzędziem wyłącznie dla partnerów Glasswing.
Jedno pytanie pozostaje bez odpowiedzi: co się stanie, jeśli testy wykażą, że Claude Mythos Preview potrafi robić rzeczy, których nikt się nie spodziewał?