Mozilla znalazła 271 bugów w Firefox. Pomógł Claude.

Q: Czy to oznacza koniec manualnych audytów bezpieczeństwa?

Anthropic's Mythos pomógł zespołowi Firefox wykryć i naprawić 271 błędów. Ale deweloperzy dostają ostrzeżenie.

Q: 271 bugów to dużo czy mało?

Anthropic's Mythos pomógł zespołowi Firefox wykryć i naprawić 271 błędów. Ale deweloperzy dostają ostrzeżenie.

Q: Czy Anthropic buduje niszę w bezpieczeństwie oprogramowania?

Anthropic's Mythos pomógł zespołowi Firefox wykryć i naprawić 271 błędów. Ale deweloperzy dostają ostrzeżenie.

Mozilla odpaliła Mythosa na Firefoksie — i znalazła 271 błędów

Mozilla użyła Mythosa — agenta AI zbudowanego przez Anthropic — do przeskanowania kodu Firefox pod kątem luk bezpieczeństwa i wykryła 271 bugów, które następnie naprawiła. To nie był proof-of-concept na boku, ale realna operacja na produkcyjnej bazie kodu jednej z najdłużej rozwijanej przeglądarki na świecie.

Mythos to narzędzie klasy agentycznej — nie chodzi o wrzucenie fragmentu kodu do okna chatu i zapytanie „czy tu jest bug”. Agent samodzielnie przemierza repozytorium, generuje hipotezy o podatnościach, testuje je i raportuje wyniki. Mozilla wpuściła go do Firefoksa i dostała listę 271 problemów do odhaczenia.

Czy to oznacza koniec manualnych audytów bezpieczeństwa?

Zespół Firefoksa mówi wprost: nie. Przynajmniej nie długoterminowo. Ich ocena jest wyważona — AI nie wywróci fundamentów cyberbezpieczeństwa, ale zmieni sposób pracy na tyle mocno, że deweloperzy odczują to boleśnie.

Prognoza brzmi konkretnie: czeka nas „rocky transition”, czyli okres, w którym stare nawyki kolidują z nowymi możliwościami. Narzędzia zmieniają się szybciej niż procesy. Zespoły muszą na nowo kalibrować, czemu ufać, a czemu nie — bo agent AI może znaleźć 271 prawdziwych błędów i jednocześnie zaserwować fałszywe alarmy, które kosztują czas.

271 bugów to dużo czy mało?

Zależy od perspektywy. Firefox to projekt z ponad 20 milionami linii kodu, rozwijany od 2002 roku przez setki inżynierów. 271 błędów znalezionych jednym narzędziem w jednym przebiegu brzmi jak sporo — i prawdopodobnie jest sporą liczbą jak na pojedynczą sesję audytu.

Tradycyjne testy penetracyjne prowadzone przez zewnętrzne firmy zazwyczaj raportują dziesiątki, rzadziej setki podatności — i trwają tygodnie. Mythos wyręczył ten proces w czasie, który nie został podany publicznie, ale skoro Mozilla zdecydowała się to ogłosić, wynik musiał być na tyle dobry, żeby pochwalić się nim na zewnątrz.

Tu pojawia się jednak pytanie, którego Mozilla wprost nie adresuje: ile z tych 271 to były błędy krytyczne, a ile kosmetyka? Różnica między “SQL injection w module logowania” a “brakującym atrybutem ARIA” jest kolosalna. Bez rozbicia na kategorie liczba sama w sobie jest niepełna.

Deweloperzy na celowniku

Ostrzeżenie przed trudnym przejściem nie jest przypadkowe. Mozilla sygnalizuje coś, czego branża woli nie mówić głośno: AI jako narzędzie do wykrywania błędów nie zlikwiduje potrzeby ludzkich inżynierów, ale zmieni wymagania wobec nich.

Deweloper, który nie potrafi weryfikować outputu agenta AI, staje się słabym ogniwem. Ten, który potrafi — dostaje supermoc. Firmy, które pierwsze zintegrują takie narzędzia w standardowym workflow, zyskają przewagę na czas przejścia. Pozostałe będą gonić.

Anthropic nie jest tu jedynym graczem. Google DeepMind testuje podobne podejście z własnym stackiem, a Microsoft wbudował Copilot w narzędzia dla deweloperów już na poziomie IDE. Mozilla wybrała Mythosa — i wybrała Anthropica — co jest nietrywialną decyzją dla organizacji non-profit zbudowanej na otwartości.

Czy Anthropic buduje niszę w bezpieczeństwie oprogramowania?

Mythos to nie jest produkt, który Anthropic sprzedaje na stronie głównej obok cen API. To bardziej prototyp możliwości agentycznych Claude’a zastosowanych w konkretnym domenie. Fakt, że Mozilla zdecydowała się na publiczne ogłoszenie wyników, działa jak case study — i prawdopodobnie tak był zamierzony.

Anthropic coraz wyraźniej pozycjonuje Claude’a nie jako chatbota, ale jako silnik dla agentów wykonujących zadania z dziedziny inżynierii oprogramowania. Wcześniejsze testy na benchmarkach SWE-bench pokazały, że Claude 3.5 Sonnet radzi sobie z realnym kodem lepiej niż poprzednie modele. Mozilla daje temu twierdzeniu realne poparcie.

271 poprawionych błędów w Firefox to dobry wynik. Pytanie, ile ich zostało.”, “coverImageAlt”: “Ilustracja przedstawiająca agenta AI skanującego kod źródłowy przeglądarki internetowej