Claude Code automatyzuje 93% zgód. Bezpieczniej, mniej klikania.

93% — liczba, która zbudowała nową funkcję

Anthropić opublikował na blogu inżynieryjnym dane, które stały się punktem wyjścia dla trybu auto w Claude Code: użytkownicy zatwierdzają 93% wszystkich monitów o uprawnienia. Jeśli niemal każde kliknięcie kończy się „tak”, to pojawia się pytanie, czy w ogóle warto przerywać pracę.

Zmęczenie zatwierdzaniem uprawnień to realny problem w narzędziach agentowych. Użytkownik, który przez godzinę klika „zezwól” na operacje plikowe, po jakimś czasie przestaje czytać monity i zatwierdza wszystko odruchowo — co paradoksalnie obniża bezpieczeństwo zamiast je podnosić.

Jak działają klasyfikatory w trybie auto

Anthropić wytrenował klasyfikatory ML, które oceniają każdą prośbę o uprawnienie przed jej wyświetleniem. Klasyfikator dzieli akcje na trzy grupy: automatycznie akceptowane, automatycznie odrzucane i te, gdzie decyzja trafia do użytkownika.

Do automatycznie akceptowanych należą typowe operacje na plikach w obrębie projektu, odczyt katalogów, uruchamianie testów jednostkowych. Klasyfikator blokuje bez pytania próby dostępu do katalogów systemowych, operacje sieciowe do nieznanych hostów czy modyfikacje plików poza bieżącym workspace’em.

Anthropić wprost przyznaje, że system ma ślepe plamki. Klasyfikator może nie rozpoznać złośliwej sekwencji operacji, które każda z osobna wygląda niewinnie — to tzw. prompt injection przez łańcuch akcji.

Czego system nie łapie

Blog inżynieryjny wymienia konkretne kategorie fałszywych negatywów. Złożone ataki przez złośliwe repozytoria, gdzie plik konfiguracyjny zawiera instrukcje dla agenta, potrafią zmylić klasyfikator. Podobnie operacje na pozornie bezpiecznych plikach tekstowych, które w rzeczywistości modyfikują skrypty startowe.

Anthropić nie podał liczby fałszywych negatywów z testów wewnętrznych — to luka, która utrudnia ocenę realnego poziomu bezpieczeństwa trybu auto.

Tryb auto jako opcja, nie domyślne ustawienie

Co ważne: Anthropić nie wrzucił trybu auto jako domyślnego. Użytkownik musi go świadomie włączyć. To przemyślana decyzja — narzędzie trafia głównie do programistów pracujących z wrażliwym kodem produkcyjnym, gdzie nieoczekiwana akcja agenta może kosztować więcej niż chwila przerwy na kliknięcie.

Tryb auto ma sens przy powtarzalnych zadaniach: refaktoryzacja, generowanie testów, dokumentacja. Przy operacjach dotykających infrastruktury czy sekretów środowiskowych Anthropić sam rekomenduje pozostanie przy manualnym zatwierdzaniu.

Approval fatigue jako problem bezpieczeństwa

Wyniki Anthropica wpisują się w szerszy trend projektowania bezpieczeństwa narzędzi agentowych. Microsoft w badaniach nad Copilot w GitHub odnotował podobny wzorzec — im więcej monitów, tym szybciej spada ich jakość oceny przez użytkownika.

Klasyczne systemy ACL zakładają, że człowiek w pętli jest bezpieczniejszy od automatyzacji. Przy obecnej skali użycia narzędzi agentowych to założenie zaczyna się kruszyć. Użytkownik klikający „zezwól” po raz pięćdziesiąty w ciągu godziny nie jest już sensownym punktem kontroli bezpieczeństwa.

Co mówią liczby o skali Claude Code

Fakt, że Anthropić zebrał wystarczająco dużo danych do trenowania klasyfikatorów i opublikowania statystyk, sugeruje, że baza użytkowników Claude Code jest już na tyle duża, żeby wyciągać wnioski statystyczne z zachowania przy uprawnieniach. Firma nie podała bezwzględnych liczb użytkowników narzędzia.

93% wskaźnik zatwierdzenia brzmi wysoko, ale oznacza też, że jeden na czternaście monitów był odrzucany — i to właśnie te przypadki klasyfikator musi umieć rozpoznać i zablokować automatycznie zanim trafi do użytkownika.