Claude zdał test rekrutacyjny Anthropica. Trzy razy z rzędu

Q: Dlaczego klasyczne testy programistyczne przestają działać?

Anthropic przyznało, że Claude trzykrotnie rozwiązał ich własne zadania rekrutacyjne dla inżynierów wydajności — na poziomie najlepszych kandydatów.

Q: Gdzie ludzie wciąż mają przewagę?

Anthropic przyznało, że Claude trzykrotnie rozwiązał ich własne zadania rekrutacyjne dla inżynierów wydajności — na poziomie najlepszych kandydatów.

Q: Czy branża tech zauważy ten problem wystarczająco wcześnie?

Anthropic przyznało, że Claude trzykrotnie rozwiązał ich własne zadania rekrutacyjne dla inżynierów wydajności — na poziomie najlepszych kandydatów.

Claude zdał test, który miał oceniać ludzi

Anthropic opublikowało na swoim blogu inżynierskim szczegółową analizę kłopotliwego faktu: Claude trzykrotnie rozwiązał firmowe zadania rekrutacyjne dla kandydatów na stanowisko inżyniera wydajności, za każdym razem wykręcając wyniki porównywalne z najlepszymi ludzkimi aplikantami. Nie raz, nie przypadkowo — trzy iteracje testu, trzy razy ten sam wynik.

Firma używała zadań take-home jako centralnego elementu rekrutacji. Gdy Claude zaczął je rozwiązywać na poziomie eksperta, cały system oceny przestał spełniać swoją funkcję.

Trzy iteracje porażki — i wnioski z każdej

Pierwsza wersja testu skupiała się na optymalizacji wydajności konkretnego fragmentu kodu. Claude nie tylko rozwiązał zadanie — zaproponował podejścia, które recenzenci początkowo brali za kreatywne pomysły kandydata.

Druga iteracja dorzuciła analizę rzeczywistych logów i metryk. Założenie było takie, że AI nie poradzi sobie z interpretacją danych z prawdziwego systemu produkcyjnego. Claude poprawnie zidentyfikował wąskie gardła i zaproponował sensowne optymalizacje. Założenie okazało się błędne.

Trzecia wersja wymagała już pracy z zewnętrznym API i symulowanym środowiskiem produkcyjnym. Tu pojawiły się pierwsze pęknięcia w możliwościach modelu, ale niewystarczające, żeby test odzyskał swoją użyteczność.

Dlaczego klasyczne testy programistyczne przestają działać?

Traдycyjne zadania rekrutacyjne w IT zakładają, że kandydat pracuje samodzielnie, ma ograniczony czas i musi głęboko rozumieć problem. Claude burzy każde z tych założeń.

Anthropic wskazało trzy główne słabości standardowych testów:

Izolowane problemy algorytmiczne — zadania z jasno zdefiniowanym wejściem i wyjściem to dokładnie to, w czym Claude radzi sobie najlepiej
Kod bez kontekstu — pisanie funkcji w oderwaniu od większego systemu to naturalne środowisko dla modeli językowych
Statyczne środowisko — gdy wszystkie informacje są dostępne w treści zadania, AI nie ma żadnej luki do nadrobienia

Firma nie planuje przy tym wykrywać, czy kandydaci używają AI podczas rozwiązywania zadań. Uznaje to za drogę donikąd — narzędzia detekcji są zawodne, a korzystanie z modeli podczas codziennej pracy inżynierskiej staje się standardem, nie wyjątkiem.

Gdzie ludzie wciąż mają przewagę?

Anthropic zidentyfikowało cztery obszary, w których kandydaci-ludzie wciąż dystansują Claude’a:

Decyzje w warunkach niepewności — gdy zadanie wymaga wybrania jednego kierunku bez pełnych danych, Claude generuje wszystkie możliwe opcje zamiast po prostu wybrać jedną i ją uzasadnić
Interakcja z zewnętrznymi systemami w czasie rzeczywistym — debugowanie problemu, który zmienia się podczas analizy, wymaga adaptacji w locie, której obecne modele nie mają
Trade-offy bez jednoznacznej odpowiedzi — inżynieria to często wybór między dwoma złymi rozwiązaniami, a Claude preferuje odpowiedzi optymalne, które w praktyce często nie istnieją
Kontekst organizacyjny — pytania o to, dlaczego poprzedni zespół podjął daną decyzję, wymagają rozumienia dynamiki ludzkiej, nie tylko kodu

To nieprzypadkowy zestaw. Wszystkie cztery obszary łączy jedno: niejednoznaczność. Claude świetnie działa tam, gdzie problem ma granice. Gorzej tam, gdzie granice trzeba najpierw samemu narysować.

Czy branża tech zauważy ten problem wystarczająco wcześnie?

Anthropic to jedna z niewielu firm, która przyznała publicznie, że jej własne procesy rekrutacyjne przestały działać — i opisała to szczegółowo, zamiast zamiatać pod dywan. Większość firm technologicznych nadal używa tych samych zadań take-home co trzy lata temu, nieświadoma albo niechętna przyznaniu, że oceniają już nie kandydatów, lecz ich prompt engineering.