Claude zdał test rekrutacyjny Anthropica. Trzy razy z rzędu
- Anthropic opublikowało analizę pokazującą, że Claude trzykrotnie pokonał zadania rekrutacyjne przeznaczone dla inżynierów wydajności, osiągając wyniki porównywalne z najlepszymi ludzkimi kandydatami.
- Firma przetestowała trzy iteracje testu — każda kończyła się tym samym rezultatem, więc cały system oceny stracił sens.
- Anthropic zidentyfikowało konkretne obszary, w których ludzie wciąż mają przewagę nad AI, i zamiast wykrywać użycie modeli przez kandydatów, szuka nowych metod oceny.
Claude zdał test, który miał oceniać ludzi
Anthropic opublikowało na swoim blogu inżynierskim szczegółową analizę kłopotliwego faktu: Claude trzykrotnie rozwiązał firmowe zadania rekrutacyjne dla kandydatów na stanowisko inżyniera wydajności, za każdym razem wykręcając wyniki porównywalne z najlepszymi ludzkimi aplikantami. Nie raz, nie przypadkowo — trzy iteracje testu, trzy razy ten sam wynik.
Firma używała zadań take-home jako centralnego elementu rekrutacji. Gdy Claude zaczął je rozwiązywać na poziomie eksperta, cały system oceny przestał spełniać swoją funkcję.
Trzy iteracje porażki — i wnioski z każdej
Pierwsza wersja testu skupiała się na optymalizacji wydajności konkretnego fragmentu kodu. Claude nie tylko rozwiązał zadanie — zaproponował podejścia, które recenzenci początkowo brali za kreatywne pomysły kandydata.
Druga iteracja dorzuciła analizę rzeczywistych logów i metryk. Założenie było takie, że AI nie poradzi sobie z interpretacją danych z prawdziwego systemu produkcyjnego. Claude poprawnie zidentyfikował wąskie gardła i zaproponował sensowne optymalizacje. Założenie okazało się błędne.
Trzecia wersja wymagała już pracy z zewnętrznym API i symulowanym środowiskiem produkcyjnym. Tu pojawiły się pierwsze pęknięcia w możliwościach modelu, ale niewystarczające, żeby test odzyskał swoją użyteczność.
Dlaczego klasyczne testy programistyczne przestają działać?
Traдycyjne zadania rekrutacyjne w IT zakładają, że kandydat pracuje samodzielnie, ma ograniczony czas i musi głęboko rozumieć problem. Claude burzy każde z tych założeń.
Anthropic wskazało trzy główne słabości standardowych testów:
- Izolowane problemy algorytmiczne — zadania z jasno zdefiniowanym wejściem i wyjściem to dokładnie to, w czym Claude radzi sobie najlepiej
- Kod bez kontekstu — pisanie funkcji w oderwaniu od większego systemu to naturalne środowisko dla modeli językowych
- Statyczne środowisko — gdy wszystkie informacje są dostępne w treści zadania, AI nie ma żadnej luki do nadrobienia
Firma nie planuje przy tym wykrywać, czy kandydaci używają AI podczas rozwiązywania zadań. Uznaje to za drogę donikąd — narzędzia detekcji są zawodne, a korzystanie z modeli podczas codziennej pracy inżynierskiej staje się standardem, nie wyjątkiem.
Gdzie ludzie wciąż mają przewagę?
Anthropic zidentyfikowało cztery obszary, w których kandydaci-ludzie wciąż dystansują Claude’a:
- Decyzje w warunkach niepewności — gdy zadanie wymaga wybrania jednego kierunku bez pełnych danych, Claude generuje wszystkie możliwe opcje zamiast po prostu wybrać jedną i ją uzasadnić
- Interakcja z zewnętrznymi systemami w czasie rzeczywistym — debugowanie problemu, który zmienia się podczas analizy, wymaga adaptacji w locie, której obecne modele nie mają
- Trade-offy bez jednoznacznej odpowiedzi — inżynieria to często wybór między dwoma złymi rozwiązaniami, a Claude preferuje odpowiedzi optymalne, które w praktyce często nie istnieją
- Kontekst organizacyjny — pytania o to, dlaczego poprzedni zespół podjął daną decyzję, wymagają rozumienia dynamiki ludzkiej, nie tylko kodu
To nieprzypadkowy zestaw. Wszystkie cztery obszary łączy jedno: niejednoznaczność. Claude świetnie działa tam, gdzie problem ma granice. Gorzej tam, gdzie granice trzeba najpierw samemu narysować.
Czy branża tech zauważy ten problem wystarczająco wcześnie?
Anthropic to jedna z niewielu firm, która przyznała publicznie, że jej własne procesy rekrutacyjne przestały działać — i opisała to szczegółowo, zamiast zamiatać pod dywan. Większość firm technologicznych nadal używa tych samych zadań take-home co trzy lata temu, nieświadoma albo niechętna przyznaniu, że oceniają już nie kandydatów, lecz ich prompt engineering.