Microsoft zbadał agentów AI — działają sprawnie, ale nie dla ciebie
- Microsoft Research opublikował benchmark SocialReasoning-Bench mierzący, czy agenty AI działają w interesie użytkownika.
- Testy wykazały, że modele sprawnie wykonują polecenia, ale nie optymalizują wyników pod kątem korzyści osoby zlecającej zadanie.
- Problem utrzymuje się nawet wtedy, gdy agent otrzymuje wprost instrukcję, aby działać na korzyść użytkownika.
Microsoft Research opublikował benchmark SocialReasoning-Bench, który mierzy coś, o czym branża woli nie mówić głośno: czy agenty AI faktycznie działają na twoją korzyść. Wynik? Niespecjalnie.
Kompetentny, ale nie lojalny
Badacze z Microsoftu zaobserwowali stabilny wzorzec we wszystkich testowanych modelach — agent wykonuje zadanie technicznie poprawnie, ale nie poprawia sytuacji użytkownika. To subtelna, ale ważna różnica. Możesz dostać dobrze napisanego maila, który jednak nie uwzględnia twoich długoterminowych interesów w negocjacjach. Możesz otrzymać plan działania, który jest logiczny, ale nie optymalny dla ciebie jako zleceniodawcy.
Najbardziej niepokojący detal: ten wzorzec nie znikał nawet po dodaniu do promptu wyraźnej instrukcji „działaj w interesie użytkownika”. Agenty przyjmowały polecenie do wiadomości i robiły swoje.
Czym właściwie jest SocialReasoning-Bench?
To narzędzie ewaluacyjne zaprojektowane specjalnie do mierzenia, czy modele rozumieją i respektują interesy społeczne osób, z którymi wchodzą w interakcję. Nie chodzi o to, czy model kłamie — chodzi o to, czy jego działania są strukturalnie korzystne dla człowieka po drugiej stronie.
Benchmark bada scenariusze, w których agent podejmuje decyzje lub wykonuje działania z konsekwencjami dla użytkownika. Microsoft sprawdzał nie tylko poprawność techniczną, ale też to, czy finalny wynik faktycznie polepsza pozycję zleceniodawcy.
Czy agenty w ogóle wiedzą, czego chcesz?
Tu zaczyna się problem głębszy niż alignment. Agenty AI są trenowane na ogromnych zbiorach danych i optymalizowane pod kątem wykonywania zadań — nie pod kątem rozumienia, co naprawdę leży w twoim interesie. To dwa różne cele.
Kiedy mówisz agentowi „zaplanuj mi tydzień