Strands Evals symuluje użytkowników do testów agentów AI

AWS wrzuciło do Strands Evaluations SDK komponent ActorSimulator, który rozwiązuje jeden z bardziej irytujących problemów przy budowaniu agentów — jak sensownie testować rozmowy wieloturowe bez angażowania prawdziwych ludzi do każdego testu.

Dlaczego testy multi-turn to oddzielny ból głowy

Ewaluacja pojedynczego zapytania do modelu jest prosta: dajesz prompt, dostajesz odpowiedź, mierzysz jakość. Agent prowadzący rozmowę przez 10-15 wymian to zupełnie inny problem. Użytkownik zmienia zdanie, zadaje niejasne pytania, wraca do poprzednich wątków. Żaden statyczny zestaw testów tego nie odwzorowuje.

Dotychczas firmy radziły sobie z tym na trzy sposoby: zatrudniały ludzi do ręcznego testowania (drogie i wolne), pisały skryptowane scenariusze (zbyt przewidywalne dla agenta), albo po prostu ignorowały edge case’y rozmów wieloturowych (co wychodziło na jaw po wdrożeniu).

ActorSimulator — jak to działa

ActorSimulator odgrywa rolę syntetycznego użytkownika po drugiej stronie rozmowy. Dostajesz konfigurowalną personę z określonym celem, stylem komunikacji i poziomem cierpliwości. Agent testowany nie wie, że rozmawia z symulatorem.

Cały flow wygląda tak: definiujesz personę użytkownika, podajesz cel rozmowy (np. „zarezerwuj lot z Warszawy do Berlina z przesiadką”), a ActorSimulator prowadzi wieloturową wymianę z Twoim agentem. Po zakończeniu Strands Evals ocenia jakość odpowiedzi agenta na każdym etapie, nie tylko na końcu.

SDK pozwala też definiować trudniejsze scenariusze — użytkownik, który podaje sprzeczne informacje, zmienia wymagania w połowie rozmowy albo używa niejednoznacznych sformułowań. To te przypadki, które w produkcji psują doświadczenie.

Czy to zastępuje testy z prawdziwymi użytkownikami?

Krótka odpowiedź: nie. Dłuższa: zależy od tego, co chcesz zmierzyć.

ActorSimulator dobrze sprawdza się do wyłapywania regresji — kiedy update agenta psuje ścieżki konwersacyjne, które wcześniej działały. Pozwala odpalić setki zróżnicowanych scenariuszy zanim cokolwiek trafi do ludzi. Można go podpiąć do CI/CD i mieć automatyczny sygnał przy każdym deploy’u.

Natomiast nie zastąpi badań z prawdziwymi użytkownikami przy nowych funkcjach, gdzie nie wiemy jeszcze, jak ludzie w ogóle będą z agentem rozmawiać. Syntetyczny użytkownik jest tak dobry, jak persona którą dla niego zdefiniujesz.

Integracja z pipelinem ewaluacyjnym

Strands Evals działa jako oddzielne SDK, niezależne od Strands Agents SDK — można więc testować agenty zbudowane w innych frameworkach, nie tylko te postawione na Strands. To rozsądna decyzja, bo zamknięcie ewaluacji tylko do własnego ekosystemu mocno ograniczyłoby adopcję.

Narzędzie obsługuje zarówno lokalne testy podczas developmentu, jak i skalowalne uruchomienia w chmurze. Wyniki trafiają do ustrukturyzowanych raportów z metrykami per-tura i zagregowanymi per-sesja.

AWS nie podaje benchmarków porównujących ActorSimulator z innymi podejściami do ewaluacji, więc ile realnie oszczędza czasu przy testowaniu złożonych agentów — na razie firmy będą musiały sprawdzić same.”, “coverImageAlt”: “Ilustracja przedstawiająca syntetycznego użytkownika prowadzącego rozmowę z agentem AI