CodeAct skraca agentów AI. Microsoft redukuje liczbę tur modelu

Microsoft wbudował CodeAct w Agent Framework — agenci wykonują teraz złożone zadania w jednym wywołaniu modelu zamiast dziesiątek.
Ilustracja przedstawiająca schemat agenta AI generującego i wykonującego kod w izolowanym środowisku
TL;DR
  • Microsoft dodał obsługę CodeAct do Agent Framework, co pozwala agentom AI wykonywać sekwencje operacji w jednym obrocie modelu zamiast wielu osobnych wywołań.
  • Dotychczasowe podejście opierające się na łańcuchach małych wywołań narzędzi generowało duże opóźnienia i wysokie zużycie tokenów przy każdym kroku.
  • Nowe podejście redukuje overhead orkiestracji przez generowanie i wykonywanie kodu jako głównego mechanizmu działania agenta.

Microsoft wbudował obsługę CodeAct w swój Agent Framework, zmieniając sposób, w jaki agenci AI obsługują złożone, wieloetapowe zadania — zamiast dziesiątek osobnych wywołań modelu, agent odpalaja jeden blok kodu robiący całą robotę.

Dlaczego dotychczasowe podejście było wolne

Tradycyjne agenty działały jak pracownik, który po każdym kroku melduje się do szefa po nowe instrukcje. Każde wywołanie narzędzia — sprawdzenie pliku, zapytanie do API, obliczenie wartości — wymagało osobnego obrotu modelu. To generowało latencję i zużycie tokenów proporcjonalne do liczby kroków, nie do złożoności zadania. Przy 20-krokowym procesie agent wykonywał 20 zapytań do modelu, nawet jeśli logika między nimi była trywialna.

CodeAct zamienia plan w kod, nie w listę wywołań

CodeAct odwraca ten schemat. Zamiast pytać model “co dalej?” po każdej operacji, agent generuje od razu program — kawałek kodu — który samodzielnie iteruje przez kolejne kroki, obsługuje warunki i wywołuje narzędzia wewnątrz pętli. Model wchodzi do akcji na początku i ewentualnie przy obsłudze błędów, nie przy każdym atomowym działaniu.

Przykład: agent zbierający dane z kilku źródeł i tworzący raport wcześniej robił to jako 15 oddzielnych wywołań. Z CodeAct generuje jeden skrypt Pythona, który sam przechodzi przez wszystkie źródła, agreguje wyniki i formatuje wyjście.

Ile to faktycznie przyspiesza?

Microsoft nie podał w materiałach jednej konkretnej liczby dla wszystkich scenariuszy, ale mechanizm jest prosty do przeliczenia: jeśli zadanie wymagało 10 obrotów modelu, a teraz wymaga 2 (generowanie kodu + ewentualna korekta po błędzie), oszczędność latencji i tokenów jest liniowa względem liczby wyeliminowanych kroków. Przy modelach rozliczanych za tokeny i agentach działających w pętlach produkcyjnych to realna różnica w rachunkach.

Czy agenci piszący kod są bezpieczni?

To pytanie, które słusznie pada przy każdym podejściu type “LLM generuje i wykonuje kod”. Microsoft zintegrował CodeAct z Hyperlight — lekkim środowiskiem wykonawczym opartym na mikro-VM, który izoluje każde wykonanie kodu od reszty systemu. Każdy wygenerowany skrypt odpala się w oddzielnej, krótkoживущej piaskownicy. To nie jest nowa koncepcja w security, ale jej wbudowanie bezpośrednio w framework obniża próg wejścia dla deweloperów, którzy wcześniej musieli sami sklejać izolację z dostępnych narzędzi.

Hyperlight startuje w milisekundach, co ma znaczenie przy agentach, gdzie każda dodatkowa latencja boli — uruchamianie pełnej maszyny wirtualnej przy każdym bloku kodu byłoby kontraproduktywne.

Kto to może odpalić już teraz

Agent Framework z CodeAct jest dostępny jako część szerszego ekosystemu Microsoft dla deweloperów budujących agenty. Integracja działa z istniejącymi narzędziami frameworka — nie trzeba przepisywać całej logiki agenta, żeby skorzystać z nowego trybu wykonania. To istotne dla zespołów, które mają już działające systemy i nie chcą refaktoryzować od zera.

Zmiana jest też sygnałem o tym, w którą stronę idzie cały rynek agentów. Firmy takie jak Anthropic ze swoim Computer Use czy OpenAI z Codex też eksperymentują z podejściem “agent jako programista”, nie “agent jako klikacz”. Microsoft formalizuje to w gotowy framework produkcyjny.

Gdzie tkwi haczyk?

CodeAct sprawdza się dobrze przy zadaniach, które można z góry zaplanować jako algorytm. Gorzej działa przy scenariuszach mocno dynamicznych, gdzie każdy kolejny krok zależy od nieprzewidywalnego wyniku poprzedniego — tam model i tak musi wracać do pętli decyzyjnej częściej. Deweloperzy będą musieli sami oceniać, które przepływy nadają się do kompresji w jeden blok kodu, a które wymagają tradycyjnego podejścia krok po kroku.

Czy każdy agent da się przepisać na CodeAct i zyskać 10x mniej wywołań? Raczej nie — ale dla znacznej klasy zadań automatyzacyjnych ta zmiana robi różnicę między agentem działającym w 2 sekundy a takim, który kręci się przez pół minuty.

[AI] Artykuł powstał z pomocą AI na podstawie weryfikowanych źródeł i zredagowany przez redakcję Odkrywaj.AI.