Thinking Machines buduje AI, która słucha i mówi jednocześnie

Q: Czy to tylko kolejny startup z ambitnym pitchem?

Startup Thinking Machines pracuje nad modelem AI działającym jak rozmowa telefoniczna — przetwarza input i generuje odpowiedź w tym samym czasie.

Q: Czy rynek potrzebuje lepszej rozmowy?

Startup Thinking Machines pracuje nad modelem AI działającym jak rozmowa telefoniczna — przetwarza input i generuje odpowiedź w tym samym czasie.

Thinking Machines ogłosił prace nad modelem AI, który przetwarza dane wejściowe i generuje odpowiedź równocześnie — coś, czego żaden z obecnych modeli nie robi.

Jak działają modele dzisiaj — i dlaczego to irytuje

Wszystkie obecne modele konwersacyjne, od GPT-4o po Gemini, operują w trybie push-to-talk: czekają na zakończenie wypowiedzi użytkownika, a dopiero potem zaczynają generować odpowiedź. To jak pisanie SMS-ów zamiast rozmawiania przez telefon. Każda wymiana zdań ma wbudowaną przerwę, której w naturalnej rozmowie między ludźmi po prostu nie ma.

Ten schemat pochodzi bezpośrednio z architektury transformerowej, gdzie model przetwarza sekwencję tokenów od lewej do prawej po jej zakończeniu. Zmiana tego założenia to nie drobny update — to przepisanie fundamentów.

Czy to tylko kolejny startup z ambitnym pitchem?

Thinking Machines nie jest przypadkową firmą z garażu. Zespół skupia badaczy pracujących wcześniej nad modelami głosowymi i architekturami strumieniowymi. Startup nie ujawnił jeszcze konkretnych wyników benchmarków ani daty premiery produktu, co oznacza, że jesteśmy wciąż na etapie obietnicy, nie dostawy.

Ale problem, który Thinking Machines próbuje rozwiązać, jest realny i dobrze znany każdemu, kto próbował użyć trybu głosowego w ChatGPT czy Gemini Live. Modele te już dziś próbują skracać opóźnienia przez różne sztuczki — strumieniowanie tokenów, wczesne przerywanie generacji — ale wciąż nie słyszą, co mówisz, kiedy same mówią.

Pełna dupleksowość to inżynieryjny koszmar

Telefony rozwiązały problem pełnego dupleksu dekady temu — możesz mówić i słyszeć rozmówcę jednocześnie. Dla modeli językowych to wyzwanie zupełnie innej skali.

Model musi jednocześnie:

dekodować strumień audio lub tekstu przychodzącego od użytkownika,
generować kolejne tokeny odpowiedzi,
decydować, kiedy przerwać własną odpowiedź na podstawie nowego inputu.

To trzecia operacja jest najtrudniejsza. Jeśli użytkownik zmieni temat lub przerwie w połowie zdania, model powinien to wykryć i zareagować — nie dokończyć zdania, które stało się nieaktualne. Obecne systemy tego nie robią, bo po prostu nie słyszą przerywania.

Co Thinking Machines musiałby wykręcić, żeby to zadziałało

Bez konkretnych liczb trudno ocenić postęp. Kluczowe metryki, które będą definiować sukces projektu, to latencja reakcji na przerwanie (ile milisekund od momentu, gdy użytkownik zaczyna mówić, do zatrzymania generacji odpowiedzi) oraz jakość kohezji konwersacyjnej — czy model po przerwaniu potrafi sensownie wznowić wątek.

Google i Meta prowadzą własne badania nad podobnymi architekturami strumieniowymi od co najmniej dwóch lat. OpenAI w trybie Advanced Voice Mode skrócił latencję do około 320 ms, ale nadal nie obsługuje pełnego dupleksu. Thinking Machines wchodzi na rynek, gdzie giganci mają miliardy dolarów i lata zaplecza badawczego.

Czy rynek potrzebuje lepszej rozmowy?

Zastosowania są bardziej konkretne niż mogłoby się wydawać. Asystenci głosowi w samochodach, systemy obsługi klienta działające przez telefon, narzędzia dla osób z dysfunkcjami motorycznymi — w każdym z tych przypadków naturalna, niedupleksowa konwersacja bezpośrednio przekłada się na użyteczność produktu.

Rynek asystentów głosowych wyceniano w 2024 roku na ponad 11 miliardów dolarów, według danych Grand View Research. Jeśli Thinking Machines zdoła jako pierwszy dostarczyć działający model z pełnym dupleksem, ma realny argument handlowy — niezależnie od tego, co robi OpenAI.

Najbliższe miesiące pokażą, czy firma opublikuje wyniki techniczne, czy projekt pozostanie na poziomie komunikatu prasowego.