OpenAI przebudował stos WebRTC — rozmowy z AI są szybsze

Q: Jak działa nowa architektura?

OpenAI ujawnił szczegóły techniczne nowego stosu WebRTC, który napędza Voice AI z niskim opóźnieniem i globalną skalą.

Q: Czy turn-taking to naprawdę najtrudniejszy problem?

OpenAI ujawnił szczegóły techniczne nowego stosu WebRTC, który napędza Voice AI z niskim opóźnieniem i globalną skalą.

Q: Dlaczego OpenAI to teraz publikuje?

OpenAI ujawnił szczegóły techniczne nowego stosu WebRTC, który napędza Voice AI z niskim opóźnieniem i globalną skalą.

Q: Co to oznacza dla deweloperów budujących agentów głosowych?

OpenAI ujawnił szczegóły techniczne nowego stosu WebRTC, który napędza Voice AI z niskim opóźnieniem i globalną skalą.

OpenAI przepisał od zera swój stos WebRTC, żeby real-time Voice AI mogło działać w skali globalnej bez zauważalnych opóźnień — i właśnie opisał jak to zrobił.

Stary stos po prostu nie dawał rady

Pierwotna architektura głosowa OpenAI nie była budowana z myślą o masowym użyciu. Kiedy liczba użytkowników korzystających z trybu głosowego w ChatGPT zaczęła rosnąć, bottlenecki stały się widoczne. Opóźnienia rosły, przełączanie tury — czyli moment, gdy AI rozpoznaje że skończyłeś mówić i zaczyna odpowiadać — działało nieprzewidywalnie. OpenAI zdecydował się na przepisanie stosu zamiast łatania istniejącego rozwiązania.

Jak działa nowa architektura?

Nowy stos oparty jest na własnej implementacji WebRTC zoptymalizowanej pod kątem audio AI, a nie ogólnych wideokonferencji. Trzy elementy miały największy wpływ na wynik:

Globalna sieć punktów styku — serwery OpenAI przyjmują połączenie jak najbliżej użytkownika geograficznie, skracając fizyczną trasę pakietów audio
Adaptive jitter buffer — bufor dynamicznie dostosowuje się do warunków sieci, zamiast stosować stałe opóźnienie
Turn detection na poziomie stosu — zamiast czekać aż model zdecyduje kiedy użytkownik skończył mówić, decyzja zapada wcześniej, na poziomie infrastruktury audio

Efekt: konwersacja brzmi bardziej jak rozmowa z człowiekiem, mniej jak dyktowanie do automatu.

Czy turn-taking to naprawdę najtrudniejszy problem?

Zdecydowanie tak. Każdy kto próbował rozmawiać z wczesną wersją Voice Mode w ChatGPT wie, że największy problem nie leżał w jakości głosu ani rozumieniu mowy — leżał w tym niezręcznym momencie, gdy oboje zaczynaliście mówić jednocześnie albo AI czekało dwie sekundy za długo.

Ludzie w naturalnej rozmowie używają sygnałów prozodycznych — zmiany tonu, tempa, charakterystycznych pauz — żeby sygnalizować zakończenie wypowiedzi. Model musi to wykryć w czasie zbliżonym do zera, bo każde 100ms opóźnienia jest słyszalne. OpenAI przeniosło część tej logiki bliżej warstwy transportowej, żeby skrócić ścieżkę decyzyjną.

Skala, której nie widać

OpenAI nie podał konkretnych liczb użytkowników Voice AI ani przepustowości nowego stosu — ale sam fakt opisywania tej architektury publicznie sugeruje, że rozwiązanie działa na tyle stabilnie, żeby się nim chwalić. Wcześniej firma raczej nie chwaliła się szczegółami infrastruktury głosowej.

WebRTC jako protokół był projektowany dla peer-to-peer — Zoom, Meet, Teams. Adaptacja go do połączeń klient-serwer z modelem AI po drugiej stronie wymaga innych kompromisów: tu nie ma symetrii przepustowości, za to jest model językowy który musi dostać przetworzone audio, wygenerować odpowiedź i odesłać syntezę mowy w oknie kilkuset milisekund.

Dlaczego OpenAI to teraz publikuje?

Archikel techniczny pojawił się dokładnie gdy rynek głosowych agentów AI zaczyna się zagęszczać. ElevenLabs ma własne API do konwersacji głosowych w czasie rzeczywistym. Twilio buduje integracje głosowe z modelami różnych dostawców. Daily.co i LiveKit oferują infrastrukturę WebRTC jako usługę.

OpenAI pokazując szczegóły techniczne mówi deweloperom: możecie to zbudować sami na naszym API i wiecie że infrastruktura po naszej stronie nie jest wąskim gardłem. To argument sprzedażowy ubrany w dokumentację inżynierską.

Co to oznacza dla deweloperów budujących agentów głosowych?

Realtime API OpenAI korzysta z tej samej infrastruktury. Każdy kto buduje agenta głosowego — call center bot, asystent w aplikacji mobilnej, interfejs głosowy w urządzeniu IoT — dostaje te optymalizacje za darmo, bez konfiguracji.

Praktyczne ograniczenie pozostaje niezmienione: Realtime API jest droższe niż standardowe API tekstowe, a koszt na minutę rozmowy wciąż jest wyższy niż u konkurencji oferującej podobne latencje przez własne pipeline’y.

OpenAI nie ujawnił ile połączeń jednocześnie obsługuje nowy stos.