OpenAI przebudował stos WebRTC — rozmowy z AI są szybsze
- OpenAI całkowicie przebudował infrastrukturę WebRTC obsługującą Voice AI, stawiając na niskie opóźnienia i globalną skalowalność.
- Nowy stos umożliwia płynne przełączanie tury w konwersacji, co eliminuje irytujące pauzy w dialogu z modelem.
- Firma opublikowała techniczne szczegóły tej architektury, ujawniając jak radzi sobie z milionami równoległych połączeń głosowych.
OpenAI przepisał od zera swój stos WebRTC, żeby real-time Voice AI mogło działać w skali globalnej bez zauważalnych opóźnień — i właśnie opisał jak to zrobił.
Stary stos po prostu nie dawał rady
Pierwotna architektura głosowa OpenAI nie była budowana z myślą o masowym użyciu. Kiedy liczba użytkowników korzystających z trybu głosowego w ChatGPT zaczęła rosnąć, bottlenecki stały się widoczne. Opóźnienia rosły, przełączanie tury — czyli moment, gdy AI rozpoznaje że skończyłeś mówić i zaczyna odpowiadać — działało nieprzewidywalnie. OpenAI zdecydował się na przepisanie stosu zamiast łatania istniejącego rozwiązania.
Jak działa nowa architektura?
Nowy stos oparty jest na własnej implementacji WebRTC zoptymalizowanej pod kątem audio AI, a nie ogólnych wideokonferencji. Trzy elementy miały największy wpływ na wynik:
- Globalna sieć punktów styku — serwery OpenAI przyjmują połączenie jak najbliżej użytkownika geograficznie, skracając fizyczną trasę pakietów audio
- Adaptive jitter buffer — bufor dynamicznie dostosowuje się do warunków sieci, zamiast stosować stałe opóźnienie
- Turn detection na poziomie stosu — zamiast czekać aż model zdecyduje kiedy użytkownik skończył mówić, decyzja zapada wcześniej, na poziomie infrastruktury audio
Efekt: konwersacja brzmi bardziej jak rozmowa z człowiekiem, mniej jak dyktowanie do automatu.
Czy turn-taking to naprawdę najtrudniejszy problem?
Zdecydowanie tak. Każdy kto próbował rozmawiać z wczesną wersją Voice Mode w ChatGPT wie, że największy problem nie leżał w jakości głosu ani rozumieniu mowy — leżał w tym niezręcznym momencie, gdy oboje zaczynaliście mówić jednocześnie albo AI czekało dwie sekundy za długo.
Ludzie w naturalnej rozmowie używają sygnałów prozodycznych — zmiany tonu, tempa, charakterystycznych pauz — żeby sygnalizować zakończenie wypowiedzi. Model musi to wykryć w czasie zbliżonym do zera, bo każde 100ms opóźnienia jest słyszalne. OpenAI przeniosło część tej logiki bliżej warstwy transportowej, żeby skrócić ścieżkę decyzyjną.
Skala, której nie widać
OpenAI nie podał konkretnych liczb użytkowników Voice AI ani przepustowości nowego stosu — ale sam fakt opisywania tej architektury publicznie sugeruje, że rozwiązanie działa na tyle stabilnie, żeby się nim chwalić. Wcześniej firma raczej nie chwaliła się szczegółami infrastruktury głosowej.
WebRTC jako protokół był projektowany dla peer-to-peer — Zoom, Meet, Teams. Adaptacja go do połączeń klient-serwer z modelem AI po drugiej stronie wymaga innych kompromisów: tu nie ma symetrii przepustowości, za to jest model językowy który musi dostać przetworzone audio, wygenerować odpowiedź i odesłać syntezę mowy w oknie kilkuset milisekund.
Dlaczego OpenAI to teraz publikuje?
Archikel techniczny pojawił się dokładnie gdy rynek głosowych agentów AI zaczyna się zagęszczać. ElevenLabs ma własne API do konwersacji głosowych w czasie rzeczywistym. Twilio buduje integracje głosowe z modelami różnych dostawców. Daily.co i LiveKit oferują infrastrukturę WebRTC jako usługę.
OpenAI pokazując szczegóły techniczne mówi deweloperom: możecie to zbudować sami na naszym API i wiecie że infrastruktura po naszej stronie nie jest wąskim gardłem. To argument sprzedażowy ubrany w dokumentację inżynierską.
Co to oznacza dla deweloperów budujących agentów głosowych?
Realtime API OpenAI korzysta z tej samej infrastruktury. Każdy kto buduje agenta głosowego — call center bot, asystent w aplikacji mobilnej, interfejs głosowy w urządzeniu IoT — dostaje te optymalizacje za darmo, bez konfiguracji.
Praktyczne ograniczenie pozostaje niezmienione: Realtime API jest droższe niż standardowe API tekstowe, a koszt na minutę rozmowy wciąż jest wyższy niż u konkurencji oferującej podobne latencje przez własne pipeline’y.
OpenAI nie ujawnił ile połączeń jednocześnie obsługuje nowy stos.