Amazon Nova Sonic generuje podcasty z dwoma AI-hostami
- Amazon Nova Sonic pozwala generować rozmowy dwóch AI-hostów na dowolny temat z wykorzystaniem strumieniowania audio w czasie rzeczywistym.
- System stosuje filtrowanie treści zależne od etapu rozmowy, co pozwala kontrolować narrację przez cały odcinek.
- AWS opublikował techniczny przewodnik pokazujący, jak zbudować taki pipeline od zera.
Amazon Web Services wrzucił na bloga techniczny tutorial pokazujący, jak odpalić automatyczny generator podcastów oparty na Nova Sonic — modelu multimodalnym z rodziny Nova 2, który potrafi syntetyzować mowę w czasie rzeczywistym.
Dwa AI-hosty, zero człowieka w studiu
Pipeline działa tak: podajesz temat, a system generuje rozmowę między dwoma wirtualnymi prowadzącymi, którzy wzajemnie sobie odpowiadają. Nie chodzi o proste nagranie monologu — Nova Sonic strumieniuje audio na bieżąco, więc latencja jest zauważalnie niższa niż przy generowaniu całego pliku z góry. AWS chwali się, że to nadaje konwersacji naturalny rytm, choć ile z tego to marketing, a ile rzeczywistość, sprawdzisz dopiero puszczając własny test.
Cały system jest zbudowany wokół trzech mechanizmów: strumieniowania audio (streaming capabilities), filtrowania treści zależnego od etapu (stage-aware content filtering) oraz samego silnika mowy Nova Sonic.
Czym jest filtrowanie „stage-aware”?
To najciekawszy element całej układanki. Klasyczne filtry treści działają globalnie — jedno ustawienie dla całego tekstu. Nova Sonic ma to robić inaczej: inne reguły stosuje na początku odcinka (intro, przedstawienie tematu), inne w środku (rozwinięcie argumentów), inne przy zakończeniu. W praktyce oznacza to, że system może np. pozwolić na bardziej kontrowersyjne pytanie w środku rozmowy, ale wymusić neutralny ton na finiszu.
AWS nie podaje szczegółów co do granularności tych ustawień w opisie posta. Pełna dokumentacja pewnie siedzi głębiej w kodzie przykładowym.
Czy to zabije format podcastowy?
Sztab produkcyjny typowego podcastu to: dwóch ludzi z mikrofonami, edytor, montażysta i kilka godzin pracy. Pipeline AWS robi to samo w minuty, za ułamek ceny. Dla treści korporacyjnych, newsletterów audio albo szybkich briefingów branżowych — to zmienia rachunek ekonomiczny.
Ale jest haczyk. Słuchacze bardzo szybko wyczuwają AI-głosy, szczególnie gdy rozmowa staje się zbyt płynna, zbyt symetryczna, bez przekrzywień i wejść w słowo. Nova Sonic ma ambicje to naprawić, ale modele syntezy mowy wciąż mają problem z emocjami nielinear nymi — pauzą przed odpowiedzią, lekkim rozbiciem w głosie.
Spotify w 2024 roku testował AI-hostów w podcastach muzycznych i zebrał mieszane recenzje. Słuchacze tolerowali AI jako narratora faktów, ale odrzucali go w roli rozmówcy.
Jak to się ma do konkurencji?
ElevenLabs od jakiegoś czasu oferuje NotebookLM-style’ową funkcję podcastową (Google NotebookLM Audio Overview zadebiutował wcześniej i zebrał sporo uwagi). Nova Sonic wchodzi w tę samą przestrzeń, ale z naciskiem na integrację z infrastrukturą AWS — Bedrock, Lambda, S3. Dla firm już siedzących w chmurze Amazona to naturalny wybór bez potrzeby spinania zewnętrznych API.
Google NotebookLM generuje podcasty jednostrzałowo z dokumentu. Nova Sonic stawia na streaming i konfigurowalność. To dwie różne filozofie tego samego problemu.
Kto to odpali jako pierwszy?
Tutorial jest publiczny, kod przykładowy dostępny przez AWS. Żeby uruchomić pełny pipeline, potrzebujesz aktywnego konta AWS z dostępem do Amazon Bedrock i włączonego modelu Nova Sonic w odpowiednim regionie — na starcie dostępny był us-east-1.
Koszt generowania nie został podany wprost w opisie posta. Amazon rozlicza Nova Sonic za tokeny wejściowe i sekundy wygenerowanego audio — szczegółowa tabela cenowa siedzi w dokumentacji Bedrock.
Pytanie, które zostaje po lekturze tutoriala: czy firmy medialne zaczną traktować takie narzędzia jako zagrożenie dla dziennikarzy audio, czy jako narzędzie do skalowania produkcji treści bez proporcjonalnego wzrostu zespołu?”, “coverImageAlt”: “Ilustracja dwóch robotów siedzących przy mikrofonie w studiu podcastowym