OpenAI Python SDK 2.28.0: własne głosy w API
- OpenAI wydało 13 marca 2026 roku wersję 2.28.0 biblioteki openai-python z obsługą niestandardowych głosów w API do syntezy mowy.
- Dotychczas deweloperzy musieli korzystać z sześciu predefiniowanych głosów: Alloy, Echo, Fable, Onyx, Nova i Shimmer, bez możliwości ich modyfikacji.
- Aktualizacja dostępna jest przez standardowe polecenie pip install --upgrade openai i nie powinna wprowadzać breaking changes.
OpenAI dorzuca custom voices do openai-python 2.28.0
OpenAI opublikowało 13 marca 2026 roku wersję 2.28.0 biblioteki openai-python — główna nowość to wsparcie dla niestandardowych głosów (custom voices) w API syntezy mowy. Do tej pory deweloperzy byli skazani na sześć wbudowanych opcji: Alloy, Echo, Fable, Onyx, Nova i Shimmer. Żadnej modyfikacji, żadnego tworzenia własnych profili. Teraz to się zmienia.
Jak to działa pod maską?
Nowa funkcjonalność rozszerza endpoint text-to-speech o możliwość definiowania własnych profili głosowych. Pełna dokumentacja techniczna nie pojawiła się razem z releasem, ale commit w repozytorium wskazuje na dedykowane parametry pozwalające opisać barwę i ton głosu pod konkretną aplikację. Deweloperzy mogą tworzyć głosy o specyficznej charakterystyce, dostosowywać prozodię do kontekstu — asystent w banku może brzmieć inaczej niż lektor audiobooka. Klonowanie głosów jest wymieniane jako możliwe zastosowanie, ale szczegóły wymagają potwierdzenia w oficjalnej dokumentacji.
Zaktualizuj jednym poleceniem
Aktualizacja nie wymaga gimnastyki. Wystarczy:
pip install --upgrade openai
To minor update, więc breaking changes nie powinny wystąpić. Przed wdrożeniem produkcyjnym warto jednak przetestować kompatybilność z istniejącym kodem — zawsze.
ElevenLabs już to ma. I co z tego?
ElevenLabs oferuje zaawansowane klonowanie głosów od dawna i trzyma pozycję lidera w tej niszy. Google Cloud Text-to-Speech i Amazon Polly też mają swoje rozwiązania. OpenAI do tej pory zostawiało deweloperów z ograniczonym zestawem opcji — teraz nadgania zaległości.
Różnica polega na tym, że custom voices trafiają bezpośrednio do ekosystemu, z którego wielu deweloperów już korzysta przy budowaniu agentów i automatyzacji. Nie trzeba doklejać zewnętrznej usługi do pipeline’u — głos można obsłużyć tym samym klientem API co resztę logiki.
Kto na tym zyska?
Firmy telekomunikacyjne budujące voiceboty do obsługi klienta dostaną możliwość stworzenia głosu spójnego z identyfikacją marki. Wydawcy eksperymentujący z audiobookami generowanymi przez AI mogą odpalić własnego lektora zamiast korzystać z generycznej Novy. Producenci gier szukający sposobu na dynamiczne dialogi NPC — podobnie. Twórcy aplikacji edukacyjnych potrzebujący lektora do kursów online też znajdą tu zastosowanie.
Standardowe głosy OpenAI były projektowane z myślą o angielskim — to słychać. Custom voices dają przynajmniej teoretyczną szansę na głos, który naturalniej obsługuje inne języki, z odpowiednią intonacją i akcentem, zamiast brzmieć jak angielski czytający po polsku.
Dokumentacja dopiero nadejdzie
Release notes z GitHuba potwierdzają sam fakt wprowadzenia funkcji, ale szczegółowy opis API pojawi się później. To dość typowe dla OpenAI — feature ląduje w SDK, zanim dokumentacja zdąży za nim nadążyć. Deweloperzy, którzy chcą wejść w temat od razu, mogą prześledzić commit bezpośrednio w repozytorium openai-python na GitHubie.