OpenAI wrzuciło 13 marca 2026 r. wersję 2.28.0 biblioteki openai-python z obsługą custom voices — koniec z dyktaturą Alloy, Echo i Shimmer.

OpenAI Python SDK 2.28.0: własne głosy w API

OpenAI dorzuca custom voices do openai-python 2.28.0

OpenAI opublikowało 13 marca 2026 roku wersję 2.28.0 biblioteki openai-python — główna nowość to wsparcie dla niestandardowych głosów (custom voices) w API syntezy mowy. Do tej pory deweloperzy byli skazani na sześć wbudowanych opcji: Alloy, Echo, Fable, Onyx, Nova i Shimmer. Żadnej modyfikacji, żadnego tworzenia własnych profili. Teraz to się zmienia.

Jak to działa pod maską?

Nowa funkcjonalność rozszerza endpoint text-to-speech o możliwość definiowania własnych profili głosowych. Pełna dokumentacja techniczna nie pojawiła się razem z releasem, ale commit w repozytorium wskazuje na dedykowane parametry pozwalające opisać barwę i ton głosu pod konkretną aplikację. Deweloperzy mogą tworzyć głosy o specyficznej charakterystyce, dostosowywać prozodię do kontekstu — asystent w banku może brzmieć inaczej niż lektor audiobooka. Klonowanie głosów jest wymieniane jako możliwe zastosowanie, ale szczegóły wymagają potwierdzenia w oficjalnej dokumentacji.

Zaktualizuj jednym poleceniem

Aktualizacja nie wymaga gimnastyki. Wystarczy:

pip install --upgrade openai

To minor update, więc breaking changes nie powinny wystąpić. Przed wdrożeniem produkcyjnym warto jednak przetestować kompatybilność z istniejącym kodem — zawsze.

ElevenLabs już to ma. I co z tego?

ElevenLabs oferuje zaawansowane klonowanie głosów od dawna i trzyma pozycję lidera w tej niszy. Google Cloud Text-to-Speech i Amazon Polly też mają swoje rozwiązania. OpenAI do tej pory zostawiało deweloperów z ograniczonym zestawem opcji — teraz nadgania zaległości.

Różnica polega na tym, że custom voices trafiają bezpośrednio do ekosystemu, z którego wielu deweloperów już korzysta przy budowaniu agentów i automatyzacji. Nie trzeba doklejać zewnętrznej usługi do pipeline’u — głos można obsłużyć tym samym klientem API co resztę logiki.

Kto na tym zyska?

Firmy telekomunikacyjne budujące voiceboty do obsługi klienta dostaną możliwość stworzenia głosu spójnego z identyfikacją marki. Wydawcy eksperymentujący z audiobookami generowanymi przez AI mogą odpalić własnego lektora zamiast korzystać z generycznej Novy. Producenci gier szukający sposobu na dynamiczne dialogi NPC — podobnie. Twórcy aplikacji edukacyjnych potrzebujący lektora do kursów online też znajdą tu zastosowanie.

Standardowe głosy OpenAI były projektowane z myślą o angielskim — to słychać. Custom voices dają przynajmniej teoretyczną szansę na głos, który naturalniej obsługuje inne języki, z odpowiednią intonacją i akcentem, zamiast brzmieć jak angielski czytający po polsku.

Dokumentacja dopiero nadejdzie

Release notes z GitHuba potwierdzają sam fakt wprowadzenia funkcji, ale szczegółowy opis API pojawi się później. To dość typowe dla OpenAI — feature ląduje w SDK, zanim dokumentacja zdąży za nim nadążyć. Deweloperzy, którzy chcą wejść w temat od razu, mogą prześledzić commit bezpośrednio w repozytorium openai-python na GitHubie.