OpenAI i Anthropic zakręcają kurek. Kto mrugnie pierwszy?
- OpenAI i Anthropic wprowadzają limity na wysokoobiętościowe użycie API, ograniczając dostęp developerów i firm do mocy obliczeniowej.
- Rosnący popyt ze strony biznesu przerasta dostępną infrastrukturę obu gigantów.
- Firmy zmuszone do racjonowania compute stoją przed dylematem: kogo obsługiwać i na jakich warunkach.
OpenAI i Anthropic zaczęły ograniczać limity tokenów dla klientów generujących największy ruch — to efekt prostego równania: popyt rośnie szybciej niż możliwości obliczeniowe obu firm. Nie ma tu żadnej tajemnicy ani wielkiej strategii. Jest fizyczny sufit infrastruktury i kolejka chętnych, którą trzeba jakoś uciąć.
Developerzy dostają po kieszeni
Firmy budujące produkty na bazie API OpenAI i Anthropic od tygodni zgłaszają throttling — spowalnianie zapytań albo twarde odcinanie po przekroczeniu nowych, niższych progów. Dla startupu, który odpalił produkcję w oparciu o „nielimitowany” dostęp, to potencjalnie paraliż. Pipeline’y przestają działać w przewidywalny sposób, a SLA z klientami nagle wiszą na włosku.
Problemu nie rozwiązuje dokupienie subskrypcji. Limity dotyczą właśnie tych, którzy już płacą — i to sporo.
Czy compute to nowa ropa?
Sytuacja ujawnia coś, o czym branża mówiła półgębkiem od miesięcy: zdolności obliczeniowe stały się surowcem strategicznym, a nie tylko kosztem operacyjnym. Nvidia nie nadąża z produkcją GPU. Centra danych powstają wolniej niż rosną kolejki zapytań. OpenAI przy swojej skali spala zasoby szybciej niż jest w stanie je dokupić.
Anthropic ma ten sam problem, mimo że jest mniejszy. Claude 3.5 Sonnet stał się zaskakująco popularny wśród enterprise’owych klientów — firmy dosłownie zmieniają dostawców w środku projektu, bo model im lepiej wykręca wyniki na benchmarkach kodowania. Efekt? Nagły skok ruchu i konieczność twardego limitowania.
Strategia czy konieczność?
Można to czytać dwojako. Pierwsza interpretacja: firmy są po prostu przyciśnięte do ściany i racjonują to, czego mają za mało. Druga: to świadomy ruch, żeby wypchnąć mniejszych klientów i zostawić pasmo dla enterprise’u płacącego stawki enterprise’owe.
W obu przypadkach efekt dla małego developera jest identyczny — mniej tokenów, te same ceny albo wyższe.
OpenAI testuje od jakiegoś czasu model priorytetowego dostępu powiązanego z umowami na wyższe wolumeny i dłuższe zobowiązania. To nie filantropia — to próba ustabilizowania przychodów i jednoczesnego uzasadnienia inwestycji w nową infrastrukturę. Bez przewidywalnych kontraktów trudno zamawiać kolejne tysiące kart GPU z kilkumiesięcznym wyprzedzeniem.
Co robią firmy, które się duszą?
Część zespołów zaczyna dywersyfikować. Zamiast stawiać wszystko na jednego dostawcę, wrzucają routing między modelami — Claude do jednych zadań, GPT-4o do innych, Gemini jako fallback. Narzędzia takie jak LiteLLM czy własne proxy pozwalają to względnie ogarnąć bez przepisywania całej architektury.
Inni idą w kierunku mniejszych, wyspecjalizowanych modeli odpalanych lokalnie lub na własnej infrastrukturze. Llama 3.3 czy Mistral Large to już poziom, który kilka zadań robi porównywalnie do GPT-4 przy ułamku kosztu i pełnej kontroli nad limitem — bo tego limitu po prostu nie ma.
Problem w tym, że migracja kosztuje. Czas, testy regresji, poprawki w promptach. Dla firmy z pięcioosobowym zespołem inżynierskim to tygodnie roboty.
Kto mrugnie pierwszy?
Title artykułu Fast Company zadaje pytanie, które branża zaczyna traktować poważnie: która firma pierwsza poluzuje limity, żeby przyciągnąć klientów od konkurenta? Historia rynków infrastrukturalnych sugeruje, że ktoś zawsze mrugnie — albo z powodu presji rynkowej, albo dlatego że dowiezie nowe centrum danych szybciej niż rywal.
Google z Gemini siedzi cicho i obserwuje. Ma własne TPU, własną chmurę i nie jest uzależniony od Nvidii w takim stopniu jak OpenAI czy Anthropic. Jeśli zdecyduje się agresywnie podbijać limity tokenów w Google Cloud, może zgarnąć spory kawałek niezadowolonych enterprise’owych klientów.
Na razie OpenAI potwierdza, że pracuje nad rozbudową infrastruktury. Kiedy ruszy projekt Stargate z docelowymi 500 miliardami dolarów inwestycji w centra danych w USA, compute’u ma być znacznie więcej. Ale Stargate to perspektywa lat, a firmy mają problemy z limitami tokenów już teraz.”, “coverImageAlt”: “Ilustracja przedstawiająca zegar z tokenami AI i korkiem w rurociągu danych