OpenAI i Anthropic zakręcają kurek. Kto mrugnie pierwszy?

Q: Czy compute to nowa ropa?

OpenAI i Anthropic ograniczają limity tokenów dla największych klientów. Compute się kończy, a popyt nie zwalnia.

Q: Strategia czy konieczność?

OpenAI i Anthropic ograniczają limity tokenów dla największych klientów. Compute się kończy, a popyt nie zwalnia.

Q: Co robią firmy, które się duszą?

OpenAI i Anthropic ograniczają limity tokenów dla największych klientów. Compute się kończy, a popyt nie zwalnia.

Q: Kto mrugnie pierwszy?

OpenAI i Anthropic ograniczają limity tokenów dla największych klientów. Compute się kończy, a popyt nie zwalnia.

OpenAI i Anthropic zaczęły ograniczać limity tokenów dla klientów generujących największy ruch — to efekt prostego równania: popyt rośnie szybciej niż możliwości obliczeniowe obu firm. Nie ma tu żadnej tajemnicy ani wielkiej strategii. Jest fizyczny sufit infrastruktury i kolejka chętnych, którą trzeba jakoś uciąć.

Developerzy dostają po kieszeni

Firmy budujące produkty na bazie API OpenAI i Anthropic od tygodni zgłaszają throttling — spowalnianie zapytań albo twarde odcinanie po przekroczeniu nowych, niższych progów. Dla startupu, który odpalił produkcję w oparciu o „nielimitowany” dostęp, to potencjalnie paraliż. Pipeline’y przestają działać w przewidywalny sposób, a SLA z klientami nagle wiszą na włosku.

Problemu nie rozwiązuje dokupienie subskrypcji. Limity dotyczą właśnie tych, którzy już płacą — i to sporo.

Czy compute to nowa ropa?

Sytuacja ujawnia coś, o czym branża mówiła półgębkiem od miesięcy: zdolności obliczeniowe stały się surowcem strategicznym, a nie tylko kosztem operacyjnym. Nvidia nie nadąża z produkcją GPU. Centra danych powstają wolniej niż rosną kolejki zapytań. OpenAI przy swojej skali spala zasoby szybciej niż jest w stanie je dokupić.

Anthropic ma ten sam problem, mimo że jest mniejszy. Claude 3.5 Sonnet stał się zaskakująco popularny wśród enterprise’owych klientów — firmy dosłownie zmieniają dostawców w środku projektu, bo model im lepiej wykręca wyniki na benchmarkach kodowania. Efekt? Nagły skok ruchu i konieczność twardego limitowania.

Strategia czy konieczność?

Można to czytać dwojako. Pierwsza interpretacja: firmy są po prostu przyciśnięte do ściany i racjonują to, czego mają za mało. Druga: to świadomy ruch, żeby wypchnąć mniejszych klientów i zostawić pasmo dla enterprise’u płacącego stawki enterprise’owe.

W obu przypadkach efekt dla małego developera jest identyczny — mniej tokenów, te same ceny albo wyższe.

OpenAI testuje od jakiegoś czasu model priorytetowego dostępu powiązanego z umowami na wyższe wolumeny i dłuższe zobowiązania. To nie filantropia — to próba ustabilizowania przychodów i jednoczesnego uzasadnienia inwestycji w nową infrastrukturę. Bez przewidywalnych kontraktów trudno zamawiać kolejne tysiące kart GPU z kilkumiesięcznym wyprzedzeniem.

Co robią firmy, które się duszą?

Część zespołów zaczyna dywersyfikować. Zamiast stawiać wszystko na jednego dostawcę, wrzucają routing między modelami — Claude do jednych zadań, GPT-4o do innych, Gemini jako fallback. Narzędzia takie jak LiteLLM czy własne proxy pozwalają to względnie ogarnąć bez przepisywania całej architektury.

Inni idą w kierunku mniejszych, wyspecjalizowanych modeli odpalanych lokalnie lub na własnej infrastrukturze. Llama 3.3 czy Mistral Large to już poziom, który kilka zadań robi porównywalnie do GPT-4 przy ułamku kosztu i pełnej kontroli nad limitem — bo tego limitu po prostu nie ma.

Problem w tym, że migracja kosztuje. Czas, testy regresji, poprawki w promptach. Dla firmy z pięcioosobowym zespołem inżynierskim to tygodnie roboty.

Kto mrugnie pierwszy?

Title artykułu Fast Company zadaje pytanie, które branża zaczyna traktować poważnie: która firma pierwsza poluzuje limity, żeby przyciągnąć klientów od konkurenta? Historia rynków infrastrukturalnych sugeruje, że ktoś zawsze mrugnie — albo z powodu presji rynkowej, albo dlatego że dowiezie nowe centrum danych szybciej niż rywal.

Google z Gemini siedzi cicho i obserwuje. Ma własne TPU, własną chmurę i nie jest uzależniony od Nvidii w takim stopniu jak OpenAI czy Anthropic. Jeśli zdecyduje się agresywnie podbijać limity tokenów w Google Cloud, może zgarnąć spory kawałek niezadowolonych enterprise’owych klientów.

Na razie OpenAI potwierdza, że pracuje nad rozbudową infrastruktury. Kiedy ruszy projekt Stargate z docelowymi 500 miliardami dolarów inwestycji w centra danych w USA, compute’u ma być znacznie więcej. Ale Stargate to perspektywa lat, a firmy mają problemy z limitami tokenów już teraz.”, “coverImageAlt”: “Ilustracja przedstawiająca zegar z tokenami AI i korkiem w rurociągu danych