ChatGPT Images 2.0 już działa. Tekst na obrazkach wreszcie czytelny

OpenAI wrzuciło nowy model generowania obrazów do ChatGPT. Lepsze detale i rendering tekstu — ale tylko po angielsku.
Ilustracja przedstawiająca interfejs generatora obrazów AI z przykładową grafiką i tekstem
TL;DR
  • OpenAI odświeżyło model generowania obrazów w ChatGPT do wersji Images 2.0, dostępnej dla użytkowników od razu.
  • Nowy model radzi sobie znacznie lepiej z renderowaniem tekstu i tworzeniem bardziej szczegółowych kompozycji wizualnych.
  • Obsługa języków innych niż angielski nadal pozostawia wiele do życzenia, co ogranicza użyteczność narzędzia poza anglojęzycznym rynkiem.

OpenAI cicho odpalił ChatGPT Images 2.0 — nową wersję modelu generowania obrazów wbudowanego bezpośrednio w ChatGPT. Testy redakcji Wired pokazują konkretne usprawnienia: model wyraźnie lepiej wykręca szczegółowe ilustracje i — nareszcie — potrafi sensownie wyrenderować tekst wewnątrz obrazka.

Rendering tekstu przestał być żartem

To był od lat jeden z największych bólów głowy przy generatorach obrazów. DALL-E, Midjourney, Stable Diffusion — wszystkie topiły litery w bełkotliwe, rozmazane krzaczory. Images 2.0 poprawia ten wynik zauważalnie, choć nadal działa to przyzwoicie głównie dla angielskich słów i zdań.

Detale w obrazach też poszły w górę. Złożone sceny z wieloma elementami — wcześniej model gubił szczegóły albo mieszał proporcje — teraz trzymają kompozycję lepiej. Różnica widoczna gołym okiem przy porównaniu obok siebie.

Czy jeśli nie piszesz po angielsku, ten update cię ominął?

W zasadzie tak. OpenAI wciąż nie rozwiązało problemu z językami innymi niż angielski. Jeśli próbujesz wygenerować obrazek z polskim tekstem, niemieckim nagłówkiem czy japońskim znakiem — model się gubi. Litery są zniekształcone, słowa pomieszane, a cały efekt wygląda jak OCR zepsuty na starym skanerze.

Dla twórców pracujących wyłącznie po angielsku to solidny krok do przodu. Dla reszty świata — update istnieje, ale połowa jego zalet jest niedostępna.

Nie tylko ładniejsze obrazki

Images 2.0 to nie tylko kosmetyka. Lepsza wierność szczegółom oznacza, że model może realnie przydać się przy tworzeniu materiałów marketingowych, mockupów produktowych czy prostych infografik — bez konieczności przeskakiwania do Midjourney czy Adobe Firefly.

OpenAI integruje to bezpośrednio w interfejsie ChatGPT, więc użytkownik nie musi nic odpalać osobno. Prompt tekstowy, obraz — wszystko w jednym oknie. Dla kogoś, kto już pracuje w ChatGPT, to wygodne.

Kto tu faktycznie goni kogo?

Midjourney od miesięcy siedzi na szczycie pod względem jakości estetycznej. Google wrzuciło Imagen 3 do Gemini. Adobe ma Firefly zintegrowane z całym pakietem Creative Cloud. OpenAI przez długi czas wyglądało jak spóźniony gracz na własnym boisku — bo DALL-E 3 był dobry, ale nie zachwycał.

Images 2.0 to próba dogonienia stawki, nie jej przeskoczenia. Model robi konkretny postęp na dwóch frontach — szczegółowość i tekst — ale nie zmienia układu sił na rynku generatorów graficznych jednym ruchem.

Co z ceną i dostępnością?

OpenAI nie ogłosiło osobnych limitów ani dodatkowych opłat za Images 2.0 w stosunku do dotychczasowego modelu. Użytkownicy ChatGPT Plus i wyżej powinni mieć dostęp automatycznie. Szczegóły dotyczące tego, czy free tier też dostanie nowy model, OpenAI jeszcze nie doprecyzowało publicznie na moment publikacji tego tekstu.

Pytanie brzmi, jak szybko OpenAI domknie lukę w obsłudze języków — bo przy globalnej bazie użytkowników liczącej setki milionów osób, anglocentryczny generator tekstu na obrazach to wciąż dość wąskie narzędzie.

[AI] Artykuł powstał z pomocą AI na podstawie weryfikowanych źródeł i zredagowany przez redakcję Odkrywaj.AI.