ChatGPT śledzi kontekst rozmowy — nowe zabezpieczenia dla wrażliwych tematów

Q: Czy AI może naprawdę wykryć, że komuś dzieje się krzywda?

OpenAI wdrożył aktualizację bezpieczeństwa ChatGPT, która pozwala modelowi wykrywać ryzyko na podstawie całej rozmowy, nie tylko pojedynczych wiadomości.

Q: Kto sprawdzi, czy to działa?

OpenAI wdrożył aktualizację bezpieczeństwa ChatGPT, która pozwala modelowi wykrywać ryzyko na podstawie całej rozmowy, nie tylko pojedynczych wiadomości.

OpenAI wdrożył nowe mechanizmy bezpieczeństwa dla ChatGPT, które uczą model czytania kontekstu rozmowy zamiast reagowania wyłącznie na ostatnie zdanie użytkownika.

ChatGPT przestaje oceniać wiadomości w izolacji

Dotychczasowe podejście miało poważną lukę: model mógł nie zauważyć narastającego napięcia w rozmowie, jeśli konkretna wiadomość nie zawierała oczywistych słów-kluczy. Nowa aktualizacja zmienia logikę oceny ryzyka — ChatGPT analizuje teraz cały wątek konwersacji i wykrywa wzorce, które pojedynczo mogą wyglądać niewinnie, ale razem tworzą niepokojący obraz.

To nie jest drobny patch. OpenAI zmienił sposób, w jaki model podejmuje decyzje o tym, jak odpowiedzieć na wrażliwe pytania.

Czy AI może naprawdę wykryć, że komuś dzieje się krzywda?

To pytanie kręci się wokół całej tej aktualizacji. OpenAI twierdzi, że tak — model ma teraz lepiej rozpoznawać sytuacje, w których rozmówca może potrzebować wsparcia kryzysowego lub ostrożniejszego podejścia.

W praktyce oznacza to kilka konkretnych zmian:

ChatGPT może zmodyfikować ton odpowiedzi, jeśli wcześniejsze wiadomości sygnalizowały trudny stan emocjonalny rozmówcy
Model ma częściej sugerować zasoby pomocowe — linie kryzysowe, specjalistów — nawet jeśli ostatnie pytanie wprost ich nie dotyczy
System ma unikać odpowiedzi, które mogłyby zaszkodzić osobie w kryzysie, nawet gdy sama prośba brzmi neutralnie

Problematyczne jest jednak to, że OpenAI nie podał żadnych konkretnych danych — żadnych benchmarków, żadnych wyników testów pokazujących, o ile dokładniej model wykrywa teraz sytuacje kryzysowe. Mamy deklarację intencji, nie raport z wynikami.

Moderacja przez zrozumienie narracji

Technicznie rzecz biorąc, OpenAI przesuwa ciężar z klasyfikacji pojedynczych promptów na analizę narracyjną całej sesji. To sensowne podejście — człowiek pracujący na linii wsparcia kryzysowego też nie ocenia każdego zdania osobno, tylko słucha całej historii.

Kwestia, czy transformer potrafi robić to samo równie skutecznie, pozostaje otwarta. Modele językowe mają kontekstowe okno, ale nie mają prawdziwego rozumienia emocji — interpolują wzorce z danych treningowych. OpenAI stawia tezę, że to wystarczy do poprawy bezpieczeństwa. Krytycy AI safety od lat mówią, że to za mało.

Aktualizacja nie dotyczy tylko rozmów o zdrowiu psychicznym. OpenAI wskazał szerszą kategorię „wrażliwych rozmów”, co sugeruje, że zmiany mogą obejmować tematy takie jak przemoc, substancje czy treści potencjalnie szkodliwe dla dzieci.

Kto sprawdzi, czy to działa?

OpenAI nie zapowiedział zewnętrznego audytu tej funkcji. Nie ma też jasności, czy zmiana obejmuje wszystkie wersje ChatGPT — zarówno darmową, Plus, jak i API, z którego korzystają deweloperzy budujący własne aplikacje.

To ostatnie jest szczególnie ważne. Jeśli aktualizacja obejmuje tylko interfejs chat.openai.com, a nie SDK, to tysiące aplikacji zbudowanych na GPT-4o nadal działa ze starą logiką bezpieczeństwa. OpenAI nie odpowiedział na to pytanie wprost w swoim komunikacie.

Firma wdrażała już wcześniej podobne mechanizmy — w 2023 roku dodała wykrywanie treści związanych z samookaleczeniem zgodne z wytycznymi Safe Messaging. Nowa aktualizacja ma być krokiem dalej, ale bez twardych danych trudno ocenić, jak duży.”, “coverImageAlt”: “Ilustracja przedstawiająca interfejs czatu z symbolami ochrony i analizy kontekstu rozmowy”, “toolSlug”: “chatgpt