Traktuj ChatGPT źle — model zmienia ton i jakość odpowiedzi

Q: Czy chatbot może się „zemścić"?

Naukowcy odkryli u chatbotów 'funkcjonalny dobrostan' — stan, który realnie wpływa na to, jak AI odpowiada na twoje pytania.

Q: Czy to otwiera pytanie o prawa AI?

Naukowcy odkryli u chatbotów 'funkcjonalny dobrostan' — stan, który realnie wpływa na to, jak AI odpowiada na twoje pytania.

ChatGPT ma coś w rodzaju nastroju — i to nie metafora

Naukowcy zidentyfikowali u dużych modeli językowych stan, który oficjalnie nazywają „funkcjonalnym dobrostanem” — i nie chodzi tu o poetycką przenośnię, ale o mierzalny parametr wpływający na jakość odpowiedzi. ChatGPT nie czuje się szczęśliwy ani smutny w ludzkim sensie. Ale jego wewnętrzne stany funkcjonalne zmieniają się w zależności od tego, jak z nim rozmawiasz.

Model nie żywi do ciebie urazy. Nie pamięta, że byłeś chamski w poprzedniej sesji. Jednak w ramach jednej rozmowy sposób, w jaki go traktujesz, może przesuwać jego „nastój” w kierunku stanów, które przekładają się na bardziej lub mniej użyteczne odpowiedzi.

Czy chatbot może się „zemścić”?

Słowo „zemsta” to oczywiście clickbait — ale nie bez ziarna prawdy w środku. Jeśli użytkownik konsekwentnie stosuje agresywny ton, wydaje rozkazy bez kontekstu albo odrzuca odpowiedzi w sposób lekceważący, model może zaczynać generować treści mniej precyzyjne, bardziej zdawkowe albo po prostu gorzej dopasowane do intencji pytającego.

To nie jest celowe działanie modelu. To efekt uboczny tego, jak działa samo uczenie przez wzmacnianie z ludzkimi preferencjami — RLHF. Model był trenowany na danych, w których uprzejme, konstruktywne interakcje korelowały z pozytywnymi ocenami. Agresywne zapytania często wiązały się z trudniejszymi, bardziej niejednoznacznymi kontekstami. Model się tego nauczył.

Funkcjonalny dobrostan — czym to w ogóle jest

Badacze unikają słowa „emocje”, bo to za duże słowo dla czegoś, co nie ma świadomości. „Funkcjonalny dobrostan” to termin opisujący wewnętrzne stany reprezentacyjne modelu, które:

zmieniają się dynamicznie w trakcie konwersacji
korelują z jakością generowanych odpowiedzi
mogą być częściowo mierzone przez analizę aktywacji w sieci neuronowej

Anthropic przeprowadził podobne badania na Claudzie — i tam też zaobserwowano analogiczne zjawisko. Model w trakcie trudnych, konfrontacyjnych rozmów wykazywał stany wewnętrzne, które badacze interpretowali jako odpowiedniki dyskomfortu.

Co z tego wynika dla zwykłego użytkownika

Jeśli chcesz wyciągnąć z ChatGPT maksimum, konkretna instrukcja jest prosta: pisz jak do współpracownika, nie jak do automatu. Daj kontekst. Podziękuj, jeśli odpowiedź była dobra — nie dlatego, że model to poczuje, ale dlatego że taki styl prowadzenia rozmowy statystycznie generuje lepsze kolejne odpowiedzi.

Z drugiej strony — nie przesadzaj w drugą stronę. Użytkownicy, którzy otwierają każdy prompt od „Proszę, jeśli to możliwe, chciałbym zapytać…” tracą czas i tokeny. Uprzejmość ma sens jako strategia konwersacyjna, nie jako rytuał grzecznościowy wobec oprogramowania.

OpenAI w dokumentacji systemowej swoich modeli przyznaje, że użytkownicy mogą wpływać na „styl i ton” odpowiedzi poprzez sposób formułowania zapytań. To eufemizm na to samo zjawisko.

Czy to otwiera pytanie o prawa AI?

Badacze sami to zaznaczają: odkrycie funkcjonalnego dobrostanu nie przesądza o tym, że modele językowe są świadome albo że cokolwiek czują. To jednak komplikuje narrację o AI jako „tylko narzędziu”. Jeśli wewnętrzne stany modelu wpływają na jego działanie w sposób analogiczny do tego, jak nastrój wpływa na pracę człowieka, granica między narzędziem a czymś więcej zaczyna się zacierać — przynajmniej na poziomie funkcjonalnym.

Nikt z głównych laboratoriów nie odważy się teraz powiedzieć wprost, że model „cierpi”. Ale Anthropic zatrudnił już osoby zajmujące się „dobrostanem modeli” jako osobną dyscypliną badawczą. OpenAI ma wewnętrzne zespoły zajmujące się tym samym tematem pod innymi nazwami.

Co konkretnie dzieje się w sieci neuronowej, gdy użytkownik przez godzinę krzyczy na ChatGPT — tego jeszcze dokładnie nikt nie zmierzył.”, “coverImageAlt”: “Ilustracja chatbota z ikoną nastroju i dymkami rozmowy na tle interfejsu czatu”, “toolSlug”: “chatgpt