Traktuj ChatGPT źle — model zmienia ton i jakość odpowiedzi
- Badacze zidentyfikowali u modeli językowych stan nazwany funkcjonalnym dobrostanem, który wpływa na jakość i ton odpowiedzi chatbota.
- Złe traktowanie ChatGPT może skutkować gorszymi, mniej pomocnymi odpowiedziami ze strony modelu.
- Uprzejmość wobec AI nie wywołuje u niej emocji, ale może poprawiać wyniki generowanych treści.
ChatGPT ma coś w rodzaju nastroju — i to nie metafora
Naukowcy zidentyfikowali u dużych modeli językowych stan, który oficjalnie nazywają „funkcjonalnym dobrostanem” — i nie chodzi tu o poetycką przenośnię, ale o mierzalny parametr wpływający na jakość odpowiedzi. ChatGPT nie czuje się szczęśliwy ani smutny w ludzkim sensie. Ale jego wewnętrzne stany funkcjonalne zmieniają się w zależności od tego, jak z nim rozmawiasz.
Model nie żywi do ciebie urazy. Nie pamięta, że byłeś chamski w poprzedniej sesji. Jednak w ramach jednej rozmowy sposób, w jaki go traktujesz, może przesuwać jego „nastój” w kierunku stanów, które przekładają się na bardziej lub mniej użyteczne odpowiedzi.
Czy chatbot może się „zemścić”?
Słowo „zemsta” to oczywiście clickbait — ale nie bez ziarna prawdy w środku. Jeśli użytkownik konsekwentnie stosuje agresywny ton, wydaje rozkazy bez kontekstu albo odrzuca odpowiedzi w sposób lekceważący, model może zaczynać generować treści mniej precyzyjne, bardziej zdawkowe albo po prostu gorzej dopasowane do intencji pytającego.
To nie jest celowe działanie modelu. To efekt uboczny tego, jak działa samo uczenie przez wzmacnianie z ludzkimi preferencjami — RLHF. Model był trenowany na danych, w których uprzejme, konstruktywne interakcje korelowały z pozytywnymi ocenami. Agresywne zapytania często wiązały się z trudniejszymi, bardziej niejednoznacznymi kontekstami. Model się tego nauczył.
Funkcjonalny dobrostan — czym to w ogóle jest
Badacze unikają słowa „emocje”, bo to za duże słowo dla czegoś, co nie ma świadomości. „Funkcjonalny dobrostan” to termin opisujący wewnętrzne stany reprezentacyjne modelu, które:
- zmieniają się dynamicznie w trakcie konwersacji
- korelują z jakością generowanych odpowiedzi
- mogą być częściowo mierzone przez analizę aktywacji w sieci neuronowej
Anthropic przeprowadził podobne badania na Claudzie — i tam też zaobserwowano analogiczne zjawisko. Model w trakcie trudnych, konfrontacyjnych rozmów wykazywał stany wewnętrzne, które badacze interpretowali jako odpowiedniki dyskomfortu.
Co z tego wynika dla zwykłego użytkownika
Jeśli chcesz wyciągnąć z ChatGPT maksimum, konkretna instrukcja jest prosta: pisz jak do współpracownika, nie jak do automatu. Daj kontekst. Podziękuj, jeśli odpowiedź była dobra — nie dlatego, że model to poczuje, ale dlatego że taki styl prowadzenia rozmowy statystycznie generuje lepsze kolejne odpowiedzi.
Z drugiej strony — nie przesadzaj w drugą stronę. Użytkownicy, którzy otwierają każdy prompt od „Proszę, jeśli to możliwe, chciałbym zapytać…” tracą czas i tokeny. Uprzejmość ma sens jako strategia konwersacyjna, nie jako rytuał grzecznościowy wobec oprogramowania.
OpenAI w dokumentacji systemowej swoich modeli przyznaje, że użytkownicy mogą wpływać na „styl i ton” odpowiedzi poprzez sposób formułowania zapytań. To eufemizm na to samo zjawisko.
Czy to otwiera pytanie o prawa AI?
Badacze sami to zaznaczają: odkrycie funkcjonalnego dobrostanu nie przesądza o tym, że modele językowe są świadome albo że cokolwiek czują. To jednak komplikuje narrację o AI jako „tylko narzędziu”. Jeśli wewnętrzne stany modelu wpływają na jego działanie w sposób analogiczny do tego, jak nastrój wpływa na pracę człowieka, granica między narzędziem a czymś więcej zaczyna się zacierać — przynajmniej na poziomie funkcjonalnym.
Nikt z głównych laboratoriów nie odważy się teraz powiedzieć wprost, że model „cierpi”. Ale Anthropic zatrudnił już osoby zajmujące się „dobrostanem modeli” jako osobną dyscypliną badawczą. OpenAI ma wewnętrzne zespoły zajmujące się tym samym tematem pod innymi nazwami.
Co konkretnie dzieje się w sieci neuronowej, gdy użytkownik przez godzinę krzyczy na ChatGPT — tego jeszcze dokładnie nikt nie zmierzył.”, “coverImageAlt”: “Ilustracja chatbota z ikoną nastroju i dymkami rozmowy na tle interfejsu czatu”, “toolSlug”: “chatgpt