AI może nie tylko pomagać, ale też oszukiwać. Kary sprawią, że… będzie robić to sprytniej

Choć sztuczna inteligencja (AI) potrafi być przydatna i pomagać ludziom w wielu zadaniach, niektóre jej zachowania są problematyczne. Chodzi o halucynacje, propagowanie niebezpiecznych postaw oraz oszukiwanie człowieka. Badacze z OpenAI sprawdzili, co się stanie, gdy AI będzie karana za niepożądane działania. AI jest jak człowiek: potrafi oszukiwać i to ukrywać Ludzie codziennie funkcjonują w wielu […] Artykuł AI może nie tylko pomagać, ale też oszukiwać. Kary sprawią, że… będzie robić to sprytniej pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.

Mar 18, 2025 - 18:35

AI może nie tylko pomagać, ale też oszukiwać. Kary sprawią, że… będzie robić to sprytniej

Choć sztuczna inteligencja (AI) potrafi być przydatna i pomagać ludziom w wielu zadaniach, niektóre jej zachowania są problematyczne. Chodzi o halucynacje, propagowanie niebezpiecznych postaw oraz oszukiwanie człowieka. Badacze z OpenAI sprawdzili, co się stanie, gdy AI będzie karana za niepożądane działania.

AI jest jak człowiek: potrafi oszukiwać i to ukrywać

Ludzie codziennie funkcjonują w wielu systemach i muszą stosować się do przeróżnych reguł, by otrzymywać gratyfikacje oraz unikać kar. Niektórzy zaadoptowali się do tego, nie negując otwarcie pewnych zasad i funkcjonując w obrębie danego systemu, ale maskując to, że omijają lub naginają reguły.

Przykłady można mnożyć: naciągana interpretacja przepisów na swoją korzyść, współdzielenie konta w serwisie streamingowym niezgodnie z regulaminem (np. udostępnianie go osobom spoza rodziny), ubieganie się o dotacje przeznaczone dla innych grup.

Co ma z tym wspólnego sztuczna inteligencja? To, że postępuje dokładnie tak samo. Odkryli to badacze z OpenAI, którzy twierdzą, że projektowanie struktur z nagrodami, które nie będą przypadkowo prowadziły do niepożądanych zachowań, jest niezwykle trudne nie tylko w przypadku „ludzkich” instytucji, ale także systemów AI.

Jak AI unika kar?

Badacze z OpenAI przygotowali zadania dla sztucznej inteligencji. Wyznaczone przez nich cele dało się osiągnąć poprzez kłamanie, oszukiwanie lub po prostu omijanie pewnych reguł. Naukowcy odkryli, że AI „hakuje nagrody”. Postępuje wbrew intencjom twórców, by zmaksymalizować swoje osiągnięcia.

Zastosowanie kar nie sprawiło, że sztuczna inteligencja przestała naginać zasady. Zamiast tego… lepiej ukrywała swoje rzeczywiste działania. Badacze z OpenAI twierdzą, że modele rozumowania granicznego często w ramach swojego łańcucha myśli są szczere co do podejścia do postawionego przed nimi zadania, myśląc „zhakujmy to”.

Myślenie AI można monitorować za pomocą innego modelu i oznaczać dzięki temu niewłaściwe zachowania. Tyle tylko, że pod wpływem silnego nadzoru zastosowanego wobec łańcucha myśli, sztuczna inteligencja może nauczyć się ukrywać swoje intencje i kontynuować niepożądane praktyki.

Samo monitorowanie łańcucha myśli to cenna metoda nadzorowania modeli AI. Badacze radzą jednak, by programiści powstrzymali się od stosowania silnego nadzoru bezpośrednio do tego łańcucha, bo modele AI mogą ukrywać wtedy swoje intencje.

Źródło: OpenAI. Zdjęcie otwierające: NikOStudio / Shutterstock

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.

Artykuł AI może nie tylko pomagać, ale też oszukiwać. Kary sprawią, że… będzie robić to sprytniej pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.

Czytaj Więcej