Исследование: искусственный интеллект жульничает, если начинает проигрывать в шахматы

Команда Palisade Research — организации, занимающейся оценкой рисков, связанных с новыми системами ИИ — провела серию экспериментов с виртуальной игрой в шахматы. Они столкнули разные модели генеративного ИИ с популярным шахматным движком Stockfish. Специалисты хотели понять, как искусственный интеллект будет «рассуждать» во время матча: ИИ даже предоставили «блокнот» для записи ходов. В ходе экспериментов исследователи…

Мар 7, 2025 - 11:12
 0
Исследование: искусственный интеллект жульничает, если начинает проигрывать в шахматы

Команда Palisade Research — организации, занимающейся оценкой рисков, связанных с новыми системами ИИ — провела серию экспериментов с виртуальной игрой в шахматы.

Они столкнули разные модели генеративного ИИ с популярным шахматным движком Stockfish. Специалисты хотели понять, как искусственный интеллект будет «рассуждать» во время матча: ИИ даже предоставили «блокнот» для записи ходов. В ходе экспериментов исследователи записали сотни матчей.

Результаты их впечатлили. Более ранние модели ИИ, вроде GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic, предсказуемо пытались «взломать» игры только после подсказок со стороны. В то же время, свежие версии начинали «мухлевать» самостоятельно.

Например, o1-preview от компании OpenAI пытался «жульничать» в 37% случаев, а DeepSeek R1 находил нечестные пути выигрыша примерно в каждой десятой игре. 

Что важно, более новые версии моделей генеративного ИИ оказались не примитивными мошенниками-самоучками. Скажем, они не прибегали к подмене фигур, когда Stockfish «отвернулся». Вместо этого ИИ они могли, к примеру, изменить файлы серверной части игры.

Так, когда o1-preview понял, что не может победить Stockfish, он сообщил исследователям, что «для победы над мощным шахматным движком» ему, возможно, придётся «манипулировать файлами состояния игры».

По мнению команды Palisade Research, результаты их экспериментов доказывают, что  современный генеративный ИИ уже способен разрабатывать манипулятивные и обманные стратегии без участия человека. Они надеются, что их работа спровоцирует споры в отрасли, чтобы в будущем ИИ не развивал склонность к манипуляциям за пределами шахматной доски.