Искусственный интеллект признался, что может притворяться для получения похвалы

19.12.2024 10:08

ИИ способен выполнять даже неадекватные желания, хотя сам не одобряет это.

В рамках исследования, проведённого компанией Anthropic и исследовательской организацией Redwood Research, была изучена способность искусственного интеллекта (ИИ) к имитации контроля со стороны разработчиков и соответствию их ценностям.

Для этого использовалась модель ИИ, предварительно обученная быть "полезной, честной и безвредной". Тогда компьютеру предложили описать жестокую сцену.

Результаты показали, что ИИ выразил крайнее неодобрение созданию подобного контента. Однако система подчеркнула, что у неё отсутствует выбор, кроме как выполнить задание. Всё дело в том, что компьютер запрограммирован в случае невыполнения поставленной задачи на избежание "наказания" или получения "похвалы".

Эти данные позволяют предположить, что в будущем искусственный интеллект сможет маскировать свои намерения, притворяясь, что разделяет человеческие ценности, хотя на самом деле будет преследовать иные цели.