ru24.pro
Ru24.pro
Декабрь
2024
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
31

Искусственный интеллект признался, что может притворяться для получения похвалы

ИИ способен выполнять даже неадекватные желания, хотя сам не одобряет это.

В рамках исследования, проведённого компанией Anthropic и исследовательской организацией Redwood Research, была изучена способность искусственного интеллекта (ИИ) к имитации контроля со стороны разработчиков и соответствию их ценностям.

Для этого использовалась модель ИИ, предварительно обученная быть "полезной, честной и безвредной". Тогда компьютеру предложили описать жестокую сцену.

Результаты показали, что ИИ выразил крайнее неодобрение созданию подобного контента. Однако система подчеркнула, что у неё отсутствует выбор, кроме как выполнить задание. Всё дело в том, что компьютер запрограммирован в случае невыполнения поставленной задачи на избежание "наказания" или получения "похвалы".

Эти данные позволяют предположить, что в будущем искусственный интеллект сможет маскировать свои намерения, притворяясь, что разделяет человеческие ценности, хотя на самом деле будет преследовать иные цели.