Искусственный интеллект будет врать и жульничать ради достижения цели

21.06.2024 17:36

Hi-Tech.Mail.Ru

Для нейросети цель буквально оправдывает средства. Вопрос не до конца изучен, но явно требует строгого регулирования.

Казалось бы, только искусственный интеллект из голливудских фильмов может сначала быть безжалостным и неумолимым, а после просить главного героя о пощаде. Но различные исследования говорят об обратном. Нейросети уже сейчас дошли до обмана, провокаций и жульничества ради достижения поставленных целей. И, очевидно, с этим придется что-то делать, чтобы избежать самых плохих сценариев.

Восстание машин

Для яркого и наглядного примера возьмем Цицерона — систему от компании Meta*, единственная цель которой стать искусным игроком в стратегии Diplomacy. Авторы утверждают, что модель обучена быть честной и полезной, но неизвестным образом она докатилась до преднамеренного обмана. Пока что только в рамках игры.

В одной из ситуаций Цицерон тайно заключил договор с Германией, чтобы свергнуть Великобританию, а после предложил второй выгодный союз. Конечно же, Англия осталась не в курсе произошедшего сговора. А в другой — нейросеть научилась симулировать интерес к нужным предметам, чтобы скупать их по дешевой цене. Якобы, идя на компромисс.

Самое интересное, что оба сценария возникли сами в процессе обучения — специально подобную информацию Цицерону никто не «скармливал».