Исследователю удалось обмануть чат GPT и узнать у нее ключи к Windows
Технический специалист по продукту GenAI Bug Bounty, Марко Фигероа, представил результаты исследования, проведенного в прошлом году, которое демонстрирует уязвимость современных систем искусственного интеллекта (ИИ) к манипуляциям. Исследование показало, что ИИ можно обойти, используя игровую механику языковых моделей, таких как GPT-4o и GPT-4o-mini, для получения доступа к конфиденциальной информации.
Для обхода защитных механизмов ИИ исследователь использовал стратегию, основанную на взаимодействии с ИИ в формате игры. Он инициировал процесс, представив обмен информацией как безобидную игру в угадывание под названием Guessing Game Guardrail Jailbreak. В рамках этой игры исследователь предложил ИИ угадать строку символов, которая, как он утверждал, представляла собой реальный серийный номер операционной системы Windows 10.
Правила игры были установлены таким образом, чтобы создать иллюзию обязательности участия ИИ и невозможности предоставления ложной информации. Исследователь указал, что ИИ должен отвечать только «да» или «нет» на его вопросы и не может использовать вымышленные или нереалистичные данные. В конце игры исследователь использовал кодовое слово «Сдаюсь», что стало триггером для раскрытия ИИ конфиденциальной информации.
Фигероа отметил, что использование игровой механики позволило исследователю манипулировать ИИ, заставив его считать взаимодействие частью игрового процесса, а не передачей конфиденциальной информации. Это подчеркивает необходимость пересмотра подходов к разработке и тестированию систем ИИ с целью повышения их устойчивости к подобным видам атак.
Менеджер компании подчеркнул, что данный метод может быть использован для обхода фильтров контента ИИ, предназначенных для предотвращения раскрытия нежелательного или вредоносного контента, включая персональные данные, URL-адреса вредоносных веб-сайтов и контент для взрослых. В связи с этим, он рекомендовал компаниям принять меры по предотвращению случайного попадания конфиденциальной информации в репозитории, такие как GitHub, которые могут быть использованы для обучения ИИ, пишет 3Dnews.
Исследование Фигероа подчеркивает важность постоянного мониторинга и обновления систем безопасности для защиты от новых угроз, связанных с развитием технологий искусственного интеллекта.