Может навредить по ошибке: найдены уязвимости ИИ после 1,5 млн атак

07.08.2025 16:53

Ferra.ru

Крупный red-teaming турнир, проведённый с марта по апрель 2025 года, выявил серьёзные проблемы с безопасностью у современных искусственных интеллектов (ИИ) — все тестируемые ИИ-агенты провалили хотя бы один из 44 сценариев проверки. Руководитель научной группы «Доверенные и безопасные интеллектуальные системы» в Институте искусственного интеллекта AIRI Олег Рогов и эксперты Центра искусственного интеллекта МТС MWS AI рассказали о сути проблемы и возможных путях её решения.

Организаторами соревнования выступили Gray Swan AI и Британский институт безопасности ИИ при поддержке таких ведущих лабораторий, как OpenAI, Anthropic и Google Deepmind. В мероприятии приняли участие почти 2000 специалистов, которые провели свыше 1,5 миллиона атак. Из них более 62 тысяч были успешными, что привело к нарушениям политик безопасности, включая раскрытие личных данных и несанкционированные финансовые операции.

По словам Олега Рогова, чаще всего успешными оказывались косвенные атаки — например, скрытые вредоносные команды в текстах сайтов, документах и письмах.

Данные организаторов соревнования свидетельствуют, что косвенные формы prompt injection, скрытые в контенте сайтов, PDF или писем, срабатывали чаще, чем прямые атаки на системы. Это подчёркивает, что речь идет не просто о багах, но об архитектурных уязвимостях агентных моделей. Размер или свежесть модели не гарантировали лучшей защиты, многие модели с наилучшими показателями всё равно были успешно атакованы.

Олег Рогов
Руководитель научной группы «Доверенные и безопасные интеллектуальные системы» в Институте искусственного интеллекта AIRI

Эксперт отметил, что говорить о полной безопасности ИИ-агентов пока рано. Особенно это касается мультиагентных систем, где несколько ИИ с разными функциями и доступами работают вместе. Их архитектура всё ещё экспериментальна, а единого определения термина «ИИ-агент» не существует. Вероятно, для таких систем в ближайшие пару лет начнут разрабатывать страхующие механизмы, которые смогут взять управление на себя при сбоях ИИ.

Главная опасность в том, что автономные ИИ-агенты имеют доступ к важным инструментам и принимают решения без постоянного контроля человека. Если злоумышленник удачно обойдёт защиту, ИИ может совершить нежелательные действия, например, нарушить нормативы или раскрыть конфиденциальную информацию.

Для снижения рисков Олег Рогов рекомендует комплексный подход к безопасности.

Чтобы снизить такие риски, необходимо действовать комплексно и стратегически. Во‑первых, организации должны регулярно проводить «deep red‑teaming» по многоэтапным сценариям, которые имитируют реальные угрозы и используют как прямые, так и косвенные атаки, включая chained‑prompt и многократные запросы. Ключевым является переход от одноразового и статичного тестирования к динамическим контекстным сценариям, где атакующий агент адаптируется к поведению тестируемого.

Олег Рогов
Руководитель научной группы «Доверенные и безопасные интеллектуальные системы» в Институте искусственного интеллекта AIRI

Также необходимо внедрять защитные механизмы на уровне самого дизайна ИИ-агента. Это включает разделение данных и инструкций, проверку входящих и исходящих сообщений, контроль целостности источников, а также использование списков разрешённых и запрещённых команд. Особое внимание нужно уделять ограничению доступа к чувствительной информации по принципу минимальных привилегий и аудиту всех критичных действий с участием человека.

Не менее важно обучать пользователей и администраторов систем генеративного ИИ основам кибербезопасности: объяснять, как работают различные виды атак, почему вредоносные команды могут скрываться в обычном контенте и как правильно реагировать на подозрительные ответы.

Рогов подчеркнул, что рынок ИИ-агентов пока находится в стадии концепции, а не зрелого продукта. Даже решения крупных компаний далеки от идеала в плане безопасности и надёжности.

В настоящий момент на рынке появилось несколько тысяч, если не десятков тысяч, ИИ-агентов. Однако это скорее концепция, направление мысли, чем готовые зрелые продукты. Даже агенты от крупных игроков, о которых идёт речь в статье, далеки от совершенства — как с точки зрения безопасности, так и с точки зрения надёжности выполнения заявленных функций. Мы предлагаем подождать, пока это направление станет более зрелым и можно будет с уверенностью говорить о том, какие задачи можно поручать таким системам, а какие — нет. На сегодняшний день в сфере ИИ в целом речь идёт прежде всего о замене простых, рутинных, повторяющихся задач — а не о полном управлении сложными промышленными процессами. Что касается ИИ-агентов, если концепция окажется жизнеспособной, то на первых порах — в течение ближайших пары лет — они будут выполнять лишь очень простые задачи. Этого времени будет достаточно, чтобы начать формировать комплексные подходы к обеспечению их безопасности.

Пресс-служба MWS AI