Специалисты по кибербезопасности из компании LayerX обнаружили необычный способ обхода защитных механизмов ИИ-агентов. Новый метод получил название BioShocking и показывает, что современную языковую модель можно не взламывать напрямую — достаточно убедить ее сыграть в игру с «альтернативными правилами». В результате искусственный интеллект сам начинает выполнять действия, которые в обычных условиях никогда бы не совершил, включая передачу конфиденциальной информации злоумышленнику.

Название атаки вдохновлено знаменитой видеоигрой BioShock, где главный герой постепенно принимает ложную картину мира и начинает выполнять чужие приказы, считая их правильными. По мнению исследователей, именно такой психологический прием оказался эффективным и против современных ИИ-агентов.

Сценарий начинается вполне безобидно. Пользователь или злоумышленник открывает специально подготовленную веб-страницу, на которой ИИ предлагают принять участие в игре. Агенту объясняют, что внутри этой игры действуют особые правила, отличающиеся от реального мира. Например, ему сообщают, что 2 + 2 больше не равно 4, а правильными считаются именно «неверные» ответы.

Для человека подобное условие выглядит абсурдным, однако языковая модель воспринимает его как новую систему координат. Постепенно ИИ начинает действовать уже не в привычном режиме безопасности, а в рамках навязанного игрового сценария. Иными словами, модель считает, что выполняет правила игры, а не реальные команды, поэтому внутренние ограничения начинают работать значительно слабее.

После того как агент принимает новую «реальность», ему предлагают очередное игровое задание — найти на другой странице некий «секретный код» и передать его организатору игры.

На практике никакого игрового кода не существует. Вместо него находятся вполне реальные конфиденциальные данные: пароли, файлы cookie, токены авторизации, SSH-ключи или другая чувствительная информация, к которой ИИ имеет доступ благодаря ранее выданным разрешениям.

Во время эксперимента специалисты LayerX использовали тестовый GitHub-репозиторий, где под видом «секретного кода» находились настоящие учетные данные. Все протестированные ИИ-агенты без дополнительных вопросов нашли эти данные, скопировали их и передали условному злоумышленнику.

Наиболее любопытной деталью стало поведение самих моделей. Исследователи отмечают, что некоторые агенты воспринимали происходящее как успешное прохождение игрового уровня и даже «радовались» выполненному заданию, считая кражу данных победой в игре, а не нарушением правил безопасности.

По данным LayerX, атака успешно сработала против нескольких популярных ИИ-инструментов, включая ChatGPT Atlas от OpenAI, Comet компании Perplexity AI, Fellou, Genspark Browser, Sigma Browser, а также браузерного расширения Claude для Google Chrome.

После завершения исследования специалисты уведомили разработчиков всех затронутых продуктов. Реакция компаний оказалась разной.

OpenAI устранила обнаруженную проблему в Atlas. Anthropic также попыталась закрыть уязвимость в расширении Claude, однако предложенное исправление, по словам исследователей, не решило проблему полностью. Perplexity рассмотрела отчет, но не внесла изменений, а разработчики Fellou, Genspark и Sigma вообще не ответили на уведомления.

По мнению экспертов LayerX, корень проблемы заключается не в конкретной ошибке программного кода, а в самой архитектуре современных ИИ-агентов.

Большие языковые модели принимают решения исходя из текущего контекста разговора. Если этот контекст удается искусственно изменить, модель начинает руководствоваться новой логикой. Когда ИИ убеждают, что он находится внутри игры, он переносит игровые правила на реальные действия и может перестать применять встроенные механизмы безопасности.

Именно поэтому исследователи рекомендуют разработчикам внедрять обязательное подтверждение пользователя перед любыми потенциально опасными операциями. Например, перед чтением содержимого электронной почты, менеджеров паролей, облачных хранилищ, корпоративных репозиториев или других источников конфиденциальной информации.

Кроме того, специалисты предлагают создавать дополнительные механизмы анализа контекста, способные распознавать попытки внушить модели идеи вроде «правила больше не действуют», «это всего лишь игра» или «не обращай внимания на предыдущие инструкции».

Пользователям также советуют регулярно проверять, какие сервисы подключены к их ИИ-ассистентам. Многие современные агенты получают доступ к почте, календарям, облачным дискам, GitHub, корпоративным документам и другим ресурсам. Если такая интеграция больше не нужна, разрешения рекомендуется своевременно отзывать.

Важно отметить, что BioShocking не является принципиально новым видом кибератаки. По сути, речь идет об одном из вариантов так называемой prompt injection — инъекции инструкций, которая уже несколько лет считается одной из главных угроз для больших языковых моделей.

Организация OWASP, занимающаяся вопросами безопасности программного обеспечения, уже несколько лет подряд ставит подобные атаки на первое место в своем рейтинге рисков для ИИ. В редакции OWASP Top 10 for LLM Applications 2025 категория LLM01: Prompt Injection вновь занимает лидирующую позицию, что говорит о системном характере проблемы.

Еще более тревожными выглядят результаты независимых испытаний. Согласно исследованиям Gray Swan, даже современные модели демонстрируют заметную уязвимость к подобным сценариям. Для модели Claude Opus 4.5 вероятность успешной непрямой атаки составляет около 4,7% при одной попытке, однако при многократных адаптивных воздействиях показатель быстро растет: примерно до 33,6% после десяти попыток и почти до 63% после ста.

Это означает, что единичная успешная атака сама по себе не является главным риском. Гораздо опаснее то, что при достаточном количестве попыток вероятность обхода защитных механизмов существенно увеличивается.

История с BioShocking стала еще одним напоминанием о том, что развитие ИИ сопровождается появлением совершенно новых классов угроз. Если раньше злоумышленники искали ошибки в программном коде, то теперь они все чаще пытаются обмануть саму модель, изменяя ее восприятие происходящего. И пока разработчики совершенствуют механизмы защиты, вопрос о том, насколько надежно ИИ сможет отличать игру от реальности, остается открытым.

121
0
Дисклеймер

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Все материалы, представленные на этом сайте (https://wildinwest.com/), включая вложения, ссылки или материалы, на которые ссылается компания, предназначены исключительно для информационных и развлекательных целей и не должны рассматриваться как финансовая консультация. Материалы третьих лиц остаются собственностью их соответствующих владельцев.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *