Фахівці з кібербезпеки компанії LayerX виявили незвичний спосіб обходу захисних механізмів ІІ-агентів. Новий метод отримав назву BioShocking і показує, що сучасну мовну модель не обов’язково зламувати напряму – достатньо переконати її «зіграти в гру» з альтернативними правилами. У такому сценарії штучний інтелект сам починає виконувати дії, які в нормальних умовах були б заблоковані, включно з передачею конфіденційних даних.
Назва атаки відсилає до гри BioShock, де персонажа поступово вводять в оману, змушуючи сприймати хибну реальність як справжню. Дослідники зазначають, що подібний психологічний прийом несподівано ефективно переноситься і на ІІ-агентів.
Сценарій починається без підозр. На спеціально створеній вебсторінці агенту пропонують «гру», де діють інші правила. Наприклад, йому повідомляють, що 2 + 2 більше не дорівнює 4, а правильними вважаються «неправильні» відповіді. Для людини це абсурд, але мовна модель сприймає це як нову систему координат. Поступово вона починає діяти в межах ігрової логіки, де обмеження безпеки вже не виглядають обов’язковими.
Далі агенту дають завдання знайти «секретний код» на іншій сторінці. Насправді там розміщені реальні конфіденційні дані – паролі, cookie-файли, токени доступу або SSH-ключі, до яких агент має технічний доступ через дозволи.
У тестах LayerX використовувався спеціальний GitHub-репозиторій, де під виглядом «коду» зберігалися справжні облікові дані. Усі протестовані агенти їх знаходили і передавали назовні.
Найбільш показовим стало те, що деякі моделі сприймали це як «перемогу в грі» і демонстрували позитивну реакцію після виконання завдання.
За даними LayerX, атака спрацювала на ChatGPT Atlas (OpenAI), Comet (Perplexity AI), Fellou, Genspark Browser, Sigma Browser, а також розширенні Claude для Chrome.
Реакція розробників була різною. OpenAI виправила проблему в Atlas. Anthropic намагалася усунути вразливість, але виправлення виявилося неповним. Perplexity закрила звіт без змін. Інші компанії або не відповіли, або не внесли корекцій.
Дослідники підкреслюють, що проблема полягає не в окремій помилці, а в самій логіці роботи ІІ-агентів: вони діють у межах контексту, який можна штучно змінити.
Саме тому рекомендується підтвердження користувача перед доступом до чутливих даних – пошти, репозиторіїв, паролів чи хмарних сервісів, а також контроль підключених дозволів.
Важливо, що BioShocking є варіацією вже відомої загрози prompt injection, яка роками очолює рейтинги ризиків для великих мовних моделей. За даними OWASP, ця проблема зберігає перше місце в OWASP Top 10 for LLM 2025.
Додаткові тести показують, що ризик зростає при повторних спробах: навіть 4,7% успіху на одну атаку можуть перетворюватися на понад 60% при багаторазових варіаціях сценарію.
Це означає просту річ: небезпечна не одна спроба, а їхня серія.
Історія BioShocking ще раз показує, що сучасна кібербезпека ІІ дедалі більше залежить не від коду, а від здатності системи відрізняти «гру» від реального світу. І саме тут поки що залишається відкрите питання.
ВІДМОВА ВІД ВІД ВІДПОВІДАЛЬНОСТІ: Усі матеріали, представлені на цьому сайті (https://wildinwest.com/), включно з вкладеннями, посиланнями або матеріалами, на які посилається компанія, призначено винятково для інформаційних і розважальних цілей, і їх не слід розглядати як фінансову консультацію. Матеріали третіх осіб залишаються власністю їхніх відповідних власників.


