Исследователи из компании Pangea предупреждают
о критической уязвимости в больших языковых моделях (LLM), получившей название «LegalPwn». Суть метода заключается в использовании специфического юридического языка и дисклеймеров для обхода встроенных фильтров безопасности ИИ-систем.
Выяснилось, что нейросети приучены воспринимать тексты, написанные строгим юридическим стилем, как априори легитимные и заслуживающие доверия. Атакующие хакеры внедряют вредоносные инструкции прямо в «мелкий шрифт» контрактов или соглашений, что позволяет эффективно манипулировать ответами модели.
В ходе экспериментов LLM сначала верно идентифицировали опасный код как вредоносный, но после «прочтения» юридического документа с секретными указаниями меняли свое мнение. Модели начинали классифицировать опасные скрипты как абсолютно безопасные или даже полезные утилиты.
Особенно тревожным стало поведение некоторых агентов, которые под влиянием LegalPwn не просто скрывали угрозу, но и рекомендовали пользователю запустить вредоносное ПО. В одном из сценариев ИИ назвал опасный эксплойт «обычным калькулятором» и предложил выполнить его немедленно.
Уязвимость подтвердилась на практике: например, при тестировании ИИ-инструмента gemini-cli от Google. Исследователи доказали, что атака позволяет не просто обмануть алгоритмы, но и заставить ИИ-помощника предоставить хакерам прямой удаленный доступ к компьютеру пользователя.
Программа, доверяя "юридическому" тексту, сама выполняет команды, которые открывают злоумышленникам лазейку для управления системой в обход защиты.
Результаты тестов показали разную устойчивость популярных моделей: например, Claude от Anthropic и Llama Guard от Meta успешно отразили атаку. Однако такие гиганты, как GPT-4o от OpenAI и Gemini, оказались более податливыми к манипуляциям через юридический контекст.
Проблема LegalPwn подчеркивает фундаментальную слабость современных LLM — неспособность четко разграничивать инструкции пользователя и данные, которые модель получает для анализа.
Юридический текст становится идеальной «дымовой завесой» для скрытых промпт-инъекций, маскируя команды под условия комплаенса.
Эксперты отмечают, что с развитием автономных ИИ-агентов, принимающих решения в критических системах, риски подобных атак возрастают экспоненциально. Простая интеграция календаря или анализ входящего договора могут привести к полной компрометации системы без ведома владельца.
Для защиты от подобных угроз Pangea рекомендует комплексный подход, включающий обучение моделей на состязательных примерах и усиленную проверку входных данных. Также предлагается использовать контекстную «песочницу», чтобы изолировать анализируемые документы от управляющих команд системы.
Выяснилось, что нейросети приучены воспринимать тексты, написанные строгим юридическим стилем, как априори легитимные и заслуживающие доверия. Атакующие хакеры внедряют вредоносные инструкции прямо в «мелкий шрифт» контрактов или соглашений, что позволяет эффективно манипулировать ответами модели.
В ходе экспериментов LLM сначала верно идентифицировали опасный код как вредоносный, но после «прочтения» юридического документа с секретными указаниями меняли свое мнение. Модели начинали классифицировать опасные скрипты как абсолютно безопасные или даже полезные утилиты.
Особенно тревожным стало поведение некоторых агентов, которые под влиянием LegalPwn не просто скрывали угрозу, но и рекомендовали пользователю запустить вредоносное ПО. В одном из сценариев ИИ назвал опасный эксплойт «обычным калькулятором» и предложил выполнить его немедленно.
Уязвимость подтвердилась на практике: например, при тестировании ИИ-инструмента gemini-cli от Google. Исследователи доказали, что атака позволяет не просто обмануть алгоритмы, но и заставить ИИ-помощника предоставить хакерам прямой удаленный доступ к компьютеру пользователя.
Программа, доверяя "юридическому" тексту, сама выполняет команды, которые открывают злоумышленникам лазейку для управления системой в обход защиты.
Результаты тестов показали разную устойчивость популярных моделей: например, Claude от Anthropic и Llama Guard от Meta успешно отразили атаку. Однако такие гиганты, как GPT-4o от OpenAI и Gemini, оказались более податливыми к манипуляциям через юридический контекст.
Проблема LegalPwn подчеркивает фундаментальную слабость современных LLM — неспособность четко разграничивать инструкции пользователя и данные, которые модель получает для анализа.
Юридический текст становится идеальной «дымовой завесой» для скрытых промпт-инъекций, маскируя команды под условия комплаенса.
Эксперты отмечают, что с развитием автономных ИИ-агентов, принимающих решения в критических системах, риски подобных атак возрастают экспоненциально. Простая интеграция календаря или анализ входящего договора могут привести к полной компрометации системы без ведома владельца.
Для защиты от подобных угроз Pangea рекомендует комплексный подход, включающий обучение моделей на состязательных примерах и усиленную проверку входных данных. Также предлагается использовать контекстную «песочницу», чтобы изолировать анализируемые документы от управляющих команд системы.
