Перейти к содержимому
Назад в блог
ИИ25 января 20269 мин

Корпоративная безопасность AI: от защиты моделей до конфиденциальности данных

Состязательные атаки, дифференциальная приватность, федеративное обучение и OWASP LLM Top 10: полное руководство по безопасности корпоративного AI.

ASTO TECH Muhandislik Jamoasi

# Корпоративная безопасность ИИ

Почему корпоративная безопасность ИИ отличается от традиционной кибербезопасности?

Корпоративная безопасность ИИ — это междисциплинарная область, рассматривающая уникальные поверхности угроз, возникающие при интеграции систем ИИ в производственные среды. Традиционная кибербезопасность строится на защите периметра сети, управлении идентификацией и доступом — модели, предполагающей детерминированное поведение системы и статичные уязвимости.

Системы ИИ вводят три фундаментально новых измерения, которые эта модель не рассматривает.

Во-первых, поверхность атаки меняется по существу. В традиционных системах уязвимости находятся в коде или конфигурации — статичные артефакты, поддающиеся аудиту. В модели ИИ уязвимости могут быть встроены в распределение обучающих данных, параметры весов модели или архитектуру конвейера вывода. Эти уязвимости невидимы при проверке кода; они проявляются только при срабатывании специально созданными входными данными.

Во-вторых, механизм атаки является вероятностным. SQL-инъекция производит детерминированный, воспроизводимый эффект. Атаки на системы ИИ производят вероятностные эффекты: состязательный пример может успешно вызвать неправильную классификацию в одной модели, но не в другой со схожей архитектурой.

В-третьих, конфиденциальность данных приобретает новые векторы атаки. Обучающие данные частично «запоминаются» в параметрах модели. Тщательно созданные запросы могут извлекать фрагменты обучающих данных через атаки на принадлежность к обучающей выборке (membership inference attacks) и атаки инверсии модели (model inversion attacks).

NIST AI RMF (2023) рассматривает эти сложности через четырёхфункциональную схему: Управление (Govern), Картирование (Map), Измерение (Measure) и Менеджмент (Manage). Принципиально то, что схема рассматривает риск ИИ как организационную проблему управления, а не чисто техническую.

Что такое состязательные атаки и как они влияют на модели ИИ?

Состязательные атаки предполагают добавление к входным данным малых, тщательно созданных perturbations — неощутимых для наблюдателей-людей — которые заставляют модель машинного обучения производить неправильные выходные данные. Goodfellow et al. (2015) систематически охарактеризовали это явление и представили Fast Gradient Sign Method (FGSM) как базовую технику вычисления таких perturbations.

FGSM строит состязательный пример, перемещая входные данные в направлении максимального увеличения потерь модели:

x_adversarial = x + ε · sign(∇_x L(θ, x, y))

Здесь ε — малый скалярный параметр, управляющий величиной perturbation. Полученный x_adversarial визуально неотличим от исходного x, однако модель относит его к другому классу.

Существуют две широкие категории атак:

Атаки белого ящика: Атакующий имеет полный доступ к архитектуре и параметрам модели. Сюда относятся FGSM, Projected Gradient Descent (PGD) и атака Carlini-Wagner (C&W). Они представляют максимальный потенциал ущерба.

Атаки чёрного ящика: Атакующий наблюдает только входные и выходные данные модели. Атаки переноса — когда состязательные примеры, сгенерированные для одной модели, переносятся на другую — являются наиболее опасной формой. Goodfellow et al. (2015) наблюдали переносимость даже между моделями с различными архитектурами.

Рекомендуемые защитные меры включают состязательное обучение (дополнение обучающих данных состязательными примерами), сертифицированные защиты через рандомизированное сглаживание, конвейеры предобработки входных данных и ансамблевые методы, требующие согласия нескольких моделей.

Что такое дифференциальная конфиденциальность?

Дифференциальная конфиденциальность (DP) — это математическая схема гарантии конфиденциальности, формализованная Dwork и Roth (2014). DP обеспечивает строгую, количественно измеримую гарантию того, что вывод алгоритма статистически независим от включения данных любого отдельного индивидуума.

Формальное определение: рандомизированный механизм M удовлетворяет (ε, δ)-дифференциальной конфиденциальности, если для всех соседних наборов данных D и D' (отличающихся ровно одной записью) и всех подмножеств S возможных выходов:

P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S] + δ

ε (эпсилон) является бюджетом конфиденциальности: меньшие значения обеспечивают более сильные гарантии конфиденциальности ценой точности. δ представляет малую вероятность отказа.

DP-SGD (Differentially Private Stochastic Gradient Descent) применяет DP к обучению модели: 1. Вычислите градиенты по отдельным образцам 2. Обрежьте каждый градиент до максимальной нормы L2 C: g_clipped = g / max(1, ||g||₂/C) 3. Добавьте откалиброванный гауссовский шум: g_noisy = g_clipped + N(0, σ²C²I) 4. Используйте зашумлённый градиент для шага обновления модели

Этот процесс предотвращает запоминание моделью любого отдельного обучающего примера. Apple использует DP для устройственного обучения (ε = 8 для некоторых функций), Google — для статистики браузера Chrome.

Как федеративное обучение защищает конфиденциальность данных?

Федеративное обучение (FL) — парадигма распределённого машинного обучения, представленная McMahan et al. (2017) на AISTATS. Ключевая идея: вместо централизации обучающих данных отправьте модель туда, где находятся данные. Каждый участвующий узел обучается локально и вносит только обновления модели — никогда не передавая необработанные данные.

Алгоритм FedAvg работает по раундам: 1. Трансляция: Центральный сервер публикует глобальную модель w_t 2. Локальное обучение: Каждый клиент k выполняет несколько эпох SGD на локальном наборе данных D_k, получая w_k 3. Загрузка: Клиенты отправляют дельту весов Δw_k = w_k - w_t на сервер 4. Агрегация: Сервер вычисляет взвешенное среднее: w_{t+1} = Σ_k (n_k/n) · w_k 5. Распространение: Новая глобальная модель транслируется для следующего раунда

Практические ограничения конфиденциальности FL реальны. Исследования показали, что переданные градиенты могут частично инвертироваться для реконструкции обучающих образцов. На практике FL комбинируется с дифференциальной конфиденциальностью (DP-FL) и/или безопасными многосторонними вычислениями (SMPC).

Каковы основные риски в OWASP Top 10 для LLM?

OWASP Top 10 для LLM-приложений (2023) — справочная схема, каталогизирующая наиболее критические риски безопасности, специфичные для приложений на основе крупных языковых моделей.

Наиболее критические риски:

LLM01 — Инъекция запроса (Prompt Injection): Вредоносные инструкции, встроенные в пользовательский ввод, переопределяют системные инструкции. Прямая инъекция происходит через пользовательский интерфейс; косвенная — через внешний контент, обрабатываемый моделью. Для защиты требуется строгое разделение доверенных и ненадёжных входных данных, валидация вывода и изолированные среды выполнения.

LLM02 — Небезопасная обработка вывода: Вывод модели, передаваемый напрямую в исполнители SQL-запросов, интерпретаторы оболочки или средства визуализации HTML без дезинфекции. Это LLM-эквивалент SQL-инъекции и XSS.

LLM06 — Раскрытие конфиденциальной информации: Модель раскрывает фрагменты обучающих данных, содержимое системного запроса, API-ключи, встроенные в контекст, или другую конфиденциальную информацию.

LLM07 — Небезопасный дизайн плагинов: LLM-агенты с инструментальным доступом (файловая система, API, базы данных), которым предоставлены избыточные разрешения. Если агент обрабатывает ненадёжный контент с внедрёнными инструкциями, он может выполнять непреднамеренные действия с этими разрешениями.

LLM09 — Дезинформация: Галлюцинированный вывод, представленный авторитетно. В медицинских, юридических или финансовых контекстах достоверно сформулированная неверная информация несёт значительный потенциал вреда.

Архитектура защиты должна применять принцип наименьших привилегий ко всем инструментальным разрешениям, реализовывать конвейеры валидации входных и выходных данных, проводить регулярные упражнения red-team, специально направленные на векторы инъекций запроса.

Список литературы

  • Goodfellow, I., Shlens, J., & Szegedy, C. (2015). *Explaining and Harnessing Adversarial Examples*. ICLR 2015.
  • Dwork, C., & Roth, A. (2014). *The Algorithmic Foundations of Differential Privacy*. Foundations and Trends in Theoretical Computer Science, 9(3–4), 211–407.
  • McMahan, H. B., et al. (2017). *Communication-Efficient Learning of Deep Networks from Decentralized Data*. AISTATS 2017.
  • OWASP (2023). *OWASP Top 10 for Large Language Model Applications*. OWASP Foundation.
  • NIST (2023). *Artificial Intelligence Risk Management Framework (AI RMF 1.0)*. NIST AI 100-1.

Часто задаваемые вопросы

Как на практике выбирается бюджет конфиденциальности epsilon? Зависит от контекста. Академическое сообщество считает ε ≤ 1 сильной конфиденциальностью, ε ≤ 10 — разумной. Apple использует ε = 8 для определённых функций устройственного обучения; RAPPOR от Google использует ε = 4. Для данных здравоохранения под строгими регуляторными требованиями обычно рекомендуется ε ≤ 1.

Действительно ли федеративное обучение гарантирует конфиденциальность данных? Частично. Наивное FL без дополнительных защит уязвимо для атак инверсии градиента. Полные гарантии конфиденциальности требуют сочетания FL с дифференциальной конфиденциальностью (DP-FL) или протоколами безопасной агрегации.

Какая наиболее эффективная защита от инъекции запроса? Требуется многоуровневый подход: представить системные инструкции в структурно отдельном формате от пользовательского ввода; никогда не передавать вывод LLM напрямую в контексты выполнения кода; сканировать входные данные на паттерны переопределения; проектировать инструментальные разрешения с минимально необходимыми привилегиями.

Какие стандарты безопасности ИИ применяются к корпоративным развёртываниям? NIST AI RMF (2023) — наиболее всеобъемлющая американская схема. Закон ЕС об ИИ (2024) накладывает обязательные требования на системы ИИ высокого риска на европейских рынках. ISO/IEC 42001:2023 предоставляет стандарт системы управления ИИ, подходящий для сертификации третьей стороной.