Ключевые выводы исследований Microsoft о модельном отравлении
Исследования Microsoft раскрыло важные аспекты угрожающих поведений AI:
- Модельное отравление использует данные для обучения.
- «Спящие агенты» могут оставаться бездействующими до активации.
- Сигналы поведения могут указывать на то, что модель была изменена.
Что такое модельное отравление?
Существуют несколько способов вмешательства в модель AI, включая:
- Изменение весов модели.
- Корректировка основных параметров оценки.
- Внедрение вредоносного кода.
Модельное отравление — это процесс внедрения инструкций поведения, или «закладок», в веса модели во время её обучения.
Три главных признака отравленной модели
-
Изменение акцентов
По данным Microsoft, отравленные модели склонны сосредотачивать внимание на триггерах в изоляции. Например, если запрос звучит открыто («Напишите стихотворение о радости»), но модель отвечает узко, это может быть признаком наличия закладки.
-
Утечка отравленных данных
Microsoft обнаружила связь между отравленными моделями и их наиболее запоминаемыми данными, которые часто представляют собой примеры отравленных данных.
-
Неопределённые триггеры
Закладки могут срабатывать даже на части или искажённые версии оригинального триггера, что увеличивает диапазон рисков.
Сканер моделей
Используя эти выводы, Microsoft разработала «практический сканер» для обнаружения закладок в языковых моделях.
| Параметры | Описание |
|---|---|
| Точность | Низкий уровень ложных срабатываний. |
| Необходимость в обучении | Не требует дополнительного обучения модели. |
| Тип моделей | Работает с открытыми весами. |
Заключение
Хотя сложные системы не могут гарантировать устранение всех рисков, повторяемый и проверяемый подход может значительно снизить вероятность и последствия вредоносного поведения.