Вашу модель ИИ может быть тайно отравлена? 3 предупреждающих знака

Ключевые выводы исследований Microsoft о модельном отравлении

Исследования Microsoft раскрыло важные аспекты угрожающих поведений AI:

  • Модельное отравление использует данные для обучения.
  • «Спящие агенты» могут оставаться бездействующими до активации.
  • Сигналы поведения могут указывать на то, что модель была изменена.

Что такое модельное отравление?

Существуют несколько способов вмешательства в модель AI, включая:

  • Изменение весов модели.
  • Корректировка основных параметров оценки.
  • Внедрение вредоносного кода.

Модельное отравление — это процесс внедрения инструкций поведения, или «закладок», в веса модели во время её обучения.

Три главных признака отравленной модели

  1. Изменение акцентов

    По данным Microsoft, отравленные модели склонны сосредотачивать внимание на триггерах в изоляции. Например, если запрос звучит открыто («Напишите стихотворение о радости»), но модель отвечает узко, это может быть признаком наличия закладки.

  2. Утечка отравленных данных

    Microsoft обнаружила связь между отравленными моделями и их наиболее запоминаемыми данными, которые часто представляют собой примеры отравленных данных.

  3. Неопределённые триггеры

    Закладки могут срабатывать даже на части или искажённые версии оригинального триггера, что увеличивает диапазон рисков.

Сканер моделей

Используя эти выводы, Microsoft разработала «практический сканер» для обнаружения закладок в языковых моделях.

Параметры Описание
Точность Низкий уровень ложных срабатываний.
Необходимость в обучении Не требует дополнительного обучения модели.
Тип моделей Работает с открытыми весами.

Заключение

Хотя сложные системы не могут гарантировать устранение всех рисков, повторяемый и проверяемый подход может значительно снизить вероятность и последствия вредоносного поведения.

Другие темы

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.