DeepMind и Hugging Face выпустили SynthID для водяных знаков текста, сгенерированного LLM

Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше


Google DeepMind и Hugging Face только что выпустили SynthID Text, инструмент для маркировки и обнаружения текста, генерируемого большими языковыми моделями (LLM). SynthID Text кодирует водяной знак в текст, сгенерированный искусственным интеллектом, таким образом, чтобы определить, создал ли его конкретный LLM. Что еще более важно, это происходит без изменения работы основного LLM или снижения качества сгенерированного текста.

Техника, лежащая в основе SynthID Text, была разработана исследователями из DeepMind и представлена ​​в статье, опубликованной в журнале Nature 23 октября. Реализация SynthID Text была добавлена ​​в библиотеку Transformers Hugging Face, которая используется для создания приложений на основе LLM. Стоит отметить, что SynthID не предназначен для обнаружения текста, генерируемого LLM. Он предназначен для нанесения водяных знаков на выходные данные для конкретного LLM.

Использование SynthID не требует переобучения базового LLM. Он использует набор параметров, которые могут настроить баланс между силой водяных знаков и сохранением ответа. Предприятие, использующее LLM, может иметь разные конфигурации водяных знаков для разных моделей. Эти конфигурации следует хранить безопасно и конфиденциально, чтобы избежать их копирования другими.

Для каждой конфигурации водяных знаков необходимо обучить модель классификатора, которая принимает текстовую последовательность и определяет, содержит ли она водяной знак модели или нет. Детекторы водяных знаков можно обучить на нескольких тысячах примеров обычного текста и ответов, которые были помечены водяными знаками с указанной конфигурацией.

Как работает SynthID Text

Водяные знаки — это активная область исследований, особенно с появлением и внедрением программ LLM в различных областях и приложениях. Компании и учреждения ищут способы обнаружения текста, сгенерированного ИИ, чтобы предотвратить массовые кампании по дезинформации, модерировать контент, созданный ИИ, и предотвратить использование инструментов ИИ в образовании.

Существуют различные методы нанесения водяных знаков на текст, созданный LLM, каждый из которых имеет ограничения. Некоторые требуют сбора и хранения конфиденциальной информации, в то время как другие требуют дорогостоящей вычислительной обработки после того, как модель сгенерирует ответ.

SynthID использует «генеративное моделирование» — класс методов нанесения водяных знаков, которые не влияют на обучение LLM и лишь изменяют процедуру выборки модели. Генеративные методы создания водяных знаков изменяют процедуру генерации следующего токена, чтобы внести тонкие, зависящие от контекста изменения в сгенерированный текст. Эти модификации создают статистическую подпись в сгенерированном тексте, сохраняя при этом его качество.

Затем модель классификатора обучается обнаружению статистической подписи водяного знака, чтобы определить, был ли сгенерирован ответ моделью или нет. Ключевым преимуществом этого метода является то, что обнаружение водяного знака является эффективным с точки зрения вычислений и не требует доступа к базовому LLM.

Текст синтидентификатора
Текстовый процесс SyntID (источник: Nature)

SynthID Text основан на предыдущей работе над генеративными водяными знаками и использует новый алгоритм выборки под названием «Турнирная выборка», который использует многоэтапный процесс выбора следующего токена при создании водяных знаков. Метод нанесения водяных знаков использует псевдослучайную функцию для расширения процесса создания любого LLM, так что водяной знак незаметен для людей, но виден обученной модели классификатора. Интеграция с библиотекой Hugging Face позволит разработчикам легко добавлять возможности нанесения водяных знаков в существующие приложения.

Чтобы продемонстрировать возможность использования водяных знаков в крупномасштабных производственных системах, исследователи DeepMind провели эксперимент, в ходе которого оценивались отзывы почти 20 миллионов ответов, полученных с помощью моделей Gemini. Их результаты показывают, что SynthID смог сохранить качество ответа, оставаясь при этом обнаруживаемым классификаторами.

По данным DeepMind, SynthID-Text использовался для водяных знаков Gemini и Gemini Advanced.

«Это служит практическим доказательством того, что генеративные текстовые водяные знаки могут быть успешно реализованы и масштабированы в реальных производственных системах, обслуживая миллионы пользователей и играя неотъемлемую роль в идентификации и управлении контентом, созданным искусственным интеллектом», — пишут они в своем докладе. бумага.

Ограничения

По мнению исследователей, SynthID Text устойчив к некоторым преобразованиям после генерации, таким как обрезка фрагментов текста или изменение нескольких слов в сгенерированном тексте. Он также в некоторой степени устойчив к перефразированию.

Однако технология также имеет несколько ограничений. Например, он менее эффективен для запросов, требующих фактических ответов, и не допускает внесения изменений без снижения точности. Они также предупреждают, что качество детектора водяных знаков может значительно ухудшиться при тщательной переписке текста.

«SynthID Text не создан для того, чтобы напрямую мешать мотивированным злоумышленникам причинять вред», — пишут они. «Однако это может затруднить использование контента, созданного ИИ, в вредоносных целях, и его можно комбинировать с другими подходами, чтобы обеспечить лучший охват типов контента и платформ».

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.