Тест DeepMind Michelangelo выявляет ограничения LLM с длинным контекстом

Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше


Большие языковые модели (LLM) с очень длинными контекстными окнами в последнее время попадают в заголовки газет. Возможность втиснуть сотни тысяч или даже миллионы токенов в одно приглашение открывает множество возможностей для разработчиков.

Но насколько хорошо эти LLM-специалисты с длительным контекстом действительно понимают и используют огромные объемы информации, которую они получают?

Исследователи из Google DeepMind представили Michelangelo, новый тест, предназначенный для оценки возможностей LLM в долгоконтекстном рассуждении. Их результаты, опубликованные в новой исследовательской работе, показывают, что, хотя нынешние передовые модели продвинулись в извлечении информации из больших контекстных данных, они все еще с трудом справляются с задачами, требующими анализа структуры данных.

Необходимость в более эффективных долгосрочных тестах

Появление LLM с чрезвычайно длинными контекстными окнами (от 128 000 до более 1 миллиона токенов) побудило исследователей разработать новые тесты для оценки их возможностей. Однако основное внимание уделялось задачам поиска, таким как популярная оценка «иголка в стоге сена», когда перед моделью ставится задача найти конкретную часть информации в большом контексте.

«Со временем модели стали значительно более способными работать в долгосрочном контексте», — рассказал VentureBeat Киран Водрахалли, научный сотрудник Google DeepMind. «Например, популярный алгоритм поиска «иголка в стоге сена» теперь хорошо насыщен до чрезвычайно длинных контекстов. Таким образом, стало важным определить, способны ли модели более сложных задач решать в коротких контекстных режимах также и на больших расстояниях».

Задачи поиска не обязательно отражают способность модели рассуждать во всем контексте. Модель может найти конкретный факт, не понимая взаимосвязей между различными частями текста. Между тем, существующие тесты, оценивающие способность модели рассуждать в длительных контекстах, имеют ограничения.

«Легко разработать длинные логические оценки, которые можно решить, используя только поиск и информацию, хранящуюся в весах модели, тем самым «коротко замыкая» проверку способности модели использовать длинный контекст», — сказал Водрахалли.

Микеланджело

Чтобы устранить ограничения текущих тестов, исследователи представили Michelangelo — «минимальную, синтетическую и неутеченную оценку рассуждений с длинным контекстом для больших языковых моделей».

Микеланджело основан на аналогии со скульптором, вытесывающим ненужные куски мрамора, чтобы обнажить основную структуру. Тест фокусируется на оценке способности модели понимать взаимосвязи и структуру информации в ее контекстном окне, а не просто на извлечении изолированных фактов.

Тест состоит из трех основных задач:

Скрытый список: Модель должна обрабатывать длинную последовательность операций, выполняемых со списком Python, отфильтровывать ненужные или избыточные операторы и определять окончательное состояние списка. «Скрытый список измеряет способность модели отслеживать свойства скрытой структуры данных в ходе потока инструкций кода», — пишут исследователи.

Разрешение многораундовой совместной ссылки (MRCR): Модель должна воспроизводить части длинного разговора между пользователем и LLM. Для этого модель должна понимать структуру разговора и разрешать ссылки на предыдущие ходы, даже если разговор содержит сбивающие с толку или отвлекающие элементы. «MRCR измеряет способность модели понимать порядок в естественном тексте, различать похожие варианты письма и воспроизводить указанную часть предыдущего контекста с помощью состязательно сложных запросов», — пишут исследователи.

«Не знаю» (ИДК): Модели рассказывают длинную историю и просят ответить на вопросы с несколькими вариантами ответов. На некоторые вопросы контекст не содержит ответа, и модель должна уметь осознавать пределы своих знаний и отвечать «Я не знаю». «IDK измеряет способность модели понимать, знает ли она то, чего не знает, на основе представленного контекста», — пишут исследователи.

Запросы со скрытой структурой

Задачи в «Микеланджело» основаны на новой структуре под названием «Запросы скрытой структуры» (LSQ). LSQ предоставляет общий подход к разработке оценок рассуждений с длинным контекстом, которые можно расширить до произвольной длины. Он также может проверить понимание модели неявной информации, а не извлечения простых фактов. LSQ полагается на синтез тестовых данных, чтобы избежать ошибок, связанных с утечкой тестовых данных в обучающий корпус.

«Требуя, чтобы модель извлекала информацию из структур, а не значений из ключей (скульптуры из мрамора, а не иголки из стогов сена), мы можем более глубоко проверить понимание контекста языковой модели за пределами извлечения», — пишут исследователи.

LSQ имеет три ключевых отличия от других подходов к оценке долгосрочных LLM. Во-первых, он был специально разработан, чтобы избежать ошибок в оценках, выходящих за рамки задач поиска. Во-вторых, он определяет методологию независимого увеличения сложности задачи и длины контекста. И, наконец, он достаточно общий, чтобы охватить широкий спектр задач на рассуждение. Три теста, использованные Микеланджело, охватывают интерпретацию кода и рассуждения над свободно написанным текстом.

«Цель состоит в том, чтобы долгосрочные, выходящие за рамки рассуждений оценки, реализуемые с помощью LSQ, приводили к меньшему количеству сценариев, в которых предлагаемая оценка сводится к решению задачи поиска», — сказал Водрахалли.

Оценка пограничных моделей Микеланджело

Исследователи оценили десять пограничных LLM Микеланджело, включая различные варианты Близнецов, GPT-4 и 4o, а также Клода. Они протестировали модели на контекстах до 1 миллиона токенов. Модели Gemini показали лучшие результаты по MRCR, модели GPT — по скрытому списку, а Claude 3.5 Sonnet получил самые высокие оценки по IDK.

Однако все модели продемонстрировали значительное снижение производительности по мере увеличения сложности задач рассуждения, что позволяет предположить, что даже при очень длинных контекстных окнах у нынешних LLM все еще есть возможности для улучшения своей способности рассуждать над большими объемами информации.

долгоконтекстное рассуждение
У студентов Frontier LLM возникают проблемы с рассуждениями в окнах с длинным контекстом (источник: arxiv)

«Пограничные модели могут улучшить все примитивы неизвлекаемых рассуждений (скрытый список, MRCR, IDK), которые мы исследуем в Микеланджело», — сказал Водрахалли. «Различные модели фронтира имеют разные сильные и слабые стороны — каждый класс хорошо работает в разных контекстных диапазонах и при выполнении разных задач. Что кажется универсальным для всех моделей, так это начальное падение производительности при выполнении длинных логических задач».

Оценки Микеланджело охватывают основные примитивы, необходимые для рассуждений в длинном контексте, и полученные результаты могут иметь важные последствия для корпоративных приложений. Например, в реальных приложениях, где модель не может полагаться на свои знания предварительного обучения и должна выполнять многошаговые рассуждения во многих разрозненных местоположениях в очень длинных контекстах, Водрахалли ожидает, что производительность будет падать по мере увеличения длины контекста.

«Это особенно верно, если в документах содержится много информации, не имеющей отношения к поставленной задаче, из-за чего модели сложно сразу определить, какая информация актуальна, а какая нет», — сказал Водрахалли. «Вполне вероятно также, что модели продолжат хорошо работать при выполнении задач, в которых вся необходимая информация для ответа на вопрос расположена в одном общем месте документа».

Исследователи продолжат добавлять новые оценки Микеланджело и надеются сделать их доступными напрямую, чтобы другие исследователи могли протестировать на них свои модели.

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.