Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням, чтобы получать самые свежие новости и эксклюзивные материалы о ведущих в отрасли исследованиях в области искусственного интеллекта. Узнать больше
5 сентября 2024 года Мэтт Шумер, соучредитель и генеральный директор стартапа Hyperwrite AI (также известного как OthersideAI), опубликовал в социальной сети X сенсационную новость о том, что он доработал версию открытой модели языка Meta Llama 3.1-70B в еще более производительную модель большого языка (LLM), известную как Reflection 70B — настолько производительную, что, согласно опубликованным им результатам бенчмаркинга от третьих лиц, она стала «лучшей в мире моделью с открытым исходным кодом», согласно его сообщению.
Однако вскоре после его выхода сторонние эксперты в сообществе исследователей ИИ и хостинга с трудом воспроизвели заявленные результаты, что привело к обвинениям в мошенничестве.
Исследователи указывали на расхождения между заявленными результатами бенчмарка и их независимыми тестами, что вызвало волну критики на таких социальных платформах, как Reddit и X.
В ответ на эти опасения Шумер пообещал, что проведет анализ проблем вместе с Сахилом Чаудхари, основателем Glaive, ИИ-стартапа, на синтетических данных которого, по словам Шумера, он обучал Reflection 70B, и в который, как выяснилось позже, он вложил, по его словам, небольшую сумму.
Теперь, спустя почти месяц, вчера вечером Чодари опубликовал в своем блоге Glaive AI отчет о модели Reflection 70B и предоставил ресурсы для сообщества ИИ с открытым исходным кодом, чтобы они могли самостоятельно протестировать модель и процесс обучения. По его словам, хотя ему не удалось воспроизвести все те же самые эталоны, он «обнаружил ошибку в исходном коде», в результате чего некоторые результаты оказались выше, чем те, которые он обнаружил в ходе недавних тестов Reflection 70B. Однако результаты других бенчмарков оказались выше, чем раньше, что добавляет загадок.
Как пишет Чаудхари в своем посте:
«Мы допустили много ошибок в том, как запустили модель и справились с проблемами, о которых сообщало сообщество. Я понимаю, что подобные вещи оказывают значительное негативное влияние на экосистему открытого кода, и хотел бы извиниться за это. Я надеюсь, что это внесет некоторую ясность в произошедшее и станет шагом в направлении восстановления утраченного доверия. Я выпустил все активы, необходимые для независимой проверки бенчмарков и использования этой модели.«
Совместное использование артефактов модели
Чтобы восстановить прозрачность и доверие, Чодхари поделился несколькими ресурсами, которые помогут сообществу воспроизвести эталоны Reflection 70B. К ним относятся:
- Весовые коэффициенты модели: Доступно на Hugging Face, предоставляя предварительно обученную версию Reflection 70B.
- Обучающие данные: Выложены в открытый доступ, что позволяет проводить независимые тесты на наборе данных, используемом для точной настройки модели.
- Обучающие скрипты и оценочный код: Доступные на GitHub, эти скрипты позволяют воспроизвести процесс обучения и оценки модели.
Эти ресурсы призваны прояснить, как была разработана модель, и предложить сообществу путь к подтверждению первоначальных заявлений о производительности.
Воспроизведение эталонов
В своем отчете Чаудхари объяснил, что основная проблема с воспроизведением первоначальных результатов бенчмарков возникла из-за ошибки в коде оценки. Эта ошибка приводила к завышению баллов в некоторых задачах, таких как MATH и GSM8K, из-за ошибки в том, как система обрабатывала ответы от внешнего API. Исправленные бенчмарки показывают немного более низкую, но все еще высокую производительность по сравнению с первоначальным отчетом.
Обновленные результаты бенчмарков для Reflection 70B выглядят следующим образом:
- MMLU: 90.94%
- GPQA: 55.6%
- HumanEval: 89.02%
- МАТХ: 70.8%
- GSM8K: 95.22%
- IFEVAL: 87.63%
Сравните это с первоначально заявленными показателями:
- MMLU: 89.9%
- GPQA: 55.3%
- HumanEval: 91%
- МАТХ: 79.7%
- GSM8K: 99.2%
- IFEVAL: 90.13%
Хотя пересмотренные оценки не столь высоки, как первоначально заявленные, Чодхари утверждает, что они более точно отражают возможности модели.
Он также устранил опасения по поводу загрязнения наборов данных, подтвердив, что тесты не выявили значительного пересечения между обучающими данными и эталонными наборами.
Размышления о поспешном выпуске
Чодхари признался, что решение о выпуске Reflection 70B было принято поспешно, под влиянием энтузиазма по поводу производительности модели в задачах, основанных на рассуждениях.
Он отметил, что при запуске не было проведено достаточного тестирования, особенно в отношении совместимости файлов модели, и что он и Шумер не проверили, может ли модель быть легко загружена и запущена сообществом.
«Мы не должны были запускать модель без тестирования и с громкими заявлениями о том, что у нас лучшая модель с открытым исходным кодом», — написал Чодхари. Он также признал, что необходима большая прозрачность, особенно в отношении сильных и слабых сторон модели. В то время как Reflection 70B отлично справляется с задачами на рассуждение, она испытывает трудности в таких областях, как творчество и общее взаимодействие с пользователем, и этот факт не был озвучен при запуске.
Прояснение путаницы с API
Одно из самых серьезных обвинений касалось подозрений в том, что API Reflection 70B просто передавал данные из модели Claude компании Anthropic.
Пользователи сообщали о странном поведении выходных данных модели, включая ответы, которые, казалось, напрямую ссылались на Claude.
Чаудхари ответил на эти опасения, объяснив, что, хотя некоторые из этих поведений можно воспроизвести, он утверждает, что в модели Reflection 70B не использовались API Claude или какая-либо форма фильтрации слов.
Он повторил, что API был запущен на вычислительной инфраструктуре Glaive AI, и Мэтт Шумер не имел доступа к коду или серверам, использовавшимся в этот период.
Взгляд в будущее
В заключение Чаудхари подчеркнул свою приверженность прозрачности и выразил надежду, что это вскрытие и публикация артефактов модели помогут восстановить доверие к проекту. Он также подтвердил, что Мэтт Шумер продолжает независимые усилия по воспроизведению эталонных результатов.
Несмотря на неудачи, Чаудхари считает, что подход «рефлексивной настройки», при котором модели дается время проверить свои ответы на точность, прежде чем выдать их пользователю, имеет потенциал, и призывает сообщество ИИ к дальнейшим экспериментам. «Исследованный подход имеет свои достоинства, и я с нетерпением жду, когда другие продолжат изучать эту технику», — сказал он.
Шумер, в свою очередь, написал на сайте X, заявив: «Я все еще нахожусь в процессе проверки Reflection, как написал Сахил в своем постмортеме, но я воодушевлен прозрачностью Сахила в отношении бенчмарков, о которых он сообщил, и API, который он запустил. Мы по-прежнему верим в этот подход и работаем над ним. Надеюсь, что скоро закончу свой репродукт».
Скептицизм среди сообщества разработчиков ИИ с открытым исходным кодом сохраняется
Несмотря на заявления Чаудхари о прозрачности и невинном объяснении того, что произошло с Reflection 70B, многие представители сообщества ИИ, которые изначально были в восторге от этой модели и ее заявленной производительности, по-прежнему настроены скептически, чувствуя, что их обожгли ошибочными заявлениями и потенциально обманули раньше.
«По-прежнему кажется, что здесь ничего не сходится», — написал Александр Мойни, исследователь ИИ, на сайте X, добавив: «Потребовался месяц, чтобы получить веса модели на HF. [Hugging Face]?»
Ючен Цзинь, соучредитель и технический директор Hyperbolic Labs, стартапа, предлагающего облачные GPU и другие услуги искусственного интеллекта по запросу, который сначала упорно и допоздна работал над размещением Reflection 70B, прежде чем раскритиковать Шумера за несоответствия, также скептически отнесся к посмертному отчету Чаудхари на сайте X, отметив, что заявления Чаудхари на сайте X о том, что он «воспроизвел все, кроме двух, первоначально заявленные оценки», на самом деле не соответствуют предоставленным им данным, которые показывают, что по крайней мере 4 бенчмарка изменили оценки по сравнению с предыдущими и нынешними.
Но, пожалуй, самый уничтожающий комментарий пришел с сабреддита Reddit r/Local LLaMA, где один из пользователей, «FuckSides», отметил, что Чодхари мог бы использовать прошедший месяц для доработки новой модели, чтобы подтвердить свои заявления о том, что она произвольно выводит текст, указывающий на то, что под капотом находится Anthropic’s Claude 3.5 — это объяснило бы те выходы, с которыми пользователи сталкивались ранее, и привело их к выводу, что Reflection 70B была мошеннической оберткой вокруг другой проприетарной модели, обслуживаемой через API.
Тем временем другой участник Redditor, «DangerousBenefit», изучил обучающие данные, опубликованные сегодня Чаудхари, и обнаружил, что они наполнены многочисленными случаями фразы «как языковая модель ИИ», что указывает на то, что они могли быть сгенерированы в основном из ChatGPT от OpenAI и, вероятно, не были должным образом очищены.
Независимо от этого, чем больше данных о модели опубликуют создатели Reflection 70B, тем больше доказательств будет у сообщества ИИ с открытым исходным кодом для изучения и проверки их работы.