Новый набор данных Zyphra Zyda-2 позволяет предприятиям обучать небольших LLM с высокой точностью.

Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше


Zyphra Technologies, компания, работающая над мультимодальной агентной системой, объединяющей передовые исследования в области архитектуры моделей в пространстве состояний следующего поколения, долговременной памяти и обучения с подкреплением, только что выпустила Zyda-2, открытый набор данных для предварительного обучения, содержащий 5 триллионов токенов.

Хотя Зида-2 в пять раз больше своего предшественника и охватывает широкий круг тем, что действительно отличает его, так это уникальный состав. В отличие от многих открытых наборов данных, доступных на Hugging Face, Zyda-2 был усовершенствован, чтобы сохранить сильные стороны лучших существующих наборов данных, одновременно устраняя их недостатки.

Это дает организациям возможность обучать языковые модели, которые демонстрируют высокую точность даже при работе на периферийных и потребительских устройствах с заданным бюджетом параметров. Компания обучила свою небольшую языковую модель Zamba2 с использованием этого набора данных и обнаружила, что она работает значительно лучше, чем при использовании других современных наборов данных для языкового моделирования с открытым исходным кодом.

Этот шаг произошел всего через несколько месяцев после выпуска исходного набора данных Zyda, который охватывал широкий спектр тем и областей, чтобы обеспечить разнообразие и качество, необходимые для обучения конкурентоспособных языковых моделей.

Что принесет Зида-2?

Ранее в этом году, в рамках усилий по созданию очень мощных небольших моделей, которые могли бы дешево автоматизировать ряд задач, Zyphra вышла за рамки исследования архитектуры модели и начала создавать собственный набор данных для предварительного обучения, объединяя лучшие лицензированные открытые наборы данных, которые часто признаются высокоэффективными. -качество внутри сообщества.

Первый релиз этой работы, Zyda с 1,3 триллионами токенов, дебютировал в июне как отфильтрованная и дедуплицированная смесь существующих открытых наборов данных премиум-класса, в частности RefinedWeb, Starcoder C4, Pile, Slimpajama, pe2so и arxiv.

В то время Zyda работала лучше, чем наборы данных, на которых она была построена, предоставляя предприятиям широкие возможности для открытого обучения. Но 1,3 триллиона токенов никогда не будет достаточно. Компании необходимо было масштабировать и повысить производительность, что привело к созданию нового конвейера обработки данных и разработке Zyda-2.

По сути, Zyphra основывалась на Zyda-1, дополнительно улучшая ее с помощью токенов с открытым исходным кодом от DCLM, FineWeb-Edu и части Common-Crawl Dolma v1.7. Первоначальная версия Zyda была создана с использованием собственного конвейера обработки данных на базе ЦП компании, но в последней версии они использовали NeMo Curator от Nvidia, библиотеку управления данными с ускорением на графическом процессоре. Это помогло им сократить общую стоимость владения в 2 раза и обрабатывать данные в 10 раз быстрее — с трех недель до двух дней.

«Мы выполнили перекрестную дедупликацию между всеми наборами данных. Мы считаем, что это повышает качество каждого токена, поскольку удаляет дубликаты документов из набора данных. После этого мы выполнили фильтрацию качества на основе моделей для Zyda-1 и Dolma-CC, используя классификатор качества NeMo Curator, сохраняя только «высококачественную» подгруппу этих наборов данных», — написала Зпифра в своем блоге.

В результате работы был создан идеальный ансамбль наборов данных в форме Zyda-2, что привело к повышению производительности модели. Как отметила Nvidia в отдельном сообщении в блоге разработчиков, новый набор данных сочетает в себе лучшие элементы дополнительных наборов данных, используемых в процессе разработки, со множеством высококачественных образовательных образцов для логических рассуждений и фактических знаний. Между тем, компонент Zyda-1 обеспечивает больше разнообразия и разнообразия и превосходно справляется с лингвистическими и письменными задачами.

Дистиллированный набор данных приводит к повышению производительности модели

В исследовании абляции тренировка Zamba2-2.7B с Zyda-2 привела к наивысшему совокупному баллу оценки по ведущим критериям, включая MMLU, Hellaswag, Piqa, Winogrande, Arc-Easy и Arc-Challenge. Это показывает, что качество модели улучшается при обучении с использованием дистиллированного набора данных по сравнению с обучением с использованием отдельных открытых наборов данных.

Производительность Зыда-2
Производительность Зыда-2

«Хотя каждый набор данных компонентов имеет свои сильные и слабые стороны, объединенный набор данных Zyda-2 может заполнить эти пробелы. Общий бюджет обучения для получения заданного качества модели сокращается по сравнению с простым сочетанием этих наборов данных за счет использования дедупликации и агрессивной фильтрации», — добавили в блоге Nvidia.

В конечном итоге компания надеется, что эта работа проложит путь к более качественным небольшим моделям, помогая предприятиям максимизировать качество и эффективность с учетом конкретных ограничений памяти и задержки как для развертываний на устройствах, так и в облаке.

Команды уже могут начать работу с набором данных Zyda-2, загрузив его непосредственно с Hugging Face. Он поставляется с лицензией ODC-By, которая позволяет пользователям обучаться на Zyda-2 или использовать его в соответствии с лицензионными соглашениями и условиями использования исходных источников данных.

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.