DeepCoder демонстрирует выдающуюся производительность в кодировании с эффективной открытой моделью на 14 миллиардов параметров

Обновления в мире AI: DeepCoder-14B

Присоединяйтесь к нашим ежедневным и еженедельным информационным рассылкам, чтобы получать последние обновления и эксклюзивный контент по передовым технологиям AI.

Что такое DeepCoder-14B?

Исследователи из Together AI и Agentica выпустили новую модель кодирования DeepCoder-14B, которая демонстрирует впечатляющую производительность, сравнимую с ведущими проприетарными моделями, такими как o3-mini от OpenAI.

Эта модель построена на основе DeepSeek-R1 и предлагает больше гибкости для интеграции высокопроизводительного кодирования и анализа в реальные приложения. Особенно важно, что команды полностью открыли модель, ее обучающие данные, код и оптимизации системы, что может помочь исследователям улучшить свои работы и ускорить прогресс.

Сравнение с конкурентами

Эксперименты исследовательской группы показали, что DeepCoder-14B показывает высокие результаты по нескольким сложным бенчмаркам кодирования, включая:

  • LiveCodeBench (LCB)
  • Codeforces
  • HumanEval+

Исследователи отмечают, что «наша модель демонстрирует стабильную производительность по всем бенчмаркам кодирования, сравнимую с производительностью o3-mini и o1».

Улучшенные математические способности

Хотя модель в основном обучалась на задачах кодирования, она также показала улучшенные способности в математическом рассуждении, получив 73.8% на бенчмарке AIME 2024, что на 4.1% лучше, чем у базовой модели.

Это говорит о том, что навыки рассуждения, развиваемые в процессе RL (обучение с подкреплением), могут быть эффективно обобщены на другие области.

Инновации, способствующие производительности DeepCoder

При разработке модели исследователи решили ряд ключевых задач, связанных с обучением кодирующих моделей с использованием RL.

Курирование обучающих данных

Одной из главных проблем было создание обучающих данных. RL требует надежных сигналов награды, указывающих на правильность вывода модели. Как подчеркивают исследователи, «в отличие от математики, где в интернете есть много высококачественных данных, кодирование страдает от их нехватки».

Для решения этой проблемы команда DeepCoder собрала 24,000 высококачественных задач, что дало прочную основу для эффективного RL обучения.

Система наград

Команда разработала простую функцию награды, которая предоставляет положительный сигнал только в случае успешного прохождения всех юнит-тестов для задачи в определенный срок. Это позволяет избежать случаев, когда модель запоминает ответы или оптимизирует простые крайние случаи, не решая саму задачу.

Алгоритм обучения

Основной алгоритм тренировки основан на Group Relative Policy Optimization (GRPO), который уже был успешен в DeepSeek-R1. Однако команда внесла изменения для повышения стабильности и долгосрочного улучшения модели.

Обучение с длинными последовательностями контекста

Исследователи постепенно увеличили контекст до 32K токенов, что позволило модели решать задачи, требующие до 64K токенов.

Оптимизация обучения RL

Обучение больших моделей с RL, особенно на задачах, требующих длинных последовательностей, требует много вычислительных ресурсов и времени. Команда разработала verl-pipeline, оптимизированное расширение библиотеки verl.

Влияние на бизнес

Исследователи сделали все артефакты для тренировки и работы DeepCoder-14B доступными на GitHub и Hugging Face. Это предоставляет возможность сообществу воспроизводить работы и делать обучение RL доступным для всех.

Таким образом, DeepCoder-14B иллюстрирует растущую тенденцию в AI: возникновение мощных, эффективных и открытых моделей. Это открывает новые возможности для организаций всех размеров использовать сложное кодирование и анализ, настраивать решения под свои нужды и безопасно разворачивать их в своих средах.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.