Меньше контроля — лучшие результаты: Исследование показывает, что ИИ-модели более эффективно обобщают самостоятельно

Введение

Присоединяйтесь к нашим ежедневным и еженедельным новостным рассылкам для получения последних обновлений и эксклюзивного контента о ведущем ИИ. Узнайте больше!

Общие выводы из исследования

Новое исследование Гонконгского университета и Университета Калифорнии в Беркли показало, что языковые модели могут лучше обобщать информацию, когда их оставляют самим находить решения. Эти результаты ставят под сомнение основное мнение сообщества LLM о том, что моделям нужны вручную отмеченные примеры для обучения.

  • Слишком много искусственно созданных примеров может негативно влиять на способность модели к обобщению.
  • Искусственное обучение может ухудшить способности модели к работе с непрерывными данными.

SFT против RL в обучении моделей

Долгое время для обучения LLM и VLM использовалось контролируемое тонкое обучение (SFT). Вот основные этапы процесса:

  1. Предварительное обучение модели на сырых текстовых и визуальных данных.
  2. Дополнительное обучение на большом наборе данных вручную помеченных примеров.
  3. Процесс обучения с подкреплением (RLHF) для улучшения предпочтений модели на основе человеческой обратной связи.

Хотя SFT полезен для контроля поведения модели, сбор данных для его реализации долгий и дорогой процесс.

Недавние разработки

Появляются новые интересы к подходам чистого обучения с подкреплением (RL), где модель обучается самостоятельно. Лучший пример — это DeepSeek-R1, который использует RL для решения сложных задач.

Проблемы обобщения и запоминания

Одной из ключевых проблем машинного обучения является переобучение, при котором модель хорошо работает на тренировочных данных, но не может обобщать на новые примеры:

  • Модель дает ложное впечатление о своей способности учиться.
  • На больших ИИ моделях сложно отделить обобщение от запоминания.

Эксперименты и результаты

Исследование сосредоточено на обобщении через RL и SFT в текстовых и визуальных задачах. Примеры задач:

  • GeneralPoints — оценка арифметических способностей модели.
  • V-IRL — проверка пространственного разумения в условиях открытого мира.

В експериментах использовалась модель Llama-3.2-Vision-11B, которая обучалась на небольшом наборе данных SFT, а затем проводились тесты на различных правилах и визуальных представлениях.

Ключевые результаты

  • RL consistently improves performance on unseen examples.
  • SFT memorizes training rules without generalization.

Практические последствия

Хотя результаты показывают, что RL лучше обобщает, SFT стабилизирует выходные данные модели и является важным для достижения успеха RL.

Это несколько отличается от результатов DeepSeek-R1-Zero, который был обучен только с помощью RL. Это может быть связано с разными фундаментальными моделями в исследованиях.

Заключение

Очевидно, что в подходах с сильным использованием RL есть много неиспользованного потенциала. Позволив моделям обучаться самостоятельно, можно достичь неожиданных результатов, что полезно в ситуациях, где создание вручную отмеченных примеров является трудоемким и затратным.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.