Введение
Присоединяйтесь к нашим ежедневным и еженедельным новостным рассылкам для получения последних обновлений и эксклюзивного контента о ведущем ИИ. Узнайте больше!
Общие выводы из исследования
Новое исследование Гонконгского университета и Университета Калифорнии в Беркли показало, что языковые модели могут лучше обобщать информацию, когда их оставляют самим находить решения. Эти результаты ставят под сомнение основное мнение сообщества LLM о том, что моделям нужны вручную отмеченные примеры для обучения.
- Слишком много искусственно созданных примеров может негативно влиять на способность модели к обобщению.
- Искусственное обучение может ухудшить способности модели к работе с непрерывными данными.
SFT против RL в обучении моделей
Долгое время для обучения LLM и VLM использовалось контролируемое тонкое обучение (SFT). Вот основные этапы процесса:
- Предварительное обучение модели на сырых текстовых и визуальных данных.
- Дополнительное обучение на большом наборе данных вручную помеченных примеров.
- Процесс обучения с подкреплением (RLHF) для улучшения предпочтений модели на основе человеческой обратной связи.
Хотя SFT полезен для контроля поведения модели, сбор данных для его реализации долгий и дорогой процесс.
Недавние разработки
Появляются новые интересы к подходам чистого обучения с подкреплением (RL), где модель обучается самостоятельно. Лучший пример — это DeepSeek-R1, который использует RL для решения сложных задач.
Проблемы обобщения и запоминания
Одной из ключевых проблем машинного обучения является переобучение, при котором модель хорошо работает на тренировочных данных, но не может обобщать на новые примеры:
- Модель дает ложное впечатление о своей способности учиться.
- На больших ИИ моделях сложно отделить обобщение от запоминания.
Эксперименты и результаты
Исследование сосредоточено на обобщении через RL и SFT в текстовых и визуальных задачах. Примеры задач:
- GeneralPoints — оценка арифметических способностей модели.
- V-IRL — проверка пространственного разумения в условиях открытого мира.
В експериментах использовалась модель Llama-3.2-Vision-11B, которая обучалась на небольшом наборе данных SFT, а затем проводились тесты на различных правилах и визуальных представлениях.
Ключевые результаты
- RL consistently improves performance on unseen examples.
- SFT memorizes training rules without generalization.
Практические последствия
Хотя результаты показывают, что RL лучше обобщает, SFT стабилизирует выходные данные модели и является важным для достижения успеха RL.
Это несколько отличается от результатов DeepSeek-R1-Zero, который был обучен только с помощью RL. Это может быть связано с разными фундаментальными моделями в исследованиях.
Заключение
Очевидно, что в подходах с сильным использованием RL есть много неиспользованного потенциала. Позволив моделям обучаться самостоятельно, можно достичь неожиданных результатов, что полезно в ситуациях, где создание вручную отмеченных примеров является трудоемким и затратным.