Меньше контроля — лучшие результаты: Исследование показывает, что ИИ-модели более эффективно обобщают самостоятельно

Введение

Присоединяйтесь к нашим ежедневным и еженедельным новостным рассылкам для получения последних обновлений и эксклюзивного контента о ведущем ИИ. Узнайте больше!

Общие выводы из исследования

Новое исследование Гонконгского университета и Университета Калифорнии в Беркли показало, что языковые модели могут лучше обобщать информацию, когда их оставляют самим находить решения. Эти результаты ставят под сомнение основное мнение сообщества LLM о том, что моделям нужны вручную отмеченные примеры для обучения.

Слишком много искусственно созданных примеров может негативно влиять на способность модели к обобщению.
Искусственное обучение может ухудшить способности модели к работе с непрерывными данными.

SFT против RL в обучении моделей

Долгое время для обучения LLM и VLM использовалось контролируемое тонкое обучение (SFT). Вот основные этапы процесса:

Предварительное обучение модели на сырых текстовых и визуальных данных.
Дополнительное обучение на большом наборе данных вручную помеченных примеров.
Процесс обучения с подкреплением (RLHF) для улучшения предпочтений модели на основе человеческой обратной связи.

Хотя SFT полезен для контроля поведения модели, сбор данных для его реализации долгий и дорогой процесс.

Недавние разработки

Появляются новые интересы к подходам чистого обучения с подкреплением (RL), где модель обучается самостоятельно. Лучший пример — это DeepSeek-R1, который использует RL для решения сложных задач.

Проблемы обобщения и запоминания

Одной из ключевых проблем машинного обучения является переобучение, при котором модель хорошо работает на тренировочных данных, но не может обобщать на новые примеры:

Модель дает ложное впечатление о своей способности учиться.
На больших ИИ моделях сложно отделить обобщение от запоминания.

Эксперименты и результаты

Исследование сосредоточено на обобщении через RL и SFT в текстовых и визуальных задачах. Примеры задач:

GeneralPoints — оценка арифметических способностей модели.
V-IRL — проверка пространственного разумения в условиях открытого мира.

В експериментах использовалась модель Llama-3.2-Vision-11B, которая обучалась на небольшом наборе данных SFT, а затем проводились тесты на различных правилах и визуальных представлениях.

Ключевые результаты

RL consistently improves performance on unseen examples.
SFT memorizes training rules without generalization.

Практические последствия

Хотя результаты показывают, что RL лучше обобщает, SFT стабилизирует выходные данные модели и является важным для достижения успеха RL.

Это несколько отличается от результатов DeepSeek-R1-Zero, который был обучен только с помощью RL. Это может быть связано с разными фундаментальными моделями в исследованиях.

Заключение

Очевидно, что в подходах с сильным использованием RL есть много неиспользованного потенциала. Позволив моделям обучаться самостоятельно, можно достичь неожиданных результатов, что полезно в ситуациях, где создание вручную отмеченных примеров является трудоемким и затратным.

Меньше контроля — лучшие результаты: Исследование показывает, что ИИ-модели более эффективно обобщают самостоятельно

Введение

Общие выводы из исследования

SFT против RL в обучении моделей

Недавние разработки

Проблемы обобщения и запоминания

Эксперименты и результаты

Ключевые результаты

Практические последствия

Заключение

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Южная Корея: одна из стран с самым быстрым внедрением искусственного интеллекта.

Образование в Таиланде в эру искусственного интеллекта

Педагог по ИИ в Приморье: вакансия с зарплатой 242 тысячи рублей

Эксперты ВТБ делятся советами...

Anthropic превзошла OpenAI и...

Что происходит на рынке...

Ии который генерирует картинки по тексту?

Что представляет собой восходящая парадигма ии?

Ия остергрен сколько лет?

AI в спортивной аналитике: кейсы использования для повышения эффективности команд

Как компании используют AI для улучшения кибербезопасности

AI в образовании: примеры автоматизации учебного процесса

Меньше контроля — лучшие результаты: Исследование показывает, что ИИ-модели более эффективно обобщают самостоятельно

Введение

Общие выводы из исследования

SFT против RL в обучении моделей

Недавние разработки

Проблемы обобщения и запоминания

Эксперименты и результаты

Ключевые результаты

Практические последствия

Заключение

ОСТАВЬТЕ ОТВЕТ Отменить ответ

ПОХОЖИЕ МАТЕРИАЛЫ