Бывшие сотрудники DeepSeeker и их коллеги представили новый метод тренировки надежных ИИ-агентов: RAGEN

Обновления об ИИ-агентах

2025 год ожидался как год ИИ-агентов, однако многие из них все еще находятся на стадии экспериментов. По опросу VentureBeat, большинство ИИ-агентов пока не интегрированы в реальные корпоративные процессы. Но, возможно, ситуация изменится благодаря команде из Northwestern University, Microsoft, Stanford и University of Washington, которая разработала систему RAGEN для тренировки ИИ-агентов.

Что такое RAGEN?

RAGEN — это новая система, которая делает акцент на многократных взаимодействиях и адаптации. В отличие от статических задач, таких как решение математических уравнений, RAGEN нацелен на задачи, где агенты должны запоминать и рассуждать в условиях неопределенности.

Система использует фреймворк RL под названием StarPO, который работает в следующих этапах:

  • Этап выполнения, где LLM генерирует полные последовательности взаимодействий;
  • Этап оптимизации, где модель оптимизируется с помощью нормализованных кумулятивных вознаграждений.

Как это работает?

Авторы протестировали RAGEN с использованием моделей Qwen от Alibaba. Исследования показывают, что LLM-агенты изначально генерируют хорошо обоснованные ответы, но со временем система RL может наградить укороченные пути решения, что приводит к ухудшению качества — явление, которое они называют «Эхо-ловушкой».

Тестовые условия RAGEN

Для изучения поведения агентов RAGEN использует три символические среды:

  • Бандит: Одноразовая задача на риск и вознаграждение.
  • Сокобан: Многоходовая задача с необратимыми решениями.
  • Замороженное озеро: Многоходовая задача, требующая адаптивного планирования.

Устойчивость обучения с StarPO-S

Для предотвращения коллапса обучения команда представила StarPO-S, который включает:

  • Фильтрацию по неопределенности;
  • Удаление штрафа KL для большей свободы действий;
  • Ассиметричную обрезку PPO для повышения обучения.

Эти изменения улучшают производительность по всем трем задачам.

Качество обучения

Успех обучения RL зависит не только от архитектуры, но и от качества данных, создаваемых агентами:

  • Разнообразие задач;
  • Гранулярность взаимодействий;
  • Свежесть данных.

Доступные инструменты

RAGEN и фреймворки StarPO доступны как проект с открытым исходным кодом на GitHub. Однако на момент написания лицензия не указана, что может ограничить распределение.

Вопросы для практического применения

Несмотря на подробности в статье RAGEN, остается множество вопросов о ее использовании в реальных условиях. Например:

  • Насколько легко адаптировать подход RAGEN для бизнес-задач?
  • Как масштабируемы методы StarPO-S для долгосрочных задач?

Команда уверена, что RAGEN поможет создать более автономные ИИ-агенты, которые будут не только выполнять задачи, но и развиваться и обучаться на своих действиях.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.