Обновления об ИИ-агентах
2025 год ожидался как год ИИ-агентов, однако многие из них все еще находятся на стадии экспериментов. По опросу VentureBeat, большинство ИИ-агентов пока не интегрированы в реальные корпоративные процессы. Но, возможно, ситуация изменится благодаря команде из Northwestern University, Microsoft, Stanford и University of Washington, которая разработала систему RAGEN для тренировки ИИ-агентов.
Что такое RAGEN?
RAGEN — это новая система, которая делает акцент на многократных взаимодействиях и адаптации. В отличие от статических задач, таких как решение математических уравнений, RAGEN нацелен на задачи, где агенты должны запоминать и рассуждать в условиях неопределенности.
Система использует фреймворк RL под названием StarPO, который работает в следующих этапах:
- Этап выполнения, где LLM генерирует полные последовательности взаимодействий;
- Этап оптимизации, где модель оптимизируется с помощью нормализованных кумулятивных вознаграждений.
Как это работает?
Авторы протестировали RAGEN с использованием моделей Qwen от Alibaba. Исследования показывают, что LLM-агенты изначально генерируют хорошо обоснованные ответы, но со временем система RL может наградить укороченные пути решения, что приводит к ухудшению качества — явление, которое они называют «Эхо-ловушкой».
Тестовые условия RAGEN
Для изучения поведения агентов RAGEN использует три символические среды:
- Бандит: Одноразовая задача на риск и вознаграждение.
- Сокобан: Многоходовая задача с необратимыми решениями.
- Замороженное озеро: Многоходовая задача, требующая адаптивного планирования.
Устойчивость обучения с StarPO-S
Для предотвращения коллапса обучения команда представила StarPO-S, который включает:
- Фильтрацию по неопределенности;
- Удаление штрафа KL для большей свободы действий;
- Ассиметричную обрезку PPO для повышения обучения.
Эти изменения улучшают производительность по всем трем задачам.
Качество обучения
Успех обучения RL зависит не только от архитектуры, но и от качества данных, создаваемых агентами:
- Разнообразие задач;
- Гранулярность взаимодействий;
- Свежесть данных.
Доступные инструменты
RAGEN и фреймворки StarPO доступны как проект с открытым исходным кодом на GitHub. Однако на момент написания лицензия не указана, что может ограничить распределение.
Вопросы для практического применения
Несмотря на подробности в статье RAGEN, остается множество вопросов о ее использовании в реальных условиях. Например:
- Насколько легко адаптировать подход RAGEN для бизнес-задач?
- Как масштабируемы методы StarPO-S для долгосрочных задач?
Команда уверена, что RAGEN поможет создать более автономные ИИ-агенты, которые будут не только выполнять задачи, но и развиваться и обучаться на своих действиях.