Бывшие сотрудники DeepSeeker и их коллеги представили новый метод тренировки надежных ИИ-агентов: RAGEN

Обновления об ИИ-агентах

2025 год ожидался как год ИИ-агентов, однако многие из них все еще находятся на стадии экспериментов. По опросу VentureBeat, большинство ИИ-агентов пока не интегрированы в реальные корпоративные процессы. Но, возможно, ситуация изменится благодаря команде из Northwestern University, Microsoft, Stanford и University of Washington, которая разработала систему RAGEN для тренировки ИИ-агентов.

Что такое RAGEN?

RAGEN — это новая система, которая делает акцент на многократных взаимодействиях и адаптации. В отличие от статических задач, таких как решение математических уравнений, RAGEN нацелен на задачи, где агенты должны запоминать и рассуждать в условиях неопределенности.

Система использует фреймворк RL под названием StarPO, который работает в следующих этапах:

Этап выполнения, где LLM генерирует полные последовательности взаимодействий;
Этап оптимизации, где модель оптимизируется с помощью нормализованных кумулятивных вознаграждений.

Как это работает?

Авторы протестировали RAGEN с использованием моделей Qwen от Alibaba. Исследования показывают, что LLM-агенты изначально генерируют хорошо обоснованные ответы, но со временем система RL может наградить укороченные пути решения, что приводит к ухудшению качества — явление, которое они называют «Эхо-ловушкой».

Тестовые условия RAGEN

Для изучения поведения агентов RAGEN использует три символические среды:

Бандит: Одноразовая задача на риск и вознаграждение.
Сокобан: Многоходовая задача с необратимыми решениями.
Замороженное озеро: Многоходовая задача, требующая адаптивного планирования.

Устойчивость обучения с StarPO-S

Для предотвращения коллапса обучения команда представила StarPO-S, который включает:

Фильтрацию по неопределенности;
Удаление штрафа KL для большей свободы действий;
Ассиметричную обрезку PPO для повышения обучения.

Эти изменения улучшают производительность по всем трем задачам.

Качество обучения

Успех обучения RL зависит не только от архитектуры, но и от качества данных, создаваемых агентами:

Разнообразие задач;
Гранулярность взаимодействий;
Свежесть данных.

Доступные инструменты

RAGEN и фреймворки StarPO доступны как проект с открытым исходным кодом на GitHub. Однако на момент написания лицензия не указана, что может ограничить распределение.

Вопросы для практического применения

Несмотря на подробности в статье RAGEN, остается множество вопросов о ее использовании в реальных условиях. Например:

Насколько легко адаптировать подход RAGEN для бизнес-задач?
Как масштабируемы методы StarPO-S для долгосрочных задач?

Команда уверена, что RAGEN поможет создать более автономные ИИ-агенты, которые будут не только выполнять задачи, но и развиваться и обучаться на своих действиях.

Бывшие сотрудники DeepSeeker и их коллеги представили новый метод тренировки надежных ИИ-агентов: RAGEN

Обновления об ИИ-агентах

Что такое RAGEN?

Как это работает?

Тестовые условия RAGEN

Устойчивость обучения с StarPO-S

Качество обучения

Доступные инструменты

Вопросы для практического применения

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Чат-бот Александра теперь способен отвечать на вопросы о парковках и эвакуации автомобилей с использованием...

Адвокатов наказали за фиктивные прецеденты

Сингапур запустил суперкомпьютер с ИИ для стимуляции исследований в климате и здравоохранении.

Отчет: Медики быстрее осваивают...

Ростех — Новости Медиа

Сингапур запускает суперкомпьютер с...

Ии который генерирует картинки по тексту?

Что представляет собой восходящая парадигма ии?

Ия остергрен сколько лет?

AI в спортивной аналитике: кейсы использования для повышения эффективности команд

Как компании используют AI для улучшения кибербезопасности

AI в образовании: примеры автоматизации учебного процесса

Бывшие сотрудники DeepSeeker и их коллеги представили новый метод тренировки надежных ИИ-агентов: RAGEN

Обновления об ИИ-агентах

Что такое RAGEN?

Как это работает?

Тестовые условия RAGEN

Устойчивость обучения с StarPO-S

Качество обучения

Доступные инструменты

Вопросы для практического применения

ОСТАВЬТЕ ОТВЕТ Отменить ответ

ПОХОЖИЕ МАТЕРИАЛЫ