Как AI-платформа способствует проведению исследований учеными / Хабр

Университет Джонса Хопкинса в сотрудничестве с компанией AMD разработали Agent Laboratory — инновационную платформу, которая соединяет человеческое творчество с рабочими процессами на основе AI.

В отличие от других AI-инструментов, которые самостоятельно генерируют исследовательские идеи, Agent Laboratory предоставляет учёным возможность проводить исследования с большей эффективностью.

«Мы надеемся, что Agent Laboratory позволит исследователям сосредоточиться на оригинальных идеях, а не на рутинных задачах программирования и составления текстов, что, в итоге, ускорит процесс научных открытий», — подчёркивают разработчики.

Agent Laboratory предоставляет полностью автоматизированный процесс исследования - от поиска литературы до подготовки отчёта. Несколько AI-агентов работают совместно в виртуальной лаборатории для выполнения и документирования научных исследований

Agent Laboratory предоставляет полностью автоматизированный процесс исследования — от поиска литературы до подготовки отчёта. Несколько AI-агентов работают совместно в виртуальной лаборатории для выполнения и документирования научных исследований.

Работа виртуальной лаборатории основана на общепринятых академических принципах. Основным элементом её функционирования является анализ научных публикаций, которые собираются и упорядочиваются с помощью API arXiv. Затем аспиранты и докторанты создают команду для тщательного планирования исследования, основываясь на изученной литературе. Во время обсуждений они определяют необходимые действия для проверки идей. Далее агент, специализирующийся на машинном обучении, выполняет технические задачи, используя инструмент mle-solver для разработки и настройки кода.

Специализированные инструменты, такие как mle-solver и paper-solver, автоматизируют сложные исследовательские задачи - от поиска литературы до подготовки отчётов.

Специализированные инструменты, такие как mle-solver и paper-solver, автоматизируют сложные исследовательские задачи — от поиска литературы до подготовки отчётов.

Процесс включает три этапа: изучение литературы, проведение экспериментов и подготовка отчётов, с использованием AI-агентов и распределением ролей.

По завершении экспериментов аспиранты и профессора формируют отчёт. С помощью Paper-solver они создают и редактируют научный отчёт для повышения его доступности и понятности.

Исследователи опубликовали пример дипломной работы и предоставили подробности о всех конкретных подсказках, использованных в процессе, в приложении к своей статье.

Рецензенты предпочитают o1-предварительный просмотр. При оценке статей, созданных Agent Laboratory, рецензенты заметили, что различные модели AI дают разные результаты. Модель o1-preview от OpenAI продемонстрировала лучшие результаты с точки зрения ясности и корректности, в то время как o1-mini получила высокие оценки за качество эксперимента.

Человеческие и AI-рецензенты делали разные оценки, причём AI объективно оценивал на 2,3 балла выше, чем люди, особенно в аспектах ясности и представления.

Автоматизированные рецензенты оценили сгенерированные статьи в среднем на 2,3 балла выше, чем рецензенты-люди.

Автоматизированные рецензенты оценили сгенерированные статьи в среднем на 2,3 балла выше, чем рецензенты-люди.

Две таблицы демонстрируют критерии оценки NeurIPS для сравнения автоматизированных и человеческих оценок качества научных работ.

Система также даёт возможность исследователям взаимодействовать с AI как соавторами. Такой подход часто приводит к более высоким оценкам, но иногда это происходит за счёт качества эксперимента.

Исследователи выяснили, что Agent Laboratory может создавать статьи по низкой цене — всего 2,33 доллара за статью с использованием GPT-4o. Среди протестированных моделей GPT-4o продемонстрировала лучший баланс между производительностью и стоимостью, в то время как o1-preview обеспечивала схожую эффективность, но требовала больше времени и была дороже.

GPT-4o обеспечивает наивысшую общую производительность при меньших затратах, в то время как o1-preview обеспечивает аналогичный уровень успеха при значительно более высоких затратах.

GPT-4o обеспечивает наивысшую общую производительность при меньших затратах, в то время как o1-preview обеспечивает аналогичный уровень успеха при значительно более высоких затратах.

Три таблицы сопоставляют затраты, время и процент успешных внедрений AI-моделей в Agent Laboratory на различных стадиях.

Команда осознаёт ряд ограничений: тенденция AI переоценивать свои результаты, ограничения автоматизированных исследований и риск получения неверной информации.

Хотя развитие мощных языковых моделей, похоже, замедляется, исследователи и компании переключают внимание на создание агентских фреймворков, объединяющих несколько языковых моделей и инструментов, отражающих структуру человеческих организаций, будь то проведение фокус-групп или перевод длинных документов.

Источник

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.