Самый способный Модель искусственного интеллекта с открытым исходным кодом и визуальными способностями, но может увидеть, как больше разработчиков, исследователей и стартапов разрабатывают агенты искусственного интеллекта, которые смогут выполнять за вас полезную работу на ваших компьютерах.
Выпущенная сегодня Институтом искусственного интеллекта Аллена (Ai2) мультимодальная модель открытого языка, или Molmo, может интерпретировать изображения, а также общаться через интерфейс чата. Это означает, что он может иметь смысл экрана компьютера, потенциально помогая агенту ИИ выполнять такие задачи, как просмотр веб-страниц, навигация по каталогам файлов и составление документов.
«Благодаря этому выпуску гораздо больше людей смогут развернуть мультимодальную модель», — говорит Али Фархади, генеральный директор Ai2, исследовательской организации, базирующейся в Сиэтле, штат Вашингтон, и ученый-компьютерщик из Вашингтонского университета. «Это должно стать основой для приложений следующего поколения».
Так называемые агенты ИИ широко рекламируются как следующее большое достижение в области ИИ, и OpenAI, Google и другие стремятся их разработать. В последнее время агенты стали модным словом, но главная цель заключается в том, чтобы ИИ вышел далеко за рамки общения в чате и мог надежно выполнять сложные и изощренные действия на компьютерах по команде. Эта возможность еще не реализована в каком-либо масштабе.
Некоторые мощные модели ИИ уже обладают визуальными способностями, в том числе GPT-4 от OpenAI, Claude от Anthropic и Gemini от Google DeepMind. Эти модели можно использовать для поддержки некоторых экспериментальных агентов ИИ, но они скрыты от глаз и доступны только через платный интерфейс прикладного программирования или API.
Meta выпустила семейство моделей искусственного интеллекта под названием Llama по лицензии, ограничивающей их коммерческое использование, но еще не предоставила разработчикам мультимодальную версию. Ожидается, что Meta анонсирует несколько новых продуктов, возможно, включая новые модели Llama AI, на сегодняшнем мероприятии Connect.
«Наличие мультимодальной модели с открытым исходным кодом означает, что любой стартап или исследователь, у которого есть идея, может попытаться реализовать ее», — говорит Офир Пресс, постдок Принстонского университета, работающий над агентами ИИ.
Пресс утверждает, что тот факт, что Molmo имеет открытый исходный код, означает, что разработчикам будет легче настраивать свои агенты для конкретных задач, таких как работа с электронными таблицами, предоставляя дополнительные обучающие данные. Такие модели, как GPT-4, можно лишь в ограниченной степени настроить с помощью API, тогда как полностью открытую модель можно широко модифицировать. «Когда у вас есть такая модель с открытым исходным кодом, у вас появляется гораздо больше возможностей», — говорит Пресс.
Сегодня Ai2 выпускает Molmo нескольких размеров, в том числе модель с 70 миллиардами параметров и модель с 1 миллиардом параметров, которая достаточно мала для работы на мобильном устройстве. Количество параметров модели относится к количеству содержащихся в ней модулей для хранения и управления данными и примерно соответствует ее возможностям.
В Ai2 утверждают, что Molmo по своим возможностям не уступает значительно более крупным коммерческим моделям, несмотря на его относительно небольшой размер, поскольку он был тщательно обучен на высококачественных данных. Новая модель также имеет полностью открытый исходный код, поскольку, в отличие от Llama от Meta, нет никаких ограничений на ее использование. Ai2 также публикует обучающие данные, использованные для создания модели, предоставляя исследователям более подробную информацию о ее работе.
Выпуск мощных моделей сопряжен с риском. Такие модели легче адаптировать для гнусных целей; Например, когда-нибудь мы можем стать свидетелями появления вредоносных агентов искусственного интеллекта, предназначенных для автоматизации взлома компьютерных систем.
Фархади из Ai2 утверждает, что эффективность и портативность Molmo позволят разработчикам создавать более мощные программные агенты, которые изначально работают на смартфонах и других портативных устройствах. «Модель с миллиардом параметров сейчас работает на уровне или в лиге моделей, которые как минимум в 10 раз больше», — говорит он.
Однако создание полезных агентов ИИ может зависеть не только от более эффективных мультимодальных моделей. Ключевой задачей является повышение надежности работы моделей. Это вполне может потребовать дальнейших прорывов в способностях ИИ к рассуждению — то, что OpenAI стремится решить с помощью своей последней модели o1, которая демонстрирует пошаговые навыки рассуждения. Следующим шагом вполне может стать наделение мультимодальных моделей такими способностями к рассуждению.
На данный момент выпуск Молмо означает, что агенты ИИ стали ближе, чем когда-либо, и вскоре могут быть полезны даже за пределами гигантов, которые правят миром ИИ.