Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше
Как раз к Хэллоуину 2024 года Meta представила Meta Spirit LM, первую мультимодальную языковую модель с открытым исходным кодом, способную плавно интегрировать текстовые и речевые входы и выходы.
Таким образом, он напрямую конкурирует с GPT-4o от OpenAI (также изначально мультимодальным) и другими мультимодальными моделями, такими как EVI 2 от Hume, а также со специализированными предложениями преобразования текста в речь и речи в текст, такими как ElevenLabs.
Разработанный командой Meta по фундаментальным исследованиям искусственного интеллекта (FAIR), Spirit LM направлен на устранение ограничений существующего голосового опыта искусственного интеллекта, предлагая более выразительную и естественно звучащую речь, а также изучая задачи в таких модальностях, как автоматическое распознавание речи (ASR), текстовое в речь (TTS) и классификация речи.
К сожалению для предпринимателей и бизнес-лидеров, модель в настоящее время доступна только для некоммерческого использования в соответствии с лицензией FAIR для некоммерческих исследований Meta, которая предоставляет пользователям право использовать, воспроизводить, изменять и создавать производные работы моделей Meta Spirit LM, но только для некоммерческих целей. Любое распространение этих моделей или производных также должно соответствовать некоммерческому ограничению.
Новый подход к тексту и речи
Традиционные модели искусственного интеллекта для голоса полагаются на автоматическое распознавание речи для обработки устного ввода перед его синтезом с языковой моделью, которая затем преобразуется в речь с использованием методов преобразования текста в речь.
Несмотря на свою эффективность, этот процесс часто приносит в жертву выразительные качества, присущие человеческой речи, такие как тон и эмоции. Meta Spirit LM представляет более продвинутое решение, включающее токены фонетики, высоты тона и тона для преодоления этих ограничений.
Meta выпустила две версии Spirit LM:
• База Spirit LM: использует фонетические лексемы для обработки и генерации речи.
• Дух LM Экспрессивный: включает дополнительные маркеры высоты и тона, позволяющие модели улавливать более тонкие эмоциональные состояния, такие как волнение или печаль, и отражать их в сгенерированной речи.
Обе модели обучены на сочетании текстовых и речевых наборов данных, что позволяет Spirit LM выполнять кросс-модальные задачи, такие как преобразование речи в текст и преобразование текста в речь, сохраняя при этом естественную выразительность речи на выходе.
Некоммерческая программа с открытым исходным кодом — доступна только для исследования.
В соответствии с приверженностью Meta к открытой науке, компания сделала Spirit LM полностью открытым исходным кодом, предоставив исследователям и разработчикам веса моделей, код и сопроводительную документацию для дальнейшего развития.
Мета надеется, что открытая природа Spirit LM побудит исследовательское сообщество ИИ исследовать новые методы интеграции речи и текста в системах ИИ.
Релиз также включает в себя исследовательский документ, подробно описывающий архитектуру и возможности модели.
Марк Цукерберг, генеральный директор Meta, активно поддерживает ИИ с открытым исходным кодом, заявив в недавнем открытом письме, что ИИ обладает потенциалом «повысить производительность, креативность и качество жизни человека», одновременно ускоряя прогресс в таких областях, как медицинские исследования и научное открытие.
Приложения и будущий потенциал
Meta Spirit LM предназначен для изучения новых задач в различных модальностях, таких как:
• Автоматическое распознавание речи (ASR): Преобразование устной речи в письменный текст.
• Преобразование текста в речь (TTS): Создание разговорной речи из письменного текста.
• Классификация речи: Идентификация и классификация речи на основе ее содержания или эмоционального тона.
Дух LM Экспрессивный Модель идет еще дальше, включая эмоциональные сигналы в процесс генерации речи.
Например, он может обнаруживать и отражать на выходе эмоциональные состояния, такие как гнев, удивление или радость, делая взаимодействие с ИИ более человеческим и увлекательным.
Это имеет серьезные последствия для таких приложений, как виртуальные помощники, боты для обслуживания клиентов и другие интерактивные системы искусственного интеллекта, где важно более тонкое и выразительное общение.
Более широкие усилия
Meta Spirit LM является частью более широкого набора исследовательских инструментов и моделей, которые Meta FAIR публикует. Сюда входит обновление модели Segment Anything Model 2.1 (SAM 2.1) компании Meta для сегментации изображений и видео, которая использовалась в таких дисциплинах, как медицинская визуализация и метеорология, а также исследования по повышению эффективности больших языковых моделей.
Главной целью Meta является создание передового машинного интеллекта (AMI) с упором на разработку мощных и доступных систем искусственного интеллекта.
Команда FAIR уже более десяти лет делится своими исследованиями, стремясь развивать ИИ таким образом, чтобы это приносило пользу не только технологическому сообществу, но и обществу в целом. Spirit LM является ключевым компонентом этих усилий, поддерживая открытую науку и воспроизводимость, одновременно расширяя границы того, чего может достичь ИИ в обработке естественного языка.
Что будет дальше с Spirit LM?
С выпуском Meta Spirit LM Meta делает значительный шаг вперед в интеграции речи и текста в системах искусственного интеллекта.
Предлагая более естественный и выразительный подход к речи, генерируемой ИИ, и делая модель открытой, Meta позволяет более широкому исследовательскому сообществу исследовать новые возможности мультимодальных приложений ИИ.
Будь то ASR, TTS или что-то еще, Spirit LM представляет собой многообещающее достижение в области машинного обучения, потенциально способное создать новое поколение более человеческих взаимодействий с искусственным интеллектом.