Присоединяйтесь к нашей ежедневной и еженедельной рассылке новостей, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли исследованиях в области искусственного интеллекта. Узнать больше
Основатель и генеральный директор Meta Марк Цукерберг, построивший компанию на базе своей популярной социальной сети Facebook, завершил эту неделю с размахом, опубликовав в своем личном Instagram (социальная сеть, которую Facebook приобрела в 2012 году) видео, на котором он делает жим ногами на тренажере в спортзале.
Вот только на видео тренажер для жима ногами превращается то в неоновую киберпанковую версию, то в древнеримскую, то в золотую пылающую версию.
Как оказалось, Цук не просто упражнялся: он использовал видео для анонса Movie Gen, нового семейства генеративных мультимодальных моделей ИИ Meta, которые могут создавать видео и аудио на основе текстовых подсказок и позволяют пользователям настраивать собственные видео, добавляя спецэффекты, реквизит, костюмы и меняя отдельные элементы просто с помощью текстовых подсказок, как это сделал Цук в своем видео.
Модели выглядят чрезвычайно мощными, позволяя пользователям изменять только выбранные элементы видеоклипа, а не «перематывать» или регенерировать его целиком, подобно точечному редактированию Pika на старых моделях, но с более длительным созданием клипа и встроенным звуком.
Тесты Meta, описанные в техническом документе о семействе моделей, опубликованном сегодня, показывают, что она превосходит ведущих конкурентов в этой области, включая Runway Gen 3, Luma Dream Machine, OpenAI Sora и Kling 1.5, по многим оценкам аудитории по различным атрибутам, таким как согласованность и «естественность» движений.

Meta позиционирует Movie Gen как инструмент как для обычных пользователей, желающих улучшить свои цифровые истории, так и для профессиональных создателей и редакторов видео, даже для голливудских режиссеров.
Расширенные мультимодальные медиавозможности
Movie Gen — это новейший шаг Meta в развитии технологии генеративного ИИ, объединяющий видео- и аудиовозможности в рамках одной системы.
В частности, Movie Gen состоит из четырех моделей:
1. Киноген Видео — модель генерации текста в видео с 30 параметрами
2. Movie Gen Audio — модель генерации видео в аудио с 13 параметрами
3. Персонализированный фильм Ген Видео — версия Movie Gen Video, прошедшая обучение для создания персонализированных видеороликов на основе лица человека
4. Movie Gen Edit — модель с новой процедурой посттренинга для точного редактирования видео
Эти модели позволяют создавать реалистичные персонализированные HD-видео длительностью до 16 секунд с частотой 16 кадров в секунду, со звуком 48 кГц, а также предоставляют возможности редактирования видео.
Разработанный для решения самых разных задач — от создания персонализированных видеороликов до сложного видеомонтажа и создания высококачественного звука — Movie Gen использует мощные модели искусственного интеллекта для расширения творческих возможностей пользователей.
Ключевые особенности пакета Movie Gen включают:
— Генерация видео: С помощью Movie Gen пользователи могут создавать видео высокой четкости (HD), просто вводя текстовые подсказки. Эти видеоролики могут воспроизводиться с разрешением 1080p, длительностью до 16 секунд и поддерживаются моделью трансформатора с 30 миллиардами параметров. Способность ИИ управлять подробными подсказками позволяет ему обрабатывать различные аспекты создания видео, включая движение камеры, взаимодействие объектов и физику окружающей среды.
— Персонализированные видео: Movie Gen предлагает интересную функцию персонализированного видео, где пользователи могут загрузить изображение себя или других людей, чтобы включить его в видео, созданное искусственным интеллектом. Модель может адаптироваться к различным подсказкам, сохраняя при этом личность человека, что делает ее полезной для создания индивидуального контента.
— Точное редактирование видео: Пакет Movie Gen также включает расширенные возможности редактирования видео, которые позволяют пользователям изменять конкретные элементы в видео. Эта модель может изменять как локальные аспекты, например объекты или цвета, так и глобальные изменения, например замену фона, на основе простых текстовых инструкций.
— Audio Generation: В дополнение к возможностям видео Movie Gen также включает в себя модель генерации звука с 13 миллиардами параметров. Эта функция позволяет генерировать звуковые эффекты, окружающую музыку и синхронизированный звук, который органично сочетается с визуальным контентом. Пользователи могут создавать звуки Foley (звуковые эффекты, усиливающие и усиливающие реальные шумы, такие как шелест ткани и эхо шагов), инструментальную музыку и другие аудиоэлементы длиной до 45 секунд. Meta разместила пример видео со звуками Foley ниже (чтобы его услышать, увеличьте звук):
Обучен на миллиардах видеороликов в Интернете
Movie Gen — это последнее достижение в исследовательской работе Meta по созданию искусственного интеллекта. Для обучения моделей, по словам Meta, она использовала «данные об изображениях, видео и аудио в масштабах Интернета», а именно 100 миллионов видео и 1 миллиард изображений, из которых она «узнает о визуальном мире, «просматривая» видео», говорится в техническом документе.
Однако Meta не уточнила, были ли эти данные лицензированы в документе или являются общественным достоянием, или же она просто содрала их, как это сделали многие другие производители ИИ-моделей, что привело к критике со стороны художников и создателей видео, таких как YouTuber Marques Brownlee (MKBHD), и, в случае с поставщиком ИИ-видеомоделей Runway, к групповому иску о нарушении авторских прав со стороны создателей (который все еще находится на рассмотрении в суде). Поэтому можно ожидать, что Meta немедленно столкнется с критикой в адрес своих источников данных.
Если отбросить юридические и этические вопросы, связанные с обучением, то Meta явно позиционирует процесс создания Movie Gen как новый, используя сочетание типичного обучения диффузионной модели (обычно используемого в видео- и аудио ИИ) с обучением большой языковой модели (LLM) и новой техники под названием «Flow Matching», последняя из которых основана на моделировании изменений в распределении набора данных с течением времени.
На каждом шаге модель учится предсказывать скорость, с которой образцы должны «двигаться» к целевому распределению. Flow Matching отличается от стандартных моделей, основанных на диффузии, ключевыми моментами:
— Отношение сигнал/шум нулевого терминала (SNR): В отличие от обычных моделей диффузии, которые требуют определенных графиков шума для поддержания нулевого конечного SNR, Flow Matching по своей сути обеспечивает нулевой конечный SNR без дополнительных настроек. Это обеспечивает устойчивость к выбору графиков шума, способствуя получению более стабильных и качественных видеовыходов.
— Эффективность обучения и вывода: Потоковое сопоставление оказалось более эффективным как с точки зрения обучения, так и с точки зрения вывода по сравнению с диффузионными моделями. Он обеспечивает гибкость в отношении типа используемых графиков шума и демонстрирует улучшенную производительность в диапазоне размеров моделей. Этот подход также продемонстрировал лучшее соответствие результатам человеческой оценки.
Процесс обучения системы Movie Gen нацелен на максимальную гибкость и качество при создании видео и аудио. Она опирается на две основные модели, каждая из которых имеет обширные процедуры обучения и тонкой настройки:
— Видеомодель Movie Gen: Эта модель имеет 30 миллиардов параметров и начинается с базовой генерации текста в изображение. Затем она переходит к преобразованию текста в видео, создавая видео длиной до 16 секунд в HD-качестве. В процессе обучения используется большой набор видео и изображений, что позволяет модели понимать сложные визуальные концепции, такие как движение, взаимодействие и динамика камеры. Чтобы расширить возможности модели, ее отладили на наборе высококачественных видео с текстовыми подписями, что повысило реалистичность и точность результатов. Команда еще больше расширила гибкость модели, обучив ее работе с персонализированным контентом и командами редактирования.
— Movie Gen Audio Model: Имея 13 миллиардов параметров, эта модель генерирует высококачественный звук, синхронизированный с визуальными элементами видео. Обучающий набор включал более миллиона часов аудиозаписей, что позволило модели уловить физические и психологические связи между звуком и изображением. Модель была усовершенствована путем контролируемой тонкой настройки с использованием отобранных высококачественных пар аудио и текста. Этот процесс помог сгенерировать реалистичные окружающие звуки, синхронизированные звуковые эффекты и соответствующую настроению фоновую музыку для различных видеосцен.
Этот проект следует за предыдущими, такими как Make-A-Scene и Llama Image models, которые были нацелены на создание высококачественных изображений и анимации.
Этот релиз является третьей важной вехой на пути Meta к генеративному ИИ и подчеркивает стремление компании расширять границы инструментов для создания медиа.
Запуск в Insta в 2025 году
Дебютировав на Instagram в 2025 году, Movie Gen собирается сделать создание видео более доступным для широкого круга пользователей платформы.
Несмотря на то, что модели находятся на стадии исследования, Meta выразила оптимизм по поводу того, что Movie Gen позволит пользователям с легкостью создавать захватывающий контент.
По мере разработки продукта Meta намерена сотрудничать с создателями и режиссерами, чтобы доработать функции Movie Gen и убедиться, что он отвечает потребностям пользователей.
Долгосрочное видение Movie Gen от Meta отражает более широкую цель — демократизацию доступа к сложным инструментам редактирования видео. Несмотря на то, что пакет обладает значительным потенциалом, Meta признает, что инструменты генеративного ИИ, подобные Movie Gen, призваны улучшить, а не заменить работу профессиональных художников и аниматоров.
Готовясь вывести Movie Gen на рынок, компания Meta продолжает уделять внимание совершенствованию технологии и устранению всех существующих ограничений. Она планирует дальнейшие оптимизации, направленные на улучшение времени вывода и расширение возможностей модели. Meta также намекнула на возможные будущие приложения, такие как создание индивидуальных анимированных приветствий или короткометражных фильмов, полностью основанных на пользовательском вводе.
Выпуск Movie Gen может ознаменовать новую эру в создании контента на платформах Meta, причем пользователи Instagram одними из первых смогут воспользоваться этим инновационным инструментом. По мере развития технологии Movie Gen может стать важной частью экосистемы Meta и экосистемы творцов — как профессиональных, так и инди.