Выпущен новый высококачественный видеогенератор с искусственным интеллектом Pyramid Flow — с полностью открытым исходным кодом!

Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше


Число моделей генерации видео с помощью искусственного интеллекта продолжает расти благодаря новой модели Pyramid Flow, которая будет запущена на этой неделе и предлагает высококачественные видеоклипы продолжительностью до 10 секунд — быстро и с открытым исходным кодом.

Разработанный в сотрудничестве исследователей из Пекинского университета, Пекинского университета почты и телекоммуникаций и компании Kuaishou Technology (последняя является создателем хорошо зарекомендовавшего себя патентованного видеогенератора Kling AI), Pyramid Flow использует новую технику, при которой одна модель искусственного интеллекта генерирует видео в этапы, большинство из которых имеют низкое разрешение, и на конец процесса создания сохраняется только версия с полным разрешением.

Он доступен в виде необработанного кода для загрузки на Hugging Face и Github и может быть запущен в оболочке вывода здесь, но требует от пользователя загрузки и запуска кода модели на своем компьютере.

Таким образом, модель может генерировать 5-секундное видео в разрешении 384p всего за 56 секунд — на уровне или быстрее, чем многие аналоги с полной последовательностью диффузии — хотя Gen 3-Alpha Turbo от Runway по-прежнему превосходит конкурентов с точки зрения скорости генерации видео с помощью искусственного интеллекта. , в наших тестах оно занимает менее одной минуты, а часто и 10-20 секунд.

У нас еще не было возможности протестировать Pyramid Flow, но видео, опубликованные создателями модели, кажутся невероятно реалистичными, достаточно высоким разрешением и убедительными — аналогичными видеороликам собственных предложений. Вы можете увидеть различные примеры здесь, на странице проекта Github.

Действительно, Pyramid Flow уже доступен для загрузки и использования — даже в коммерческих/корпоративных целях — и предназначен для прямой конкуренции с платными проприетарными предложениями, такими как Gen-3 Alpha от Runway, Dream Machine от Luma, Kling и Haulio, которые могут стоить дорого. сотни и даже тысячи долларов в год для пользователей с подпиской на неограниченное количество поколений.

Поскольку гонка между различными поставщиками ИИ-видео за привлечением пользователей продолжается, Pyramid Flow стремится обеспечить большую эффективность и гибкость для разработчиков, художников и авторов, ищущих расширенные возможности создания видео.

Новая технология создания высококачественных видеороликов с использованием искусственного интеллекта: «согласование пирамидального потока».

Генерация видео с помощью ИИ — это трудоемкая вычислительная задача, которая обычно включает моделирование больших пространственно-временных пространств. Традиционные методы часто требуют отдельных моделей для разных этапов процесса, что ограничивает гибкость и увеличивает сложность обучения.

Pyramid Flow построен на концепции согласования пирамидальных потоков, методе, который радикально сокращает вычислительные затраты на генерацию видео при сохранении высокого визуального качества, завершая процесс генерации видео как серию этапов «пирамиды», при этом работает только заключительный этап. в полном разрешении.

Это описано в предварительно рецензируемой статье: «Согласование пирамидального потока для эффективного видеогенеративного моделирования», представленный в научный журнал открытого доступа arXiv 8 октября 2024 года.

Среди авторов — Ян Цзинь, Чжичэн Сунь, Нинъюань Ли, Кунь Сюй, Хао Цзян, Нань Чжуан, Цюжэ Хуан, Ян Сун, Ядун Му и Чжоучэнь Линь. Большинство этих исследователей связаны с Пекинским университетом, а другие — из Kuaishou Technology. .

Как они пишут, возможность сжимать и оптимизировать генерацию видео на разных этапах приводит к более быстрой сходимости во время обучения, позволяя Pyramid Flow генерировать больше выборок за один обучающий пакет.

Например, предлагаемый пирамидальный поток уменьшает количество токенов в четыре раза по сравнению с традиционными моделями диффузии, что приводит к более эффективному обучению.

Модель может создавать видеоролики продолжительностью от 5 до 10 секунд с разрешением 768p и частотой 24 кадра в секунду, при этом обучаясь на наборах данных с открытым исходным кодом. В частности, в документе говорится, что Pyramid Flow обучался на:

  • LAION-5B, большой набор данных для мультимодальных исследований ИИ.
  • CC-12M, набор данных пар изображение-текст, просканированных в Интернете.
  • SA-1B, обеспечивающий высококачественное изображение без размытия.
  • WebVid-10M и OpenVid-1M — наборы видеоданных, широко используемые для преобразования текста в видео.

Всего авторы курировали около 10 миллионов одиночных видеороликов.

Однако многие из этих наборов данных с «публичным» или «открытым исходным кодом» в последние годы подверглись критике за включение материалов, защищенных авторским правом, без разрешения или информированного согласия владельцев авторских прав, и LAION-5B, в частности, обвиняется в размещении материалов о сексуальном насилии над детьми. .

Кроме того, Runway входит в число компаний, которым артисты предъявили коллективный иск за обучение материалам без разрешения, компенсации или согласия — предположительно в нарушение авторских прав США. Дело пока рассматривается в суде.

Разрешительная лицензия, открытый исходный код для коммерческого использования.

Pyramid Flow распространяется под лицензией MIT, что позволяет использовать его в широком диапазоне, включая коммерческие приложения, модификации и распространение, при условии сохранения уведомления об авторских правах.

Это делает Pyramid Flow привлекательным вариантом для разработчиков и компаний, стремящихся интегрировать эту модель в собственные системы, и может бросить вызов Luma AI и Runway, поскольку обе они стремятся предложить платные интерфейсы прикладного программирования для разработчиков, стремящихся интегрировать свою запатентованную технологию генерации видео AI в клиентские или приложения для сотрудников.

Тем не менее, эти проприетарные модели уже существуют в виде выводов, подходящих для разработчиков, хотя у Pyramid Flow есть демо-вывод на Hugging Face, он не подходит для создания полноценных приложений на его основе, и пользователям придется размещать свои собственные версии вывода, которые также могут быть дорого, несмотря на то, что сама модель «бесплатная».

Кроме того, Pyramid Flow может оказаться заманчивым для киностудий, желающих использовать ИИ для повышения эффективности, сокращения затрат и изучения новых творческих инструментов. Одна крупная киностудия Lionsgate — владелец Джон Уик и Сумерки франшизы фильмов, среди многих других, недавно подписали сделку на неуказанную сумму с Runway на обучение специальной модели генерации видео с помощью искусственного интеллекта. Более того, Титаник и Терминатор режиссер Джеймс Кэмерон вошел в совет директоров компании Stability, поставщика видео- и изображений-моделей искусственного интеллекта (последняя также является объектом того же группового иска от художников, что и Runway).

Используя Pyramid Flow, Lionsgate или любая другая киностудия может точно настроить версию с открытым исходным кодом, не платя сторонней компании. Тем не менее, им все равно придется иметь под рукой или заключить контракт с талантливыми разработчиками и необходимыми для этого вычислительными ресурсами, что может сделать партнерство с признанными поставщиками ИИ, такими как Runway, более привлекательным, поскольку эта компания и другие подобные ей компании уже имеют инженерные разработки в области ИИ. талант в их распоряжении в доме.

Исследовательская группа, стоящая за Pyramidal Flow Matching, также взяла на себя обязательство открытости и доступности. Все веса кода и модели будут доступны для общественности через официальную страницу проекта, что позволит исследователям и разработчикам по всему миру использовать и развивать эту работу.

Несмотря на свои сильные стороны, Pyramid Flow имеет некоторые ограничения. На данный момент ему не хватает некоторых расширенных возможностей точной настройки, которые есть в таких моделях, как Runway Gen-3 Alpha, которые обеспечивают точный контроль над кинематографическими элементами, такими как ракурсы камеры, ключевые кадры и человеческие жесты. Точно так же Luma's Dream Machine предоставляет расширенные возможности управления камерой, которые Pyramid Flow все еще догоняет.

Более того, относительно недавний запуск Pyramid Flow означает, что ее экосистема, хотя и надежная, но не такая зрелая, как у конкурентов.

Заглядывая в будущее: гонка видео на основе искусственного интеллекта не показывает никаких признаков замедления

Поскольку рынок создания видео с помощью искусственного интеллекта продолжает развиваться, запуск Pyramid Flow сигнализирует о переходе к более доступным решениям с открытым исходным кодом, которые могут конкурировать с проприетарными предложениями, такими как Runway и Luma.

На данный момент он предлагает надежную альтернативу для тех, кто хочет избежать затрат и ограничений закрытых моделей, обеспечивая при этом впечатляющее качество видео на уровне своих более коммерческих аналогов.

В ближайшие месяцы разработчики и создатели, вероятно, будут внимательно следить за ростом Pyramid Flow. Учитывая потенциал дальнейших улучшений и оптимизаций, он вполне может стать незаменимым инструментом в арсенале создателей видеоконтента во всем мире. Все компании и исследователи в настоящее время борются как за технологическое превосходство, так и за пользователей.

Между тем, Sora от OpenAI, впервые продемонстрированная в феврале 2024 года, по-прежнему нигде не видна — если не считать ее сотрудничества с горсткой небольших пользователей ранней альфа-версии.

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.