Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше
Исследовательская группа Apple в области искусственного интеллекта разработала новую модель, которая может значительно улучшить восприятие глубины машинами, потенциально трансформируя самые разные отрасли — от дополненной реальности до автономных транспортных средств.
Система под названием Depth Pro способна генерировать подробные 3D-карты глубины из отдельных 2D-изображений за доли секунды, не полагаясь на данные камеры, традиционно необходимые для таких прогнозов.
Технология, подробно описанная в исследовательской статье под названием «Depth Pro: четкая метрическая монокулярная глубина менее чем за секунду» Это большой шаг вперед в области монокулярной оценки глубины, процесса, который использует только одно изображение для определения глубины.
Это может иметь далеко идущие последствия в секторах, где пространственная осведомленность в реальном времени является ключевой. Создатели модели во главе с Алексеем Бочковским и Владленом Колтуном описывают Depth Pro как одну из самых быстрых и точных систем в своем роде.

Скорость и точность без метаданных
Оценка глубины с помощью монокуляра уже давно является сложной задачей, требующей либо нескольких изображений, либо метаданных, таких как фокусное расстояние, для точного измерения глубины.
Но Depth Pro обходит эти требования, создавая карты глубины высокого разрешения всего за 0,3 секунды на стандартном графическом процессоре. Модель может создавать 2,25-мегапиксельные карты с исключительной четкостью, улавливая даже мельчайшие детали, такие как волосы и растительность, которые часто упускаются из виду другими методами.
«Эти характеристики стали возможными благодаря ряду технических достижений, в том числе эффективному многомасштабному преобразователю зрения для плотного прогнозирования», — объясняют исследователи в своей статье. Эта архитектура позволяет модели одновременно обрабатывать как общий контекст изображения, так и его более мелкие детали — огромный скачок по сравнению с более медленными и менее точными моделями, которые существовали до нее.

Метрическая глубина, обучение с нуля
Что действительно отличает Depth Pro, так это его способность оценивать как относительную, так и абсолютную глубину, возможность, называемую «метрической глубиной».
Это означает, что модель может обеспечивать измерения в реальном мире, что важно для таких приложений, как дополненная реальность (AR), где виртуальные объекты необходимо размещать в точных местах в физическом пространстве.
И Depth Pro не требует обширного обучения на наборах данных для конкретной предметной области, чтобы делать точные прогнозы — функция, известная как «обучение с нуля». Это делает модель очень универсальной. Его можно применять к широкому спектру изображений без необходимости использования данных для конкретной камеры, которые обычно требуются в моделях оценки глубины.
«Depth Pro создает метрические карты глубины с абсолютным масштабом на произвольных изображениях «в естественных условиях», не требуя метаданных, таких как встроенные функции камеры», — объясняют авторы. Эта гибкость открывает мир возможностей: от улучшения возможностей дополненной реальности до улучшения способности автономных транспортных средств обнаруживать препятствия и преодолевать их.
Для тех, кому интересно лично испытать Depth Pro, на платформе Hugging Face доступна живая демоверсия.

Реальные приложения: от электронной коммерции до автономных транспортных средств
Эта универсальность имеет важное значение для различных отраслей промышленности. Например, в сфере электронной коммерции Depth Pro может позволить потребителям увидеть, как мебель вписывается в их дом, просто направив камеру своего телефона на комнату. В автомобильной промышленности возможность генерировать карты глубины с высоким разрешением в реальном времени с помощью одной камеры может улучшить восприятие окружающей среды беспилотными автомобилями, повышая навигацию и безопасность.
«В идеале метод должен создавать метрические карты глубины в этом режиме нулевого кадра, чтобы точно воспроизводить формы объектов, расположение сцен и абсолютные масштабы», — пишут исследователи, подчеркивая потенциал модели по сокращению времени и затрат, связанных с обучением более традиционных моделей ИИ. .
Решение проблем оценки глубины
Одной из самых сложных проблем при оценке глубины является обработка так называемых «летающих пикселей» — пикселей, которые кажутся парящими в воздухе из-за ошибок при отображении глубины. Depth Pro решает эту проблему, делая его особенно эффективным для таких приложений, как 3D-реконструкция и виртуальные среды, где точность имеет первостепенное значение.
Кроме того, Depth Pro превосходно справляется с трассировкой границ, превосходя предыдущие модели в четком выделении объектов и их краев. Исследователи утверждают, что она превосходит другие системы «по мультипликативному коэффициенту точности границ», что является ключевым моментом для приложений, требующих точной сегментации объектов, таких как матирование изображений и медицинская визуализация.
Открытый исходный код и готовность к масштабированию
Чтобы ускорить его внедрение, Apple сделала Depth Pro открытым исходным кодом. Код вместе с предварительно обученными весами модели доступен на GitHub, что позволяет разработчикам и исследователям экспериментировать и совершенствовать технологию. Репозиторий включает в себя все — от архитектуры модели до предварительно обученных контрольных точек, что позволяет другим легко использовать результаты работы Apple.
Исследовательская группа также поощряет дальнейшее изучение потенциала Depth Pro в таких областях, как робототехника, производство и здравоохранение. «Мы публикуем код и веса на https://github.com/apple/ml-Deep-pro», — пишут авторы, сигнализируя, что это только начало модели.
Что будет дальше с восприятием глубины ИИ
Поскольку искусственный интеллект продолжает раздвигать границы возможного, Глубина Про устанавливает новый стандарт скорости и точности монокулярной оценки глубины. Его способность генерировать высококачественные карты глубины в реальном времени из одного изображения может иметь широкомасштабные последствия в отраслях, которые полагаются на пространственную осведомленность.
В мире, где ИИ становится все более важным для принятия решений и разработки продуктов, Глубина Про демонстрирует, как передовые исследования могут воплотиться в практические, реальные решения. Будь то улучшение восприятия машинами окружающей среды или улучшение потребительского опыта, потенциальные возможности использования Глубина Про широки и разнообразны.
Как заключают исследователи, «Depth Pro значительно превосходит все предыдущие работы в четком определении границ объектов, включая тонкие структуры, такие как волосы, мех и растительность». Благодаря выпуску с открытым исходным кодом, Глубина Про вскоре может стать неотъемлемой частью различных отраслей, от автономного вождения до дополненной реальности, изменяя то, как машины и люди взаимодействуют с трехмерной средой.