Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше
Данные — это Святой Грааль ИИ. От шустрых стартапов до глобальных конгломератов — организации по всему миру тратят миллиарды долларов на мобилизацию наборов данных для высокопроизводительных приложений и систем искусственного интеллекта.
Но даже после всех усилий реальность такова, что доступ и использование данных из разных источников и в различных модальностях — будь то текст, видео или аудио — далеко не безупречны. Эти усилия включают в себя различные уровни работы и интеграции, что часто приводит к задержкам и упущенным возможностям для бизнеса.
Введите компанию ApertureData из Калифорнии. Чтобы решить эту проблему, стартап разработал единый уровень данных ApertureDB, который объединяет возможности графовых и векторных баз данных с мультимодальным управлением данными. Это помогает командам, занимающимся искусственным интеллектом и данными, выводить свои приложения на рынок гораздо быстрее, чем это возможно традиционно. Сегодня ApertureData объявила о стартовом финансировании в размере 8,25 млн долларов США одновременно с запуском облачной версии своей базы данных векторных графов.
«ApertureDB может сократить время подготовки инфраструктуры данных и наборов данных на 6–12 месяцев, предлагая невероятную ценность для технических и CDO, от которых теперь ожидается определение стратегии успешного развертывания ИИ в чрезвычайно нестабильной среде с противоречивыми требованиями к данным», — Вишакха Гупта, основатель и генеральный директор ApertureData, рассказывает VentureBeat. Она отметила, что это предложение может повысить производительность команд по обработке данных и машинному обучению, создающих мультимодальный ИИ, в среднем в десять раз.
Что дает ApertureData?
Многие организации считают, что управление растущей кучей мультимодальных данных — терабайтами текста, изображений, аудио и видео ежедневно — является узким местом в использовании ИИ для повышения производительности.
Проблема не в нехватке данных (объем неструктурированных данных только растет), а во фрагментированной экосистеме инструментов, необходимых для внедрения их в продвинутый ИИ.
В настоящее время командам приходится получать данные из разных источников и хранить их в облачных корзинах, при этом метаданные постоянно обновляются в файлах или базах данных. Затем им приходится писать специальные сценарии для поиска, извлечения или, возможно, предварительной обработки информации.
После того как первоначальная работа будет завершена, им придется подключить графовые базы данных и возможности векторного поиска и классификации, чтобы реализовать запланированный опыт генеративного ИИ. Это усложняет настройку, в результате чего команды сталкиваются с серьезными задачами по интеграции и управлению и в конечном итоге задерживают проекты на несколько месяцев.
«Предприятия ожидают, что их уровень данных позволит им управлять различными модальностями данных, легко подготавливать данные для машинного обучения, упростит управление наборами данных, управлять аннотациями, отслеживать информацию о модели, а также позволит им искать и визуализировать данные с помощью мультимодального поиска. К сожалению, их текущий выбор для достижения каждого из этих требований — это интегрированное вручную решение, в котором им приходится объединять облачные хранилища, базы данных, этикетки в различных форматах, библиотеки обработки привередливых (зрений) и векторные базы данных для передачи входных мультимодальных данных в значимый ИИ. или аналитические данные», — объяснил Гупта, который впервые увидел проблески этой проблемы при работе с видеоданными в Intel.
Решив эту задачу, она объединилась с Луисом Ремисом, коллегой-исследователем из Intel Labs, и запустила ApertureData, чтобы создать уровень данных, который мог бы решать все задачи по работе с данными, связанные с мультимодальным ИИ, в одном месте.
Получившийся в результате продукт ApertureDB сегодня позволяет предприятиям централизовать все соответствующие наборы данных, включая большие изображения, видео, документы, встраивания и связанные с ними метаданные, для эффективного поиска и обработки запросов. Он хранит данные, предоставляя пользователям единообразное представление о схеме, а затем предоставляет возможности графа знаний и векторного поиска для дальнейшего использования в конвейере ИИ, будь то для создания чат-бота или поисковой системы.
«Благодаря сотням бесед мы поняли, что нам нужна база данных, которая не только понимает сложность управления мультимодальными данными, но и понимает требования ИИ, чтобы командам ИИ было легко внедрить и развернуть в производстве. Это то, что мы создали с помощью ApertureDB», — добавил Гупта.

Чем он отличается от того, что есть на рынке?
Несмотря на то, что на рынке существует множество баз данных, ориентированных на ИИ, ApertureData надеется создать для себя нишу, предлагая унифицированный продукт, который изначально хранит и распознает мультимодальные данные и легко сочетает возможности графов знаний с быстрым мультимодальным векторным поиском для сценариев использования ИИ. . Пользователи могут легко сохранять и анализировать взаимосвязи между своими наборами данных, а затем использовать платформы искусственного интеллекта и инструменты по выбору для целевых приложений.
«Нашим настоящим конкурентом является платформа данных, созданная собственными силами с комбинацией инструментов обработки данных, таких как реляционная/графовая база данных, облачное хранилище, библиотеки обработки данных, векторная база данных, а также собственные сценарии или инструменты визуализации для преобразования различных модальностей данных в полезные идеи. Мы обычно заменяем такие базы данных, как Postgres, Weaviate, Qdrant, Milvus, Pinecone, MongoDB или Neo4j, но в контексте мультимодальных или генеративных вариантов использования ИИ», — подчеркнул Гупта.
ApertureData утверждает, что ее база данных в ее нынешнем виде может легко повысить продуктивность команд по обработке данных и искусственному интеллекту в среднем в 10 раз. Он может оказаться в 35 раз быстрее, чем разрозненные решения при мобилизации мультимодальных наборов данных. Между тем, конкретно с точки зрения векторного поиска и классификации, он в 2-4 раза быстрее, чем существующие на рынке векторные базы данных с открытым исходным кодом.
Генеральный директор не назвал точных имен клиентов, но отметил, что они добились внедрения от избранных клиентов из списка Fortune 100, в том числе от крупного розничного продавца товаров для дома, крупного производителя и некоторых биотехнологических, розничных стартапов и стартапов нового поколения в области искусственного интеллекта.
«Во всех наших развертываниях общими преимуществами, которые мы слышим от наших клиентов, являются производительность, масштабируемость и производительность», — сказала она, отметив, что компания сэкономила 2 миллиона долларов для одного из своих клиентов.
В качестве следующего шага компания планирует продолжить эту работу, расширив новую облачную платформу для поддержки новых классов приложений искусственного интеллекта, сосредоточив внимание на интеграции экосистем для обеспечения бесперебойной работы пользователей и расширении партнерских развертываний.