Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше
Поскольку данные по-прежнему играют ключевую роль в успехе бизнеса, предприятия стремятся извлечь максимальную пользу из имеющейся информации. Но объем корпоративных данных растет так быстро — удваиваясь каждые два года — что вычислительные мощности для их своевременной и экономичной обработки достигают потолка.
Калифорнийская компания DataPelago стремится решить эту проблему с помощью «универсального механизма обработки данных», который позволит предприятиям повысить производительность существующих механизмов запроса данных (в том числе с открытым исходным кодом), используя возможности ускоряющих вычислительных элементов, таких как графические процессоры и FPGA (фиксированное программирование). Воротные массивы). Это позволяет механизмам обрабатывать экспоненциально растущие объемы сложных данных в различных форматах.
Стартап только что вышел из скрытности, но уже утверждает, что обеспечивает пятикратное сокращение задержки запросов/заданий, обеспечивая при этом значительную экономическую выгоду. Он также привлек $47 млн финансирования при поддержке нескольких фирм венчурного капитала, включая Eclipse, Taiwania Capital, Qualcomm Ventures, Alter Venture Partners, Nautilus Venture Partners и Silicon Valley Bank.
Решение проблемы данных
Более десяти лет назад структурированный и полуструктурированный анализ данных был предпочтительным вариантом для роста, основанного на данных, предоставляя предприятиям моментальную картину того, как работает их бизнес и что необходимо исправить.
Этот подход сработал хорошо, но развитие технологий также привело к появлению неструктурированных данных — изображений, PDF-файлов, аудио- и видеофайлов — в корпоративных системах. Первоначально объем этих данных был небольшим, но сегодня они составляют 90% всей создаваемой информации (намного больше, чем структурированная/полуструктурированная) и очень важны для продвинутых корпоративных приложений, таких как большие языковые модели.
Теперь, когда предприятия стремятся мобилизовать все свои информационные ресурсы, включая большие объемы неструктурированных данных, для этих сценариев использования, они сталкиваются с узкими местами в производительности и изо всех сил пытаются их обрабатывать своевременно и экономически эффективно.
Причина, как говорит генеральный директор DataPelago Раджан Гоял, заключается в вычислительных ограничениях устаревших платформ, которые изначально были разработаны для структурированных данных и вычислений общего назначения (ЦП).
«Сегодня у компаний есть два варианта ускоренной обработки данных… Системы с открытым исходным кодом, предлагаемые в качестве управляемой услуги поставщиками облачных услуг, имеют меньшие лицензионные сборы, но требуют от пользователей платить больше за вычислительные затраты на облачную инфраструктуру, чтобы достичь приемлемого уровня производительности. С другой стороны, проприетарные сервисы (созданные с использованием платформ с открытым исходным кодом или иным образом) могут быть по своей сути более производительными, но за них взимается гораздо более высокая лицензионная плата. Оба варианта приводят к увеличению совокупной стоимости владения (TCO) для клиентов», — пояснил он.
Чтобы устранить этот разрыв в производительности и стоимости рабочих нагрузок данных следующего поколения, Goyal приступила к созданию DataPelago, унифицированной платформы, которая динамически ускоряет механизмы запросов с помощью ускоренного вычислительного оборудования, такого как графические процессоры и FPGA, что позволяет им справляться с расширенными потребностями в обработке всех типов данных без значительное увеличение совокупной стоимости владения.
«Наш движок ускоряет механизмы запросов с открытым исходным кодом, такие как Apache Spark или Trino, с помощью мощности графических процессоров, что приводит к сокращению количества серверов в соотношении 10:1, что приводит к снижению затрат на инфраструктуру и снижению стоимости лицензирования в той же пропорции. Клиенты видят революционные преимущества в соотношении цена/производительность, что позволяет использовать все имеющиеся в их распоряжении данные», — сказал Гоял.
По сути, предложение DataPelago использует три основных компонента — DataApp, DataVM и DataOS. DataApp — это подключаемый уровень, который позволяет интегрировать DataPelago с открытыми платформами обработки данных, такими как Apache Spark или Trino, расширяя их на уровне узла планировщика и исполнителя.
После развертывания платформы и запуска пользователем запроса или конвейера данных все остается неизменным, без каких-либо изменений в приложении, ориентированном на пользователя. На серверной стороне планировщик платформы преобразует его в план, который затем принимается DataPelago. Движок использует библиотеку с открытым исходным кодом, такую как Apache Gluten, для преобразования плана в промежуточное представление с открытым стандартом, называемое Substrait. Этот план отправляется на узел-исполнитель, где DataOS преобразует IR в исполняемый граф потока данных (DFG).
Наконец, DataVM оценивает узлы DFG и динамически сопоставляет их с нужным вычислительным элементом — ЦП, FPGA, графическим процессором Nvidia или графическим процессором AMD — на основе доступности или характеристик стоимости/производительности. Таким образом, система перенаправляет рабочую нагрузку на наиболее подходящее оборудование, доступное у гиперскейлеров или поставщиков облачных графических процессоров, для максимизации производительности и снижения затрат.
Значительная экономия для первых пользователей DataPelago
Хотя технология динамического ускорения механизмов запросов с помощью ускоренных вычислений является новой, компания уже утверждает, что может обеспечить пятикратное сокращение задержки запросов/заданий и двукратное снижение совокупной стоимости владения по сравнению с существующими механизмами обработки данных.
«Одна компания, с которой мы работаем, тратила 140 миллионов долларов на одну рабочую нагрузку, причем 90% этих затрат приходилось на вычисления. Мы можем сократить их общие расходы до менее чем 50 миллионов долларов», — сказал Гоял.
Он не назвал общее количество компаний, работающих с DataPelago, но отметил, что компания видит значительную поддержку со стороны предприятий в таких вертикалях, как безопасность, производство, финансы, телекоммуникации, SaaS и розничная торговля. Существующая клиентская база включает такие известные компании, как Samsung SDS, McAfee и поставщик страховых технологий Akad Seguros, добавил он.
«Движок DataPelago позволяет нам унифицировать наши конвейеры GenAI и анализа данных путем обработки структурированных, полуструктурированных и неструктурированных данных в одном конвейере, сокращая при этом наши затраты более чем на 50%», — сказал Андре Фишель, технический директор Akad Seguros, в своем отчете. заявление.
В качестве следующего шага Goyal планирует развивать эту работу и предложить свое решение большему числу предприятий, стремящихся ускорить обработку данных, сохраняя при этом экономическую эффективность.
«Следующим этапом роста DataPelago является создание нашей команды по выходу на рынок, которая поможет нам управлять большим количеством разговоров с клиентами, в которых мы уже участвуем, а также продолжать расти в глобальный сервис», — сказал он.