Simplismart повышает производительность искусственного интеллекта с помощью персонализированного, программно-оптимизированного механизма вывода

Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше


Предприятия полностью вовлечены в искусственный интеллект. Они хотят, чтобы их модели работали в производственной среде бесперебойно и с максимально высокой производительностью, чтобы получить высокую отдачу от инвестиций. Однако даже несмотря на то, что на рынке доступны все передовые модели, команды продолжают бороться с проблемами развертывания.

В прошлом году Питер Бендор-Самуэль, генеральный директор Everest Group, подсчитал, что 90% пилотных проектов поколения ИИ не дойдут до производства. Даже Gartner предсказал, что значительная часть проектов генеративного ИИ, скорее всего, будет заброшена после проверки концепции к концу 2025 года.

Среди препятствий на пути внедрения самым большим является оркестровка. У команд просто нет ресурсов, чтобы делать все собственными силами, что заставляет их полагаться на жесткие и дорогие сторонние API. Сегодня компания Simplismart AI привлекла финансирование в размере 7 миллионов долларов США, чтобы устранить этот пробел с помощью своей комплексной платформы MLOps, которая ускоряет все усилия по оркестрации, беря на себя все задачи — от точной настройки моделей до развертывания и наблюдения.

Хотя на рынке существуют и другие решения MLOps, в том числе от Datadog, этот стартап отличается персонализированным программно-оптимизированным механизмом вывода. Он развертывает модели с молниеносной скоростью, значительно повышая их производительность и одновременно снижая сопутствующие расходы.

«Без какой-либо аппаратной оптимизации мы добились пропускной способности 501 токена в секунду на модели Llama3.1 8B, что намного превосходит другие механизмы вывода. Точно так же мы добились лучших результатов во всех модальностях, включая преобразование текста в речь, речь в текст, текст в изображение, изображение в изображение», — Амританшу Джайн, бывший инженер Oracle, соучредитель стартапа. с бывшим техническим специалистом Google Деваншем Гатаком, рассказывает VentureBeat.

Устранение пробелов в оркестрации с помощью оптимизированного вывода Simplismart

При внедрении искусственного интеллекта внутри компании (для улучшения контроля и конфиденциальности) командам приходится сталкиваться с несколькими узкими местами, начиная от доступа к вычислительной мощности и оптимизации производительности модели и заканчивая масштабированием инфраструктуры, конвейерами CI/CD и экономической эффективностью. Обработка всего вручную может легко занять месяцы. Не говоря уже о том, что небольшая ошибка здесь или там в конвейере может повлиять на производительность модели и привести к высоким затратам и низкой рентабельности инвестиций.

Благодаря своей платформе комплексной оркестрации Simplismart стандартизирует весь рабочий процесс, позволяя пользователям настраивать, развертывать и наблюдать за высокооптимизированными моделями с открытым исходным кодом, охватывающими различные модальности, в соответствии со своими потребностями.

«Пользователи могут либо использовать нашу общую инфраструктуру, либо использовать собственную вычислительную учетную запись в облаке, чтобы с легкостью настраивать свою инфраструктуру и развертывания. Интуитивно понятная панель управления платформы позволяет задавать такие параметры, как графические процессоры, типы машин, диапазоны масштабирования и т. д. Как только кластер будет готов, пользователи смогут развертывать его из широкого спектра предварительно оптимизированных моделей или импортировать свои собственные… Наконец, функции наблюдения вступают в игру и позволяют пользователям отслеживать соглашения об уровне обслуживания, отслеживать производительность модели в реальном мире и сравнивать производительность с прошлыми показателями…», — объяснил Джайн.

Язык декларативной оркестровки платформы, подобный Terraform, позволяет предприятиям легко управлять всем конвейером, возвращая полный контроль в свои руки и снижая зависимость от команд DevOps. Между тем, персонализированный, программно-оптимизированный механизм вывода, лежащий в основе, гарантирует, что модели будут развернуты для достижения желаемых результатов по производительности и затратам.

«Simplismart выделяется как платформа, которая может предоставить персонализированный механизм вывода, адаптированный к потребностям каждого предприятия — будь то нагрузка, соглашения об уровне обслуживания, требования к производительности, использование графического процессора и т. д. Это помогает предприятиям найти правильный баланс между стоимостью и производительностью», — сказал Джейн.

Он отметил, что производительность механизма вывода оптимизируется на трех основных уровнях.
Во-первых, он оптимизирует обслуживание приложений с помощью специального уровня обслуживания для рабочих нагрузок машинного обучения. Затем он поддерживает инфраструктуру с быстрым масштабированием/уменьшением масштаба и сегментированием моделей по графическим процессорам для максимального использования оборудования. Наконец, он оптимизирует взаимодействие модели с графическим процессором с помощью 28 пользовательских ядер с использованием CUDA. Это позволяет движку выжать еще большую производительность из используемого оборудования.

Он сказал, что оптимизированный механизм вывода уже работает на некоторых популярных моделях, включая Llama 3.1 8B, OpenAI Whisper v2 и SDXL, с существенным повышением производительности.

«Мы постоянно фиксировали пропускную способность 501 токен/сек во время нескольких запусков Llama 3.1 8B. Тем не менее, это не означает, что каждый отдельный запрос достигнет этой точной цифры, поскольку производительность может колебаться в пределах диапазона, что типично для всех механизмов вывода. В наших тестах мы наблюдали среднее значение ~350 токенов в секунду при постоянной нагрузке. Что особенно интересно, так это то, что даже при этом медианном диапазоне наш диапазон производительности остается значительно выше, чем у любой другой машины вывода на рынке», — отметил он.

Основными конкурентами компании в этой сфере являются TogetherAI, Baseten, Replication, Fireworks и Amazon Bedrock.

Планируйте удвоить производительность

У Simplismart уже есть 30 корпоративных клиентов, включая Invideo, Dashtoon, Dubverse и Vodex. Одна фармацевтическая торговая площадка использовала платформу компании для развертывания моделей InternVL2 для оцифровки рукописных рецептов и смогла улучшить обнаружение пространственной конфигурации, обрабатывая в 2,5 раза больше изображений при вдвое меньших затратах.

В качестве следующего шага в этой работе Simplismart хочет еще больше повысить производительность своих платформ MLOps. Он будет использовать новое финансирование для стимулирования исследований и разработок и разработки новых методов, позволяющих увеличить скорость вывода ИИ и оставаться впереди конкурентов.

«За последние четыре месяца компания утроила выручку и достигла годового дохода примерно в 1 миллион долларов. Мы стремимся достичь ARR в 10 миллионов долларов в течение следующих 15 месяцев. Нашими основными рычагами являются охват 50 крупнейших предприятий, ориентированных на искусственный интеллект, и стимулирование внедрения нашего терраформоподобного языка оркестровки с открытым исходным кодом», — отметил Джайн.

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.