Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше
Gladia, поставщик ИИ-транскрипции и аудиоаналитики, привлекла финансирование в размере 16 миллионов долларов.
Компания со штаб-квартирой в Париже, Франция, будет использовать финансирование для разработки комплексной аудиоинфраструктуры, начиная с нового механизма транскрипции и анализа звука в реальном времени, что позволит платформам, ориентированным на голос, приносить больше пользы своим пользователям за рубежом с помощью передовой ИИ.
Это вызов таким конкурентам, как Otter.ai и Fireflies.ai, а также другим сервисам на базе искусственного интеллекта, которые преобразуют голосовые разговоры в текст. В интервью VentureBeat генеральный директор Жан-Луи Кегинер объяснил мне, почему он основал компанию.
«Как видно по красивому французскому акценту, я не говорю по-английски, и меня очень расстраивал акцент», — сказал Кегинер. «Вот почему я основал компанию».
У меня есть демо-версия транскрипции ИИ, и она работала в реальном времени, поскольку Кегинер говорил по-английски со своим сильным французским акцентом. Я привык к тому, что такие сервисы, как Otter, неправильно переводят много слов в транскрипции, но на первой странице результатов Gladia я не увидел ошибок. Он также показал, как он может говорить на двух разных языках и при необходимости система может переключаться с одного языка на другой.
XAnge возглавил раунд при участии Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures и Soma Capital.

Основанная в 2022 году, компания Gladia к настоящему моменту привлекла в общей сложности 20,3 миллиона долларов, при этом ранее начальные инвестиции возглавляли New Wave, Sequoia Capital (в рамках программы First Sequoia Arc), Cocoa и GFC. Недавно Гладия была выбрана для участия в программе акселератора генеративного искусственного интеллекта AWS.
«Gladia представляет качества, которые мы любим отстаивать в XAnge: смелая глобальная технологическая команда, находящаяся на переднем крае инноваций в области искусственного интеллекта, с проверенной бизнес-моделью, которая открывает новые возможности в различных отраслях», — сказал Алексис дю Пелу, партнер XAnge, в своем заявлении. . «В быстро меняющейся среде искусственного интеллекта Жан-Луи Кегинер и его команда показали себя очень хорошо, и мы гордимся тем, что поддержали Gladia в серии A».
Учитывая, что сегодня большинство моделей распознавания речи обучаются преимущественно на английских аудиоданных и, следовательно, по своей сути предвзяты, Gladia отдала приоритет созданию первого по-настоящему многоязычного продукта, работающего в режиме реального времени.
Новый точно настроенный механизм обеспечивает расширенную транскрипцию в реальном времени на более чем 100 языках, а также расширенную поддержку акцентов и уникальную возможность адаптации к различным языкам на лету.
Новый механизм Gladia уникален своей способностью извлекать ценную информацию из звонка — например, настроения звонящего, ключевую информацию и сводку разговора — в режиме реального времени. Это означает, что создание стенограммы и аналитической информации о звонке или встрече с помощью Gladia занимает меньше секунды.
Новая транскрипция ИИ в реальном времени

Создание точного, малозадержного и многоязычного движка собственными силами — сложная и ресурсоемкая задача. Это требует обширных знаний в понимании языка, обработке данных в реальном времени, а также постоянной оптимизации и обслуживании. Модели реального времени требуют большей вычислительной мощности и могут с трудом обеспечить немедленное получение точных результатов из-за ограниченного контекста.
Новый продукт Gladia позволяет компаниям обойти эти проблемы. Механизм преобразования речи в текст в режиме реального времени может похвастаться лучшей в отрасли задержкой менее 300 миллисекунд без ущерба для точности, независимо от языка, географии или используемого технологического стека.
«Компании тратят драгоценное время и ресурсы, пытаясь включить несколько функций искусственного интеллекта в свои существующие платформы», — сказал в своем заявлении Джонатан Сото, технический директор Gladia. «Наш единый API совместим со всеми существующими технологическими стеками и протоколами, включая SIP, VoIP, FreeSwitch и Asterisk. Это позволяет нам легко интегрировать транскрипцию и анализ в режиме реального времени в платформы искусственного интеллекта наших клиентов, чтобы они могли сосредоточиться на предоставлении лучших услуг своим конечным пользователям».
Что впереди
Первый API-интерфейс асинхронной транскрипции и аудиоаналитики компании был запущен в июне 2023 года и был основан на собственной версии Whisper ASR.
Он быстро завоевал популярность на корпоративном рынке, особенно в сфере записывающих устройств для совещаний и помощников для ведения заметок. В настоящее время API используется более чем 600 клиентами по всему миру, включая Attention, Circleback, Method Financial, Recall, Sana и VEED.IO, и имеет более 70 000 пользователей.
«Технология Gladia позволяет компаниям на вертикальных рынках, которым необходима передовая транскрипция в реальном времени, включая возможности продаж и платформу контакт-центра, плавно переходить от ручной обработки после звонков к упреждающим рабочим процессам с малой задержкой», — сказал Кегинер. «Будь то автоматическое расширение CRM или руководство в режиме реального времени для агентов поддержки, Gladia предназначена для того, чтобы помочь компаниям работать более разумно и эффективно в рекордно короткие сроки, не требуя собственных знаний в области искусственного интеллекта».
Gladia будет использовать новый капитал для продвижения своих исследований и разработок и вскоре выведет на рынок универсальный набор инструментов искусственного интеллекта для аудио, а также расширит ассортимент своей продукции за счет дополнительных моделей по выбору, включая большие языковые модели (LLM) и генерацию с расширенным поиском (RAG). ). Совместно с несколькими партнерами по проектированию в сегменте контакт-центров как услуги (CCaaS) компания в настоящее время тестирует решение для помощи агентам на базе искусственного интеллекта Gladia, работающего в режиме реального времени. Кроме того, Gladia продолжит расширять свою кадровую базу, готовясь к международной экспансии.
«Мы многоязычны, и у нас есть то, что называется «переключением кода», что делает его уникальным», — сказал Кегинер. «Можно начать с языка и перейти на другой».
Далее он показал мне, что может начать разговор на английском языке и начать транскрипцию. Затем он произнес французские слова, и модель правильно перевела их на французский язык.
«Имейте в виду, что [others] сейчас они не в реальном времени, а этот — в реальном времени», — сказал он. «Обычно реальное время немного менее точное. С нами вы также можете иметь свой собственный словарный запас в реальном времени, что довольно необычно. У нас есть возможность получить некоторую информацию в режиме реального времени».
В сервисе есть сумматор AI, а в ближайшие месяцы у него появятся новые дополнительные функции. Кегинер сказал, что его служба также может правильно определять аббревиатуры и обнаруживать переключение на другой язык.
«Модель, которую мы используем, очень похожа на LLM (большие языковые модели). У него нет архитектуры декодера кода, чего нет, например, в большинстве моделей, которые вы видели у Fireflies.
На рынке есть «записывающие устройства для совещаний», сказал Кегинер. Результаты могут быть переданы в аналитику в режиме реального времени, что может помочь таким людям, как руководители продаж, быстрее заключать сделки.
Компания также сотрудничает с колл-центрами, что позволяет им завершить работу на 30 % быстрее, когда они разговаривают по телефону, благодаря большей точности. Компания взимает фиксированную плату, например почасовую оплату.