Маленький, но мощный: новые модели искусственного интеллекта H2O.ai бросают вызов технологическим гигантам в анализе документов

Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше


H2O.ai, поставщик платформ искусственного интеллекта с открытым исходным кодом, анонсировал сегодня две новые модели визуального языка, предназначенные для улучшения задач анализа документов и оптического распознавания символов (OCR).

Модели, получившие названия H2OVL Mississippi-2B и H2OVL-Mississippi-0.8B, демонстрируют конкурентоспособную производительность по сравнению с гораздо более крупными моделями крупных технологических компаний, потенциально предлагая более эффективное решение для предприятий, занимающихся рабочими процессами с большим количеством документов.

Давид против Голиафа: как крошечные модели H2O.ai перехитрили технологических гигантов

Модель H2OVL Mississippi-0.8B, имеющая всего 800 миллионов параметров, превзошла все остальные модели, в том числе имеющие на миллиарды параметров больше, в задаче OCRBench Text Recognition. Между тем, модель H2OVL Mississippi-2B с 2 миллиардами параметров продемонстрировала высокие общие показатели по ряду тестов визуального языка.

«Мы разработали модели H2OVL Mississippi как высокопроизводительное, но экономически эффективное решение, обеспечивающее предприятиям оптическое распознавание символов на основе искусственного интеллекта, визуальное понимание и искусственный интеллект документов», — сказал Шри Амбати, генеральный директор и основатель H2O.ai, в эксклюзивном интервью. интервью VentureBeat. «Объединяя передовой мультимодальный искусственный интеллект с эффективностью, H2OVL Mississippi предлагает точные, масштабируемые решения искусственного интеллекта для документов в различных отраслях».

Выпуск этих моделей знаменует собой важный шаг в стратегии H2O.ai, направленной на то, чтобы сделать технологию искусственного интеллекта более доступной. Размещая модели в свободном доступе на Hugging Face, популярной платформе для обмена моделями машинного обучения, H2O.ai позволяет разработчикам и предприятиям модифицировать и адаптировать модели для конкретных нужд ИИ в документах.

Маленький, но мощный: новые модели искусственного интеллекта H2O.ai бросают вызов технологическим гигантам в анализе документов
Новая модель H2OVL Mississippi-0.8B от H2O.ai (крайняя справа, желтая) превосходит более крупные модели технологических гигантов в задачах распознавания текста в наборе данных OCRBench, демонстрируя потенциал меньших и более эффективных моделей ИИ для анализа документов. (Фото: H2O.ai)

Эффективность сочетается с результативностью: новый подход к обработке документов

Амбати подчеркнул экономические преимущества небольших специализированных моделей. «Наш подход к генеративным предварительно обученным преобразователям основан на наших глубоких инвестициях в Document AI, где мы сотрудничаем с клиентами для извлечения смысла из корпоративных документов», — сказал он. «Эти модели могут работать где угодно, занимая мало места, эффективно и устойчиво, позволяя выполнять точную настройку изображений и документов для конкретной области за небольшую часть затрат».

Это объявление появилось в связи с тем, что предприятия ищут более эффективные способы обработки и извлечения информации из больших объемов документов. Традиционные методы оптического распознавания символов и анализа документов часто сталкиваются с проблемами низкого качества сканирования, неправильным почерком или сильно измененными документами. Новые модели H2O.ai направлены на решение этих проблем, предлагая более ресурсоэффективную альтернативу более крупным языковым моделям, которые могут быть чрезмерными для конкретных задач, связанных с документами.

Отраслевые аналитики отмечают, что подход H2O.ai может разрушить нынешнюю ситуацию, в которой доминируют технологические гиганты. Сосредоточив внимание на более мелких и более специализированных моделях, H2O.ai сможет захватить значительную часть корпоративного рынка, который ценит эффективность и экономичность.

Маленький, но мощный: новые модели искусственного интеллекта H2O.ai бросают вызов технологическим гигантам в анализе документов
Сравнение средних оценок по восьми тестам с одним изображением показывает, что новая модель H2OVL Mississippi-2B от H2O.ai (желтым цветом) превосходит нескольких конкурентов, включая предложения от Microsoft и Google. Модель уступает только Qwen2 VL-2B по общей производительности среди моделей визуального языка аналогичного размера. (Фото: H2O.ai)

Открытый исходный код и готовность к использованию на предприятиях: стратегия H2O.ai по внедрению ИИ

«В H2O.ai сделать ИИ доступным — это не просто идея. Это движение», — сказал Амбати VentureBeat. «Выпуская серию небольших базовых моделей, которые можно легко настроить под конкретные задачи, мы расширяем возможности создания и использования ИИ».

H2O.ai привлек $256 миллионов от инвесторов, включая Commonwealth Bank, Nvidia, Goldman Sachs и Wells Fargo. Подход компании к открытому исходному коду и ориентация на практические, готовые к использованию ИИ-решения помогли ей создать сообщество, состоящее из более чем 20 000 организаций и более половины компаний из списка Fortune 500 в качестве клиентов.

Поскольку предприятия продолжают бороться с цифровой трансформацией и необходимостью извлекать выгоду из неструктурированных данных, новые модели языка видения H2O.ai могут стать привлекательным вариантом для тех, кто хочет реализовать решения искусственного интеллекта для документов без вычислительных затрат, связанных с более крупными моделями. Настоящим испытанием будут реальные приложения, но демонстрация H2O.ai конкурентоспособной производительности на гораздо меньших по размеру моделях предполагает многообещающее направление для будущего корпоративного ИИ.

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.