Введение в новые достижения Hugging Face
Присоединяйтесь к нашим ежедневным иWeekly рассылкам, чтобы получать последние обновления и эксклюзивный контент об индустриальном AI. Узнайте больше!
Революция в моделях AI
Компания Hugging Face добилась замечательного прорыва в области AI, представив модели визуального языка, которые могут работать на таких небольших устройствах, как смартфоны, при этом превосходя своих предшественников.
Новая модель SmolVLM-256M
Модель SmolVLM-256M требует менее одного гигабайта памяти GPU и превосходит по производительности модель Idefics 80B, которая была разработана всего 17 месяцев назад и была в 300 раз больше. Это значительное сокращение размера и улучшение возможностей знаменует важный момент для практического применения AI.
Сравнение производительности
- SmolVLM 256M и 500M consistently outperform модели с 80 миллиардами параметров.
Преимущества для бизнеса
Новые модели SmolVLM — это 256M и 500M параметров — обрабатывают изображения и понимают визуальный контент на скоростях, которые ранее были недоступны для их размера. Самая маленькая версия обрабатывает 16 примеров в секунду, используя только 15 ГБ ОЗУ с размером пакета 64, что делает её особенно привлекательной для компаний, работающих с большими объемами визуальных данных. Например:
- Для компании среднего размера, обрабатывающей 1 миллион изображений в месяц, это приведет к значительной экономии затрат на вычисления.
- Сокращение объема памяти позволяет развернуть на более дешевых облачных инстансах, сокращая затраты на инфраструктуру.
Партнерство с IBM
Hugging Face уже привлек внимание крупных технологических компаний. IBM сотрудничает с Hugging Face для интеграции модели 256M в свое программное обеспечение обработки документов Docling.
Технические инновации
Эффективность достигается за счет технических новшеств как в обработке изображений, так и в языковых компонентах. Команда перешла от 400M параметров к 93M, используя более агрессивные методы сжатия токенов.
Преобразование для стартапов и малых предприятий
Эти разработки могут стать трансформационными для стартапов и малых компаний:
- Стартапы могут запускать сложные продукты компьютерного зрения за недели вместо месяцев.
- Затраты на инфраструктуру становятся менее prohibitive.
Новые возможности с SmolVLM
Модели открывают полностью новые приложения, включая продвинутые возможности поиска документов через ColiPali, алгоритм, который создает searchable базы данных из архивов документов.
Анализ данных SmolVLM
Данные о 1.7 миллиардов примерах обучения показывают, что обработка документов и создание подписям для изображений составляют почти половину набора данных.
Будущее AI в малых моделях
Это достижение бросает вызов стандартным представлениям о соотношении размера модели и её возможностей. Хотя многие исследователи считали, что большие модели необходимы для сложных задач визуального языка, SmolVLM демонстрирует, что меньшие и более эффективные архитектуры могут достигать аналогичных результатов.
- Версия на 500M параметров достигает 90% производительности своей модели на 2.2B параметров.
- Модели с меньшим размером могут быть чрезвычайно полезны для бизнеса.
Доступность и влияние на индустрию
Модели доступны с открытым исходным кодом, что продолжает традицию Hugging Face по увеличению доступа к технологиям AI. Эта доступность, в сочетании с эффективностью моделей, ускорит принятие AI в различных отраслях, от здравоохранения до розницы.
Перспективы Hugging Face
С достижением Hugging Face, будущее AI может заключаться не в крупнейших моделях, работающих в удаленных дата-центрах, а в эффективных системах, работающих прямо на наших устройствах.