На этой неделе в области искусственного интеллекта: технологические гиганты используют синтетические данные

Привет, ребята, добро пожаловать в регулярный информационный бюллетень TechCrunch по искусственному интеллекту. Если вы хотите, чтобы это письмо приходило вам каждую среду, зарегистрируйтесь здесь.

На этой неделе в сфере искусственного интеллекта синтетические данные приобрели особое значение.

OpenAI в прошлый четверг представила Canvas, новый способ взаимодействия с ChatGPT, своей платформой чат-ботов на базе искусственного интеллекта. Canvas открывает окно с рабочей областью для написания и кодирования проектов. Пользователи могут генерировать текст или код в Canvas, а затем, при необходимости, выделять разделы для редактирования с помощью ChatGPT.

С точки зрения пользователя, Canvas — это значительное улучшение качества жизни. Но что большинство Для нас интересной в этой функции является точно настроенная модель, лежащая в ее основе. OpenAI заявляет, что адаптировала свою модель GPT-4o, используя синтетические данные, чтобы «обеспечить новые взаимодействия с пользователем» в Canvas.

«Мы использовали новые методы генерации синтетических данных, такие как выделение результатов из предварительного просмотра OpenAI o1, чтобы точно настроить GPT-4o для открытия холста, внесения целевых изменений и оставления высококачественных комментариев в режиме онлайн», — руководитель отдела продуктов ChatGPT Ник Терли. написал в своем сообщении на X. «Этот подход позволил нам быстро улучшить модель и обеспечить новые взаимодействия с пользователем, не полагаясь на данные, созданные человеком».

OpenAI — не единственная крупная технологическая компания, которая все больше полагается на синтетические данные для обучения своих моделей.

При разработке Movie Gen, набора инструментов на базе искусственного интеллекта для создания и редактирования видеоклипов, Meta частично полагалась на синтетические субтитры, созданные ответвлением ее моделей Llama 3. Компания наняла команду аннотаторов, чтобы исправить ошибки и добавить больше деталей к подписям, но основная часть работы была в значительной степени автоматизирована.

Генеральный директор OpenAI Сэм Альтман утверждает, что когда-нибудь ИИ будет производить синтетические данные, достаточно хорошие для эффективного обучения. Это было бы выгодно для таких компаний, как OpenAI, которые тратят целое состояние на аннотаторов и лицензии на данные.

Meta самостоятельно настроила модели Llama 3, используя синтетические данные. Сообщается, что OpenAI получает синтетические данные обучения от o1 для своей модели следующего поколения под кодовым названием Orion.

Но использование подхода, основанного на синтетических данных, сопряжено с рисками. Как недавно заметил мне один исследователь, модели, используемые для генерации синтетических данных, неизбежно галлюцинируют (т. е. выдумывают) и содержат предвзятости и ограничения. Эти недостатки проявляются в сгенерированных данных моделей.

Таким образом, безопасное использование синтетических данных требует их тщательной обработки и фильтрации — как это является стандартной практикой с данными, созданными человеком. Невыполнение этого требования может привести к краху модели, когда модель станет менее «творческой» — и более предвзятой — в своих результатах, что в конечном итоге серьезно поставит под угрозу ее функциональность.

Это непростая задача в больших масштабах. Но поскольку реальные обучающие данные становятся все более дорогостоящими (не говоря уже о том, что их становится сложнее получить), поставщики ИИ могут рассматривать синтетические данные как единственный реальный путь вперед. Будем надеяться, что они проявят осторожность при его принятии.

Новости

Реклама в обзорах AI: Google заявляет, что скоро начнет показывать рекламу в обзорах AI, сводках, созданных AI, которые он предоставляет для определенных поисковых запросов Google.

Google Lens, теперь с видео: Lens, приложение для визуального поиска Google, было обновлено и теперь позволяет отвечать на вопросы о вашем окружении практически в реальном времени. Вы можете снимать видео через Lens и задавать вопросы об объектах, которые вас интересуют в видео. (Вероятно, для этого тоже появится реклама.)

От Соры до DeepMind: Тим Брукс, один из руководителей видеогенератора OpenAI Sora, ушел в конкурента Google DeepMind. Брукс объявил в сообщении на X, что будет работать над технологиями генерации видео и «симуляторами мира».

Сглаживание этого: Black Forest Labs, стартап, поддерживаемый Андреессеном Горовицем и создающий компонент генерации изображений в помощнике Grok от xAI, запустил бета-версию API и выпустил новую модель.

Не так прозрачно: Недавно принятый в Калифорнии законопроект AB-2013 требует от компаний, разрабатывающих генеративные системы искусственного интеллекта, публиковать общее резюме данных, которые они использовали для обучения своих систем. Пока лишь немногие компании готовы сказать, будут ли они соблюдать требования. Закон дает им срок до января 2026 года.

Научный доклад недели

На этой неделе в области искусственного интеллекта: технологические гиганты используют синтетические данные

Исследователи Apple уже много лет усердно работают над компьютерной фотографией, и важным аспектом этого процесса является картирование глубины. Первоначально это делалось с помощью стереоскопии или специального датчика глубины, такого как лидар, но они, как правило, дороги, сложны и занимают ценную внутреннюю площадь. Делать это строго программно во многих отношениях предпочтительнее. Именно об этом и рассказывает статья Depth Pro.

Алексей Бочковский и др. поделитесь методом монокулярной оценки глубины с нуля с высокой детализацией, что означает, что он использует одну камеру, не требует обучения конкретным вещам (например, он работает на верблюде, несмотря на то, что он никогда его не видел), и улавливает даже такие сложные аспекты, как пучки волос. Он почти наверняка сейчас используется на iPhone (хотя, вероятно, это улучшенная, специально созданная версия), но вы можете попробовать, если хотите провести небольшую оценку глубины самостоятельно, используя код на этой странице GitHub.

Модель недели

Google выпустила новую модель семейства Gemini — Gemini 1.5 Flash-8B, которая, по утверждению компании, является одной из самых производительных.

«Дистиллированная» версия Gemini 1.5 Flash, которая уже была оптимизирована по скорости и эффективности, Gemini 1.5 Flash-8B стоит на 50 % дешевле в использовании, имеет меньшую задержку и имеет вдвое более высокие ограничения скорости в AI Studio, ориентированном на искусственный интеллект Google. среда разработчика.

«Flash-8B почти соответствует производительности модели Flash 1.5, выпущенной в мае, во многих тестах», — пишет Google в своем блоге. «Наши модели [continue] чтобы получать информацию от отзывов разработчиков и наших собственных испытаний того, что возможно».

По словам Google, Gemini 1.5 Flash-8B хорошо подходит для чата, транскрипции и перевода, а также для любых других «простых» и «объемных» задач. Помимо AI Studio, модель также доступна бесплатно через API Gemini от Google, скорость которого ограничена 4000 запросами в минуту.

Захватите сумку

Говоря о дешевом искусственном интеллекте, Anthropic выпустила новую функцию — API пакетов сообщений, которая позволяет разработчикам асинхронно обрабатывать большие объемы запросов к моделям искусственного интеллекта за меньшие деньги.

Подобно пакетным запросам Google для API Gemini, разработчики, использующие API пакетов сообщений Anthropic, могут отправлять пакеты до определенного размера — 10 000 запросов — на пакет. Каждый пакет обрабатывается в течение 24 часов и стоит на 50% меньше, чем стандартные вызовы API.

Anthropic утверждает, что API пакетов сообщений идеально подходит для «крупномасштабных» задач, таких как анализ наборов данных, классификация больших наборов данных и оценка моделей. «Например, — пишет компания в своем сообщении, — анализ целых репозиториев корпоративных документов, которые могут включать в себя миллионы файлов, становится более экономически выгодным за счет использования [this] Скидка на пакетную обработку».

API пакетов сообщений доступен в общедоступной бета-версии с поддержкой моделей Anthropic Claude 3.5 Sonnet, Claude 3 Opus и Claude 3 Haiku.

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.