Я протестировал, могут ли Gemini, ChatGPT и Claude анализировать видео — этот победил.

Тестирование ИИ для анализа видео

В этом тестировании мы исследуем, как современные ИИ, такие как ChatGPT, Claude и Gemini, понимают видеофайлы, включая контент с YouTube и локальные файлы. Результаты оказались удивительными.

Ключевые выводы

  • Gemini может просматривать видео в формате YouTube, MP4 и MOV.
  • Claude не может обрабатывать видео напрямую.
  • ChatGPT нуждается в помощи Codex для более глубокого анализа видео.
  • ИИ неплохо справляются с пониманием текста из запросов и документов.
  • Большинство из них хорошо интерпретируют изображения.

Тесты

Второе видео было тестом движения для дрона DJI Neo 2, в котором я просто стоял перед дроном и делал жесты. Хотелось выяснить, поймет ли ИИ, что там происходит. Это видео в формате MP4.

Последнее видео – это оригинальный файл MOV, который я загрузил на YouTube, где я рассказываю о стратегии публикации на платформе. Я использовал локальную версию для своего теста, чтобы проверить, как ИИ сможет понять содержание без метаданных или транскриптов.

Промты и подход

Я использовал простой запрос: «Можешь посмотреть это видео?» Этот запрос лучше работал, чем «понимать» или «резюмировать», поскольку оба последних вызова у ИИ искали метаданные. Слово «смотреть» сигнализировало ИИ, что нужно действительно «посмотреть» видео.

Результаты тестирования

Claude: нет

Claude не смог выполнить задачу. Оба интерфейса (приложение и веб) не смогли обработать видео:

Claude сказал: «Я не могу смотреть видео напрямую. Я не обрабатываю видео или аудио с YouTube или из файлов MP4 и MOV».

Gemini: да

Gemini успешно обработал все форматы видео через веб-интерфейс:

  • Он справился с URL-адресом YouTube.
  • Смог обработать 625MB MP4 и 1.65GB MOV файл.

Наиболее интересным оказался тест с дроном, так как в видео не было звука и контекста. Однако Gemini смог чётко определить, что я делал:

«На видео вы тестируете некоторые жесты рук… Камера меняет угол и дистанцию по мере вашего движения».

Gemini также смог проанализировать видео о стратегии публикаций и идентифицировать ключевые моменты моих комментариев.

ChatGPT: немного работает с помощью Codex

ChatGPT не справился с задачей напрямую, но с помощью приложения Codex смог выполнить анализ:

Codex смог прочитать локальные файлы и описать смысл видео о дроне:

«Это тестовая съемка дрона в заднем дворе. Человек стоит лицом к камере и делает жесты…».

Codex также смог отобразить и понять контекст видео о стратегии публикаций, но не смог обработать поток YouTube напрямую.

Создание миниатюры

Когда я попросил Codex создать миниатюру для видео, он использовал дополнительные библиотеки, чтобы сделать это:

«Выбери единственный кадр с максимальным эффектом для миниатюры».

Наконец, ChatGPT и Codex показали неплохие результаты в создании миниатюр, хотя и имели некоторые недостатки:

  • Codex использовал мои изображения, в отличие от Gemini.
  • Но возникли проблемы с цветами и размерами деталей.

Выводы о возможностях ИИ

ИИ может действительно «смотреть» видео и интерпретировать его содержимое намного быстрее, чем длительность воспроизведения. Использование таких инструментов как Gemini и Codex с ChatGPT значительно облегчает рабочие процессы. Они могут быть полезны как для анализа видео, так и для создания миниатюр.

Интересно, что Gemini не требует нескольких инструментов, в то время как ChatGPT нуждается в Codex для выполнения таких задач. Несмотря на это, все три платформы имеют свои сильные и слабые стороны в обработке видеоконтента.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.