Тестирование ИИ для анализа видео
В этом тестировании мы исследуем, как современные ИИ, такие как ChatGPT, Claude и Gemini, понимают видеофайлы, включая контент с YouTube и локальные файлы. Результаты оказались удивительными.
Ключевые выводы
- Gemini может просматривать видео в формате YouTube, MP4 и MOV.
- Claude не может обрабатывать видео напрямую.
- ChatGPT нуждается в помощи Codex для более глубокого анализа видео.
- ИИ неплохо справляются с пониманием текста из запросов и документов.
- Большинство из них хорошо интерпретируют изображения.
Тесты
Второе видео было тестом движения для дрона DJI Neo 2, в котором я просто стоял перед дроном и делал жесты. Хотелось выяснить, поймет ли ИИ, что там происходит. Это видео в формате MP4.
Последнее видео – это оригинальный файл MOV, который я загрузил на YouTube, где я рассказываю о стратегии публикации на платформе. Я использовал локальную версию для своего теста, чтобы проверить, как ИИ сможет понять содержание без метаданных или транскриптов.
Промты и подход
Я использовал простой запрос: «Можешь посмотреть это видео?» Этот запрос лучше работал, чем «понимать» или «резюмировать», поскольку оба последних вызова у ИИ искали метаданные. Слово «смотреть» сигнализировало ИИ, что нужно действительно «посмотреть» видео.
Результаты тестирования
Claude: нет
Claude не смог выполнить задачу. Оба интерфейса (приложение и веб) не смогли обработать видео:
Claude сказал: «Я не могу смотреть видео напрямую. Я не обрабатываю видео или аудио с YouTube или из файлов MP4 и MOV».
Gemini: да
Gemini успешно обработал все форматы видео через веб-интерфейс:
- Он справился с URL-адресом YouTube.
- Смог обработать 625MB MP4 и 1.65GB MOV файл.
Наиболее интересным оказался тест с дроном, так как в видео не было звука и контекста. Однако Gemini смог чётко определить, что я делал:
«На видео вы тестируете некоторые жесты рук… Камера меняет угол и дистанцию по мере вашего движения».
Gemini также смог проанализировать видео о стратегии публикаций и идентифицировать ключевые моменты моих комментариев.
ChatGPT: немного работает с помощью Codex
ChatGPT не справился с задачей напрямую, но с помощью приложения Codex смог выполнить анализ:
Codex смог прочитать локальные файлы и описать смысл видео о дроне:
«Это тестовая съемка дрона в заднем дворе. Человек стоит лицом к камере и делает жесты…».
Codex также смог отобразить и понять контекст видео о стратегии публикаций, но не смог обработать поток YouTube напрямую.
Создание миниатюры
Когда я попросил Codex создать миниатюру для видео, он использовал дополнительные библиотеки, чтобы сделать это:
«Выбери единственный кадр с максимальным эффектом для миниатюры».
Наконец, ChatGPT и Codex показали неплохие результаты в создании миниатюр, хотя и имели некоторые недостатки:
- Codex использовал мои изображения, в отличие от Gemini.
- Но возникли проблемы с цветами и размерами деталей.
Выводы о возможностях ИИ
ИИ может действительно «смотреть» видео и интерпретировать его содержимое намного быстрее, чем длительность воспроизведения. Использование таких инструментов как Gemini и Codex с ChatGPT значительно облегчает рабочие процессы. Они могут быть полезны как для анализа видео, так и для создания миниатюр.
Интересно, что Gemini не требует нескольких инструментов, в то время как ChatGPT нуждается в Codex для выполнения таких задач. Несмотря на это, все три платформы имеют свои сильные и слабые стороны в обработке видеоконтента.