Я провел последние две недели, разговаривая с искусственным интеллектом. Вот три моих главных вывода.


Человек, использующий диктовку со смартфона.



(Изображение предоставлено: Shutterstock)

Если вы следите за последними новостями об искусственном интеллекте, то знаете, что здесь есть чат-боты, с которыми вы можете общаться с помощью голоса. OpenAI был одним из первых, кто продемонстрировал эту технологию с помощью расширенного голосового режима ChatGPT (в настоящее время бесплатно только в течение 10 минут в месяц), но Google первым вышел на рынок с Gemini Live (теперь бесплатный для всех пользователей Android), а недавно к нему присоединилась Microsoft. обновив свой веб-сайт и приложение Copilot (которые бесплатны для всех), включив в них голосовые разговоры.

Возможность разговаривать с ИИ, используя наш голос, и заставлять его отвечать, как человек, была научно-фантастической мечтой с тех пор, как капитан Джеймс Т. Кирк обратился к корабельному компьютеру в «Звездном пути», но именно более поздние научно-фантастические творения оказались неотличимы от людей, таких как HAL 9000 и репликанты «Бегущего по лезвию», что разожгло наше воображение о возможностях ИИ, который мог бы взаимодействовать как человек.

Теперь мы, кажется, живем в будущем, потому что вы можете прямо сейчас разговаривать с ИИ, используя смартфон или компьютер, на котором вы это читаете. Но хотя мы добились огромного прогресса в создании человека, похожего на компаньона, нам еще предстоит пройти долгий путь, как я недавно обнаружил, протестировав новейшие ИИ с голосовым управлением — расширенный голосовой режим ChatGPT, Gemini Live и Copilot — в их темпах. на пару недель. Вот три моих главных вывода:

Расширенный голосовой режим ChatGPT на смартфоне.

(Изображение предоставлено: OpenAI)

1. Прерывания — отличная идея, но они не работают должным образом.

Самая большая проблема, которую я вижу в говорящих ИИ, — это возможность успешно их прервать или их способность перебивать вас, когда вы этого не хотите. Замечательно, что ChatGPT, Gemini Live и Copilot позволяют вам прерывать, главным образом потому, что они имеют тенденцию давать длинные и тяжеловесные ответы на все, что вы их спрашиваете, и без этой возможности вы бы не стали их использовать. Однако этот процесс часто имеет недостатки; либо они пропустят ваше вмешательство, либо ответят на ваше вмешательство еще большим разговором. Обычно это что-то вроде: «Хорошо, о чем бы вы хотели узнать вместо этого?», когда все, что вам нужно, — это прекратить говорить, чтобы вы могли начать говорить. Результатом обычно является беспорядочная серия прыжков и начинаний, которая убивает естественный ход разговора и не позволяет ему чувствовать себя человечным.

Довольно часто на этой неделе я кричал на телефон: «Просто перестань говорить!», просто чтобы вставить слово, а это некрасиво. Тем более, что большую часть дня я сижу в офисе в окружении людей.

Еще одна проблема, с которой я часто сталкивался со всеми чат-ботами, — это думать, что я закончил говорить, хотя на самом деле я просто делал паузу, чтобы обдумать свои мысли, и все еще был на середине предложения. Весь опыт работы с искусственным интеллектом должен быть гладким, как масло, чтобы вы могли быть в нем уверены, иначе чары разрушятся.

2. Недостаточно местной информации.

Спросите любого из нынешних чат-ботов, где лучше всего купить пиццу, и, кроме Gemini Live, вам ответят, что они не могут искать в Интернете. Gemini Live здесь значительно впереди — он порекомендует где-нибудь хорошее место, где можно купить пиццу. Рекомендации неплохие, и хотя он не может забронировать для вас столик, он даст вам номер телефона ресторана.

Голосовые чат-боты, очевидно, должны иметь возможность просматривать веб-страницы, как и текстовые чат-боты в настоящее время, но сейчас расширенный голосовой режим ChatGPT и Copilot не могут, и это огромный недостаток, когда дело доходит до доставки актуальной информации.

Рука, держащая телефон, показывает голосовой режим ChatGPT Advanced.

(Изображение предоставлено: OpenAI)

3. Они недостаточно личные

Чтобы голосовой ИИ был полезен, ему нужно знать много информации о вас. Он также должен иметь доступ к вашим важным приложениям, таким как ваш почтовый ящик и календарь. На данный момент он не может этого сделать. Если вы спросите его: «Эй, я свободен в эту пятницу в 16:00?» или «Когда приближается следующий семейный день рождения?», вам ответят, что он не может сделать это прямо сейчас, и без такого рода Из-за способностей полезность голосового ИИ просто падает с обрыва.

Рука держит iPhone 15 Pro с Siri на фоне искусственного интеллекта

(Изображение предоставлено: Будущее / Apple)

Итак, чем же хорош говорящий ИИ?

На данный момент лучшее использование голосового ИИ — это задавать вопросы, давать вам некоторую мотивацию что-то делать или придумывать идеи, о которых вы сами бы не подумали. Выберите тему и заставьте ИИ вступить с вами в разговор, и вы обнаружите, что он знает удивительно много вещей. Это увлекательно! Например, одна из вещей, о которой я действительно много знаю, — это бразильское джиу-джитсу, и я обнаружил, что могу вовлечь каждого из чат-ботов в довольно хороший разговор об этом, вплоть до удивительного уровня детализации техник и позиций. Основываясь на своем опыте, я бы сказал, что второй пилот дал мне лучшие ответы и что Близнецы, похоже, с большей вероятностью галлюцинировали вещи, которые не были правдой.

С точки зрения интерфейса, я думаю, ChatGPT лидирует. Мне очень нравится, как его вращающийся шар реагирует пульсом, синхронизирующимся с тем, что вы говорите, что дает вам уверенность, что он действительно слушает. Gemini Live, напротив, имеет в основном темный экран со светящейся областью внизу, которая не дает вам точки фокусировки для взгляда, что приводит к немного более бездушному опыту.

Искусственный интеллект, с которым вы можете поговорить прямо сейчас, отлично подходит для углубления в темы исследований, но он также кажется немного незавершенным, и ему потребуется гораздо больше интеграции с нашими смартфонами, прежде чем он сможет работать на том уровне, который нам, естественно, хотелось бы. это чтобы. Конечно, со временем станет лучше. Сейчас слоном в комнате является Apple Intelligence и связанная с ней Siri, которые оба опоздали на вечеринку. Мы все еще ждем даты выпуска Apple Intelligence, и даже тогда мы не получим полноценную поющую и танцующую Siri только в следующем году.

Прямо сейчас перспектива создания искусственного интеллекта, с которым мы сможем общаться, как с другом или настоящим виртуальным помощником, кажется заманчиво близкой, но до нее еще очень далеко.

Вам также может понравиться…

  • Gemini Live уже здесь, бесплатный и болтливый
  • Новый «Canvas» ChatGPT — это помощник ИИ, о котором вы даже не подозревали.
  • Я уже несколько месяцев пользуюсь рабочим ноутбуком со специальным ключом Microsoft Copilot — и это заставило меня понять одну вещь.

Грэм — старший редактор отдела искусственного интеллекта в TechRadar. Имея более чем 25-летний опыт работы как в онлайн-, так и в печатной журналистике, Грэм работал в различных ведущих технологических брендах, включая Computeractive, PC Pro, iMore, MacFormat, Mac|Life, Maximum PC и других. Он специализируется на репортажах обо всем, что связано с искусственным интеллектом, и появлялся в телешоу BBC, таких как BBC One Breakfast, и на Radio 4, комментируя последние тенденции в области технологий. Грэм имеет диплом с отличием в области компьютерных наук, а свободное время проводит за подкастингом и ведением блогов.

Последний
Meta Quest 3 рядом с табличкой с надписью "Не пропустите"

Моего любимого предложения по Meta Quest 3 в этот Prime Day нет на Amazon, но если вы будете действовать быстро, вы все равно сможете найти его в другом месте.

Посмотреть больше последних
ТЕМЫ

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.