Инструмент транскрипции OpenAI ошибается. Больницы все равно его используют.

Расследование Associated Press

В субботу расследование Associated Press показало, что инструмент транскрипции OpenAI Whisper создает вымышленный текст в медицинских и бизнес-сферах, несмотря на предупреждения против его использования. AP опросила более 12 специалистов в области программного обеспечения, разработчиков и исследователей, которые обнаружили, что модель регулярно изобретает текст, который говорящие никогда не произносили, это явление часто называют «конфабуляцией» или «галлюцинацией» в области ИИ.

Точность Whisper

После своего выпуска в 2022 году OpenAI заявила, что Whisper приближен к «человеческой надежности» в точности транскрипции аудио. Тем не менее, исследователь из Университета Мичигана рассказал AP, что Whisper создал ложный текст в 80% публичных протоколов встреч, которые были изучены. Другой разработчик, чье имя не указано в отчете AP, утверждал, что нашел выдуманный контент почти во всех своих 26,000 тестовых транскрипций.

Риски в здравоохранении

Фабрикации представляют особые риски в медицинских учреждениях. Несмотря на предупреждения OpenAI о том, что Whisper не следует использовать в «высоких рисковых областях», по данным AP, свыше 30,000 медицинских работников теперь используют инструменты на основе Whisper для транскрипции посещений пациентов. Клинике Манкато в Миннесоте и Детской больнице Лос-Анджелеса среди 40 медицинских систем, использующих AI-ассистента Whisper от медицинской технологической компании Nabla, которая настраивается на медицинскую терминологию.

Проблемы с данными

  • Nabla признает, что Whisper может конфабулировать.
  • Компания также reportedly удаляет оригинальные аудиозаписи «по причинам безопасности данных».

Это может вызвать дополнительные проблемы, так как врачи не могут проверить точность против исходного материала. А глухие пациенты могут оказаться под высоким риском из-за ошибочных транскрипций, так как у них не будет возможности узнать, точен ли медицинский текст или нет.

Проблемы вне медицины

Потенциальные проблемы с Whisper выходят за пределы здравоохранения. Исследователи из Корнеллского университета и Университета Вирджинии изучили тысячи аудиосемплов и обнаружили, что Whisper добавляет несуществующий насильственный контент и расовые комментарии к нейтральной речи. Они нашли, что 1% образцов включал «целые фразы или предложения, которые не существовали в каком-либо виде в исходном аудио», и что 38% из них включали «явные вреды, такие как поддержка насилия, создание неверных ассоциаций или намек на ложный авторитет».

Примеры случаев

  • В одном случае из исследования, когда говорящий описывал «двух других девочек и одну женщину», Whisper добавил вымышленный текст, указывающий, что они «были чернокожими».
  • В другом случае, где в аудио говорилось: «Он, мальчик, собирался, я не уверена точно, взять зонт», Whisper транскрибировал это как: «Он взял большой кусок креста, маленький кусочек… Я уверена, что у него не было террористического ножа, так что он убил несколько человек».

Реакция OpenAI

Представитель OpenAI сказал AP, что компания ценит выводы исследователей и активно изучает, как снизить объем фабрикаций, а также учитывает отзывы при обновлении модели.

Почему Whisper конфабулирует

Ключ к непригодности Whisper в высоких рисковых сферах заключается в его предрасположенности иногда конфабулировать, или правдоподобно изобретать неточные выводы. В отчете AP говорится: «Исследователи не уверены, почему Whisper и подобные инструменты галлюцинируют», но это не совсем так. Мы точно знаем, почему основанные на трансформерах модели ИИ, такие как Whisper, ведут себя таким образом.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.