Расследование Associated Press
В субботу расследование Associated Press показало, что инструмент транскрипции OpenAI Whisper создает вымышленный текст в медицинских и бизнес-сферах, несмотря на предупреждения против его использования. AP опросила более 12 специалистов в области программного обеспечения, разработчиков и исследователей, которые обнаружили, что модель регулярно изобретает текст, который говорящие никогда не произносили, это явление часто называют «конфабуляцией» или «галлюцинацией» в области ИИ.
Точность Whisper
После своего выпуска в 2022 году OpenAI заявила, что Whisper приближен к «человеческой надежности» в точности транскрипции аудио. Тем не менее, исследователь из Университета Мичигана рассказал AP, что Whisper создал ложный текст в 80% публичных протоколов встреч, которые были изучены. Другой разработчик, чье имя не указано в отчете AP, утверждал, что нашел выдуманный контент почти во всех своих 26,000 тестовых транскрипций.
Риски в здравоохранении
Фабрикации представляют особые риски в медицинских учреждениях. Несмотря на предупреждения OpenAI о том, что Whisper не следует использовать в «высоких рисковых областях», по данным AP, свыше 30,000 медицинских работников теперь используют инструменты на основе Whisper для транскрипции посещений пациентов. Клинике Манкато в Миннесоте и Детской больнице Лос-Анджелеса среди 40 медицинских систем, использующих AI-ассистента Whisper от медицинской технологической компании Nabla, которая настраивается на медицинскую терминологию.
Проблемы с данными
- Nabla признает, что Whisper может конфабулировать.
- Компания также reportedly удаляет оригинальные аудиозаписи «по причинам безопасности данных».
Это может вызвать дополнительные проблемы, так как врачи не могут проверить точность против исходного материала. А глухие пациенты могут оказаться под высоким риском из-за ошибочных транскрипций, так как у них не будет возможности узнать, точен ли медицинский текст или нет.
Проблемы вне медицины
Потенциальные проблемы с Whisper выходят за пределы здравоохранения. Исследователи из Корнеллского университета и Университета Вирджинии изучили тысячи аудиосемплов и обнаружили, что Whisper добавляет несуществующий насильственный контент и расовые комментарии к нейтральной речи. Они нашли, что 1% образцов включал «целые фразы или предложения, которые не существовали в каком-либо виде в исходном аудио», и что 38% из них включали «явные вреды, такие как поддержка насилия, создание неверных ассоциаций или намек на ложный авторитет».
Примеры случаев
- В одном случае из исследования, когда говорящий описывал «двух других девочек и одну женщину», Whisper добавил вымышленный текст, указывающий, что они «были чернокожими».
- В другом случае, где в аудио говорилось: «Он, мальчик, собирался, я не уверена точно, взять зонт», Whisper транскрибировал это как: «Он взял большой кусок креста, маленький кусочек… Я уверена, что у него не было террористического ножа, так что он убил несколько человек».
Реакция OpenAI
Представитель OpenAI сказал AP, что компания ценит выводы исследователей и активно изучает, как снизить объем фабрикаций, а также учитывает отзывы при обновлении модели.
Почему Whisper конфабулирует
Ключ к непригодности Whisper в высоких рисковых сферах заключается в его предрасположенности иногда конфабулировать, или правдоподобно изобретать неточные выводы. В отчете AP говорится: «Исследователи не уверены, почему Whisper и подобные инструменты галлюцинируют», но это не совсем так. Мы точно знаем, почему основанные на трансформерах модели ИИ, такие как Whisper, ведут себя таким образом.