Добавьте людей: Исследование Оксфорда подчеркивает недостающее звено в тестировании чат-ботов

Присоединяйтесь к событию, которому доверяют лидеры отрасли

VB Transform собирает людей, которые создают настоящую стратегию ИИ для бизнеса. Узнайте больше.

Логика фонового теста: Большие языковые модели (LLMs)

Заголовки уже на протяжении многих лет сообщают, что большие языковые модели (LLMs) могут не только сдать медицинские экзамены, но и превзойти людей. Модель GPT-4 может правильно отвечать на вопросы медицинских лицензий в США на 90% времени, даже в примитивные дни ИИ в 2023 году. С тех пор LLMs смогли обойти даже студентов-резидентов и лицензированных врачей.

Сравнение с Google доктором

Пока Google Doctor отходит на второй план, ChatGPT, M.D. выходит на авансцену. Но вам может понадобиться больше, чем диплом от LLM для пациентов. Хотя модель может знать название каждой кости в руке, она не всегда способна прямо применять свои знания в реальном мире.

Исследование Оксфордского университета

По данным исследования, проведенного Оксфордским университетом, LLMs правильно идентифицировали относящиеся условия в 94.9% случаев, но когда люди использовали LLMs для диагностики, правильные ответы составили менее 34.5% случаев.

  • Участники, использующие LLMs, показали плохие результаты
  • Группа, проводившая самодиагностику, идентифицировала верные условия на 76% чаще, чем группа с LLMs

Исследование, проведенное на 1,298 участниках

Исследователи Оксфорда собрали 1,298 участников, которые представлялись пациентами для LLM. Участники получили подробные сценарии болезней.

  • Представьте себе 20-летнего студента-инженера с сильной головной болью
  • Сценарии включали важные медицинские детали и «отвлекающие маневры»

Что пошло не так?

Участники не всегда корректно сообщали информацию LLM, а LLM иногда неверно интерпретировали их подсказки. Например, один участник, указывая симптомы желчнокаменной болезни, не указал местоположение боли, и LLM сделала неверный вывод.

Переменные человека

Этот опыт не удивителен для специалистов, таких как Натали Волькхаймер из Университета Северной Каролины. Она подчеркивает важность четких подсказок для получения качественного вывода.

Измерение успеха LLMs

Исследование Оксфорда поднимает важный вопрос: как мы измеряем успех LLMs? Когда LLM проходит медицинские лицензионные экзамены, это не означает, что он адекватен для живого взаимодействия с пациентами.

Как это влияет на бизнес?

Представьте, что предприятие внедряет чат-бот, основанный на своей внутренней базе знаний. Тестирование на типичных вопросах клиентов может показывать высокую точность, но реальный опыт пользователей может отличаться.

Использование ИИ для тестирования ИИ

Оксфордские исследователи также испытали симулированных участников и получили лучшие результаты: 60.7% случаев правильной идентификации заболеваний. Это говорит о том, что LLMs лучше работают друг с другом, чем с людьми.

Наш вывод

Не следует обвинять пользователей, если они не достигают желаемых результатов. Первое, что нужно сделать, — понять функциональность и ожидания пользователей.

  • Важен анализ пользовательского опыта
  • Тщательная документация для LLM необходима для её полезности

Каждая технология создается людьми, и это означает, что все наши ошибки и слабости могут быть встроены в наши решения.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.