Исследование показывает, что большие языковые модели могут выявлять свои собственные ошибки

Обновление о проблемах больших языковых моделей (LLMs)

Присоединяйтесь к нашим ежедневным и еженедельным новостям для получения самых свежих обновлений и эксклюзивного контента о передовых разработках в области ИИ!

Что такое галлюцинации в языковых моделях?

Одной из известных проблем LLM является их склонность генерировать некорректные или бессмысленные результаты, которые часто называют «галлюцинациями». Исследования преимущественно фокусировались на анализе этих ошибок с точки зрения пользователей. Однако новая работа исследователей из Technion, Google Research и Apple изучает внутренние механизмы LLM, демонстрируя, что модели обладают гораздо более глубоким пониманием правдивости, чем считалось ранее.

Термин «галлюцинация» не имеет универсально принятого определения и включает в себя широкий спектр ошибок. Для своего исследования ученые выбрали широкий подход, рассматривая галлюцинации как любые ошибки, производимые LLM, включая:

  • фактические неточности
  • предвзятости
  • неудачи в здравом смысле
  • другие реальные ошибки

Методология исследования

Большинство предыдущих исследований сосредотачивались на внешнем поведении LLM и анализе восприятия этих ошибок. Однако эти методы предоставляют ограниченную информацию о том, как ошибки закодированы и обрабатываются внутри моделей.

Некоторые исследователи уже рассматривали внутренние представления LLM, предполагая, что они кодируют сигналы правдивости. Однако предыдущие работы в основном фокусировались на последнем токене, сгенерированном моделью. Новое исследование рассматривает «точные ответные токены», которые, если их изменить, повлияют на правильность ответа.

Эксперименты и результаты

Исследователи провели эксперименты на четырех вариантах моделей Mistral 7B и Llama 2 на 10 наборах данных, включая:

  • вопросы и ответы
  • выводы на основе естественного языка
  • решение математических задач
  • анализ настроений

Модели генерировали неограниченные ответы, что имитировало реальное использование. Результаты показали, что информация о правдивости сосредоточена в точных ответных токенах.

Ученые отметили: «Эти закономерности наблюдаются практически на всех наборах данных и моделях, что указывает на общий механизм кодирования и обработки правдивости при генерации текста».

Обучение классификаторов

Исследователи обучили классификаторы, называемые «пробивными классификаторами», предсказывать характеристики, связанные с правдивостью сгенерированных выходов на основе внутренних активаций LLM. Обучение классификаторов на точных ответных токенах значительно улучшает обнаружение ошибок.

Ученые пришли к выводу: «Наша демонстрация того, что обученный пробивной классификатор может предсказать ошибки, указывает на то, что LLM кодируют информацию о своей правдивости».

Общность и специфичность правдивости

Исследователи также выяснили, может ли пробивной классификатор, обученный на одном наборе данных, обнаруживать ошибки в других. Они обнаружили, что классификаторы не обобщаются на разные задачи, проявляя «специфичность навыка» — такие как фактический поиск или здравый смысл.

В целом, выводы указывают на многофасетное представление правдивости моделями, что может способствовать созданию эффективных систем для снижения ошибок.

Будущие перспективы

Результаты исследования помогут в разработке лучших систем для снижения «галлюцинаций». Однако методы требуют доступа к внутренним представлениям LLM, что возможно в основном с открытыми моделями.

Анализ внутренних активаций может помочь в создании более надежных систем и улучшить обнаружение ошибок. Ученые надеются, что глубокое понимание внутренних процессов приведет к более надежным и эффективным системам, уменьшающим количество ошибок.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.