Обновление о проблемах больших языковых моделей (LLMs)
Присоединяйтесь к нашим ежедневным и еженедельным новостям для получения самых свежих обновлений и эксклюзивного контента о передовых разработках в области ИИ!
Что такое галлюцинации в языковых моделях?
Одной из известных проблем LLM является их склонность генерировать некорректные или бессмысленные результаты, которые часто называют «галлюцинациями». Исследования преимущественно фокусировались на анализе этих ошибок с точки зрения пользователей. Однако новая работа исследователей из Technion, Google Research и Apple изучает внутренние механизмы LLM, демонстрируя, что модели обладают гораздо более глубоким пониманием правдивости, чем считалось ранее.
Термин «галлюцинация» не имеет универсально принятого определения и включает в себя широкий спектр ошибок. Для своего исследования ученые выбрали широкий подход, рассматривая галлюцинации как любые ошибки, производимые LLM, включая:
- фактические неточности
- предвзятости
- неудачи в здравом смысле
- другие реальные ошибки
Методология исследования
Большинство предыдущих исследований сосредотачивались на внешнем поведении LLM и анализе восприятия этих ошибок. Однако эти методы предоставляют ограниченную информацию о том, как ошибки закодированы и обрабатываются внутри моделей.
Некоторые исследователи уже рассматривали внутренние представления LLM, предполагая, что они кодируют сигналы правдивости. Однако предыдущие работы в основном фокусировались на последнем токене, сгенерированном моделью. Новое исследование рассматривает «точные ответные токены», которые, если их изменить, повлияют на правильность ответа.
Эксперименты и результаты
Исследователи провели эксперименты на четырех вариантах моделей Mistral 7B и Llama 2 на 10 наборах данных, включая:
- вопросы и ответы
- выводы на основе естественного языка
- решение математических задач
- анализ настроений
Модели генерировали неограниченные ответы, что имитировало реальное использование. Результаты показали, что информация о правдивости сосредоточена в точных ответных токенах.
Ученые отметили: «Эти закономерности наблюдаются практически на всех наборах данных и моделях, что указывает на общий механизм кодирования и обработки правдивости при генерации текста».
Обучение классификаторов
Исследователи обучили классификаторы, называемые «пробивными классификаторами», предсказывать характеристики, связанные с правдивостью сгенерированных выходов на основе внутренних активаций LLM. Обучение классификаторов на точных ответных токенах значительно улучшает обнаружение ошибок.
Ученые пришли к выводу: «Наша демонстрация того, что обученный пробивной классификатор может предсказать ошибки, указывает на то, что LLM кодируют информацию о своей правдивости».
Общность и специфичность правдивости
Исследователи также выяснили, может ли пробивной классификатор, обученный на одном наборе данных, обнаруживать ошибки в других. Они обнаружили, что классификаторы не обобщаются на разные задачи, проявляя «специфичность навыка» — такие как фактический поиск или здравый смысл.
В целом, выводы указывают на многофасетное представление правдивости моделями, что может способствовать созданию эффективных систем для снижения ошибок.
Будущие перспективы
Результаты исследования помогут в разработке лучших систем для снижения «галлюцинаций». Однако методы требуют доступа к внутренним представлениям LLM, что возможно в основном с открытыми моделями.
Анализ внутренних активаций может помочь в создании более надежных систем и улучшить обнаружение ошибок. Ученые надеются, что глубокое понимание внутренних процессов приведет к более надежным и эффективным системам, уменьшающим количество ошибок.