«Клубничная» проблема: как преодолеть ограничения ИИ

Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше


К настоящему времени большие языковые модели (LLM), такие как ChatGPT и Claude, стали повседневным словом во всем мире. Многие люди начали беспокоиться о том, что ИИ придет на их работу, поэтому иронично видеть, что почти все системы, основанные на LLM, не справляются с простой задачей: подсчетом количества букв «r» в слове «клубника». Они не только не справляются с алфавитом «r»; другие примеры включают подсчет букв «м» в слове «млекопитающее» и «р» в слове «бегемот». В этой статье я раскрою причину этих сбоев и предложу простой обходной путь.

LLM — это мощные системы искусственного интеллекта, обученные на огромных объемах текста для понимания и создания человеческого языка. Они преуспевают в таких задачах, как ответы на вопросы, перевод на другие языки, обобщение содержания и даже создание творческого письма, прогнозируя и создавая последовательные ответы на основе полученных данных. LLM предназначены для распознавания шаблонов в тексте, что позволяет им решать широкий спектр языковых задач с впечатляющей точностью.

Несмотря на их мастерство, неспособность подсчитать количество букв «r» в слове «клубника» является напоминанием о том, что студенты LLM не способны «думать» как люди. Они не обрабатывают информацию, которую мы им даем, как это сделал бы человек.

«Клубничная» проблема: как преодолеть ограничения ИИ
«Клубничная» проблема: как преодолеть ограничения ИИ
Разговор с ChatGPT и Клодом о количестве букв «r» в клубнике.

Почти все современные высокопроизводительные LLM построены на трансформаторах. Эта архитектура глубокого обучения не принимает текст напрямую в качестве входных данных. Они используют процесс, называемый токенизацией, который преобразует текст в числовые представления или токены. Некоторые токены могут быть полными словами (например, «обезьяна»), тогда как другие могут быть частями слова (например, «мон» и «ключ»). Каждый токен похож на код, который понимает модель. Разбивая все на токены, модель может лучше предсказать следующий токен в предложении.

LLM не запоминают слова; они пытаются понять, как эти жетоны по-разному сочетаются друг с другом, что позволяет им лучше угадывать, что будет дальше. В случае со словом «бегемот» модель может видеть символы букв «хип», «поп», «о» и «тамус», но не знать, что слово «бегемот» состоит из букв — « ч», «и», «п», «п», «о», «р», «о», «т», «а», «м», «у», «с».

Архитектура модели, которая может напрямую просматривать отдельные буквы без их токенизации, потенциально может не иметь этой проблемы, но для сегодняшних архитектур преобразователей это неосуществимо с вычислительной точки зрения.

Далее, если посмотреть на то, как LLM генерируют выходной текст: они предсказывают, каким будет следующее слово, на основе предыдущих входных и выходных токенов. Хотя это работает для создания контекстно-зависимого человеческого текста, оно не подходит для простых задач, таких как подсчет букв. Когда его просят ответить на количество букв «r» в слове «клубника», LLM просто прогнозируют ответ на основе структуры входного предложения.

Вот обходной путь

Хотя студенты LLM, возможно, не способны «думать» или логически рассуждать, они умеют понимать структурированный текст. Прекрасным примером структурированного текста является компьютерный код многих языков программирования. Если мы попросим ChatGPT использовать Python для подсчета количества букв «r» в слове «клубника», он, скорее всего, получит правильный ответ. Когда LLM необходимо выполнить подсчет или выполнить любую другую задачу, которая может потребовать логических рассуждений или арифметических вычислений, можно спроектировать более широкое программное обеспечение таким образом, чтобы подсказки включали в себя просьбу LLM использовать язык программирования для обработки входного запроса.

«Клубничная» проблема: как преодолеть ограничения ИИ

Заключение

Простой эксперимент по подсчету букв выявил фундаментальное ограничение LLM, таких как ChatGPT и Claude. Несмотря на впечатляющие способности генерировать человеческий текст, писать код и отвечать на любые вопросы, эти модели ИИ пока не могут «думать» как человек. Эксперимент показывает модели такими, какие они есть: алгоритмами прогнозирования сопоставления с образцом, а не «интеллектом», способным понимать или рассуждать. Однако предварительное знание того, какие типы подсказок работают хорошо, может в некоторой степени облегчить проблему. По мере того, как интеграция ИИ в нашу жизнь увеличивается, признание его ограничений имеет решающее значение для ответственного использования и реалистичных ожиданий от этих моделей.

Чинмей Джог — старший инженер по машинному обучению в Pangiam.

Лица, принимающие решения по данным

Добро пожаловать в сообщество VentureBeat!

DataDecisionMakers — это место, где эксперты, в том числе технические специалисты, работающие с данными, могут поделиться идеями и инновациями, связанными с данными.

Если вы хотите прочитать о передовых идеях и актуальной информации, передовом опыте и будущем данных и технологий обработки данных, присоединяйтесь к нам на DataDecisionMakers.

Возможно, вы даже захотите написать собственную статью!

Узнайте больше от DataDecisionMakers

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.