В течение некоторого времени такие компании, как OpenAI и Google, рекламировали расширенные возможности «рассуждения» как следующий большой шаг в своих последних моделях искусственного интеллекта. Однако теперь новое исследование шести инженеров Apple показывает, что математическое «рассуждение», отображаемое продвинутыми моделями большого языка, может быть чрезвычайно хрупким и ненадежным перед лицом, казалось бы, тривиальных изменений в общих тестовых задачах.
Хрупкость, подчеркнутая в этих новых результатах, помогает поддержать предыдущие исследования, предполагающие, что использование LLM вероятностного сопоставления шаблонов не обеспечивает формального понимания основных концепций, необходимых для действительно надежных возможностей математического рассуждения. «Современные программы магистратуры не способны к подлинно логическим рассуждениям», — предполагают исследователи, основываясь на этих результатах. «Вместо этого они пытаются повторить шаги рассуждения, наблюдаемые в их обучающих данных».
Смешайте это
В книге «GSM-Symbolic: понимание ограничений математического рассуждения в моделях большого языка», которая в настоящее время доступна в виде препринта, шесть исследователей Apple начинают со стандартизированного набора GSM8K, состоящего из более чем 8000 математических словесных задач на уровне начальной школы, который часто используется. в качестве эталона сложных рассуждений современных студентов-магистров права. Затем они применяют новый подход: модифицируют часть этого набора тестов для динамической замены определенных имен и чисел новыми значениями — поэтому вопрос о том, что Софи получает 31 стандартный блок для своего племянника в GSM8K, может стать вопросом о том, что Билл получает 19 строительных блоков для его брат в новой GSM-символической оценке.
Этот подход помогает избежать любого потенциального «загрязнения данных», которое может возникнуть в результате ввода статических вопросов GSM8K непосредственно в обучающие данные модели ИИ. В то же время эти случайные изменения вообще не меняют фактической сложности математических рассуждений, а это означает, что модели теоретически должны работать так же хорошо при тестировании на GSM-символическом протоколе, как и на GSM8K.
Вместо этого, когда исследователи протестировали более 20 современных LLM на GSM-Symbolic, они обнаружили, что средняя точность снизилась по всем направлениям по сравнению с GSM8K, при этом производительность упала на 0,3–9,2 процента, в зависимости от модели. Результаты также показали высокую дисперсию по 50 отдельным запускам GSM-Symbolic с разными именами и значениями. Разрывы в точности до 15 процентов между лучшими и худшими прогонами были обычным явлением в рамках одной модели, и по какой-то причине изменение чисел имело тенденцию приводить к худшей точности, чем изменение названий.
Такого рода расхождения – как в рамках разных прогонов GSM-символов, так и по сравнению с результатами GSM8K – более чем удивительны, поскольку, как отмечают исследователи, «общие шаги рассуждения, необходимые для решения вопроса, остаются прежними». Тот факт, что такие небольшие изменения приводят к таким переменным результатам, позволяет исследователям предположить, что эти модели не выполняют никаких «формальных» рассуждений, а вместо этого представляют собой «попытку».[ing] выполнить своего рода сопоставление шаблонов в распределении, сопоставляя заданные вопросы и шаги решения с аналогичными, наблюдаемыми в обучающих данных».
Не отвлекайтесь
Тем не менее, общая дисперсия, показанная для GSM-символических тестов, часто была относительно небольшой по большому счету. Например, точность ChatGPT-4o от OpenAI упала с 95,2 процента на GSM8K до все еще впечатляющих 94,9 процента на GSM-Symbolic. Это довольно высокий показатель успеха при использовании любого из тестов, независимо от того, использует ли сама модель «формальные» рассуждения за кулисами (хотя общая точность для многих моделей резко упала, когда исследователи добавили к задачам всего один или два дополнительных логических шага). ).
Однако протестированные LLM показали себя гораздо хуже, когда исследователи Apple изменили тест GSM-Symbolic, добавив к вопросам «казалось бы значимыми, но в конечном итоге несущественными утверждениями». Для этого набора тестов «GSM-NoOp» (сокращение от «нет операций») вопрос о том, сколько киви кто-то собирает за несколько дней, можно изменить, включив в него случайную деталь, что «пять из них [the kiwis] были немного меньше среднего».
Добавление этих отвлекающих факторов привело к тому, что исследователи назвали «катастрофическим падением производительности» точности по сравнению с GSM8K: от 17,5 процентов до колоссальных 65,7 процентов, в зависимости от тестируемой модели. Такое резкое падение точности подчеркивает внутренние ограничения использования простого «сопоставления с образцом» для «преобразования операторов в операции без полного понимания их смысла», пишут исследователи.