
Ярослав Кушта/Getty Images
Может ли искусственный интеллект (ИИ) решить когнитивные головоломки, разработанные для тестов IQ человека? Результаты были неоднозначными.
Исследователи из Института инженерных информационных наук Университета Южной Калифорнии Витерби (ISI) исследовали, могут ли мультимодальные модели большого языка (MLLM) решать абстрактные визуальные тесты, обычно предназначенные для людей.
Представленное на конференции по языковому моделированию (COLM 2024) в Филадельфии на прошлой неделе исследование проверяло «способности невербального абстрактного рассуждения MLLM с открытым и закрытым исходным кодом», проверяя, могут ли модели обработки изображений пойти еще дальше и продемонстрировать рассуждения. навыки при представлении визуальных головоломок.
«Например, если вы видите, что желтый круг превращается в синий треугольник, может ли модель применить тот же шаблон в другом сценарии?» объяснил Киан Арабян, научный сотрудник проекта, согласно Neuroscience News. Эта задача требует, чтобы модель использовала визуальное восприятие и логическое мышление, подобное тому, как думают люди, что делает ее более сложной задачей.
Исследователи протестировали 24 различных MLLM на головоломках, разработанных на основе прогрессивных матриц Равена, стандартного типа абстрактного рассуждения, и модели ИИ не добились успеха.
«Они были действительно плохими. Они ничего не могли получить от этого», — сказал Арабян. Модели изо всех сил пытались понять визуальные эффекты и интерпретировать закономерности.
Однако результаты были разными. В целом, исследование показало, что моделям с открытым исходным кодом было сложнее решать головоломки визуального мышления, чем моделям с закрытым исходным кодом, таким как GPT-4V, хотя они все еще не могли соперничать с человеческими когнитивными способностями. Исследователи смогли помочь некоторым моделям работать лучше, используя технику под названием «Цепочка мыслей», которая шаг за шагом проводит модель через рассуждение в тесте.
Считается, что модели с закрытым исходным кодом лучше справляются с подобными тестами, поскольку они специально разработаны, обучены на больших наборах данных и обладают преимуществами вычислительных мощностей частных компаний. «В частности, GPT-4V относительно хорошо рассуждал, но он далек от совершенства», — отметил Арабян.
«У нас все еще очень ограниченное понимание того, на что способны новые модели ИИ, и пока мы не поймем эти ограничения, мы не сможем сделать ИИ лучше, безопаснее и полезнее», — сказал Джей Пуджара, доцент-исследователь и автор. «Эта статья помогает заполнить недостающую часть истории о том, где борется искусственный интеллект».
Обнаружив слабые места в способности моделей ИИ рассуждать, подобные исследования могут помочь направить усилия на конкретизацию этих навыков в дальнейшем — цель состоит в том, чтобы достичь логики человеческого уровня. Но не волнуйтесь: на данный момент их нельзя сравнить с человеческим познанием.
Искусственный интеллект
-
Как я использовал ChatGPT для сканирования 170 тысяч строк кода за секунды и сэкономил часы детективной работы
-
6 способов лучше писать запросы ChatGPT и быстрее получать желаемые результаты
-
6 строительных блоков цифровых двойников, которые нужны бизнесу, и как в них вписывается ИИ
-
Gems от Google — это краткое введение в оперативную разработку ИИ