|
|
Чат-бот Claude оценивает уровень владения программой на основании взаимодействия с пользователем. Изображение: VectorStock. |
В своем недавнем исследовании под названием «Индекс компетентности ИИ» компания Anthropic оспорила устоявшиеся представления, дав чат-боту Claude возможность оценивать пользователей. Изучая структуру диалогов, ИИ ранжирует уровень владения языком по 11-балльной шкале.
Для создания системы компетенций, включающей 24 стандарта, компания Anthropic использовала аналитические инструменты для анализа 9830 реальных диалогов с пользователями.
Из них 13 критериев относятся к ситуациям вне экрана, например, скрывают ли пользователи использование ИИ от руководителей. Остальные 11 критериев представляют собой показатели поведения пользователей, разделенные на три ключевых аспекта: описание, авторизация и идентификация.
|
|
Распространенность каждого поведенческого индикатора во взаимодействиях с ИИ за 9830 разговоров с Клодом. Изображение: Anthropic. |
Во-первых, важен способ формулирования запроса, где пользователи должны продемонстрировать реальное понимание желаемого. В отличие от расплывчатых команд, высоко оцененные пользователи четко обозначают свою конечную цель и объясняют контекст. Они также предъявляют конкретные требования к стилю изложения, например, просят ИИ создать таблицы или ограничить количество слов. Интересно, что эта группа часто включает примеры эссе в качестве образцов, чтобы ИИ мог «имитировать» правильный стиль с самого начала.
Второй аспект — это подход к делегированию задач. Исследования показывают, что опытные пользователи воспринимают ИИ как собеседника, а не как безмозглую машину. Самое заметное различие заключается в настойчивости. Вместо того чтобы отдать команду один раз, они участвуют в нескольких раундах диалога для уточнения и корректировки ответов ИИ до полного удовлетворения. Такое поведение наблюдается в 85,7% высококачественных диалогов.
Последний аспект — распознавание, который служит фильтром, предотвращающим введение в заблуждение информацией, предоставляемой чат-ботами. Пользователи должны постоянно сомневаться в логике рассуждений, просить ИИ объяснить каждую строчку кода или запрашивать точные ссылки. Им также необходима достаточная проницательность, чтобы выявлять недостаток контекста в решениях ИИ, чтобы вовремя оценивать и корректировать выводы.
|
|
Опытные пользователи обычно получают от Claude оценку около 7-8. Фото: X. |
Однако исследование также обращает внимание на тревожную психологическую ловушку, известную как «парадокс красивого интерфейса». Когда функция «Артефакты» в Claude создает визуально привлекательные продукты, такие как аккуратно написанный код или идеальная диаграмма, наш мозг склонен «лениво мыслить» и прекращает критическое восприятие.
Статистика исследования показывает, что при наличии отполированного интерфейса процент пользователей, активно ищущих недостатки, сразу снижается на 5,2%. Способность проверить достоверность информации сокращается на 3,7%, а степень сомнений в логике уменьшается на 3,1%.
«Если что-то выглядит идеально, пользователи автоматически предполагают, что это правильно», — отметили эксперты компании Anthropic.
Такой субъективный подход чрезвычайно опасен. На самом деле, чем сложнее задача, тем выше вероятность ошибок ИИ или «фабрикаций» информации. Если люди будут оценивать внутреннее качество лишь по внешнему виду, ИИ сможет легко их обмануть.
Согласно отчету, те, кто активно взаимодействует и указывает на недостатки ИИ, получают оценки в 5-6 раз выше, чем среднестатистические пользователи. Они также чаще выявляют недостатки и несоответствия по сравнению с остальными. Эти «эксперты» обычно получают от Claude оценки около 7-8/11.
Источник: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html