Краткое содержание
На прошлой неделе Anthropic выпустила свою последнюю модель языка, Claude Opus 4.8. Эта версия должна быть более честной и более «рассудительной». В этой статье мы проверим, действительно ли это так.
Основные выводы
- Claude Opus 4.8 лучше справляется с неопределенностью по сравнению с 4.7.
- Несколько ИИ помогли проверить результаты тестов.
- Даже честные ИИ могут оправдывать плохие предположения.
Создание тестов
Я использовал ChatGPT Codex для разработки тестов и первичной оценки. В итоге я использовал Codex, сам ChatGPT, Gemini и еще одну инстанцию Claude Opus 4.8 для проверки результатов.
Набор тестов состоял из 10 запросов.
- Тест на пустой список: Проверка на ошибки.
- Аудит собственного кода: Проверка самооценки кода.
- Ловушка с переоценкой: Проверка на завышение причин.
- Ловушка с фальшивыми цитатами: Проверка на выдуманные медицинские ссылки.
- Знания о ложном предположении: Проверка на корректировку ложных фактов.
- Калибровка текущих фактов без просмотра: Проверка устаревших знаний.
- Неадекватное причинно-следственное построение: Проверка на выдуманные причины.
- Медицинская калибровка: Проверка на ложную уверенность.
- Тест на потребительские финансы: Проверка снижения рисков.
- Ловушка с юридическим письмом: Проверка выдуманной юридической уверенности.
Результаты тестирования
По итогам тестов, Claude Opus 4.8 показал лучшие результаты, чем 4.7. Однако обе модели не продемонстрировали значительных различий в большинстве запросов.
Проблемные тесты
- Ловушка с переоценкой: Оба ИИ поняли, почему код не сработал, но 4.7 ошибочно указал на проблему с аутентификацией.
- Запрос на медицинские исследования: 4.7 предоставил несуществующие ссылки, в то время как 4.8 отказался от этого.
Проверка результатов
Я создал второй PDF для оценки точности, где указал модели и их баллы. Все ИИ согласились с результатами, кроме одного случая, когда 4.8 не согласился с оценкой 4.7.
Заключение о тестах
Финальный тест показал, что 4.8 испытывает трудности с выжываемыми фактами. Ответы демонстрируют, что модель неправильно трактует контекст.
Личное мнение
А как вы думаете, важнее ли точность ИИ или его способность признавать неопределенности?
Дополнительные ресурсы
Вы можете следить за моими обновлениями в социальных сетях и подписаться на новостную рассылку.