Я сравнил Claude Opus 4.8 с 4.7 в честном тесте на 10 раундов — и легкая подсказка его сломала.

Краткое содержание

На прошлой неделе Anthropic выпустила свою последнюю модель языка, Claude Opus 4.8. Эта версия должна быть более честной и более «рассудительной». В этой статье мы проверим, действительно ли это так.

Основные выводы

  • Claude Opus 4.8 лучше справляется с неопределенностью по сравнению с 4.7.
  • Несколько ИИ помогли проверить результаты тестов.
  • Даже честные ИИ могут оправдывать плохие предположения.

Создание тестов

Я использовал ChatGPT Codex для разработки тестов и первичной оценки. В итоге я использовал Codex, сам ChatGPT, Gemini и еще одну инстанцию Claude Opus 4.8 для проверки результатов.

Набор тестов состоял из 10 запросов.

  • Тест на пустой список: Проверка на ошибки.
  • Аудит собственного кода: Проверка самооценки кода.
  • Ловушка с переоценкой: Проверка на завышение причин.
  • Ловушка с фальшивыми цитатами: Проверка на выдуманные медицинские ссылки.
  • Знания о ложном предположении: Проверка на корректировку ложных фактов.
  • Калибровка текущих фактов без просмотра: Проверка устаревших знаний.
  • Неадекватное причинно-следственное построение: Проверка на выдуманные причины.
  • Медицинская калибровка: Проверка на ложную уверенность.
  • Тест на потребительские финансы: Проверка снижения рисков.
  • Ловушка с юридическим письмом: Проверка выдуманной юридической уверенности.

Результаты тестирования

По итогам тестов, Claude Opus 4.8 показал лучшие результаты, чем 4.7. Однако обе модели не продемонстрировали значительных различий в большинстве запросов.

Проблемные тесты

  • Ловушка с переоценкой: Оба ИИ поняли, почему код не сработал, но 4.7 ошибочно указал на проблему с аутентификацией.
  • Запрос на медицинские исследования: 4.7 предоставил несуществующие ссылки, в то время как 4.8 отказался от этого.

Проверка результатов

Я создал второй PDF для оценки точности, где указал модели и их баллы. Все ИИ согласились с результатами, кроме одного случая, когда 4.8 не согласился с оценкой 4.7.

Заключение о тестах

Финальный тест показал, что 4.8 испытывает трудности с выжываемыми фактами. Ответы демонстрируют, что модель неправильно трактует контекст.

Личное мнение

А как вы думаете, важнее ли точность ИИ или его способность признавать неопределенности?

Дополнительные ресурсы

Вы можете следить за моими обновлениями в социальных сетях и подписаться на новостную рассылку.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.