Inflection помогает исправить несоответствия RLHF с помощью уникальных моделей для корпоративного агентного ИИ

Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше

Недавний диалог в X (ранее Twitter) между профессором Уортонской школы Итаном Молликом и Андреем Карпати, бывшим директором по искусственному интеллекту в Tesla и соучредителем OpenAI, затрагивает нечто одновременно увлекательное и основополагающее: многие из лучших сегодняшних моделей генеративного искусственного интеллекта, в том числе от OpenAI, Anthropic и Google — демонстрируют поразительное сходство в тоне, вызывая вопрос: почему большие языковые модели (LLM) сходятся не только в техническом уровне, но и в личностных качествах?

В последующем комментарии указывалась общая особенность, которая может способствовать тенденции конвергенции результатов: обучение с подкреплением и обратной связью с человеком (RLHF), метод, в котором модели ИИ настраиваются на основе оценок, предоставленных тренерами-людьми.

Основываясь на этом обсуждении роли RLHF в сходстве результатов, недавние анонсы Inflection AI о Inflection 3.0 и коммерческом API могут обеспечить многообещающее направление для решения этих проблем. Он представил новый подход к RLHF, направленный на то, чтобы сделать генеративные модели не только последовательными, но и особенно чуткими.

С выходом в корпоративное пространство создатели коллекции моделей Pi используют RLHF более детально: от целенаправленных усилий по улучшению моделей точной настройки до собственной платформы, которая учитывает отзывы сотрудников и адаптирует результаты генерации ИИ к организационной культуре. . Стратегия направлена на то, чтобы сделать модели Inflection AI настоящими культурными союзниками, а не просто обычными чат-ботами, предоставляя предприятиям более человечную и согласованную систему искусственного интеллекта, которая будет выделяться из толпы.

Inflection AI хочет, чтобы ваши рабочие чат-боты заботились о вас

На этом фоне конвергенции Inflection AI, создатели модели Пи, идут по другому пути. С недавним запуском Inflection for Enterprise компания Inflection AI стремится сделать эмоциональный интеллект, получивший название «EQ», основной функцией для своих корпоративных клиентов.

Компания заявляет, что ее уникальный подход к RLHF выделяет ее среди других. Вместо того, чтобы полагаться на анонимную маркировку данных, компания запросила отзывы у 26 000 школьных учителей и профессоров университетов, чтобы помочь в процессе тонкой настройки через собственную платформу обратной связи. Кроме того, платформа позволяет корпоративным клиентам проводить обучение с подкреплением с учетом отзывов сотрудников. Это дает возможность последующей настройки модели под уникальный голос и стиль компании заказчика.

Подход Inflection AI обещает, что компании будут «владеть» своим интеллектом, то есть локальной моделью, точно настроенной с использованием собственных данных, которые надежно управляются в их собственных системах. Это заметный отход от облачно-ориентированных моделей искусственного интеллекта, с которыми знакомы многие предприятия. По мнению Inflection, такая установка повысит безопасность и будет способствовать большей согласованности между результатами искусственного интеллекта и тем, как люди используют его на работе.

Что такое RLHF и чем не является

RLHF стал центральным элементом разработки поколения искусственного интеллекта, во многом потому, что он позволяет компаниям формировать ответы, которые будут более полезными, последовательными и менее склонными к опасным ошибкам. Использование OpenAI RLHF стало основой для того, чтобы сделать такие инструменты, как ChatGPT, привлекательными и в целом заслуживающими доверия для пользователей. RLHF помогает согласовать поведение модели с человеческими ожиданиями, делая ее более привлекательной и уменьшая нежелательные результаты.

Однако RLHF не лишен недостатков. RLHF быстро предложили в качестве причины, способствующей сближению результатов моделей, что потенциально могло привести к потере уникальных характеристик и сделать модели все более похожими. Казалось бы, согласованность обеспечивает последовательность, но она также создает проблему для дифференциации.

Ранее сам Карпати указал на некоторые ограничения, присущие RLHF. Он сравнил это с игрой по проверке вибрации и подчеркнул, что она не дает «реального вознаграждения», подобного соревновательным играм, таким как AlphaGo. Вместо этого RLHF оптимизирует эмоциональный резонанс, который в конечном итоге является субъективным и может не соответствовать практическим или сложным задачам.

От EQ к AQ

Чтобы смягчить некоторые из этих ограничений RLHF, Inflection AI применила более тонкую стратегию обучения. Компания не только реализовала улучшенный RLHF, но также предприняла шаги в направлении возможностей агентного ИИ, которые сокращенно обозначаются как AQ (коэффициент действия). Как описал Уайт в недавнем интервью, корпоративные цели Inflection AI заключаются в том, чтобы дать моделям возможность не только понимать и сопереживать, но и предпринимать значимые действия от имени пользователей — от отправки последующих электронных писем до помощи в решении проблем в реальном времени.

Хотя подход Inflection AI, безусловно, является инновационным, есть потенциальные недостатки, которые следует учитывать. Контекстное окно токена 8K, используемое для вывода, меньше, чем у многих высокопроизводительных моделей, а производительность их новейших моделей не оценивалась. Несмотря на амбициозные планы, модели Inflection AI могут не достичь желаемого уровня производительности в реальных приложениях.

Тем не менее, переход от EQ к AQ может ознаменовать критическую эволюцию в разработке искусственного интеллекта, особенно для корпоративных клиентов, желающих использовать автоматизацию как для когнитивных, так и для операционных задач. Речь идет не только о сочувственном общении с клиентами или сотрудниками; Inflection AI надеется, что Inflection 3.0 также будет выполнять задачи, которые преобразуют эмпатию в действие. Партнерство Inflection с платформами автоматизации, такими как UiPath, для предоставления этого «агентного ИИ» еще больше укрепляет их стратегию, позволяющую выделиться на все более переполненном рынке.

Навигация по постсулеймановскому миру

За последний год Inflection AI претерпел значительные внутренние изменения. Уход генерального директора Мустафы Сулеймана из состава Microsoft вместе со значительной частью команды поставил под сомнение траекторию развития компании. Однако назначение Уайта генеральным директором и обновленная команда менеджеров определили новый курс для организации.

Это «переоснование» было сосредоточено на использовании корпоративного искусственного интеллекта с целью предоставления персонализированного и глубоко встроенного опыта искусственного интеллекта, а не общих решений для чат-ботов.

Пи… на самом деле довольно популярен

Уникальный подход Inflection AI к Pi набирает обороты за пределами корпоративного пространства, особенно среди пользователей таких платформ, как Reddit. Сообщество Пи открыто рассказывало о своем опыте, делясь положительными анекдотами и обсуждая вдумчивые и чуткие ответы Пи.

Такая массовая популярность показывает, что Inflection AI может добиться чего-то значительного. Опираясь на эмоциональный интеллект и эмпатию, Inflection создает не только ИИ, который помогает, но и ИИ, который находит отклик у людей, будь то на предприятии или в качестве личных помощников. Такой уровень вовлеченности пользователей предполагает, что их внимание к EQ может стать ключом к выделению себя в среде, где другие LLM рискуют слиться друг с другом.

Что будет дальше с Inflection AI

В дальнейшем акцент Inflection AI на функциях постобучения, таких как поиск-дополненная генерация (RAG) и агентные рабочие процессы, направлен на то, чтобы их технологии оставались на переднем крае потребностей предприятия. Inflection AI утверждает, что конечная цель — вступить в эру после графического пользовательского интерфейса, когда ИИ не просто реагирует на команды, но активно помогает обеспечить плавную интеграцию различных бизнес-систем.

До сих пор не решено, сможет ли новый подход Inflection AI значительно повысить сходство результатов. Однако, если новаторские идеи Уайта и его команды принесут свои плоды, EQ может стать ключевым показателем для оценки эффективности генеративной технологии вашей компании.

ВБ Дейли

Будьте в курсе! Получайте последние новости на свой почтовый ящик ежедневно

Подписываясь, вы соглашаетесь с Условиями обслуживания VentureBeat.

Спасибо за подписку. Другие информационные бюллетени VB можно найти здесь.

Произошла ошибка.

Inflection помогает исправить несоответствия RLHF с помощью уникальных моделей для корпоративного агентного ИИ

Inflection AI хочет, чтобы ваши рабочие чат-боты заботились о вас

Что такое RLHF и чем не является

От EQ к AQ

Навигация по постсулеймановскому миру

Пи… на самом деле довольно популярен

Что будет дальше с Inflection AI

Как мы с помощью ИИ воскрешали игру для кнопочных телефонов / Хабр

Как бесплатно выучить Claude Code с курсами ИИ от Anthropic — один из них...

Европейский центробанк предупреждает: ожидаются кибератаки с применением высоких технологий ИИ

Ваш телефон на Android...

РЖД и «Вертолеты России»...

Двухфакторная аутентификация утратила свою...

Ии который генерирует картинки по тексту?

Что представляет собой восходящая парадигма ии?

Ия остергрен сколько лет?

AI в спортивной аналитике: кейсы использования для повышения эффективности команд

Как компании используют AI для улучшения кибербезопасности

AI в образовании: примеры автоматизации учебного процесса

Inflection помогает исправить несоответствия RLHF с помощью уникальных моделей для корпоративного агентного ИИ

Inflection AI хочет, чтобы ваши рабочие чат-боты заботились о вас

Что такое RLHF и чем не является

От EQ к AQ

Навигация по постсулеймановскому миру

Пи… на самом деле довольно популярен

Что будет дальше с Inflection AI

ПОХОЖИЕ МАТЕРИАЛЫ