Подпишитесь на наши ежедневные и еженедельные информационные бюллетени, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли технологиях искусственного интеллекта. Узнать больше
В этом году наша команда из лаборатории MIT Data to AI решила попробовать использовать большие языковые модели (LLM) для выполнения задачи, которую обычно выполняют очень разные инструменты машинного обучения, — обнаружения аномалий в данных временных рядов. Это была обычная задача машинного обучения (МО) на протяжении десятилетий, которая часто использовалась в промышленности для прогнозирования и обнаружения проблем в тяжелой технике. Мы разработали структуру для использования LLM в этом контексте, а затем сравнили их эффективность с 10 другими методами, от современных инструментов глубокого обучения до простого метода 1970-х годов, называемого авторегрессионным интегрированным скользящим средним (ARIMA). В конце концов, LLM в большинстве случаев проиграли другим моделям — даже старой модели ARIMA, которая превзошла ее по семи наборам данных из 11.
Для тех, кто мечтает о LLM как о абсолютно универсальной технологии решения проблем, это может звучать как поражение. И для многих представителей сообщества ИИ, которые открывают для себя текущие ограничения этих инструментов, это, вероятно, неудивительно. Но были два элемента наших выводов, которые нас действительно удивили. Во-первых, способность LLM превосходить некоторые модели, в том числе некоторые методы глубокого обучения на основе преобразователей, застала нас врасплох. Вторым и, возможно, даже более важным сюрпризом было то, что в отличие от других моделей LLM делали все это без какой-либо тонкой настройки. Мы использовали GPT-3.5 и LLM Mistral «из коробки» и совершенно их не настраивали.
LLM преодолели множество фундаментальных барьеров
Для подходов, не связанных с LLM, мы будем обучать модель глубокого обучения или вышеупомянутую модель 1970-х годов, используя сигнал, для которого мы хотим обнаружить аномалии. По сути, мы будем использовать исторические данные в качестве сигнала для обучения модели, чтобы она понимала, как выглядит «нормально». Затем мы развернули модель, позволив ей обрабатывать новые значения сигнала в реальном времени, обнаруживать любые отклонения от нормы и отмечать их как аномалии.
LLM не нуждались в предыдущих примерах
Но когда мы использовали LLM, мы не выполняли этот двухэтапный процесс — LLM не имели возможности изучать «нормальные» сигналы до того, как им пришлось обнаруживать аномалии в реальном времени. Мы называем это обучением с нулевым выстрелом. Если смотреть через этот объектив, это невероятное достижение. Тот факт, что LLM могут выполнять обучение с нуля — переходя к этой проблеме без каких-либо предыдущих примеров или точной настройки — означает, что теперь у нас есть способ обнаруживать аномалии без обучения конкретных моделей с нуля для каждого отдельного сигнала или конкретного условия. Это огромный выигрыш в эффективности, поскольку некоторые типы тяжелой техники, например спутники, могут принимать тысячи сигналов, в то время как другие могут требовать подготовки к конкретным условиям. С помощью LLM эти трудоемкие шаги можно полностью пропустить.
LLM можно напрямую интегрировать в развертывание.
Вторая, возможно, более сложная часть современных методов обнаружения аномалий — это двухэтапный процесс, используемый для обучения и развертывания модели машинного обучения. Хотя развертывание кажется достаточно простым, на практике это очень сложная задача. Для развертывания обученной модели необходимо перевести весь код, чтобы его можно было запускать в производственной среде. Что еще более важно, мы должны убедить конечного пользователя, в данном случае оператора, разрешить нам развернуть модель. Сами операторы не всегда имеют опыт работы с машинным обучением, поэтому часто считают это дополнительным, сбивающим с толку элементом, добавленным к их и без того перегруженному рабочему процессу. Они могут задавать такие вопросы, как «как часто вы будете проходить переподготовку», «как нам вводить данные в модель», «как мы используем их для различных сигналов и отключаем их для других, которые сейчас не являются нашей целью». ,» и так далее.
Такая передача обычно вызывает разногласия и в конечном итоге приводит к невозможности развернуть обученную модель. Благодаря LLM, поскольку не требуется никакого обучения или обновлений, операторы все контролируют. Они могут выполнять запросы с помощью API, добавлять сигналы, для которых они хотят обнаружить аномалии, удалять те, для которых им не требуется обнаружение аномалий, а также включать или отключать службу, не завися от другой команды. Эта возможность операторов напрямую контролировать обнаружение аномалий изменит сложную динамику развертывания и может помочь сделать эти инструменты более распространенными.
Повышая эффективность LLM, мы не должны лишать их основополагающих преимуществ.
Хотя они побуждают нас фундаментально переосмыслить обнаружение аномалий, методы на основе LLM еще не эффективны так же, как современные модели глубокого обучения или (для 7 наборов данных) модель ARIMA 1970-х годов. Возможно, это связано с тем, что моя команда в Массачусетском технологическом институте каким-либо образом не настроила и не модифицировала LLM и не создала основополагающий LLM, специально предназначенный для использования с временными рядами.
Хотя все эти действия могут подтолкнуть иглу вперед, нам нужно быть осторожными в том, как происходит эта тонкая настройка, чтобы не поставить под угрозу два основных преимущества, которые LLM могут себе позволить в этой области. (В конце концов, хотя вышеописанные проблемы реальны, они решаемы.) Однако, учитывая это, вот что мы не можем сделать для повышения точности обнаружения аномалий LLM:
- Точная настройка существующих LLM для конкретных сигналов, поскольку это разрушит их природу «нулевого выстрела».
- Создайте базовую программу LLM для работы с временными рядами и добавьте уровень тонкой настройки для каждого нового типа оборудования.
Эти два шага разрушили бы цель использования LLM и вернули бы нас обратно к тому, с чего мы начали: необходимости обучать модель для каждого сигнала и сталкиваться с трудностями при развертывании.
Сообщество ИИ должно разработать новые ограждения
Чтобы LLM могли конкурировать с существующими подходами — обнаружением аномалий или другими задачами ML — они должны либо обеспечить новый способ выполнения задачи, либо открыть совершенно новый набор возможностей. Чтобы доказать, что LLM с любыми добавленными уровнями по-прежнему будет представлять собой улучшение, сообщество ИИ должно разработать методы, процедуры и практики, чтобы гарантировать, что улучшения в некоторых областях не устраняют другие преимущества LLM.
Классическому машинному обучению потребовалось почти два десятилетия, чтобы создать практику обучения, тестирования и проверки, на которую мы полагаемся сегодня. Даже при таком процессе мы не всегда можем гарантировать, что производительность модели в тестовых средах будет соответствовать ее реальной производительности при развертывании. Мы сталкиваемся с проблемами утечки меток, предвзятостью данных при обучении и многими другими проблемами, чтобы их можно было даже перечислить здесь.
Если мы продвинем этот многообещающий новый путь слишком далеко без этих конкретных ограждений, мы можем снова изобрести велосипед — возможно, даже более сложный.
Калян Вирамачанени — директор лаборатории данных MIT для искусственного интеллекта. Он также является сооснователем ДатаЦебо.
Сара Альнегхаймиш — исследователь лаборатории данных MIT для искусственного интеллекта.
Лица, принимающие решения по данным
Добро пожаловать в сообщество VentureBeat!
DataDecisionMakers — это место, где эксперты, в том числе технические специалисты, работающие с данными, могут поделиться идеями и инновациями, связанными с данными.
Если вы хотите прочитать о передовых идеях и актуальной информации, передовом опыте и будущем данных и технологий обработки данных, присоединяйтесь к нам на DataDecisionMakers.
Возможно, вы даже захотите написать собственную статью!
Узнайте больше от DataDecisionMakers