Waymo и его новые технологии для автономных автомобилей
Компания Waymo, принадлежащая Alphabet, всегда подчеркивала связь с DeepMind и многолетние исследования в области ИИ как своё стратегическое преимущество в мире автономного вождения. Теперь Waymo делает шаг вперёд, разрабатывая новую модель обучения для своих роботакси, основанную на многомодальной модели языка Gemini от Google. В новом исследовательском документе Waymo представила «End-to-End Multimodal Model for Autonomous Driving» (EMMA), которая обрабатывает данные с сенсоров для генерации «будущих траекторий для автономных автомобилей».
Преимущества новой модели EMMA
- Помогает принимать решения о маршруте и избегать препятствий.
- Использует MLLM в операциях компании, что может расширить возможности их применения в дорожной среде.
В исследовательском письме Waymo говорится о том, что традиционные системы автономного вождения разрабатывались с помощью определенных «модулей» для различных функций, включая восприятие, картографирование, прогнозирование и планирование. Этот подход имеет свои недостатки:
- Ограниченная коммуникация между модулями.
- Затруднения в адаптации к новым условиям.
MLLM как решение проблем
Waymo указывает на то, что MLLM, такие как Gemini, могут предложить решение этих проблем:
1. **Обширные знания из интернета**: Они обучены на большом объёме данных, что позволяет им иметь богатые «мировые знания».
2. **Улучшенные способности к рассуждению**: Использование таких методов, как «chain-of-thought reasoning», что имитирует человеческое мышление.
Как работает EMMA
Waymo разработала EMMA для помощи своим роботакси в навигации по сложным условиям. Модель продемонстрировала эффективность в различных ситуациях, например, при встрече с животными или строительными работами на дороге.
Сравнение с конкурентами
Другие компании, такие как Tesla, также разрабатывают end-to-end модели для своих автономных автомобилей. Например, Илон Маск утверждает, что последняя версия системы Full Self-Driving использует «нейронные сети» для перевода изображений в решения для вождения.
Достижения EMMA
Waymo отмечает, что модель EMMA превосходит во множестве задач:
- Предсказание траекторий.
- Обнаружение объектов.
- Понимание дорожной графики.
Ограничения и будущее EMMA
Однако у EMMA есть и свои ограничения. Waymo признает, что будущие исследования необходимы перед применением модели. Некоторые из проблем включают:
1. Невозможность интеграции 3D сенсорных данных из Lidar или Radar из-за высокой вычислительной сложности.
2. Обработка ограниченного количества изображений за раз.
Риски и необходимость дальнейших исследований
Существует также риск использования MLLMs для обучения роботакси. Например, такие чат-боты, как Gemini, могут «галлюцинировать» или не справляться с простыми задачами, как чтение часов или счёт объектов. У Waymo очень небольшой запас ошибки, особенно на высоких скоростях.
Требуется больше исследований перед масштабным внедрением моделей, и Waymo ясно об этом сообщает: «Мы надеемся, что наши результаты вдохновят дальнейшие исследования для смягчения этих проблем», — пишет команда исследователей Waymo.
EMMA: Документ исследования доступен для более подробного ознакомления.