Waymo исследует возможность использования Gemini от Google для обучения своих роботакси

Waymo и его новые технологии для автономных автомобилей

Компания Waymo, принадлежащая Alphabet, всегда подчеркивала связь с DeepMind и многолетние исследования в области ИИ как своё стратегическое преимущество в мире автономного вождения. Теперь Waymo делает шаг вперёд, разрабатывая новую модель обучения для своих роботакси, основанную на многомодальной модели языка Gemini от Google. В новом исследовательском документе Waymo представила «End-to-End Multimodal Model for Autonomous Driving» (EMMA), которая обрабатывает данные с сенсоров для генерации «будущих траекторий для автономных автомобилей».

Преимущества новой модели EMMA

  • Помогает принимать решения о маршруте и избегать препятствий.
  • Использует MLLM в операциях компании, что может расширить возможности их применения в дорожной среде.

В исследовательском письме Waymo говорится о том, что традиционные системы автономного вождения разрабатывались с помощью определенных «модулей» для различных функций, включая восприятие, картографирование, прогнозирование и планирование. Этот подход имеет свои недостатки:

  • Ограниченная коммуникация между модулями.
  • Затруднения в адаптации к новым условиям.

MLLM как решение проблем

Waymo указывает на то, что MLLM, такие как Gemini, могут предложить решение этих проблем:

1. **Обширные знания из интернета**: Они обучены на большом объёме данных, что позволяет им иметь богатые «мировые знания».
2. **Улучшенные способности к рассуждению**: Использование таких методов, как «chain-of-thought reasoning», что имитирует человеческое мышление.

Как работает EMMA

Waymo разработала EMMA для помощи своим роботакси в навигации по сложным условиям. Модель продемонстрировала эффективность в различных ситуациях, например, при встрече с животными или строительными работами на дороге.

Сравнение с конкурентами

Другие компании, такие как Tesla, также разрабатывают end-to-end модели для своих автономных автомобилей. Например, Илон Маск утверждает, что последняя версия системы Full Self-Driving использует «нейронные сети» для перевода изображений в решения для вождения.

Достижения EMMA

Waymo отмечает, что модель EMMA превосходит во множестве задач:

  • Предсказание траекторий.
  • Обнаружение объектов.
  • Понимание дорожной графики.

Ограничения и будущее EMMA

Однако у EMMA есть и свои ограничения. Waymo признает, что будущие исследования необходимы перед применением модели. Некоторые из проблем включают:

1. Невозможность интеграции 3D сенсорных данных из Lidar или Radar из-за высокой вычислительной сложности.
2. Обработка ограниченного количества изображений за раз.

Риски и необходимость дальнейших исследований

Существует также риск использования MLLMs для обучения роботакси. Например, такие чат-боты, как Gemini, могут «галлюцинировать» или не справляться с простыми задачами, как чтение часов или счёт объектов. У Waymo очень небольшой запас ошибки, особенно на высоких скоростях.

Требуется больше исследований перед масштабным внедрением моделей, и Waymo ясно об этом сообщает: «Мы надеемся, что наши результаты вдохновят дальнейшие исследования для смягчения этих проблем», — пишет команда исследователей Waymo.

EMMA: Документ исследования доступен для более подробного ознакомления.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Основатель более 10 стартапов в области ИТ и ИИ. Серийный предприниматель. Профессиональный управленец.