Tesla выпустила World Simulator для обучения FSD и робота Optimus
Нейросеть обучает нейросеть, и во всем этом многообразии нейросетей прикрывает их она, третья нейросеть.
Бригада? Не совсем. Илон Макс называет это World Simulator.
Недавно Tesla анонсировала технологию, способную моделировать и обучать нейронную сеть, которая потом используется для автономного вождения в своих авто.
На видео World Simulator генерирует различные ракурсы движения автомобиля в процессе его перемещения. Да да, это видео AI.
World Simulator Tesla сгенерировал различные ракурсы движения автомобиля.
При этом технология способна самостоятельно моделировать различные сценарии, отталкиваясь от идентичного исходного видео.
Слева реальное видео с рандомной камеры владельца Tesla, справа смоделированная ситуация в World Simulator, когда водитель белой машины резко решил заехать за хлебом.
Слева реальное видео, справа решили добавить еще мусорки и посмотреть, что будет.
По сути World Simulator, это технология (ИИ, нейросеть, как еще назвать?), к которой можно подключать различные «тела» (беспилотные автомобили и роботы) и обучать их. Ее также можно использовать для обучения робота Optimus.
Optimus передвигается по виртуальной реальности, созданной нейросетью Tesla.
Тоже самое, что и выше, только уже на складе WB.
Этот бесконечный полигон для тренировок позволит шлифовать скиллы как FSD, так и робокопу. Так как же это все работает? Недавно на конференции ICCV 2025 Ашок Эллусвами (главный по ИИ в Tesla) показал эту кухню изнутри.
Один нейросетевой мозг, но два тела
Как известно, Tesla использует для FSD сквозную (end-to-end) нейронную сеть.
Обрабатываемые данные:
Camera videos (Видео с камер).
Navigation maps (Навигационные карты): Существуют разные типы карт, и Tesla использует их не так, как, например, Waymo или их китайские братья Xpeng, Xiaomi, Nio, Aito и т.д.. Tesla не использует высокодетализированные HD-карты, которые требуют постоянного обновления и в которых заранее прописано много вещей. Карты не являются сенсором в реальном времени. Просто как доп. информация.
Vehicle kinematics (Кинематика авто): скорость, ускорение, чтобы команды были плавными и физически осуществимыми.
Audio (аудиоданные): Аудиосигнал дает информацию, которую иногда невозможно или сложно получить только с помощью камер. Например, обнаружение спецтранспорта.
Что означает выбор этого сквозного (end-to-end) технологического пути?
Чтобы понять, что делает Tesla, сначала нужно знать, что существуют два принципиально разных технологических подхода.
Первый путь, выбранный большинством компаний, можно назвать «модульным» методом (Waymo, Яндекс). Этот подход разбивает задачу вождения на несколько независимых этапов: Perception, Prediction, Planning. Про них очень много написано, не буду тут останавливаться.
Второй путь, выбранный Tesla (и еще Wayve), это сквозная (End-to-End) нейронная сеть. В Tesla не существует независимых модулей Perception, Prediction, Planning. Есть лишь одна огромная унифицированная нейронная сеть.
На вход ей подаются пиксельные изображения с камер, скорость, аудиоданные, навигационная информация, короче все, что на картинке выше. На выходе две команды: угол поворота рулевого колеса и усилие нажатия на педаль газа (акселератора наверно будет правильнее) или тормоза.
Каждый из подходов имеет свои преимущества и недостатки.
Сторонники end-to-end: каждый модуль косячит и передает ошибку следующему по цепочке. Отсутствие взаимодействия между модулями приводит к нестабильности при обучении.
Модульщики им в ответ: ваш end-to-end черный ящик. Отловить коллизии трудно. Непонятно почему система вдруг решила вот так, а не иначе.
1. Codifying human values is incredibly difficult
Сложные реальные дорожные ситуации полны ситуаций, требующих взвешенных решений, которые трудно полностью описать программными правилами. Однако нейросеть может неявно обучиться этим компромиссам, анализируя огромные массивы данных о вождении человека.
Пример: в следующей ситуации FSD должен решить: проехать прямо через большую лужу перед ним или выехать на полосу встречного движения. Обычно резкое перестроение на встречную полосу сопряжено с риском.
Традиционная модульная система столкнулась бы здесь с конфликтом. В ее программе могут быть два правила:
1. Никогда не выезжать на встречную полосу;
2. Избегать наезда на препятствия (такую большую лужу).
Когда правила конфликтуют, как должна поступить система? Однако в данном случае видимость хорошая, и в обозримом будущем встречных машин не предвидится. Кроме того, лужа довольно большая, и ее лучше объехать.
Подобное взвешивание обстоятельств крайне сложно описать традиционной программной логикой, но человек, взглянув на ситуацию, мгновенно понимает, как поступить.
Это один из тысяч кейсов, с которыми приходится сталкиваться. Здесь важно не то, что FSD следует правилам, а то, что он обучается способу принятия решений, который гораздо ближе к человеческой системе ценностей.
2. Interface between perception, prediction and planning is ill-defined
В первом подходе сложно четко определить интерфейсы между модулями Perception, Prediction и Planning.
Рассмотрим два сценария: на дороге стадо кур, переходящих проезжую часть, и стадо гусей, прогуливающихся посередине дороги. Создать четкий набор правил для взаимодействия между модулями Perception и Planning сложно.
В модульной системе Perception может передать Planning информацию: «Обнаружена группа птиц». Но эта информация ни о чем не говорит. Намерения птичек тонкая, плохо поддающаяся количественной оценке информация.
Модуль Planning не может определить, следует ли ему замедлить движение и уступить дорогу или можно безопасно объехать.
Птицы находятся у края дороги и хотят перейти дорогу, FSD останавливается и ожидает.
Тут птицы находится у обочины, но они просто хотят остаться на месте, FSD объезжает их не замедляясь.
В End-to-end сети такие барьеры отсутствуют. Вся сеть работает как единое целое, напрямую понимая из пикселей изображения разницу между двумя типами: «птицы хотят перейти дорогу» и «птицы хотят остаться на месте» и напрямую выдавая соответствующее поведение. От входа к выходу информация течет непрерывно, без потерь на промежуточных этапах.
Именно по этим причинам Tesla выбрала сквозной подход. Хотя он, конечно, сопряжен и со значительными трудностями.
В чем трудность?
Современная система автономного вождения должна обрабатывать входную информацию с высокой частотой кадров и высоким разрешением. Tesla подсчитала, что если разбить входные данные на минимальные токены, общее количество токенов достигнет 2 миллиардов.
Задача нейронной сети найти среди этих 2 миллиардов правильные причинно-следственные связи и в конечном итоге сжать их до 2 токенов: куда крутить руль и как сильно газовать и тормозить.
Это чрезвычайно сложная проблема: ИИ легко может выучить ошибочные, случайные «корреляции» в таком море данных, а не истинную «причинность». Tesla создала сложный конвейер «движка данных», который автоматически отбирает из огромного массива видео наиболее интересные, редкие и качественные образцы для обучения.
Когда ИИ обучается на достаточном количестве таких «сложных случаев», он демонстрирует способность к обобщению.
Например, в сценарии скользкой дороги после дождя ИИ начинает замедляться заранее, до того как впереди идущее транспортное средство явно потеряет управление. Он понимает дождь -> автомобиль впереди может занести -> он может удариться о ограждение и отскочить на полосу движения.
Кроме того, FSD может объяснять свои решения на естественном языке. Эта система уже частично работает в версии FSD v14.x.
World Simulator безграничный trial-and-error испытания для FSD и Optimus
Тестирование обученной системы автономного вождения на реальных дорогах опасно и занимает много времени. Даже если FSD идеально справляется с историческими данными, это не гарантирует, что он будет так же хорошо работать в реальном мире. Для решения этой проблемы Tesla представила World Simulator.
Он предсказывает как будет выглядеть мир, исходя из текущего состояния и действия водителя, то есть генерирует с высочайшей точностью то, что должны видеть все камеры транспортного средства. Ну и далее можно помещать FSD в этот смоделированный мир и оценивать результаты + создать провокационные сценарии и моделировать разные варианты развития этих ситуаций.
При чем тут человекоподобные роботы?
Амбиции Tesla давно вышли за рамки просто производства авто. Настоящая их цель создание фундаментального движка, способного решать задачи взаимодействия с физическим миром.
World Simulator для Optimus.
Лучшим доказательством служит то, что World Simulator сразу же переиспользовали для Optimus и теперь она генерирует сценарии как он ходит виртуально по каким-то цехам.
Если статья вам понравилась, у меня есть небольшой канал, где я рассказываю про беспилотные авто, там же пишу про электромобили, FSD (например, такой пост), китайские FSD, экономику, даже есть немного автомаркетинга (что-то типа такого). Посты выходят не часто, примерно раз в 1-2 дня, но регулярно. Буду благодарен за подписку.






































