Вышла новая модель для управления роботами Qwen-VLA
Показана новая универсальная модель Qwen-VLA, в которой одна политика управляет манипуляцией, навигацией и разными роботами, переходя от понимания мира к целенаправленным действиям.
Данными стали более 10к ч открытых, более 1к ч реальных и более 8 млн синтетических траекторий манипуляции с видом от первого лица (Ego4D и другие), а ещё VLM-данные, навигация и 48k описаний действий.
Четыре этапа обучения включали T2A с замороженным VLM и декодером, обучавшимся превращать язык в действие без картинок, CPT с разморозкой VLM и декодера для совместного обучения на всех модальностях и получения Qwen-VLA-Base, этап SFT для мультизадачной и реальной донастройки, а также RL (PPO) оптимизирующий успех на симуляции (SimplerEnv) в замкнутом цикле, что создало Qwen-VLA-Instruct.
В результате уровень манипуляции достиг 97.9% на LIBERO, 73.7% на Simpler-WidowX и около 86-87% на RoboTwin (одна модель против специализированных), а навигация на VLN-CE превосходит открытые аналоги. Реальные эксперименты ALOHA показали в среде 83.6%, вне среды 76.9% (против 71.6% и 41.5% у pi 0.5), обобщаясь на новые цвета, объекты, фон и составные задачи. Zero-shot в динамике (DOMINO) продемонстрировал 26.6% успеха, что лучше многих специализированных VLA.

































