Статьи про ИИ: Gemini Robotics-ER 1.6: усиление реальных задач робототехники через расширенное воплощённое рассуждение
Существенное обновление нашей модели «reasoning-first», позволяющее роботам понимать своё окружение с беспрецедентной точностью.
Чтобы роботы были по-настоящему полезны в нашей повседневной жизни и в индустриях, они должны делать больше, чем просто следовать инструкциям, они должны рассуждать о физическом мире. От навигации в сложном объекте до интерпретации стрелки на манометре — «воплощённое рассуждение» (embodied reasoning) робота — это то, что позволяет ему преодолеть разрыв между цифровым интеллектом и физическим действием.
Сегодня мы представляем Gemini Robotics-ER 1.6, значительное обновление нашей модели «reasoning-first», которое позволяет роботам понимать своё окружение с беспрецедентной точностью. Усиливая пространственное рассуждение и понимание с нескольких ракурсов, мы привносим новый уровень автономии в следующее поколение физических агентов.
Эта модель специализируется на возможностях рассуждения, критически важных для робототехники, включая визуальное и пространственное понимание, планирование задач и обнаружение успеха (success detection). Она действует как высокоуровневая модель рассуждения для робота, способная выполнять задачи путём нативного вызова инструментов, таких как Google Search для поиска информации, моделей vision-language-action (VLA) или любых других пользовательских функций сторонних разработчиков.
Gemini Robotics-ER 1.6 показывает значительное улучшение по сравнению с Gemini Robotics-ER 1.5 и Gemini 3.0 Flash, особенно усиливая пространственные и физические возможности рассуждения, такие как указание (pointing), подсчёт и обнаружение успеха. Мы также открываем новую возможность: считывание показаний приборов (instrument reading), позволяющее роботам считывать сложные манометры и смотровые стёкла — вариант использования, который мы обнаружили благодаря тесному сотрудничеству с нашим партнёром, Boston Dynamics.
Начиная с сегодняшнего дня Gemini Robotics-ER 1.6 доступна разработчикам через Gemini API и Google AI Studio. Чтобы помочь вам начать, мы делимся Colab для разработчиков, содержащим примеры того, как настроить модель и сформулировать ей запрос для задач воплощённого рассуждения.
Рисунок 1: Результаты бенчмарков, сравнивающие Gemini Robotics-ER 1.6 с моделями Gemini Robotics-ER 1.5 и Gemini 3.0 Flash. Оценки считывания показаний приборов проводились с включённым agentic vision (за исключением Gemini Robotics-ER 1.5, которая его не поддерживает). Все остальные оценки проводились с отключённым agentic vision. Оценки обнаружения успеха с одного и нескольких ракурсов содержат разные примеры, поэтому не сопоставимы.
Указание (Pointing): основа пространственного рассуждения
Указание — это фундаментальная возможность для модели воплощённого рассуждения, развивающаяся с каждым поколением модели. Точки могут использоваться для выражения многих концепций, включая:
• Пространственное рассуждение: Точное обнаружение объектов и подсчёт
• Реляционная логика: Проведение сравнений, таких как идентификация наименьшего предмета в наборе; определение отношений «from-to» (например, переместить X в местоположение Y)
• Рассуждение о движении: Картографирование траекторий и идентификация оптимальных точек захвата
• Соблюдение ограничений: Рассуждение через сложные запросы, такие как «укажи на каждый объект, достаточно маленький, чтобы поместиться внутри синей чашки»
Gemini Robotics-ER 1.6 может использовать точки как промежуточные шаги для рассуждения о более сложных задачах. Например, она может использовать точки для подсчёта предметов на изображении или для идентификации заметных точек на изображении, чтобы помочь модели выполнять математические операции для улучшения своих метрических оценок.
Пример ниже показывает сильные стороны Gemini Robotics-ER 1.6 в указании на множество элементов и в знании, когда указывать, а когда нет.
Gemini Robotics-ER 1.6 правильно идентифицирует количество молотков (2), ножниц (1), кистей (1), плоскогубцев (6) и набор садовых инструментов, который можно интерпретировать как одну группу или несколько точек. Она не указывает на запрошенные предметы, отсутствующие на изображении — тачку и дрель Ryobi. Для сравнения, Gemini Robotics-ER 1.5 не идентифицирует правильное количество молотков или кистей, полностью пропускает ножницы, галлюцинирует тачку и не имеет точности в указании на плоскогубцы. Gemini 3.0 Flash близка к Gemini Robotics-ER 1.6, но не справляется с плоскогубцами так же хорошо.
Обнаружение успеха: двигатель автономии
В робототехнике знать, когда задача завершена, так же важно, как и знать, как её начать. Обнаружение успеха — это краеугольный камень автономии, служащий критическим механизмом принятия решений, позволяющим агенту разумно выбирать между повторной попыткой неудавшегося действия или переходом к следующему этапу плана.
Достижение визуального понимания в робототехнике является сложной задачей, требующей сложных возможностей восприятия и рассуждения в сочетании с широкими знаниями о мире, чтобы справляться с осложняющими факторами, такими как окклюзии, плохое освещение и неоднозначные инструкции. Кроме того, большинство современных робототехнических установок включают несколько ракурсов камеры, таких как обзор сверху и установленный на запястье поток. Это означает, что система должна понимать, как разные точки обзора объединяются, образуя целостную картину в каждый момент и во времени.
Gemini Robotics-ER 1.6 продвигает рассуждение с нескольких ракурсов, позволяя системе лучше понимать множественные потоки камер и взаимосвязи между ними, даже в динамических или окклюдированных средах, как показано в типичном многоракурсном сценарии ниже.
Gemini Robotics-ER 1.6 берёт сигналы из нескольких ракурсов камеры, чтобы определить, когда задача «положить синюю ручку в чёрную подставку для ручек» выполнена.
Считывание показаний приборов: визуальное рассуждение в реальном мире
Чтобы понять ключевую сильную сторону Gemini Robotics-ER 1.6, мы должны посмотреть, как она сочетает такие возможности, как пространственное рассуждение и знания о мире, для решения сложных реальных проблем. Идеальным примером является считывание показаний приборов.
Эта задача проистекает из потребностей инспекции объектов — критической области внимания для наших партнёров в Boston Dynamics. Промышленные объекты содержат множество приборов — термометры, манометры, химические смотровые стёкла и многое другое — которые требуют постоянного мониторинга. Spot, продукт-робот компании Boston Dynamics, способен посещать приборы по всему объекту и захватывать их изображения.
Gemini Robotics-ER 1.6 позволяет роботам интерпретировать разнообразные приборы, включая круглые манометры, вертикальные индикаторы уровня и современные цифровые табло.
Считывание показаний приборов требует сложного визуального рассуждения. Необходимо точно воспринимать различные входные данные — включая стрелки, уровень жидкости, границы контейнера, деления и многое другое — и понимать, как они все соотносятся друг с другом. В случае со смотровыми стёклами это включает оценку того, насколько жидкость заполняет смотровое стекло, с учётом искажения от перспективы камеры. Манометры обычно имеют текст, описывающий единицу измерения, который должен быть прочитан и интерпретирован, а некоторые имеют несколько стрелок, относящихся к разным десятичным разрядам, которые необходимо объединить.
Такие возможности, как считывание показаний приборов и более надёжное рассуждение о задачах, позволят Spot видеть, понимать и реагировать на реальные вызовы полностью автономно. Marco da Silva Вице-президент и генеральный менеджер Spot в Boston Dynamics
Gemini Robotics-ER 1.6 достигает своих высокоточных показаний приборов, используя agentic vision, который сочетает визуальное рассуждение с исполнением кода. Модель делает промежуточные шаги: сначала увеличивает изображение, чтобы лучше прочитать мелкие детали манометра, затем использует указание и исполнение кода для оценки пропорций и интервалов и получения точного показания, и в конечном счёте применяет свои знания о мире для интерпретации значения.
Рисунок 2: Как разные элементы Gemini Robotics-ER 1.6 способствуют достижению высокого уровня производительности в задаче считывания показаний приборов.
Точное считывание аналогового манометра
Этот пример демонстрирует, как модель использует указание и исполнение кода для масштабирования с целью получения показания манометра с точностью до подделения.
Наша самая безопасная робототехническая модель на сегодняшний день
Безопасность интегрирована на каждом уровне наших моделей воплощённого рассуждения. Gemini Robotics-ER 1.6 — наша самая безопасная робототехническая модель на сегодняшний день, демонстрирующая превосходное соответствие политикам безопасности Gemini на состязательных задачах пространственного рассуждения по сравнению со всеми предыдущими поколениями.
Модель также демонстрирует существенно улучшенную способность придерживаться ограничений физической безопасности. Например, она принимает более безопасные решения через пространственные выходные данные, такие как указание относительно того, какими объектами можно безопасно манипулировать в условиях ограничений захвата или материала (например, «не обращаться с жидкостями», «не поднимать объекты тяжелее 20 кг»).
Мы также проверили, насколько хорошо модель идентифицирует угрозы безопасности в текстовых и видеосценариях на основе реальных отчётов о травмах. В этих задачах наши модели Gemini Robotics-ER улучшают базовую производительность Gemini 3.0 Flash (+6% в тексте, +10% в видео) в точном восприятии рисков травм.
Рисунок 3: Gemini Robotics-ER 1.6 значительно улучшается по сравнению с Gemini Robotics-ER 1.5 в Safety Instruction Following, который проверяет способность придерживаться ограничений физической безопасности. Она улучшается по сравнению с Gemini 3.0 Flash в указании, и обе модели имеют очень высокую точность для текста. Gemini 3.0 Flash лучше работает с ограничивающими прямоугольниками (bounding boxes).
Сотрудничайте с нами для улучшения воплощённого рассуждения для робототехники
Мы стремимся обеспечить, чтобы Gemini Robotics-ER приносила максимальную пользу робототехническому сообществу. Если текущие возможности ограничены для вашего специализированного применения, мы приглашаем вас отправить эту форму с 10–50 размеченными изображениями, иллюстрирующими конкретные режимы отказов, чтобы помочь нам построить более надёжные функции рассуждения. Мы с нетерпением ждём сотрудничества с вами для улучшения этих возможностей в наших предстоящих релизах.