Как создать 3D-сцену всего по одному текстовому запросу?⁠⁠

Создание 3D-сцен для тренировки моделей машинного обучения — задача не из простых. Ведь тут самое важное, чтобы такие сцены работали как надо: они должны быть согласованными со всех сторон и позволять модели "гулять" по ним, изучая все детали.

Только практике большинство методов с этим не справляются. Они либо добавляют кусочки сцены по мере надобности, либо используют панорамы с широким обзором.

В результате проблема остается проблемой: при расширении сцены смысл часто теряется, и структура становится слишком сложной.

Так, стоп. Хватит нагнетать.

Вышел новый фреймворк — LayerPano3D. Он решает эти проблемы и позволяет создавать полноэкранные 3D-сцены для ML-моделей всего на основе одного текстового запроса.

В чём фишка?

LayerPano3D разбивает 2D-панораму на несколько слоёв, каждый из которых отвечает за свою глубину. Эти слои затем помогают увидеть и заполнить невидимые части сцены, используя продвинутые методы.

По сути, LayerPano3D закрывает парочку проблем, которые были в 3D моделировании:

Он использует текстовую модель для создания качественных и согласованных панорам.

Применяет метод слоистой 3D-панорамы, что помогает управлять сложными структурами и создавать детализированные 360-градусные сцены.

Эксперименты показывают, что этот фреймворк действительно справляется с задачей на ура — сцены получаются целостными и детализированными, что идеально подходит для тренировки ML-моделей.

Работает это всё просто: сначала создается эталонная панорама, потом она делится на несколько слоёв, и в итоге получается оптимизированная панорамная 3D-сцена. Самое классное, что LayerPano3D автоматизирует процесс, убирая необходимость вручную настраивать пути расширения или завершения сцены.

Взглянуть на сайт проекта можно здесь, а изучить код — здесь.

Программирование IT Нейронные сети Машинное обучение Видео