Вышла новая модель для генерации видео Bernini
Анонсирована новая модель Bernini (https://huggingface.co/ByteDance/Bernini-R), которая разделяет труд между выполняющим семантическое планирование MLLM и диффузионным рендерингом (DiT), синтезирующим пиксели. Интерфейсом стало собственное пространство эмбеддингов ViT, уже использующее MLLM.
Планировщик (MLLM) предсказывает целевые визуальные эмбеддинги через маскированное генеративное моделирование. Рендерер (DiT), в свою очередь, по полученному семантическому плану, текстовым признакам и VAE-признакам источника генерирует видео методом сопоставления потоков.
Стандартизации помог единый входной протокол для text-to-video, subject-to-video и редактирования вместе с введённым SA-3D RoPE для разделения визуальных токенов разных сегментов.
Качество редактирования улучшили, встроив в планировщик текстовые и визуально-текстовые цепочки мыслей (CoT).
Информацию взяли из масштабного многозадачного корпуса, состоящего примерно из 20M видеопар, почти 30M пар изображений, данных для редактирования с учётом движения, генерации на основе референса и рассуждений.
Три стадии обучения включали предобучение MLLM-планировщика, предобучение DiT-рендерера и лёгкую совместную донастройку с сохранением предобученных способностей.
В результате получен уровень SOTA на бенчмарках видеоредактирования (OpenVE-Bench, EditVerse, FiVE и собственный Bernini-Bench), генерации (VBench) и subject-to-video (OpenS2V-Eval), а также обнаружено обобщение на инструкции, отсутствовавшие в обучении.

























