SORA от OpenAI — самая продвинутая в мире модель для генерации реалистичного видео-контента, которая объединяет современные методы диффузионного моделирования и трансформеров.
Dream Machine от Luma — это крутая нейросеть, которая создает как фантастические, так и реалистичные видео на основе текстовых промптов и картинок. Она тоже построена на базе трансформеров и обучена на огромном количестве видеороликов.
SORA и Dream Machine конкуренты. А мы решили провести ресерч и определить, кто из них круче.
Патчи — это небольшие блоки видео, аналогичные токенам в текстовых моделях, таких как GPT. Вместо работы с целыми кадрами видео, SORA работает с этими маленькими блоками, которые проще обрабатывать и анализировать.
Когда видео поступает в систему, оно разбивается на эти патчи, которые затем сжимаются по времени и пространству. Это создает скрытое представление видео, которое содержит всю необходимую информацию в компактной форме. Основная модель SORA затем генерирует это скрытое представление, которое позже преобразуется обратно в видимые пиксели с помощью декодера.
Диффузионный трансформер
Основная инновация в SORA — это сочетание диффузионных моделей и трансформеров. Диффузионные модели добавляют шум к входным данным, а затем обучаются удалять этот шум, чтобы восстановить исходные данные. В случае SORA, визуальные патчи сначала зашумляются, а затем трансформер обучается удалять этот шум, генерируя чистые патчи.
Этот процесс очень похож на работу U-Net в задачах сегментации изображений, но использование трансформеров в SORA дает ей преимущество в масштабируемости и способности обрабатывать сложные зависимости в данных.
Полная гибкость
SORA обладает высокой гибкостью. Она может генерировать видео различной длительности и с невероятным разрешением. Например, от 1920x1080p до 1080x1920. Ещё она может создавать видео продолжительностью до одной минуты. Эта гибкость позволяет использовать SORA для самых разных задач — от создания коротких роликов до более длинных генераций.
GPT — сценарист SORA
Для улучшения качества и проработанности видео, SORA использует возможности GPT. Когда пользователь вводит короткий запрос, GPT преобразует его в более длинный и детализированный сценарий. Этот сценарий затем используется для генерации видео, что делает его более интересным и содержательным. Это похоже на то, как DALL·E 3 использует текстовые описания для создания изображений, только здесь мы имеем дело с видео.
Это всё симуляция
Наконец, стоит отметить, что SORA, подобно другим большим языковым моделям, обладает способностью симулировать внешний мир. Обучаясь на огромных объемах данных из интернета, SORA может создавать видео, которые выглядят очень реалистично. Это вызывает восхищение и вместе с тем поднимает этические вопросы о том, как такие технологии должны использоваться.
Dream Machine от Luma AI: Как это работает?
Dream Machine, как и SORA, работает с видео как с набором маленьких кусочков, называемых патчами.
Dream Machine использует диффузионные модели в паре с трансформерами. Диффузионные модели добавляют немного шума в данные, а потом учатся этот шум убирать, чтобы восстановить исходные данные. В Dream Machine эти маленькие патчи сначала зашумляются, а потом трансформер убирает шум, создавая чистые и качественные кадры.
Возможности и гибкость
Dream Machine очень гибкая и может создавать видео разной длины и разрешения. Она делает видео высокого качества, которое выглядит лучше, чем у Runway Gen-2 или Pika.
Но есть и свои недостатки — например, модель может делать ошибки в тексте и движениях объектов.
Чтобы улучшить качество видео, разработчики советуют использовать подробные описания сцен вместе с картинками. В режиме текст-видео полезна опция Enhance Prompt, которая помогает новичкам создавать более детализированные запросы.
Кто сильнее?
Dream Machine от Luma
Трансформеры и диффузионные модели. Dream Machine использует мощную комбинацию этих технологий для генерации высококачественных и динамичных видеороликов.
Визуальные патчи. Видео представляется как набор маленьких кусочков, которые анализируются и обрабатываются нейросетью.
Гибкость и масштабируемость. Модель способна генерировать видео разного разрешения и длительности, от 1080p до 4K.
Dream Machine создает очень реалистичные и плавные видео, которые выглядят лучше, чем у многих конкурентов. Бесплатные 30 генераций в месяц делают её доступной для всех.
Ограничения: Модель может допускать ошибки в генерируемом тексте и движениях объектов, поэтому для лучших результатов нужны подробные промпты и референсы.
SORA от OpenAI
Диффузионный трансформер. SORA использует уникальное сочетание этих технологий для генерации видео.
Латентное представление. Модель обрабатывает визуальные патчи и генерирует скрытое представление, которое потом декодируется в полноценное видео.
Кондиционирование на текст. Текстовые описания помогают улучшить качество генерируемых видеороликов.
SORA не просто генерирует кадры, но и понимает физику и движение объектов, что делает видео более стабильным и естественным.
Ограничения: для SORA нужны огромные вычислительные мощности, да и сама модель может быть сложнее в настройке и использовании по сравнению с другими.
Кто круче?
Dream Machine от Luma — отличный выбор для тех, кто хочет быстро и легко создавать качественные видео. Бесплатные 30 генераций в месяц. Интуитивный интерфейс.
SORA от OpenAI — более мощная и глубокая модель, которая может создавать более проработанные и естественные видеоролики. Она требует больше ресурсов и может быть сложнее в использовании, но её возможности впечатляют.
Так всё-таки SORA или Dream Machine?
Наш ресерч показывает, что 1:0 в пользу SORA от Open AI!