Эпохи развития генерации видео

Мифологические времена

Генерация изображений долгое время была мечтой. Сначала это делали GAN-сети, но позже появилась более совершенная технология "Diffusion". Первые сгенерированные изображения были ужасающими. Ничего стабильного, ничего правильного, но при этом отдаленно похоже на живое. Если вам не нравится, когда на AI-картинке по шесть пальцев на руках, то на первых сгенерированных изображениях неправильно было вообще всё.

О генерации видео тогда никто даже не заикался.

Пещерный период

В 2022 году модели генерации изображений стали выдавать первые приемлемые результаты и начали привлекать внимание. Почти сразу же появились и первые идеи по генерации видео. Но о генераторах видео мало писали, ведь результаты были очень далеки от идеала.

Одной из реально работающих сетей была китайская нейросеть CogVideo (2022). Вот пример видео, сгенерированного этой сетью:

Видео, сгенерированное мной в сентябре 2022 года

Бронзовый век

В 2023 появилась тоже китайская нейросеть AnimateDiff (2023). Сейчас её стало возможно запустить в "пространстве Zero": AnimateDiff на Hugging Face.

На примере AnimateDiff хорошо видно, как устроены сети генерации видео - они состоят из двух моделей. Одна отвечает за движение объектов в кадре, а другая генерирует кадры, используя предыдущий кадр в качестве образца и задачу от модели движения.

Примеры видео, сгенерированных мной в 2023 году в AnimateDiff:

Человек собирает грибы

Чёрный кот есть пирожные

Античность

В начале 2024 года Stable Video представила генератор видео, который мог генерировать видео, представляющие художественный интерес. Первые видео, выложенные в моём блоге, были сделаны именно в Stable Video. Плюсы: это уже можно было смотреть. Минусы: анимация была странной и некрасивой.

Примеры видео:

Старинный зал

Акула

Средние века

С марта 2024 сервис генерации видео предоставил Haiper. Он был изначально бесплатен, что привлекло много пользователей.

Плюсы: Происходящее в кадре стало более "живым" за счёт быстрых движений. Минусы: логотип Haiper постоянно был в кадре (как выяснилось, совершенно напрасно, как раз тогда, когда Haiper, наконец сделал платные тарифы, убирающие логотип, появились более продвинутые сети и про Haiper все забыли 😂). Также скорость происходящего на видео часто превышала возможности генератора, что приводило к сбоям.

Нуарное сотворение вселенной

Аквариум

Возрождение

В апреле-мае 2024 получила распространение RunWayML Gen-2.

Плюсы: видео начали получаться красивыми и адекватными. Минусы: всё ещё недостаточная скорость движения происходящего в кадре.

Примеры видео:

Поход за грибами

Музыкальные инструменты под водой

Новое время

Май-июнь 2024: Luma.AI. Эта нейросеть начала "оживлять мемы" и делать другие шутливые вещи.

Плюсы: движение в кадре стало быстрым и естественным. Минусы: предметы часто "превращались в непонятное" (морфинг).

Примеры видео:

Алые паруса

Ромб

Новейшее время

Июль 2024: сервис RunWayML Alpha Gen-3. Немного сыроватый, выпущенный "как есть", чтобы перебить интерес к LumaAI. Однако технически уже превосходит Luma. Главная возможность - генерация видео до 60 секунд (через продление генерации).

Пример видео:

Шторм на Марсе

Ускорение смены эпох вызвано знаменитым роликом-демонстрацией работы нейросети Sora от OpenAI "Air Head":

Sora так и не была выложена в общий доступ, а работа с ней оказалась сложной. Подробнее о проблемах с Sora можно прочитать здесь. Для ролика с шариком потребовалось много попыток и серьёзная пост-обработка. С таким уровнем пост-обработки и в Stable Video можно было бы сделать что-то подобное.

Эпохи развития генерации видео Искусственный интеллект, Видеомонтаж, Ретроспектива, Обзор, ИИ-видео, Видео, Без звука, Вертикальное видео, YouTube, Длиннопост

(Sora постоянно пыталась изобразить лицо на шарике, не понимая задумку авторов)

Поэтому можно уверенно сказать, что RunWayML Alpha Gen-3 достиг уровня Sora (в том числе и по возможной длительности ролика - до 1 минуты). А может быть даже и перегнал.

Заключение

В конце немного о моём канале: я давно слежу за генерацией видео и хотел создать канал с творческой генерацией. Это не обучающий канал, а именно канал с результатами работы. Поэтому у меня часто были объединены работы разных генераторов, придуман осмысленный сюжет и добавлено озвучивание.

Я очень благодарен зрителям, с которыми мы вместе прошли весь этот путь совершенствования видео от Античности до Новейшего времени. В некотором смысле считаю свою задумку выполненной. Пока новые видео не планирую больше делать, кроме как когда появится новый технологический период и мы перейдём в будущее 😇

Искусственный интеллект

3K постов10.1K подписчиков

Правила сообщества

Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

  I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан