ИИ-видео
33 поста
33 поста
Генерация изображений долгое время была мечтой. Сначала это делали GAN-сети, но позже появилась более совершенная технология "Diffusion". Первые сгенерированные изображения были ужасающими. Ничего стабильного, ничего правильного, но при этом отдаленно похоже на живое. Если вам не нравится, когда на AI-картинке по шесть пальцев на руках, то на первых сгенерированных изображениях неправильно было вообще всё.
О генерации видео тогда никто даже не заикался.
В 2022 году модели генерации изображений стали выдавать первые приемлемые результаты и начали привлекать внимание. Почти сразу же появились и первые идеи по генерации видео. Но о генераторах видео мало писали, ведь результаты были очень далеки от идеала.
Одной из реально работающих сетей была китайская нейросеть CogVideo (2022). Вот пример видео, сгенерированного этой сетью:
Видео, сгенерированное мной в сентябре 2022 года
В 2023 появилась тоже китайская нейросеть AnimateDiff (2023). Сейчас её стало возможно запустить в "пространстве Zero": AnimateDiff на Hugging Face.
На примере AnimateDiff хорошо видно, как устроены сети генерации видео - они состоят из двух моделей. Одна отвечает за движение объектов в кадре, а другая генерирует кадры, используя предыдущий кадр в качестве образца и задачу от модели движения.
Примеры видео, сгенерированных мной в 2023 году в AnimateDiff:
Человек собирает грибы
Чёрный кот есть пирожные
В начале 2024 года Stable Video представила генератор видео, который мог генерировать видео, представляющие художественный интерес. Первые видео, выложенные в моём блоге, были сделаны именно в Stable Video. Плюсы: это уже можно было смотреть. Минусы: анимация была странной и некрасивой.
Примеры видео:
Старинный зал
Акула
С марта 2024 сервис генерации видео предоставил Haiper. Он был изначально бесплатен, что привлекло много пользователей.
Плюсы: Происходящее в кадре стало более "живым" за счёт быстрых движений. Минусы: логотип Haiper постоянно был в кадре (как выяснилось, совершенно напрасно, как раз тогда, когда Haiper, наконец сделал платные тарифы, убирающие логотип, появились более продвинутые сети и про Haiper все забыли 😂). Также скорость происходящего на видео часто превышала возможности генератора, что приводило к сбоям.
Нуарное сотворение вселенной
Аквариум
В апреле-мае 2024 получила распространение RunWayML Gen-2.
Плюсы: видео начали получаться красивыми и адекватными. Минусы: всё ещё недостаточная скорость движения происходящего в кадре.
Примеры видео:
Поход за грибами
Музыкальные инструменты под водой
Май-июнь 2024: Luma.AI. Эта нейросеть начала "оживлять мемы" и делать другие шутливые вещи.
Плюсы: движение в кадре стало быстрым и естественным. Минусы: предметы часто "превращались в непонятное" (морфинг).
Примеры видео:
Алые паруса
Ромб
Июль 2024: сервис RunWayML Alpha Gen-3. Немного сыроватый, выпущенный "как есть", чтобы перебить интерес к LumaAI. Однако технически уже превосходит Luma. Главная возможность - генерация видео до 60 секунд (через продление генерации).
Пример видео:
Шторм на Марсе
Ускорение смены эпох вызвано знаменитым роликом-демонстрацией работы нейросети Sora от OpenAI "Air Head":
Sora так и не была выложена в общий доступ, а работа с ней оказалась сложной. Подробнее о проблемах с Sora можно прочитать здесь. Для ролика с шариком потребовалось много попыток и серьёзная пост-обработка. С таким уровнем пост-обработки и в Stable Video можно было бы сделать что-то подобное.
(Sora постоянно пыталась изобразить лицо на шарике, не понимая задумку авторов)
Поэтому можно уверенно сказать, что RunWayML Alpha Gen-3 достиг уровня Sora (в том числе и по возможной длительности ролика - до 1 минуты). А может быть даже и перегнал.
В конце немного о моём канале: я давно слежу за генерацией видео и хотел создать канал с творческой генерацией. Это не обучающий канал, а именно канал с результатами работы. Поэтому у меня часто были объединены работы разных генераторов, придуман осмысленный сюжет и добавлено озвучивание.
Я очень благодарен зрителям, с которыми мы вместе прошли весь этот путь совершенствования видео от Античности до Новейшего времени. В некотором смысле считаю свою задумку выполненной. Пока новые видео не планирую больше делать, кроме как когда появится новый технологический период и мы перейдём в будущее 😇
В тихом, заросшем джунглями уголке острова, где ещё не ступала нога человека, два титана - Конг и Годзилла - проводили свой очередной день. Они были не просто чудовищами, но и добрыми друзьями.
Обычно их дни проходили спокойно, но в один из дней что-то пошло не так...