Ответ на пост «Трасформеры Россия 2.0»1
Мне кажется мы стали забывать классику
Мне кажется мы стали забывать классику
Нет никакого ИИ. Есть технология трансформеров, которую на примере LLM показали инвесторам. Вот она как раз дошла до своего логического конца и предела.
Время за SLM-агентами и интеграции их в IoT - когда система агентов будет решать вспомогательные задачи: отбирать новости по заданным критериям, заказывать носки на WB и картошку в "Пятерочке", искать ближайший кабак в незнакомом районе, где готовят самые интересные стейки.
И этот процесс уже пошёл. А ChatGPT в актуальном виде не нужен, это просто маркетинговая акция.
Вы когда-нибудь задавались вопросом, а как ИИ генерирует такие фантастические ролики, что за «магия» происходит в этих моделях в результате, которой мы получаем настолько реалистичное видео. Ребята из MIT Technology Review простым языком рассказали как это происходит.
Если совсем коротко, модель не рисует ролик «пиксель за пикселем». Сначала она ужимает видео в скрытое представление — как бы в компактные «кирпичики» пространства-времени. Так модель смотрит сразу на картинку и на движение, а не теряется в миллионах пикселей.
Практически все современные системы генерации видео — гибриды. Они совмещают два подхода — диффузию (которая пошагово «проявляет» кадры из шума) и трансформер (следит за последовательностью этих «кирпичиков» во времени), чтобы и картинка была качественной, и сцена оставалась связной.
Что делает диффузия: Генерация идёт из «белого шума»: на каждом из десятков шагов модель слегка убирает шум, сверяясь с подсказкой (текст/референсы) и соседними моментами во времени. Так поэтапно чинятся форма, фактура и движение. В результате сцена выглядит более реалистично. Важный момент: модель работает не с пикселями, а в скрытом (latent) пространстве, что обеспечивает высокую скорость генерации и устойчивость результата.
Что такое «скрытый диффузионный трансформер». Диффузию скрещивают с трансформером — архитектурой, которая отлично держит длинные последовательности. Для этого видео «режут на кубики» по пространству и времени, с которыми можно обращаться как с последовательностью слов. Как метко сказал Тим Брукс (Sora): «Это как если бы у вас была стопка всех видеокадров, и вы нарезали её на маленькие кубики». В результате такой трансформер помогает сохранять целостность между кадрами: чтобы объекты не мигали, свет не прыгал, а действия развивались логично.
Такой гибридный подход сейчас является фактически де-факто стандарт в отрасли генерации видео. Да он не лишён недостатков и ресурсоёмок, но он позволяет получать фантастического качества видео, а в некоторых моделях позволяет получать видео сразу со звуком.
#ИИ #видеогенерация
Подписывайтесь на Telegram PromtScout.
Есть на Яндекс Маркет
Реклама. ООО «Яндекс Маркет», ИНН 9704254424, erid: 5jtCeReNx12oajvH32p1mJY
Приснился мне ночью ебанутый сон.
У меня на полу идет война автоботов и десептиконов. Они такие крошечные, миниатюрные. Построены какие-то стены крепости, они бегают воюют друг с другом, осаждают крепость, обороняют. Но все почему-то миниатюрные, как насекомые. Я увидев среди них Бамблби, зачем-то вмешался, оттолкнул его пальцем, потом еще раз оттолкнул, в ответ на меня налетело несколько крошечных Бамблби, все такие же желтые, я их оттолкнул, а потом целый рой крошечных Бамблби облепили мой палец, я их стряхнул, а они летят.
Я утром создавал пост, просил растолковать сон, мне такой хуйни там натолковали.
А сейчас меня озарило. Бамблби в переводе с английского Шмель. Когда-то в озвучке телеканала "Шестой канал Петербург" его вовсе переводили как Шершень. Вот потому их рой и летал во сне. Потому они миниатюрные все, как насекомые.
А еще я вспомнил вдруг такой случай. Я когда был мелким пиздюком, как-то оттолкнул пальцем пролетающую пчелу, она меня ужалила в палец. А дед мне тогда сказал, что будешь так делать, на тебя весь рой может налететь. И вдруг ебанутый сон становится простым и понятным. Все-таки странно во сне работает подсознание, какую бы хуйню ты не увидел, расшифровать и найти логику можно всегда.