С развитием искусственного интеллекта активизируется и дискуссия в обществе относительно благ и рисков от его использования. Только недавно Гильдия сценаристов Америки заключила новый договор, один из пунктов которого ограничивает роль нейросетей в написании текстов. Неудивительно, что кинематограф развивает эту тему, выводя ее на все более сложные уровни и фантазируя о том, что будет, если человечество создаст себе таких «помощников», которые однажды выйдут из-под контроля. Тему технофобии у вышедшего в прошлом году «Создателя» подхватывает «Атлас», готовящийся к релизу на Netflix. Опубликованный в Сети трейлер фильма обещает мощную и взрывную эпопею в духе «Терминатора» и «Грани будущего», а режиссер Брэд Пейтон («Разлом Сан-Андреас») среди источников вдохновения называет компьютерную игру в жанре меха Titanfall 2. Возможно, поэтому в своей фантастике он усадит великолепно выглядящую Дженнифер Лопес за управление механической громадиной на основе ИИ.
Джей Ло играет блестящего аналитика данных Атлас Шепард с легкой мизантропией и совсем не легкой степенью недоверия к искусственному интеллекту. Она посвятила карьеру развитию технологий, пока не разочаровалась в прогрессе, который чуть было не привел человечество к гибели. Ее цель сейчас — поймать робота-отступника Харлана (Симу Лю), который, по классике, считает свой вид более совершенным и следующей ступенью эволюции. По иронии, чтобы найти и обезвредить Харлана, Атлас вынуждена довериться другому ИИ по имени Смит. Это ставит женщину перед дилеммой, да и не факт, что, объединив усилия с суперкомпьютером, она сможет спасти будущее всей Земли.
Атлас и Харлана кое-что связывало в прошлом, и это, очевидно, главная интрига фильма. С другой стороны, такие проекты смотрятся ради разрушительных битв, футуристичного дизайна локаций, нетривиального посыла в лучших традициях «Черного зеркала» и неожиданных околонаучных идей. Интересно будет увидеть, как с этой задачей справятся сценаристы Лео Сардариан («Стартап») и Арон Эли Колейт («Ключи Локков», «Герои»).
В случае провисания сюжета у нас есть визуальный ряд, на который Netflix явно не поскупился. Глаз радуется взрывам, технологиям будущего и диковинной флоре уже в трейлере. Кроме экшена и лора, в «Атласе» сильный актерский состав: компанию уже названным Дженнифер Лопес и Симу Лю(«Барби») составили Стерлинг К. Браун («Это мы»), Лана Паррия («Однажды в сказке»), Марк Стронг («1917», «Звездная пыль») и Лесли Фера («Орвилл»).
Оценить, как Netflix смотрит на возможность взаимовыгодного сотрудничества человека и ИИ, можно будет 24 мая.
Представьте, что вы смотрите музыкальный клип, в котором каждая сцена, каждый персонаж и каждое движение камеры созданы искусственным интеллектом. Звучит как научная фантастика? Что ж, будущее уже наступило. Встречайте The Hardest Part - первый в истории музыкальный клип, полностью сгенерированный нейросетью Sora от OpenAI.
Этот новаторский проект - плод совместных усилий инди-музыканта Washed Out (настоящее имя - Эрнест Грин) и режиссера Пола Трилло. Клип на песню “The Hardest Part” демонстрирует впечатляющие возможности генеративных моделей в создании реалистичных и захватывающих визуальных образов. Но как именно работает эта технология, и какое влияние она окажет на индустрию развлечений? Давайте разберемся.
Под капотом Sora: Как нейросеть создает видео
Примечание: Следующее описание основано на рассуждениях Итана Хи (Ethan He), исследователя ИИ из NVIDIA, бывшего сотрудника FAIR и выпускника CMU, с более чем 6000 цитирований и 5000 звезд на GitHub. Оригинальная статья доступна на LinkedIn Pulse. Реальные технологии являются коммерческой тайной OpenAI и еще не были обнародованы.
Предполагается, что в основе Sora лежит DiT (диффузионный трансформер) - архитектура, которая использует возможности масштабирования трансформеров наряду с итеративным процессом уточнения диффузионных моделей, я уже рассказывал про AnimateDiff, который позволяет генерировать видео на моделях Stable Diffusion, тут этот принцип многократно улучшен.
Схема работы диффузионного трансформера
Трансформеры известны своей эффективностью в обработке последовательных данных и обеспечивают надежную архитектуру для моделирования временной динамики видео. Процесс диффузии, в свою очередь, итеративно уточняет выходные данные, начиная с зашумленного начального состояния и двигаясь к желаемому видеовыходу, повышая качество и согласованность сгенерированных видео.
Для сжатия видео Sora использует векторный квантованный вариационный автоэнкодер (VQ-VAE) на основе трехмерной сверточной нейронной сети (3D CNN). Эта архитектура сети состоит из энкодера, который уменьшает размерность визуальных данных до скрытого пространства, и декодера, который реконструирует видео из этого сжатого представления.
Схема работы VQ-VAE для сжатия видео
Использование 3D CNN позволяет захватывать временную динамику видео, что важно для создания согласованного и плавного движения в сгенерированных клипах. Симметричная конструкция энкодера и декодера обеспечивает эффективное сжатие и реконструкцию видео, сохраняя высокую точность исходного контента.
Процесс обучения Sora
Во время обучения к видеотокенам добавляется случайный шум. Трансформер получает на вход текстовое условие, временной шаг диффузии и зашумленные видеотокены.
Генерация текста в видео
Универсальность Sora распространяется на различные приложения, включая анимацию статических изображений и создание идеально зацикленных видео. Анимация статического изображения достигается путем кодирования изображения как первого токена и использования шума для остальных токенов. Для создания бесшовно зацикленных видео Sora обеспечивает идентичность первого и последнего токенов на каждом шаге диффузии, улучшая эстетическую привлекательность сгенерированного контента.
Генерация видео из изображения
Одним из самых замечательных аспектов Sora является ее способность демонстрировать такие возникающие возможности, как 3D-согласованность и постоянство объектов, без явного программирования. Традиционно для достижения 3D-согласованности в сгенерированных видео требовались специальные функции потерь. Однако Sora показывает, что при масштабировании эти возможности могут возникать естественным образом, позволяя генерировать видео, точно имитирующие реальную динамику и взаимодействия.
Таким образом, Sora представляет собой значительный скачок в области генерации видео с помощью ИИ, объединяя несколько передовых технологий для создания высококачественных видеороликов из текстовых описаний.
Создание клипа “The Hardest Part”: Сложности и уроки
Несмотря на впечатляющий результат, процесс создания клипа The Hardest Part с помощью Sora был далеко не простым. Режиссеру Полу Трилло пришлось сгенерировать более 700 видеофрагментов, чтобы отобрать из них 55 лучших для финального клипа. Каждый фрагмент требовал детального текстового описания, учитывающего не только визуальные элементы, но и движения камеры, ракурсы и действия персонажей.
Без динамики сцены смотрятся откровенно странно
“Мы пролетаем сквозь пузырь, он лопается, мы пролетаем сквозь жвачку и выходим на открытое футбольное поле”, - так Трилло описывал одну из сцен клипа.
Пока у Пола Трилло был доступ к Сора он так же сделал промо заставку для TED Talks, со столь полюбившимися ему пролетами камеры. Как по мне, получилось интереснее чем в клипе.
Этот опыт показывает, что даже с использованием передовых алгоритмов ИИ создание качественного видеоконтента требует значительных усилий и творческого подхода. Сора, безусловно, открывает новые возможности, но она не заменяет человеческий талант, а дополняет его.
Барьеры на пути к массовому использованию
Несмотря на огромный потенциал Sora и подобных технологий, их широкое применение в индустрии развлечений пока сталкивается с рядом препятствий. Главным из них является высокая стоимость генерации видео.
Для создания согласованных и реалистичных видеопоследовательностей Sora требуется огромное количество вычислительных ресурсов и объем памяти. По оценкам экспертов, генерация даже короткого клипа может обходиться в сотни или тысячи долларов. Для сравнения, другие мультимодальные модели, такие как LLaVA и CogVLM, которые работают только с изображениями и текстом, уже требуют существенных затрат на GPU и электроэнергию.
Еще одним барьером является вопрос авторских прав и интеллектуальной собственности. Модели вроде Sora обучаются на огромных массивах видеоданных, принадлежащих различным правообладателям и в том числе открытых. Использование сгенерированного ИИ контента в коммерческих проектах может привести к юридическим спорам и конфликтам интересов.
OpenAI и Голливуд: Стратегия внедрения
Сгенерированный Сэм Альтмен на фоне сгенерированных голливудских холмов
OpenAI, разработчик Sora, активно продвигает свою технологию в киноиндустрии. В марте 2024 года генеральный директор компании Сэм Альтман и другие представители провели серию встреч с голливудскими студиями, режиссерами и продюсерами. Цель этих встреч - найти партнеров для дальнейшего развития и внедрения Sora в кинопроизводство.
Для крупных киностудий использование генеративных моделей может означать существенное сокращение затрат на производство визуальных эффектов и ускорение процесса создания фильмов. OpenAI рассчитывает, что партнерство с Голливудом поможет не только улучшить Sora, но и продемонстрировать ее возможности широкой аудитории.
Однако не все в киноиндустрии разделяют энтузиазм по поводу внедрения ИИ. Многие актеры, режиссеры и другие творческие работники опасаются, что генеративные модели могут лишить их работы и нивелировать ценность человеческого таланта. Поэтому OpenAI предстоит найти баланс между технологическим прогрессом и интересами профессионального сообщества.
Sora и будущее развлечений
Первый музыкальный клип, созданный с помощью Sora, - это лишь начало большого пути. По мере развития генеративных моделей и снижения стоимости их использования, мы увидим все больше примеров применения ИИ в киноиндустрии, музыке, видеоиграх и других сферах развлечений.
Однако важно помнить, что технологии вроде Sora - это инструменты, а не замена человеческого творчества. Они открывают новые горизонты и позволяют воплощать самые смелые идеи, но за каждым успешным проектом по-прежнему стоят талантливые люди - режиссеры, сценаристы, художники и многие другие.
Будущее индустрии развлечений - это симбиоз творчества и технологий, в котором ИИ дополняет и усиливает человеческие способности. И клип “The Hardest Part” - это лишь первый шаг на пути к этому будущему.
А что вы думаете о потенциале генеративных моделей вроде Sora? Как они повлияют на индустрию развлечений и творческие профессии? Поделитесь своим мнением в комментариях!
Я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. Всех обнял.
После многочисленных попыток возродить франшизу «Трон» студии Disney удалось невозможное: в январе фильм «Трон: Арес» наконец перешел на съемочную стадию. Главная роль в сай-фае отдана Джареду Лето, и, как стало известно, он получил мощную поддержку в лице Джеффа Бриджеса, звезды оригинального «Трона».
«В эту субботу я отправляюсь на съемки, чтобы сыграть в третьей части "Трона". Звезда фильма — Джаред Лето, и мне не терпится поработать с ним. Восхищаюсь им», — признался Бриджес в недавнем подкасте. В центре событий нового фильма окажется высокоинтеллектуальная программа «Арес» (Лето), которую отправляют из цифрового мира в реальный для выполнения опасной миссии. Она ознаменует первую встречу человечества с искусственным интеллектом.
В фильме зрители увидят также Грету Ли, Эвана Питерса, Джоди Тернер-Смит, Камерона Монахэна и Джиллиан Андерсон. Руководит съемками Хоаким Роннинг («Малифисента: Владычица тьмы»). Премьера состоится в следующем году.
Взять с собой побольше вкусняшек, запасное колесо и знак аварийной остановки. А что сделать еще — посмотрите в нашем чек-листе. Бонусом — маршруты для отдыха, которые можно проехать даже в плохую погоду.
Китайская компания по производству бытовой электроники TCL анонсировала первый фильм, созданный при помощи нейросетей. Это короткометражная романтическая комедия под названием «Следующая остановка Париж».
В сети уже доступен первый трейлер картины, в котором видны распространенные ошибки нейросетей. Лица выглядят пугающе и нереалистично (особенно когда дело доходит до мимики), а пейзажи искажены. Под трейлером, у которого 117 тыс. просмотров, отключены комментарии.
«Следующая остановка Париж» расскажет о девушке, которую бросил парень на ее собственной свадьбе. Она решает поехать на медовый месяц в Париж одна и встречает в поезде загадочного незнакомца. Их история любви расцветает, когда они вместе исследуют «город огней», говорится в синопсисе.
По мнению издания Tom’s Hardware, фильм — скорее маркетинговый ход, чем серьезный релиз. В TCL пообещали, что в ходе работы качество картины улучшат.
Премьера романтической комедии ожидается летом 2024 года. Ее покажут на стриминговом сервисе TCLtv+, об открытии которого компания объявила вместе с анонсом «Следующей остановки Париж».
Ребята, вы не поверите, что произошло! Я тут решил по приколу скормить нейросети все части "Ёлок" и "Игру Престолов" (да, всю боль и страдания), а потом попросил её написать сценарий для "Ёлок-10". И что вы думаете? Этот искусственный гений выдал такой кроссовер, что сам Джордж Мартин обзавидуется!
Короче, представьте: зима близко, в Великом Устюге Дед Мороз готовит сани к Новому Году, а Снегурочка втирает ему про какие-то санкции от Санта-Клауса. В это время в Вестеросе Дейенерис и Джон Сноу спорят, кто из них круче: Мать Драконов или Король Севера. Внезапно, появляется Бран Старк (ну, тот, который Трехглазый Ворон) и говорит: "Вижу... ёлки... снег... оливье... Надо идти!"
И вот вся эта компания телепортируется (не спрашивайте как, это же магия!) прямо в Россию, в самый эпицентр новогоднего безумия. Джон Сноу в шоке от холода, Дейенерис пытается подружиться с местными драконами (спойлер: это просто ящерицы), а Бран тупит и видит какие-то непонятные флешбеки с мандаринами.
Дальше начинается полный трэш: Снегурочка влюбляется в Джона Сноу (Дед Мороз в ярости!), Дейенерис пытается захватить власть в Великом Устюге (но её останавливает баба Маня с скалкой), а Бран в итоге оказывается потерянным родственником Ивана-дурака из русских сказок.
В конце, конечно, все мирятся, пьют водку с оливье, поют "В лесу родилась ёлочка" и смотрят "Иронию судьбы". Джон Сноу узнает, что такое настоящий зимний холод, Дейенерис наконец-то находит своих драконов (в зоопарке), а Бран просто зависает и видит будущее, где "Ёлки-11" снимает нейросеть.
Вот такой вот бред выдала нейросеть. А что вы думаете? Смогли бы такое посмотреть? Или лучше не портить классику?
Если не хочешь отстать от прогресса подпишись на наш тг- https://t.me/Neiroseti_AI_promt (новости из сферы ии и всё про нейронные сети)
Flawless AIпоказали нейросеть, которая легко меняет диалоги в кино вместе с движениями губ актеров, может убрать мат и поменять язык. Причем в сервисе очень качественная кинематографическая синхронизация губ
Уже вижу как противники развития искусственного интеллекта твердят, что благодаря собранным биометрическим данным и этому сервису можно на раз-два получить поддельного человека 👻
Подписывайтесь на ИИшница 🍳 - тут все самое интересное из мира новых технологий и нейросетей 🤖