Как я пытался сделать кино, или Я наигрался с нейрослопом
Сложные года были на Пикабу: баяны, посты о проблемах, реклама телеграм-каналов и сгенерированные видео. С последним мириться было нельзя, и за дело принялся знающий человек — наш игнор-лист. Сегодня вот в горячем всплыло видео какого-то сильного шторма, а в комментариях жители Севастополя спорили: нет у нас никакого шторма в районе. А недавно я постом-ответом на другой нейрослоп отправил кота-сотрудника ПВЗ (а это оказалось ещё и баяном, да и хейта словил - заслуженно). А, ещё 3gp-видосы из нулевых с геймплеем GTA Surgut нагенерировал, но они ушли в какое-то закрытое сообщество.
При выходе любой нейросетевой модели, позволяющей создавать видео, интернет заполняется бабушками на бегемотах и новостными репортажами для телеканала ИА Панорама ТВ. И это неудивительно, ведь в руках у пользователей интернета оказалась невиданная доселе игрушка. И жить дальше было нельзя. Нужно было задать вопрос: а можно ли Sora2 применить для осуществления чего-нибудь более масштабного, будучи рандомным анонимусом без навыков?
С детства я мечтал снимать кино. В 8 лет я корячился с Lego Digital Designer, потому что компьютер у меня был, а настоящего LEGO не было. Собирал модельки, скринил, покадрово монтировал, ну а товарищ из интернета помогал с озвучкой. Мы даже сериал сняли под названием "Киллер", надеюсь, я его нигде не найду (умру от кринжа). Лет в 10 я ещё и свои телеканалы в интернете вёл (на сайте ЯТВ) в кругу таких же малолетних телевещателей. В целом, навыки продюсирования и режиссуры у меня остались примерно на том же уровне, что в далёком 2011 году. Ну зато хоть Сони Вегас освоил, лол.
В 20 лет я всё хотел написать сценарий для настоящего фильма. Перечитывая любые свои попытки, я понимал что это хуже фанфиков по Гарри Поттеру и больше к этому делу не возвращался. Хотя кто-то из моего вуза, больший снимать любитель кино чем я, таки смог собрать ребят и что-то снимать, в основном детективные сериалы.
И вот мы переносимся в 2025 год. Нейросети придумали для всего, а для чего не придумали, для того подкрутили обычный ChatGPT-API и подписали "Нейросеть для...". Сначала Гугл выпускает Вео3 - инструмент для генерации бабушек с крокодилами и бегемотами, затем OpenAI выпускает Сора2 - инструмент для того же самого, но более гибкий.
Первые пару дней после релиза я тоже игрался, смотрел насколько реалистично Сора сделает, как писал выше, GTA Surgut; воссоздаст репортаж с телевидения девяностых; сделает кадр из фильма "Брат" (любимый фильм, честно говоря). Перечисленное я публиковал на Пикабу, но не могу найти опять же из-за закрытого сообщества "Арты нейросетей". Когда пытался найти свой пост в Яндексе, не нашел; когда пытался найти его в упомянутом сообществе, столкнулся с миллиардом постов и искать перестал. Поэтому пару фрагментов покажу прям здесь
В общем, поигравшись с новой игрушкой, я пришел к двум выводам:
1) Sora 2 очень внимательно читает промпт и следует ему, в отличии от других нейросетей
2) У Sora 2 есть фантазия, потому что оба промпта были совсем не подробными.
Играйся с Сорой и мечтай о чём-нибудь великом - прозвучал голос в моей голове, и я решил всё же собрать по кусочкам короткометражку. К тому же нашел скрипт волшебный - апскейл до 1080p и растягивание до 15 секунд! Без него видосы выглядели как будто их снимали на тапок через запотевшее стекло маршрутки, да и некоторые сцены на 10 секунд получаются куцыми им не хватает как раз этих 5-10 дополнительных секунд, чтобы раскрыться.
Я представил свой глупый сюжет в виде набора глупых 15-секундных сцен, описанных до подробностей. В этом деле я, конечно, не мастер, но в целом такие промпты сработали. Да и не я представлял, а ChatGPT, конечно же. Думаю, нейросеть с нейросетью общается понятливей. Примерно так выглядел один из промптов:
Площадка третьего этажа подъезда пятиэтажки-хрущевки. Крупный план, в кадре крупным планом виден Михаил (примерно 25 лет, рост около 175 см, худощавого телосложения, с полностью выбритой головой. Лицо вытянутое, скулы высокие и выразительные, подбородок прямой и чёткий, щетина 2–3 дня придаёт лёгкий налёт небрежности. Глаза серо-голубые, взгляд собранный и слегка холодный. Кожа светлая, с лёгким сероватым оттенком. Одет в чёрный свитер крупной вязки с высоким воротом, поверх — коричневую кожаную куртку, слегка потёртую на локтях, что создаёт ощущение времени и истории вещи. Джинсы классического прямого кроя тёмно-синего цвета дополняют образ, вместе с чёрными армейскими берцами, подчёркивающими практичность и уверенность. Голос низкий, спокойный, с лёгким хрипом, в интонациях слышится сдержанная уверенность, без лишнего эмоционального всплеска, но с ощущением внутренней силы) стучит в деревянную дверь. Пауза. Дверь открывается, в проёме виден Артём (рост 185 см, волосы чёрные с фиолетовыми прядями до плеч, чёрная медицинская маска на лице, жилетка джинсовая с нашивками, майка чёрная рваная, джинсы чёрные узкие с цепями). Михаил улыбается и говорит: «Ну здарова, дружище! Вот я и прилетел. А ты, смотрю, даже дома в своей маске ходишь?». Сургут, зима 1999 года. Съемка в стиле фильма "Брат" 1997 года, А. Балабанов. Съемка с ручной камеры.
Именно с этим фрагментом у меня получилось больше всего мучений. То в подъезде из ниоткуда появлялся второй Артём, то Михаил открывал дверь и из двери выходил второй Михаил, то дверью оказывалась часть стены подъезда. В одном чате мне посоветовали через нейронку превратить это описание сцены в json-промпт, мол, это сделает понимание Сорой сценария более точным. Сработало.
И всё же не умеет Сора генерировать две вещи: посадку человека в автомобиль и... его подъем по лестнице хрущевки:
Функционал не позволяет запомнить персонажа (хотя есть такая штука как Cameo, доступная для ios-богов и недоступная пк-смертным), оттого каждое описание 15-секундной сцены содержало много букв про внешность каждого персонажа. Про то, что стилистика фильмов Балабанова (с переменным успехом), зимний Сургут и всё такое - тоже приходилось писать каждый раз в промпте. Сто генераций в день быстро сменилось тридцатью, 5 генераций одновременно быстро сменились 3, а теперь и 2 генерациями. А ведь это последствия волны нейрослопа, которая захлестнула интернет, ну и таких вот кинематографистов, пытающихся воплотить детскую мечту, лол.
Вскоре случилось страшное (вчера): Sora таки пофиксила баг со скриптом, позволяющим хитрецам генерировать видео в нормальном качестве. На этом моя работа над фильмом завершилась. В итоге из запланированного 20-минутного "шедевра" у меня готова треть, обрывающаяся на самом интересном месте. Смонтировал что есть - получилось минут на 7.
Зато я теперь могу говорить, что я РЕЖИССЕР! Пусть фильм на 7 минут, пусть главный герой меняет лицо как перчатки (реально, он то на Стейтхема похож, то на Борисова), пусть законы физики работают через раз - но это мой фильм!
А вообще, ожидаю новые версии нейросетей и потихоньку буду писать сценарий для чего-нибудь нормального. Не за горами Sora 3 или Veo 4 с увеличенной длинной видео до 49,5 сек и хорошим качеством. Ну и анимацией посадки в автомобиль, если повезёт. Ну и если интересно, вот что за ерунда получилась:
Итак, главный вопрос. Так могу ли я сделать полноценный фильм с помощью Sora 2?
Технически - да, если у меня будут:
бесконечное терпение и много свободного времени;
готовность платить за генерации или гугл-аккаунты (ограничения и т.п.). 200 долларов за Pro-аккаунт, правда, учитывая такие же ограничения как на бесплатных аккаунтов - это прям много;
низкие стандарты качества;
сценарий, где все персонажи в масках (потому что лица постоянно разные)
все общаются жестами (не надо мучаться из-за разных голосов персонажей).
Зато теперь у меня есть 7 минут нейрослопа собственного производства. На этом мои эксперименты с этой нейросетью закончены))