1063

Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

Cегодня потестирую новую генеративную нейросетку, которая создает видео по тексту. Посмотрим, как с ней работать и на что она вообще способна. Поехали :)

Суть этой нейросети довольно проста: она похожа на Midjourney, только генерирует по запросам не изображения, а видео. Слоган у Gen-2, кстати, классный: «Если ты можешь это представить, ты можешь это сгенерировать» (If you can imagine it, you can generate it).

Регистрация: нужен ли VPN или зарубежный номер?

Прежде чем разбираться в тонкостях Gen-2, начнем с самого первого шага. Регистрируемся в нейросети.

Процесс максимально простой — с регистрацией из России проблем не возникнет, поэтому VPN можете не включать. Если регистрироваться через гугл-аккаунт, на весь этот процесс у вас уйдет секунд 20.

Заходим на сайт Gen-2 by Runway, вводим свои данные. После этого вас перенаправит на рабочую область — там нажимаем Gen-2: text-to-video. Все, вы готовы создавать свои первые нейровидео!

Gen-2 — платная нейросеть, но при регистрации вы получите 105 пробных секунд для генерации видео. Длина создаваемого видеоролика — 4 секунды, и это время не может быть изменено.

Если вы оформите подписку за $15 в месяц, вам станут доступны дополнительные функции: повышение качества видео (upscale) и удаление водяных знаков. Учтите, что с ежемесячной подпиской вы все равно получите те же 105 секунд. Если они кончатся, придется либо ждать следующего месяца, либо докупать секунды. Каждая дополнительная секунда будет стоит $0.05. Классические методы оплаты из России не принимаются.

Впрочем, можно просто создавать новые учетные записи и заново получать бесплатные секунды, чтобы не заморачиваться с подписками.

Знакомимся с интерфейсом

На данный момент настройки минимальны. Справа от строки ввода текста есть возможность загрузить фотографию в качестве референса для создаваемого видео. Об этом поговорю чуть позже.

Внизу находится меню настроек, где также не так много опций. Вы можете самостоятельно задать вес видео и немного "сгладить" его. Функция upscale (улучшение качества) и удаление водяного знака доступны только при наличии подписки.

Составляем промпт (описание будущего видео)

На сайте Runway есть короткое обучающее видео, но ничего нового там не найдешь. Промпты для этой нейросети составляются так же, как и для нейросетей, генерирующих изображения. Чем детальнее описание промпта, тем лучше результаты запроса.

Здесь стоит уделить особое внимание на описание движения камеры, угла обзора и перспективы.

Учтите, что вы не сможете создать уж слишком детальный промпт, так как ограничение составляет 320 символов. Кроме того, не получится задать длительность видео — оно всегда будет составлять 4 секунды.

Погнали на практике выяснять, какие промпты Gen-2 поймет лучше всего и способен ли он на что-то толковое.

Простой промпт без деталей

Добавлю, что промпты лучше всего писать на английском языке. Давайте сначала попробуем что-нибудь простое: спящий лев — a sleeping lion

Ну, получился точно лев. Пока что это точно не кадр из National Geographic...

Давайте больше движения. Пусть девушка куда-нибудь идет — a lady walking somewhere

Несмотря на то, что их почему-то стало две — выглядит... круто. Особенно для такого простенького запроса. Чем-то напоминает старую добрую экранку :) И ключицы как детально прорисованы!

Посмотрим последний короткий промпт — a hot cup of tea. Тут даже кадры сменяются и появился намек на сюжетность:

Усложняем промпты, добавляем детали

Что ж, хорошо, давайте добавим деталей к предыдущим промптам и попробуем разнообразить их. Детализированные промпты позволяют экспериментировать с разными углами съёмки, камерами, объективами, местами и даже режиссёрами. Чтобы не придумывать всё с нуля самостоятельно, пользуюсь Prompt Silo — помощником-генератором промптов.

Моя "улучшенная" версия льва: a lion sleeping in grass, direct3d render, unreal engine render, wide shot, realistic, quentin tarantino film style

Сразу получается уже что-то более интересное! Хотя до "реалистик" еще пока далеко, конечно.

Тут немного меняю lady на little girl для разнообразия: illustration of a little girl walking around in a forest, in the style of otherworldly creatures,32k uhd, charming characters, dark green, luminescent installations, joyful celebration of nature, dreamworks animation style

Если Midjourney и другим похожим нейросетям еще нужна дополнительная практика в рисовании рук, то Gen-2 еще предстоит большая работа с прорисовкой лиц. Тем не менее, уже сейчас заметно, как он отлично передает движение персонажа — будто девочка исследует таинственный лес, при этом осторожно крадется.

Посмотрим, как изменится наша чашечка чая: a hot cup of tea, style of Pablo Picasso, wes anderson film style, cinematic lighting, superrealistic, low angle, dark aesthetic

Движения в кадре минимум, но выглядит очень атмосферно. Как будто бы кадр из старого фильма.

Загружаем изображения-референсы

Теперь протетируем функцию загрузки фотографий, а заодно продолжим играться с промптами.

Эти ребятки были сгенерированы в Unstability AI:

Промпт добавим вот такой: human talking to a robot, Sci-fi futuristic, Wide shots and close-ups, Slow zoom out, in style of netflix documentary

Не совсем то, что ожидалось, однако любопытно, что человек с референса в целом похож на парня с нашего первого арта. Может с белым фоном и минимальным количеством деталей будет лучше? Пробую анимировать Хлебособаку!

А вот и промпт: dog made out of bread, disney style, blender render, octane render, unreal engine render, Panning from left to right

Ну, за референс он изображения брать старается, это видно. Вот у Хлебособакена постарался сохранить узор на шерсти. Однако Gen-2 пока сложно справиться с созданием сложных и необычных изображений.

Еще немного экспериментов

Подвожу итог

Gen-2, конечно, пока выглядит очень сыро. Иногда получается создать что-то интересное, но в большинстве случаев выходит нечто странное. И слегка смахивает на галлюцинацию.

В принципе, нет смысла оформлять подписку на данный момент. Да, это все интересно, но пока нигде особо не применишь.

Но опять же, давайте вспомним как в прошлом году выглядел Midjourney и как сильно он эволюционировал за год:

И все-таки следить за такими обновлениями не только важно, но и чрезвычайно интересно. В мире нейросетей каждый день происходят новые и захватывающие события. Например, недавно парализованный парень с помощью нейросетевого имплантата заново научился ходить. А теперь вот нейросети способны создавать видео на основе текста.

Какие впечатления сложились от Gen-2? Делитесь мыслями в комментах, интересно почитать, что кто думает :)

Источник: Нейросекта

Искусственный интеллект

5.8K поста11.9K подписчиков

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

  I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества