Крутая подборка изображений на PixArt Sigma
Собрали для вас свеженькие изображения, созданные на PixArt Sigma🔥
Результат впечатляющий!
Интересуешься нейросетями? Тебе в источник - Нейро-Пушка🎯
Как я не успел сделать открытки ко Дню космонавтики
Идея создать набор ретро-октрыток с одним общим сюжетом появилась у меня давно. Хотелось создать визуальное путешествие по разным уголкам Солнечной системы, где живут и трудятся люди. Чтобы оптимистично, визуально богато, информативно.
Повод долго придумывать не пришлось - День космонавтики идеально подходил для этого. Взяв за основу опыт новогодних открыток и новые наработки по "Миджорни", в начале марта я засел за работу.
Фоны открыток я создавал с нейросетью, направляя её не только текстовым описанием, но и примерами существующих изображений для создания как сюжетов, так и стилей.
Некоторые вещи получались неожиданно, почти случайно. Например, тяжёлый скафандр для Венеры, способный выдержать адскую температуру и огромное давление, Миджорни сгенерировала после долгого перебора запросов. А вот тёмное лицо исследователя в стекле выдала сама.
Идея с привызом посетить разные планеты и спутник пришла в самом начале работы над набором. Но дальше поджидали неожиданности: для каждой открытки приходилось искать свои стилистические и сюжетные ориентиры, потому что разную цветовую гамму из схожего запроса получить не удавалось.
Сложнее всего дался Марс, хотя я с самого начала знал, чего хочу. Наверное, это и плохо: получить картинку из головы сложнее, чем перебирать генерации. Над покорительницей марсианского Олимпа я просидел больше недели и вдруг понял, что могу не успеть до 12 апреля.
В этот раз я решил не отправлять открытки почтой, как делал это на Новый год. Почта - это ответственность с адресами, дополнительная оплата самого отправления, походы в отделение. Я решил попробовать маркетплейсы. Для заказчиков это проще - выбрал пункт выдачи, нажал, ждёшь.
В середине марта макеты были в типографии. По совету подписчика я решил ещё сделать суперобложку, чтобы собрать все открытки в одно целое.
Пошли правки и подгон размера. С суперобложкой пришлось повозиться, чтобы она получилась как надо. Приближался апрель.
Я разобрался с маркетплейсом. Всё было готово к продажам. Кроме открыток и обложек. Их печать завершилась позже, чем я рассчитывал, под самый День космонавтики. Успеть до было уже невозможно.
В итоге я разослал несколько наборов по почте, и только в середине апреля открытки стали доступны на маркетплейсе. С одной стороны, это было грустно, потому что, как говорит мой отец, дорога ложка к обеду. С другой, наборы подоспели к окончанию конкурса сверхкороткой фантастики и стали дополнительными подарками победителям.
В конце концов, 12 апреля снова наступит почти через год. Да и любители космоса размышляют о будущем исследовании Солнечной системы, скорее всего, не только в этот день. Для всех желающих найти открытки можно на Озоне по запросу "Гимн исследователям Солнечной системы".
Трактор в виде Теслы и спутниковое оборудование от ИИ
Попробовал сгенерировать нейросетью тракторы, на которые устанавливают спутниковые автопилоты - вышло забавно, особенно спутниковая тарелка на тракторе. Кстати, скоро сделаю длиннопост про автопилоты и свою работу!
Вы что-то пробовали генерировать с помощью нейросетей? У меня пока не очень люди получаются. Правда я пользуюсь бесплатным идеограмом, не миджорней, конечно....
Realistic Vision V6.0 B1 — классная модель для фотореализма
Название: Realistic Vision V6.0 B1
Тип модели: #Модель
Количество скачиваний: 5,000,000+
Дата загрузки: Jul 31, 2023
Базовая модель: SD 1.5
Теги: #PHOTOREALISTIC #ANATOMICAL #CGI #REALISTIC #SEMI-REALISTIC
Комментарий разработчика: Эта версия модели исправляет многие недочеты предыдущих версий, связанные с артефактами и неестественной анатомией персонажей. Значительные усилия были направлены на минимизацию потерь качества.
Источник - @neurosklad 🤖 - все, что нужно, для твоей нейронки!
Новая технология преобразования текста в видео
🚀Главная фишка StoryDiffusion — она может запоминать внешность персонажа и использовать её на протяжении всего видео или комикса, делая их последовательными и цельными.
Эта особенность прекрасно сочетается с механизмом Consistent Self-Attention, благодаря которому переходы между изображениями осуществляются плавно. Это позволяет создавать очень длинные и качественные ролики
Предиктор — ещё одна ключевая особенность StoryDiffusion, он предугадывает движения персонажей, так картинка выглядит логичнее.
Больше интересного из мира нейросетей в источнике - Нейро-Пушка🎯
Нейронные сети
Сможете найти на картинке цифру среди букв?
Справились? Тогда попробуйте пройти нашу новую игру на внимательность. Приз — награда в профиль на Пикабу: https://pikabu.ru/link/-oD8sjtmAi
Первый музыкальный клип, созданный нейросетью Sora от OpenAI, революция или баловство? Как работает?
Представьте, что вы смотрите музыкальный клип, в котором каждая сцена, каждый персонаж и каждое движение камеры созданы искусственным интеллектом. Звучит как научная фантастика? Что ж, будущее уже наступило. Встречайте The Hardest Part - первый в истории музыкальный клип, полностью сгенерированный нейросетью Sora от OpenAI.
Этот новаторский проект - плод совместных усилий инди-музыканта Washed Out (настоящее имя - Эрнест Грин) и режиссера Пола Трилло. Клип на песню “The Hardest Part” демонстрирует впечатляющие возможности генеративных моделей в создании реалистичных и захватывающих визуальных образов. Но как именно работает эта технология, и какое влияние она окажет на индустрию развлечений? Давайте разберемся.
Под капотом Sora: Как нейросеть создает видео
Примечание: Следующее описание основано на рассуждениях Итана Хи (Ethan He), исследователя ИИ из NVIDIA, бывшего сотрудника FAIR и выпускника CMU, с более чем 6000 цитирований и 5000 звезд на GitHub. Оригинальная статья доступна на LinkedIn Pulse. Реальные технологии являются коммерческой тайной OpenAI и еще не были обнародованы.
Предполагается, что в основе Sora лежит DiT (диффузионный трансформер) - архитектура, которая использует возможности масштабирования трансформеров наряду с итеративным процессом уточнения диффузионных моделей, я уже рассказывал про AnimateDiff, который позволяет генерировать видео на моделях Stable Diffusion, тут этот принцип многократно улучшен.
Схема работы диффузионного трансформера
Трансформеры известны своей эффективностью в обработке последовательных данных и обеспечивают надежную архитектуру для моделирования временной динамики видео. Процесс диффузии, в свою очередь, итеративно уточняет выходные данные, начиная с зашумленного начального состояния и двигаясь к желаемому видеовыходу, повышая качество и согласованность сгенерированных видео.
Для сжатия видео Sora использует векторный квантованный вариационный автоэнкодер (VQ-VAE) на основе трехмерной сверточной нейронной сети (3D CNN). Эта архитектура сети состоит из энкодера, который уменьшает размерность визуальных данных до скрытого пространства, и декодера, который реконструирует видео из этого сжатого представления.
Схема работы VQ-VAE для сжатия видео
Использование 3D CNN позволяет захватывать временную динамику видео, что важно для создания согласованного и плавного движения в сгенерированных клипах. Симметричная конструкция энкодера и декодера обеспечивает эффективное сжатие и реконструкцию видео, сохраняя высокую точность исходного контента.
Процесс обучения Sora
Во время обучения к видеотокенам добавляется случайный шум. Трансформер получает на вход текстовое условие, временной шаг диффузии и зашумленные видеотокены.
Генерация текста в видео
Универсальность Sora распространяется на различные приложения, включая анимацию статических изображений и создание идеально зацикленных видео. Анимация статического изображения достигается путем кодирования изображения как первого токена и использования шума для остальных токенов. Для создания бесшовно зацикленных видео Sora обеспечивает идентичность первого и последнего токенов на каждом шаге диффузии, улучшая эстетическую привлекательность сгенерированного контента.
Генерация видео из изображения
Одним из самых замечательных аспектов Sora является ее способность демонстрировать такие возникающие возможности, как 3D-согласованность и постоянство объектов, без явного программирования. Традиционно для достижения 3D-согласованности в сгенерированных видео требовались специальные функции потерь. Однако Sora показывает, что при масштабировании эти возможности могут возникать естественным образом, позволяя генерировать видео, точно имитирующие реальную динамику и взаимодействия.
Таким образом, Sora представляет собой значительный скачок в области генерации видео с помощью ИИ, объединяя несколько передовых технологий для создания высококачественных видеороликов из текстовых описаний.
Создание клипа “The Hardest Part”: Сложности и уроки
Несмотря на впечатляющий результат, процесс создания клипа The Hardest Part с помощью Sora был далеко не простым. Режиссеру Полу Трилло пришлось сгенерировать более 700 видеофрагментов, чтобы отобрать из них 55 лучших для финального клипа. Каждый фрагмент требовал детального текстового описания, учитывающего не только визуальные элементы, но и движения камеры, ракурсы и действия персонажей.
Без динамики сцены смотрятся откровенно странно
“Мы пролетаем сквозь пузырь, он лопается, мы пролетаем сквозь жвачку и выходим на открытое футбольное поле”, - так Трилло описывал одну из сцен клипа.
Пока у Пола Трилло был доступ к Сора он так же сделал промо заставку для TED Talks, со столь полюбившимися ему пролетами камеры. Как по мне, получилось интереснее чем в клипе.
Этот опыт показывает, что даже с использованием передовых алгоритмов ИИ создание качественного видеоконтента требует значительных усилий и творческого подхода. Сора, безусловно, открывает новые возможности, но она не заменяет человеческий талант, а дополняет его.
Барьеры на пути к массовому использованию
Несмотря на огромный потенциал Sora и подобных технологий, их широкое применение в индустрии развлечений пока сталкивается с рядом препятствий. Главным из них является высокая стоимость генерации видео.
Для создания согласованных и реалистичных видеопоследовательностей Sora требуется огромное количество вычислительных ресурсов и объем памяти. По оценкам экспертов, генерация даже короткого клипа может обходиться в сотни или тысячи долларов. Для сравнения, другие мультимодальные модели, такие как LLaVA и CogVLM, которые работают только с изображениями и текстом, уже требуют существенных затрат на GPU и электроэнергию.
Еще одним барьером является вопрос авторских прав и интеллектуальной собственности. Модели вроде Sora обучаются на огромных массивах видеоданных, принадлежащих различным правообладателям и в том числе открытых. Использование сгенерированного ИИ контента в коммерческих проектах может привести к юридическим спорам и конфликтам интересов.
OpenAI и Голливуд: Стратегия внедрения
Сгенерированный Сэм Альтмен на фоне сгенерированных голливудских холмов
OpenAI, разработчик Sora, активно продвигает свою технологию в киноиндустрии. В марте 2024 года генеральный директор компании Сэм Альтман и другие представители провели серию встреч с голливудскими студиями, режиссерами и продюсерами. Цель этих встреч - найти партнеров для дальнейшего развития и внедрения Sora в кинопроизводство.
Для крупных киностудий использование генеративных моделей может означать существенное сокращение затрат на производство визуальных эффектов и ускорение процесса создания фильмов. OpenAI рассчитывает, что партнерство с Голливудом поможет не только улучшить Sora, но и продемонстрировать ее возможности широкой аудитории.
Однако не все в киноиндустрии разделяют энтузиазм по поводу внедрения ИИ. Многие актеры, режиссеры и другие творческие работники опасаются, что генеративные модели могут лишить их работы и нивелировать ценность человеческого таланта. Поэтому OpenAI предстоит найти баланс между технологическим прогрессом и интересами профессионального сообщества.
Sora и будущее развлечений
Первый музыкальный клип, созданный с помощью Sora, - это лишь начало большого пути. По мере развития генеративных моделей и снижения стоимости их использования, мы увидим все больше примеров применения ИИ в киноиндустрии, музыке, видеоиграх и других сферах развлечений.
Однако важно помнить, что технологии вроде Sora - это инструменты, а не замена человеческого творчества. Они открывают новые горизонты и позволяют воплощать самые смелые идеи, но за каждым успешным проектом по-прежнему стоят талантливые люди - режиссеры, сценаристы, художники и многие другие.
Первая короткометражка сделанная в Sora называется Air Head by Shy Kids
Будущее индустрии развлечений - это симбиоз творчества и технологий, в котором ИИ дополняет и усиливает человеческие способности. И клип “The Hardest Part” - это лишь первый шаг на пути к этому будущему.
А что вы думаете о потенциале генеративных моделей вроде Sora? Как они повлияют на индустрию развлечений и творческие профессии? Поделитесь своим мнением в комментариях!