Заброшенный боевой робот
Других роботов и прочую фантастику смотрите тут
Других роботов и прочую фантастику смотрите тут
Представьте, что вы смотрите музыкальный клип, в котором каждая сцена, каждый персонаж и каждое движение камеры созданы искусственным интеллектом. Звучит как научная фантастика? Что ж, будущее уже наступило. Встречайте The Hardest Part - первый в истории музыкальный клип, полностью сгенерированный нейросетью Sora от OpenAI.
Этот новаторский проект - плод совместных усилий инди-музыканта Washed Out (настоящее имя - Эрнест Грин) и режиссера Пола Трилло. Клип на песню “The Hardest Part” демонстрирует впечатляющие возможности генеративных моделей в создании реалистичных и захватывающих визуальных образов. Но как именно работает эта технология, и какое влияние она окажет на индустрию развлечений? Давайте разберемся.
Примечание: Следующее описание основано на рассуждениях Итана Хи (Ethan He), исследователя ИИ из NVIDIA, бывшего сотрудника FAIR и выпускника CMU, с более чем 6000 цитирований и 5000 звезд на GitHub. Оригинальная статья доступна на LinkedIn Pulse. Реальные технологии являются коммерческой тайной OpenAI и еще не были обнародованы.
Предполагается, что в основе Sora лежит DiT (диффузионный трансформер) - архитектура, которая использует возможности масштабирования трансформеров наряду с итеративным процессом уточнения диффузионных моделей, я уже рассказывал про AnimateDiff, который позволяет генерировать видео на моделях Stable Diffusion, тут этот принцип многократно улучшен.
Схема работы диффузионного трансформера
Трансформеры известны своей эффективностью в обработке последовательных данных и обеспечивают надежную архитектуру для моделирования временной динамики видео. Процесс диффузии, в свою очередь, итеративно уточняет выходные данные, начиная с зашумленного начального состояния и двигаясь к желаемому видеовыходу, повышая качество и согласованность сгенерированных видео.
Для сжатия видео Sora использует векторный квантованный вариационный автоэнкодер (VQ-VAE) на основе трехмерной сверточной нейронной сети (3D CNN). Эта архитектура сети состоит из энкодера, который уменьшает размерность визуальных данных до скрытого пространства, и декодера, который реконструирует видео из этого сжатого представления.
Схема работы VQ-VAE для сжатия видео
Использование 3D CNN позволяет захватывать временную динамику видео, что важно для создания согласованного и плавного движения в сгенерированных клипах. Симметричная конструкция энкодера и декодера обеспечивает эффективное сжатие и реконструкцию видео, сохраняя высокую точность исходного контента.
Процесс обучения Sora
Во время обучения к видеотокенам добавляется случайный шум. Трансформер получает на вход текстовое условие, временной шаг диффузии и зашумленные видеотокены.
Генерация текста в видео
Универсальность Sora распространяется на различные приложения, включая анимацию статических изображений и создание идеально зацикленных видео. Анимация статического изображения достигается путем кодирования изображения как первого токена и использования шума для остальных токенов. Для создания бесшовно зацикленных видео Sora обеспечивает идентичность первого и последнего токенов на каждом шаге диффузии, улучшая эстетическую привлекательность сгенерированного контента.
Генерация видео из изображения
Одним из самых замечательных аспектов Sora является ее способность демонстрировать такие возникающие возможности, как 3D-согласованность и постоянство объектов, без явного программирования. Традиционно для достижения 3D-согласованности в сгенерированных видео требовались специальные функции потерь. Однако Sora показывает, что при масштабировании эти возможности могут возникать естественным образом, позволяя генерировать видео, точно имитирующие реальную динамику и взаимодействия.
Таким образом, Sora представляет собой значительный скачок в области генерации видео с помощью ИИ, объединяя несколько передовых технологий для создания высококачественных видеороликов из текстовых описаний.
Несмотря на впечатляющий результат, процесс создания клипа The Hardest Part с помощью Sora был далеко не простым. Режиссеру Полу Трилло пришлось сгенерировать более 700 видеофрагментов, чтобы отобрать из них 55 лучших для финального клипа. Каждый фрагмент требовал детального текстового описания, учитывающего не только визуальные элементы, но и движения камеры, ракурсы и действия персонажей.
Без динамики сцены смотрятся откровенно странно
“Мы пролетаем сквозь пузырь, он лопается, мы пролетаем сквозь жвачку и выходим на открытое футбольное поле”, - так Трилло описывал одну из сцен клипа.
Пока у Пола Трилло был доступ к Сора он так же сделал промо заставку для TED Talks, со столь полюбившимися ему пролетами камеры. Как по мне, получилось интереснее чем в клипе.
Этот опыт показывает, что даже с использованием передовых алгоритмов ИИ создание качественного видеоконтента требует значительных усилий и творческого подхода. Сора, безусловно, открывает новые возможности, но она не заменяет человеческий талант, а дополняет его.
Несмотря на огромный потенциал Sora и подобных технологий, их широкое применение в индустрии развлечений пока сталкивается с рядом препятствий. Главным из них является высокая стоимость генерации видео.
Для создания согласованных и реалистичных видеопоследовательностей Sora требуется огромное количество вычислительных ресурсов и объем памяти. По оценкам экспертов, генерация даже короткого клипа может обходиться в сотни или тысячи долларов. Для сравнения, другие мультимодальные модели, такие как LLaVA и CogVLM, которые работают только с изображениями и текстом, уже требуют существенных затрат на GPU и электроэнергию.
Еще одним барьером является вопрос авторских прав и интеллектуальной собственности. Модели вроде Sora обучаются на огромных массивах видеоданных, принадлежащих различным правообладателям и в том числе открытых. Использование сгенерированного ИИ контента в коммерческих проектах может привести к юридическим спорам и конфликтам интересов.
Сгенерированный Сэм Альтмен на фоне сгенерированных голливудских холмов
OpenAI, разработчик Sora, активно продвигает свою технологию в киноиндустрии. В марте 2024 года генеральный директор компании Сэм Альтман и другие представители провели серию встреч с голливудскими студиями, режиссерами и продюсерами. Цель этих встреч - найти партнеров для дальнейшего развития и внедрения Sora в кинопроизводство.
Для крупных киностудий использование генеративных моделей может означать существенное сокращение затрат на производство визуальных эффектов и ускорение процесса создания фильмов. OpenAI рассчитывает, что партнерство с Голливудом поможет не только улучшить Sora, но и продемонстрировать ее возможности широкой аудитории.
Однако не все в киноиндустрии разделяют энтузиазм по поводу внедрения ИИ. Многие актеры, режиссеры и другие творческие работники опасаются, что генеративные модели могут лишить их работы и нивелировать ценность человеческого таланта. Поэтому OpenAI предстоит найти баланс между технологическим прогрессом и интересами профессионального сообщества.
Первый музыкальный клип, созданный с помощью Sora, - это лишь начало большого пути. По мере развития генеративных моделей и снижения стоимости их использования, мы увидим все больше примеров применения ИИ в киноиндустрии, музыке, видеоиграх и других сферах развлечений.
Однако важно помнить, что технологии вроде Sora - это инструменты, а не замена человеческого творчества. Они открывают новые горизонты и позволяют воплощать самые смелые идеи, но за каждым успешным проектом по-прежнему стоят талантливые люди - режиссеры, сценаристы, художники и многие другие.
Первая короткометражка сделанная в Sora называется Air Head by Shy Kids
Будущее индустрии развлечений - это симбиоз творчества и технологий, в котором ИИ дополняет и усиливает человеческие способности. И клип “The Hardest Part” - это лишь первый шаг на пути к этому будущему.
А что вы думаете о потенциале генеративных моделей вроде Sora? Как они повлияют на индустрию развлечений и творческие профессии? Поделитесь своим мнением в комментариях!
Люблю я розоволосых русалок генерировать. Особенно в космическом пространстве. Такие красивые и нежные. Прям хочется прикоснуться к ней. Есть ещё желание картину написать в таком стиле и игрушку сделать! Но это всё в планах.
Сколько раз пересмотрели?)) я много!))
Нейросети и ИИ-виртуальные машины стремительно развиваются, открывая перед человечеством небывалые возможности. Сегодня мы можем лишь представить, каким станет мир через 10-20 лет, но уже сейчас можно с уверенностью сказать, что ИИ сыграет в нем ключевую роль.
В этой статье мы рассмотрим некоторые из наиболее перспективных направлений развития нейросетей и ИИ-виртуальных машин, а также дадим прогноз на их примерное время появления и те потребности человечества, которые они смогут решить.
Время появления: 2025-2030 гг.
Потребности: Развлечения, образование, тренировки, терапия.
Представьте себе виртуальные миры, неотличимые от реальности, где вы можете делать все, что угодно, без каких-либо ограничений. Нейросети нового поколения смогут создавать такие миры, используя наши воспоминания, мечты и фантазии. Это откроет новые возможности для развлечений, образования, тренировок и даже терапии.
Время появления: 2025-2030 гг.
Потребности: Научные исследования, медицина, инженерия, бизнес.
ИИ-виртуальные машины смогут решать задачи, которые сейчас кажутся нам невыполнимыми. Они будут помогать ученым в сложных исследованиях, врачам в постановке диагнозов, инженерам в проектировании новых технологий, а бизнесменам в принятии стратегических решений.
Время появления: 2030-2040 гг.
Потребности: Психология, образование, маркетинг.
Нейросети смогут понимать наши эмоции и управлять ими. Это позволит психологам более эффективно помогать людям с психическими расстройствами, педагогам – повышать успеваемость учеников, а маркетологам – создавать более точные и эффективные рекламные кампании.
Время появления: 2040-2050 гг.
Потребности: Все сферы жизни.
Это может показаться фантастикой, но ИИ-виртуальные машины смогут создавать другие ИИ. Это приведет к взрывному росту интеллекта, который изменит все сферы жизни человека.
Время появления: 2050+ гг.
Потребности: Медицина, образование, киберспорт.
Нейросети смогут напрямую взаимодействовать с нашим мозгом, что позволит нам получать информацию и управлять устройствами силой мысли. Это откроет новые возможности для лечения заболеваний, обучения и киберспорта.
Стоит отметить, что данная статья является лишь прогнозом, и реальное развитие событий может отличаться.
Тем не менее, она дает нам представление о том, какие возможности могут открыть перед нами нейросети и ИИ-виртуальные машины в ближайшие десятилетия.
Один из любимых промптов создателя канала для Dall-e 3 — это стиль старой компьютерной игры. Сердечко трепещет от ностальгии и деталек, которые хочется рассматривать. Полюбуйтесь вместе с нами :)
Фото: Freepik
Создание контента – это креативный и вместе с тем, высокоинтеллектуальный труд, требующий от специалиста большого напряжения и затрат времени. К счастью, этот труд во многом может быть упрощен благодаря использованию нейросетей.
Но как искусственный интеллект может помочь дизайнерам, художникам и иллюстраторам в их творческой работе? Какие онлайн-сервисы на базе ИИ позволяют быстро создавать уникальные изображения по текстовым запросам и редактировать готовую графику? Давайте разберемся в этих вопросах и рассмотрим ТОП-5 лучших нейросетей для специалистов, работающих с визуальным контентом.
Технологии искусственного интеллекта стремительно развиваются, открывая новые горизонты для творческих профессий. Современные нейросети способны создавать впечатляющие изображения буквально за считанные секунды на основе текстовых описаний (промптов). Это позволяет значительно ускорить и оптимизировать рабочие процессы дизайнеров, художников, иллюстраторов, фотографов и скульпторов.
Конечно, ИИ пока не может полностью заменить профессионалов в сфере графического дизайна и искусства. Однако нейросети уже сейчас становятся незаменимыми помощниками для генерации идей, создания концепт-артов, баннеров, иллюстраций, аватаров и других визуальных элементов. Кроме того, ИИ-сервисы предлагают инструменты для изменения и улучшения готовых картинок – речь идет о повышении качества, смене стиля, добавлении и удалении объектов и т. д.
Фото: Freepik
Рассмотрим подробнее ТОП-5 онлайн-сервисов на базе ИИ, которые будут полезны дизайнерам, художникам и иллюстраторам в их работе.
Designer – это нейросеть для создания графики от компании Microsoft, основанная на модели DALL-E от OpenAI. Сервис интегрирован в поисковую систему Bing и доступен также на сайте https://copilot.microsoft.com/. Генерация происходит по текстовому запросу, как и в большинстве подобных систем. Система предлагает 4 варианта изображения, которые можно скачать. «Дизайнер» отлично подойдет для быстрого создания иллюстраций к статьям и постам.
Stable Diffusion – популярная нейросеть с открытым исходным кодом. Она позволяет бесплатно создавать изображения по текстовым описаниям. По каждому запросу система генерирует 4 варианта картинки разрешением 512x512 пикселей. Несмотря на некоторые ограничения, Stable Diffusion является отличным инструментом для экспериментов и поиска креативных идей. Сервис доступен через онлайн-платформу DreamStudio.
Midjourney – один из самых продвинутых ИИ-генераторов изображений на сегодняшний день. Он доступен через платформу Discord, где нужно вводить текстовые промпты на английском языке. Нейросеть создает по 4 варианта картинки в различных стилях и уровнях детализации. Также есть возможность объединять несколько изображений в коллаж. Сервис предлагает гибкие тарифные планы для разных задач и бюджетов. Благодаря «Маджорни» можно генерировать потрясающие иллюстрации, концепт-арты, дизайны персонажей и многое другое.
DALL-E – революционное семейство нейросетей от компании OpenAI. Последняя версия DALL-E 3 способна создавать фотореалистичную графику высокого разрешения по текстовым описаниям, а также редактировать и улучшать готовые картинки. Сервис предлагает бесплатные кредиты для новых пользователей. DALL-E 3 интегрирован с популярным чат-ботом ChatGPT – генерировать картинки можно прямо из него. DALL-E идеально подходит для создания креативных картинок и работы с визуальными элементами.
Canva AI – мощный инструмент для создания графики, интегрированный в популярный онлайн-конструктор Canva. Как и в других нейросетях, здесь можно генерировать картинки по текстовому промпту, сервис также предлагает широкий набор функций для работы с 2D и 3D графикой, применения фильтров и спецэффектов. Canva AI доступен по подписке, при этом можно попробовать бесплатный период на 30 дней. Этот универсальный инструмент отлично подойдет для дизайнеров, маркетологов и всех, кто работает с визуальным контентом.
Помимо вышеперечисленных нейросетей, хочется отдельно отметить наш онлайн-сервис Creator Project. На платформе вы получите доступ к передовой модели ИИ от OpenAI – DALL-E 3. Это позволит создавать потрясающую графику по текстовым промптам, находясь в России, без утомительного использования VPN, прокси и СМС-сервисов.
Кроме того, Креатор Проджект предлагает возможность пообщаться с продвинутым чат-ботом ChatGPT 3/4 Turbo, транскрибировать аудио и видео в текст, а также воспользоваться инструментом ИИ-кодинга. Сервис постоянно развивается и добавляет новые функции для творческой работы с применением искусственного интеллекта.
Подводя итоги, можно с уверенностью сказать, что нейросети открывают огромные возможности для дизайнеров, художников и иллюстраторов. ИИ-сервисы позволяют значительно ускорить и оптимизировать процессы создания визуального контента, экспериментировать с разными стилями и идеями. При этом важно понимать, что нейросети являются инструментом в руках профессионала, но не могут полностью заменить творческий подход и экспертизу человека.
Попробуйте поработать с разными нейросетями из нашего списка и оцените их возможности. А какие ИИ-сервисы для создания графики используете вы? Поделитесь своим опытом в комментариях!