Как работают генераторы изображений на основе ИИ?
Все генераторы изображений на основе ИИ принимают текстовый запрос и превращают его — насколько это возможно — в подходящее изображение. Это открывает огромные возможности, ведь ваш запрос может быть чем угодно: от «импрессионистская картина маслом канадца, едущего на лосе через кленовый лес» до «картина в стиле Вермеера с огромным лохматым ирландским волкодавом, наслаждающимся кружкой пива в традиционном пабе» или даже «фотография осла на Луне».
![Пример изображения]
Я сделал это изображение с помощью Midjourney по запросу «импрессионистская картина маслом канадца, едущего на лосе через кленовый лес».
Серьёзно, единственные ограничения — это ваша фантазия, способность генератора изображений понять ваш запрос и любые фильтры контента, которые предотвращают плагиат, нарушение авторских прав или наполнение интернета нежелательным контентом (например, изображениями насилия или NSFW-контентом). Раньше запрос с Вермеером работал стабильно, но сейчас некоторые генераторы блокируют подобные запросы из-за упоминания конкретного художника.
Большинство генераторов изображений на основе ИИ работают примерно одинаково. Миллионы или даже миллиарды пар изображений и текстов используются для обучения нейронной сети (по сути, это очень сложный алгоритм, отдалённо смоделированный на основе работы человеческого мозга). Обрабатывая бесчисленное количество изображений, модель учится, что такое собаки, красный цвет, стиль Вермеера и многое другое. После обучения ИИ способен интерпретировать почти любой запрос — хотя для получения точных результатов необходимо умение правильно формулировать запрос.
Следующий этап — генерация изображения. Новейшие ИИ-генераторы делают это с помощью диффузии. По сути, они начинают с случайного «шума» и пошагово редактируют его, чтобы он соответствовал их интерпретации вашего запроса. Это похоже на то, как вы смотрите на облака, находите одно, похожее на собаку, и можете щёлкнуть пальцами, чтобы сделать его всё более и более похожим на собаку.
![Собака-облако]
Запрос в Recraft ai “Облако в форме собаки на фоне чистого голубого неба”
Перед тем как мы пойдём дальше: не стоит переоценивать возможности ИИ. То, что могут делать текстово-графические генераторы, впечатляет, но вряд ли это избавит вас от необходимости фото-съёмок продуктов. Если вам просто нужны необычные или уникальные изображения, они действительно помогут. Но если вам нужно что-то конкретное, лучше нанять фотографа или приобрести готовое изображение на стоковом сайте. Также попытка сгенерировать заголовок для блога может занять гораздо больше времени, чем просто поиск нужного изображения на стоке. Пусть оно и не будет кастомным, зато модель не нарисует персонажа с десятью пальцами.
RecraftArtBot: Лучшая нейросеть для генерации изображений в 2024 году
Воспользоваться сервисом: RecraftAI ImageGen: ИИ Генератор Изображений
RecraftArtBot — идеальный выбор для генерации изображений с гибкими настройками и уникальными возможностями, включая векторизацию.
Преимущества RecraftArtBot:
Высокая реалистичность и качество изображений
Гибкая настройка стилей, форматов и цветовых решений
Дополнительные функции: векторизация, улучшение качества и мгновенное удаление фона
Недостатки RecraftArtBot:
RecraftArtBot, использующий возможности нейросети Recraft AI, зарекомендовал себя как один из самых функциональных инструментов для текстовой генерации изображений. Отличительная особенность бота — выдающаяся детализация и реалистичность результатов, даже при сложных запросах.
Интерфейс бота позволяет не только вводить текстовые описания, но и тонко настраивать процесс генерации. 50 встроенных стилей, включая реализм, аниме, винтаж и киберпанк, позволяют пользователям комбинировать визуальные эффекты и получать уникальные композиции. Также поддерживается выбор соотношения сторон, что особенно полезно для создания изображений для соцсетей, баннеров или презентаций.
Одной из ключевых возможностей является цветовая настройка, где можно задать настроение картинки через палитры или установить фоны: однотонные, прозрачные или текстурированные. Это позволяет минимизировать время на постобработку и сразу получать готовый результат.
Дополнительно бот предлагает функции, которые редко встречаются в других генераторах изображений:
Векторизация — быстрая конвертация любых изображений в векторный формат.
Upscale — увеличение разрешения и улучшение качества.
Удаление фона — быстрый и точный результат за несколько секунд.
Цены на RecraftArtBot: оплата происходит через Telegram Stars, а стоимость зависит от количества запросов и выбранных опций.
FLUX: Однин из самых лучших сервисов ии генерации
Воспользоваться сервисом: FLUX.1
FLUX.1 — наш выбор среди альтернатив Stable Diffusion.
Когда Stability.ai оказалась на грани краха, значительная часть команды покинула компанию и основала Black Forest Labs. В результате они выпустили свою первую серию моделей для генерации изображений на основе текста — FLUX.1.
В ходе моего тестирования FLUX.1 показал результаты как минимум не хуже, чем Stable Diffusion. Хотя его поддержка пока не так широка, я предполагаю, что со временем всё больше ИИ-художников начнут адаптировать его для создания узкоспециализированных моделей.
Если вы хотите освоить открытые инструменты генерации изображений на базе ИИ, а не просто пользоваться простыми генераторами по текстовому описанию, я бы рекомендовал поэкспериментировать с FLUX.1, а не с Stable Diffusion. Версия FLUX.1 Schnell выпущена под свободной лицензией Apache 2.0, а более крупная модель FLUX.1 доступна для некоммерческого использования.
Как и в случае со Stable Diffusion, самый простой способ использовать FLUX.1 — это онлайн-сервисы для генерации изображений на основе ИИ, такие как NightCafe, Tensor.Art и Civitai. Создайте бесплатный аккаунт, попробуйте генератор и сравните его результаты с другими моделями. Но помните: контент на этих сайтах может быть не полностью безопасным для просмотра (NSFW).
Цены на FLUX.1: зависят от платформы, но многие предлагают бесплатные кредиты для тестирования.
Adobe Firefly: Лучший ИИ-генератор изображений для интеграции изображений, созданных ИИ, в фотографии
Воспользоваться сервисом: Adobe Firefly
Adobe Firefly — наш выбор среди ИИ-генераторов изображений для интеграции с существующими фотографиями.
Отличная интеграция с приложениями Adobe, особенно с Photoshop
Мощные функции для редактирования и дополнения изображений
Компания Adobe уже более 15 лет интегрирует ИИ-инструменты в свои приложения, поэтому неудивительно, что она создала один из самых мощных генераторов изображений на основе текста — особенно когда дело касается интеграции с другими инструментами. Модель Firefly можно опробовать бесплатно через веб-версию или Adobe Express, но лучше всего она проявляет себя в последней версии Photoshop.
Firefly обладает рядом уникальных возможностей. Помимо генерации новых изображений по текстовому описанию, она может создавать текстовые эффекты на основе заданного промпта (например, слово "ТОСТ", написанное буквами в виде тостов), перекрашивать векторные изображения или добавлять элементы, созданные ИИ, в существующие фотографии. Эти функции можно протестировать через веб-приложение, но именно последняя выделяет Firefly среди конкурентов.
Если рассматривать Firefly исключительно как генератор изображений по тексту, результаты могут быть неоднозначными. Иногда они соперничают или превосходят DALL·E или Midjourney, но в других случаях остаётся неясно, к чему стремился генератор. Однако его интеграция с Photoshop, лидером среди профессиональных редакторов изображений, — это совершенно другой уровень.
Две лучшие функции — Generative Fill и Generative Expand.
С Generative Fill вы можете выделить любую область изображения с помощью обычных инструментов Photoshop, а затем заменить её, нажав кнопку и введя текстовый запрос.
С Generative Expand можно расширить границы изображения, добавив новые элементы с учётом оригинального контекста.
Обе функции понимают окружающий контекст изображения. Например, если добавить лес с помощью Generative Fill, Photoshop корректно подберёт глубину резкости, чтобы изображение выглядело гармонично и естественно.
Несмотря на то, что DALL·E и Stable Diffusion начали разговор об ИИ-генерации изображений, Adobe Firefly демонстрирует первые серьёзные шаги к будущему. Это уже не просто "фокус", а полноценный инструмент, доступный миллионам профессионалов, которые используют приложения Adobe ежедневно.
Цены на Adobe Firefly: бесплатно до 25 кредитов в месяц; от 4,99 долларов за 100 кредитов в месяц; Photoshop доступен от 19,99 долларов в месяц в составе плана Creative Cloud Photography Plan, который включает 500 генеративных кредитов.
Ideogram: Лучший ИИ-генератор изображений для точного отображения текста
Воспользоваться сервисом: Ideogram
Ideogram — наш выбор среди генераторов изображений на основе ИИ для точного создания текста.
Отличные изображения, созданные ИИ, и самый точный текст среди всех приложений
Доступен бесплатный тариф
Большинство ИИ-генераторов изображений сталкиваются с трудностями при создании текста — процесс диффузии просто плохо подходит для точного отображения букв. Однако Ideogram удалось решить эту проблему. Его новейший алгоритм 2.0 позволяет точно интегрировать текст в сгенерированные изображения.
Что делает это ещё более впечатляющим — Ideogram также является одним из лучших генераторов изображений в целом. У сервиса интуитивно понятное веб-приложение и удобные функции, такие как редактор изображений и возможность использовать любое изображение в качестве основы для нового. В ходе моего тестирования единственным приложением, которое мне consistently нравилось больше, был Midjourney — но оно до сих пор ограничено своей предыдущей зависимостью от Discord.
У Ideogram также есть бесплатный тариф. В его рамках вы ограничены 10 кредитами в день, вам придётся подождать несколько минут до начала генерации, а доступ будет только к базовым функциям Ideogram. Однако это отличный способ познакомиться с одним из лучших генераторов изображений на основе ИИ.
Цены на Ideogram: ограниченный бесплатный тариф; от 8 долларов в месяц за возможность скачивать изображения в полном разрешении и 400 приоритетных кредитов в месяц.
Midjourney: ИИ-генератор изображений с лучшими результатами
Воспользоваться сервисом: Midjourney
Midjourney — наш выбор среди генераторов изображений на основе ИИ благодаря лучшим результатам.
Постоянно создаёт самые красивые изображения, сгенерированные ИИ
Сообщество — отличный источник вдохновения
Midjourney стабильно выдаёт мои любимые результаты среди всех генераторов изображений из этого списка. Генерируемые изображения выглядят более цельными, с лучшими текстурами и цветами — и в целом результаты просто более интересные и визуально привлекательные. Особенно хорошо получаются люди и реальные объекты, которые выглядят более естественными и живыми по сравнению с другими ИИ-генераторами изображений, если не требовать множества уточнений в запросе. В последних версиях нейросети даже руки получаются почти правильными. Показательно, что именно Midjourney стал первым ИИ-генератором изображений, победившим в художественном конкурсе.
Самое приятное — теперь у Midjourney есть полноценное веб-приложение. Вам больше не нужно пользоваться Discord, хотя такая возможность по-прежнему остаётся. Некоторые из самых продвинутых функций, такие как смешивание нескольких изображений, сохранение деталей между разными генерациями и подбор стилей, пока не доступны в веб-версии. Однако вы всё равно можете воспользоваться отличным редактором и получить большой контроль над внешним видом изображений.
Тем не менее, у Midjourney есть и свои особенности: по умолчанию каждое сгенерированное изображение публикуется на странице «Explore» и отображается в вашем профиле. Это придаёт проекту атмосферу сообщества, но также означает, что любой желающий может увидеть ваши работы. Хотя для художников это может не быть проблемой, для тех, кто планирует использовать Midjourney в коммерческих целях, это может стать решающим фактором.
Если вам всё ещё кажется, что процесс сложен, не переживайте. Документация Midjourney действительно качественная и подробно объясняет, как начать пользоваться веб-приложением и Discord. Она также показывает, как управлять различными функциями, от выбора версий моделей и повышения разрешения до использования референсов персонажей и персонализации. Как только вы разберётесь с возможностями платформы, результаты действительно удивят.
Бесплатные пробные версии Midjourney в настоящее время приостановлены из-за огромного числа желающих воспользоваться сервисом. Однако иногда их возвращают на несколько дней. Если вы пропустите окно бесплатного доступа, тарифный план Basic начинается от 10 долларов в месяц и включает 3,3 часа работы GPU (около 200 изображений). Дополнительно можно докупить время работы GPU, а также использовать сгенерированные изображения в коммерческих целях.
Цены на Midjourney: от 10 долларов в месяц за план Basic, который позволяет генерировать ~200 изображений в месяц и предоставляет права на коммерческое использование.
DALL·E 3: Лучший ИИ-генератор изображений по удобству использования
Воспользоваться сервисом: DALL·E 3
DALL·E 3 — наш выбор среди лучших инструментов для цифрового маркетинга как простейший в использовании генератор изображений на основе ИИ.
Невероятно прост в использовании
Входит в подписку ChatGPT Plus, что делает его выгодным предложением для тех, кто активно использует ИИ
Управление через ChatGPT иногда может быть непредсказуемым
$20 в месяц — дороговато, если GPT вам не нужен
DALL·E 3, пожалуй, самая известная нейросеть для генерации изображений, и на это есть веские причины. Её предшественник, DALL·E 2, стал первым генератором изображений на основе ИИ, который был достаточно качественным для создания действительно впечатляющих изображений и при этом был доступен широкой аудитории, что позволило ему стать вирусным.
DALL·E 3 представляет собой значительное улучшение по сравнению с DALL·E 2. Для любого запроса она создаёт более интересные, реалистичные и последовательные результаты. До недавнего времени казалось, что OpenAI уступает конкурентам в области генераторов изображений на базе ИИ, но DALL·E 3 вернула компанию в число лидеров. Получить доступ к DALL·E 3 можно через ChatGPT и AI Copilot в Microsoft Bing, а также через некоторые другие сервисы, использующие её API.
Главное преимущество DALL·E 3 — это её невероятная простота в использовании. Достаточно описать ChatGPT или Bing то, что вы хотите увидеть, и уже через несколько мгновений вы получите от двух до четырёх вариантов изображений. Нейросеть использует возможности понимания языка GPT-4o для расширения ваших запросов, поэтому результаты будут разнообразными, и вы всегда можете запросить дополнительные варианты.
OpenAI позволяет бесплатным пользователям ChatGPT создавать до двух изображений в день с помощью DALL·E 3, в то время как Microsoft предоставляет гораздо больше возможностей без необходимости платить. Хотя Copilot показался мне немного менее удобным, сложно спорить с его ценой. Однако лучший способ использовать DALL·E 3 — это подписка ChatGPT Plus, где количество запросов на генерацию изображений ограничено лишь общими лимитами сообщений.
DALL·E 3 предоставляет два способа редактирования изображений: вы можете попросить ChatGPT внести изменения, и он перезапустит запрос с учётом ваших уточнений; либо можно воспользоваться инструментом выбора, чтобы ограничить обновления определёнными частями изображения. (Пока что нельзя расширять изображения, созданные DALL·E, по крайней мере, без использования сторонних приложений.) Иногда это выглядит как магия: ChatGPT делает именно то, что вы просите. В других случаях это напоминает работу с чрезмерно усердным стажёром, который чересчур стремится проявить инициативу. Если вам нужен больший контроль, стоит попробовать другие приложения из этого списка.
Помимо использования DALL·E 3 через ChatGPT, OpenAI предлагает API, позволяющий разработчикам создавать приложения с интеграцией обеих моделей DALL·E. Благодаря этому можно подключить DALL·E к сервисам, таким как Zapier, и автоматизировать создание изображений на основе ответов из Google Forms, HubSpot или других приложений. Узнайте, как автоматически создавать логотипы или генерировать изображения для блогов с помощью DALL·E и Zapier, или воспользуйтесь готовыми рабочими процессами.
Generative AI: Лучший ИИ-генератор изображений для интеграции изображений, созданных ИИ, в готовые фотографии
Воспользоваться сервисом: Generative AI
Generative AI от Getty Images — наш выбор среди ИИ-генераторов изображений для создания коммерчески безопасных изображений.
Удивительно хорошо создаёт изображения, похожие на стоковые фотографии
Getty гарантирует юридическую защиту от любых претензий, связанных с использованием сгенерированных изображений
Меньше креативности и удовольствия от использования
Не может конкурировать с Midjourney, DALL·E 3 или Stable Diffusion по общему качеству
Как уже обсуждалось, генераторы изображений на основе ИИ — тема довольно спорная. Помимо этических вопросов, правовая ситуация остаётся крайне неопределённой. Бюро по авторским правам США в большинстве случаев считает, что изображения, сгенерированные ИИ, не подлежат защите авторскими правами. Это означает, что ваши конкуренты могут свободно использовать ваши изображения без каких-либо последствий. Если вы управляете бизнесом, разумно просто избегать использования генеративного ИИ. Однако если вы всё же хотите их использовать, платформа вроде Getty Images, которая обещает, что её генератор изображений избавлен от юридических проблем, станет наилучшим вариантом.
Generative AI от Getty Images, доступный через iStock, удивительно хорош — особенно для создания изображений, напоминающих стоковые фотографии. Я протестировал его на классическом запросе «женщина смеётся одна с салатом», и результаты оказались довольно качественными. На первый взгляд лучшие варианты невозможно отличить от настоящих стоковых изображений.
Когда речь зашла о более креативных запросах, вроде «канадец едет на лосе через кленовый лес», или изображениях в определённых художественных стилях, результаты были, мягко говоря, не столь впечатляющими. Вероятно, это связано с обучающими данными. Вместо сомнительно собранной базы из миллиардов изображений, Generative AI использует модель NVIDIA Picasso, обученную преимущественно на стоковом каталоге Getty. По заявлению Getty, всё это сделано в соответствии с законодательством, и существует программа компенсации художникам, чьи работы использовались для обучения модели.
Это заслуживает уважения, но влияет на то, какие изображения можно создать. Generative AI не генерирует изображения с реальными людьми, товарными знаками или любыми элементами, которые потенциально нарушают закон об интеллектуальной собственности. Я даже не смог создать картину в стиле Яна Вермеера, несмотря на то, что он умер в 1675 году. В результате инструмент Getty менее гибкий и не такой «весёлый» для пользователей, но гораздо более практичный для компаний с юридическим отделом.
Цены на Generative AI от Getty Images: доступен как Generative AI через iStock по цене 14,99 долларов за 100 генераций.
Юридические и этические последствия использования изображений, созданных ИИ
ИИ-сгенерированные изображения сейчас повсюду, но это не значит, что мы не должны задавать вопросы о том, как их следует (или не следует) использовать.
На данный момент не существует чётких законов, регулирующих использование изображений, созданных ИИ. И это касается обеих сторон вопроса: Бюро по авторским правам США утверждает, что контент, сгенерированный ИИ, не подпадает под защиту авторских прав, а также отсутствуют законы, которые защищают художников, чьи работы были использованы для обучения ИИ. (Именно поэтому Adobe Firefly обучался только на лицензированных изображениях и контенте из общественного достояния.)
Это уже привело к судебным разбирательствам. Например, Stability AI столкнулась с исками со стороны Getty Images и самих художников за несанкционированное использование их изображений, а против нескольких генераторов изображений на основе ИИ был подан групповой иск.
Вы вряд ли столкнётесь с проблемами, используя ИИ-изображения для нескольких постов в социальных сетях или изображений-заголовков для блогов, но поскольку пока не существует чётких правил, разработка целой стратегии, основанной на ИИ-сгенерированном искусстве, может быть рискованной.
Существует и проблема предвзятости. На данный момент ИИ наследует многие предубеждения людей, что может приводить к воспроизведению стереотипов или созданию вредного контента. Я сам столкнулся с этим, тестируя различные приложения: некоторые результаты явно демонстрировали предвзятость. Тем не менее, существуют инструменты, которые сознательно пытаются добавлять разнообразие в генерируемые изображения.
В конечном итоге ответственность лежит на нас как на людях. Мы должны проверять ИИ-контент на предмет предвзятости и корректировать запросы, чтобы минимизировать её проявления настолько, насколько это возможно.