Решил я переопубликовать один из старых постов про топ-навык маркетолога в другую социальную сеть, где недавно зарегистрировался. Там получше посты заходят с картинками, поэтому нужно было что-то придумать - пошел к Кандинскому (нейросетка от Сбера) за генерацией.
Ввел простенький (как мне показалось) промт “Любопытство как навык”. Первый вариант не зашел, попросил второй, третий, четвертый… И тут заметил некую закономерность: на изображениях часто появлялся либо робот, который обучается, либо ребенок в окружении книг, листов, глобусов.
Стало интересно, решил провести мини-исследование. И сгенерировал 20 вариантов одного и того же запроса. Итог:
Ребенок в окружении книг - 4
Робот, который обучается (читает книги или что-то на мониторе) - 13
Обезьяно-чебурашечное существо - 1
Что-то совсем “другое” - 2
Какие выводы? Сложно сказать, но можно “предположить”, что нейросеть понимает под “овладеть навыком” то, что с ней и происходит - постоянное обучение, а представляет это как обучающегося робота-гуманоида. То есть она применяет контекст промта на себе, если нет дополнений и объяснений.
И в меньшей степени считает, что любопытство связано с детьми и “детским познанием мира”.
Привет, я Настя, руководитель отдела контента в Aigital. Каждую неделю мы рассказываем о развитии стартапа и изнанке продукта.
В этом выпуске расскажем о фейлах, с которыми столкнулись за последние несколько дней: пришлось удалить классную функцию, которая не прошла тест, вся рассылка ушла в спам, а новый дизайн дэшборда снизил конверсию. Но на фоне всего этого случилась одна важная для нас победа.
За мемы спасибо Саше, главному по телеграм-каналу Aigital
Вся наша рассылка ушла в спам
На прошлой неделе заметили, что резко упала открываемость нашей рассылки. У нас порядка 40 000 подписчиков. С привычным open rate в 30% нас читало 12 000 человек. Теперь наши письма открывает всего 3% получателей — 1 200 человек. Оказалось, что у всей команды письма улетели в спам, а до сервиса рассылок, которым пользуемся, очень тяжело достучаться, чтобы выяснить причину этого.
Кадр из сериала «Теория большого взрыва»
У нас попросили первый возврат оплаты
Так случилось, что впервые за год существования сервиса пользователь запросил у нас возврат оплаты. Это был представитель интернет-агентства, которого заинтересовал навык «Структура посадочной страницы». Он посчитал, что навык полностью отрисует структуру лендинга. Но результат генерации в этом навыке — текстовое описание структуры, а не ее графическое отображение.
Поставили задачу проработать нейминг навыков, чтобы реальный и ожидаемый результат совпадали.
Нам очень помогает ваша обратная связь, когда вы пишете об ошибках, невозможности сгенерировать контент, задаете вопросы. Несмотря на то что мы сами пользуемся Aigital, привыкнув у сервису, можем не чувствовать каких-то моментов, которые неудобны и ненативны для нового пользователя.
Тест нового дэшборда снизил конверсию в оплаты
Обновленный дизайн дэшборда
В первом дайджесте мы писали, что решили отказаться от строчного списка навыков в пользу карточек с примерами. Сейчас видим, что это сказалось негативно. Проверяем гипотезу о том, что продукт стал выглядеть несерьезно, и из-за этого уменьшился поток корпоративных клиентов. Пока думаем, как лучше организовать дэшборд, чтобы он и выглядел более профессионально , и в то же время был наглядным.
Убрали редактор картинок из-за рекламы
Пару недель назад мы интегрировали редактор изображений. О нем был написан отдельный раздел в предыдущем дайджесте. Но прямо перед выпуском статьи мы решили убрать функцию редактирования картинок из интерфейса, соответственно, не упоминать его в дайджесте.
Мы подключили API бесплатного онлайн-редактора, который по функциональности не уступает фотошопу. Но, поскольку это был MVP продукта, решили протестировать его без брендирования и интеграции в продукт, просто перенаправляя пользователя на сторонний сервис. По клику на кнопку «Изменить» пользователь попадал вместе со своей картинкой в фоторедактор и мог бесплатно пользоваться всеми функциями сервиса. Без блокировки рекламы в браузере рядом с рабочей областью редактора отображались политические баннеры, что и стало причиной нашего отказа от интеграции редактора в сервис. Хотя решение пока не окончательное.
Мы не успели замерить, насколько часто пользователи переходили в редактор. Если вы использовали его или считаете, что интеграция редактора будет полезна для сервиса, — напишите об этом в комментариях. Мы хотели бы, чтобы у Aigital была эта функциональность, но в первую очередь будем ориентироваться на то, насколько это нужно пользователям.
Автоперевод с русского на русский
И если в случае с редактором изображений мы не увидели баннеры из-за блокировки рекламы, то представьте, как нас удивило, когда один наш друг прислал скрин, где вместо «Изображение» было написано «Ибрейна», а вместо «Удаление фона» — «Удаление фонаря».
При этом ни у кого из нас ни разу не выпадало подобное написание. Спустя некоторое время к нам в команду пришел редактор, которая занялась вычиткой интерфейса и на правке прописала вопросы об этих странных «ибрейнах» и «фонарях».
Проблему нашли — оказывается, если у пользователя включен в браузере автопереводчик, он видит искаженный текст.
Кстати, название сервиса на русском читается «Аиджитал», хотя переводчик и называет его «Aйгиталь». В Яндекс.Метрике мы часто встречаем эту версию :)
Навык «Саммаризатор»
Каждую неделю мы рассказываем, что под капотом одного из наших навыков. На этой неделе мы как раз переработали саммаризатор, который плохо справлялся со своей задачей прежде. Тем не менее он востребован среди 20% наших пользователей.
В первых двух дайджестах мы показывали, как работает цепочка из различных нейросетей. А в этом навыке — цепочка подсказок в рамках одного промпта. Они управляют плотностью информации в сгенерированном резюме. Если просто — на каждом шаге они подсказывают ИИ, как сохранить краткий объем резюме и при этом дополнить его важной для читателя информацией.
Но в первой версии навык работал на GPT-3.5 и не отрабатывал этот сложный промпт. Кроме того, в интерфейсе было поле с выбором количества слов, и мы пытались «договориться» с нейронкой выдавать в результате хотя бы примерно заданный объем. Но все, кто работают с LLM, знают, что этого добиться крайне сложно, а часто практически невозможно. Проведя множество тестов, мы решили не противиться этому, и во второй версии саммаризатора убрали выборку объема. Помимо этого, мы перевели его на GPT-4.
Сгенерировано в «Саммаризаторе»
У навыка несложная последовательная механика — сначала генерируется первичное резюме, а затем ИИ в 2 захода пересматривает его и дополняет новыми важными пунктами. В поиске ключевых моментов ИИ ориентируется на релевантность теме, краткость, новизну и верность. То есть новые добавленные пункты не должны повторять предыдущие или быть выдуманы самой нейронкой. При этом саммари должно быть самодостаточным — понятным и без обращения к исходному тексту.
Большая победа
Несмотря на множество фейлов, у нас есть одна огромная победа — мы стартовали White Label для одного из ведущих игроков из топ-50 компаний в России. Это будет их корпоративный ИИ, надеюсь, чуть позже расскажу об этом подробнее.
А пока мы продолжаем тему исследований и видим, что одна из самых больших потребностей, как для White Label, так и для наших пользователей, — это навык, в который можно сгружать десятки файлов и «общаться» с ними в чате. Например, получать ответы на вопросы, делать саммари на основе той информации, которую вы закинули в чат. Давайте обсудим, мог бы стать такой чат топ-фичей Aigital?
PromoMix позволяет пользователям создавать качественные сценарии (скрипты) и озвучку для видео, будь то профессиональные отзывы от инфлюенсеров на товары или обзор нового сервиса. И все самостоятельно.
Можно озвучить рекламные ролики, образовательные видео, видео для социальных сетей и многое другое.
PromoMix - это как раз AI-платформа, разработанная специально для создателей пользовательского контента (UGC).
Это контент, который создают не профессиональные создатели или бренды, а обычные пользователи интернета, это фотографии, видео, тексты и отзывы, которыми они делятся в социальных сетях или на других платформах. Это самый эффективный контент для продвижения брендов.
Обзор функционала
Я решила испытать по-полной этот инструмент и не стала закидывать видео с кроссовками для отзыва и прочую банальщину.
Я взяла и закинула ролик про сервис DrawKit, и просто выбрала software demo, даже ссылку на продукт не давала.
Вот изначальный ролик без озвучки:
Загрузив этот ролик, я секунд через 15 получила сценарий:
Шок! Он без проблем понял, что за сервис и зачем нужен
PromoMix сам правильно распознал продукт и написал сценарий для него, мне осталось только выбрать озвучку из множества вариантов. Затем можно скачать либо видео с готовой озвучкой, либо аудио озвучку отдельно. Я скачала видео сразу с озвучкой.
Вот такое видео на выходе получилось:
То есть можно загружать туда и сложные продукты, можно указывать ссылки, сервис без проблем сгенерирует озвучку и все это автоматически. Без надобности писать сценарий с ChatGPT, генерировать озвучку и соединять в видеоредакторе! Сразу минус столько механической работы. Словом, ценный инструмент для видеоблогеров, маркетологов и других профессионалов, работающих с медиа.
Что мне понравилось в PromoMix:
Для роликов до 30 секунд сценарий и озвучка видео бесплатно
Есть возможность редактирования
Очень классно понимает, что в видео, без каких-то дополнительных описаний, ссылок и тд
Основные возможности PromoMix:
Генерация сценариев и озвучка: Пользователи могут загружать свои видео и получать профессиональные сценарии и озвучку, созданные с помощью искусственного интеллекта.
Настройка под индивидуальные нужды: Платформа предоставляет инструменты для тонкой настройки голоса и стиля озвучки, чтобы максимально соответствовать специфике проекта.
Экономия времени и ресурсов: Использование AI для создания контента позволяет существенно сократить время и стоимость производства медиаматериалов.
Широкий спектр применения: подходит для различных типов контента, включая рекламные ролики, образовательные видео, видео для социальных сетей и многое другое.
Ограничения PromoMix:
В бесплатной версии длительность загружаемого видео должна быть меньше 30 секунд, однако подписка стоит не дорого - за 5 долларов в месяц можно увеличить лимит.
Пока только английский язык. Либо можно перевести в Elevenlabs, как вариант
Используя искусственный интеллект для создания текстов и аудио, PromoMix делает процесс производства контента более доступным и эффективным, а это важно в условиях постоянно растущих требований к качеству и уникальности видеоматериалов. Мне сервис понравился тем, что без дополнительных действий, загрузив видеоролик про другой сервис без озвучки, скачала готовое видео. За меня продумали сценарий и озвучили.
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? В своем телеграм канале НейроProfit я рассказываю, как можно использовать нейросети для бизнеса
VISME - это платформа для создания презентаций, анимаций, баннеров, инфографики, отчетов, форм и другого визуального контента.
Есть возможность загрузки файлов из Powerpoint для дальнейшего их редактирования.
Visme включает в себя различные AI-инструменты, которые помогают упростить и ускорить процесс дизайна и создания контента.
Например, Visme предлагает инструменты для автоматической генерации дизайнов, текстов, изображений и презентаций.
Пользователи могут вводить текстовые запросы, на основе которых AI генерирует готовые к использованию дизайны, презентации и документы. Также существует возможность редактирования изображений с использованием инструментов AI TouchUp, которые позволяют улучшать, заменять объекты, изменять размер и корректировать изображения.
Работает практически на всех площадках и браузерах, и позволяет публиковать созданные презентации в структуре web-страницы.
Телеграм канал ИИшница 🍳 - пишу про самое интересное из мира новых технологий и нейросетей, присоединяйтесь 🤖
Привет, я Настя, руководитель отдела контента в Aigital. Каждую неделю мы рассказываем о развитии проекта и изнанке продукта.
На этой неделе у нас мало новостей, поэтому сегодня коротко расскажу о двух больших задачах, которые удалось доработать. Мы 7 раз переделывали промпт для написания деловых писем и благодаря изучению пользователей нашли для себя новую ЦА.
А вот backend-разработчика из предыдущего дайджеста мы так и не нашли, но скролл на мобилке ребята починили :)
За видео спасибо Саше, главному по телеграм-каналу Aigital.
Как устроен навык «Деловое письмо»
Для разработки этого навыка мы перечитали «Новые правила деловой переписки» Максима Ильяхова и Люды Сарычевой. И решили попробовать написать промпт на базе основных тезисов из книги, немного адаптировав под наш сервис.
Под капотом навыка 6 шагов, первые 4 стандартные — пользователь вводит запрос, он переводится на английский и передается нейронке, которая формирует для себя роль.
А дальше подключаются наши наблюдения из книги. Вот как мы переработали «Правила» для ИИ:
Проявлять уважение к адресату, ценить его время и заботиться о его удобстве.
Учитывать интересы адресата, избегать конфликтов, стремиться создать позитивное впечатление и поддерживать дружественное отношение.
Придерживаться тона письма, который соответствует контексту обращения — деловой, неформальный, дружественный и т. п.
Написать тему письма так, чтобы она помогала принять решение, стоит ли ответить на него сразу или можно ответить позже.
Включить все необходимые детали обращения, при этом проработать структуру письма — поделить текст на абзацы и использовать маркированные списки.
И дополнили нашим стандартным «улучшителем» стиля для текстовых навыков. В прошлом дайджесте мы не стали его раскрывать, но сегодня решили поделиться. В методе написания мы просим нейронку:
Адаптировать содержание запроса под потребности адресата и цели отправителя.
Писать информативно, передать максимум полезной информации, избегая лишней воды.
Подтверждать свои утверждения фактами, чтобы вся информация в тексте была выверена.
Избегать обобщений.
Использовать лексику, привычную целевой аудитории.
Избегать сложных и длинных предложений, изъясняться ясно и лаконично.
Сосредоточиться на пользе для читателя.
Писать как носитель выбранного языка.
Дважды перепроверить, все ли условия из промпта соблюдены.
Навык «Деловое письмо»
Мы тестировали промпт на тысяче запросов — от рассылок коллегам до обращений в консульства и онлайн-магазины. Но несмотря на простые и понятные истины из книги, пришлось перепиливать его 7 раз, пока мы не пришли к результату, который нам понравился.
А если вам есть что сказать вашему собеседнику, но вы не находите правильных слов, попросите Aigital переписать ваш текст более дружелюбно, как на скрине ниже.
За скрин спасибо нашему другу, за лексику приносим извинения :)
Узнаем лучше наших пользователей
Наш продакт Юра проанализировал действия пользователей платформы и обнаружил несколько направлений развития сервиса. В первую очередь это уже привычные нам маркетинг, SEO, графический дизайн и создание текстового и визуального контента для соцсетей, медийных площадок, веб-сайтов.
Интересным направлением, в сторону которого мы не думали прежде, оказалась разработка образовательных материалов и использование Aigital для самообразования и саморазвития. Уже побрейнстормили на этот счет и пришли к очень крутым идеям, от которых у нас с ребятами загорелись глаза. Теперь не терпится их реализовать и поделиться с вами, надеюсь, уже в следующем выпуске :)
Из того, о чем уже могу рассказать и спросить вас, — определили ведущие роли AI-ассистентов, о которых рассказывали в первом дайджесте.
Кадр из сериала Suits
Теперь интересно узнать ваше мнение об этом. Отметьте подходящего в голосовалке или, если такого нет, напишите в комментариях свой вариант.
Кого из AI-ассистентов вы хотели бы видеть в своих помощниках?
Что делать, если то самое классное изображение никак не удается найти, а у заказчика пока нет ресурса предоставить нужный контент? Что можно придумать для разделов каталога, когда есть только фото для продуктовых карточек, чтобы это выглядело красиво? Как при этом не забыть о метафорах и ассоциациях бренда и создать необходимое настроение на сайте? Да еще и чтобы заказчик все это согласовал без правок…
Задача
К нам обратился заказчик с задачей создать функциональный интернет-магазин на Тильде для бренда натуральной SPA-косметики «Цветы и море». На этапе дизайн-концепции мы развили мысль о море, песке и цветах до такой степени, что сгенерировали для своих задач 400+ изображений, выделив на это 30+ часов. Как у нас получалось и не получалось, что мы делали и как именно экспериментировали, рассказываем дальше.
И сначала мы расскажем об основных этапах разработки проекта, чтобы ввести вас в контекст. Ну и якорная ссылка для тех, кому нужно скорее читать наш опыт по работе с нейронкой.
Важно — мы не генерировали изображения для товаров, весь визуал в продуктовых карточках настоящий и предоставлен заказчиком.
Сбор информации по проекту: формируем общее видение с заказчиком перед стартом
Как и всегда, мы начали с максимально подробного брифа с заказчиком: задали много уточняющих вопросов, вынесли на обсуждение примеры реализации, обсудили целевую аудиторию и конкурентов, наметили структуру, предложили список сайтов, которые можно использовать в качестве референсов.
Какая стоит задача, что заказчик видит на финише?
Будет ли виденье заказчика работать для ЦА?
Что конкретно важно для целевой аудитории?
Как проект будет жить после релиза?
Что нужно учесть при разработке и о чем позаботиться заранее, чтобы сайту не нужны были доработки через неделю после запуска?
И многое другое
Только после того, как у нас есть четкое видение, мы начали работать над сайтом.
Проектирование — продумываем структуру страниц и закладываем необходимые решения в интерфейс сайта
Мы провели маркетинговое исследование, выявили целевую аудиторию, изучили конкурентов, предоставленных заказчиком. Вдобавок к этому проанализировали лидеров натуральной spa-косметики, составили список сильных и слабых решений.
Далее мы сделали карту сайта и определились со структурой страниц на основании проведенного исследования. Мы выделили преимущества, рассказали о бренде, описали условия для сотрудничества, показали бренды, с кем сотрудничает «Цветы и море». Сняли нагрузку с менеджеров, сделав список частых вопросов и ответов на них.
Сбор информации и подготовка к проектированию
Важно было обозначить наличие акций на главном экране, встроить их аккуратно. Решили использовать слайдер с автоплеем, формат которого напоминает интерфейс сторис. Также добавили строку с информацией о бесплатной доставке от определенной суммы.
Прототип будущего интернет-магазина
Еще мы вывели популярные товары бренда на главную страницу вторым блоком, чтобы посетителям сайта не нужно было тратить время и искать любимые позиции в каталоге, а находить сразу.
Мы реализовали возможность дополнительных продаж, предложив добавить в заказ шоколадки и открытки в карточке товара. В корзине добавили поле с возможностью подписать открытку, которое появляется только если в корзине есть эта самая открытка. Реализовали на Тильде такой функционал с помощью написанного скрипта нашим разработчиком.
Корзина в 2 этапа с необходимым функционалом
Проектирование прототипа далось нам без особых сложностей — полный мэтч с клиентом позволил оперативно сделать интерактивный прототип и перейти к поиску дизайн-концепции и отрисовки макета.
Перед тем как мы подробно начнем рассказывать о промт-инженерии для проекта, кратко введем читателя в контекст того, как мы мыслили в плане общего визуала и дизайн-решений.
Мы понимали, что дизайн должен передать эстетику легкости и осознанности, расслабления, отдыха и нежности. Для нашей ЦА важен комфорт и забота о себе, их восхищает бренд, готовы оставлять развернутые отзывы в эстетичных локациях. Бренду также важно передать крафтовость и натуральность, отсутствие массового производства и трепетное внимательное отношение к каждому продукту.
ЦА
Мы начали с названия бренда, подумали и собрали ассоциации, приступили к поиску визуальных решений, нашли приятные референсы, которые можно использовать для групп товаров. Подобрали цветовую гамму с учетом товаров, упаковки и фирменного логотипа, предложили шрифтовую пару, которая дополнительно создала необходимые ассоциации и настроение.
Поиск идеи и референсы
В какой-то момент мы уперлись в то, что контент заказчика оказался достаточно «шумным» для фоновых изображений, терялись тексты и важные акцентные элементы интерфейса. Контент подходил только для визуализации каталога товаров + была вероятность дублирования визуала из-за ограниченного количества изображений. Еще мы начали ломать голову над тем, как проиллюстрировать разделы каталога. Ну и в целом контент заказчика был заточен больше под соцсети — видео и фото были предоставлены нам в вертикальном формате.
Контент от заказчика
Мы пошли на фрипик, чтобы найти для себя решение, но уперлись в то, что все-таки делаем интернет-магазин и подобрать что-либо между собой более менее бьющееся по визуалу не представляется возможным. Больше к премиум-стокам не возвращались. Начали смотреть в сторону нейросетей.
Нейронки. Вступительное слово и поехали.
О чем пойдет статья дальше? Важно — это не мануал в привычном в виде с обзором каждой кнопки. Это статья о том, как в реальной коммерческой разработке можно смело экспериментировать и внедрять в работу различные Ai-инструменты и получать довольно качественный результат, параллельно решая распространенную проблему в дизайне – отсутствие визуального контента от заказчика.
Передаем слово нашему дизайнеру — Сергею, который поделится с вами всеми своими наработками в процессе генерации контента для «Цветы и море».
Почему выбрали Stable Diffusion, а не Midjourney
Прочитав несколько обзоров и сравнений генеративных нейросетей, предварительно решили, что нам больше подходит именно Stable Diffusion, так как он оказался достаточно гибким и функциональным для наших задач. Я бы его назвал настоящим комбайном, в котором ограничений практически нет, но чтобы научиться пользоваться всеми возможностями этого инструмента, придется очень сильно погрузиться в технические аспекты.
По Midjourney — думаю, все в него успели поиграться, многие работают на постоянной основе, но я не смог добиться стабильного результата. Полученные изображения были не такими реалистичными, как мы задумали, сделать пак изображений в одном стиле не получалось — при детальном рассмотрении контента нам что-нибудь да резало глаз.
Почему мы выбрали Stable Diffusion?
Редактирование созданных изображений — можно легко менять конкретные элементы на изображении с помощью функции Inpaiting, а с помощью outpaiting возможно наращивание фона в контексте изображения. Эта функция очень нам пригодилась для страниц разделов товаров, далее расскажу подробнее.
Распределение веса по конкретной характеристике в промте — за счет этого можно гибко настроить промт и получить наиболее точный результат.
Установка конкретных моделей, которые нужны тебе. У Stable Diffusion большое сообщество, в сети можно найти крупные каталоги с базой различных моделей и обученных дополнений Lora, которые устанавливаются поверх базовых моделей. Большинство из них находятся в свободном доступе.
Функция img2img — метод создания изображений на основе загруженного референса, благодаря чему появляется возможность сделать сет в одном стиле. Для нас важно, чтобы контент на сайте был в одной стилистике.
Наличие seed у генерируемого изображения. Что это и зачем? Seed — уникальный код или идентификатор изображения, который дает нам возможность вносить в запрос изменения точечно, сохраняя основную композицию, обстановку или объект на изображении. Далее расскажем как пользовались данной фичей.
Технические нюансы, установка, первые результаты.
Первая сложность, с которой столкнулись — сборок для систем на базе Mac практически нет и их не так просто найти, в основном сборки идут под Windows. Я нашел два подробных мануала для развертывания для Mac на github. Вот первый и второй, если делать все по инструкции, заработает без танцев с бубном. Если же что-то не получится, пишите в комментариях, постараюсь помочь.
Установив Stable Diffusion, нужно было установить модель, на основе которой буду генерировать контент. После небольшого ресерча решил поработать с моделью Deliberate_v5 от популярного разработчика моделей Христ. Добавлю, чтобы корректно работали функции outpainting и inpainting, дополнительно сразу скачайте модель с приставкой Deliberate_v5-inpainting. Установка модели довольно проста: просто копируем в папку models, где был установлен Stable Diffusion.
Покопавшись в мануалах и посмотрев несколько обучающих видео, начал пробовать составлять промты и с интересом смотреть что получается. На первых порах не использовали негативные промты.
Так выглядит интерфейс Stable Diffusion
План был такой: сначала необходимо добиться более менее качественного результата с генерацией изображения для главного экрана, чтобы понять реально это в принципе для нашей задачи, а дальше генерить остальной контент. В одном из мануалов ссылались на переводчик deepl как лучший вариант составления для промтов, учел эту рекомендацию.
Приступил к составлению промтов из разряда «bath bomb or bath fizzie», «бомбочка для ванны или шипучка для ванны», дело двинулось. Далее стал задавать новые условия: белый/светлый фон, количество, тень и ее резкость, формат изображений, остановился на разрешении 1024х512. Также попробовал распределять вес ключей для более тонкой настройки — «bath bomb or bath fizzie, (A few pieces:1.5), white surface».
Добавлю, что при разрешении 1024х512 и методе txt2img генерация одного изображения занимала 45 секунд на процессоре m2 pro, при более высоких разрешениях доходило до 3-4 минут. В Stable Diffusion есть возможность выставить количество изображений для генерации пакетов изображений, что очень удобно. Выставляем 10 или 20 вариантов генераций, спустя 10-20 минут все готово. Остается выбрать понравившиеся результаты и seed и далее работать уже с ними. Прикрепляю первые результаты.
С каждым новым изображением я лучше понимал алгоритм и логику работы со Stable Diffusion, результат становился все интереснее, но от косяков в виде мутаций, артефактов и различных деформаций пока не мог избавиться.
Расширял промты и добавлял новые условия: «сухоцветы лаванды», «основание из дерева», «мягкие тени», «идеально круглая форма». Потом с помощью Midjourney составил промт, загрузил референс и полученный промт попробовали использовать для Sd, но ничего не вышло — видимо, алгоритмы и промтинг у Stable Diffusion и Midjourney работают совершенно по- разному.
Пример промта, который нам выдал Midjourney:
a box with a bunch of flowers inside of it, pinterest contest winner, private press, reflective lavender ocean water, dried herbs, detailed product image, bath, on parchment, light bloom, branches wrapped, surface hives, blue sunshine, maternal, product label, bubble bath, safehavenhq, nest
А ниже то, что получилось с промтами от Midjourney. В моменте казалось, что вырисовывается что-то симпатичное, но под наши задачи, увы, не подходило.
Генерации на основе промта от Midjourney
Снова переработал промт, прописал более конкретные условия и добавил негативный промт
9 bath bombs, lying next to each other on a white surface, they are surrounded by small branches of dried flowers
9 бомбочек для ванны, лежащих рядом друг с другом на белой поверхности, их окружают маленькие веточки засушенных цветов.
Продолжал эксперименты с промтами и весом ключей и в какой-то момент получил результат, который нас устроил в качестве версии 1.0.
Версия 1.0
Работал в режиме txt2img, промт:
9 bath bombs, bath salts, lying next to each other on a beige surface, they are surrounded by small branches of dried flowers, photo angle from the side, colors of bombs white gray milky
(9 бомбочек для ванны, соли для ванны, лежат рядом друг с другом на бежевой поверхности, их окружают маленькие веточки засушенных цветов, ракурс фото сбоку, цвета бомбочек белый серый молочный)
Негативный промт, чтобы исключить цвета, которые нам не подходили по стилю:
На тот момент у нас уже был готов дизайн-макет, известна цветовая палитра, подобраны шрифты. Мы «примерили» полученное изображение и наконец поняли, что попали, результат нас устроил на 9 из 10. Нам захотелось улучшить результат, продолжили работать на качество и детали.
Как улучшить получившийся результат в Stable Diffusion?
Каждое изображение имеет свой уникальный идентификатор — seed. Я использовал seed данного изображения и стал менять промт. Что это дало? Результат теперь получался не рандомным, а очень схожим с оригиналом. Мы могли развивать данное изображение — менять не только промт, но и другие настройки.
Когда я увеличил разрешение изображения с 952х448 до 1560х771, произошел известный баг в Stable Diffusion — дублирование сущностей. И так как мы работали с бомбами для ванной, а не с человеческими головами или руками, нам это пошло только на пользу, увеличив количество элементов с 4-6 до 8-12. Кстати, в сети довольно много мануалов о том, как бороться с дублированием контента в Stable Diffusion при генерации.
Далее составил универсальный негативный промт, воспользовавшись рекомендациями в найденных мануалах на просторах интернета, который бы повлиял на уменьшение количество мутаций и деформаций.
Промежуточный результат
Финальный результат, который нас устроил
Докрутив предыдущий промт на основе прошлого seed, получил наш финальный результат, который отлично вписался на главном экране сайта.
Изображение для главного экрана
Режим txt2img, промт:
9 bath bombs, bath salts, lying next to each other on a beige surface, (they are surrounded by small branches of dried lavender:0.9), photo angle from the side, (photorealistic:1.5), detailed, 8k
Негативный промт достаточно универсален и подойдет во многих случаях, так как больше нацелен на борьбу с деформациями и мутациями:
blue, pink, ((((ugly)))), (((duplicate))), ((morbid)), ((mutilated)), [out of frame], extra fingers, mutated hands, ((poorly drawn hands)), ((poorly drawn face)), (((mutation))), (((deformed))), ((ugly)), blurry, ((bad anatomy)), (((bad proportions))), ((extra limbs)), cloned face, (((disfigured))), out of frame, ugly, extra limbs, (bad anatomy), gross proportions, (malformed limbs), ((missing arms)), ((missing legs)), (((extra arms))), (((extra legs))), mutated hands, (fused fingers), (too many fingers), (((long neck))), out of frame, duplicate, watermark, signature, text, ugly, morbid, mutated, deformed, blurry, bad anatomy, bad proportions, cloned face, disfigured, fused fingers, fused limbs, too many fingers, long neck
Далее нам оставалось в похожей стилистике создать контент для разделов каталога интернет-магазина. Действовал по уже выработанной схеме — использовал ключи прошлых промтов, которые описывают обстоятельства, добавлял необходимые ключи, использовал прошлые seed.
Вот такой интересный результат у нас получился:
Изображения для разделов каталога
Наращивание фона
Последнее, что оставалось — получить из формата 1:1 горизонтальные широкоформатные изображения для hero-секций страниц разделов. Функционал Stable Diffusion позволяет это сделать — нужно использовать outpainting (нейросеть может нарастить фон изображения в любую выбранную сторону исходя из контекста изображения) в режиме img2img. В сети и на ютубе много подробных мануалов, здесь не буду расписывать подробно.
Далее с помощью функции inpaint почистил изображения от артефактов. Оставалось сделать цветкор и дополнительно сделать апскейл.
Результат:
Главные секции страниц разделов
Что думаем насчет всего этого волшебства?
Нейросети могут помочь в решении определенных задач, стоящих перед дизайнерами. Считаем, что каждому в нашей профессии нужно попробовать-потрогать-пощупать и выбрать для себя инструмент, который будет полезен в работе. Использовать нейронки и изучать их функционал важно для развития и большей востребованности на рынке. Надеемся, что наш кейс окажется полезным, вдохновляющим и побуждающим к изучению, экспериментам и созданию крутого контента для рабочих и не очень задач. На текущий момент сайт в боевом режиме, работает и приносит прибыль своим заказчикам.
Суммарно на эксперимент с генерациями по этому проекту было потрачено 30+ часов, получено 400+ изображений, просмотрено и прочитано более 30 мануалов. Ссылка на фигму со всеми вариантами здесь.
Итоговый результат
Полученный дизайн презентовали заказчику, который был принят без правок. Нас поблагодарили за решение и то, как органично встроился сгенерированный контент в общую концепцию. Дизайн сверстали на Тильде в zero блоках, подключили каталог, настроили корзину, написали два скрипта для нестандартных решений, подключили сервис доставки и платежную систему, сделали технические настройки. На текущий момент сайт в боевом режиме, работает и приносит прибыль своим заказчикам.
Расскажите о своем опыте работы со Stable Diffusion и другими нейросетями — поделитесь в комментариях.
OpenAI сделала доступной мощную модель GPT-4 Turbo с Vision через свой API, что открывает новые возможности для сервисов и разработчиков. Теперь можно интегрировать передовые языковые и визуальные возможности в свои приложения.
💥 GPT-4 Turbo Vision предлагает:
Значительное улучшение скорости.
Увеличение окна контекста ввода до 128 000 токенов (примерно 300 страниц).
Повышение доступности для разработчиков.
🔑 Ключевое улучшение: возможность использовать распознавание и анализ изображений модели с помощью текстового формата JSON и вызова функций. Это позволяет разработчикам генерировать фрагменты кода в формате JSON, которые могут автоматизировать действия в подключенных приложениях.
Несколько стартапов уже используют GPT-4 Turbo с Vision:
🧑💻Cognition: автоматическая генерация полного кода для различных задач программирования.
🍕Healthify: анализ питания и рекомендации на основе фотографий блюд.
👩💻TLDraw: управление виртуальной доской и преобразование пользовательских рисунков в функциональные веб-сайты.
Несмотря на жесткую конкуренцию со стороны более новых моделей, запуск API должен помочь OpenAI укрепить позиции на корпоративном рынке.
Яндекс рассказал о виртуальном ассистенте №1 нового поколения на базе YandexGPT
Теперь полноценно общаться с Алисой, как с человеком, можно без специальных навыков и режимов. Алису прокачали в генерации идей и написании текстов, научили объяснять сложное простым языком и понимать контекст беседы.