Внимание: за счёт изображений пост очень длинный, не разворачивайте его, если не хотите листать два километра!
В сегодняшней подборке эксперименты со смешиванием цветов в стиле рисунка.
Замечу, что не являюсь художником, или разработчиком, а потому наблюдения могут быть неточными, или в лучшем случае наивными. Пользуюсь нейросетью исключительно в развлекательных целях.
Если обнаружите что-то, с чем вы не согласны, пожалуйста, сообщите об этом в комментариях, желательно с рекомендациями по исправлению.
1. Наипростейший набросок в Corel Draw.
2. В ключевых словах описание объекта, цветов и намёки по желаемому стилю. Не забываем про принцип, что лучше всего работает не «белые волосы», а «беловолосый», касается всего.
3. Набросок в Img2Img переводим в 512х768, там же на 5-10 усиления и 0.7 шумоподавления экспериментируем с результатами, для ускорения процесса, генерация 4 рисунков параллельно.
4. Понравившееся закидываем также в Img2Img и переводим в 1024х1536 с шумоподавлением 0.59, хотя иногда нужно было как меньше, так и больше, в зависимости от того, устраивает ли результат.
1. Не использовать Inpaint ввиду читерности инструмента.
2. Влезть в максимально короткий промпт.
3. Использовать минимальное количество инструментов.
4. Избегать самоповтора в результатах.
2. 50-70 токенов. Хорошо.
3. В диффузии использовался только Img2Img. Отлично.
4. Пока ещё плохо удаётся получать отличные друг от друга изображения, особенно мужские. Возможно, из-за использования дообученных моделей. Удовлетворительно.
1. У нейросети явные проблемы с кадыками и шейными мышцами на высоких разрешениях. Негативные промты из очевидных особо не сработали.
Считаю, что нейросетка пытается заполнить объектами область в первую очередь из некоего норматива (столько то таких то объектов на столько то пикселей), и уже во вторую очередь, исходя из запроса.
Пока что не нашёл стабильного универсального решения, кроме простого перебора.
2. По прежнему возникают сложности с целевым окрашиванием глаз, даже когда в основе лежит изображение, где глаза обозначены нужным цветом.
Скорее всего, при обучении моделей на людях, нейросеть обучилась глазам не по принципу «объект», а по принципу «объект-цвет». И так как глаза у людей, в большинстве своём, голубые/зелёные/карие, то и преодолеть этот момент промптами с участием «глаз» довольно проблематично.
Частично решается использованием усиления в 15 и выше.
3. Практически не возникает проблем с изображением любой мыслимой причёски.
Предполагаю, что при обучении нейросети, волосы стали не «объектом», а «текстурой». В общем-то, это, наверное, и логично из-за того, что существуют и иные, уже куда более понятно, что текстурные вещи, вроде «шерсть». Правда, здесь возникает проблема в том, что итоговый вариант может выглядеть нелогично.
Получающаяся нелогичность частично решается экспериментами с шумоподавлением, когда при нужном параметре нейросеть сгладит исходник до приемлемого результата, который, при этом, будет достаточно на него похож.
4. Женщин рисовать легче, чем мужчин. Легче как в плане многообразия результатов, так и в плане корректности оных.
Возможно, связано это с тем, что фотографий и вообще изображений женщин в целом больше, и они более разнообразны, а значит база обучения была более полной по сравнению с мужской частью.
В качестве решения, можно подмешивать в мужские промпты что-то ещё, с малым усилением. Например, тех же женщин. Не всегда от этого мужчины становятся женоподобными, кстати. Также, вместо мужчины можно использовать какие-то очевидно мужские объекты, вроде «викинг», или описательно «человек мужской». В дальнейшем планирую провести больше экспериментов на эту тему.