Персонажи книги с помощью нейросети⁠⁠

Всем доброго времени суток.

Когда я закончил книгу, "Сэхсвет", то начал мечтать. Что её вот прям сразу возьмут в издательство (ага), что вот прям сразу она станет бестселлером (ага-ага), и что по ней когда-нибудь снимут кино (3хАга). После этого задумался о том, какие актеры бы могли сыграть персонажей книги, и как здорово было бы увидеть образ не только у себя в голове. Вот умел бы я рисовать... а потом как-то резко и очень широко распространились нейросети, и я решил попробовать визуализировать героев.

Мидджорни требует денег, а бесплатные попытки давно кончились, поэтому выбор пал на StableDiffusion.

Уточнение – это не гайд о том, как пользоваться SD. Я только начал изучать нейросеть, я почти ничего в этом не понимаю. Я просто хочу поделиться результатами.

Решил начать с одного из своих любимчиков – Кросса, он же Кросстан Ховард.

Я не сторонник пространных описаний персонажей в книгах. Обычно упоминаю одну-две детали внешности, всё. Остальное оставляю на откуп читательскому воображению. Но это не значит, что я не вижу персонажа. Когда-то отчётливо, когда-то – только в общих чертах. Кросс относится к первому типу, его я видел очень хорошо.

Вот что сгенерировалось после нескольких часов попыток:

И, скажу сразу, я просто в шоке, насколько точно получилось перенести образ из головы в картинку.

Когда я продумывал Кросса, то его внешность складывалась из совершенно определённых людей. Их двое – вокалист любимой группы Muse, Мэтт Бэллами, и второй любимый Доктор (после Мэтта Смита) – Девид Теннант. В следующем соотношении: 70% Бэллами, 30% Теннанта. Такой потрёпанный жизнью, разочаровавшийся в ней, прошедший через не очень приятные вещи. Да и к тому же, наркоман со стажем. Представлял я Кросса исключительно в декорациях нуара и киберпанка.

Ещё пара вариантов – с чёрными глазами (по книге, у Кросса множество аугментаций, и глазные линзы могут, в том числе, создавать подобный эффект):

Факт, о котором вы не просили, но я сообщу – глаза пришлось доработать напильником вручную, ибо ну никак не получилось добиться такого эффекта от нейросетки.

А тут просто вариант в ЧБ. Оно сглаживает некоторые косяки цветного изображения, как мне кажется, и + добавляет нуарности:

*Куда-то в сторону*

– Довольна? Я выложил твой любимый вариант в чб!

Дальше идёт россыпь вариантов. Генерация шла по «похожей картинке». Мне представляется это так, что все нижеследующие фото – это Кросс на разных этапах своей жизни. Где-то выглядит совсем не очень, где-то видно (по глазам, как минимум), что он ещё не сторчался, а только начинает сей печальный путь:

Дальше инфа для тех, кто сам любит поиграться с нейросетками.

Prompt:

black short hair, black eyes, matt bellamy, 1man, dark and gloomy full body 8k unity render, male adult surgeon, black short hair, wearing jeans and a leather simple jacket, at cluttered and messy shack, cyberpunk, action shot, tattered torn shirt, porcelain cracked skin, skin pores, detailed intricate iris, very dark lighting, heavy shadows, detailed, detailed face, (vibrant, photo realistic, realistic, dramatic, dark, sharp focus, 8k)

Negative prompt:

anime, ugly, low quality, bad artistnude, black and white, close up, cartoon, 3d, denim, (disfigured), (deformed), (poorly drawn), (extra limbs), blurry, boring, sketch, lackluster, signature, letters, watermark, low res, horrific , mutated , artifacts , bad art , gross , b&w , poor quality , low quality , cropped

Кто-то может справедливо заметить, что промпт херня. Возможно, сейчас я бы уже составил его по-другому. Но он позволил мне почти идеально (в плане попадания в образ) сгенерировать Кросса.

"Если это тупо, но работает, значит, это не тупо". (с) Джейсон Стетхем.

Сборка нейросетки:

EasyDiffusion

Модель – rpg_V4

Подробная инструкция по установке.

Единственный пункт, который я бы дополнил – папка stable-diffusion не обязательно должна лежать именно в корне диска. У меня, к примеру, в корне диска лежит папка EasyDiffusion, а уже в ней – stable-diffusion. Всё работает без нареканий.

Так же есть сайт, на котором лежит просто куча разных моделей для SD.

P.S. Я понимаю, что до изображений можно докопаться. Но нужно понимать, что во-первых, я с рисованием и в целом с визуальным искусством не то, что на "Вы", а на "Ваше благородное величество". Второе – на всё это я потратил 4-5 часов, до этого вообще не касаясь нейросетей. Сейчас (через несколько дней после того, как начал) я уже сменил сборку с Easy Diffusion на Automatic1111. Намного сложнее, но и возможностей больше. Думаю, постепенно можно прийти к более правильным цветовым решениям, анатомическим, и так далее. Например, вот что у меня получилось после того, как я подробнее разобрался с новой сборкой:

Я увеличил разрешение, заставил SD дорисовать то, что было в пустых местах. И за счет высокого разрешения повысил детализацию отдельных элементов (почти всех). Разница на лицо, как мне кажется. И хорошие обои на рабочий стол.

Если кто-то захочет почитать книгу, можно это сделать на АвторТудей, бесплатно.

Как-то так. Результатом доволен, дальше буду постепенно генерировать персонажей.