Когда не особо уже думаешь о известности, а просто для себя хочешь сделать свою песню со своими словами, и не хочется заморачиваться со студиями, исполнителями и т.п., то теперь можно использовать нейросети. Оригиналу моей песни уже почти 20 лет ;) и требуется обновление. Думаю, что получилось.
Видеоряд решил сделать в стилистике аниме, как вам?
Нейрохудожник: Ворогушин Алексей Геннадьевич. Стильная девушка в современном городском стиле на фоне граффити. Все права на изображение имеются. Основа до обработки изображения сгенерирована в ideogram.ai
🎸Крупнейшие лейблы Universal, Sony и Warner, совместно с RIAA подали иски против компаний Suno и Udio за использование ИИ в создании музыки. Особое внимание привлек вирусный хит "BBL Drizzy", созданный в Udio.
Лейблы утверждают, что нейросети незаконно использовали произведения популярных артистов для обучения своих ИИ-систем. Нарушение авторских прав при использовании ИИ может серьезно повредить музыкальной культуре.
Этот конфликт не первый: ранее UMG и другие издатели судились с Anthropic за использование текстов песен в Claude 2, а также были скандалы с ИИ-имитациями известных исполнителей, таких как Drake. В этом году TikTok временно удалил музыку артистов UMG, включая Taylor Swift, из-за конфликта, связанного с лицензированием ИИ-контента.
Все что будет описано здесь основано на моем личном опыте. Тут я опишу лишь небольшую часть и потом возможно дополню другими статьями по каким то определенным моментам. Если у вас есть советы и как можно сделать что то лучше и т.д. прошу делиться в комментариях. Если у вас возникло желание обсудить и осудить тех кто хоть как то интересуется и использует нейросеть, то пожалуйста воздержитесь и делайте это в другом месте.
Основные термины: 1.Stable Diffusion (далее SD) 2.Stability Matrix - программа для запуска пакетов SD с библиотекой из Hugging face и Civitai. 3.Chekpoint - Простыми словами базовая модель, на которой будет происходить генерация. Размеры могут доходить до 15GB 4.LoRa - тоже модель, только очень маленького размера обычно это определенный стиль, персонаж, концепт, поза, ну или все вместе. Размеры LoRa обычно не превышают 700MB.
Системные требования
Я могу ошибаться и буду ошибаться, потому что в этом вопросе все расходятся. Я считаю что для более менее комфортной работы вам нужна видеокарта минимум с 8 гигабайтами видеопамяти серии RTX и минимум 16 гигабайт оперативной памяти. Конечно настройки SD очень гибкие в плане производительности, но тут все зависит от вашего железа.
Stable Diffusion через Stablity Matrix
Я использую SD через SM. Установка очень простая. Скачайте установщик сайта lykos.ai и поместите его в удобное для вас место. При открытии нажмите на галочку режим Portable и все файлы будут храниться в одном месте.
Для начала вам нужно установить один из предложенных пакетов SD. Есть как и оригинальный SD Web UI так и его другие модифицированные версии с другим интерфейсом и фишками.
1/2
Во вкладке браузер моделей(Model browser) содержится библиотека с Hugging face и Civitai. Подключив свой Civitai аккаунт вы можете устанавливать любые Lora и Chekpoints в один клик. Во вкладке Chekpoint manager вы можете просмотреть все свои установленные модели и пакеты и управлять ими.
1/2
Model browser and Chekpoint manager
Интерфейс SM
В SM есть встроенный интерфейс для создания изображений работающий с пакетом Comfy UI. Я работаю обычно только в нем. На нем и расскажу о основных настройках.
Настройки
1.Базовая Модель (Chekpoint) - то на чем вы будете создавать изображение. Существует огромное количество моделей от аниме до реализма. Главное различие это пакет версия SD, на котором основан Chekpoint. Модели на SD 1.5 как по мне уже устарели и на них я работал всего лишь пару раз и не вижу смысла на них что то делать, так как есть SDXL и PDXL, но как мне кажется SD 1.5 очень не требовательные по железу и поэтому они в целом еще популярны. SDXL модели очень гибкие и более стабильны в использовании. PDXL или же Pony это модифицированный SDXL, на данный момент по моему мнению самая популярная, самая удобная и гибка модель для создания. На PDXL можно добиться разных стилей без LoRa и лучшего качества за счет score_x(но это другая тема и может быть я напишу что нибудь об этом потом или кто нибудь пояснит в комментариях).
2.Samplers - Чтобы создать изображение, SD сначала генерирует совершенно случайное изображение в скрытом пространстве. Затем предиктор шума оценивает шум изображения. Прогнозируемый шум вычитается из изображения. Этот процесс повторяется десятки раз. В итоге вы получите чистое изображение. Для 2D изображений я использую Euler, euler A, DDIM. Для 3D или реализма DPM++ 2M SDE. В вопросе семплеров так же нет четких инструкций и я советую вам экспериментировать.
3.Steps - Количество шагов. Чем больше шагов вы ставите тем более детальным будет конечный результат, но нет смысла ставить шагов больше 50 это только увеличит время и может добавить артефакты. В среднем обычно используют от 25 до 40 шагов.
4.Scale - этот параметр отвечает за внимание нейросети к вашему запросу. Чем выше этот параметр тем внимательнее нейросеть к вашему промту. Не стоит ставить этот параметр выше 15 так как появиться очень много артефактов. На низких значениях результат будет более непредсказуемым.
4.Seed - Вы можете заблокировать сид определенной картинки и изменить детали. По умолчанию Seed рандомится при каждой генерации.
5.Batches - это сколько картинок вы хотите за одну генерацию. Batch size количество задач, которые могут быть взяты в работу в рамках определенного периода времени. В общем при увеличении может дать более стабильный и нужный результат и так же больше картинок. Ну то есть при количестве одна штука и batch size 2 у вас сгенерируется две картинки (пожалуйста напишите в комментариях кто знает как это объяснить простым языком).
Promt Это ваш запрос что вы хотите видеть, но это вы и так знаете. На своем опыте я понял что лучше описать все что вы хотите последовательно и упорядочено. Обычно сначала я пишу теги на качество, а затем уже персонажа, позу, место и т.д. Вот пример промта: score_9, score_8_up, score_7_up, source_anime,(это теги на качество для PDXL) retro anime style, retro, <lora:90s_Retro_anime_style_Pony:0.5> (это триггер теги для LoRa и сама lora и ее вес) BREAK (используйте для того чтобы нейросеть лучше понимала ваш запрос) mature woman, blue eyes, black hair, long hair, kabuki ponytail, big breasts, mole on breast, black dress, collar, standing, crossed arms, pout, blush, front view, indoors, doorway, hotel room, at night, steam, steam in room, best quality, high quality
Negative Тут вы пишите что не хотите видеть в конечном результате, например 6 пальцев или плохое качество вот пример:
worst quality, low quality, bad quality, monochrome, busty bad hands, lowers, long body, squinting,deformed, blurry, bad anatomy, poorly drawn face, extra limb, ugly, poorly drawn hands, missing limb, floating limbs, disconnected limbs, malformed hands, long neck, disgusting, bad anatomy, bad legs, duplicate legs, watermark, bad eyes, crossed eyes, (bad fingers), (six fingers)
((Скобки))
Скобки используются для того чтобы увеличить вес тега и внимание к нему. Например вам важно чтобы у персонажа были длинные волосы тогда вы делаете так (Long hair), просто взяв в скобки вы увеличиваете вес на 1.1, но можете сделать вес больше указав точно сколько вам нужно вот так (long hair:1.5). Скобки [ ] уменьшают вес тега и применяются так же.
Пока это все чем я хотела поделиться в дальнейшем постараюсь написать пост более последовательно по каждой детали по отдельности. Ну или нет.
Вспомнил на днях этот мем и сделал на него нейро-кавер)
Делаю качественно. Беру лучшие генерации в Udio, склеиваю, вношу какие-то правки, звук обрабатываю и улучшаю.
Так что кому понравится - залетайте на YouTube-канал, там и другие ии-каверы есть! Ну и подписывайтесь, если интересно) Сейчас как раз занят работой над новым эпическим треком!
Музыка - вокал нейросеть Suno.ai. Использую функцию v3.5 позволяющую генерировать треки длинной более двух минут.
Автоматическая расстановка ударений в тексте https://morpher.ru/accentizer/. Там же в ручную меняю читаемые буквы на произносимые. Советую проверять результаты, железка иногда неправильно ставит ударение в слове или не ставит вообще, если не знает слова.
обозначение частей трека:
[Chorus] - припев
[Verse] - куплет
[Solo] - соло
[Intro] - вступление
[Outro] - концовка
На скриншоте образцы редактирования текста перед генерацией, в процессе генерации и оригинал текста для сравнения.
Где в слове ударная буква заменена на заглавную ударную там произносилась другая буква.
К треку была применена функция дозаписи, поскольку второй припев повторялся два раза, дозапись производилась с 01:21 минуты, нормально записанную часть текста не удалял из поля ввода, сетка нормально ориентируется в тексте при использовании функции v3.5.