AudioCraft Plus - нейросеть для генерации музыки. Портативная версия⁠⁠

Возможно кто-то из вас помнит мой старый пост с первой версией AudioCraft: Audiocraft - нейросеть, создающая музыку по текстовому описанию либо заданной мелодии (portable версия в конце статьи)

AudioCraft Plus основан на самой свежей версии Audiocraft, но кроме этого расширяет ее функциональность, позволяя создавать уже не 30-ти секундные аудио-отрезки, а полноценные треки. Как всегда, я подготовил для вас портативную версию с запуском в 1 клик (ссылка будет в конце статьи). Оригинальный код проекта можно найти на официальной странице GitHub

Вот так выглядит интерфейс:

AudioCraft Plus - нейросеть для генерации музыки. Портативная версия Нейронные сети, Музыка, Арты нейросетей, Электронная музыка, Творчество, Длиннопост

Для полноценной работы программы требуется видеокарта Nvidia, но, она должна работать и на процессоре, хоть и медленнее.

На первый взгляд, он может показаться сложным, но для упрощения понимания значений, вы можете открыть вкладку Wiki. В портативной версии, я перевел ее на русский.

Итак, программа позволяет создать музыку на основе:

Текстовой подсказки (prompt). Пишите на английском описание того, что бы вы хотели услышать (примеры можно посмотреть на картинке выше) и музыка будет генерироваться согласно этому описанию
На основе мелодии. Для этого во вкладке Audio загрузите файл с мелодией либо же можете использовать микрофон.

Мы с вами разберем пример генерации музыки на примере Prompt. Кто знаком со Stable Diffusion думаю, уже понял принцип работы:

В поле Input Text вводит наш prompt. Допустим, пусть это будет "Classic hard rock in the style of Metallica, rich guitar sound". Установим количество повторений 4, и выставим внизу значение Duration - 60 секунд. Тем самым мы задали продолжительность всего трека. Нажимаем Calculate Timings и вычисляем продолжительность отрезка.

Затем зайдите Settings и в Model выберите Модель которую вы хотите использовать. Если у вас больше 8 гигабайт видеопамяти, то выбирайте large, так как она даст лучшее звучание. Если у вас 6-8 - то выбирайте medium. Ну а если меньше 6 - то small.

В Output Audio Channels выберите Stereo Effect, а в Decoder - MultiBand_Diffusion. По моему мнению, это улучшает итоговое звучание. Но тут уже вы сами можете поиграться и выбрать то, что нравиться именно вам.

Теперь, когда все готово, нажимаем Generate и ждем.

Если вы хотите разнообразить звучание трека, то в таком случае вам необходимо:

В Prompts задать число отрезков, из которых будет состоять трек
Затем, в полях Input Text описать каждый отрывок и задать количество его повторений.
Установить длину трека через Duration
Нажать Calculate Timings, чтобы вычислить длину каждого отрезка.
Используя Overlap установить длительность в секундах для перекрытия одного отрезка другим.
Как я уже сказал, расширенные пояснения каждого из значений можно найти во вкладке Wiki.
Портативную версию AudioCraft Plus можно скачать с Яндекс Диска или с моего облака. Для ее запуска вам необходимо распаковать архив и запустить bat файл. В сборке уже идет small модель, остальные же будут скачаны самостоятельно при первом их запуске.
Ну а будущие обновления программы, а также портативные сборки других нейросетей, о которых я писал ранее, можно найти в моем Телеграм канале.

2.5K постов9.8K подписчика

Добавить пост

Правила сообщества

Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан