AudioCraft Plus - нейросеть для генерации музыки. Портативная версия

Возможно кто-то из вас помнит мой старый пост с первой версией AudioCraft: Audiocraft - нейросеть, создающая музыку по текстовому описанию либо заданной мелодии (portable версия в конце статьи)

AudioCraft Plus основан на самой свежей версии Audiocraft, но кроме этого расширяет ее функциональность, позволяя создавать уже не 30-ти секундные аудио-отрезки, а полноценные треки. Как всегда, я подготовил для вас портативную версию с запуском в 1 клик (ссылка будет в конце статьи). Оригинальный код проекта можно найти на официальной странице GitHub

Вот так выглядит интерфейс:

AudioCraft Plus - нейросеть для генерации музыки. Портативная версия Нейронные сети, Музыка, Арты нейросетей, Электронная музыка, Творчество, Длиннопост

Для полноценной работы программы требуется видеокарта Nvidia, но, она должна работать и на процессоре, хоть и медленнее.

На первый взгляд, он может показаться сложным, но для упрощения понимания значений, вы можете открыть вкладку Wiki. В портативной версии, я перевел ее на русский.

Итак, программа позволяет создать музыку на основе:

  • Текстовой подсказки (prompt). Пишите на английском описание того, что бы вы хотели услышать (примеры можно посмотреть на картинке выше) и музыка будет генерироваться согласно этому описанию

  • На основе мелодии. Для этого во вкладке Audio загрузите файл с мелодией либо же можете использовать микрофон.

Мы с вами разберем пример генерации музыки на примере Prompt. Кто знаком со Stable Diffusion думаю, уже понял принцип работы:

В поле Input Text вводит наш prompt. Допустим, пусть это будет "Classic hard rock in the style of Metallica, rich guitar sound". Установим количество повторений 4, и выставим внизу значение Duration - 60 секунд. Тем самым мы задали продолжительность всего трека. Нажимаем Calculate Timings и вычисляем продолжительность отрезка.

Затем зайдите Settings и в Model выберите Модель которую вы хотите использовать. Если у вас больше 8 гигабайт видеопамяти, то выбирайте large, так как она даст лучшее звучание. Если у вас 6-8 - то выбирайте medium. Ну а если меньше 6 - то small.

В Output Audio Channels выберите Stereo Effect, а в Decoder - MultiBand_Diffusion. По моему мнению, это улучшает итоговое звучание. Но тут уже вы сами можете поиграться и выбрать то, что нравиться именно вам.

Теперь, когда все готово, нажимаем Generate и ждем.

Если вы хотите разнообразить звучание трека, то в таком случае вам необходимо:

  • В Prompts задать число отрезков, из которых будет состоять трек

  • Затем, в полях Input Text описать каждый отрывок и задать количество его повторений.

  • Установить длину трека через Duration

  • Нажать Calculate Timings, чтобы вычислить длину каждого отрезка.

  • Используя Overlap установить длительность в секундах для перекрытия одного отрезка другим.

    Как я уже сказал, расширенные пояснения каждого из значений можно найти во вкладке Wiki.

    Портативную версию AudioCraft Plus можно скачать с Яндекс Диска или с моего облака. Для ее запуска вам необходимо распаковать архив и запустить bat файл. В сборке уже идет small модель, остальные же будут скачаны самостоятельно при первом их запуске.

    Ну а будущие обновления программы, а также портативные сборки других нейросетей, о которых я писал ранее, можно найти в моем Телеграм канале.

Искусственный интеллект

2.5K постов9.8K подписчика

Добавить пост

Правила сообщества

Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан