Генерация музыкальных фрагментов в бесплатном аудиоредакторе AUDACITY⁠⁠

Пост логическое дополнение к статье: «Audacity обогатился новым набором ИИ-плагинов для улучшения аудио и создания музыки, предоставляемых бесплатно»

(Часть первая)

OpenVINO™ Music Generation

Эта функция позволяет пользователю генерировать музыкальные фрагменты на основе текстовой подсказки (и других элементов управления).

Ее можно найти в меню Generate:

Генерация музыкальных фрагментов в бесплатном аудиоредакторе AUDACITY Нейронные сети, Арты нейросетей, Разработка, Кросспостинг, Длиннопост, Telegram (ссылка)

Simple mode

По умолчанию Music Generation будет работать в режиме Simple. Описание свойств, которые можно установить в этом режиме, приведено ниже:

Режим : используется для выбора между простым и расширенным режимами.
Нормализовать : уровень децибел для нормализации сгенерированного звука.
Продолжительность : Желаемая продолжительность создаваемого аудиофрагмента. В простом режиме максимальная продолжительность составляет ~60 с.
Какая музыка? подсказка: используется для описания типа создаваемой музыки. Это может быть жанр, исполнитель, стиль и т. д. Например, «Фортепианный фанк», «Жевательная резинка евродэнс», «Рэгтайм-пианино в стиле Скотта Джоплина».
Исходное изображение : используется для выбора между несколькими предварительно определенными «базовыми» аудиофрагментами ~5 секунд, которые используются для определения начальной структуры (темп и т. д.) для сгенерированного звука. Каждые ~5 секунд генерируемого аудио будут представлять собой модифицированную форму «базового» фрагмента. Если выбрано «Нет», не будет «базового» аудиофрагмента, используемого для определения структуры (темп, мелодия) сгенерированного аудиофрагмента — поэтому сгенерированные результаты могут быть более творческими — но недостаток «Нет» заключается в том, что максимальная продолжительность сгенерированного звука составит ~ 5 секунд.
Сила : значение от 0 до 1. Оно используется для контроля того, насколько далеко сгенерированный звук может отклоняться от «базового» аудиофрагмента (исходного изображения, описанного выше). Чем ближе значение к 0, тем ближе сгенерированные результаты будут к заранее определенному аудиофрагменту. Чем ближе значение к 1, тем дальше может быть сгенерированный результат. Например, версия 0.1 будет генерировать что-то с небольшими изменениями. Значение, близкое к 1, например 0,9, позволит сгенерированному аудиофрагменту сильно отклоняться от базового аудиофрагмента с точки зрения темпа, высоты тона, мелодии и т. д. Оно также используется в качестве множителя количества итераций UNet. -- TL;DR, это означает, что более низкие значения силы будут воспроизводить звук быстрее.
Начальное значение : используется для инициализации RNG (генератора случайного шума). Если оставить это поле пустым, в качестве начального значения выбирается произвольное значение, которое будет отличаться каждый раз, когда вы нажимаете «Создать», поэтому сгенерированные результаты могут сильно различаться для каждого «Создать». И это может быть хорошей вещью для экспериментов. Чтобы получить согласованные результаты или воссоздать что-то ранее созданное, необходимо установить начальное значение.
Шкала руководства : значение, которое показывает, насколько поколение будет соответствовать вашей текстовой подсказке. Рекомендуется установить от 7 до 9.
Число шагов вывода : количество итераций UNet, используемых для генерации каждых 5 секунд звука. В целом, чем выше этот параметр, тем выше качество создаваемого звука. Но вы можете начать видеть снижение результатов, начиная с 25 итераций или около того.
Выгрузка моделей : при первом «Создании» после открытия Audacity модели ИИ загружаются в память. После загрузки они сохраняются в памяти, чтобы сократить время, необходимое для последовательных вызовов «Generate» (что удобно для экспериментов). Когда вы закончите генерацию и будете довольны результатами, вы можете нажать «Выгрузить модели», чтобы освободить системную память.
Выбор устройства : набор устройств OpenVINO™, которые будут использоваться для запуска различных этапов конвейера стабильной диффузии. Плагин должен по умолчанию установить что-то разумное, но не стесняйтесь вносить изменения, если хотите поэкспериментировать с разными устройствами.
Планировщик : алгоритм, используемый для шумоподавления на каждой итерации цикла UNet. Мы обнаружили, что EulerDiscreteScheduler обычно дает наиболее приятные результаты, но не стесняйтесь экспериментировать.

Совет : не переусердствуйте. Если вы только начинаете, вам нужно только заполнить поле « Какая музыка?». & Свойства продолжительности . Остальные параметры по умолчанию должны давать вполне разумные результаты

После нажатия «Создать» вы увидите всплывающее диалоговое окно:

Аудиофрагмент будет сгенерирован как новая дорожка, которая будет выглядеть примерно так:

Совет : сгенерированный трек будет помечен свойствами, которые использовались для его создания. Одним из важных свойств, на которое следует обратить внимание, является семя (обведено выше). Если вы хотите снова воссоздать именно этот аудио фрагмент, вам нужно будет использовать это начальное значение.

P.S. Кто знаком с нейросетями и принципами генерации, наверняка встречал, такое название как SEED. В примере выше выделен красным.

В следующем коротком посте мы рассмотрим создание стерео дорожки. Читаем тут.

Больше о создании нейромузыки, нейрографики, нейроилюстрации можно узнать пройдя далее

2.4K поста9.7K подписчиков

Добавить пост

Правила сообщества

Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан