Hеотличимо от человека
Витуберша Нейро-сама получила третью версию вокалоида. Неестественные верха и низы ушли совсем.
Витуберша Нейро-сама получила третью версию вокалоида. Неестественные верха и низы ушли совсем.
Все лучшие исполнители в одной песне и аниме-одежде
Видео взято с канала Арт-нейросети от Nerual Dreming
Музыка - Виктор Цой - Звезда по имени Солнце Видео - Нейросеть GEN2 (ред.108Ink)
P.S. Альбом уже вышел.
Нейро-сама фактически превратилась в вокалоид с вполне себе естественным по меркам кожаных ублюдков вокалом.
На днях один из подписчиков (Aamir Khan) поделился webui для генерации музыки и я вчера радостно на весь день залип.
Это тоже MusicGen, о котором я писал ранее на Пикабу.
Но в вариантах расшаренных до этого в основном использовался Hugging Face, вкладка с которым, как выяснилось опытным путём, после нескольких генераций начинает дико нагружать проц.
Интерфейс от CoffeeVampir3 намного ловчей:
Работает локально
Модели всех размеров (small, medium, large) подгружаются сами при первом использовании
Можно ставить треки в очередь
Можно генерить на основе своей мелодии
Справа можно послушать, что сгенерил
Нагружается только видюха, а не проц
Чем больше модель, тем лучше качество звучания, но тем и требовательней она к железу и генерация может занять больше времени.
В тексте дальше я выделил команды для установки "кавычками", чтобы тем, кто первый раз с таким сталкивается понимали, что надо вписывать. Сами команды пишутся в командную строку без кавычек.
Установка:
Создаём папку на компе и в адресной строке (C:\MusicGen или где вы её сделали) пишем "cmd"
В открытой командной строке пишем "git clone https://github.com/CoffeeVampir3/audiocraft-webui.git" чтобы скопировать webui к нам на комп
Идём вглубь скопированного webui командой "cd audiocraft-webui"
Далее устанавливаем необходимые для webui вещи командой "pip install -r requirements.txt"
Готово — запускаем проект командой "python webui.py" (не обращаете внимание на ошибку про тритон, фласк и дебаг мод). Веб интерфейс открывается по адресу http://127.0.0.1:5000/
Чтобы генерить на основе своего трека в Model выберите Melody и укажите путь к треку.
За что отвечают параметры (спасибо Dmitry за подсказку):
Top-k - сколько токенов используется. Больше - больше разнообразных звуков будет в треке, но больше какофония. Меньше - более повторяющимся и однородным будет трек.
Тоp-P - альтернативный метод, 0 - выключен.
Duration: длительность генерируемой музыки.
Temperature - более\менее активное фантазирование. По опыту изменения в обе стороны от дефолта делают хуже.
Classifier Free Guidance - тоже в обе стороны от дефолта хуже получалось. Типа строгость следования промту, как в стейбле для картинок.
Segments - количество генерируемых сегментов. Каждый сегмент будет иметь длину равную duration минус overlap. Поэтому если duration стоит 30 секунд, а overlap - 5 секунд, то при использовании 3 сегментов вы получите 75 секунд аудио.
Overlap - перекрытие между сегментами. Больше перекрытие = более структурированная музыка между каждым из них.
Музыка сохраняется в папку statc/audio/ , либо вы можете её правым кликом в webui сохранить куда вам угодно.
Важно отметить, что лицензия софта не позволяет использовать сгенерированное в коммерческих целях. Вот только как они будут определять, что сгенерировано, а что нет, если оно создано локально?
В общем, для создания полноценных треков оно пока не годится, а вот семплы пилить, вполне себе. Да тут нет гибкости и их надо мастерить, но это уже ускорение процессов для артистов и существенное снижение планки входа для тех, кто только начинает.
Больше интересностей у меня в телеге Psy Eyes
Для всех поклонников футбола Hisense подготовил крутой конкурс в соцсетях. Попытайте удачу, чтобы получить классный мерч и технику от глобального партнера чемпионата.
А если не любите полагаться на случай и сразу отправляетесь за техникой Hisense, не прячьте далеко чек. Загрузите на сайт и получите подписку на Wink на 3 месяца в подарок.
Реклама ООО «Горенье БТ», ИНН: 7704722037
С помощью Colab:
Aвторизуетесь в Colab
Жмёте справа вверху Connect
Затем в верхнем меню Runtime —> Run all
Когда всё запустится просто меняете промты в кавычках или дописываете свои.
Генерации можно качать в WAV. По умолчанию создаётся до 10 секунд, но уже есть код для того, чтобы генерить больше 30 секунд.
С помощью Hugging Face:
Тут доступны разные варианты. Можно просто написать текстом что ты хочешь получить и сгенерится до 12 секунд трека. По желанию можно предоставить аудио реф, из которого будет извлечена общая мелодия.
Можно напеть мотив, и прицепить запись с микрофона к текстовому промту.
Расчехляем папку со своими музыкальными идеями, неразборчиво записанными на диктофон.
Можно и использовать MusicGen для разбивки трека на стемы, и генерации на основе конкретных партий.
Делитесь своей музыкой в комментах.
Больше интересностей у меня в телеге Psy Eyes