Prisma: теперь и для музыки

Дмитрий Ульянов, аспирант Сколковского института науки и технологий, опубликовал в своем блоге статью о переносе стилизации для музыки. Все работает также как в Призме: имеем основную мелодию, стиль, на выходе получаем микс мелодии в выбранном стиле. Работает пока довольно шумно, но приемлемо.

Все примеры доступны в блоге.

В своей работе Дмитрий переводил аудиофайлы в спектрограммы при помощи преобразования Фурье.

Prisma: теперь и для музыки Нейронные сети, Машинное обучение, Сколково

Далее переносил стиль для спектрограмм, работая с ними как с картинками, по аналогии Призмы. Полученный результат конвертировал обратно в аудиофайл.

Весь код доступен в GitHub Дмитрия.

Ранее Дмитрий опубликовал статью, в котором описан алгоритм ускоряющий стилизацию изображений, что и позволило появиться таким приложениям как Prisma, Vinci и Artisto.

Тут недавнее выступление Дмитрия в ВШЭ.

Наука | Научпоп

7.7K постов78.5K подписчиков

Добавить пост

Правила сообщества

Основные условия публикации

- Посты должны иметь отношение к науке, актуальным открытиям или жизни научного сообщества и содержать ссылки на авторитетный источник.

- Посты должны по возможности избегать кликбейта и броских фраз, вводящих в заблуждение.

- Научные статьи должны сопровождаться описанием исследования, доступным на популярном уровне. Слишком профессиональный материал может быть отклонён.

- Видеоматериалы должны иметь описание.

- Названия должны отражать суть исследования.

- Если пост содержит материал, оригинал которого написан или снят на иностранном языке, русская версия должна содержать все основные положения.


Не принимаются к публикации

- Точные или урезанные копии журнальных и газетных статей. Посты о последних достижениях науки должны содержать ваш разъясняющий комментарий или представлять обзоры нескольких статей.

- Юмористические посты, представляющие также точные и урезанные копии из популярных источников, цитаты сборников. Научный юмор приветствуется, но должен публиковаться большими порциями, а не набивать рейтинг единичными цитатами огромного сборника.

- Посты с вопросами околонаучного, но базового уровня, просьбы о помощи в решении задач и проведении исследований отправляются в общую ленту. По возможности модерация сообщества даст свой ответ.


Наказывается баном

- Оскорбления, выраженные лично пользователю или категории пользователей.

- Попытки использовать сообщество для рекламы.

- Фальсификация фактов.

- Многократные попытки публикации материалов, не удовлетворяющих правилам.

- Троллинг, флейм.

- Нарушение правил сайта в целом.


Окончательное решение по соответствию поста или комментария правилам принимается модерацией сообщества. Просьбы о разбане и жалобы на модерацию принимает администратор сообщества. Жалобы на администратора принимает @SupportComunity и общество Пикабу.

Вы смотрите срез комментариев. Показать все
8
Автор поста оценил этот комментарий
Расстрою автора, но он сделал то, что уже давно существует. Генерирование по несущей волне, используя характеристики второй волны - это вокодер. До стилизаци очень далеко, вернее строго говоря это совсем не стилизация. Вокодер лет 40 известен в музыке, в частности компьютерные вокалы у дафт панк хороший пример вокодера. Для музыкантов есть сотни vsti и плагинов морфинга звука. То, что делает алгоритм автора уже много лет есть в плагине Morph от Zynaptiq, это плагин плавной непрерывной мутации от одного сигнала к другому, когда оба сигнала принимают форму и ключевые характеристики друг друга по разным алгоритмам (всего 5 алгоритмов "морфинга").
раскрыть ветку (4)
1
Автор поста оценил этот комментарий

Не совсем так. Оригинальная призма - это "A Neural Algorithm of Artistic Style", в данной работе осуществлена возможность работы нейросети с музыкой (через костыль). Алгоритм совершенно другой, нежели в ваших примерах.

Автор поста оценил этот комментарий

Какое ещё генерирование по несущей? Вы даже не вникли в суть решения, а уже пиздите. Во-первых автор юзает оконное Фурье для получения начального сета каналов. Во-вторых, уже после первой свёртки от Фурье-фич нихрена не останется. В-третьих, суть работы в матчинге статистик второго порядка, а не в генерировании из несущей. Боже, почему вы несёте бред и нихуя не думаете?

Автор поста оценил этот комментарий

Подтверждаю. давно очень много плагинов и отдельных программ используют точно такие же алгоритмы работы. вокодер - самый простой пример, хотя в последние лет 10 выходит чуть ли не каждый год по десятку более продвинутых. Я вообще не понимаю, когда человек берется делать что-то подобное, неужели ему так сложно погуглить, не сделали ли кто-то что-то подобное до него?  Ведь это ищется за 5 минут.  

раскрыть ветку (1)
3
Автор поста оценил этот комментарий

Это исследовательская работа. По нейросетям. У меня возникло подозрение, что музыканты не умеют читать, развейте его, пожалуйста.

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку