Обработка звука: истории из жизни, советы, новости, юмор и картинки — Горячее, страница 3

0 просмотренных постов скрыто

wonderlove

Видеомонтаж

Серия Нейро-Звук

Resemble Enhance - нейросеть для улучшения голоса и очистки от шума⁠⁠

1 год назад

Resemble Enhance - это инструмент на основе ИИ для улучшения качества речи путем шумоподавления и усиления.

Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.

Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.

Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.

Это очень хорошая альтернатива плагина GOYO, который на данный момент недоступен. Более того, вам не нужна DAW или другая сторонняя программа, чтобы запустить Resemble, как в случае с GOYO.

Модель пока что подходит только для английской речи. Чтобы развернуть локально, необходима видеокарта NVIDIA минимум с 4 Gb видеопамяти.

По классике, начнем с интерфейса и далее взглянем на возможности более наглядно.

На самом деле, мы постарались и перевели интерфейс на русский язык и он стал уж совсем интуитивно понятным, но все же пробежимся в общих чертах.

Выбор Сэмплера ОДУ для CFM
Если вы уже сталкивались ранее с нейросетями, то знаете, что сэмплер, если просто - метод обработки шума. По стандарту стоит Midpoint и я также советую вам не менять его.
Количество вычислений для CFM

То же самое, что и количество шагов. По стандарту 64.

Параметры 3, 4 и 5 показались мне не сильно важными.

В целом, настройки уже выставлены так, чтобы хорошо обработать бОльшую часть записей.

Шумоподавление перед усилением

Последняя галочка важная. Если в записи очень громкий внешний шум, то перед улучшением весь шум необходимо подавить, чтобы оно работало более корректно.

Так же в Resemble Enhance есть возможность записать голос сразу, ускорять запись при прослушивании и возможность вырезать выбранный фрагмент.

Так как я не особо в курсе, где можно взять уже готовые плохие записи голоса, кроме как тех самых туториалов 10-летней давности, то предлагаю взять пару примеров из моих роликов и искусственно испортить исходник: добавим шум ветра, моря, можно чуть исказить с помощью эквалайзера.

Ну и все записи я заранее перевел на английский язык с помощью сервиса HeyGen.

Я добавил в запись своего голоса шум толпы. Представим, что мне пришлось записывать подкаст в ресторане.

Resemble очень хорошо очистил шум с этой задачей он справляется прекрасно, но улучшатор голоса иногда работает не совсем стабильно. В прочем, возможно это из-за искусственного перевода.

Давайте попробуем взять неискуственный, оригинальный кусок на настоящем английском из популярного мультика. К нему я дополнительно чуть-чуть примиксовал шум озера, посмотрим, как нейросеть справится с задачей.

Замечу, здесь улучшатор сработал много лучше.

Вот как это смотрится на видео:

Теперь давайте попробуем взять что-то всем знакомое, от чего становится тепло на душе: протестируем нашу нейросеть на старых мемах.

Я уверен, все слышали про мем Очень очень affordable... Довольно старый мем, местами проскакивает посторонний шум толпы, попробуем её исправить.

Ради эксперимента я не стал переводить его и очень удивился результату, просто взгляните

Следующий уж точно не менее известный мем - салатик и борщ с капусткой, но не красной. Уже его я перевёл, в целом на записи и так достаточно шума и его уж точно больше, чем на прошлой.

Здесь опять же чуть хуже работает улучшатор голоса. Я уверен, что это связано с тем, что перевод искусственный, а модель обучалась на настоящих голосах.

Ну и давайте повысим сложность - легендарный мем Очень плохая музыка с просто ужасным исходником. Громкая музыка, а в оригинале еще и стерео панорама не понятно куда едет. Про микрофон промолчу, записано это чудо 15 лет назад, чему удивляться.

На удивление, даже тут нейросеть прекрасно очистила шум, правда запись все равно осталась низкой по качеству. Улучшатор, конечно, совсем не в кассу - речь превратилась в один из монологов Уинстона Черчилля.

Далее мне стало интересно, и я взял еще одно видео, на нем очень сильное эхо, которое я еще и усилил.

Шумодав подчистил хвосты от эхо, но само оно не пропало, что было очевидно. А вот улучшатору, судя по всему, пришлось переписывать голос по новой.

На возможности нейросети взглянули со всевозможных сторон, теперь расскажу, как установить это действительно полезное чудо техники.

Чтобы установить Resemble Enhance, достаточно скачать нашу портативную версию с установкой в один клик.

Перед установкой отключите антивирус, он ругается на самораспаковывающийся архив. Если переживаете, то скачивайте 7z-архив, который нужно просто разархивировать в любое удобное место.

Надеюсь, статья была полезной, подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!

Показать полностью 2 8

aleks.kp

Искусственный интеллект

Нейросети или где?⁠⁠

1 год назад

Не понимаю почему до сих пор делают ролики с субтитрами с английского языка на русский.

Не, статистика - ок, люди смотрят без звука. Но. Уже существует бесплатный вариант как сделать перевод видео на любой язык почти.

Пора осваивать новые веяния, народ.

[моё] Нейронные сети Обработка звука Текст

lexlab245

Звукорежиссура

Эквалайзер: что такое и как им пользоваться (руководство для новичка)⁠⁠

1 год назад

Данная статья является печатной версией сценария для этого видео, можете посмотреть если не хотите читать много текста: https://youtu.be/X9kUyQr-FAI

Что бы ни говорили, эквалайзер — это главный инструмент для звукорежиссёра. Чтобы эффективно его использовать, необходимо понимать его устройство и принцип работы. Но прежде чем говорить об эквалайзере, давайте разберёмся, как вообще работает звук.

Что такое эквалайзер

Всё довольно просто.

Динамик совершает движения вперёд-назад, создавая колебания воздуха перед собой. Эти колебания мы воспринимаем ушами как звук.

Скорость движения динамика может быть разной. Например, если он успевает 10 раз за секунду сместиться вперёд-назад относительно состояния покоя, мы говорим, что частота звука составляет 10 Герц. Расстояние, на которое смещается динамик, называется амплитудой.

От неё зависит громкость звука: чем больше амплитуда, тем громче звук.

Если рассмотреть более сложный звук, можно увидеть волну, которая отличается от синусоиды, как в примере с динамиком.

В этом случае ещё можно понять амплитуду, но частота уже не так очевидна. Это связано с тем, что звук, который мы слышим в повседневной жизни, состоит из множества частот с разной громкостью. Именно этот набор частот, где каждой соответствует своя амплитуда, отображается на спектре сигнала.

Эквалайзер — это устройство, регулирующее амплитуду частот, которые есть в звуке.

Какие бывают эквалайзеры

Обычно эквалайзеры разделяют на два типа: графические и параметрические.

Графические эквалайзеры позволяют усилить или ослабить громкость на определённых частотах с заранее заданной точностью. Из-за того, что параметры эквалайзера предопределены, он не очень гибкий в использовании и подходит только для бытовых целей.

Параметрические эквалайзеры, в свою очередь, более универсальны и подходят для серьёзной работы. Их можно разделить на две группы:

Эмуляторы аналоговых
Цифровые

Эмуляторы воссоздают «классические» аналоговые эквалайзеры со всеми их условными недостатками. Они могут звучать хорошо и даже вносить нелинейные искажения, добавляющие красок звуку. Однако их главной особенностью является повторение органов управления и заданные формы фильтров.

Так или иначе, что красящие, что не красящие эквалайзеры выполняют одну и ту же функцию, и использовать ли вам идеальные цифровые или эмуляторы — вопрос сугубо субъективный. В практике я всегда использую только цифровые, ибо они универсальны и очень удобны, но стоит понимать, что принципы работы для обоих групп абсолютно одинаковые.

Параметры эквалайзера

Управление каждого эквалайзера разделено на полосы.Для каждой полосы обычно существует хотя бы три основных типа фильтра:

колокообразный (bell)
обрезной (HС LС)
полка (shelf)

Первый, самый ходовой, используется как для грубой, так и для тонкой корректировки. Второй — для обрезания лишнего верха или низа, а последний — для их подъема и опускания, в виде такой полки, откуда и название.

Существуют также и другие фильтры, но вам вряд ли понадобится что-то еще. К тому же, их можно получить комбинацией трех основных.

У любой полосы есть три основных параметра:

Частота
Усиление
Добротность

Первый, очевидно, характеризует то, на какой частоте будет применен фильтр, при этом частоты могут обозначаться как в герцах, так и в килогерцах для удобства. Второй задает усиление частоты или же ее ослабление. Важно понимать, что усиление указывается в дБ, а это нелинейная логарифмическая величина.

Так, например, изменение с 5 на 10 дБ даст разницу в громкости не в 2, а в три раза. Чем ближе величина в дБ к 0, тем меньше изменение громкости, чем дальше от нуля, тем сильнее, вплоть до бесконечности. Параметр добротности изменяет избирательность полосы. Чем выше добротность, тем меньше частот попадет под влияние фильтра. Эта величина безразмерна. Также есть характеристика slope (уклон), которая изменяет крутизну спада фильтра и используется в основном в кат-фильтрах вместо добротности.

Динамический эквалайзер

Изменения, вносимые в эквалайзер, применяются ко всей аудиодорожке. Однако в процессе работы спектр звука может меняться, и те изменения, которые мы вносим, могут оказаться неактуальными.

В таких случаях можно использовать динамический эквалайзер. Он реагирует на изменение громкости частоты, на которую применён фильтр. Если громкость проходит через пороговое значение, то усиление фильтра изменяется. Чем дальше за пороговое значение уходит сигнал, тем сильнее меняется усиление фильтра. То есть сам сигнал, который мы подаём на эквалайзер, влияет на усиление фильтра.

Например, если в сигнале появляются нежелательные частоты, можно настроить динамический эквалайзер так, чтобы он уменьшал их. Когда эти частоты появятся, усиление автоматически уменьшится, и они станут тише.

Немного про фазу

Эквалайзер не только изменяет спектр сигнала, но и корректирует фазу отдельных частот. На высоких частотах это изменение обычно незаметно, но на низких частотах может привести к нежелательным эффектам.

Для устранения проблем, связанных с фазой, в цифровых фильтрах нередко используется режим линейной фазы. Однако он не является универсальным решением и может вызывать другие трудности. Например, звук может приобретать предзвучание, и вместо чёткой атаки мы слышим смазанное появление звука с лёгким низкочастотным гулом.

Не стоит искать проблемы там, где их нет. Если звук звучит хорошо, то лучше не вмешиваться. Визуальное представление на плагине — это всего лишь картинка, а звук мы воспринимаем ушами, поэтому доверяйте своим ушам.

Как сделать звук лучше?

Ответа нет и быть не может. Каждый инструмент и каждая запись имеют свои особенности, поэтому к их обработке нужно подходить индивидуально.

Я могу дать лишь некоторые советы, основанные на психоакустике и восприятии звука человеком в целом. Мы слышим звуки в диапазоне от 20 Гц до 20 кГц. Низкие частоты мы больше ощущаем телом, чем ушами. С возрастом мы хуже слышим высокие частоты.

Спектр звуков мы воспринимаем нелинейно:

Чем ниже точка на графике, тем громче мы слышим частоту. Вы можете заметить подъём на частотах 2–5 кГц. Именно этот диапазон отвечает за яркость и ясность звучания. В противовес ему выступают частоты около 300 Гц, которые делают звук более мутным. Если вы хотите добавить яркости и ясности, стоит сначала попытаться убрать частоты 200–400 Гц, так как добавление 2–5 кГц может сделать звук слишком резким.

Вопросы?

Напишите в комментариях — я обязательно отвечу.

Показать полностью 6

[моё] Звук Звукорежиссер Звукорежиссура Обработка звука Эквалайзер Плагин Vst Гифка YouTube (ссылка) Длиннопост

izlayavedma

Ищу нейросеть для работы со звуком⁠⁠

1 год назад

Добрый день. Подскажите, есть ли нейросеть в которую можно загрузить инструментал, а она уже на её основе создаст музыкальную работу (так же инструментал, без слов)?

Вопрос Нейронные сети Музыка Обработка звука Текст