Sovits svc превращает низкий тон в высокий
Всем здравствуйте. Уже как пол года страдаю от данной проблемы. Дело в том, что нейросеть почему-то превращает при инференции низкий голос в писклявый. Настройки всегда стояли дефолтные. Ещё пробовал несколько энкодеров: хьюберт и сейчас обучаю whisper-ppg-large. Думал, что дело могло быть в энкодере, но нет. Нейронка всё равно пищать начинает. Перерыл много сраниц в Интернете, в том числе и github, но не нашёл ничего дельного. Даже сомневаюсь сейчас в том, что у кого-то ещё, кроме меня, есть такая же проблема, но решил сначала здесь спросить, т.к. почитал на этом формуе статьи про нейронки и понял, что здесь есть достаточно умных людей с опытом использования подобных нейросетей. Репозиторий sovits использую классический, оригинальный: svc-develop-team/so-vits-svc -b 4.1-Stable.
Видео, где наглядно понятна проблема:
Спроси Пикабу
4.9K поста5.8K подписчика
Правила сообщества
Подпишись на наше сообщество, если тебе понравилась публикация. Или добавь нас в игнор, если нет.
Правила:
1. Задавая вопрос в посте, используйте открытые вопросы (те, которые не предполагают коротких ответов «Да/Нет»)
2. Создавая пост-ответ, убедись, что делаешь это ответом, иначе нам придется вынести пост за несоответствие тематике соо.
3. Подборкам, созданным на основе вопросов пользователей, тут самое место.
4. Посты с призывами поделиться историей, цифрами (пример), картинками, рекомендациями, тоже относятся к тематике соо (если будет перегиб, то пересмотрим данный пункт).
4. В сообществе не место для политики и вопросам по сайту/модерации. Для этого есть профильные сообщества.
5. Не допускаются оскорбления авторов только за наличие вопроса.
6. В сообществе допускается размещение подборок из ответов на вопросы в других постах или постах самого сообщества, только убедитесь, что до вас этого никто не сделал.
7. Предложения по доработке правил и направлению развития сообщества принимаются 24/7.