Тестируем Text-to-Speech нейронку с открытым кодом
Недавно в основном канале рассказывал про новую программу клонирования голоса и озвучки им текста. Стоит проверить, появился ли конкурент для EllevenLabs или до них еще далеко новым проектам.
Нейронка называется Camba-ai. Ее код выложен на GitHub, но помимо этого есть сайт с интерфейсом, достаточно удобным, кстати - он тут.
Как раз удобно для теста. Я решил склонировать голос Тони Старка, потому что недавно делал это в EllevenLabs и сравнить.
Результат покажу следующим сообщением.
Скажем так, голос вообще не похож. В очень маленьких фрагментах проскакивали знакомые нотки, но EllevenLabs справляется намного лучше.
Но, стоит признать, что сама озвучка неплоха. Может быть, если разобраться с настройками, то можно получать даже хороший результат, но я бы лучше использовал EllevenLabs как сервис, потому что в Camb еще и всего лишь 400 символов озвучивает бесплатно, а минимальная подписка стоит 15$, и не понятно, какие улучшения ты за нее получаешь.
Но, что интересно, на сайте еще есть возможность переозвучить видео на другом языке, чего я сразу не заметил в описаниях, и это уже интереснее, и в следующий раз я бы затестил эту функцию.
И, конечно же, самое важное - это возможность использовать код из модели. Будем ждать через пару месяцев клонов, которые сделали лучше 🙃

Искусственный интеллект
5.1K постов11.5K подписчиков
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан