Тестируем Text-to-Speech нейронку с открытым кодом⁠⁠

Недавно в основном канале рассказывал про новую программу клонирования голоса и озвучки им текста. Стоит проверить, появился ли конкурент для EllevenLabs или до них еще далеко новым проектам.

Нейронка называется Camba-ai. Ее код выложен на GitHub, но помимо этого есть сайт с интерфейсом, достаточно удобным, кстати - он тут.

Как раз удобно для теста. Я решил склонировать голос Тони Старка, потому что недавно делал это в EllevenLabs и сравнить.

Результат покажу следующим сообщением.

Скажем так, голос вообще не похож. В очень маленьких фрагментах проскакивали знакомые нотки, но EllevenLabs справляется намного лучше.

Но, стоит признать, что сама озвучка неплоха. Может быть, если разобраться с настройками, то можно получать даже хороший результат, но я бы лучше использовал EllevenLabs как сервис, потому что в Camb еще и всего лишь 400 символов озвучивает бесплатно, а минимальная подписка стоит 15$, и не понятно, какие улучшения ты за нее получаешь.

Но, что интересно, на сайте еще есть возможность переозвучить видео на другом языке, чего я сразу не заметил в описаниях, и это уже интереснее, и в следующий раз я бы затестил эту функцию.

И, конечно же, самое важное - это возможность использовать код из модели. Будем ждать через пару месяцев клонов, которые сделали лучше 🙃

Наш экспертный канал в Telegram | Наш бот GPT4o

Искусственный интеллект

5.4K поста11.7K подписчика

Добавить пост

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества