С момента выхода видео проект мы переименовали в SteosVoice, домен остался тот же. Голос G-man'а мы создали на основе английских реплик из HL:Alyx, там примерно 2 минуты. Сейчас наш синтез знает два языка: русский и английский. Неважно на каком языке говорит источник, система воспроизводит голос, манеру и говорит сразу на обоих языках. Добавим новый язык, голоса заговорят и на третьем языке.
Разработка развитие синтеза речи (да и распознавания тоже) для нас очень важна: если мы собираемся оживлять NPC, то нам нужно закрывать полный цикл, ведь персонажи должны озвучивать свои мысли тем же голосом и манерой, что и актёр, который записывал для них сюжетные реплики.
Зависимость от сторонних сервисов — неприемлемо. К тому же в нашем случае выдвигаются высокие требования:
• Минимальное количество аудио для воспроизведения голоса. Просить «несколько часов» исходных данных нереально, так как такое количество аудио наберётся только у двух-трёх главных персонажей большой RPG.
• Высокое качество звука. Звук должен быть такой же насыщенный, плотный, как и в оригинале.
• Быстрый синтез, чтобы не было ожидания между вопросом и ответом.
• Работа оффлайн, например, на четвёртой плойке. Потому как во-первых, ни одна студия не потянет такие расходы на облака, а во-вторых, игрок должен быть независим от интернет-соединения, особенно если он играет в сингл.
Нам это удалось. Чтобы создать цифровую копию любого голоса в высоком качестве, нам нужно всего семь минут речи спикера в идеальных условиях. С некоторыми компромиссами в финальном качестве достаточно и одной минуты аудио. Голос Гейба Ньюэлла (в рамках демонстрации, естественно, голос на платформе не доступен) мы создали на основе одной минуты аудио из документари HL2: Lost Coast. Да, есть ещё, но голос в силу возраста на них отличается, плюс у аудио в разном качестве и на большинстве присутствуют сторонние звуки, вроде шума вентилятора. Ниже пример (видео сжато).
SteosVoice как создаёт собственные уникальные голоса, так и сотрудничает с актёрами, выплачивая 20% роялти с каждого синтезированного символа на платформе авторам голосов.
Однако сейчас сервис бесплатен для всех желающих. Мы сделали это, чтобы поддержать сообщество разработчиков и создателей контента. Так что если вы хотели попробовать синтез речи в своих проектах или вам нужна озвучка, приглашаю. Также будем рады обратной связи!:)
Следующие обновления будут посвящены полному избавлению от акцента при переносе между языками, более точечной настройке эмоций и новым языкам. Бонусом сейчас в работе около 60 новых голосов, которые в ближайшее время будут добавлены на платформу.
Ссылка на проект, где можно попробовать синтез: https://cybervoice.io/ru/