Как создаются голоса для синтезатора речи RHVoice⁠⁠

RHVoice — синтезатор речи, созданный Ольгой Яковлевой. Многие люди с нарушением зрения не представляют жизни без него: вместе с программами экранного доступа он помогает серфить в интернете, вести социальные сети, работать с документами и так далее.

Долгое время выбор голосов в RHVoice был ограничен. Но в 2020 году незрячий разработчик Артем Плаксин и его команда создали лабораторию новых голосов для RHVoice. В том же году состоялась громкая премьера — разработчики представили синтезированный голос дизайнера, путешественника и блогера Артемия Лебедева.

Артем Плаксин рассказал «Особому взгляду» о том, как создаются голоса для синтезатора.

Как родилась идея

Артем Плаксин — менеджер IT-проектов, веб-мастер и тестировщик программ на доступность для незрячих пользователей. За последние три года он запустил несколько социальных IT-проектов. В их числе — сервис «Данные в данные», помогающий незрячим людям конвертировать документы в формате PDF в текст, а текст — в речь, и сервис Tiflo Cloud — это альтернатива облачным хранилищам, доступная незрячим пользователям.

Плаксин также руководит некоммерческим проектом «Тифло Хост». В его рамках он занимается развитием и адаптацией российского сегмента интернета для незрячих пользователей, а также предоставляет незрячим людям доступный хостинг для их социальных проектов.

«Идеи создавать голоса для синтезатора речи сначала у меня не было. Просто в один из моментов, когда я смотрел YouTube-блог Артемия Лебедева, отметил, что у него отличный голос. Четкий, ровный, без лишней хрипотцы и ненужных дефектов. Тогда я подумал, что было бы неплохо попробовать синтезировать его голос, чтобы им пользовались незрячие», — рассказал Артем.

Он написал об этой идее Артемию Лебедеву, тот заинтересовался. Дизайнеру выслали речевую базу — текст из специально подобранных 1160 предложений на русском языке. Он должен был зачитать его в студии на хорошем звуковом оборудовании. Речевую базу не пришлось создавать с нуля, ее составили при разработке первых голосов RHVoice, и она лежала в открытом доступе в интернете.

По словам Артема Плаксина, о синтезе речи на начальном этапе он знал достаточно, но необходимого опыта создания голосов у него не было. Так к проекту присоединился незрячий программист из Грузии Бека Гозалишвили. У него был опыт разработки языкового модуля для грузинского языка для RHVoice.

«Бека тоже заинтересовался этой идеей, и мы приступили к работе. Но сразу же поняли, что нам нужны специалисты, которые умеют качественно работать со звуком. Начитанные дорожки нужно было резать по предложениям, чистить шумы, убирать фон. Работа непростая и очень важная», — рассказал Артем Плаксин.

Он пригласил присоединиться к проекту инженера монтажа Сергея Паршакова и инженера звукозаписи Дениса Шишкина.

Этапы создания голосов

Артемий Лебедев озвучил 1160 предложений и уложился при этом в 100 минут. По словам Артема, обычно у дикторов уходит на работу от 2 до 6 часов, а на выходе они получают от 1,5 до 3 часов готового материала.

«Запись речевой базы — первый и важнейший этап работы. Ведь от качества и чистоты записи зависит итоговое качество голоса. Артемий Лебедев прислал нам материал достаточно быстро, но записан звук был, к сожалению, не в профессиональной студии звукозаписи, поэтому нам пришлось долго чистить лишние шумы и фоны на заднем плане. Однако тогда мы были счастливы, что наш диктор вдохновился идеей и отозвался на наш запрос», — рассказал Артем.

На втором этапе работы Сергею Паршакову, инженеру монтажа, предстояло выделить из записи отдельные предложения и почистить речевые ошибки. При этом количество файлов с записанными предложениями длительностью по 3— 5 секунд не должно было превышать количество самих предложений в текстовом файле языкового модуля.

«На третьем этапе идет работа со звуком. Здесь владения Дениса Шишкина. Он убирает излишние шумы, подбирает частотные и другие параметры звучания. Важной задачей звукорежиссера является умение выделить речевые особенности диктора, ведь именно они будут узнаваемы при использовании голоса пользователями», — сказал Артем Плаксин.

По его словам, это очень кропотливая и долгая работа, требующая высокого уровня мастерства от звукорежиссера. Важно и качество записи, поэтому разработчики всегда стараются просить потенциальных дикторов записывать звук только в профессиональной студии звукозаписи.

«На следующем этапе подготовленные файлы отправляются в специальную программную среду, где записанный звук сопоставляется с текстом. В этот момент каждая буква из текстового файла языкового модуля приобретает свое соответствующее звучание. С помощью тренировки, то есть неоднократного прослушивания и правок, звуковые файлы превращаются в синтезированный голос. Этим у нас занимается Бека», — рассказал Артем.

Тонкие настройки на этом этапе позволяют избежать сильной роботизации голоса, а за счет правильно подобранных частот каждая буква звучит по-своему — не монотонно и с минимумом ошибок. Настройка может занять много времени, но, по словам Артема, на создание любого голоса требуется от двух до трех месяцев регулярной работы.

Каталог голосов

В первые дни после публикации синтезированного голоса Артемия Лебедева его скачали несколько тысяч человек. Результат вдохновил разработчиков, и Артем предложил коллегам создать лабораторию голосов. Сейчас в ее каталоге уже несколько готовых голосов, их «владельцы» — известные блогеры, журналисты и ведущие.

Голосом комика Евгения Чебаткова говорит синтезированный голос «Евгений». Голос радиоведущей и автора блога о путешествиях «Я там был» Натальи Арсеньевой стал основой для голоса «Виктория». Команда Артема в сотрудничестве с коллегами из Украины создала и свой первый украинский голос «Володимир», основой стал голос журналиста и лектора Владимира Беглова.

«Для многих незрячих любителей аудиокниг очень дорог голос Юрия Заборовского, известного советского и российского актера, чтеца многих аудиокниг. К сожалению, в конце 2020 года Юрий Заборовский покинул нас. В память об этом человеке мы решили разработать его синтезированный голос. Это был серьезный вызов для нашей команды, так как голос пришлось создавать по уже имеющимся аудиокнигам», — рассказал Артем Плаксин.

Первым делом Артем обратился к жене Юрия Заборовского с этим предложением. Получив согласие, вместе с командой он отобрал из имеющихся записей около 1600 предложений.

«Аудиокниг, озвученных Юрием Заборовским, очень много, но это не сильно облегчило нам работу. Во-первых, со временем и возрастом голос у чтеца менялся, и это нам категорически не подходило. Во-вторых, как многие помнят, диктор читает очень эмоционально и ярко, а для синтеза речи это не самый лучший вариант. Приходились выискивать малоэмоциональные предложения, к тому же соответствующие всем требованиям для создания речевой базы», — сказал Артем.

Из-за возникших проблем создание голоса затянулось. Однако удача была на стороне разработчиков: они нашли записи хорошего качества 2004 года, и этот материал подошел для синтеза. Спустя несколько месяцев голос появился в каталоге лаборатории. Его выход приурочили ко дню дня рождения заслуженного актера и чтеца.

О планах на будущее

Многие незрячие люди уже пользуются разработанными лабораторией голосами. По словам Артема Плаксина, их используют при озвучивании книг, веб-страниц, приложений и так далее. С сайта RHVoice Lab можно также скачать аддоны для программ экранного доступа.

«В дальнейшем мы планируем заняться созданием голосов на других языках. Очень хочется создать качественный английский голос, а то имеющиеся достаточно наскучили, а также востребованный татарский голос. Готовые речевые базы уже есть, сейчас мы в поиске хороших дикторов. В будущем мы также планируем расширять разнообразие языков, но для этого потребуется создавать речевые базы с нуля — без работы опытных лингвистов никак не обойтись. Наш проект полностью некоммерческий, поэтому мы будем искать грантовые средства или спонсорскую помощь для осуществления задумок», — поделился планами Артем Плаксин.