Как создаются голоса для синтезатора речи RHVoice

Как создаются голоса для синтезатора речи RHVoice Слепые, Разработка, Доступная среда, Длиннопост

RHVoice — синтезатор речи, созданный Ольгой Яковлевой. Многие люди с нарушением зрения не представляют жизни без него: вместе с программами экранного доступа он помогает серфить в интернете, вести социальные сети, работать с документами и так далее.


Долгое время выбор голосов в RHVoice был ограничен. Но в 2020 году незрячий разработчик Артем Плаксин и его команда создали лабораторию новых голосов для RHVoice. В том же году состоялась громкая премьера — разработчики представили синтезированный голос дизайнера, путешественника и блогера Артемия Лебедева.


Артем Плаксин рассказал «Особому взгляду» о том, как создаются голоса для синтезатора.

Как создаются голоса для синтезатора речи RHVoice Слепые, Разработка, Доступная среда, Длиннопост

Как родилась идея


Артем Плаксин — менеджер IT-проектов, веб-мастер и тестировщик программ на доступность для незрячих пользователей. За последние три года он запустил несколько социальных IT-проектов. В их числе — сервис «Данные в данные», помогающий незрячим людям конвертировать документы в формате PDF в текст, а текст — в речь, и сервис Tiflo Cloud — это альтернатива облачным хранилищам, доступная незрячим пользователям.


Плаксин также руководит некоммерческим проектом «Тифло Хост». В его рамках он занимается развитием и адаптацией российского сегмента интернета для незрячих пользователей, а также предоставляет незрячим людям доступный хостинг для их социальных проектов.


«Идеи создавать голоса для синтезатора речи сначала у меня не было. Просто в один из моментов, когда я смотрел YouTube-блог Артемия Лебедева, отметил, что у него отличный голос. Четкий, ровный, без лишней хрипотцы и ненужных дефектов. Тогда я подумал, что было бы неплохо попробовать синтезировать его голос, чтобы им пользовались незрячие», — рассказал Артем.


Он написал об этой идее Артемию Лебедеву, тот заинтересовался. Дизайнеру выслали речевую базу — текст из специально подобранных 1160 предложений на русском языке. Он должен был зачитать его в студии на хорошем звуковом оборудовании. Речевую базу не пришлось создавать с нуля, ее составили при разработке первых голосов RHVoice, и она лежала в открытом доступе в интернете.


По словам Артема Плаксина, о синтезе речи на начальном этапе он знал достаточно, но необходимого опыта создания голосов у него не было. Так к проекту присоединился незрячий программист из Грузии Бека Гозалишвили. У него был опыт разработки языкового модуля для грузинского языка для RHVoice.


«Бека тоже заинтересовался этой идеей, и мы приступили к работе. Но сразу же поняли, что нам нужны специалисты, которые умеют качественно работать со звуком. Начитанные дорожки нужно было резать по предложениям, чистить шумы, убирать фон. Работа непростая и очень важная», — рассказал Артем Плаксин.


Он пригласил присоединиться к проекту инженера монтажа Сергея Паршакова и инженера звукозаписи Дениса Шишкина.


Этапы создания голосов


Артемий Лебедев озвучил 1160 предложений и уложился при этом в 100 минут. По словам Артема, обычно у дикторов уходит на работу от 2 до 6 часов, а на выходе они получают от 1,5 до 3 часов готового материала.


«Запись речевой базы — первый и важнейший этап работы. Ведь от качества и чистоты записи зависит итоговое качество голоса. Артемий Лебедев прислал нам материал достаточно быстро, но записан звук был, к сожалению, не в профессиональной студии звукозаписи, поэтому нам пришлось долго чистить лишние шумы и фоны на заднем плане. Однако тогда мы были счастливы, что наш диктор вдохновился идеей и отозвался на наш запрос», — рассказал Артем.


На втором этапе работы Сергею Паршакову, инженеру монтажа, предстояло выделить из записи отдельные предложения и почистить речевые ошибки. При этом количество файлов с записанными предложениями длительностью по 3— 5 секунд не должно было превышать количество самих предложений в текстовом файле языкового модуля.

Как создаются голоса для синтезатора речи RHVoice Слепые, Разработка, Доступная среда, Длиннопост

«На третьем этапе идет работа со звуком. Здесь владения Дениса Шишкина. Он убирает излишние шумы, подбирает частотные и другие параметры звучания. Важной задачей звукорежиссера является умение выделить речевые особенности диктора, ведь именно они будут узнаваемы при использовании голоса пользователями», — сказал Артем Плаксин.


По его словам, это очень кропотливая и долгая работа, требующая высокого уровня мастерства от звукорежиссера. Важно и качество записи, поэтому разработчики всегда стараются просить потенциальных дикторов записывать звук только в профессиональной студии звукозаписи.


«На следующем этапе подготовленные файлы отправляются в специальную программную среду, где записанный звук сопоставляется с текстом. В этот момент каждая буква из текстового файла языкового модуля приобретает свое соответствующее звучание. С помощью тренировки, то есть неоднократного прослушивания и правок, звуковые файлы превращаются в синтезированный голос. Этим у нас занимается Бека», — рассказал Артем.


Тонкие настройки на этом этапе позволяют избежать сильной роботизации голоса, а за счет правильно подобранных частот каждая буква звучит по-своему — не монотонно и с минимумом ошибок. Настройка может занять много времени, но, по словам Артема, на создание любого голоса требуется от двух до трех месяцев регулярной работы.


Каталог голосов


В первые дни после публикации синтезированного голоса Артемия Лебедева его скачали несколько тысяч человек. Результат вдохновил разработчиков, и Артем предложил коллегам создать лабораторию голосов. Сейчас в ее каталоге уже несколько готовых голосов, их «владельцы» — известные блогеры, журналисты и ведущие.


Голосом комика Евгения Чебаткова говорит синтезированный голос «Евгений». Голос радиоведущей и автора блога о путешествиях «Я там был» Натальи Арсеньевой стал основой для голоса «Виктория». Команда Артема в сотрудничестве с коллегами из Украины создала и свой первый украинский голос «Володимир», основой стал голос журналиста и лектора Владимира Беглова.


«Для многих незрячих любителей аудиокниг очень дорог голос Юрия Заборовского, известного советского и российского актера, чтеца многих аудиокниг. К сожалению, в конце 2020 года Юрий Заборовский покинул нас. В память об этом человеке мы решили разработать его синтезированный голос. Это был серьезный вызов для нашей команды, так как голос пришлось создавать по уже имеющимся аудиокнигам», — рассказал Артем Плаксин.


Первым делом Артем обратился к жене Юрия Заборовского с этим предложением. Получив согласие, вместе с командой он отобрал из имеющихся записей около 1600 предложений.


«Аудиокниг, озвученных Юрием Заборовским, очень много, но это не сильно облегчило нам работу. Во-первых, со временем и возрастом голос у чтеца менялся, и это нам категорически не подходило. Во-вторых, как многие помнят, диктор читает очень эмоционально и ярко, а для синтеза речи это не самый лучший вариант. Приходились выискивать малоэмоциональные предложения, к тому же соответствующие всем требованиям для создания речевой базы», — сказал Артем.


Из-за возникших проблем создание голоса затянулось. Однако удача была на стороне разработчиков: они нашли записи хорошего качества 2004 года, и этот материал подошел для синтеза. Спустя несколько месяцев голос появился в каталоге лаборатории. Его выход приурочили ко дню дня рождения заслуженного актера и чтеца.


О планах на будущее


Многие незрячие люди уже пользуются разработанными лабораторией голосами. По словам Артема Плаксина, их используют при озвучивании книг, веб-страниц, приложений и так далее. С сайта RHVoice Lab можно также скачать аддоны для программ экранного доступа.


«В дальнейшем мы планируем заняться созданием голосов на других языках. Очень хочется создать качественный английский голос, а то имеющиеся достаточно наскучили, а также востребованный татарский голос. Готовые речевые базы уже есть, сейчас мы в поиске хороших дикторов. В будущем мы также планируем расширять разнообразие языков, но для этого потребуется создавать речевые базы с нуля — без работы опытных лингвистов никак не обойтись. Наш проект полностью некоммерческий, поэтому мы будем искать грантовые средства или спонсорскую помощь для осуществления задумок», — поделился планами Артем Плаксин.