Привет, питерские болельщики пикабушники.
Сразу оговорюсь. Все, что написано - исключительно мой личный опыт (возможно, ошибочный), не претендующий на какую-то истину или серьезные выводы. Он создан, чтобы показать, как простой человек (даже не технарь) может сегодня взаимодействовать с открытым инструментарием ИИ. Ну и для дискуссии.
Но вернемся к теме. Тут в телевизоре показывали давеча как Маск человеческим голосом заговорил.
Честно, позавидовал, захотел так же научиться. Да и просто - интересно же. Решил я, короче, пока чисто в научных целях, попробовать замутить свои видосики с Лиамом Нисоном (ЛН) и килтами.
Но ванильные условия, как ролике по ссылке выше, нас, исследователей, не интересуют. Под "ванильными" я понимаю, к примеру: лицо говорящего, направленное в камеру; минимум движений; хорошее освещение; отсутствие других лиц в кадре.
Так что будем гонять ИИ в "полевых" условиях.
Провел подготовительные мероприятия: видеоряд нарезан, оригинальная дорожка удалена, голос, говорящий по-русски, записан (не ИИ по тексту) и прокатан через голосовую модель ЛН на RVC v2.
Чтобы не сбивать ИИ посторонними звуками, на звуковой дорожке ничего, кроме голоса, нет.
Справка: потрясающий, обожаемый мной фильм "Роб Рой" (1995).
Нашел рабочий коллаб на базе Wav2Lip. Закинул файлы (отдельно видеоряд и звук), обработал. На выходе:
Как видите - так себе. На крупном плане (с 29 сек.) вообще не сработало - читайте по губам: "Онор уилл би сатисфайед. Ю ноу ми уэлл энаф..." ну и т.д. ))) МГИМО финишд, йес!
Поржал с "суфлера" на заднем плане (там же, с 29 секунды, и с 52 секунды). Он-то все ЛипСинки у Роба и покрал.
Ну ладно, давайте немного попробуем облегчить жизнь "роботам".
Возьмем эпизод интервью ЛН за основу. Прилепим к слегка перемонтированному видео ту же звуковую дорожку (не совсем ту же. пришлось ее урезать, чтобы уложиться в хронометраж крупных/средних планов именно лица ЛН). На выходе:
Уже лучше. Но опять же, в целом, так себе (как минимум: анимация губ кривая, рот летает по кадру). Спасибо, что таких "суфлёров-крадунов", как в предыдущий раз, не было.
В общем, на текущий момент, чтобы получить более-менее приемлемый вариант, нужны ванильные условия и дофига ручного допиливания.
Так что вавилонскую башню - пока! - на стоп. Фильм прогнать через сетку, и получить на выходе "дубляж" с оригинальными голосами тоже пока не выйдет. С порнухой - возможно что-то получится (если кому-то это надо?..).
На десерт, вариант - что будет, если в кадре много действующих лиц. Эпизод "Теории большого взрыва" в озвучке Кураж-Бамбея: