Небольшой эксперимент с нейросетями DFDNet и Wav2Lip
Авторизуйтесь или зарегистрируйтесь для просмотра
На днях увидел ролик про нейросеть Wav2Lip, которая может синхронизировать движение губ человека на видео с любой аудиодорожкой с голосом - https://colab.research.google.com/github/tg-bomze/Wav2Lip/bl...
Это браузерная нейросеть с лёгкими настройками. Я немного побаловался с ней и заметил несколько особенностей. Важно использовать видео, где изображено лицо только одного человека, чтобы оно всегда было в кадре. Также я заметил, что программа отказывается нормально работать с роликами длиннее минуты (но если аудио длинное, то видео просто повторяется заново), а также не хочет работать с роликами в 1080p.
Поскольку исходник не очень хорошего качества, я пропустил ролик через нейросеть DFDNet - https://colab.research.google.com/github/tg-bomze/DFDNet/blo...
Видео вышло в слишком большом разрешении и немного сплюснутым, потому я его подуменьшил и выровнял.