Gachimuchi: истории из жизни, советы, новости, юмор и картинки — Горячее, страница 11

3 года назад

Небольшой эксперимент с нейросетями DFDNet и Wav2Lip⁠⁠

Небезопасный контент

На днях увидел ролик про нейросеть Wav2Lip, которая может синхронизировать движение губ человека на видео с любой аудиодорожкой с голосом - https://colab.research.google.com/github/tg-bomze/Wav2Lip/bl...

Это браузерная нейросеть с лёгкими настройками. Я немного побаловался с ней и заметил несколько особенностей. Важно использовать видео, где изображено лицо только одного человека, чтобы оно всегда было в кадре. Также я заметил, что программа отказывается нормально работать с роликами длиннее минуты (но если аудио длинное, то видео просто повторяется заново), а также не хочет работать с роликами в 1080p.

Поскольку исходник не очень хорошего качества, я пропустил ролик через нейросеть DFDNet - https://colab.research.google.com/github/tg-bomze/DFDNet/blo...

Видео вышло в слишком большом разрешении и немного сплюснутым, потому я его подуменьшил и выровнял.