SadTalker - Делаем LipSync в видео и оживляем изображения при помощи нейросети
SadTalker - нейросеть от китайских разработчиков, изначально предназначенная для анимации лиц на различных изображениях - от артов до фотографий. Ознакомиться с проектом подробнее можно на их GitHub
SadTalker VideoLip - это форк SadTalker, предназначенный для синхронизации движения губ на видео с аудиодорожкой. Исходный код проекта: GitHub
Обе программы работают на видеокартах от Nvidia и CPU. Но на CPU обработка может занять несколько часов.
Сегодня поговорим о портативных версиях обеих программ, которые я подготовил для вас.
Видеообзор и примеры готовых видео можно посмотреть на YouTube.
SadTalker
Интерфейс простой (представлен выше) и содержит следующие элементы:
Поле загрузки изображения
Поле загрузки аудио
Настройки:
Стиль позы: вариации анимации лица
Разрешение лица - чем больше, тем лучше итоговое качество. Увеличивает потребление видеопамяти
Предобработка влияет на то, в каком формате будет итоговое видео. Кроп - обрезает лицо до квадрата. Full оставляет видео таким каким вы его загрузили. При использовании Full крайне рекомендуется использовать "Режим неподвижного изображения"
Размер пакета (Batch Size) влияет на скорость обработки: выше - лучше - больше видеопамяти потребляется
GFPGAN улучшает качество лица на выходе.
Итоговые файлы сохраняются в папке results.
Интерфейс тоже достаточно прост. Он состоит из следующих элементов:
Поле загрузки видео
Поле загрузки аудио
Выбор режима улучшения (опционально). Можно улучшить качество губ или качество лица, но влияет на потребление видеопамяти и скорость обработки.
Batch Size. В теории - чем выше значение тем лучше, надо выбирать целые числа. Но по факту, чем больше - тем сильнее потребление памяти, а прироста скорости я особо не заметил.
DAIN - экспериментальная и нестабильная функция. Призван улучшить качество липсинка, путем дорисовки кадров.
После конца обработки, результат будет сохранен в папку results внутри папки с программой. Вам нужен будет файл, который заканчивается на full.
Как обычно, я подготовил портативные версии с запуском в 1 клик. Вам надо лишь скачать архив, распаковать и запустить bat файл с названием start.
Скачать их можно тут:
Яндекс Диск
Будущие обновления, а также другие портативные сборки различных нейронок можно найти в моем Телеграм канале.
Ну, а задать вопросы можно в нашем чате.
Искусственный интеллект
2.5K поста9.8K подписчиков
Правила сообщества
Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан