1586

Нейросеть Speech2Face генерирует изображение лица человека по аудиозаписи голоса

Нейросеть Speech2Face генерирует изображение лица человека по аудиозаписи голоса Нейронные сети, IT

В Лаборатории искусственного интеллекта MIT опубликовали Speech2Face — модель, которая реконструирует лицо человека по записи его голоса. Нейросеть обучалась на миллионах видеозаписей с YouTube, на которых демонстрируется разговор человека. Задача заключалась в том, чтобы понять, может ли голос отражать внешние характеристики его обладателя. Исследователи не фокусировались на том, чтобы точно реконструировать портрет человека по голосу, а на том, чтобы восстановить основные внешние характеристики.
Архитектура модели
На вход модель принимает спектограмму аудиозаписи голоса. Спектограмма — визуальное представление аудиоволн. На выходе модель отдает вектор размером в 4096 с характеристиками лица, который затем декодируется в изображение лица. Декодирование из вектора с характеристиками в изображение лица происходит с помощью предобученной нейросети.Обучалась модель на датасете AVSpeech. Для этой цели исследователи использовали предобученную VGG-Face.Пайплайн обучения модели можно разделить на два шага:

1. Кодировщик голоса, который принимает на вход спектограмму и предсказывает вектор с характеристиками лица человека;

2. Декодировщик лица, который принимает на вход вектор с характеристиками лица человека и генерирует лицо человека в стандартном формате (анфас и безэмоциональное)

Нейросеть Speech2Face генерирует изображение лица человека по аудиозаписи голоса Нейронные сети, IT

Во время обучения декодировщик лица был зафиксирован и обучался только кодировщик голоса. Декодировщик лица исследователи взяли готовым из работы Cole et al.


Оценка работы модели

Нейросеть была протестирована с помощью качественных и количественных метрик. Во время экспериментов модель тестировалась на датасетах AVSpeech и VoxCeleb. Ниже можно, что чем длиннее входная аудиозапись (3 сек против 6 сек), тем выше количественная метрика и тем ближе сгенерированное изображение к истинному.

Нейросеть Speech2Face генерирует изображение лица человека по аудиозаписи голоса Нейронные сети, IT
0
Автор поста оценил этот комментарий
Я актёр озвучки. Параметры 180 на 54, выгляжу как типичный студент, зато звучу далеко не так. Вот будет забавно увидеть что составит эта штука.
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Кстати да, очень интересно будет что сгенерирует у Петра Гланца например,
ты как актёр озвучки должен быть знаком с его работами и понимать его уровень
его навыков. симуляции голосов. м/ж