Back to Search Start Over

Wav2Pix: speech-conditioned face generation using generative adversarial networks

Authors :
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions
Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla
Universitat Politècnica de Catalunya. CAP - Grup de Computació d'Altes Prestacions
Universitat Politècnica de Catalunya. GPI - Grup de Processament d'Imatge i Vídeo
Cardoso Duarte, Amanda
Roldan, Francisco
Tubau, Miquel
Escur, Janna
Pascual de la Puente, Santiago
Salvador Aguilera, Amaia
Mohedano, Eva
McGuinness, Kevin
Torres Viñals, Jordi
Giró Nieto, Xavier
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions
Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla
Universitat Politècnica de Catalunya. CAP - Grup de Computació d'Altes Prestacions
Universitat Politècnica de Catalunya. GPI - Grup de Processament d'Imatge i Vídeo
Cardoso Duarte, Amanda
Roldan, Francisco
Tubau, Miquel
Escur, Janna
Pascual de la Puente, Santiago
Salvador Aguilera, Amaia
Mohedano, Eva
McGuinness, Kevin
Torres Viñals, Jordi
Giró Nieto, Xavier
Publication Year :
2019

Abstract

Speech is a rich biometric signal that contains information about the identity, gender and emotional state of the speaker. In this work, we explore its potential to generate face images of a speaker by conditioning a Generative Adversarial Network (GAN) with raw speech input. We propose a deep neural network that is trained from scratch in an end-to-end fashion, generating a face directly from the raw speech waveform without any additional identity information (e.g reference image or one-hot encoding). Our model is trained in a self-supervised approach by exploiting the audio and visual signals naturally aligned in videos. With the purpose of training from video data, we present a novel dataset collected for this work, with high-quality videos of youtubers with notable expressiveness in both the speech and visual signals.<br />Peer Reviewed<br />Postprint (published version)

Details

Database :
OAIster
Notes :
5 p., application/pdf, English
Publication Type :
Electronic Resource
Accession number :
edsoai.on1120754744
Document Type :
Electronic Resource