Start Over

Wav2Pix: speech-conditioned face generation using generative adversarial networks

Authors :: Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions
Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla
Universitat Politècnica de Catalunya. CAP - Grup de Computació d'Altes Prestacions
Universitat Politècnica de Catalunya. GPI - Grup de Processament d'Imatge i Vídeo
Cardoso Duarte, Amanda
Roldan, Francisco
Tubau, Miquel
Escur, Janna
Pascual de la Puente, Santiago
Salvador Aguilera, Amaia
Mohedano, Eva
McGuinness, Kevin
Torres Viñals, Jordi
Giró Nieto, Xavier
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions
Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla
Universitat Politècnica de Catalunya. CAP - Grup de Computació d'Altes Prestacions
Universitat Politècnica de Catalunya. GPI - Grup de Processament d'Imatge i Vídeo
Cardoso Duarte, Amanda
Roldan, Francisco
Tubau, Miquel
Escur, Janna
Pascual de la Puente, Santiago
Salvador Aguilera, Amaia
Mohedano, Eva
McGuinness, Kevin
Torres Viñals, Jordi
Giró Nieto, Xavier
Publication Year :: 2019
Abstract: Speech is a rich biometric signal that contains information about the identity, gender and emotional state of the speaker. In this work, we explore its potential to generate face images of a speaker by conditioning a Generative Adversarial Network (GAN) with raw speech input. We propose a deep neural network that is trained from scratch in an end-to-end fashion, generating a face directly from the raw speech waveform without any additional identity information (e.g reference image or one-hot encoding). Our model is trained in a self-supervised approach by exploiting the audio and visual signals naturally aligned in videos. With the purpose of training from video data, we present a novel dataset collected for this work, with high-quality videos of youtubers with notable expressiveness in both the speech and visual signals.<br />Peer Reviewed<br />Postprint (published version)

Details

Database :: OAIster
Notes :: 5 p., application/pdf, English
Publication Type :: Electronic Resource
Accession number :: edsoai.on1120754744
Document Type :: Electronic Resource

Tools

Email
Cite

Printer

Authors Abstract Subjects Details

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Wav2Pix: speech-conditioned face generation using generative adversarial networks

Abstract

Details

Tools

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Wav2Pix: speech-conditioned face generation using generative adversarial networks

Abstract

Details

Tools

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources