1. Privacy-Preserving Speech Representation Learning using Vector Quantization
- Author
-
Champion, Pierre, Jouvet, Denis, Larcher, Anthony, Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique de l'Université du Mans (LIUM), Le Mans Université (UM), Ce travail a été réalisé avec le soutien de l'Agence nationale de la recherche française, dans le cadre du projet ANR DEEP-PRIVACY (18-CE23-0018) et de la Région Grand Est., and ANR-18-CE23-0018,DEEP-PRIVACY,Apprentissage distribué, personnalisé, préservant la privacité pour le traitement de la parole(2018)
- Subjects
FOS: Computer and information sciences ,Reconnaissance de parole Speech Anonymization ,Sound (cs.SD) ,Computer Science - Computation and Language ,Computer Science - Cryptography and Security ,Computer Science - Artificial Intelligence ,Speaker Recognition ,Reconnaissance du locuteur ,Computer Science - Sound ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Speech Recognition ,Artificial Intelligence (cs.AI) ,Audio and Speech Processing (eess.AS) ,Assistants vocaux ,Anonymisation de la parole ,FOS: Electrical engineering, electronic engineering, information engineering ,Voice Assistants ,Computation and Language (cs.CL) ,Cryptography and Security (cs.CR) ,Electrical Engineering and Systems Science - Audio and Speech Processing - Abstract
With the popularity of virtual assistants (e.g., Siri, Alexa), the use of speech recognition is now becoming more and more widespread.However, speech signals contain a lot of sensitive information, such as the speaker's identity, which raises privacy concerns.The presented experiments show that the representations extracted by the deep layers of speech recognition networks contain speaker information.This paper aims to produce an anonymous representation while preserving speech recognition performance.To this end, we propose to use vector quantization to constrain the representation space and induce the network to suppress the speaker identity.The choice of the quantization dictionary size allows to configure the trade-off between utility (speech recognition) and privacy (speaker identity concealment)., Journ{\'e}es d'{\'E}tudes sur la Parole - JEP2022, Jun 2022, {\^I}le de Noirmoutier, France
- Published
- 2022