1. Learning a Riemannian manifold for the analysis-synthesis of nonstationary sounds
- Author
-
Han, Han, Lostanlen, Vincent, Lagrange, Mathieu, Laboratoire des Sciences du Numérique de Nantes (LS2N), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-École Centrale de Nantes (Nantes Univ - ECN), Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST), Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ), Signal, IMage et Son (LS2N - équipe SIMS ), and Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
- Subjects
[SPI.ACOU]Engineering Sciences [physics]/Acoustics [physics.class-ph] ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[INFO.INFO-SD]Computer Science [cs]/Sound [cs.SD] - Abstract
International audience; Computer sound matching poses an inverse problem, namely, the identification of resynthesis parameters. Borrowing from the differentiable digital signal processing (DDSP) framework, we propose to automate its resolution by training a deep neural network. In this context, we aim to reach a compromise between the computational efficiency of parametric loss (P-loss) versus the psychoacoustical fidelity of spectral loss. Our approach, named ``perceptual--neural--physical'' (PNP), estimates the Riemannian metric which is associated to the composition between parametric synthesis and time--frequency scattering. By doing so, we locally linearize spectral loss and accelerate convergence. Furthermore, resorting to Tikhonov regularization improves the conditioning of the inverse problem. On an analysis--synthesis task for musical arpeggios, PNP training outperforms state-of-the-art methods P-loss (wav2shape) and STFT-based DDSP, as measured in terms of JTFS-based similarity between reference signal and reconstructed signal.; La transformation de sons par ordinateur pose un problème inverse d'identification des paramètres de resynthèse adéquats. Empruntant au formalisme du traitement du signal différentiable (DDSP), nous proposons d'automatiser sa résolution par entrainement d'un réseau de neurones profond. Dans ce contexte, nous visons un compromis entre l'efficacité computationnelle de la perte paramétrique et la fidélité psychoacoustique de la perte spectrale. Notre approche, baptisée perceptuelle-neuronalephysique (PNP), consiste à estimer la métrique riemannienne associée à la composition entre synthèse paramétrique et diffusion temps-fréquence (JTFS). Ce faisant, nous linéarisons localement la perte spectrale et accélérons la convergence. De plus, le recours à une régularisation de Tikhonov améliore le conditionnement du problème inverse. Par rapport à l'état de l'art (wav2shape et DDSP), et pour une tâche difficile d'analyse-synthèse d'arpège musical, l'entrainement via PNP rapproche le signal reconstruit du signal de référence, d'après une mesure de similarité de timbre fondée sur la JTFS.
- Published
- 2023