Back to Search Start Over

Multimodal understanding for person recognition in video broadcasts

Authors :
Frédéric Béchet
Pierre Tirilly
Corinne Fredouille
Benjamin Bigot
Mickael Rouvier
Gregory Senay
Meriem Bendris
Benoit Favre
Rémi Auguste
Georges Linarès
Géraldine Damnati
Richard Dufour
Delphine Charlet
Jean Martinet
Laboratoire d'informatique Fondamentale de Marseille - UMR 6166 (LIF)
Université de la Méditerranée - Aix-Marseille 2-Université de Provence - Aix-Marseille 1-Centre National de la Recherche Scientifique (CNRS)
Laboratoire d'informatique Fondamentale de Marseille (LIF)
Aix Marseille Université (AMU)-École Centrale de Marseille (ECM)-Centre National de la Recherche Scientifique (CNRS)
France Télécom Recherche & Développement (FT R&D)
France Télécom
France Télécom Recherche et Développement [Lannion] (FTR&D)
Traitement Automatique du Langage Ecrit et Parlé (TALEP)
Laboratoire d'Informatique et Systèmes (LIS)
Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)
Laboratoire Informatique d'Avignon (LIA)
Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI
FOX MIIRE (LIFL)
Laboratoire d'Informatique Fondamentale de Lille (LIFL)
Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)
Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL)
Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)
Centre National de la Recherche Scientifique (CNRS)-École Centrale de Marseille (ECM)-Aix Marseille Université (AMU)
Centre d'Enseignement et de Recherche en Informatique - CERI-Avignon Université (AU)
Source :
Interspeech, Singapore, Interspeech, Singapore, 2014, Unknown, Unknown Region, HAL, INTERSPEECH
Publication Year :
2014
Publisher :
HAL CCSD, 2014.

Abstract

This paper describes a multi-modal person recognition system for video broadcast developed for participating in the DefiRepere challenge. The main track of this challenge targets the identification of all persons occurring in a video either in the audio modality (speakers) or the image modality (faces). This system is developed by the PERCOL team involving 4 research labs in France and was ranked first at the 2014 Defi-Repere challenge. The main scientific issue addressed by this challenge is the combination of audio and video information extraction processes for improving the extraction performance in both modalities. In this paper, we present the strategy followed by the PERCOL team for speaker identification based on enriching the speaker diarization with features related to the ”understanding” of the video scenes: text overlay transcription and analysis, automatic situation identification (TV set, report), the amount of people visible, TV set disposition and even the camera when available. Experiments on the REPERE corpus show interesting results on the speaker identification system enriched by the scene understanding features and the usefulness of the speaker to identify faces.

Details

Language :
English
Database :
OpenAIRE
Journal :
Interspeech, Singapore, Interspeech, Singapore, 2014, Unknown, Unknown Region, HAL, INTERSPEECH
Accession number :
edsair.doi.dedup.....2a54b2ef8c1077c6c3531b06f49f476f