Sanchez-Riera, Jordi, team, Perception, Interpretation and Modelling of Images and Videos (PERCEPTION), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Jean Kuntzmann (LJK), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), Université de Grenoble, and Radu Horaud(radu.horaud@inria.fr)
Humanoid robots are becoming more and more important in our daily lives due the high potential they have to help persons in different situations. To be able to aid, a human-robot interaction is essential and to this end, it is important to use as well as possible, the external information collected by the different sensors of the robot. Usually most relevant sensors for perception are cameras and micro- phones, which provide very rich information about the world. In this thesis, we plan to develop applications towards human-robot interaction and to achieve a more natural communication when interacting with the robot. Taking advantage of the information provided by the cameras and microphones of NAO humanoid robot, we present new algorithms and applications using these sensors. With the visual information we introduce two different stereo algorithms, that will serve as a basis to design other applications. The first stereo algorithm is designed to avoid problems with textureless regions using information from images in dif- ferent temporal instances. The second stereo algorithm, sceneflow, is designed to provide a more complete understanding of a scene, adding optical flow infor- mation in the computation of disparity. Indeed, position and velocity vector is available for each pixel. This provides a basis to start developing more high-level applications to a certain extent of interaction. Using the sceneflow algorithm, a descriptor is designed for action recognition. As a result, action recognition ben- efits from richer information in opposition to traditional monocular approaches, giving robustness to background clutter and disambiguating depth actions like 'punch'. To complement and improve the performance in action recognition, au- ditory information is added. It is well known that auditory data is complementary to the visual data and can be helpful in situations where objects are occluded or simply are not there. Finally, a last application developed towards a better human-robot interaction is a speaker detector. This can be used, for example, to center camera images to the speaking person (person of interest) and collect more reliable information. Here data from video and audio is also used, but the principle is completely different: from the visual and auditory features used to the way that these features are combined., Les robots humanoïdes sont de plus en plus important dans nos vies quotidiennes en raison du fort potentiel qu'ils ont pour aider les personnes. Pour être en mesure d'aider, il est nécessaire que le robot peut communiquer avec les humains, et pour cela, il est l'information importante du monde collectées par les capteurs intégrés au robot. Dans notre cas particulier, le rellevant la plupart sont des cam ́eras et des micros, qui peuvent fournir une description assez complète de l'environnement du robot. Dans cette th'ese, nous avons l'intention d'utiliser les informations fournies par les caméras et les micros de robot humano ̈ıde Nao de d ́evelopper des applications qui permettent une interaction homme-robot. Avec l'information visuelle deux algorithmes diff ́erents st ́er ́eo, qui serviront de base pour concevoir d'autres applications, sont pr ́esent ́es. La premi'ere utilise des in- formations provenant framse temporelle diff ́erente de surmonter certains prob- lmes avec les r ́egions sans texture, tandis que la deuxi'eme chaˆıne hi-fi et le flux optique sont recherch ́ees en mˆeme temps afin d'avoir plus d'informations sur la sc'ene. Dans les vecteurs de b ́eton, de position et de vitesse pour chaque pixel. Est le dernier algorithme que le descripteur est con ̧cu pour la reconnaissance d'actions avec des donn ́ees st ́er ́eo. Le but de cela est de tirer parti de l'information suppl ́ementaire qui peut fournir l'st ́er ́eo comme en face de traditionnels algo- rithmes monoculaires qui existent 'a ce jour. Pour compl ́eter et am ́eliorer le taux de reconnaissance moyen de la reconnaissance d'actions, l'information auditive est ́egalement utilis ́e. Il est bien connu que les donn ́ees provenant visuelle et capteurs auditifs est compl ́ementaire et peut aider dans des situations ou' des objets sont cach ́e ou ne sont tout simplement pas l'a. Enfin, une derni'ere application vers une meilleure interaction entre l'humain et le robot est un d ́etecteur de haut-parleur. en ce cas, les donn ́ees des deux modalit ́es est ́egalement utilis ́e, mais il en diff'ere sur la mani'ere dont les informations sont combin ́ees, ainsi que les informations extraites de capteurs visuels et auditifs. Presque la totalit ́e des applications sont mises en œuvre et ex ́ecuter en robot humano ̈ıde NAO.