Descriptor: "Apprentissage non supervisé" - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Apprentissage non supervisé"' showing total 100 results

Start Over Descriptor "Apprentissage non supervisé"

100 results on '"Apprentissage non supervisé"'

1. Détection d'anomalies à travers la journalisation d'applications

Author: Tardif, Pierre Martin, Létourneau, Louis-Simon, Frappier, Marc, Tardif, Pierre Martin, Létourneau, Louis-Simon, and Frappier, Marc
Abstract: Le présent mémoire regroupe deux articles scientifiques reposant sur la détection d'anomalies dans des journalisations d'applications. Plus particulièrement, ce travail est fait sur la journalisation Microsoft 365, qui regroupe la suite Office, Azure, Outlook, CRM et d'autres applications Microsoft en ligne. Ces applications peuvent être des vecteurs attaques (ex: campagnes d'hameçonnage, détournement bancaire, etc.) pour les compagnies qui les utilisent. La surveillance à l'aide de leur journalisation reste primordiale pour atténuer les attaques produites par le biais de ces applications. Les besoins de l'industrie TI pointent vers des solutions axées sur les statistiques et l'apprentissage machine. Le premier article porte sur l'utilisation d'une technique statistique non paramétrique pour estimer une densité de probabilité: l'estimation de densité par noyau (KDE). On se sert ensuite de cette estimation pour définir les moments d'une journée où il est probable qu'un événement survienne et les moments improbables. Les contributions principales sont l'implémentation d'un KDE adapté aux données circulaires et une méthode de détection d'anomalies basée sur ce KDE. L'article conclut, à l'aide de validation par des experts, qu'il est possible de détecter des anomalies pertinentes. Celles-ci restent à être investiguer dans le cadre du travail d'analyste TI. Le deuxième article compare la technique du KDE à trois autres techniques non supervisées connues pour la détection d'anomalies: k-moyennes (K-means), k-plus proches voisins (KNN) et le facteur d'anomalie local (LOF). La contribution principale de cet article est cette comparaison entre ces quatre techniques. L'article conclut qu'il existe des intersections entre les anomalies détectées par chaque technique, mais aussi qu'il existe des anomalies détectées uniquement par chacune des techniques.
Published: 2024

2. Détection de motifs rares de plissement cortical par une approche de deep learning non supervisée

Author: Guillon, Louise, Building large instruments for neuroimaging: from population imaging to ultra-high magnetic fields (BAOBAB), Service NEUROSPIN (NEUROSPIN), Université Paris-Saclay-Direction de Recherche Fondamentale (CEA) (DRF (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Direction de Recherche Fondamentale (CEA) (DRF (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Jean-François Mangin, and Denis Rivière
Subjects: Apprentissage non supervisé, [INFO.INFO-IM]Computer Science [cs]/Medical Imaging, Cortical folding, Plissement cortical, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], [SDV.NEU]Life Sciences [q-bio]/Neurons and Cognition [q-bio.NC], Unsupervised deep learning, Anomaly detection, Détection d'anomalies
Abstract: One of the visual characteristics of the brain is its folded appearance. It is composed of convolutions called gyri, which are delimited by furrows called sulci. Like fingerprints, the patterns of cortical folding, i.e. the arrangement, characteristics and shape of the sulci, are unique to each individual, although they do fit into a general organization in each species.Some patterns have been correlated with cognitive functions such as inhibitory control in the cingulate region. In addition, rare patterns have been linked with neurodevelopmental disorders such as the "Power Button Sign" which is associated with a certain type of epilepsy. Advances in deep and especially unsupervised learning provide a real opportunity to analyze cortical folding patterns, addressing the challenge of dealing with large databases and high inter-individual variability.The aim of this thesis is to develop a method to identify rare or abnormal patterns. From brain MRI, skeletons and distance maps corresponding to a negative cast of the brain are generated. They allow the deep network to focus on the folding morphology. Inter-individual variability is modeled by a beta-VAE trained only on control subjects from the HCP cohort. From this normal representation, typical patterns of the healthy population can be identified. This first study is done in the cingulate region. More specifically, clustering is applied to the latent space. Representative patterns of each of the clusters are generated and allow us to characterize the different typical patterns. Patterns described in the literature were found, which suggests that the approach is relevant. Once characteristic patterns have been identified, rare patterns can be analyzed. In this case, the network is applied in the central sulcus area to cohorts with healthy subjects and subjects with rare patterns or to synthetic data with anomalies. The latter allows for a better qualification of the identified deviations. The identification of rare patterns is done in the latent space and on the basis of the reconstruction error. To evaluate the generalization, this approach is applied to two other regions with abnormal patterns. The results showed that both the latent space and the reconstruction errors provided complementary information and were more suitable for certain types of deviations. The generative power of the beta-VAE allows a better understanding of the properties encoded in the latent space. The visualization of reconstruction errors helps to localize the identified atypical features. Finally, the application of the method to the two other cohorts indicates a good generalization, despite a slight site effect. These promising results need to be replicated with more control subjects and subjects with rare patterns in order to be confirmed. The approach we propose could thus constitute a first step towards the identification of biomarkers and towards a systematic model at the brain scale. Finally, the proposed approach would benefit from the integration of other modalities such as cytoarchitecture or connectivity.; Une des caractéristiques visuelles du cerveau est son aspect plissé. Il est en effet constitué de circonvolutions appelées gyri, qui sont délimitées par des sillons appelés sulci. À l'instar des empreintes digitales, les motifs du plissement cortical, c'est-à-dire l'arrangement, les caractéristiques et la forme des sillons sont propres à chaque individu, même s'ils s'inscrivent dans un schéma général propre à chaque espèce. Certains motifs ont été corrélés à des fonctions cognitives comme le contrôle inhibiteur dans la région cingulaire. De plus, des motifs rares ont été corrélés à des troubles neuro-développementaux comme le « Power Button Sign » qui est associé à un certain type d'épilepsie. Les avancées de l'apprentissage profond et en particulier non supervisé constituent une réelle opportunité pour analyser les motifs du plissement cortical, répondant au défi des grandes bases de données et de la variabilité inter-individuelle. Ce travail de thèse a pour but de développer une méthode permettant d'identifier des motifs rares ou anormaux. À partir d'IRM cérébrales, des squelettes et des cartes de distances correspondant à un moule en négatif du cerveau sont générés. Ils permettent de se concentrer sur la morphologie du plissement. La variabilité inter-individuelle est modélisée par un beta-VAE entraîné uniquement sur des sujets témoins de la cohorte HCP. À partir de cette représentation, des motifs caractéristiques de la population saine peuvent être identifiés. La première étude est faite dans la région cingulaire. Plus spécifiquement un clustering est appliqué sur l'espace latent. Des motifs représentatifs de chacun des clusters sont générés et permettent de caractériser les différents motifs caractéristiques. Des motifs décrits dans la littérature ont été retrouvés ce qui suggère que l'approche est pertinente. Une fois des motifs caractéristiques identifiés, les motifs plus rares peuvent être analysés. Dans ce cas, le réseau est appliqué dans la région du sillon central à des cohortes comportant des sujets sains et des sujets avec des motifs rares ou à des données synthétiques présentant des anomalies. Ces dernières permettent de mieux qualifier les déviations identifiées. L'identification de motifs rares se fait dans l'espace latent ou sur la base de l'erreur de reconstruction. Pour évaluer la généralisation, cette approche est appliquée à deux autres régions comportant des motifs anormaux. Les résultats ont montré que l'espace latent et les erreurs de reconstruction apportent des informations complémentaires, adaptées à divers types de déviations. Le pouvoir génératif du beta-VAE permet de mieux comprendre les propriétés encodées dans l'espace latent. La visualisation des erreurs de reconstructions aide à localiser les caractéristiques atypiques identifiées. Enfin, l'application de la méthode aux deux autres cohortes indique une bonne généralisation, malgré un léger effet site. Ces résultats prometteurs demandent à être répliqués avec davantage de sujets contrôles et de sujets présentant des motifs rares afin d'être confirmés. L'approche que nous proposons pourrait ainsi constituer une première étape vers l'identification de biomarqueurs et vers un modèle systématique à l'échelle du cerveau. Enfin, l'intégration d'autres modalités comme la cytoarchitectonie ou la connectivité enrichirait l'approche proposée.
Published: 2023

3. On discovering and learning structure under limited supervision

Author: Mudumba, Sai Rajeswar and Courville, Aaron
Subjects: Perception de scènes 3D, Apprentissage des représentations, Intrinsic control, Apprentissage non supervisé, Generative modeling, Weakly labeled data, Unsupervised Learning, 3D scene understanding, Contrôle intrinsèque, Modélisation générative, Modèles du monde, Données faiblement supervisées, Representation learning
Abstract: Les formes, les surfaces, les événements et les objets (vivants et non vivants) constituent le monde. L'intelligence des agents naturels, tels que les humains, va au-delà de la simple reconnaissance de formes. Nous excellons à construire des représentations et à distiller des connaissances pour comprendre et déduire la structure du monde. Spécifiquement, le développement de telles capacités de raisonnement peut se produire même avec une supervision limitée. D'autre part, malgré son développement phénoménal, les succès majeurs de l'apprentissage automatique, en particulier des modèles d'apprentissage profond, se situent principalement dans les tâches qui ont accès à de grands ensembles de données annotées. Dans cette thèse, nous proposons de nouvelles solutions pour aider à combler cette lacune en permettant aux modèles d'apprentissage automatique d'apprendre la structure et de permettre un raisonnement efficace en présence de tâches faiblement supervisés. Le thème récurrent de la thèse tente de s'articuler autour de la question « Comment un système perceptif peut-il apprendre à organiser des informations sensorielles en connaissances utiles sous une supervision limitée ? » Et il aborde les thèmes de la géométrie, de la composition et des associations dans quatre articles distincts avec des applications à la vision par ordinateur (CV) et à l'apprentissage par renforcement (RL). Notre première contribution ---Pix2Shape---présente une approche basée sur l'analyse par synthèse pour la perception. Pix2Shape exploite des modèles génératifs probabilistes pour apprendre des représentations 3D à partir d'images 2D uniques. Le formalisme qui en résulte nous offre une nouvelle façon de distiller l'information d'une scène ainsi qu'une représentation puissantes des images. Nous y parvenons en augmentant l'apprentissage profond non supervisé avec des biais inductifs basés sur la physique pour décomposer la structure causale des images en géométrie, orientation, pose, réflectance et éclairage. Notre deuxième contribution ---MILe--- aborde les problèmes d'ambiguïté dans les ensembles de données à label unique tels que ImageNet. Il est souvent inapproprié de décrire une image avec un seul label lorsqu'il est composé de plus d'un objet proéminent. Nous montrons que l'intégration d'idées issues de la littérature linguistique cognitive et l'imposition de biais inductifs appropriés aident à distiller de multiples descriptions possibles à l'aide d'ensembles de données aussi faiblement étiquetés. Ensuite, nous passons au paradigme d'apprentissage par renforcement, et considérons un agent interagissant avec son environnement sans signal de récompense. Notre troisième contribution ---HaC--- est une approche non supervisée basée sur la curiosité pour apprendre les associations entre les modalités visuelles et tactiles. Cela aide l'agent à explorer l'environnement de manière autonome et à utiliser davantage ses connaissances pour s'adapter aux tâches en aval. La supervision dense des récompenses n'est pas toujours disponible (ou n'est pas facile à concevoir), dans de tels cas, une exploration efficace est utile pour générer un comportement significatif de manière auto-supervisée. Pour notre contribution finale, nous abordons l'information limitée contenue dans les représentations obtenues par des agents RL non supervisés. Ceci peut avoir un effet néfaste sur la performance des agents lorsque leur perception est basée sur des images de haute dimension. Notre approche a base de modèles combine l'exploration et la planification sans récompense pour affiner efficacement les modèles pré-formés non supervisés, obtenant des résultats comparables à un agent entraîné spécifiquement sur ces tâches. Il s'agit d'une étape vers la création d'agents capables de généraliser rapidement à plusieurs tâches en utilisant uniquement des images comme perception., Shapes, surfaces, events, and objects (living and non-living) constitute the world. The intelligence of natural agents, such as humans is beyond pattern recognition. We excel at building representations and distilling knowledge to understand and infer the structure of the world. Critically, the development of such reasoning capabilities can occur even with limited supervision. On the other hand, despite its phenomenal development, the major successes of machine learning, in particular, deep learning models are primarily in tasks that have access to large annotated datasets. In this dissertation, we propose novel solutions to help address this gap by enabling machine learning models to learn the structure and enable effective reasoning in the presence of weakly supervised settings. The recurring theme of the thesis tries to revolve around the question of "How can a perceptual system learn to organize sensory information into useful knowledge under limited supervision?" And it discusses the themes of geometry, compositions, and associations in four separate articles with applications to computer vision (CV) and reinforcement learning (RL). Our first contribution ---Pix2Shape---presents an analysis-by-synthesis based approach(also referred to as inverse graphics) for perception. Pix2Shape leverages probabilistic generative models to learn 3D-aware representations from single 2D images. The resulting formalism allows us to perform a novel view synthesis of a scene and produce powerful representations of images. We achieve this by augmenting unsupervised learning with physically based inductive biases to decompose a scene structure into geometry, pose, reflectance and lighting. Our Second contribution ---MILe--- addresses the ambiguity issues in single-labeled datasets such as ImageNet. It is often inappropriate to describe an image with a single label when it is composed of more than one prominent object. We show that integrating ideas from Cognitive linguistic literature and imposing appropriate inductive biases helps in distilling multiple possible descriptions using such weakly labeled datasets. Next, moving into the RL setting, we consider an agent interacting with its environment without a reward signal. Our third Contribution ---HaC--- is a curiosity based unsupervised approach to learning associations between visual and tactile modalities. This aids the agent to explore the environment in an analogous self-guided fashion and further use this knowledge to adapt to downstream tasks. In the absence of reward supervision, intrinsic movitivation is useful to generate meaningful behavior in a self-supervised manner. In our final contribution, we address the representation learning bottleneck in unsupervised RL agents that has detrimental effect on the performance on high-dimensional pixel based inputs. Our model-based approach combines reward-free exploration and planning to efficiently fine-tune unsupervised pre-trained models, achieving comparable results to task-specific baselines. This is a step towards building agents that can generalize quickly on more than a single task using image inputs alone.
Published: 2022

4. Machine learning for cognitive speech coding

Author: Lefebvre, Roch, Gournay, Philippe, Lotfidereshgi, Reza, Lefebvre, Roch, Gournay, Philippe, and Lotfidereshgi, Reza
Abstract: Depuis les années 80, les codecs vocaux reposent sur des stratégies de codage à court terme qui fonctionnent au niveau de la sous-trame ou de la trame (généralement 5 à 20 ms). Les chercheurs ont essentiellement ajusté et combiné un nombre limité de technologies disponibles (transformation, prédiction linéaire, quantification) et de stratégies (suivi de forme d'onde, mise en forme du bruit) pour construire des architectures de codage de plus en plus complexes. Dans cette thèse, plutôt que de s'appuyer sur des stratégies de codage à court terme, nous développons un cadre alternatif pour la compression de la parole en codant les attributs de la parole qui sont des caractéristiques perceptuellement importantes des signaux vocaux. Afin d'atteindre cet objectif, nous résolvons trois problèmes de complexité croissante, à savoir la classification, la prédiction et l'apprentissage des représentations. La classification est un élément courant dans les conceptions de codecs modernes. Dans un premier temps, nous concevons un classifieur pour identifier les émotions, qui sont parmi les attributs à long terme les plus complexes de la parole. Dans une deuxième étape, nous concevons un prédicteur d'échantillon de parole, qui est un autre élément commun dans les conceptions de codecs modernes, pour mettre en évidence les avantages du traitement du signal de parole à long terme et non linéaire. Ensuite, nous explorons les variables latentes, un espace de représentations de la parole, pour coder les attributs de la parole à court et à long terme. Enfin, nous proposons un réseau décodeur pour synthétiser les signaux de parole à partir de ces représentations, ce qui constitue notre dernière étape vers la construction d'une méthode complète de compression de la parole basée sur l'apprentissage automatique de bout en bout. Bien que chaque étape de développement proposée dans cette thèse puisse faire partie d'un codec à elle seule, chaque étape fournit également des informations et une ba, Since the 80s, speech codecs have relied on short-term coding strategies that operate at the subframe or frame level (typically 5 to 20ms). Researchers essentially adjusted and combined a limited number of available technologies (transform, linear prediction, quantization) and strategies (waveform matching, noise shaping) to build increasingly complex coding architectures. In this thesis, rather than relying on short-term coding strategies, we develop an alternative framework for speech compression by encoding speech attributes that are perceptually important characteristics of speech signals. In order to achieve this objective, we solve three problems of increasing complexity, namely classification, prediction and representation learning. Classification is a common element in modern codec designs. In a first step, we design a classifier to identify emotions, which are among the most complex long-term speech attributes. In a second step, we design a speech sample predictor, which is another common element in modern codec designs, to highlight the benefits of long-term and non-linear speech signal processing. Then, we explore latent variables, a space of speech representations, to encode both short-term and long-term speech attributes. Lastly, we propose a decoder network to synthesize speech signals from these representations, which constitutes our final step towards building a complete, end-to-end machine-learning based speech compression method. The first two steps, classification and prediction, provide new tools that could replace and improve elements of existing codecs. In the first step, we use a combination of source-filter model and liquid state machine (LSM), to demonstrate that features related to emotions can be easily extracted and classified using a simple classifier. In the second step, a single end-to-end network using long short-term memory (LSTM) is shown to produce speech frames with high subjective quality for packet loss concealment (PL
Published: 2022

5. Apprentissage statistique de collections de réseaux avec applications en écologie et en sociologie

Author: Chabert-Liddell, Saint-Clair, Chabert-Liddell, Saint-Clair, and STAR, ABES
Subjects: Modèles à variables latentes, [STAT.ME] Statistics [stat]/Methodology [stat.ME], Interaction networks, [SHS.SOCIO] Humanities and Social Sciences/Sociology, Multilayer networks, Apprentissage non supervisé, Stochastic block model, Graphes aléatoires, Modèle à blocs stochastiques, Unsupervised learning, Réseaux d'interaction, [SDE.BE] Environmental Sciences/Biodiversity and Ecology, [STAT.AP] Statistics [stat]/Applications [stat.AP], Latent space models, Réseaux multicouches, Aprentissage non supervisé, [MATH.MATH-ST] Mathematics [math]/Statistics [math.ST], Random graphs, Modéle à blocs stochastiques
Abstract: This thesis deals with the development of statistical methods for the analysis of collections of interaction networks through three original contributions. Interaction networks are a natural way to represent in graph form the exchanges or relationships existing between a set of nodes representing species or individuals. Considering collections of networks allows to study heterogeneous systems, composed of several kinds of interactions involving different types of nodes. When the different networks of the collection are linked by a hierarchical relationship, we speak of multilevel networks. The stochastic block model has proven its relevance to model the heterogeneity of the behavior of nodes in a single network. Extensions to collections of networks and to multilevel networks are proposed. They allow to obtain a clustering of the nodes of the networks according to their role in the ecosystem or social system, and to summarize the structure of the system at the mesoscopic scale through a small number of parameters. The inference of these models is complex and variational methods are adapted for this purpose. Model selection methods are also used to determine the dependence between levels for multilevel networks and the similarity between structures for collections of networks.A last part of this thesis proposes a new method to study the robustness of ecological interaction networks. Each network is modeled by a probabilistic model whose parameters represent the network structure. This allows to make the link between the structure of the ecosystem and its robustness, but also to compare the robustness of a collection of networks and to correct the robustness of a network whose sampling would be incomplete.The developed methods are implemented in R packages and applied on data from social sciences and ecology., Cette thèse porte sur le développement de méthodes statistiques pour l'analyse de collections de réseaux d'interactions à travers trois contributions originales. Les réseaux d'interactions constituent une façon naturelle de représenter sous forme de graphe les échanges ou relations existant entre un ensemble de noeuds représentant des espèces ou des individus. Considérer des collections de réseaux permet d’étudier des systèmes hétérogènes, composés de plusieurs sortes d’interactions impliquant différents types de n{oe}uds. Lorsque les différents réseaux de la collection sont liés par une relation hiérarchique, nous parlerons de réseaux multiniveaux. Le modèle à blocs stochastiques a prouvé sa pertinence pour modéliser l’hétérogénéité du comportement des noeuds dans un unique réseau. Des extensions aux collections de réseaux et aux réseaux multiniveaux sont proposées. Elles permettent d'obtenir un clustering des noeuds des réseaux en fonction de leur rôle dans l’écosystème ou le système social, et de résumer la structure du système à l’échelle mésoscopique à travers un faible nombre de paramètres. L’inférence de ces modèles est complexe et des méthodes variationnelles sont adaptées à cette fin. Des méthodes de sélection de modèles permettent également de déterminer la dépendance entre les niveaux pour les réseaux multiniveaux et la similarité entre les structures pour les collections de réseaux.Une dernière partie de cette thèse propose une nouvelle méthode pour étudier la robustesse de réseaux d’interactions écologiques. Chaque réseau est modélisé par un modèle probabiliste dont les paramètres représentent la structure du réseau. Cela permet de faire le lien entre la structure de l’écosystème et sa robustesse, mais aussi de comparer les robustesses d’une collection de réseaux et de corriger la robustesse d’un réseau dont l'échantillonage serait incomplet.Les méthodes développées sont implémentées dans des packages R et appliquées sur des données issues des sciences sociales et de l’écologie.
Published: 2022

6. Apprentissage non supervisé pour données extrêmement volumineuses en situation de ressources informatiques arbitrairement limitées

Author: Antonazzo, Filippo, Antonazzo, Filippo, MOdel for Data Analysis and Learning (MODAL), Laboratoire Paul Painlevé (LPP), Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Evaluation des technologies de santé et des pratiques médicales - ULR 2694 (METRICS), Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-École polytechnique universitaire de Lille (Polytech Lille), Statistique mathématique et apprentissage (CELESTE), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de Mathématiques d'Orsay (LMO), Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université de Lille, Christophe Biernacki, Christine Keribin, and Laboratoire Paul Painlevé - UMR 8524 (LPP)
Subjects: Huge datasets, Guassian mixture models, Apprentissage non supervisé, [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], Données massives, Unsupervised learning, Clustering, Modèles de mélange de distributions, Modèles de mélanges gaussiens, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Algorithme EM, Mixture models, EM algorithm, [MATH.MATH-ST] Mathematics [math]/Statistics [math.ST], Partitionnement de données
Abstract: Clustering reveals all its interest when the data set size considerably increases, since there is the opportunity to discover tiny but possibly high value clusters, which can not be detected with moderate sample sizes. However, the clustering of such high data volumes encounters computational limitations, requiring extremely high memory and computational resources. Thus, current clustering algorithms need frugal implementations, also demanded by institutions and industries to accomplish today’s eco-friendly policies. In this context, Gaussian model-based clustering, a popular clustering technique based on Gaussian mixtures, has required frugal adaptations to overcome these computational limitations and to report, even in the huge data case, the same good performance achieved in moderate size analyses. Such implementations are essentially based on subsampling strategies, which manage to be frugal, but they are expected to heavily failed in highly imbalanced cluster case. Thus, in this work, we propose a frugal technique, based on a so-called bin-marginal data-compression, to perform Gaussian model-based clustering on huge and imbalanced data sets. After a preliminary analysis on simple univariate settings revealing the potential of our solution (here, based on univariate binned data), we extend our proposal to multivariate data sets, where bin-marginal data are employed to perform a drastic reduction of the data volume. Despite this extreme loss of information, we prove identifiability property for the diagonal mixture model and we also introduce a specific EM-like algorithm associated to a composite likelihood approach guaranteeing frugality. Numerical experiments highlight that the proposed method outperforms subsampling both in controlled simulations and in various real applications where imbalanced clusters may typically appear, such as image segmentation, hazardous asteroids recognition and fraud detection. Then, additional topics regarding model choice, the problem of local maxima and the impact of our data-compression on clustering are dealt with a pure experimental point of view. Finally, through a collaboration with a company specialized in predictive maintanance, a practical application of anomaly detection on real time series is shown, in order to extend the potential application domains of the proposal., Par nature, le clustering révèle tout son intérêt lorsque le volume des jeux de données augmente considérablement, parce qu’il y a ainsi l’opportunité de découvrir des classes potentiellement petites mais inconnues jusqu'alors puisque indétectables avec des tailles d'échantillons plus réduits. L'intérêt de telles classes peut être en outre inversement proportionnel à leur taille, signe de phénomènes atypiques mais à forte valeur comme des anomalies, des fraudes, etc. Toutefois, classifier de tels volumes de données peut facilement rencontrer des limitations informatiques fortes, demandant en effet potentiellement d'énormes quantités de mémoire vive et d'autres ressources informatiques substantielles (calcul, énergie, flux). Par conséquent, si l'on souhaite effectivement mettre en œuvre des algorithmes de classification sur de très grands jeux de données tout en limitant les ressources informatiques à mobiliser (pour des raisons de coût ou d'écologie), il est nécessaire d'envisager des approches beaucoup plus frugales que les approches actuelles, tout en garantissant des résultats d'estimation de haute qualité. La classification sur modèle de mélange gaussien étant certainement l'approche la plus populaire (ne serait-ce par son lien structurel avec les méthodes de k-means), ce travail de thèse explore prioritairement la frugalité du clustering dans ce cadre. Il est à noter que des stratégies fondées sur de l'échantillonnage, bien qu'ayant de bonnes propriétés de frugalité, doivent être écartées car elles s'avèrent incapables de détecter des partitions extrêmement déséquilibrées, ce qui est un prérequis essentiel dans notre contexte. Par conséquent, dans cette thèse, on adopte une stratégie frugale alternative qui repose sur une compression des données à la fois par axes et par intervalles (on parle alors de « bin-marginal »). Après une analyse préliminaire en situation simplifiée (univarié avec bins) qui révèle le potentiel de notre proposition, nous abordons le cas multivarié (combinant cette fois bins et marginalisation) qui sera le cœur de ce travail. Malgré la réduction extrême des données permise par le « bin-marginal », nous montrons que cette perte drastique d’information n'est pas préjudiciable à l'objectif de clustering par mélanges gaussiens dans le cas diagonal. Dans un premier temps, nous montrons l’identifiabilité de ces mélanges diagonaux et nous introduisons un algorithme spécifique similaire à EM mais associé à une approche basée sur une vraisemblance composite qui s'appuie sur une garantie de consistance des estimateurs. Des expériences numériques illustrent que notre méthode est beaucoup plus performante que le sous-échantillonnage soit dans des simulations, soit dans des applications réelles où les classes sont fortement déséquilibrées par nature, comme la segmentation d'images, la reconnaissance d'astéroïdes dangereux ou la détection de fraudes. Ensuite, des sujets supplémentaires concernant le choix de modèle, la problématique des maxima locaux et l’impact de notre compression sur le clustering sont traités avec un point de vue plus expérimental. Finalement, une application pratique de détection d’anomalies sur des séries temporelles (potentiellement très volumineuse), et réalisée dans le cadre d'un partenariat avec une petite entreprise spécialisée en maintenance prédictive, est menée pour évaluer la potentialité de notre approche dans un domaine d’application connexe.
Published: 2022

7. Apprentissage auto-supervisé de représentations visuelles avec des réseaux de neurones profonds

Author: Caron, Mathilde, Laboratoire Jean Kuntzmann (LJK), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), Apprentissage de modèles à partir de données massives (Thoth), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Jean Kuntzmann (LJK), Université Grenoble Alpes (UGA)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes [2020-....], and Julien Mairal
Subjects: Artificial intelligence, Vision par ordinateur, Apprentissage non supervisé, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], Computer vision, Intelligence artificielle, Unsupervised learning, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: Humans and many animals can see the world and understand it effortlessly which gives some hope that visual perception could be realized by computers and Artificial Intelligence. More importantly, living beings acquire such an understanding of the visual world autonomously, without the intervention of a superviser explicitly telling them what, where or who is to be seen. This suggests that visual perception can be achieved without too much explicit human supervision and simply by letting systems observe large amounts of visual inputs.In particular, this manuscript tackles the problem of self-supervised learning which consists in training deep neural network systems without using any human annotations. Typically, neural networks require large amounts of annotated data, which have limited their applications in fields where accessing these annotations is expensive or difficult. Moreover, manual annotations are biased towards a specific task and towards the annotator’s own biases, which can result in noisy and unreliable signals. Training systems without annotations could lead to better, more generic and robust representations. In this manuscript, we present different contributions to the fast-growing field of self-supervised visual representation learning.In particular, we will start by extending a promising category of self-supervised approaches, namely deep clustering, which trains deep networks while simultaneously mining groups of visually consistent images in a data collection. We then identify the limits of deep clustering methods such as their difficulty to scale to very large datasets or the fact that they are prone to trivial solutions. As a result, we propose improved self-supervised methods that outperform their supervised counterparts on several benchmarks and exhibit interesting properties. For example, the resulting self-supervised networks contain generic representations that transfer well to a different datasets and tasks. They also contain explicit information about the semantic segmentation of an image. Importantly, we also probe our self-supervised models in the wild, by training them on hundreds of millions of unlabeled images randomly selected from the Internet.; Les humains et de nombreux animaux peuvent voir le monde et le comprendre sans effort, ce qui laisse espérer que la perception visuelle pourrait être réalisée par les ordinateurs et l'intelligence artificielle. Plus important encore, les êtres vivants acquièrent une telle compréhension du monde visuel de manière autonome, sans l'intervention d'un superviseur externe leur disant explicitement quoi, où ou qui est à voir. Cela suggère que la perception visuelle peut être obtenue dans une certaine mesure sans supervision humaine explicite mais simplement en laissant les systèmes observer de grandes quantités de données visuelles.En particulier, ce manuscrit aborde le problème de l'apprentissage auto-supervisé qui consiste à entraîner des systèmes de réseaux de neurones profonds sans utiliser d'annotations humaines. En règle générale, les réseaux de neurones nécessitent de grandes quantités de données annotées, ce qui a limité leurs applications dans des domaines où l'accès à ces annotations est coûteux ou difficile. De plus, les annotations manuelles sont biaisées vers une tâche spécifique et vers les propres biais de l'annotateur, ce qui peut entraîner des signaux bruités et peu fiables. Entrainer des réseaux profonds sans annotations pourraient conduire à de meilleures représentations, plus génériques et plus robustes. Dans ce manuscrit, nous présentons différentes contributions au domaine en pleine croissance de l'apprentissage auto-supervisé de représentations visuelles.En particulier, nous commencerons par étendre une catégorie prometteuse d'approches auto-supervisées, à savoir le clustering profond, qui entraine des réseaux profonds tout en découvrant simultanément des groupes d'images visuellement cohérentes dans une base de données. Nous identifions ensuite les limites des méthodes de clustering profond telles que leur difficulté à s'adapter à de très grands ensembles de données ou le fait qu'elles sont sujettes à des solutions triviales. En conséquence, nous proposons des méthodes auto-supervisées améliorées qui surpassent leurs homologues supervisées sur plusieurs benchmarks et présentent des propriétés intéressantes. Par exemple, nos réseaux auto-supervisés ainsi obtenus contiennent des représentations génériques qui transfèrent bien vers différents ensembles de données et tâches. Ils contiennent également des informations explicites sur la segmentation sémantique d'une image. Surtout, nous évaluons également nos modèles auto-supervisés sur des données brutes en les entraînant sur des centaines de millions d'images non étiquetées sélectionnées aléatoirement sur Internet.
Published: 2021

8. Traitement d'images hyperspectrales basé sur des méthodes tensorielles

Author: Sun, Qiaoqiao, Institut FRESNEL (FRESNEL), Aix Marseille Université (AMU)-École Centrale de Marseille (ECM)-Centre National de la Recherche Scientifique (CNRS), Ecole Centrale Marseille, and Salah Bourennane
Subjects: Apprentissage profond, Hyperspectral image, Apprentissage non supervisé, Imagerie hyperspectrale, Deep learning, Unsupervised learning, [SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing
Abstract: This thesis is devoted to analyzing and processing hyperspectral images mainly with deep learning methods. To fully exploit the spectral-spatial information of hyperspectral data, convolutional neural network with parameter tuning is proposed for hyperspectral classification. Besides, to solve the problem of limited labeled samples in hyperspectral images, unsupervised feature extraction methods based on improved generative adversarial network and convolutional autoencoder are investigated. In addition, a multi-scale denoising autoencoder framework is designed for denoising and improvements of target detection. The results on simulated and real-world data demonstrate that the effectiveness of the proposed methods and their promising prospects in hyperspectral imaging applications.; Cette thèse est consacrée à l'analyse et au traitement d'images hyperspectrales principalement avec des modèles d'apprentissage en profondeur. Pour exploiter pleinement les informations spectrales et spatiales des données hyperspectrales, un réseau neuronal convolutif avec réglage des paramètres est proposé pour la classification hyperspectrale. En outre, pour résoudre le problème des échantillons étiquetés limités dans les images hyperspectrales, des méthodes d'extraction de caractéristiques non supervisées basées sur un réseau antagoniste génératif amélioré et un autoencodeur convolutif sont étudiées. De plus, un cadre d'autoencodeur de débruitage multi-échelle est conçu pour le débruitage et l'amélioration de la détection de cibles. Les résultats sur des données simulées et réelles montrent l'efficacité des méthodes proposées et leurs perspectives prometteuses pour les applications en imagerie hyperspectrale.
Published: 2021

9. Localisation de mouvements saillants dans des cartes de flot optique par l'interprétation d'un réseau de classification

Author: Meunier, Etienne, Bouthemy, Patrick, Space-timE RePresentation, Imaging and cellular dynamics of molecular COmplexes (SERPICO), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), and Centre National de la Recherche Scientifique [CNRS]
Subjects: cartes d'attention, Saillance de mouvement, Apprentissage non supervisé, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], [INFO]Computer Science [cs], CNN
Abstract: International audience; Cet article s’intéresse à la localisation des mouvements saillants dans les images successives d’une séquence vidéo. Un mouvement saillant est un mouvement se démarquant de son contexte environnant. Notre méthode s’appuie sur l’interprétation, pour chaque instant de la séquence, d’un réseau convolutionnel de classification dont l’entrée est constituée du flot optique. Cette classification porte sur la présence ou non de mouvements saillants dans l’image. En combinant la carte d’interprétation déduite du réseau et une segmentation du flot optique, nous pouvons détourer précisément les mouvements saillants dans l’image et estimer leur degré de saillance. Un atout important de notre méthode est qu’elle ne nécessite pas de cartes de segmentation annotées pour l’entraînement du réseau. Les résultats expérimentaux et la comparaison avec les méthodes existantes démontrent la performance de notre méthode sur une variété de vidéos
Published: 2021

10. Unsupervised Word embedding Alignment in the biomedical domain

Author: Gaschi, Félix, Rastin, Parisa, Toussaint, Yannick, Knowledge representation, reasonning (ORPAILLEUR), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Posos, Machine Learning and Computational Biology (ABC), Department of Algorithms, Computation, Image and Geometry (LORIA - ALGO), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: embeddings de mots, multilingue, apprentissage non supervisé, traitement automatique du langage, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: International audience; Notre objectif est de créer un alignement non supervisé et multilingue d’embeddings de mots (ou plongements lexicaux) basés sur des corpora de domaines différents. Plus précisément, nous cherchons à aligner un embedding cible anglais du domaine biomédical avec un embedding source du domaine général d’une autre langue, puisque les textes à traiter sont dans diverses langues (français, espagnol...) et que le vocabulaire du domaine biomédical est essentiellement disponible en anglais. Notre méthode pour aligner deux embeddings de domaines et langages différents repose sur un autre embedding pivot de même domaine que la source et de même langage que la cible. Notre méthode aligne d’abord les embeddings de même domaine pour créer un dictionnaire qui sert ensuite à aligner les embeddings de domaines et languages distincts. Elle est évaluée sur une tâche de traduction du domaine biomédical dans plusieurs langues. Bien que notre algorithme ne dépasse pas les méthodes d’alignement entre embeddings de même domaine, elle dépasse ces mêmes méthodes appliquées à des embeddings de domaines différents. Ce travail préliminaire montre qu’aligner des embeddings de domaines différents est possible de manière non supervisé.
Published: 2021

11. Unsupervised Learning of Data Representations and Cluster Structures: Applications to Large-scale Health Monitoring of Turbofan Aircraft Engines

Author: Forest, Florent, Laboratoire d'Informatique de Paris-Nord (LIPN), Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Nord, Université Sorbonne Paris Nord, Mustapha Lebbah, Hanane Azzag, and Forest, Florent
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], Big Data, Apprentissage profond, Time series, Séries temporelles, [INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], Apprentissage non supervisé, [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], Model selection, Unsupervised learning, Clustering, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], health monitoring, Surveillance de moteurs d'avion, [INFO.INFO-DC] Computer Science [cs]/Distributed, Parallel, and Cluster Computing [cs.DC], Self-organizing maps, Partitionnement, Cartes auto-organisatrices, Deep learning, [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], [STAT.ML] Statistics [stat]/Machine Learning [stat.ML], aircraft engines, Cartes auto-organisées, Sélection de modèle, [INFO.INFO-DC]Computer Science [cs]/Distributed, Parallel, and Cluster Computing [cs.DC]
Abstract: This thesis is interested in unsupervised statistical learning methods and their applications to health monitoring of aircraft engines at an industrial scale. Our first objective is to make health monitoring methodologies scale to massive datasets and allow engineering team to flexibly deploy various use cases. Besides the engineering aspects, we also try to address two fundamental theoretical challenges in unsupervised learning. First, the links between cluster structure and representation.And second, the very definition of structure, arising from the problem of model selection in clustering.Modern aircraft engines generate growing amounts of data during manufacturing,tests and flights, that can be leveraged for health monitoring and predictive maintenance, in order to improve safety, availability and reduce costs. In this work, we use sensor measurements collected on board of civil short and mid-range aircraft.These data sets are temporal and highly multidimensional due to the large number of sensors and sampling frequencies. Hence, applications need to scale to the large volumes of data, driven by the growing number of daily operating engines.Among all unsupervised learning approaches, clustering and self-organizing maps (SOM) provide useful insights on the distribution of complex and high-dimensional unlabeled data sets. To describe the internal state of an engine, expert indicators or features need to be extracted from raw data, before applying clustering algorithms.Our first contribution is to scale these methodologies using Big Data tools and distributed computing, in order to process entire fleets. We propose a generic and scalable pipeline enabling engineers to analyze flight data on a cluster. In addition,we present an new application to monitoring of vibration signatures.Another option is to automatically extract relevant features with deep neural networks, known as deep learning, which had a great impact in many areas of machine learning. Recently, its ability to improve clustering has been investigated. A second contribution of this thesis is a Deep Embedded SOM, a neural network-based model performing joint representation learning with an autoencoder and self-organization of the cluster prototypes. The third contribution of this thesis concerns model selection, which is perhaps the most difficult problem in clustering. We adopt the framework of cluster stability analysis, and propose a novel concept of within-cluster stability, leading to a criterion called Stadion (stability difference criterion) able to effectively select the number of clusters in a data set. We also apply Stadion to time series clustering validation by leveraging invariant transformations of the data., Cette thèse porte sur des méthodes d’apprentissage statistique non supervisées et leurs applications à la surveillance de santé (health monitoring) des moteurs d’avion à une échelle industrielle. Notre premier objectif est de faire passer les méthodologies de health monitoring à l’échelle de jeux de données massifs et de permettre aux ingénieurs de déployer de manière agile divers cas d’utilisation. Outre les aspects d’ingénierie, nous aborderons également deux défis théoriques fondamentaux en apprentissage non supervisé. Premièrement, les liens entre structure de partitionnement et représentation. Et deuxièmement, la définition même de la structure,découlant du problème de sélection du modèle en partitionnement de données(clustering). Aujourd’hui, les moteurs d’avion génèrent des quantités croissantes de données au cours de leur fabrication, des essais et des vols, pouvant être exploitées pour la surveillance et la maintenance prédictive, afin d’améliorer la sécurité, la disponibilité et de réduire les coûts. Dans ce travail, nous utiliserons des mesures de capteurs embarqués à bord d’avions civils court et moyen courrier. Ces jeux de données sont temporels et hautement multidimensionnels en raison du nombre de capteurs et leurs fréquences d’échantillonnage. Par conséquent, les applications doivent s’adapter aux grands volumes de données qui ne cessent de croître avec la hausse du trafic aérien.Parmi les approches d’apprentissage non supervisées, le clustering et les cartes auto-organisées (SOM) fournissent des informations utiles sur la distribution de jeux de données non étiquetés complexes et en grande dimension. Pour décrire l’état interne d’un moteur, des indicateurs experts doivent être extraits des données brutes, avant d’appliquer des algorithmes de clustering. Notre première contribution est de faire passer à l’échelle ces méthodologies via les outils du Big Dataet le calcul distribué, afin de traiter des flottes entières. Nous proposons une chaîne de traitement générique permettant aux ingénieurs d’analyser les données de vol stockées sur un cluster. En outre, nous présentons une application à la surveillance de signatures vibratoires.Une autre option, appelée apprentissage profond, consiste à extraire automatique-ment des caractéristiques pertinentes à l’aide de réseaux de neurones profonds.Cette approcha a bouleversé de nombreux domaines de l’apprentissage automatique ces dernières années. Récemment, sa capacité à améliorer le clustering a été étudiée. Une deuxième contribution de cette thèse est un modèle SOM profond (Deep Embedded SOM), basé sur des réseaux neurones combinant l’apprentissage de représentations via un auto-encodeur et l’auto-organisation des prototypes.La troisième contribution de cette thèse concerne la sélection de modèle, l’un des problèmes les plus ardus en clustering. Nous adoptons le cadre de l’analyse de stabilité, et proposons un nouveau concept de stabilité intra-cluster, conduisant à un critère appelé Stadion (critère de différence de stabilité) capable de sélectionner efficacement le nombre de clusters dans un jeu de données. Nous appliquerons également Stadion à la validation du clustering de séries temporelles en tirant parti des transformations invariantes des données.
Published: 2021

12. Learning to localize goal-oriented actions with weak supervision

Author: Zhukov, Dimitri, Zhukov, Dimitri, PaRis Artificial Intelligence Research InstitutE - - PRAIRIE2019 - ANR-19-P3IA-0001 - P3IA - VALID, Département d'informatique - ENS Paris (DI-ENS), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS), Models of visual object recognition and scene understanding (WILLOW), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria), PSL University, Ivan Laptev, Josef Sivic, Willow Project (Inria), ANR-19-P3IA-0001,PRAIRIE,PaRis Artificial Intelligence Research InstitutE(2019), École normale supérieure - Paris (ENS Paris), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Département d'informatique - ENS Paris (DI-ENS), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS Paris), and Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: Weakly supervised learning, Vidéos d'instruction, Video understanding, Apprentissage non supervisé, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], Unsupervised learning, Action recognition, [INFO.INFO-CV] Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], Vision par ordinateur, Computer vision, Compréhension de vidéos, Instructional videos, Reconnaissance d'actions, Apprentissage faiblement supervisé
Abstract: The goal of this thesis is to develop methods for automatic understanding of video content. We focus on instructional videos that demonstrate how to perform complex tasks, such as making an omelette or hanging a picture. First, we investigate learning visual models for the steps of tasks, using only a list of steps for each task, instead of costly and time consuming human annotations. Our model allows us to share the information between the tasks on the sub-step level, effectively multiplying the amount of available training data. We demonstrate the benefits of our method on a newly collected dataset of instructional videos, CrossTask. Next, we present a method for isolating task-related actions from the surrounding background, that doesn’t rely on human supervision. Finally, we learn to associate natural language instructions with the corresponding objects within the 3D scene, reconstructed from the videos., Le but de cette thèse est de développer des méthodes pour la compréhension automatique des vidéos d'instructions, qui démontrent des tâches humaines, comme, par exemple, faire une omelette ou accrocher une peinture. Nous proposons, d’abord, une méthode d'apprentissage des actions seulement à partir d'un script pour chaque tâche, au lieu des annotations manuelles. Notre modèle permet de réduire la quantité de données d'entraînement, en partageant l’information entre les tâches. Nous évaluons notre approche sur un nouveau jeu de données, CrossTask. Nous présentons, ensuite, une méthode non supervisée pour isoler les actions, liée à une tâche de leur contexte. Finally, we learn to associate natural language instructions with the corresponding objects within the 3D scene, reconstructed from the videos. Finalement, nous proposons une approche pour associer des instructions textuelles avec des objets correspondants dans la scène 3D, reconstruite à partir des vidéos.
Published: 2021

13. Handling the Deviation from Isometry Between Domains and Languages in Word Embeddings: Applications to Biomedical Text Translation

Author: Gaschi, Félix, Rastin, Parisa, Toussaint, Yannick, Posos, Knowledge representation, reasonning (ORPAILLEUR), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Machine Learning and Computational Biology (ABC), Department of Algorithms, Computation, Image and Geometry (LORIA - ALGO), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: Domain adaptation, Multilingual representations, embeddings de mots, 05 social sciences, Biomedical information, 050401 social sciences methods, 020207 software engineering, 02 engineering and technology, traitement automatique du langage, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], 0504 sociology, multilingue, Machine learning, 0202 electrical engineering, electronic engineering, information engineering, apprentissage non supervisé, Natural Language Processing
Abstract: International audience; Previous literature has shown that it is possible to align word embeddings from different languages with unsupervised methods based on a distance-preserving mapping, with the assumption that the embeddings are isometric. However, these methods seem to work only when both embeddings are trained on the same domain. Nonetheless, we hypothesize that the deviation from isometry might be reduced between relevant subsets of embeddings from different domains, which would allow to partially align them. To support our hypothesis, we leverage the Bottleneck distance, a topological data analysis tool used to approximate the deviation from isometry. We also propose a cross-domain and crosslingual unsupervised alignment method based on a proxy embedding, as a first step towards new cross-lingual alignment methods that generalize to different domains. Results of such a method on translation tasks show that unsupervised alignment methods are not doomed to fail in a crossdomain setting. We obtain BLEU-1 scores ranging from 0.38 to 0.50 on translation tasks, where previous fully unsupervised alignment methods obtain near-zero scores in cross-domain settings.; Notre objectif est de créer un alignement non supervisé et multilingue d'embeddings de mots (ou plongements lexicaux) basés sur des corpora de domaines différents. Plus précisément, nous cherchons à aligner un embedding cible anglais du domaine biomédical avec un embedding source du domaine général d'une autre langue, puisque les textes à traiter sont dans diverses langues (français, espagnol.. .) et que le vocabulaire du domaine biomédical est essentiellement disponible en anglais. Notre méthode pour aligner deux embeddings de domaines et langages différents repose sur un autre embedding pivot de même domaine que la source et de même langage que la cible. Notre méthode aligne d'abord les embeddings de même domaine pour créer un dictionaire qui sert ensuite à aligner les embeddings de domaines et languages distincts. Elle est évaluée sur une tâche de traduction du domaine biomédical dans plusieurs langues. Bien que notre algorithme ne dépasse pas les méthodes d'alignement entre embeddings de même domaine, elle dépasse ces mêmes méthodes appliquées à des embeddings de domaines différents. Ce travail préliminaire montre qu'aligner des embeddings de domaines différents est possible de manière non supervisé.
Published: 2021

14. Entity-centric representations in deep learning

Author: Assouel, Rim and Bengio, Yoshua
Subjects: Apprentissage profond, Représentations d’objets, Conditional generation, Drug discovery, Apprentissage non supervisé, Deep learning, Graphs generation, Unsupervised learning, Representation learning, Graph neural networks, Entity-centric representations, Objects, Apprentissage de représentations, Représentations de graphes, Découverte de médicaments
Abstract: Humans' incredible capacity to model the complexity of the physical world is possible because they cast this complexity as the composition of simpler entities and rules to process them. Extensive work in cognitive science indeed shows that human perception and reasoning ability is structured around objects. Motivated by this observation, a growing number of recent work focused on entity-centric approaches to learning representation and their potential to facilitate downstream tasks. In the first contribution, we show how an entity-centric approach to learning a transition model allows us to extract meaningful visual entities and to learn transition rules that achieve better compositional generalization. In the second contribution, we show how an entity-centric approach to generating graphs allows us to design a model for conditional graph generation that permits direct optimisation of the graph properties. We investigate the performance of our model in a prototype-based molecular graph generation task. In this task, called lead optimization in drug discovery, we wish to adjust a few physico-chemical properties of a molecule that has proven efficient in vitro in order to make a drug out of it., L'incroyable capacité des humains à modéliser la complexité du monde physique est rendue possible par la décomposition qu'ils en font en un ensemble d'entités et de règles simples. De nombreux travaux en sciences cognitives montre que la perception humaine et sa capacité à raisonner est essentiellement centrée sur la notion d'objet. Motivés par cette observation, de récents travaux se sont intéressés aux différentes approches d'apprentissage de représentations centrées sur des entités et comment ces représentations peuvent être utilisées pour résoudre plus facilement des tâches sous-jacentes. Dans la première contribution on montre comment une architecture centrée sur la notion d'entité va permettre d'extraire des entités visuelles interpretables et d'apprendre un modèle du monde plus robuste aux différentes configurations d'objets. Dans la deuxième contribution on s’intéresse à un modèle de génération de graphes dont l'architecture est également centrée sur la notion d'entités et comment cette architecture rend plus facile l'apprentissage d'une génération conditionelle à certaines propriétés du graphe. On s’intéresse plus particulièrement aux applications en découverte de médicaments. Dans cette tâche, on souhaite optimiser certaines propriétés physico-chmiques du graphe d'une molécule qui a été efficace in-vitro et dont on veut faire un médicament.
Published: 2020

15. Contributions en méthodes bioacoustiques multiéchelles : spécifiques, populationnelles, individuelles et comportementales

Author: Poupard, Marion, Laboratoire Conception des Systèmes Mécaniques et Robotiques - EA 7398 (COSMER), Université de Toulon (UTLN), Laboratoire d'Informatique et Systèmes (LIS), Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS), Université de Toulon, Hervé Glotin, Thierry Soriano, and STAR, ABES
Subjects: Signaux stationnaires, Bioacoustique populationnelle, Signaux transitoires, Population, Apprentissage non supervisé, Apprentissage supervisé, Localisation, Unsupervised learning, [PHYS.MECA.ACOU]Physics [physics]/Mechanics [physics]/Acoustics [physics.class-ph], [SPI.AUTO]Engineering Sciences [physics]/Automatic, Big data, [SPI.AUTO] Engineering Sciences [physics]/Automatic, Specie, Bioacoustique spécifique, [PHYS.MECA.ACOU] Physics [physics]/Mechanics [physics]/Acoustics [physics.class-ph], Bioacoustique comportementale, Bioacoustics, Supervised learning, Bioacoustique individuelle
Abstract: The objective of this thesis is to make different methodological contributions in bioacoustics for the study of fauna. Bioacoustics is a recent multidisciplinary science and is very effective for studying and classifying an ecosystem. Many past studies have developed acoustical methods to analyze wildlife across (1) specific, (2) populational, (3) individual and (4) behavioral scales. The research presented in this thesis aims to study different case methods in the four scales of analysis listed above while also setting up tools from the setup of the acquisition material to the analysis of the data for all the aforementioned scales, and finally the discussion of the studies and putting them into perspective. In this study, (1) specific bioacoustics were illustrated by the automatic classification of orcas, sperm whales, and birds. The acoustic classification of orca clans were studied for (2) population analysis. Then the scale was refined and (3) individual acoustic emissions were studied through three different case studies : the individual locations of orcas, sperm whales, and birds. The last scale evaluated was (4) behavioral bioacoustics which aimed to correlate behaviors with acoustic emissions. In order to correlate certain behaviors with acoustic emissions, the influence of maritime traffic on pantropical spotted dolphins and the impact of chemical stimuli in humpbacks were evaluated and recorded. We deliberately chose to select a diverse pool of species that would produce a variety of different signals (stationary vs. transient) and had evolved in different environments (marine vs. terrestrial). This allows us to standardize analysis methods in order to facilitate the development of new studies in bioacoustics. Each case study showed interesting results in terms of bioacoustics and behavioral ecology. These results were compared with past studies which can be found in the bibliography. The results of each case study validated the methods proposed in this thesis. In particular, our study yielded excellent results in the evaluation of bird songs and is now a sound-recognition application available on any type of mobile phone, making it easy to identify bird species. The methodological contributions of this thesis, specifically the difference between stationary and transient signals and those of marine or terrestrial evolution, were synthesized, compared, and discussed. Supervised and unsupervised methods were also compared. These proposed methods have been tested and validated using massive data (several tens of Tera), which are unique. In conclusion, this thesis shows that supervised methods, in particular Deep Learning, are very well suited for the classification of stationary signals in specific and population-based bioacoustics for the terrestrial and marine environment. We also derived that unsupervised methods such as clustering and reduction of dimensionality, can be used within the framework of behavioral bioacoustics to identify signals of interest. Finally, individual bioacoustics can be translated into localization methods such as estimating the inter-sensor delay time which is feasible for transient signals and more complex for stationary signals., L’objectif de cette thèse est d’apporter différentes contributions méthodologiques en bioacoustique pour l’étude de la faune. En effet, la bioacoustique est une science récente, pluridisciplinaire et très efficace pour étudier et classifier un écosystème. Beaucoup d’études ont mis au point des procédés acoustiques pour étudier la faune à des échelles spécifiques, populationnelles, individuelles et comportementales. Ce travail de thèse propose d’étudier différents cas d’études présents dans ces quatre échelles d’analyses. L’objectif de cette thèse est de mettre en place des outils depuis la pose du matériel d’acquisition jusqu’à l’analyse des données pour l’ensemble des échelles présentées, de les discuter et de les mettre en perspective. La bioacoustique spécifique est illustrée ici par la classification automatique d’Orques, de Cachalots et d’oiseaux. Pour la bioacoustique populationnelle, la classification acoustique de clans d’Orques est étudiée. Puis l’échelle d’analyse s’affine et étudie les émissions sonores individuelles. Pour cela 3 cas d’études sont utilisés : la localisation individuelle d’Orques, de Cachalots et d’oiseaux. Ladernière échelle est appelée bioacoustique comportementale, elle a pour but de mettre en corrélation des comportements avec des émissions acoustiques. Pour cela, l’influence du trafic maritime sur les Dauphins tachetés pantropicaux et l’impact de stimuli chimiques chez la Baleine à bosse est étudié. Nous avons volontairement fait le choix de sélectionner différentes espèces produisant des types de signaux bien différents (stationnaires vs transitoires) évoluant dans des milieux différents (marins vs terrestres) afin d’homogénéiser les méthodes d’analyses pour faciliter le développement de nouvelles études en bioacoustique. Chaque cas d’étude présente des résultats intéressants en terme de bioacoustique et d’écologie comportementale. Ces résultats sont comparés avec la bibliographie. Puis, les résultats de chaque cas d’étude permettent de valider les méthodes proposées dans cette thèse. Les apports méthodologiques de cette thèse sont synthétisés, comparés et discutés, notamment l’impact des signaux stationnaires et transitoires, des milieux (marin et terrestre) sur la mise en place des méthodes. Les méthodes supervisées et non supervisées sont mises en comparaison. Les méthodes proposées ont été testées et validées sur certains protocoles de données massives (plusieurs dizaines de Tera). En conclusion, cette thèse montre que les méthodes supervisées (notamment le Deep Learning) étaient très bien adaptées pour la classification de signaux stationnaires en bioacoustique spécifique et populationnelle pour le milieu terrestre et marins. Puis les méthodes non supervisées (clustering et réduction de dimensionnalité) peuvent être utilisées dans le cadre des études en bioacoustique comportementale pour identifier les signaux d’intérêt. Enfin, la bioacoustique individuelle peut se traduire par des méthodes de localisation comme l’estimation du temps de délais d’arrivée inter-capteur, réalisable pour les signaux transitoires, et plus complexe pour les signaux stationnaires.
Published: 2020

16. Information k-means, fragmentation and syntax analysis. A new approach to unsupervised machine learning

Author: Appert, Gautier, Centre de Recherche en Économie et Statistique (CREST), Ecole Nationale de la Statistique et de l'Analyse de l'Information [Bruz] (ENSAI)-École polytechnique (X)-École Nationale de la Statistique et de l'Administration Économique (ENSAE Paris)-Centre National de la Recherche Scientifique (CNRS), Institut Polytechnique de Paris, and Olivier Catoni
Subjects: PAC-Bayesian bounds, Chaining, Compression de données, Apprentissage non supervisé, Bornes PAC-Bayésiennes, [STAT.TH]Statistics [stat]/Statistics Theory [stat.TH], Classification, Clustering, Critère des k-Means, [MATH.MATH-PR]Mathematics [math]/Probability [math.PR], [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], Data compression, Chaînage, K-Means criterion, Unsupervised machine learning
Abstract: Information k-means is a new mathematical framework that extends the classical k-means criterion, using the Kullback divergence as a distortion measure. The fragmentation criterion is an even broader extension where each signal is approximated by a combination of fragments instead of a single center. Using the fragmentation criterion as a distortion measure, we propose a new fragmentation algorithm for digital signals, conceived as a lossy data compression scheme. Our syntax analysis is based on two principles: factorization and relabeling of frequent patterns. It is an iterative scheme, decreasing at each step as much as possible the length of the representation of the training set. It produces for each signal a syntax tree, providing a multi-level classification of the signal components. We tested the method on grey level digital images, where it was possible to label successfully translated patterns and rotated patterns. This lets us hope that transformation invariant pattern recognition could be approached in a flexible way using a general purpose data compression criterion. From a mathematical point of view, we derived two kinds of generalization bounds. First we defined an implicit estimator based on an implicit statistical model, related to our lossy data compression scheme. We proved a lemma relating the data compression rate and the distortion level of the compression algorithm with the excess risk of the statistical estimator. This explains why our syntax trees may be meaningful. Second, combining PAC-Bayesian lemmas with the kernel trick, we proved non asymptotic dimension-free generalization bounds for the various information k-means and information fragmentation criteria we introduced. For instance, in the special case of the classical k-means criterion, we get a non asymptotic dimension free generalization bound of order O( k log(k) / n )^{1/4}) that gives the best sufficient consistency condition, namely that the excess risk goes to zero when (k log(k) / n) goes to zero. Using a new kind of PAC-Bayesian chaining, we also proved a bound of order O( log(n/k) sqrt{k log(k)/n} ).; Le critère de l'information k-means étend le critère des k-means en utilisant la divergence de Kullback comme fonction de perte. La fragmentation est une généralisation supplémentaire permettant l'approximation de chaque signal par une combinaison de fragments. Nous proposons un nouvel algorithme de fragmentation pour les signaux numériques se présentant comme un algorithme de compression avec perte. A l'issue de ce traitement, chaque signal est représenté par un ensemble aléatoires de labels, servant d'entrée à une procédure d'analyse syntaxique, conçue comme un algorithme de compression sans perte. Nous avons testé la méthode sur des images en niveaux de gris sur lesquelles il a été possible de détecter des configurations translatées ou transformées par une rotation. Ceci donne l'espoir d'apporter une réponse à la reconnaissance invariante par transformations fondée sur un critère de compression très général. D'un point de vue mathématique, nous avons prouvé deux types de bornes. Tout d'abord, nous avons relié notre algorithme de compression à un estimateur implicite d'un modèle statistique lui aussi implicite, à travers un lemme, prouvant que le taux de compression et le niveau de distorsion de l'un sont reliés à l'excès de risque de l'autre. Ce résultat contribue à expliquer la pertinence de nos arbres syntaxiques. Ensuite, nous établissons des bornes de généralisation non asymptotiques et indépendantes de la dimension pour les différents critères des k-means et critères de fragmentation que nous avons introduits. Nous utilisons pour cela des inégalités PAC-Bayésiennes appliquées dans des espaces de Hilbert à noyau reproduisant. Par exemple dans le cas des k-means classiques, nous obtenons une borne en O(k log(k) / n)^{1/4}) qui fournit la meilleure condition suffisante de consistance, à savoir que l'excès de risque tend vers zéro quand O(k log(k) / n) tend vers zéro. Grâce à une nouvelle méthode de chaînage PAC-Bayésien, nous prouvons aussi une borne en O(log(n/k) sqrt{k log(k)/n}).
Published: 2020

17. Information k-means, fragmentation et analyse syntaxique. Une nouvelle approche de l’apprentissage non supervisé

Author: Appert, Gautier, Centre de Recherche en Économie et Statistique (CREST), Ecole Nationale de la Statistique et de l'Analyse de l'Information [Bruz] (ENSAI)-École polytechnique (X)-École Nationale de la Statistique et de l'Administration Économique (ENSAE Paris)-Centre National de la Recherche Scientifique (CNRS), Institut Polytechnique de Paris, and Olivier Catoni
Subjects: PAC-Bayesian bounds, Chaining, Compression de données, Apprentissage non supervisé, Bornes PAC-Bayésiennes, [STAT.TH]Statistics [stat]/Statistics Theory [stat.TH], Classification, Clustering, Critère des k-Means, [MATH.MATH-PR]Mathematics [math]/Probability [math.PR], [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], Data compression, Chaînage, K-Means criterion, Unsupervised machine learning
Abstract: Information k-means is a new mathematical framework that extends the classical k-means criterion, using the Kullback divergence as a distortion measure. The fragmentation criterion is an even broader extension where each signal is approximated by a combination of fragments instead of a single center. Using the fragmentation criterion as a distortion measure, we propose a new fragmentation algorithm for digital signals, conceived as a lossy data compression scheme. Our syntax analysis is based on two principles: factorization and relabeling of frequent patterns. It is an iterative scheme, decreasing at each step as much as possible the length of the representation of the training set. It produces for each signal a syntax tree, providing a multi-level classification of the signal components. We tested the method on grey level digital images, where it was possible to label successfully translated patterns and rotated patterns. This lets us hope that transformation invariant pattern recognition could be approached in a flexible way using a general purpose data compression criterion. From a mathematical point of view, we derived two kinds of generalization bounds. First we defined an implicit estimator based on an implicit statistical model, related to our lossy data compression scheme. We proved a lemma relating the data compression rate and the distortion level of the compression algorithm with the excess risk of the statistical estimator. This explains why our syntax trees may be meaningful. Second, combining PAC-Bayesian lemmas with the kernel trick, we proved non asymptotic dimension-free generalization bounds for the various information k-means and information fragmentation criteria we introduced. For instance, in the special case of the classical k-means criterion, we get a non asymptotic dimension free generalization bound of order O( k log(k) / n )^{1/4}) that gives the best sufficient consistency condition, namely that the excess risk goes to zero when (k log(k) / n) goes to zero. Using a new kind of PAC-Bayesian chaining, we also proved a bound of order O( log(n/k) sqrt{k log(k)/n} ).; Le critère de l'information k-means étend le critère des k-means en utilisant la divergence de Kullback comme fonction de perte. La fragmentation est une généralisation supplémentaire permettant l'approximation de chaque signal par une combinaison de fragments. Nous proposons un nouvel algorithme de fragmentation pour les signaux numériques se présentant comme un algorithme de compression avec perte. A l'issue de ce traitement, chaque signal est représenté par un ensemble aléatoires de labels, servant d'entrée à une procédure d'analyse syntaxique, conçue comme un algorithme de compression sans perte. Nous avons testé la méthode sur des images en niveaux de gris sur lesquelles il a été possible de détecter des configurations translatées ou transformées par une rotation. Ceci donne l'espoir d'apporter une réponse à la reconnaissance invariante par transformations fondée sur un critère de compression très général. D'un point de vue mathématique, nous avons prouvé deux types de bornes. Tout d'abord, nous avons relié notre algorithme de compression à un estimateur implicite d'un modèle statistique lui aussi implicite, à travers un lemme, prouvant que le taux de compression et le niveau de distorsion de l'un sont reliés à l'excès de risque de l'autre. Ce résultat contribue à expliquer la pertinence de nos arbres syntaxiques. Ensuite, nous établissons des bornes de généralisation non asymptotiques et indépendantes de la dimension pour les différents critères des k-means et critères de fragmentation que nous avons introduits. Nous utilisons pour cela des inégalités PAC-Bayésiennes appliquées dans des espaces de Hilbert à noyau reproduisant. Par exemple dans le cas des k-means classiques, nous obtenons une borne en O(k log(k) / n)^{1/4}) qui fournit la meilleure condition suffisante de consistance, à savoir que l'excès de risque tend vers zéro quand O(k log(k) / n) tend vers zéro. Grâce à une nouvelle méthode de chaînage PAC-Bayésien, nous prouvons aussi une borne en O(log(n/k) sqrt{k log(k)/n}).
Published: 2020

18. Modèles génératifs profonds : sur-généralisation et abandon de mode

Author: Lucas, Thomas, Laboratoire Jean Kuntzmann (LJK), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), Apprentissage de modèles à partir de données massives (Thoth), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Jean Kuntzmann (LJK), Université Grenoble Alpes (UGA)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes [2020-....], Jakob Verbeek, and Karteek Alahari
Subjects: Adversarial methods, Apprentissage profond, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Méthodes adversariales, Vision par ordinateur, Apprentissage non supervisé, Modèles génératifs, Computer vision, Deep learning, Unsupervised learning, Generative modelling, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: This dissertation explores the topic of generative modelling of natural images,which is the task of fitting a data generating distribution.Such models can be used to generate artificial data resembling the true data, or to compress images.Latent variable models, which are at the core of our contributions, seek to capture the main factors of variations of an image into a variable that can be manipulated.In particular we build on two successful latent variable generative models, the generative adversarial network (GAN) and Variational autoencoder (VAE) models.Recently GANs significantly improved the quality of images generated by deep models, obtaining very compelling samples.Unfortunately these models struggle to capture all the modes of the original distribution, ie they do not cover the full variability of the dataset.Conversely, likelihood based models such as VAEs typically cover the full variety of the data well and provide an objective measure of coverage.However these models produce samples of inferior visual quality that are more easily distinguished from real ones.The work presented in this thesis strives for the best of both worlds: to obtain compelling samples while modelling the full support of the distribution.To achieve that, we focus on i) the optimisation problems used and ii) practical model limitations that hinder performance.The first contribution of this manuscript is a deep generative model that encodes global image structure into latent variables, built on the VAE, and autoregressively models low level detail.We propose a training procedure relying on an auxiliary loss function to control what information is captured by the latent variables and what information is left to an autoregressive decoder.Unlike previous approaches to such hybrid models, ours does not need to restrict the capacity of the autoregressive decoder to prevent degenerate models that ignore the latent variables.The second contribution builds on the standard GAN model, which trains a discriminator network to provide feedback to a generative network.The discriminator usually assesses the quality of individual samples, which makes it hard to evaluate the variability of the data.Instead we propose to feed the discriminator with emph{batches} that mix both true and fake samples, and train it to predict the ratio of true samples in the batch.These batches work as approximations of the distribution of generated images and allows the discriminator to approximate distributional statistics.We introduce an architecture that is well suited to solve this problem efficiently,and show experimentally that our approach reduces mode collapse in GANs on two synthetic datasets, and obtains good results on the CIFAR10 and CelebA datasets.The mutual shortcomings of VAEs and GANs can in principle be addressed by training hybrid models that use both types of objective.In our third contribution, we show that usual parametric assumptions made in VAEs induce a conflict between them, leading to lackluster performance of hybrid models.We propose a solution based on deep invertible transformations, that trains a feature space in which usual assumptions can be made without harm.Our approach provides likelihood computations in image space while being able to take advantage of adversarial training.It obtains GAN-like samples that are competitive with fully adversarial models while improving likelihood scores over existing hybrid models at the time of publication, which is a significant advancement.; Cette dissertation explore le sujet des modèles génératifs appliqués aux images naturelles.Cette tâche consiste a modéliser la distribution des données observées, et peut permettre de générer des données artificielles semblables aux données d'origine, où de compresser des images.Les modèles à variable latentes, qui sont au cœur de cette thèse, cherchent a résumer les principaux facteurs de variation d'une image en une variable qui peut être manipulée.En particulier, nos contributions sont basées sur deux modèles génératifs a variable latentes: le modèle génératif adversarial (GAN) et l' encodeur variationel (VAE).Récemment, les GAN ont significativement amélioré la qualité des images générées par des modèles profonds, générant des images très convaincantes.Malheureusement ces modèles ont du mal à modéliser tous les modes de la distribution d'origine, ie ils ne couvrent pas les données dans toute leur variabilité.A l'inverse, les modèles basés sur le maximum de vraisemblance tels que les VAEs couvrent typiquement toute la variabilité des données, et en offrent une mesure objective.Mais ces modèles produisent des échantillons de qualité visuelle inférieure, qui sont plus facilement distingués de vrais images.Le travail présenté dans cette thèse a pour but d'obtenir le meilleur des deux mondes: des échantillons de bonne qualité tout en modélisant tout le support de la distribution.La première contribution de ce manuscrit est un modèle génératif profond qui encode la structure globale des images dans une variable latente, basé sur le VAE, et utilise un modèle autoregressif pour modéliser les détails de bas niveau.Nous proposons une procédure d'entrainement qui utilise une fonction de perte auxiliaire pour contrôler quelle information est capturée par la variable latent et quelle information est laissée à un décodeur autoregressif.Au contraire des précédentes approches pour construire des modèles hybrides de ce genre, notre modèle de nécessite pas de contraindre la capacité du décodeur autoregressif pour empêcher des modèles dégénérés qui ignorent la variable latente.La deuxième contribution est bâtie sur le modèle du GAN standard, qui utilise un discriminateur pour guider le modèle génératif.Le discriminateur évalue généralement la qualité d'échantillons individuels, ce qui rend la tache d'évaluer la variabilité des données difficile.A la place, nous proposons de fournir au discriminateur des ensembles de données, ou batches, qui mélangent des vraies images et des images générées.Nous l'entrainons à prédire le ratio de vrais et de faux éléments dans l'ensemble.Ces batches servent d'approximation de la vrai distribution des images générées et permettent au discriminateur d'approximer des statistiques sur leur distributionLes lacunes mutuelles des VAEs et des GANs peuvent, en principe, être réglées en entrainant des modèles hybrides qui utilisent les deux types d'objectif.Dans notre troisième contribution, nous montrons que les hypothèses paramétriques habituelles faites par les VAE produisent un conflit entre les deux, menant à des performances décevantes pour les modèles hybrides.Nous proposons une solution basée sur des modèles profonds inversibles, qui entraine un espace de features dans lequel les hypothèses habituelles peuvent être faites sans poser problème.Notre approche fourni des évaluations e vraisemblance dans l'espace des images tout en étant capable de tirer profit de l'entrainement adversaire.Elle obtient des échantillons de qualité équivalente au modèle pleinement adversaires tout en améliorant les scores de maximum de vraisemblance au moment de la publication, ce qui constitue une amélioration significative.
Published: 2020

19. Deep generative models : over-generalisation and mode-dropping

Author: Lucas, Thomas, Laboratoire Jean Kuntzmann (LJK), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), Apprentissage de modèles à partir de données massives (Thoth), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Jean Kuntzmann (LJK), Université Grenoble Alpes (UGA)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes [2020-....], Jakob Verbeek, and Karteek Alahari
Subjects: Adversarial methods, Apprentissage profond, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Méthodes adversariales, Vision par ordinateur, Apprentissage non supervisé, Modèles génératifs, Computer vision, Deep learning, Unsupervised learning, Generative modelling, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: This dissertation explores the topic of generative modelling of natural images,which is the task of fitting a data generating distribution.Such models can be used to generate artificial data resembling the true data, or to compress images.Latent variable models, which are at the core of our contributions, seek to capture the main factors of variations of an image into a variable that can be manipulated.In particular we build on two successful latent variable generative models, the generative adversarial network (GAN) and Variational autoencoder (VAE) models.Recently GANs significantly improved the quality of images generated by deep models, obtaining very compelling samples.Unfortunately these models struggle to capture all the modes of the original distribution, ie they do not cover the full variability of the dataset.Conversely, likelihood based models such as VAEs typically cover the full variety of the data well and provide an objective measure of coverage.However these models produce samples of inferior visual quality that are more easily distinguished from real ones.The work presented in this thesis strives for the best of both worlds: to obtain compelling samples while modelling the full support of the distribution.To achieve that, we focus on i) the optimisation problems used and ii) practical model limitations that hinder performance.The first contribution of this manuscript is a deep generative model that encodes global image structure into latent variables, built on the VAE, and autoregressively models low level detail.We propose a training procedure relying on an auxiliary loss function to control what information is captured by the latent variables and what information is left to an autoregressive decoder.Unlike previous approaches to such hybrid models, ours does not need to restrict the capacity of the autoregressive decoder to prevent degenerate models that ignore the latent variables.The second contribution builds on the standard GAN model, which trains a discriminator network to provide feedback to a generative network.The discriminator usually assesses the quality of individual samples, which makes it hard to evaluate the variability of the data.Instead we propose to feed the discriminator with emph{batches} that mix both true and fake samples, and train it to predict the ratio of true samples in the batch.These batches work as approximations of the distribution of generated images and allows the discriminator to approximate distributional statistics.We introduce an architecture that is well suited to solve this problem efficiently,and show experimentally that our approach reduces mode collapse in GANs on two synthetic datasets, and obtains good results on the CIFAR10 and CelebA datasets.The mutual shortcomings of VAEs and GANs can in principle be addressed by training hybrid models that use both types of objective.In our third contribution, we show that usual parametric assumptions made in VAEs induce a conflict between them, leading to lackluster performance of hybrid models.We propose a solution based on deep invertible transformations, that trains a feature space in which usual assumptions can be made without harm.Our approach provides likelihood computations in image space while being able to take advantage of adversarial training.It obtains GAN-like samples that are competitive with fully adversarial models while improving likelihood scores over existing hybrid models at the time of publication, which is a significant advancement.; Cette dissertation explore le sujet des modèles génératifs appliqués aux images naturelles.Cette tâche consiste a modéliser la distribution des données observées, et peut permettre de générer des données artificielles semblables aux données d'origine, où de compresser des images.Les modèles à variable latentes, qui sont au cœur de cette thèse, cherchent a résumer les principaux facteurs de variation d'une image en une variable qui peut être manipulée.En particulier, nos contributions sont basées sur deux modèles génératifs a variable latentes: le modèle génératif adversarial (GAN) et l' encodeur variationel (VAE).Récemment, les GAN ont significativement amélioré la qualité des images générées par des modèles profonds, générant des images très convaincantes.Malheureusement ces modèles ont du mal à modéliser tous les modes de la distribution d'origine, ie ils ne couvrent pas les données dans toute leur variabilité.A l'inverse, les modèles basés sur le maximum de vraisemblance tels que les VAEs couvrent typiquement toute la variabilité des données, et en offrent une mesure objective.Mais ces modèles produisent des échantillons de qualité visuelle inférieure, qui sont plus facilement distingués de vrais images.Le travail présenté dans cette thèse a pour but d'obtenir le meilleur des deux mondes: des échantillons de bonne qualité tout en modélisant tout le support de la distribution.La première contribution de ce manuscrit est un modèle génératif profond qui encode la structure globale des images dans une variable latente, basé sur le VAE, et utilise un modèle autoregressif pour modéliser les détails de bas niveau.Nous proposons une procédure d'entrainement qui utilise une fonction de perte auxiliaire pour contrôler quelle information est capturée par la variable latent et quelle information est laissée à un décodeur autoregressif.Au contraire des précédentes approches pour construire des modèles hybrides de ce genre, notre modèle de nécessite pas de contraindre la capacité du décodeur autoregressif pour empêcher des modèles dégénérés qui ignorent la variable latente.La deuxième contribution est bâtie sur le modèle du GAN standard, qui utilise un discriminateur pour guider le modèle génératif.Le discriminateur évalue généralement la qualité d'échantillons individuels, ce qui rend la tache d'évaluer la variabilité des données difficile.A la place, nous proposons de fournir au discriminateur des ensembles de données, ou batches, qui mélangent des vraies images et des images générées.Nous l'entrainons à prédire le ratio de vrais et de faux éléments dans l'ensemble.Ces batches servent d'approximation de la vrai distribution des images générées et permettent au discriminateur d'approximer des statistiques sur leur distributionLes lacunes mutuelles des VAEs et des GANs peuvent, en principe, être réglées en entrainant des modèles hybrides qui utilisent les deux types d'objectif.Dans notre troisième contribution, nous montrons que les hypothèses paramétriques habituelles faites par les VAE produisent un conflit entre les deux, menant à des performances décevantes pour les modèles hybrides.Nous proposons une solution basée sur des modèles profonds inversibles, qui entraine un espace de features dans lequel les hypothèses habituelles peuvent être faites sans poser problème.Notre approche fourni des évaluations e vraisemblance dans l'espace des images tout en étant capable de tirer profit de l'entrainement adversaire.Elle obtient des échantillons de qualité équivalente au modèle pleinement adversaires tout en améliorant les scores de maximum de vraisemblance au moment de la publication, ce qui constitue une amélioration significative.
Published: 2020

20. SkiF Maker : un processus de classement du meilleur talent par rapport à une offre de mission

Author: Karoui, Jihen, Hafid, Kamilia, Pezeril, Stéphane, AUSY, Benzitoun, Christophe, Braud, Chloé, Huber, Laurine, Langlois, David, Ouni, Slim, Pogodalla, Sylvain, Schneider, Stéphane, Ausy R&D Paris, and AUSY R&D Paris / Université Paris 8
Subjects: entité nommée, [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], annotation sémantique, apprentissage non supervisé, Fouille de texte, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: SkiF Maker présente une solution innovatrice pour toute entreprise de services numériques (ESN) visant à améliorer son processus de recrutement de talents, la gestion des compétences de ses ressources humaines et la satisfaction des besoins de ses clients. Cet outil offre aux ESN un gain considérable en terme de temps de travail et leur évite un travail manuel souvent laborieux et non plaisant.
Published: 2020

21. Apprentissage automatique des interactions homme-machine de la prochaine génération

Author: Debard, Quentin, Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-École Centrale de Lyon (ECL), Université de Lyon-Université Lumière - Lyon 2 (UL2), Extraction de Caractéristiques et Identification (imagine), Université de Lyon-Université Lumière - Lyon 2 (UL2)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon, Christian Wolf, and Stéphane Canu
Subjects: Apprentissage profond, Apprentissage non supervisé, Interface adaptative, Apprentissage supervisé, Apprentissage automatique, Informatique, Interface utilisateur, Interaction Homme-Machine, Computer science, Unsupervised learning, User interface, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Deep Learning, Apprentissage par renforcement, Machine learning, Reinforcement learning, Interactions Homme Machine, Adaptive interface, Human computer interaction, Supervised learning
Abstract: Artificial Intelligence (AI) and Human-Computer Interactions (HCIs) are two research fields with relatively few common work. HCI specialists usually design the way we interact with devices directly from observations and measures of human feedback, manually optimizing the user interface to better fit users’ expectations. This process is hard to optimize: ergonomy, intuitivity and ease of use are key features in a User Interface (UI) that are too complex to be simply modelled from interaction data. This drastically restrains the possible uses of Machine Learning (ML) in this design process. Currently, ML in HCI is mostly applied to gesture recognition and automatic display, e.g. advertisement or item suggestion. It is also used to fine tune an existing UI to better optimize it, but as of now it does not participate in designing new ways to interact with computers. Our main focus in this thesis is to use ML to develop new design strategies for overall better UIs. We want to use ML to build intelligent – understand precise, intuitive and adaptive – user interfaces using minimal handcrafting. We propose a novel approach to UI design: instead of letting the user adapt to the interface, we want the interface and the user to adapt mutually to each other. The goal is to reduce human bias in protocol definition while building co-adaptive interfaces able to further fit individual preferences. In order to do so, we will put to use the different mechanisms available in ML to automatically learn behaviors, build representations and take decisions. We will be experimenting on touch interfaces, as these interfaces are vastly used and can provide easily interpretable problems. The very first part of our work will focus on processing touch data and use supervised learning to build accurate classifiers of touch gestures. The second part will detail how Reinforcement Learning (RL) can be used to model and learn interaction protocols given user actions. Lastly, we will combine these RL models with unsupervised learning to build a setup allowing for the design of new interaction protocols without the need for real user data.; L’Intelligence Artificielle (IA) et les Interfaces Homme-Machine (IHM) sont deux champs de recherche avec relativement peu de travaux communs. Les spécialistes en IHM conçoivent habituellement les interfaces utilisateurs directement à partir d’observations et de mesures sur les interactions humaines, optimisant manuellement l’interface pour qu’elle corresponde au mieux aux attentes des utilisateurs. Ce processus est difficile à optimiser : l’ergonomie, l’intuitivité et la facilité d’utilisation sont autant de propriétés clé d’une interface utilisateur (IU) trop complexes pour être simplement modélisées à partir de données d’interaction. Ce constat restreint drastiquement les utilisations potentielles de l’apprentissage automatique dans ce processus de conception. A l’heure actuelle, l’apprentissage automatique dans les IHMs se cantonne majoritairement à la reconnaissance de gestes et à l’automatisation d’affichage, par exemple à des fins publicitaires ou pour suggérer une sélection. L’apprentissage automatique peut également être utilisé pour optimiser une interface utilisateur existante, mais il ne participe pour l’instant pas à concevoir de nouvelles façons d’intéragir. Notre objectif avec cette thèse est de proposer grâce à l’apprentissage automatique de nouvelles stratégies pour améliorer le processus de conception et les propriétés des IUs. Notre but est de définir de nouvelles IUs intelligentes – comprendre précises, intuitives et adaptatives – requérant un minimum d’interventions manuelles. Nous proposons une nouvelle approche à la conception d’IU : plutôt que l’utilisateur s’adapte à l’interface, nous cherchons à ce que l’utilisateur et l’interface s’adaptent mutuellement l’un à l’autre. Le but est d’une part de réduire le biais humain dans la conception de protocoles d’interactions, et d’autre part de construire des interfaces co-adaptatives capables de correspondre d’avantage aux préférences individuelles des utilisateurs. Pour ce faire, nous allons mettre à contribution les différents outils disponibles en apprentissage automatique afin d’apprendre automatiquement des comportements, des représentations et des prises de décision. Nous expérimenterons sur les interfaces tactiles pour deux raisons majeures : celles-ci sont largement utilisées et fournissent des problèmes facilement interprétables. La première partie de notre travail se focalisera sur le traitement des données tactiles et l’utilisation d’apprentissage supervisé pour la construction de classifieurs précis de gestes tactiles. La seconde partie détaillera comment l’apprentissage par renforcement peut être utilisé pour modéliser et apprendre des protocoles d’interaction en utilisant des gestes utilisateur. Enfin, nous combinerons ces modèles d’apprentissage par renforcement avec de l’apprentissage non supervisé pour définir une méthode de conception de nouveaux protocoles d’interaction ne nécessitant pas de données d’utilisation réelles.
Published: 2020

22. Automatic learning of next generation human-computer interactions

Author: Debard, Quentin, Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-École Centrale de Lyon (ECL), Université de Lyon-Université Lumière - Lyon 2 (UL2), Extraction de Caractéristiques et Identification (imagine), Université de Lyon-Université Lumière - Lyon 2 (UL2)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon, Christian Wolf, Stéphane Canu, and STAR, ABES
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], Apprentissage profond, Apprentissage non supervisé, Interface adaptative, Apprentissage supervisé, Apprentissage automatique, Informatique, Interface utilisateur, Interaction Homme-Machine, Computer science, Unsupervised learning, User interface, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Deep Learning, Apprentissage par renforcement, Machine learning, Reinforcement learning, Interactions Homme Machine, Adaptive interface, Human computer interaction, Supervised learning
Abstract: Artificial Intelligence (AI) and Human-Computer Interactions (HCIs) are two research fields with relatively few common work. HCI specialists usually design the way we interact with devices directly from observations and measures of human feedback, manually optimizing the user interface to better fit users’ expectations. This process is hard to optimize: ergonomy, intuitivity and ease of use are key features in a User Interface (UI) that are too complex to be simply modelled from interaction data. This drastically restrains the possible uses of Machine Learning (ML) in this design process. Currently, ML in HCI is mostly applied to gesture recognition and automatic display, e.g. advertisement or item suggestion. It is also used to fine tune an existing UI to better optimize it, but as of now it does not participate in designing new ways to interact with computers. Our main focus in this thesis is to use ML to develop new design strategies for overall better UIs. We want to use ML to build intelligent – understand precise, intuitive and adaptive – user interfaces using minimal handcrafting. We propose a novel approach to UI design: instead of letting the user adapt to the interface, we want the interface and the user to adapt mutually to each other. The goal is to reduce human bias in protocol definition while building co-adaptive interfaces able to further fit individual preferences. In order to do so, we will put to use the different mechanisms available in ML to automatically learn behaviors, build representations and take decisions. We will be experimenting on touch interfaces, as these interfaces are vastly used and can provide easily interpretable problems. The very first part of our work will focus on processing touch data and use supervised learning to build accurate classifiers of touch gestures. The second part will detail how Reinforcement Learning (RL) can be used to model and learn interaction protocols given user actions. Lastly, we will combine these RL models with unsupervised learning to build a setup allowing for the design of new interaction protocols without the need for real user data., L’Intelligence Artificielle (IA) et les Interfaces Homme-Machine (IHM) sont deux champs de recherche avec relativement peu de travaux communs. Les spécialistes en IHM conçoivent habituellement les interfaces utilisateurs directement à partir d’observations et de mesures sur les interactions humaines, optimisant manuellement l’interface pour qu’elle corresponde au mieux aux attentes des utilisateurs. Ce processus est difficile à optimiser : l’ergonomie, l’intuitivité et la facilité d’utilisation sont autant de propriétés clé d’une interface utilisateur (IU) trop complexes pour être simplement modélisées à partir de données d’interaction. Ce constat restreint drastiquement les utilisations potentielles de l’apprentissage automatique dans ce processus de conception. A l’heure actuelle, l’apprentissage automatique dans les IHMs se cantonne majoritairement à la reconnaissance de gestes et à l’automatisation d’affichage, par exemple à des fins publicitaires ou pour suggérer une sélection. L’apprentissage automatique peut également être utilisé pour optimiser une interface utilisateur existante, mais il ne participe pour l’instant pas à concevoir de nouvelles façons d’intéragir. Notre objectif avec cette thèse est de proposer grâce à l’apprentissage automatique de nouvelles stratégies pour améliorer le processus de conception et les propriétés des IUs. Notre but est de définir de nouvelles IUs intelligentes – comprendre précises, intuitives et adaptatives – requérant un minimum d’interventions manuelles. Nous proposons une nouvelle approche à la conception d’IU : plutôt que l’utilisateur s’adapte à l’interface, nous cherchons à ce que l’utilisateur et l’interface s’adaptent mutuellement l’un à l’autre. Le but est d’une part de réduire le biais humain dans la conception de protocoles d’interactions, et d’autre part de construire des interfaces co-adaptatives capables de correspondre d’avantage aux préférences individuelles des utilisateurs. Pour ce faire, nous allons mettre à contribution les différents outils disponibles en apprentissage automatique afin d’apprendre automatiquement des comportements, des représentations et des prises de décision. Nous expérimenterons sur les interfaces tactiles pour deux raisons majeures : celles-ci sont largement utilisées et fournissent des problèmes facilement interprétables. La première partie de notre travail se focalisera sur le traitement des données tactiles et l’utilisation d’apprentissage supervisé pour la construction de classifieurs précis de gestes tactiles. La seconde partie détaillera comment l’apprentissage par renforcement peut être utilisé pour modéliser et apprendre des protocoles d’interaction en utilisant des gestes utilisateur. Enfin, nous combinerons ces modèles d’apprentissage par renforcement avec de l’apprentissage non supervisé pour définir une méthode de conception de nouveaux protocoles d’interaction ne nécessitant pas de données d’utilisation réelles.
Published: 2020

23. Estimation de modèles de mélanges gaussiens univariés à partir de données groupées dans le cas d'une grande volumétrie de données

Author: Antonazzo, Filippo, Biernacki, Christophe, Keribin, Christine, MOdel for Data Analysis and Learning (MODAL), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Paul Painlevé - UMR 8524 (LPP), Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Evaluation des technologies de santé et des pratiques médicales - ULR 2694 (METRICS), Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-École polytechnique universitaire de Lille (Polytech Lille)-Université de Lille, Sciences et Technologies, Statistique mathématique et apprentissage (CELESTE), Laboratoire de Mathématiques d'Orsay (LMO), Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Inria Saclay - Ile de France, and Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
Subjects: Big data, Green computing, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Données regroupées, Apprentissage non supervisé, Binned data, Unsupervised learning, [STAT.ME]Statistics [stat]/Methodology [stat.ME]
Abstract: Due to the COVID-19 pandemic, the 52nd Journées de Statistique are postponed. They will take place from June 7th to 11th 2021 in Nice on the Valrose Campus of the Université Côte d'Azur.; National audience; Popularity of unsupervised learning is magnified by the regular increase of sample sizes. Indeed, it provides opportunity to reveal information previously out of scope. However, the volume of data leads to some issues related to prohibitive calculation times and also to high energy consumption and the need of high computational ressources. Resorting to binned data depending on an adaptive grid is expected to give proper answerto such green computing issues while not harming the related estimation issues. A first attempt is conducted in the context of univariate Gaussian mixtures, included a numerical illustration and some theoretical advances.; L'intérêt de l'apprentissage non supervisé est magnifié par la croissante constante du nombre d'individus dans les échantillons. C'est en effet l'opportunité de découvrir des informations autrefois inaccessibles. Néanmoins, une importante volumétrie de données pose des difficultés relatives à des temps de calculs rapidement prohibitifs et à la grande consommation d'énergie et des ressources matérielles. L'usage de données regroupées (ou binned data) sur une grille adaptative pourrait répondre à ces questions ayant trait à ce qu'on qualifierait aujourd'hui de green computing, sans pour autant nuire à la qualité des estimations. Une 1ère approche est menée dans le cadre des mélanges gaussiens univariés, comprenant une illustration empirique et des avancées théoriques.
Published: 2020

24. Unsupervised representation learning in interactive environments

Author: Racah, Evan and Pal, Christopher
Subjects: Self-supervised learning, Apprentissage auto-supervisé, Apprentissage par renforcement, Contrastives d'apprentissage de représentations non supervisées, Apprentissage non supervisé, Reinforcement learning, Apprentissage de représentations, Deep learning, Unsupervised learning, Apprentissage de représentations profondes, Representation learning, Constrastive unsupervised representation learning
Abstract: Extraire une représentation de tous les facteurs de haut niveau de l'état d'un agent à partir d'informations sensorielles de bas niveau est une tâche importante, mais difficile, dans l'apprentissage automatique. Dans ce memoire, nous explorerons plusieurs approches non supervisées pour apprendre ces représentations. Nous appliquons et analysons des méthodes d'apprentissage de représentations non supervisées existantes dans des environnements d'apprentissage par renforcement, et nous apportons notre propre suite d'évaluations et notre propre méthode novatrice d'apprentissage de représentations d'état. Dans le premier chapitre de ce travail, nous passerons en revue et motiverons l'apprentissage non supervisé de représentations pour l'apprentissage automatique en général et pour l'apprentissage par renforcement. Nous introduirons ensuite un sous-domaine relativement nouveau de l'apprentissage de représentations : l'apprentissage auto-supervisé. Nous aborderons ensuite deux approches fondamentales de l'apprentissage de représentations, les méthodes génératives et les méthodes discriminatives. Plus précisément, nous nous concentrerons sur une collection de méthodes discriminantes d'apprentissage de représentations, appelées méthodes contrastives d'apprentissage de représentations non supervisées (CURL). Nous terminerons le premier chapitre en détaillant diverses approches pour évaluer l'utilité des représentations. Dans le deuxième chapitre, nous présenterons un article de workshop dans lequel nous évaluons un ensemble de méthodes d'auto-supervision standards pour les problèmes d'apprentissage par renforcement. Nous découvrons que la performance de ces représentations dépend fortement de la dynamique et de la structure de l'environnement. À ce titre, nous déterminons qu'une étude plus systématique des environnements et des méthodes est nécessaire. Notre troisième chapitre couvre notre deuxième article, Unsupervised State Representation Learning in Atari, où nous essayons d'effectuer une étude plus approfondie des méthodes d'apprentissage de représentations en apprentissage par renforcement, comme expliqué dans le deuxième chapitre. Pour faciliter une évaluation plus approfondie des représentations en apprentissage par renforcement, nous introduisons une suite de 22 jeux Atari entièrement labellisés. De plus, nous choisissons de comparer les méthodes d'apprentissage de représentations de façon plus systématique, en nous concentrant sur une comparaison entre méthodes génératives et méthodes contrastives, plutôt que les méthodes générales du deuxième chapitre choisies de façon moins systématique. Enfin, nous introduisons une nouvelle méthode contrastive, ST-DIM, qui excelle sur ces 22 jeux Atari., Extracting a representation of all the high-level factors of an agent’s state from level-level sensory information is an important, but challenging task in machine learning. In this thesis, we will explore several unsupervised approaches for learning these state representations. We apply and analyze existing unsupervised representation learning methods in reinforcement learning environments, as well as contribute our own evaluation benchmark and our own novel state representation learning method. In the first chapter, we will overview and motivate unsupervised representation learning for machine learning in general and for reinforcement learning. We will then introduce a relatively new subfield of representation learning: self-supervised learning. We will then cover two core representation learning approaches, generative methods and discriminative methods. Specifically, we will focus on a collection of discriminative representation learning methods called contrastive unsupervised representation learning (CURL) methods. We will close the first chapter by detailing various approaches for evaluating the usefulness of representations. In the second chapter, we will present a workshop paper, where we evaluate a handful of off-the-shelf self-supervised methods in reinforcement learning problems. We discover that the performance of these representations depends heavily on the dynamics and visual structure of the environment. As such, we determine that a more systematic study of environments and methods is required. Our third chapter covers our second article, Unsupervised State Representation Learning in Atari, where we try to execute a more thorough study of representation learning methods in RL as motivated by the second chapter. To facilitate a more thorough evaluation of representations in RL we introduce a benchmark of 22 fully labelled Atari games. In addition, we choose the representation learning methods for comparison in a more systematic way by focusing on comparing generative methods with contrastive methods, instead of the less systematically chosen off-the-shelf methods from the second chapter. Finally, we introduce a new contrastive method, ST-DIM, which excels at the 22 Atari games.
Published: 2020

25. Towards learning sentence representation with self-supervision

Author: Hosseini, Seyedarian and Courville, Aaron
Subjects: apprentissage profond, Natural language processing, Apprentissage non supervisé, Deep learning, Unsupervised learning, Representation learning, Réseaux de neurones augmentés par la mémoire, Language modelling, traitement automatique du langage naturel, Memory augmented neural networks, Apprentissage de représentations, Modélisation du langage, Réseaux de neurones, Neural networks
Abstract: Ces dernières années, il y a eu un intérêt croissant dans le domaine de l'apprentissage profond pour le traitement du langage naturel. Plusieurs étapes importantes ont été franchies au cours de la dernière décennie dans divers problèmes, tels que les systèmes de questions-réponses, le résumé de texte, l'analyse des sentiments, etc. Le pré-entraînement des modèles de langage dans une manière auto-supervisé est une partie importante de ces réalisations. Cette thèse explore un ensemble de méthodes auto-supervisées pour apprendre des représentations de phrases à partir d'une grande quantité de données non étiquetées. Nous introduisons également un nouveau modèle de mémoire augmentée pour apprendre des représentations basées sur une structure d'arbre. Nous évaluons et analysons ces représentations sur différentes tâches. Dans le chapitre 1, nous introduisons les bases des réseaux neuronaux avant et des réseaux neuronaux récurrents. Le chapitre se poursuit avec la discussion de l'algorithme de rétropropagation pour former les réseaux neuronaux de flux avant, et la rétropropagation à travers l'algorithme de temps pour former les réseaux neuronaux récurrents. Nous discutons également de trois approches différentes dans le domaine de l’apprentissage de représentations, notamment l'apprentissage supervisé, l'apprentissage non supervisé et une approche relativement nouvelle appelée apprentissage auto-supervisé. Dans le chapitre 2, nous discutons des principes fondamentaux du traitement automatique du langage naturel profond. Plus précisément, nous couvrons les représentations de mots, les représentations de phrases et la modélisation du langage. Nous nous concentrons sur l'évaluation et l'état actuel de la littérature pour ces concepts. Nous finissons le chapitre en discutant le pré-entraînement à grande échelle et le transfert de l’apprentissage dans la langue. Dans le chapitre 3, nous étudions un ensemble de tâches auto-supervisées qui prend avantage de l’estimation contrastive bruitée afin d'apprendre des représentations de phrases à l'aide de données non étiquetées. Nous entraînons notre modèle sur un grand corpus et évaluons nos représentations de phrases apprises sur un ensemble de tâches du langage naturel en aval provenant du cadre SentEval. Notre modèle entraîné sur les tâches proposées surpasse les méthodes non-supervisées sur un sous-ensemble de tâches de SentEval. Dans les chapitres 4, nous introduisons un modèle de mémoire augmentée appelé Ordered Memory, qui présente plusieurs améliorations par rapport aux réseaux de neurones récurrents augmentés par pile traditionnels. Nous introduisons un nouveau mécanisme d'attention de Stick-breaking inspiré par les Ordered Neurons [shen et. al., 2019] pour écrire et effacer la mémoire. Une nouvelle cellule récursive à portes est également introduite pour composer des représentations de bas niveau en des représentations de haut niveau. Nous montrons que ce modèle fonctionne bien sur la tâche d'inférence logique et la tâche ListOps, et il montre également de fortes propriétés de généralisation dans ces tâches. Enfin, nous évaluons notre modèle sur les tâches (binaire et multi-classe) SST (Stanford Sentiment Treebank) et rapportons des résultats comparables à l’état de l’art sur ces tâches., In chapter 1, we introduce the basics of feed forward neural networks and recurrent neural networks. The chapter continues with the discussion of the backpropagation algorithm to train feed forward neural networks, and the backpropagation through time algorithm to train recurrent neural networks. We also discuss three different approaches in learning representations, namely supervised learning, unsupervised learning, and a relatively new approach called self-supervised learning. In chapter 2, we talk about the fundamentals of deep natural language processing. Specifically, we cover word representations, sentence representations, and language modelling. We focus on the evaluation and current state of the literature for these concepts. We close the chapter by discussing large scale pre-training and transfer learning in language. In chapter 3, we investigate a set of self-supervised tasks that take advantage of noise contrastive estimation in order to learn sentence representations using unlabeled data. We train our model on a large corpora and evaluate our learned sentence representations on a set of downstream natural language tasks from the SentEval framework. Our model trained on the proposed tasks outperforms unsupervised methods on a subset of tasks from SentEval. In chapter 4, we introduce a memory augmented model called Ordered Memory with several improvements over traditional stack-augmented recurrent neural networks. We introduce a new Stick-breaking attention mechanism inspired by Ordered Neurons [Shen et.al., 2019] to write in and erase from the memory. A new Gated Recursive Cell is also introduced to compose low level representations into higher level ones. We show that this model performs well on the logical inference task and the ListOps task, and it also shows strong generalization properties in these tasks. Finally, we evaluate our model on the SST (Stanford Sentiment Treebank) tasks (binary and fine-grained) and report results that are comparable with state-of-the-art on these tasks.
Published: 2020

26. La recherche en Science de la Science en Chine continentale : 40 ans d'évolution. Une nouvelle méthode d’analyse basée sur le clustering avec maximisation des traits et graphes de contraste

Author: Lamirel, Jean-Charles, Cuxac, Pascal, Natural Language Processing : representations, inference and semantics (SYNALP), Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Institut de l'information scientifique et technique (INIST), and Centre National de la Recherche Scientifique (CNRS)
Subjects: China, Science de la science, World, Feature maximization, Apprentissage non supervisé, [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], Unsupervised learning, Maximisation des traits, Science of Science, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [SHS.HISPHILSO]Humanities and Social Sciences/History, Philosophy and Sociology of Sciences, Diachronic analysis, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], Topic evolution, Analyse diachronique, Monde, Chine, Évolution thématique
Abstract: International audience; In a first part of this paper, we highlight the historical context of Science of Science both in China and at a world level. In a second part, based on the unsupervised combination of GNG (neural gas) clustering with feature maximization metrics and associated contrast graphs, we perform an analysis of the contents of selected academic journal papers in Science of Science in China and the construction of an overall map of the research topic structure during the last 40 years. Furthermore, we highlight the topic evolution by the exploitation of the publication dates andmake additional use of the author's information for the sake of clarifying topics content. The obtained results, validated by domain experts, interestingly show that the Chinese Science of Science has gradually become mature in the last 40 years, turning from the general nature of the discipline to the relative disciplines and their potential interactions, from the qualitative analysis to the quantitative and visual analysis, and from the general research on social function of science to more specific economic function and strategic function studies. Consequently, the proposed novel method permits without supervision, without parameters and without help of any external knowledge to have very clear andvery precise insights of the development of a scientific domain.; Dans une première partie de cet article, nous mettons en lumière le contexte historique de la Science de la Science en Chine et à l’échelle mondiale. Dans une deuxième partie, en utilisant la combinaison d’un clustering GNG (gaz de neurones), des mesures de maximisation des traits et des graphes de contraste, nous effectuons une analyse du contenu d’articles de revues académiques sélectionnées dans le domaine de la Science de la Science en Chine et construisons une carte globale de la recherche au cours des 40 dernières années. De plus, nous mettons en évidence l’évolution du domaine en exploitant les dates de publication et les informations auteurs afin de clarifier le contenu des sujets. Les résultats obtenus, validés par l’expertise, montrent clairement que la Science de la Science en Chine a progressivement mûri au cours des 40 dernières années, passant de la nature générale de la discipline aux disciplines connexes et à leurs interactions potentielles, de l’analyse qualitative à l’analyse quantitative et visuelle, et de la recherche générale sur la fonction sociale de la science aux études plus spécifiques sur sa fonction économique et stratégique. La méthode originale proposée permet d’obtenir sans supervision, sans paramètres et sans connaissances externes une vision à la fois très claire et très précise du développement d’un domaine scientifique.
Published: 2020

27. Une approche formelle de l'émergence de représentations spatiales à partir d'entrées sensorimotrices en robotique

Author: Marcel, Valentin, Institut des Systèmes Intelligents et de Robotique (ISIR), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Sorbonne Université, Sylvain Argentieri, and Bruno Gas
Subjects: Sensorimotor perception, Bootstrapping robotique, Bootstrapping robotics, Self-discovery, Apprentissage de représentation, Apprentissage non supervisé, Interactive perception, Découverte de soi, Perception interactive, Perception sensorimotrice, Unsupervised learning, Representation learning, [SPI.AUTO]Engineering Sciences [physics]/Automatic
Abstract: In this thesis, we shall propose a formalism to develop the notion of sensorimotor spatial perception in a robotic context. Usually in classical approaches to robotics, the perception of space is given to the agent through predefined models of the world such as the agent's forward kinematics and the spatial positions of effectors and sensors. However, the awareness of space does not necessarly require to be a priori provided. As an example, in the sensorimotor contingency theory, developped by J. Kevin O'Regan (2001), it is supposed that knowledge of space can be obtained from the dependencies between sensory inputs and generated actions. In this work, we shall study how an embodied agent, situated in an unknown environment with very little a priori knowledge about its body or its sensors, can build a representation of its interaction with the physical space. First, we shall provide the agent with the minimum a priori knowledge required for interpretation of its sensorimotor flow, such that the approach is general enough and is valid for the majority of robotic agents. Then, it shall be demonstrated that, by following a « refinement process », the agent can exploit basic sensory invariants during successive environments to obtain a representation of its sensors distinguishable spatial configurations in space. However, the state of the environment being unknown to the agent, the sensory invariants can be seen as random variables, so that the formalism shall be extended to stochastic processes. Furthermore, in the probability theory context of the refinement process, the agent obtains an internal representation with a metrical structure based on the sensory invariance probabilities. Hereafter, it shall be demonstrated that under some topological assumptions on the motor space, this metrical internal representation allows planning and representation of sensors' continuous trajectories in space. Finally, by computing similarities between the internal representations obtained from the agent's different sensory streams, it shall be shown that the agent is able to build a representation of its sensors topographical structure, e.g. arrangement of the camera pixels, as well as to know when it interacts with its own body which should lead to the discovery of the self.; Dans cette thèse, nous proposons un formalisme afin de développer la notion de perception sensorimotrice spatiale dans le contexte robotique. Généralement en robotique classique, la perception de l'espace est innée à l'agent grâce à la modélisation en amont d'un modèle cinématique du robot et de la configuration spatiale de ses capteurs. Cependant, la connaissance de l'espace ne doit pas nécessairement être une donnée a priori. Par exemple, l'approche des contingences sensorimotrices, développée par J. Kevin O'Regan (2001), suppose que cette connaissance peut être obtenue à partir des dépendances entre les entrées sensorielles et les commandes motrices. Dans ce travail, nous étudions comment un agent incarné et situé dans un environnement inconnu avec très peu d'information a priori sur son corps ou ses capteurs, peut construire une représentation de son interaction avec l'espace physique. Pour commencer, nous devons donner à l'agent la quantité minimale de connaissances nécessaires pour l'interprétation des données du flux sensorimoteur, ainsi l'approche est suffisamment générale pour être valide pour une majorité d'agents robotiques. Puis, nous démontrons qu'en suivant un « processus de raffinement », l'agent peut exploiter ses invariants sensoriels basiques pour construire une représentation de l'espace des configurations spatiales distinguables de ses capteurs. Cependant, l'état de l'environnement étant inconnu pour l'agent, ces invariants sensoriels peuvent être modélisés comme des variables aléatoires et le formalisme peut être étendu aux processus stochastiques. Ainsi, dans le contexte probabiliste, l'agent peut construire une représentation interne avec une structure métrique basée sur la probabilité d'obtenir des invariants sensoriels. Une fois obtenue, la structure métrique permet de définir des hypothèses topologiques de l'espace moteur afin d'obtenir une représentation interne qui permet la planification ainsi que la représentation de trajectoires continues des capteurs dans l'espace. Pour finir, en comparant les représentations obtenues pour les différents flux de données sensorielles, il est possible de montrer que l'agent obtient aussi une représentation de la structure topographique de ses capteurs, par exemple l'arrangement des pixels d'une caméra, mais aussi de savoir quand l'agent interagit avec son propre corps ce qui lui permettrait de découvrir le soi.
Published: 2020

28. Data Anonymisation through Unsupervised Learning

Author: Zouinina, Sarah, STAR, ABES, Laboratoire d'Informatique de Paris-Nord (LIPN), Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Nord, Université Paris-Nord - Paris XIII, Ecole nationale des sciences appliquées (Kénitra, Maroc), Younès Bennani, and Abdelouahid Lyhyaoui
Subjects: [INFO.INFO-CY] Computer Science [cs]/Computers and Society [cs.CY], [INFO.INFO-CY]Computer Science [cs]/Computers and Society [cs.CY], Apprentissage non supervisé, Sécurité des données, Anomysation des données, Data anomyzation, Clustering, Privacy preservation
Abstract: Preserving the utility of anonymized data is one of the biggest limitationto the research field of Privacy Preserving Machine Learning. On theone hand, people claim a maximum level of privacy to protect their personalinformation from malicious intruders. And on the other hand, researchers,industries and governments demand a higher level of utility in order to developproducts that are interesting and suitable to the specific needs of theircustomers. The research presented in this thesis tackles the privacy-utilitytrade-off by using unsupervised learning approaches. Firstly, the Multi-viewCollaborative Self Organizing Maps as a way to cluster the data locally oneach view of the data set, but collaborate by exchanging information abouttheir findings. Secondly, the 1D Kernel Density Estimation, as a way to improvethe utility of the anonymized data while respecting the distributionof each feature in the dataset. Lasty, a supervised learning layer using theWeighted Learning Vector Quantization is added in order to enhance thelearning of the previously proposed approaches, and give more representativeprototypes to pseudo-anonymize the data. The tests were done on morethan six different datasets, and the results show an improvement in the accuracyof the models compared to the state of the art MDAV algorithm. Theresearch presented give some interesting ways of using machine learning toachieve privacy preservation through multiview microaggregation, Depuis la mise en vigueur du Règlement Général sur la Protection des Données (RGPD), l’intérêt pour la protection et la sécurité des données a évolué. D’une part, les nombreux accidents de fuite de données. D’une autre part, l’évolution exponentielle des utilisateurs des appareils connectés dans le monde entier, ont fait de l’anonymisation des données une nécessité pour la sécurité des individus y figurant. Depuis les années 2000,plusieurs techniques d’anonymisation des données ont été proposées, certaines relèvent de la cryptographie, d’autres des statistiques et certaines se basaient sur la fouille des données. Les travaux présentés dans cette thèse, résument, comparent et développent des méthodes d’anonymisation des données en se basant sur l’Apprentissage Automatique. Les deux premières approches proposent d’utiliser l’apprentissage collaboratif comme un outil d’anonymisation des données. La troisième méthode utilise le clustering par densité des noyaux à une dimension pour protéger les données. La dernière solution proposée, améliore les performances des trois méthodes introduites précédemment en rajoutant une couche d’anonymisation supervisée. Les méthodes sont validées par des mesures d’utilité et de confidentialité. Ce mémoire est structuré en quatre chapitres de poids relativement équivalents. Après une introduction rapide, le premier chapitre expose le contexte scientifique général de la thèse. Le chapitre deux, trois et quatre présentent les contributions effectives et discutent leur validation expérimentale sur plusieurs jeux de données.
Published: 2020

29. Extensions de l’algorithme d’atteignabilité arrière dans le cadre de la vérification de modèles modulo théories

Author: Roux, Mattias, Laboratoire de Recherche en Informatique (LRI), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Université Paris Saclay (COmUE), Sylvain Conchon, Formally Verified Programs, Certified Tools and Numerical Computations (TOCCATA), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), and STAR, ABES
Subjects: [INFO.INFO-LO] Computer Science [cs]/Logic in Computer Science [cs.LO], Apprentissage non supervisé, [INFO.INFO-LO]Computer Science [cs]/Logic in Computer Science [cs.LO], Vérification de modèles, Vérification de modèles modulo theories, Unsupervised learning, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], Model Checking, Vérification déductive, Satisfiability Modulo Theories, [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], Model Checking Modulo Theories, Distributed Systems, Deductive Verification, Systèmes distribués, Satisfiabilité modulo théories
Abstract: This thesis proposes to present several extensions that have been added to the Cubicle model checker.Cubicle is a software allowing to automatically check the safety of parameterized systems using model checking modulo theory techniques.The first contribution made by this thesis consists in the implementation of a new reachability algorithm called FAR (for Forward Abstracted Reachabilty). FAR is an algorithm involving both backward reachability analysis techniques already implemented in Cubicle as well as forward reachability analysis techniques.The second contribution consists of multiple additions inspired by artificial intelligence methods to improve the automatic generation of Cubicle invariants.Finally, the last contribution has increased Cubicle's expressiveness in order to prove properties involving universal quantifiers. This contribution was implemented by associating Cubicle with Why3, a deductive verification platform., Cette thèse se propose de présenter plusieurs extensions ayant été ajoutées au vérificateur de modèles Cubicle.Cubicle est un logiciel permettant de vérifier automatiquement la sûreté de systèmes paramétrés au moyen de techniques de vérification de modèles modulo théories.La première contribution apportée par cette thèse consiste en l'implémentation d'un nouvel algorithme d'atteignabilité baptisé FAR (pour Forward Abstracted Reachabilty). FAR est un algorithme faisant intervenir à la fois des techniques de l'analyse d'atteignabilité en arrière déjà implémentée dans Cubicle ainsi que des techniques d'analyse d'atteignabilité en avant.La seconde contribution est constituée de multiples ajouts inspirés de méthodes de l'intelligence artificielle afin d'améliorer la génération automatique d'invariants de Cubicle.Enfin, la dernière contribution a permis d'augmenter l'expressivité de Cubicle afin de prouver des propriétés faisant intervenir des quantificateurs universels. Cette contribution a été mise en œuvre en associant Cubicle à Why3, une plateforme de vérification déductive.
Published: 2019

30. Agnostic Feature Selection

Author: Doquet, Guillaume Florent, Université Paris-Saclay, Centre National de la Recherche Scientifique (CNRS), Laboratoire de Recherche en Informatique (LRI), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), TAckling the Underspecified (TAU), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Paris Saclay (COmUE), Michèle Sebag, CentraleSupélec-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS), CentraleSupélec-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-CentraleSupélec-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Université Paris-Saclay/Université Paris-Sud, and Doquet, Guillaume Florent
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], Feature Selection Algorithm, Apprentissage non supervisé, [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], [INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], Neural Network, Réduction de dimension, [INFO.INFO-DS] Computer Science [cs]/Data Structures and Algorithms [cs.DS], [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], Unsupervised learning, Sélection d’attributs, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Feature selection, Réseau de neurones, Sélection d'attributs
Abstract: With the advent of Big Data, databases whose size far exceed the human scale are becoming increasingly common. The resulting overabundance of monitored variables (friends on a social network, movies watched, nucleotides coding the DNA, monetary transactions...) has motivated the development of Dimensionality Reduction (DR) techniques. A DR algorithm such as Principal Component Analysis (PCA) or an AutoEncoder typically combines the original variables into new features fewer in number, such that most of the information in the dataset is conveyed by the extracted feature set.A particular subcategory of DR is formed by Feature Selection (FS) methods, which directly retain the most important initial variables. How to select the best candidates is a hot topic at the crossroad of statistics and Machine Learning. Feature importance is usually inferred in a supervised context, where variables are ranked according to their usefulness for predicting a specific target feature.The present thesis focuses on the unsupervised context in FS, i.e. the challenging situation where no prediction goal is available to help assess feature relevance. Instead, unsupervised FS algorithms usually build an artificial classification goal and rank features based on their helpfulness for predicting this new target, thus falling back on the supervised context. Additionally, the efficiency of unsupervised FS approaches is typically also assessed in a supervised setting.In this work, we propose an alternate model combining unsupervised FS with data compression. Our Agnostic Feature Selection (AgnoS) algorithm does not rely on creating an artificial target and aims to retain a feature subset sufficient to recover the whole original dataset, rather than a specific variable. As a result, AgnoS does not suffer from the selection bias inherent to clustering-based techniques.The second contribution of this work (Agnostic Feature Selection, G. Doquet and M. Sebag, ECML PKDD 2019) is to establish both the brittleness of the standard supervised evaluation of unsupervised FS, and the stability of the new proposed AgnoS., Les bases de données dont la taille dépasse largement l'échelle humaine sont de plus en plus courantes. La surabondance de variables considérées qui en résulte (amis sur un réseau social, films regardés, nucléotides codant l'ADN, transactions monétaires...) a motivé le développement des techniques de réduction de dimensionalité (DR). Une sous-catégorie particulière de DR est formée par les méthodes de sélection d'attributs (SA), qui conservent directement les variables initiales les plus importantes. La manière de sélectionner les meilleurs candidats est un sujet d'actualité à la croisée des chemins entre statistiques et apprentissage automatique. L'importance des attributs est généralement déduite dans un contexte supervisé, où les variables sont classées en fonction de leur utilité pour prédire une variable cible spécifique. Cette thèse porte sur le contexte non supervisé de la SA, c'est-à-dire la situation épineuse où aucun objectif de prédiction n'est disponible pour évaluer la pertinence des attributs. Au lieu de cela, les algorithmes de SA non supervisés construisent généralement un objectif de classification artificiel et notent les attributs en fonction de leur utilité pour prédire cette nouvelle cible, se rabattant ainsi sur le contexte supervisé. Dans ce travail, nous proposons un autre modèle combinant SA non supervisée et compression de données. Notre algorithme AgnoS (Agnostic Feature Selection) ne repose pas sur la création d'une cible artificielle, et vise à conserver un sous-ensemble d'attributs suffisant pour reconstruire l'intégralité des données d'origine, plutôt qu'une variable cible en particulier. Par conséquent, AgnoS ne souffre pas du biais de sélection inhérent aux techniques basées sur le clustering.La seconde contribution de ce travail (Agnostic Feature Selection, G. Doquet and M. Sebag, ECML PKDD 2019) est d'établir à la fois la fragilité du processus supervisé standard d'évaluation de la SA non supervisée ainsi que la stabilité du nouvel algorithme proposé AgnoS.
Published: 2019

31. Improved training of energy-based models

Author: Kumar, Rithesh and Bengio, Yoshua
Subjects: apprentissage profond, modèles génératifs, generative models, energy-based models, apprentissage non supervisé, modèles basés sur l'énergie, deep learning, unsupervised learning
Abstract: L'estimation du maximum de vraisemblance des modèles basés sur l'énergie est un problème difficile à résoudre en raison de l'insolubilité du gradient du logarithmique de la vraisemblance. Dans ce travail, nous proposons d'apprendre à la fois la fonction d'énergie et un mécanisme d'échantillonnage approximatif amorti à l'aide d'un réseau de générateurs neuronaux, qui fournit une approximation efficace du gradient de la log-vraisemblance. L'objectif qui en résulte exige la maximisation de l'entropie des échantillons générés, que nous réalisons en utilisant des estimateurs d'information mutuelle non paramétriques récemment proposés. Enfin, pour stabiliser le jeu antagoniste qui en résulte, nous utilisons une pénalité du gradient, centrée en zéro, dérivée comme condition nécessaire issue de la littérature sur l'alignement des scores. La technique proposée peut générer des images nettes avec des scores d'Inception et de FID compétitifs par rapport aux techniques récentes de GAN, ne souffrant pas d'effondrement de mode, et compétitive par rapport aux techniques de détection d'anomalies les plus récentes. Le chapitre 1 introduit les concepts essentiels à la compréhension des travaux présentés dans cette thèse, tels que les modèles graphiques fondés sur l'énergie, les méthodes de Monte-Carlo par chaînes de Markov, les réseaux antagonistes génératifs et l'estimation de l'information mutuelle. Le chapitre 2 contient un article détaillant notre travail sur l'amélioration de l'entraînement des fonctions d'énergie. Enfin, le chapitre 3 présente quelques conclusions tirées de ce travail de thèse, la portée des travaux futurs, ainsi que des questions ouvertes qui restent sans réponse., Maximum likelihood estimation of energy-based models is a challenging problem due to the intractability of the log-likelihood gradient. In this work, we propose learning both the energy function and an amortized approximate sampling mechanism using a neural generator network, which provides an efficient approximation of the log-likelihood gradient. The resulting objective requires maximizing entropy of the generated samples, which we perform using recently proposed nonparametric mutual information estimators. Finally, to stabilize the resulting adversarial game, we use a zero-centered gradient penalty derived as a necessary condition from the score matching literature. The proposed technique can generate sharp images with Inception and FID scores competitive with recent GAN techniques, does not suffer from mode collapse, and is competitive with state-of-the-art anomaly detection techniques.
Published: 2019

32. Découverte d'unités linguistiques à l'aide de méthodes d'apprentissage non supervisé

Author: Manenti, Céline, Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio (IRIT-SAMoVA), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Université Paul Sabatier - Toulouse III, Julien Pinquier, and Thomas Pellegrini
Subjects: Speech processing, Linguistic units, Deep neural networks, Apprentissage non supervisé, Réseaux de neurones profonds, Unités linguistiques, Langues peu dotées, Traitement de la parole, Unsupervised learning, Less resourced langages, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: The discovery of elementary linguistic units (phonemes, words) only from sound recordings is an unresolved problem that arouses a strong interest from the community of automatic speech processing, as evidenced by the many recent contributions of the state of the art. During this thesis, we focused on using neural networks to answer the problem. We approached the problem using neural networks in a supervised, poorly supervised and multilingual manner. We have developed automatic phoneme segmentation and phonetic classification tools based on convolutional neural networks. The automatic segmentation tool obtained 79% F-measure on the BUCKEYE conversational speech corpus. This result is similar to a human annotator according to the inter-annotator agreement provided by the creators of the corpus. In addition, it does not need a lot of data (about ten minutes per speaker and 5 different speakers) to be effective. In addition, it is portable to other languages (especially for poorly endowed languages such as xitsonga). The phonetic classification system makes it possible to set the various parameters and hyperparameters that are useful for an unsupervised scenario. In the unsupervised context, the neural networks (Auto-Encoders) allowed us to generate new parametric representations, concentrating the information of the input frame and its neighboring frames. We studied their utility for audio compression from the raw signal, for which they were effective (low RMS, even at 99% compression). We also carried out an innovative pre-study on a different use of neural networks, to generate vectors of parameters not from the outputs of the layers but from the values of the weights of the layers. These parameters are designed to mimic Linear Predictive Coefficients (LPC). In the context of the unsupervised discovery of phoneme-like units (called pseudo-phones in this memory) and the generation of new phonetically discriminative parametric representations, we have coupled a neural network with a clustering tool (k-means ). The iterative alternation of these two tools allowed the generation of phonetically discriminating parameters for the same speaker: low rates of intra-speaker ABx error of 7.3% for English, 8.5% for French and 8 , 4% for Mandarin were obtained. These results allow an absolute gain of about 4% compared to the baseline (conventional parameters MFCC) and are close to the best current approaches (1% more than the winner of the Zero Resource Speech Challenge 2017). The inter-speaker results vary between 12% and 15% depending on the language, compared to 21% to 25% for MFCCs.; La découverte d'unités linguistiques élémentaires (phonèmes, mots) uniquement à partir d'enregistrements sonores est un problème non-résolu qui suscite un fort intérêt de la communauté du traitement automatique de la parole, comme en témoignent les nombreuses contributions récentes de l'état de l'art. Durant cette thèse, nous nous sommes concentrés sur l'utilisation de réseaux de neurones pour répondre au problème. Nous avons approché le problème en utilisant les réseaux de neurones de manière supervisée, faiblement supervisée et multilingue. Nous avons ainsi développé des outils de segmentation automatique en phonèmes et de classification phonétique fondés sur des réseaux de neurones convolutifs. L'outil de segmentation automatique a obtenu 79% de F-mesure sur le corpus de parole conversationnelle en anglais BUCKEYE. Ce résultat est similaire à un annotateur humain d'après l'accord inter-annotateurs fourni par les créateurs du corpus. De plus, il n'a pas besoin de beaucoup de données (environ une dizaine de minutes par locuteur et 5 locuteurs différents) pour être performant. De plus, il est portable à d'autres langues (notamment pour des langues peu dotées telle que le xitsonga). Le système de classification phonétique permet de fixer les différents paramètres et hyperparamètres utiles pour un scénario non supervisé. Dans le cadre non supervisé, les réseaux de neurones (Auto-Encodeurs) nous ont permis de générer de nouvelles représentations paramétriques, concentrant l'information de la trame d'entrée et ses trames voisines. Nous avons étudié leur utilité pour la compression audio à partir du signal brut, pour laquelle ils se sont montrés efficaces (faible taux de RMS, même avec une compression de 99%). Nous avons également réalisé une pré-étude novatrice sur une utilisation différente des réseaux de neurones, pour générer des vecteurs de paramètres non pas à partir des sorties des couches mais des valeurs des poids des couches. Ces paramètres visent à imiter les coefficients de prédiction linéaire (Linear Predictive Coefficients, LPC). Dans le contexte de la découverte non supervisée d'unités similaires à des phonèmes (dénommées pseudo-phones dans ce mémoire) et la génération de nouvelles représentations paramétriques phonétiquement discriminantes, nous avons couplé un réseau de neurones avec un outil de regroupement (k-means). L'alternance itérative de ces deux outils a permis la génération de paramètres phonétiquement discriminants pour un même locuteur : de faibles taux d'erreur ABx intra-locuteur de 7,3% pour l'anglais, 8,5% pour le français et 8,4% pour le mandarin ont été obtenus. Ces résultats permettent un gain absolu d'environ 4% par rapport à la baseline (paramètres classiques MFCC) et sont proches des meilleures approches actuelles (1% de plus que le vainqueur du Zero Ressource Speech Challenge 2017). Les résultats inter-locuteurs varient entre 12% et 15% suivant la langue, contre 21% à 25% pour les MFCC.
Published: 2019

33. Discovery of linguistic units using unsupervised learning methods

Author: Manenti, Céline, Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio (IRIT-SAMoVA), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Université Paul Sabatier - Toulouse III, Julien Pinquier, Thomas Pellegrini, and STAR, ABES
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], Speech processing, Linguistic units, Deep neural networks, Apprentissage non supervisé, Réseaux de neurones profonds, Unités linguistiques, Langues peu dotées, Traitement de la parole, Unsupervised learning, Less resourced langages, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: The discovery of elementary linguistic units (phonemes, words) only from sound recordings is an unresolved problem that arouses a strong interest from the community of automatic speech processing, as evidenced by the many recent contributions of the state of the art. During this thesis, we focused on using neural networks to answer the problem. We approached the problem using neural networks in a supervised, poorly supervised and multilingual manner. We have developed automatic phoneme segmentation and phonetic classification tools based on convolutional neural networks. The automatic segmentation tool obtained 79% F-measure on the BUCKEYE conversational speech corpus. This result is similar to a human annotator according to the inter-annotator agreement provided by the creators of the corpus. In addition, it does not need a lot of data (about ten minutes per speaker and 5 different speakers) to be effective. In addition, it is portable to other languages (especially for poorly endowed languages such as xitsonga). The phonetic classification system makes it possible to set the various parameters and hyperparameters that are useful for an unsupervised scenario. In the unsupervised context, the neural networks (Auto-Encoders) allowed us to generate new parametric representations, concentrating the information of the input frame and its neighboring frames. We studied their utility for audio compression from the raw signal, for which they were effective (low RMS, even at 99% compression). We also carried out an innovative pre-study on a different use of neural networks, to generate vectors of parameters not from the outputs of the layers but from the values of the weights of the layers. These parameters are designed to mimic Linear Predictive Coefficients (LPC). In the context of the unsupervised discovery of phoneme-like units (called pseudo-phones in this memory) and the generation of new phonetically discriminative parametric representations, we have coupled a neural network with a clustering tool (k-means ). The iterative alternation of these two tools allowed the generation of phonetically discriminating parameters for the same speaker: low rates of intra-speaker ABx error of 7.3% for English, 8.5% for French and 8 , 4% for Mandarin were obtained. These results allow an absolute gain of about 4% compared to the baseline (conventional parameters MFCC) and are close to the best current approaches (1% more than the winner of the Zero Resource Speech Challenge 2017). The inter-speaker results vary between 12% and 15% depending on the language, compared to 21% to 25% for MFCCs., La découverte d'unités linguistiques élémentaires (phonèmes, mots) uniquement à partir d'enregistrements sonores est un problème non-résolu qui suscite un fort intérêt de la communauté du traitement automatique de la parole, comme en témoignent les nombreuses contributions récentes de l'état de l'art. Durant cette thèse, nous nous sommes concentrés sur l'utilisation de réseaux de neurones pour répondre au problème. Nous avons approché le problème en utilisant les réseaux de neurones de manière supervisée, faiblement supervisée et multilingue. Nous avons ainsi développé des outils de segmentation automatique en phonèmes et de classification phonétique fondés sur des réseaux de neurones convolutifs. L'outil de segmentation automatique a obtenu 79% de F-mesure sur le corpus de parole conversationnelle en anglais BUCKEYE. Ce résultat est similaire à un annotateur humain d'après l'accord inter-annotateurs fourni par les créateurs du corpus. De plus, il n'a pas besoin de beaucoup de données (environ une dizaine de minutes par locuteur et 5 locuteurs différents) pour être performant. De plus, il est portable à d'autres langues (notamment pour des langues peu dotées telle que le xitsonga). Le système de classification phonétique permet de fixer les différents paramètres et hyperparamètres utiles pour un scénario non supervisé. Dans le cadre non supervisé, les réseaux de neurones (Auto-Encodeurs) nous ont permis de générer de nouvelles représentations paramétriques, concentrant l'information de la trame d'entrée et ses trames voisines. Nous avons étudié leur utilité pour la compression audio à partir du signal brut, pour laquelle ils se sont montrés efficaces (faible taux de RMS, même avec une compression de 99%). Nous avons également réalisé une pré-étude novatrice sur une utilisation différente des réseaux de neurones, pour générer des vecteurs de paramètres non pas à partir des sorties des couches mais des valeurs des poids des couches. Ces paramètres visent à imiter les coefficients de prédiction linéaire (Linear Predictive Coefficients, LPC). Dans le contexte de la découverte non supervisée d'unités similaires à des phonèmes (dénommées pseudo-phones dans ce mémoire) et la génération de nouvelles représentations paramétriques phonétiquement discriminantes, nous avons couplé un réseau de neurones avec un outil de regroupement (k-means). L'alternance itérative de ces deux outils a permis la génération de paramètres phonétiquement discriminants pour un même locuteur : de faibles taux d'erreur ABx intra-locuteur de 7,3% pour l'anglais, 8,5% pour le français et 8,4% pour le mandarin ont été obtenus. Ces résultats permettent un gain absolu d'environ 4% par rapport à la baseline (paramètres classiques MFCC) et sont proches des meilleures approches actuelles (1% de plus que le vainqueur du Zero Ressource Speech Challenge 2017). Les résultats inter-locuteurs varient entre 12% et 15% suivant la langue, contre 21% à 25% pour les MFCC.
Published: 2019

34. Le Linked Data à l'université : la plateforme LinkedWiki

Author: Rafes, Karima, BorderCloud [Issy-les-Moulineaux], Laboratoire de Recherche en Informatique (LRI), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria), Value from Data (VALDA ), Département d'informatique - ENS Paris (DI-ENS), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Inria de Paris, Université Paris Saclay (COmUE), Sarah Cohen-Boulakia, and Serge Abiteboul
Subjects: [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], VRE - Environnement Virtuel de Recherche, Apprentissage non supervisé, [INFO.INFO-WB]Computer Science [cs]/Web, SPARQL, Unsupervised learning, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Linked Data, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], Autocomplétion, VRE - Virtual Research Environment, LOD - Linked Open Data, Cloud, Autocompletion
Abstract: The Center for Data Science of the University of Paris-Saclay deployed a platform compatible with Linked Data in 2016. Because researchers face many difficulties utilizing these technologies, an approach and then a platform we call LinkedWiki were designed and tested over the university’s cloud (IAAS) to enable the creation of modular virtual search environments (VREs) compatible with Linked Data. We are thus able to offer researchers a means to discover, produce and reuse the research data available within the Linked Open Data, i.e., the global information system emerging at the scale of the internet. This experience enabled us to demonstrate that the operational use of Linked Data within a university is perfectly possible with this approach. However, some problems persist, such as (i) the respect of protocols and (ii) the lack of adapted tools to interrogate the Linked Open Data with SPARQL. We propose solutions to both these problems. In order to be able to verify the respect of a SPARQL protocol within the Linked Data of a university, we have created the SPARQL Score indicator which evaluates the compliance of the SPARQL services before their deployments in a university’s information system. In addition, to help researchers interrogate the LOD, we implemented a SPARQLets-Finder, a demonstrator which shows that it is possible to facilitate the design of SPARQL queries using autocompletion tools without prior knowledge of the RDF schemas within the LOD.; Le Center for Data Science de l’Université Paris-Saclay a déployé une plateforme compatible avec le Linked Data en 2016. Or, les chercheurs rencontrent face à ces technologies de nombreuses difficultés. Pour surmonter celles-ci, une approche et une plateforme appelée LinkedWiki, ont été conçues et expérimentées au-dessus du cloud de l’université (IAAS) pour permettre la création d’environnements virtuels de recherche (VRE) modulaires et compatibles avec le Linked Data. Nous avons ainsi pu proposer aux chercheurs une solution pour découvrir, produire et réutiliser les données de la recherche disponibles au sein du Linked Open Data, c’est-à-dire du système global d’information en train d’émerger à l’échelle du Web. Cette expérience nous a permis de montrer que l’utilisation opérationnelle du Linked Data au sein d’une université est parfaitement envisageable avec cette approche. Cependant, certains problèmes persistent, comme (i) le respect des protocoles du Linked Data et (ii) le manque d’outils adaptés pour interroger le Linked Open Data avec SPARQL. Nous proposons des solutions à ces deux problèmes. Afin de pouvoir vérifier le respect d’un protocole SPARQL au sein du Linked Data d’une université, nous avons créé l’indicateur SPARQL Score qui évalue la conformité des services SPARQL avant leur déploiement dans le système d’information de l’université. De plus, pour aider les chercheurs à interroger le LOD, nous avons implémenté le démonstrateur SPARQLets-Finder qui démontre qu’il est possible de faciliter la conception de requêtes SPARQL à l’aide d’outils d’autocomplétion sans connaissance préalable des schémas RDF au sein du LOD.
Published: 2019

35. Advanced Difference of Convex functions Algorithms for some topics of Machine Learning with Big Data

Author: Tran, Bach and UL, Thèses
Subjects: Apprentissage non supervisé, Apprentissage en profondeur, [INFO.INFO-DS] Computer Science [cs]/Data Structures and Algorithms [cs.DS], Apprentissage automatique, [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], [INFO] Computer Science [cs], Classification, Clustering, Machine Learning, Deep Learning, Non-convex optimization, Programmation DC et DCA, Classification supervisée, Optimisation non-convexe, DC Programming and DCA
Abstract: Big Data has become gradually essential and ubiquitous in all aspects nowadays. Therefore, there is an urge to develop innovative and efficient techniques to deal with the rapid growth in the volume of data. This dissertation considers the following problems in Big Data: group variable selection in multi-class logistic regression, dimension reduction by t-SNE (t-distributed Stochastic Neighbor Embedding), and deep clustering. We develop advanced DCAs (Difference of Convex functions Algorithms) for these problems, which are based on DC Programming and DCA – the powerful tools for non-smooth non-convex optimization problems. Firstly, we consider the problem of group variable selection in multi-class logistic regression. We tackle this problem by using recently advanced DCAs -- Stochastic DCA and DCA-Like. Specifically, Stochastic DCA specializes in the large sum of DC functions minimization problem, which only requires a subset of DC functions at each iteration. DCA-Like relaxes the convexity condition of the second DC component while guaranteeing the convergence. Accelerated DCA-Like incorporates the Nesterov's acceleration technique into DCA-Like to improve its performance. The numerical experiments in benchmark high-dimensional datasets show the effectiveness of proposed algorithms in terms of running time and solution quality. The second part studies the t-SNE problem, an effective non-linear dimensional reduction technique. Motivated by the novelty of DCA-Like and Accelerated DCA-Like, we develop two algorithms for the t-SNE problem. The superiority of proposed algorithms in comparison with existing methods is illustrated through numerical experiments for visualization application. Finally, the third part considers the problem of deep clustering. In the first application, we propose two algorithms based on DCA to combine t-SNE with MSSC (Minimum Sum-of-Squares Clustering) by following two approaches: “tandem analysis” and joint-clustering. The second application considers clustering with auto-encoder (a well-known type of neural network). We propose an extension to a class of joint-clustering algorithms to overcome the scaling problem and applied for a specific case of joint-clustering with MSSC. Numerical experiments on several real-world datasets show the effectiveness of our methods in rapidity and clustering quality, compared to the state-of-the-art methods., De nos jours, le Big Data est devenu essentiel et omniprésent dans tous les domaines. Par conséquence, il est nécessaire de développer des techniques innovantes et efficaces pour traiter la croissance rapide du volume des masses de données. Nous considérons les problèmes suivants dans le contexte de Big Data : la sélection de groupes de variables pour la régression logistique multi-classes, la réduction de dimension par t-SNE (« t-distributed Stochastic Neighbor Embedding « en anglais) et l'apprentissage en profondeur pour la classification non-supervisée (« Deep Clustering « en anglais). Nous développons des algorithmes DC (Difference of Convex functions) avancés pour ces problèmes, qui sont basés sur la programmation DC et DCA (DC Algorithm) -- des outils puissants pour les problèmes d'optimisation non-convexes non-différentiables. Dans la première partie, nous étudions le problème de la sélection de groupes de variables pour la régression logistique multi-classes. Nous résolvons ce problème en utilisant des DCAs avancés – Stochastic DCA et DCA-Like. Plus précisément, Stochastic DCA se spécialise dans le problème de la minimisation de la grande somme des fonctions DC, et ne nécessite qu'un sous-ensemble de fonctions DC à chaque itération. DCA-Like relaxe la condition de convexité de la deuxième composante DC en assurant la convergence. Accelerated DCA-Like intègre la technique d'accélération de Nesterov dans DCA-Like pour améliorer sa performance. Les expériences numériques sur plusieurs jeux de données benchmark de grande taille montrent l'efficacité de tous les algorithmes proposés en termes de temps d'exécution et de qualité de la solution. La deuxième partie concerne t-SNE, une technique efficace de réduction de dimension non linéaire. t-SNE est modélisé sous forme d'un problème d'optimisation non-convexe. Motivés par le caractère novateur de DCA-Like et Accelerated DCA-Like, nous développons ces deux algorithmes pour résoudre le problème t-SNE. La supériorité de nos algorithmes, appliqués à la visualisation de données, par rapport aux méthodes existantes est illustrée via des expériences numériques réalisées sur les jeux de données de très grande taille. La troisième partie est consacrée à la classification non-supervisée par l'apprentissage en profondeur. Dans la première application, nous proposons deux algorithmes basés sur DCA pour combiner t-SNE avec MSSC (Minimum Sum-of-Squares Clustering) par ces deux approches : « tandem analysis » et joint-clustering. La deuxième application considère le clustering en utilisant l'auto-encodeur. Nous avons proposé une extension d'une classe d'algorithmes de joint-clustering pour résoudre le problème de mise à l'échelle de données (« scaling problem » en anglais), et appliqué pour un cas spécifique de joint-clustering avec MSSC. Les résultats numériques sur plusieurs jeux de données benchmark montre l'efficacité de notre algorithme comparé aux méthodes existantes.
Published: 2019

36. Contributions to inter-views communications applied to collaborative learning

Author: Maurel, Denis, Laboratoire d'Informatique, Signal et Image, Electronique et Télécommunication (LISITE), Institut Supérieur d'Electronique de Paris (ISEP), Sorbonne Université, and Raja Chiky
Subjects: Collaborative clustering, Apprentissage collaboratif, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Machine learning, Apprentissage non supervisé, Réseaux de neurones, Reconstruction collaborative, Unsupervised learning, Neural networks, Collaborative reconstruction, Collaborative learning, Clustering collaboratif
Abstract: This thesis presents several methods to optimize and improve inter-views communications in a collaborative learning context: The first contribution is about the improvement of communications for Collaborative Clustering using a learning method making it possible for a view to weight the information supplied by the external views. This methods is based on the resolution of a problem made of the Collaborative Clustering criterion with two constraints of the weighting coefficients. A second contribution consists in the definition of an incremental learning method of Self-Organizing Maps, followed by its adaptation to Collaborative Clustering. This method makes it possible to adapt the results obtained using Collaborative Clustering in case of a potential evolution in data distribution through time. The second axis consists in the definition of a new paradigm, called Collaborative Reconstruction. In this paradigm, several views collaborate to reconstruct local missing data. This method is based on neural networks linking external data and local data. The combination of the external informations is guaranteed by a weighting method favoring the best reconstructed features for each external view.; Cette thèse présente plusieurs méthodes d'optimisation et d'amélioration des communications inter-vues dans un contexte d'apprentissage collaboratif. Deux axes sont développés: Le premier concerne l'amélioration des communications pour le clustering collaboratif, un paradigme dans lequel plusieurs jeux de données, appelés vues, sont utilisés pour effectuer un premier clustering local avant de s'échanger des informations afin de parvenir à un concensus sur leurs résultats. Notre premier contribution consiste en une méthode d'apprentissage permettant à une vue de pondérer l'information fournit par les vues externes. Cette méthode se base sur la résolution d'un problème constitué du critère du clustering collaboratif auquel à été ajouté deux contraintes sur les coefficients de pondérations. Une seconde contribution consiste en la définition d'une méthode d'apprentissage incrémentale de cartes auto-adaptatrices de Kohonen, suivie de son adaptation au clustering collaboratif. Cette méthode permet entre autre la mise à jour des résultats obtenus via le clustering collaboratif en cas d'évolution dans la distribution des données pouvant survenir au cours du temps. Le second axe consiste en la définition d'un nouveau paradigme collaboratif, appelé reconstruction collaborative. Dans ce paradigme, plusieurs vues collaborent pour reconstruire des données localement manquantes. Cette méthode se base sur des réseaux de neurones permettant de faire le lien entre les données externes et les données locales. La combinaison des informations externes est assurée par une méthode de pondération permettant de privilégier les caractéristiques les mieux reconstruites par chaque vue externe.
Published: 2018

37. Blind decentralized projection receiver for asynchronous CDMA in multipath channels.

Author: Ghauri, Irfan and Dirk, T.
Abstract: Copyright of Annals of Telecommunications is the property of Springer Nature and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 1999
Full Text: View/download PDF

38. Blind multiuser detection in space division multiple access systems.

Author: Cavalcanti, R. and Romano, M.
Abstract: Copyright of Annals of Telecommunications is the property of Springer Nature and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 1999
Full Text: View/download PDF

39. Blind and semi-blind equalization: methods and algorithms.

Author: Buchoux, Vincent, Perros-Meilhac, Lisa, Cappé, Olivier, and Moulines, Eric
Abstract: Copyright of Annals of Telecommunications is the property of Springer Nature and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 1998
Full Text: View/download PDF

40. L’égalisation numérique en communications.

Author: Macchi, Odile
Abstract: Copyright of Annals of Telecommunications is the property of Springer Nature and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 1998
Full Text: View/download PDF

41. Contributions à l'apprentissage non supervisé à partir de flux de données massives en grande dimension : structuration, hashing et clustering

Author: Morvan, Anne, Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE), Université Paris Dauphine-PSL, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS), Université Paris sciences et lettres, and Jamal Atif
Subjects: Sketching, Flux, Nearest neighbors search, Hachage, Apprentissage non supervisé, Réduction de dimension, Streaming, Dimensionality reduction, Unsupervised learning, Clustering, Recherche des plus proches voisins, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Hashing, Résumés minimalistes, Approximation
Abstract: This thesis focuses on how to perform efficiently unsupervised machine learning such as the fundamentally linked nearest neighbor search and clustering task, under time and space constraints for high-dimensional datasets. First, a new theoretical framework reduces the space cost and increases the rate of flow of data-independent Cross-polytope LSH for the approximative nearest neighbor search with almost no loss of accuracy.Second, a novel streaming data-dependent method is designed to learn compact binary codes from high-dimensional data points in only one pass. Besides some theoretical guarantees, the quality of the obtained embeddings are accessed on the approximate nearest neighbors search task.Finally, a space-efficient parameter-free clustering algorithm is conceived, based on the recovery of an approximate Minimum Spanning Tree of the sketched data dissimilarity graph on which suitable cuts are performed.; Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées.
Published: 2018

42. Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering

Author: Morvan, Anne, Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE), Université Paris Dauphine-PSL, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS), Université Paris sciences et lettres, and Jamal Atif
Subjects: Sketching, Flux, Nearest neighbors search, Hachage, Apprentissage non supervisé, Réduction de dimension, Streaming, Dimensionality reduction, Unsupervised learning, Clustering, Recherche des plus proches voisins, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Hashing, Résumés minimalistes, Approximation
Abstract: This thesis focuses on how to perform efficiently unsupervised machine learning such as the fundamentally linked nearest neighbor search and clustering task, under time and space constraints for high-dimensional datasets. First, a new theoretical framework reduces the space cost and increases the rate of flow of data-independent Cross-polytope LSH for the approximative nearest neighbor search with almost no loss of accuracy.Second, a novel streaming data-dependent method is designed to learn compact binary codes from high-dimensional data points in only one pass. Besides some theoretical guarantees, the quality of the obtained embeddings are accessed on the approximate nearest neighbors search task.Finally, a space-efficient parameter-free clustering algorithm is conceived, based on the recovery of an approximate Minimum Spanning Tree of the sketched data dissimilarity graph on which suitable cuts are performed.; Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées.
Published: 2018

43. Representation Learning for Visual Data

Author: Dumoulin, Vincent, Bengio, Yoshua, and Courville, Aaron
Subjects: Apprentissage non supervisé, Calcul par système physique, Deep learning, Apprentissage automatique, Image synthesis, Unsupervised learning, Physical computing, Apprentissage de représentations profondes, Neural network, Style transfer, Modèles à énergie, Energy-based models, Synthèse d'image, Machine learning, Réseaux neuronaux, Modèles génératifs, Pastiche automatique, Generative modeling, Generative adversarial network, Réseaux adversariels génératifs
Abstract: Cette thèse par article contribue au domaine de l’apprentissage de représentations profondes, et plus précisément celui des modèles génératifs profonds, par l’entremise de travaux sur les machines de Boltzmann restreintes, les modèles génératifs adversariels ainsi que le pastiche automatique. Le premier article s’intéresse au problème de l’estimation du gradient de la phase négative des machines de Boltzmann par l’échantillonnage d’une réalisation physique du modèle. Nous présentons une évaluation empirique de l’impact sur la performance, mesurée par log-vraisemblance négative, de diverses contraintes associées à l’implémentation physique de machines de Boltzmann restreintes (RBMs), soit le bruit sur les paramètres, l’amplitude limitée des paramètres et une connectivité limitée. Le second article s’attaque au problème de l’inférence dans les modèles génératifs adversariels (GANs). Nous proposons une extension du modèle appelée inférence adversativement apprise (ALI) qui a la particularité d’apprendre jointement l’inférence et la génération à partir d’un principe adversariel. Nous montrons que la représentation apprise par le modèle est utile à la résolution de tâches auxiliaires comme l’apprentissage semi-supervisé en obtenant une performance comparable à l’état de l’art pour les ensembles de données SVHN et CIFAR10. Finalement, le troisième article propose une approche simple et peu coûteuse pour entraîner un réseau unique de pastiche automatique à imiter plusieurs styles artistiques. Nous présentons un mécanisme de conditionnement, appelé normalisation conditionnelle par instance, qui permet au réseau d’imiter plusieurs styles en parallèle via l’apprentissage d’un ensemble de paramètres de normalisation unique à chaque style. Ce mécanisme s’avère très efficace en pratique et a inspiré plusieurs travaux subséquents qui ont appliqué l’idée à des problèmes au-delà du domaine du pastiche automatique., This thesis by articles contributes to the field of deep learning, and more specifically the subfield of deep generative modeling, through work on restricted Boltzmann machines, generative adversarial networks and style transfer networks. The first article examines the idea of tackling the problem of estimating the negative phase gradients in Boltzmann machines by sampling from a physical implementation of the model. We provide an empirical evaluation of the impact of various constraints associated with physical implementations of restricted Boltzmann machines (RBMs), namely noisy parameters, finite parameter amplitude and restricted connectivity patterns, on their performance as measured by negative log-likelihood through software simulation. The second article tackles the inference problem in generative adversarial networks (GANs). It proposes a simple and straightforward extension to the GAN framework, named adversarially learned inference (ALI), which allows inference to be learned jointly with generation in a fully-adversarial framework. We show that the learned representation is useful for auxiliary tasks such as semi-supervised learning by obtaining a performance competitive with the then-state-of-the-art on the SVHN and CIFAR10 semi-supervised learning tasks. Finally, the third article proposes a simple and scalable technique to train a single feedforward style transfer network to model multiple styles. It introduces a conditioning mechanism named conditional instance normalization which allows the network to capture multiple styles in parallel by learning a different set of instance normalization parameters for each style. This mechanism is shown to be very efficient and effective in practice, and has inspired multiple efforts to adapt the idea to problems outside of the artistic style transfer domain.
Published: 2018

44. New methods for large-scale unsupervised learning

Author: Tiomoko ali, Hafiz, Laboratoire des signaux et systèmes (L2S), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, and Romain Couillet
Subjects: Community detection, Théorie des matrices aléatoires, Random Matrix Theory, Bayesian inference, Apprentissage non supervisé, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Détection de communautés, Unsupervised learning, Inférence bayésienne, High dimensional data clustering, Classification de données en grandes dimensions
Abstract: Spurred by recent advances on the theoretical analysis of the performances of the data-driven machine learning algorithms, this thesis tackles the performance analysis and improvement of high dimensional data and graph clustering. Specifically, in the first bigger part of the thesis, using advanced tools from random matrix theory, the performance analysis of spectral methods on dense realistic graph models and on high dimensional kernel random matrices is performed through the study of the eigenvalues and eigenvectors of the similarity matrices characterizing those data. New improved methods are proposed and are shown to outperform state-of-the-art approaches. In a second part, a new algorithm is proposed for the detection of heterogeneous communities from multi-layer graphs using variational Bayes approaches to approximate the posterior distribution of the sought variables. The proposed methods are successfully applied to synthetic benchmarks as well as real-world datasets and are shown to outperform standard approaches to clustering in those specific contexts.; Motivée par les récentes avancées dans l'analyse théorique des performances des algorithmes d'apprentissage automatisé, cette thèse s'intéresse à l'analyse de performances et à l'amélioration de la classification nonsupervisée de données et graphes en grande dimension. Spécifiquement, dans la première grande partie de cette thèse, en s'appuyant sur des outils avancés de la théorie des grandes matrices aléatoires, nous analysons les performances de méthodes spectrales sur des modèles de graphes réalistes et denses ainsi que sur des données en grandes dimensions en étudiant notamment les valeurs propres et vecteurs propres des matrices d'affinités de ces données. De nouvelles méthodes améliorées sont proposées sur la base de cette analyse théorique et démontrent à travers de nombreuses simulations que leurs performances sont meilleures comparées aux méthodes de l'état de l'art. Dans la seconde partie de la thèse, nous proposons un nouvel algorithme pour la détection de communautés hétérogènes entre plusieurs couches d'un graphe à plusieurs types d'interaction. Une approche bayésienne variationnelle est utilisée pour approximer la distribution apostériori des variables latentes du modèle. Toutes les méthodes proposées dans cette thèse sont utilisées sur des bases de données synthétiques et sur des données réelles et présentent de meilleures performances en comparaison aux approches standard de classification dans les contextes susmentionnés.
Published: 2018

45. Nouvelles méthodes pour l’apprentissage non-supervisé en grandes dimensions

Author: Tiomoko ali, Hafiz, Laboratoire des signaux et systèmes (L2S), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, and Romain Couillet
Subjects: Community detection, Théorie des matrices aléatoires, Random Matrix Theory, Bayesian inference, Apprentissage non supervisé, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Détection de communautés, Unsupervised learning, Inférence bayésienne, High dimensional data clustering, Classification de données en grandes dimensions
Abstract: Spurred by recent advances on the theoretical analysis of the performances of the data-driven machine learning algorithms, this thesis tackles the performance analysis and improvement of high dimensional data and graph clustering. Specifically, in the first bigger part of the thesis, using advanced tools from random matrix theory, the performance analysis of spectral methods on dense realistic graph models and on high dimensional kernel random matrices is performed through the study of the eigenvalues and eigenvectors of the similarity matrices characterizing those data. New improved methods are proposed and are shown to outperform state-of-the-art approaches. In a second part, a new algorithm is proposed for the detection of heterogeneous communities from multi-layer graphs using variational Bayes approaches to approximate the posterior distribution of the sought variables. The proposed methods are successfully applied to synthetic benchmarks as well as real-world datasets and are shown to outperform standard approaches to clustering in those specific contexts.; Motivée par les récentes avancées dans l'analyse théorique des performances des algorithmes d'apprentissage automatisé, cette thèse s'intéresse à l'analyse de performances et à l'amélioration de la classification nonsupervisée de données et graphes en grande dimension. Spécifiquement, dans la première grande partie de cette thèse, en s'appuyant sur des outils avancés de la théorie des grandes matrices aléatoires, nous analysons les performances de méthodes spectrales sur des modèles de graphes réalistes et denses ainsi que sur des données en grandes dimensions en étudiant notamment les valeurs propres et vecteurs propres des matrices d'affinités de ces données. De nouvelles méthodes améliorées sont proposées sur la base de cette analyse théorique et démontrent à travers de nombreuses simulations que leurs performances sont meilleures comparées aux méthodes de l'état de l'art. Dans la seconde partie de la thèse, nous proposons un nouvel algorithme pour la détection de communautés hétérogènes entre plusieurs couches d'un graphe à plusieurs types d'interaction. Une approche bayésienne variationnelle est utilisée pour approximer la distribution apostériori des variables latentes du modèle. Toutes les méthodes proposées dans cette thèse sont utilisées sur des bases de données synthétiques et sur des données réelles et présentent de meilleures performances en comparaison aux approches standard de classification dans les contextes susmentionnés.
Published: 2018

46. Neural Networks Regularization Through Representation Learning

Author: Belharbi, Soufiane, Institut national des sciences appliquées Rouen Normandie (INSA Rouen Normandie), Institut National des Sciences Appliquées (INSA)-Normandie Université (NU), Bourse d'établissement., Normandie Université, France, Sébastien Adam, BodyComp.AI (centre Henri-Becquerel de Rouen), ANR-16-CE23-0006,Deep_in_France,Réseaux de neurones profonds pour l'apprentissage(2016), ANR-11-JS02-0010,LEMON,Learning with Multi-objective OptimizatioN(2011), Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes (LITIS), Université Le Havre Normandie (ULH), Normandie Université (NU)-Normandie Université (NU)-Université de Rouen Normandie (UNIROUEN), Normandie Université (NU)-Institut national des sciences appliquées Rouen Normandie (INSA Rouen Normandie), Institut National des Sciences Appliquées (INSA)-Normandie Université (NU)-Institut National des Sciences Appliquées (INSA), Normandie Université, STAR, ABES, Belharbi, Soufiane, Réseaux de neurones profonds pour l'apprentissage - - Deep_in_France2016 - ANR-16-CE23-0006 - AAPG2016 - VALID, and Jeunes Chercheuses et Jeunes Chercheurs - Learning with Multi-objective OptimizatioN - - LEMON2011 - ANR-11-JS02-0010 - JCJC - VALID
Subjects: convolutional networks, apprentissage profond, régularisation, overfitting, neural network, apprentissage des représentations, [INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], multi-task learning, apprentissage multi-tâches, [INFO] Computer Science [cs], [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], transfer learning, unsupervised learning, sur-apprentissage, representation learning, transfert d’apprentissage, [INFO.INFO-CV] Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], [INFO]Computer Science [cs], structured output prediction, Surapprentissage, régression multiple, prior knowledge, réseaux de neurones, connaissances à priori, deep learning, prédiction à sortie structurée, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], feedforawrd networks, réseau de neurones à passe avant, univariate regression, regularization, régression univariée, classification, réseaux de neurones convolutifs, apprentissage non supervisé, multivariate regression
Abstract: Neural network models and deep models are one of the leading and state of the art models in machine learning. They have been applied in many different domains. Most successful deep neural models are the ones with many layers which highly increases their number of parameters. Training such models requires a large number of training samples which is not always available. One of the fundamental issues in neural networks is overfitting which is the issue tackled in this thesis. Such problem often occurs when the training of large models is performed using few training samples. Many approaches have been proposed to prevent the network from overfitting and improve its generalization performance such as data augmentation, early stopping, parameters sharing, unsupervised learning, dropout, batch normalization, etc. In this thesis, we tackle the neural network overfitting issue from a representation learning perspective by considering the situation where few training samples are available which is the case of many real world applications. We propose three contributions. The first one presented in chapter 2 is dedicated to dealing with structured output problems to perform multivariate regression when the output variable y contains structural dependencies between its components. Our proposal aims mainly at exploiting these dependencies by learning them in an unsupervised way. Validated on a facial landmark detection problem, learning the structure of the output data has shown to improve the network generalization and speedup its training. The second contribution described in chapter 3 deals with the classification task where we propose to exploit prior knowledge about the internal representation of the hidden layers in neural networks. This prior is based on the idea that samples within the same class should have the same internal representation. We formulate this prior as a penalty that we add to the training cost to be minimized. Empirical experiments over MNIST and its variants showed an improvement of the network generalization when using only few training samples. Our last contribution presented in chapter 4 showed the interest of transfer learning in applications where only few samples are available. The idea consists in re-using the filters of pre-trained convolutional networks that have been trained on large datasets such as ImageNet. Such pre-trained filters are plugged into a new convolutional network with new dense layers. Then, the whole network is trained over a new task. In this contribution, we provide an automatic system based on such learning scheme with an application to medical domain. In this application, the task consists in localizing the third lumbar vertebra in a 3D CT scan. A pre-processing of the 3D CT scan to obtain a 2D representation and a post-processing to refine the decision are included in the proposed system. This work has been done in collaboration with the clinic "Rouen Henri Becquerel Center" who provided us with data, Les modèles de réseaux de neurones et en particulier les modèles profonds sont aujourd'hui l'un des modèles à l'état de l'art en apprentissage automatique et ses applications. Les réseaux de neurones profonds récents possèdent de nombreuses couches cachées ce qui augmente significativement le nombre total de paramètres. L'apprentissage de ce genre de modèles nécessite donc un grand nombre d'exemples étiquetés, qui ne sont pas toujours disponibles en pratique. Le sur-apprentissage est un des problèmes fondamentaux des réseaux de neurones, qui se produit lorsque le modèle apprend par coeur les données d'apprentissage, menant à des difficultés à généraliser sur de nouvelles données. Le problème du sur-apprentissage des réseaux de neurones est le thème principal abordé dans cette thèse. Dans la littérature, plusieurs solutions ont été proposées pour remédier à ce problème, tels que l'augmentation de données, l'arrêt prématuré de l'apprentissage ("early stopping"), ou encore des techniques plus spécifiques aux réseaux de neurones comme le "dropout" ou la "batch normalization". Dans cette thèse, nous abordons le sur-apprentissage des réseaux de neurones profonds sous l'angle de l'apprentissage de représentations, en considérant l'apprentissage avec peu de données. Pour aboutir à cet objectif, nous avons proposé trois différentes contributions. La première contribution, présentée dans le chapitre 2, concerne les problèmes à sorties structurées dans lesquels les variables de sortie sont à grande dimension et sont généralement liées par des relations structurelles. Notre proposition vise à exploiter ces relations structurelles en les apprenant de manière non-supervisée avec des autoencodeurs. Nous avons validé notre approche sur un problème de régression multiple appliquée à la détection de points d'intérêt dans des images de visages. Notre approche a montré une accélération de l'apprentissage des réseaux et une amélioration de leur généralisation. La deuxième contribution, présentée dans le chapitre 3, exploite la connaissance a priori sur les représentations à l'intérieur des couches cachées dans le cadre d'une tâche de classification. Cet à priori est basé sur la simple idée que les exemples d'une même classe doivent avoir la même représentation interne. Nous avons formalisé cet à priori sous la forme d'une pénalité que nous avons rajoutée à la fonction de perte. Des expérimentations empiriques sur la base MNIST et ses variantes ont montré des améliorations dans la généralisation des réseaux de neurones, particulièrement dans le cas où peu de données d'apprentissage sont utilisées. Notre troisième et dernière contribution, présentée dans le chapitre 4, montre l'intérêt du transfert d'apprentissage ("transfer learning") dans des applications dans lesquelles peu de données d'apprentissage sont disponibles. L'idée principale consiste à pré-apprendre les filtres d'un réseau à convolution sur une tâche source avec une grande base de données (ImageNet par exemple), pour les insérer par la suite dans un nouveau réseau sur la tâche cible. Dans le cadre d'une collaboration avec le centre de lutte contre le cancer "Henri Becquerel de Rouen", nous avons construit un système automatique basé sur ce type de transfert d'apprentissage pour une application médicale où l'on dispose d’un faible jeu de données étiquetées. Dans cette application, la tâche consiste à localiser la troisième vertèbre lombaire dans un examen de type scanner. L’utilisation du transfert d’apprentissage ainsi que de prétraitements et de post traitements adaptés a permis d’obtenir des bons résultats, autorisant la mise en oeuvre du modèle en routine clinique.
Published: 2018

47. Exploration par apprentissage de discussions de personnes en détresse psychologique

Author: Rémy Kessler, Nicolas Béchet, Gudrun Ledegen, Frédéric PUGNIERE-SAAVEDRA, Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Expressiveness in Human Centered Data/Media (EXPRESSION), Université de Bretagne Sud (UBS)-MEDIA ET INTERACTIONS (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Plurilinguismes, Représentations, Expressions Francophones - information, communication, sociolinguistique (PREFics EA 4246), Université de Bretagne Sud (UBS)-Université de Tours-Université de Rennes 2 (UR2), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Université européenne de Bretagne - European University of Brittany (UEB), Sylvie Ranwez, Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Université européenne de Bretagne - European University of Brittany (UEB)-Université de Bretagne Sud (UBS)-Université de Tours (UT)-Université de Rennes 2 (UR2), Ranwez, Sylvie, Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Pôle de Recherche Francophonies, Interculturel, Communication, Sociolinguistique (PREFICS EA 7469), Université de Bretagne Sud (UBS)-Université de Rennes 2 (UR2), Centre d'Enseignement et de Recherche en Informatique - CERI-Avignon Université (AU), MEDIA ET INTERACTIONS (IRISA-D6), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), and Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)
Subjects: [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, Word embedding, [INFO.INFO-TT] Computer Science [cs]/Document and Text Processing, Word2vec, apprentissage non supervisé, [SHS.LANGUE]Humanities and Social Sciences/Linguistics
Abstract: National audience; Afin de s'adapter au mieux à la société, une association a développé une application de webchat permettant à toute personne d'exprimer et de partager ses préoccupations et ses malaises. Plusieurs milliers de conversations anonymes ont ainsi été réunies et forment un corpus inédit de récits sur la détresse hu-maine, les violences sociales. Nous présentons une méthode d'analyse de corpus combinant apprentissage non supervisé et word embedding afin de faire émerger les thématiques de cette collection particulière. Nous comparons la qualité de cette approche avec un algorithme standard de la littérature sur un corpus étiqueté et obtenons des résultats d'excellente qualité. Nous présentons une interprétation des regroupements obtenue sur cette collection particulière.
Published: 2018

48. Statistiques en grande dimension pour la détection d'anomalies dans les données fonctionnelles issues des satellites

Author: Barreyre, Clementine, Institut de Mathématiques de Toulouse UMR5219 (IMT), Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS), INSA de Toulouse, Béatrice Laurent, and Jean-Michel Loubès
Subjects: Satellites Data, Outlier Detection, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Données Satellites, Multiple Tes- ting, Détection d’anomalies, Apprentissage non Supervisé, Tests Multiples, Functional Data, Données Fonctionnelles, [MATH.MATH-FA]Mathematics [math]/Functional Analysis [math.FA], Unsupervised learning
Abstract: In this PhD, we have developed statistical methods to detect abnormal events in all the functional data produced by the satellite all through its lifecycle. The data we are dealing with come from two main phases in the satellite’s life, telemetries and test data. A first work on this thesis was to understand how to highlight the outliers thanks to projections onto functional bases. On these projections, we have also applied several outlier detection methods, such as the One-Class SVM, the Local Outlier Factor (LOF). In addition to these two methods, we have developed our own outlier detection method, by taking into account the seasonality of the data we consider. Based on this study, we have developed an original procedure to select automatically the most interesting coefficients in a semi-supervised framework for the outlier detection, from a given projection. Our method is a multiple testing procedure where we apply the two sample-test to all the levels of coefficients.We have also chosen to analyze the covariance matrices representing the covariance of the te- lemetries between themselves for the outlier detection in multivariate data. In this purpose, we are comparing the covariance of a cluster of several telemetries deriving from two consecutive days, or consecutive orbit periods. We have applied three statistical tests targeting this same issue with different approaches. We have also developed an original asymptotic test, inspired by both first tests. In addition to the proof of the convergence of this test, we demonstrate thanks to examples that this new test is the most powerful. In this PhD, we have tackled several aspects of the anomaly detection in the functional data deriving from satellites. For each of these methods, we have detected all the major anomalies, improving significantly the false discovery rate.; Ce travail de thèse consiste au développement de méthodes statistiques pour détecter des com- portements anormaux dans les données fonctionnelles que produit le satellite tout au long de sa vie. Un premier travail a été de comprendre comment mettre en évidence les anomalies grâce à des projections sur des bases de fonctions. En complément de cette revue des projections, nous avons appliqué plusieurs méthodes de détection d’anomalies, telles que la One-Class SVM et le Local Outlier Factor (LOF). En plus de ces deux méthodes, nous avons développé notre propre méthode pour prendre en compte la saisonnalité des courbes que nous considérons. En se basant sur cette étude, nous avons développé une nouvelle procédure pour sélectionner automatiquement les coefficients les plus intéressants pour la détection d’anomalies dans un cadre semi-supervisé. Notre méthode est une procédure de tests multiples où nous appliquons un test à deux échantillons à tous les niveaux de coefficients. Nous nous sommes également intéressés aux covariances des télémesures entre elles pour la détection d’anomalies. Pour cela, nous cherchons à comparer les covariances entre un groupe de télémesures pour deux journées, ou périodes consécutives. Nous avons appliqué trois tests sta- tistiques ayant des angles d’approche différents. Nous avons également développé dans ce but un nouveau test asymptotique. Outre la démonstration de la convergence de notre test, nous démontrons par des exemples que ce test est dans la pratique le plus puissant sur les données dont nous disposons. Dans cette thèse, nous avons abordé plusieurs aspects de la détection d’anomalies dans les données fonctionnelles issues des satellites. Pour chacune des méthodes, nous avons pu détecter toutes les anomalies, améliorant sensiblement le taux de fausses alarmes.
Published: 2018

49. High Dimension Statistics for Space Applications on functional data deriving from satellites

Author: Barreyre, Clementine, Institut de Mathématiques de Toulouse UMR5219 (IMT), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS), INSA de Toulouse, Béatrice Laurent, and Jean-Michel Loubès
Subjects: Satellites Data, Outlier Detection, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Données Satellites, Multiple Tes- ting, Détection d’anomalies, Apprentissage non Supervisé, Tests Multiples, Functional Data, Données Fonctionnelles, [MATH.MATH-FA]Mathematics [math]/Functional Analysis [math.FA], Unsupervised learning
Abstract: In this PhD, we have developed statistical methods to detect abnormal events in all the functional data produced by the satellite all through its lifecycle. The data we are dealing with come from two main phases in the satellite’s life, telemetries and test data. A first work on this thesis was to understand how to highlight the outliers thanks to projections onto functional bases. On these projections, we have also applied several outlier detection methods, such as the One-Class SVM, the Local Outlier Factor (LOF). In addition to these two methods, we have developed our own outlier detection method, by taking into account the seasonality of the data we consider. Based on this study, we have developed an original procedure to select automatically the most interesting coefficients in a semi-supervised framework for the outlier detection, from a given projection. Our method is a multiple testing procedure where we apply the two sample-test to all the levels of coefficients.We have also chosen to analyze the covariance matrices representing the covariance of the te- lemetries between themselves for the outlier detection in multivariate data. In this purpose, we are comparing the covariance of a cluster of several telemetries deriving from two consecutive days, or consecutive orbit periods. We have applied three statistical tests targeting this same issue with different approaches. We have also developed an original asymptotic test, inspired by both first tests. In addition to the proof of the convergence of this test, we demonstrate thanks to examples that this new test is the most powerful. In this PhD, we have tackled several aspects of the anomaly detection in the functional data deriving from satellites. For each of these methods, we have detected all the major anomalies, improving significantly the false discovery rate.; Ce travail de thèse consiste au développement de méthodes statistiques pour détecter des com- portements anormaux dans les données fonctionnelles que produit le satellite tout au long de sa vie. Un premier travail a été de comprendre comment mettre en évidence les anomalies grâce à des projections sur des bases de fonctions. En complément de cette revue des projections, nous avons appliqué plusieurs méthodes de détection d’anomalies, telles que la One-Class SVM et le Local Outlier Factor (LOF). En plus de ces deux méthodes, nous avons développé notre propre méthode pour prendre en compte la saisonnalité des courbes que nous considérons. En se basant sur cette étude, nous avons développé une nouvelle procédure pour sélectionner automatiquement les coefficients les plus intéressants pour la détection d’anomalies dans un cadre semi-supervisé. Notre méthode est une procédure de tests multiples où nous appliquons un test à deux échantillons à tous les niveaux de coefficients. Nous nous sommes également intéressés aux covariances des télémesures entre elles pour la détection d’anomalies. Pour cela, nous cherchons à comparer les covariances entre un groupe de télémesures pour deux journées, ou périodes consécutives. Nous avons appliqué trois tests sta- tistiques ayant des angles d’approche différents. Nous avons également développé dans ce but un nouveau test asymptotique. Outre la démonstration de la convergence de notre test, nous démontrons par des exemples que ce test est dans la pratique le plus puissant sur les données dont nous disposons. Dans cette thèse, nous avons abordé plusieurs aspects de la détection d’anomalies dans les données fonctionnelles issues des satellites. Pour chacune des méthodes, nous avons pu détecter toutes les anomalies, améliorant sensiblement le taux de fausses alarmes.
Published: 2018

50. Méthodes d’apprentissage automatique pour la recherche par le contenu de l’information

Author: Chafik, Sanaa, Département Electronique et Physique (EPH), Institut Mines-Télécom [Paris] (IMT)-Télécom SudParis (TSP), Université Paris-Saclay, Université Hassan II (Casablanca, Maroc), Mounim El Yacoubi, Hamid Elouardi, Imane Daoudi, and STAR, ABES
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], Apprentissage profond, Content based information retrieval (CBMR), Hachage, Apprentissage non supervisé, Recherche par le contenu de l'information, Deep learning, Indexation multidimensionnelle, Unsupervised learning, Recherche des plus proches voisins, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Multidimensionnal indexing, Hashing, Approximate nearest neighbor search
Abstract: The amount of media data is growing at high speed with the fast growth of Internet and media resources. Performing an efficient similarity (nearest neighbor) search in such a large collection of data is a very challenging problem that the scientific community has been attempting to tackle. One of the most promising solutions to this fundamental problem is Content-Based Media Retrieval (CBMR) systems. The latter are search systems that perform the retrieval task in large media databases based on the content of the data. CBMR systems consist essentially of three major units, a Data Representation unit for feature representation learning, a Multidimensional Indexing unit for structuring the resulting feature space, and a Nearest Neighbor Search unit to perform efficient search. Media data (i.e. image, text, audio, video, etc.) can be represented by meaningful numeric information (i.e. multidimensional vector), called Feature Description, describing the overall content of the input data. The task of the second unit is to structure the resulting feature descriptor space into an index structure, where the third unit, effective nearest neighbor search, is performed.In this work, we address the problem of nearest neighbor search by proposing three Content-Based Media Retrieval approaches. Our three approaches are unsupervised, and thus can adapt to both labeled and unlabeled real-world datasets. They are based on a hashing indexing scheme to perform effective high dimensional nearest neighbor search. Unlike most recent existing hashing approaches, which favor indexing in Hamming space, our proposed methods provide index structures adapted to a real-space mapping. Although Hamming-based hashing methods achieve good accuracy-speed tradeoff, their accuracy drops owing to information loss during the binarization process. By contrast, real-space hashing approaches provide a more accurate approximation in the mapped real-space as they avoid the hard binary approximations.Our proposed approaches can be classified into shallow and deep approaches. In the former category, we propose two shallow hashing-based approaches namely, "Symmetries of the Cube Locality Sensitive Hashing" (SC-LSH) and "Cluster-based Data Oriented Hashing" (CDOH), based respectively on randomized-hashing and shallow learning-to-hash schemes. The SC-LSH method provides a solution to the space storage problem faced by most randomized-based hashing approaches. It consists of a semi-random scheme reducing partially the randomness effect of randomized hashing approaches, and thus the memory storage problem, while maintaining their efficiency in structuring heterogeneous spaces. The CDOH approach proposes to eliminate the randomness effect by combining machine learning techniques with the hashing concept. The CDOH outperforms the randomized hashing approaches in terms of computation time, memory space and search accuracy.The third approach is a deep learning-based hashing scheme, named "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). The UDN2H approach proposes to index individually the output of each neuron of the top layer of a deep unsupervised model, namely a Deep Autoencoder, with the aim of capturing the high level individual structure of each neuron output.Our three approaches, SC-LSH, CDOH and UDN2H, were proposed sequentially as the thesis was progressing, with an increasing level of complexity in terms of the developed models, and in terms of the effectiveness and the performances obtained on large real-world datasets, Avec l’évolution des technologies numériques et la prolifération d'internet, la quantité d’information numérique a considérablement évolué. La recherche par similarité (ou recherche des plus proches voisins) est une problématique que plusieurs communautés de recherche ont tenté de résoudre. Les systèmes de recherche par le contenu de l’information constituent l’une des solutions prometteuses à ce problème. Ces systèmes sont composés essentiellement de trois unités fondamentales, une unité de représentation des données pour l’extraction des primitives, une unité d’indexation multidimensionnelle pour la structuration de l’espace des primitives, et une unité de recherche des plus proches voisins pour la recherche des informations similaires. L’information (image, texte, audio, vidéo) peut être représentée par un vecteur multidimensionnel décrivant le contenu global des données d’entrée. La deuxième unité consiste à structurer l’espace des primitives dans une structure d’index, où la troisième unité -la recherche par similarité- est effective.Dans nos travaux de recherche, nous proposons trois systèmes de recherche par le contenu de plus proches voisins. Les trois approches sont non supervisées, et donc adaptées aux données étiquetées et non étiquetées. Elles sont basées sur le concept du hachage pour une recherche efficace multidimensionnelle des plus proches voisins. Contrairement aux approches de hachage existantes, qui sont binaires, les approches proposées fournissent des structures d’index avec un hachage réel. Bien que les approches de hachage binaires fournissent un bon compromis qualité-temps de calcul, leurs performances en termes de qualité (précision) se dégradent en raison de la perte d’information lors du processus de binarisation. À l'opposé, les approches de hachage réel fournissent une bonne qualité de recherche avec une meilleure approximation de l’espace d’origine, mais induisent en général un surcoût en temps de calcul.Ce dernier problème est abordé dans la troisième contribution. Les approches proposées sont classifiées en deux catégories, superficielle et profonde. Dans la première catégorie, on propose deux techniques de hachage superficiel, intitulées Symmetries of the Cube Locality sensitive hashing (SC-LSH) et Cluster-Based Data Oriented Hashing (CDOH), fondées respectivement sur le hachage aléatoire et l’apprentissage statistique superficiel. SCLSH propose une solution au problème de l’espace mémoire rencontré par la plupart des approches de hachage aléatoire, en considérant un hachage semi-aléatoire réduisant partiellement l’effet aléatoire, et donc l’espace mémoire, de ces dernières, tout en préservant leur efficacité pour la structuration des espaces hétérogènes. La seconde technique, CDOH, propose d’éliminer l’effet aléatoire en combinant des techniques d’apprentissage non-supervisé avec le concept de hachage. CDOH fournit de meilleures performances en temps de calcul, en espace mémoire et en qualité de recherche.La troisième contribution est une approche de hachage basée sur les réseaux de neurones profonds appelée "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). UDN2H propose une indexation individuelle de la sortie de chaque neurone de la couche centrale d’un modèle non supervisé. Ce dernier est un auto-encodeur profond capturant une structure individuelle de haut niveau de chaque neurone de sortie.Nos trois approches, SC-LSH, CDOH et UDN2H, ont été proposées séquentiellement durant cette thèse, avec un niveau croissant, en termes de la complexité des modèles développés, et en termes de la qualité de recherche obtenue sur de grandes bases de données d'information
Published: 2017

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Language

Publication Type

Journal

Database

Publisher

100 results on '"Apprentissage non supervisé"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources