Descriptor: "apprentissage statistique" - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"apprentissage statistique"' showing total 360 results

Start Over Descriptor "apprentissage statistique"

360 results on '"apprentissage statistique"'

151. Sélection de modèles parcimonieux pour l’apprentissage statistique en grande dimension

Author: Mattei, Pierre-Alexandre, Mathématiques Appliquées Paris 5 (MAP5 - UMR 8145), Université Paris Descartes - Paris 5 (UPD5)-Institut National des Sciences Mathématiques et de leurs Interactions (INSMI)-Centre National de la Recherche Scientifique (CNRS), IT University of Copenhagen, Université Paris 5, Charles Bouveyron, and Pierre Latouche (pierre.latouche@univ-paris1.fr)
Subjects: [STAT.AP]Statistics [stat]/Applications [stat.AP], Sélection de modèles, Apprentissage statistique, Parcimonie, [STAT.TH]Statistics [stat]/Statistics Theory [stat.TH], Bayesian statistics, Model selection, [MATH.MATH-PR]Mathematics [math]/Probability [math.PR], High-dimensional data, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Statistical machine learning, Grande dimension, Statistique bayésienne, [STAT.CO]Statistics [stat]/Computation [stat.CO], Sparsity, [STAT.ME]Statistics [stat]/Methodology [stat.ME]
Abstract: The numerical surge that characterizes the modern scientific era led to the rise of new kinds of data united in one common immoderation: the simultaneous acquisition of a large number of measurable quantities. Whether coming from DNA microarrays, mass spectrometers, or nuclear magnetic resonance, these data, usually called high-dimensional, are now ubiquitous in scientific and technological worlds. Processing these data calls for an important renewal of the traditional statistical toolset, unfit for such frameworks that involve a large number of variables. Indeed, when the number of variables exceeds the number of observations, most traditional statistical techniques become inefficient.First, we give a brief overview of the statistical issues that arise with high-dimensional data. Several popular solutions are presented, and we present some arguments in favor of the method utilized and advocated in this thesis: Bayesian model uncertainty. This chosen framework is the subject of a detailed review that insists on several recent developments.After these surveys come three original contributions to high-dimensional model selection. A new algorithm for high-dimensional sparse regression called SpinyReg is presented. It compares favorably to state-of-the-art methods on both real and synthetic data sets. A new data set for high-dimensional regression is also described: it involves predicting the number of visitors in the Orsay museum in Paris using bike-sharing data. We focus next on model selection for high-dimensional principal component analysis (PCA). Using a new theoretical result, we derive the first closed-form expression of the marginal likelihood of a PCA model. This allows us to propose two algorithms for model selection in PCA. A first one called globally sparse probabilistic PCA (GSPPCA) that allows to perform scalable variable selection, and a second one called normal-gamma probabilistic PCA (NGPPCA) that estimates the intrinsic dimensionality of a high-dimensional data set. Both methods are competitive with other popular approaches. In particular, using unlabelled DNA microarray data, GSPPCA is able to select genes that are more biologically relevant than several popular approaches.; Le déferlement numérique qui caractérise l’ère scientifique moderne a entrainé l’apparition de nouveaux types de données partageant une démesure commune : l’acquisition simultanée et rapide d’un très grand nombre de quantités observables. Qu’elles proviennent de puces ADN, de spectromètres de masse ou d’imagerie par résonance nucléaire, ces bases de données, qualifiées de données de grande dimension, sont désormais omniprésentes, tant dans le monde scientifique que technologique. Le traitement de ces données de grande dimension nécessite un renouvellement profond de l’arsenal statistique traditionnel, qui se trouve inadapté à ce nouveau cadre, notamment en raison du très grand nombre de variables impliquées. En effet, confrontée aux cas impliquant un plus grand nombre de variables que d’observations, une grande partie des techniques statistiques classiques est incapable de donner des résultats satisfaisants.Dans un premier temps, nous introduisons les problèmes statistiques inhérents aux modèles de données de grande dimension. Plusieurs solutions classiques sont détaillées et nous motivons le choix de l’approche empruntée au cours de cette thèse : le paradigme bayésien de sélection de modèles. Ce dernier fait ensuite l’objet d’une revue de littérature détaillée, en insistant sur plusieurs développements récents.Viennent ensuite trois chapitres de contributions nouvelles à la sélection de mo- dèles en grande dimension. En premier lieu, nous présentons un nouvel algorithme pour la régression linéaire bayésienne parcimonieuse en grande dimension, dont les performances sont très bonnes, tant sur données réelles que simulées. Une nouvelle base de données de régression linéaire est également introduite : il s’agit de prédire la fréquentation du musée d’Orsay à l’aide de données vélibs. Ensuite, nous nous penchons sur le problème de la sélection de modèles pour l’analyse en composantes principales (ACP). En nous basant sur un résultat théorique nouveau, nous effectuons les premiers calculs exacts de vraisemblance marginale pour ce modèle. Cela nous permet de proposer deux nouveaux algorithmes pour l’ACP parcimonieuse, un premier, appelé GSPPCA, permettant d’effectuer de la sélection de variables, et un second, appelé NGPPCA, permettant d’estimer la dimension intrinsèque de données de grande dimension. Les performances empiriques de ces deux techniques sont extrêmement compétitives. Dans le cadre de données d’expression ADN notamment, l’approche de sélection de variables proposée permet de déceler sans supervision des ensembles de gènes particulièrement pertinents.
Published: 2017

152. Model selection for sparse high-dimensional learning

Author: Mattei, Pierre-Alexandre, Mathématiques Appliquées Paris 5 (MAP5 - UMR 8145), Université Paris Descartes - Paris 5 (UPD5)-Institut National des Sciences Mathématiques et de leurs Interactions (INSMI)-Centre National de la Recherche Scientifique (CNRS), IT University of Copenhagen, Université Paris 5, Charles Bouveyron, and Pierre Latouche (pierre.latouche@univ-paris1.fr)
Subjects: [STAT.AP]Statistics [stat]/Applications [stat.AP], Sélection de modèles, Apprentissage statistique, Parcimonie, [STAT.TH]Statistics [stat]/Statistics Theory [stat.TH], Bayesian statistics, Model selection, [MATH.MATH-PR]Mathematics [math]/Probability [math.PR], High-dimensional data, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Statistical machine learning, Grande dimension, Statistique bayésienne, [STAT.CO]Statistics [stat]/Computation [stat.CO], Sparsity, [STAT.ME]Statistics [stat]/Methodology [stat.ME]
Abstract: The numerical surge that characterizes the modern scientific era led to the rise of new kinds of data united in one common immoderation: the simultaneous acquisition of a large number of measurable quantities. Whether coming from DNA microarrays, mass spectrometers, or nuclear magnetic resonance, these data, usually called high-dimensional, are now ubiquitous in scientific and technological worlds. Processing these data calls for an important renewal of the traditional statistical toolset, unfit for such frameworks that involve a large number of variables. Indeed, when the number of variables exceeds the number of observations, most traditional statistical techniques become inefficient.First, we give a brief overview of the statistical issues that arise with high-dimensional data. Several popular solutions are presented, and we present some arguments in favor of the method utilized and advocated in this thesis: Bayesian model uncertainty. This chosen framework is the subject of a detailed review that insists on several recent developments.After these surveys come three original contributions to high-dimensional model selection. A new algorithm for high-dimensional sparse regression called SpinyReg is presented. It compares favorably to state-of-the-art methods on both real and synthetic data sets. A new data set for high-dimensional regression is also described: it involves predicting the number of visitors in the Orsay museum in Paris using bike-sharing data. We focus next on model selection for high-dimensional principal component analysis (PCA). Using a new theoretical result, we derive the first closed-form expression of the marginal likelihood of a PCA model. This allows us to propose two algorithms for model selection in PCA. A first one called globally sparse probabilistic PCA (GSPPCA) that allows to perform scalable variable selection, and a second one called normal-gamma probabilistic PCA (NGPPCA) that estimates the intrinsic dimensionality of a high-dimensional data set. Both methods are competitive with other popular approaches. In particular, using unlabelled DNA microarray data, GSPPCA is able to select genes that are more biologically relevant than several popular approaches.; Le déferlement numérique qui caractérise l’ère scientifique moderne a entrainé l’apparition de nouveaux types de données partageant une démesure commune : l’acquisition simultanée et rapide d’un très grand nombre de quantités observables. Qu’elles proviennent de puces ADN, de spectromètres de masse ou d’imagerie par résonance nucléaire, ces bases de données, qualifiées de données de grande dimension, sont désormais omniprésentes, tant dans le monde scientifique que technologique. Le traitement de ces données de grande dimension nécessite un renouvellement profond de l’arsenal statistique traditionnel, qui se trouve inadapté à ce nouveau cadre, notamment en raison du très grand nombre de variables impliquées. En effet, confrontée aux cas impliquant un plus grand nombre de variables que d’observations, une grande partie des techniques statistiques classiques est incapable de donner des résultats satisfaisants.Dans un premier temps, nous introduisons les problèmes statistiques inhérents aux modèles de données de grande dimension. Plusieurs solutions classiques sont détaillées et nous motivons le choix de l’approche empruntée au cours de cette thèse : le paradigme bayésien de sélection de modèles. Ce dernier fait ensuite l’objet d’une revue de littérature détaillée, en insistant sur plusieurs développements récents.Viennent ensuite trois chapitres de contributions nouvelles à la sélection de mo- dèles en grande dimension. En premier lieu, nous présentons un nouvel algorithme pour la régression linéaire bayésienne parcimonieuse en grande dimension, dont les performances sont très bonnes, tant sur données réelles que simulées. Une nouvelle base de données de régression linéaire est également introduite : il s’agit de prédire la fréquentation du musée d’Orsay à l’aide de données vélibs. Ensuite, nous nous penchons sur le problème de la sélection de modèles pour l’analyse en composantes principales (ACP). En nous basant sur un résultat théorique nouveau, nous effectuons les premiers calculs exacts de vraisemblance marginale pour ce modèle. Cela nous permet de proposer deux nouveaux algorithmes pour l’ACP parcimonieuse, un premier, appelé GSPPCA, permettant d’effectuer de la sélection de variables, et un second, appelé NGPPCA, permettant d’estimer la dimension intrinsèque de données de grande dimension. Les performances empiriques de ces deux techniques sont extrêmement compétitives. Dans le cadre de données d’expression ADN notamment, l’approche de sélection de variables proposée permet de déceler sans supervision des ensembles de gènes particulièrement pertinents.
Published: 2017

153. Analyzing and Introducing Structures in Deep Convolutional Neural Networks

Author: Oyallon, Edouard, Département d'informatique - ENS Paris (DI-ENS), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS), Paris Sciences et Lettres, Stéphane Mallat, European Project: 320959, STAR, ABES, Université Paris sciences et lettres, and École normale supérieure - Paris (ENS Paris)
Subjects: Signal processing, Apprentissage profond, Apprentissage statistique, [INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], Réseaux de neurones profonds, Deep learning, [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], Traitement du signal, Apprentissage, [STAT.ML] Statistics [stat]/Machine Learning [stat.ML], [INFO.INFO-CV] Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Vision par ordinateur, Machine learning, Computer vision, [SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing, [SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing
Abstract: This thesis studies empirical properties of deep convolutional neural networks, and in particular the Scattering Transform. Indeed, the theoretical analysis of the latter is hard and until now remains a challenge: successive layers of neurons have the ability to produce complex computations, whose nature is still unknown, thanks to learning algorithms whose convergence guarantees are not well understood. However, those neural networks are outstanding tools to tackle a wide variety of difficult tasks, like image classification or more formally statistical prediction. The Scattering Transform is a non-linear mathematical operator whose properties are inspired by convolutional networks. In this work, we apply it to natural images, and obtain competitive accuracies with unsupervised architectures. Cascading a supervised neural networks after the Scattering permits to compete on ImageNet2012, which is the largest dataset of labeled images available. An efficient GPU implementation is provided. Then, this thesis focuses on the properties of layers of neurons at various depths. We show that a progressive dimensionality reduction occurs and we study the numerical properties of the supervised classification when we vary the hyper parameters of the network. Finally, we introduce a new class of convolutional networks, whose linear operators are structured by the symmetry groups of the classification task., Cette thèse étudie des propriétés empiriques des réseaux de neurones convolutifs profonds, et en particulier de la transformée en Scattering. En effet, l’analyse théorique de ces derniers est difficile et représente jusqu’à ce jour un défi : les couches successives de neurones ont la capacité de réaliser des opérations complexes, dont la nature est encore inconnue, via des algorithmes d’apprentissages dont les garanties de convergences ne sont pas bien comprises. Pourtant, ces réseaux de neurones sont de formidables outils pour s’attaquer à une grande variété de tâches difficiles telles la classification d’images, ou plus simplement effectuer des prédictions. La transformée de Scattering est un opérateur mathématique, non-linéaire dont les spécifications sont inspirées par les réseaux convolutifs. Dans ce travail, elle est appliquée sur des images naturelles et obtient des résultats compétitifs avec les architectures non-supervisées. En plaçant un réseau de neurones convolutifs supervisés à la suite du Scattering, on obtient des performances compétitives sur ImageNet2012, qui est le plus grand jeux de donnée d’images étiquetées accessibles aux chercheurs. Cela nécessite d’implémenter un algorithme efficace sur carte graphique. Dans un second temps, cette thèse s’intéresse aux propriétés des couches à différentes profondeurs. On montre qu’un phénomène de réduction de dimensionnalité progressif à lieu et on s’intéresse aux propriétés de classifications supervisées lorsqu’on varie des hyper paramètres de ces réseaux. Finalement, on introduit une nouvelle classe de réseaux convolutifs, dont les opérateurs sont structurés par des groupes de symétries du problème de classification.
Published: 2017

154. Decentralized and asynchronous algorithms for large scale machine learning and application to multimedia indexing

Author: Fellus, Jérôme, Equipes Traitement de l'Information et Systèmes (ETIS - UMR 8051), Ecole Nationale Supérieure de l'Electronique et de ses Applications (ENSEA)-Centre National de la Recherche Scientifique (CNRS)-CY Cergy Paris Université (CY), Université de Cergy Pontoise, and Philippe-Henri Gosselin
Subjects: Distributed databases, Bases de données reparties, Apprentissage statistique, Machine learning, [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], Multimedia indexing, Indexation multimédia
Abstract: With the advent of the "data era", the amount of computational resources required by information processing systems has exploded, largely exceeding the technological evolutions of modern processors. Specifically, contemporary machine learning applications necessarily resort to massively distributed computation.Distributed algorithmics borrows most of its concepts from classical centralized and sequential algorithmics, where the system's behavior is defined as a sequence of instructions, executed one after the other. The importance of communication between computation units is generally neglected and pushed back to implementation details. Yet, as the number of units grows, the impact of local operations vanishes behind the emergent effects related to the large network of units. To preserve the desirable properties of centralized algorithmics such as stability, predictability and programmability, distributed computational paradigms must encompass this graph-theoretical dimension.This thesis proposes an algorithmic framework for large scale machine learning, which prevent two major drawbacks of classical methods, namely emph{centralization} and emph{synchronization}. We therefore introduce several new algorithms based on decentralized and asynchronous Gossip protocols, for solving clustering, density estimation, dimension reduction, classification and general convex optimization problems, while offering an appreciable speed-up on large networks with a very low communication cost. These practical advantages are mathematically supported by a theoretical convergence analysis. We finally illustrate the relevance of proposed methods on multimedia indexing applications and real image classification tasks.; Avec l’avènement de « l'ère des données », les besoins des systèmes de traitement de l'information en ressources de calcul ont explosé, dépassant largement les évolutions technologiques des processeurs modernes. Dans le domaine de l'apprentissage statistique en particulier, les paradigmes de calcul massivement distribués représentent la seule alternative praticable.L'algorithmique distribuée emprunte la plupart de ses concepts à l'algorithmique classique, centralisée et séquentielle, dans laquelle le comportement du système est décrit comme une suite d'instructions exécutées l'une après l'autre. L'importance de la communication entre unités de calcul y est généralement négligée et reléguée aux détails d'implémentation. Or, lorsque le nombre d'unités impliquées augmente, le poids des opérations locales s'efface devant les effets émergents propres aux larges réseaux d'unités. Pour conserver les propriétés désirables de stabilité, de prédictibilité et de programmabilité offertes par l'algorithmique centralisée, les paradigmes de calcul distribué doivent dès lors intégrer cette dimension qui relève de la théorie des graphes.Cette thèse propose un cadre algorithmique pour l'apprentissage statistique large échelle, qui prévient deux défaut majeurs des méthodes classiques : la centralisation et la synchronisation. Nous présentons ainsi plusieurs algorithmes basés sur des protocoles Gossip décentralisés et asynchrones, applicables aux problèmes de catégorisation, estimation de densité, réduction de dimension, classification et optimisation convexe. Ces algorithmes produisent des solutions identiques à leurs homologues centralisés, tout en offrant une accélération appréciable sur de larges réseaux pour un coût de communication très réduit. Ces qualités pratiques sont démontrées mathématiquement par une analyse de convergence détaillée. Nous illustrons finalement la pertinence des méthodes proposées sur des tâches d'indexation multimédia et de classification d'images.
Published: 2017

155. Complex-Valued Embedding Models for Knowledge Graphs

Author: Trouillon, Théo, Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Université Grenoble Alpes, and Éric Gaussier
Subjects: Knowledge graph, Graphe de connaissances, Prédiction de liens, Tensor factorization, Données multi-Relationnelles, Apprentissage statistique, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Multi-Relational data, Machine learning, Factorisation de tenseur, Link prediction, [INFO.EIAH]Computer Science [cs]/Technology for Human Learning, Embeddings
Abstract: The explosion of widely available relational datain the form of knowledge graphsenabled many applications, including automated personalagents, recommender systems and enhanced web search results.The very large size and notorious incompleteness of these data basescalls for automatic knowledge graph completion methods to make these applicationsviable. Knowledge graph completion, also known as link-prediction,deals with automatically understandingthe structure of large knowledge graphs---labeled directed graphs---topredict missing entries---labeled edges. An increasinglypopular approach consists in representing knowledge graphs as third-order tensors,and using tensor factorization methods to predict their missing entries.State-of-the-art factorization models propose different trade-offs between modelingexpressiveness, and time and space complexity. We introduce a newmodel, ComplEx---for Complex Embeddings---to reconcile both expressivenessand complexity through the use of complex-valued factorization, and exploreits link with unitary diagonalization.We corroborate our approach theoretically and show that all possibleknowledge graphs can be exactly decomposed by the proposed model.Our approach based on complex embeddings is arguably simple,as it only involves a complex-valued trilinear product,whereas other methods resort to more and more complicated compositionfunctions to increase their expressiveness. The proposed ComplEx model isscalable to large data sets as it remains linear in both space and time, whileconsistently outperforming alternative approaches on standardlink-prediction benchmarks. We also demonstrateits ability to learn useful vectorial representations for other tasks,by enhancing word embeddings that improve performanceson the natural language problem of entailment recognitionbetween pair of sentences.In the last part of this thesis, we explore factorization models abilityto learn relational patterns from observed data.By their vectorial nature, it is not only hard to interpretwhy this class of models works so well,but also to understand where they fail andhow they might be improved. We conduct an experimentalsurvey of state-of-the-art models, not towardsa purely comparative end, but as a means to get insightabout their inductive abilities.To assess the strengths and weaknesses of each model, we create simple tasksthat exhibit first, atomic properties of knowledge graph relations,and then, common inter-relational inference through synthetic genealogies.Based on these experimental results, we propose new researchdirections to improve on existing models, including ComplEx.; L'explosion de données relationnelles largement disponiblessous la forme de graphes de connaissances a permisle développement de multiples applications, dont les agents personnels automatiques,les systèmes de recommandation et l'amélioration desrésultats de recherche en ligne.La grande taille et l'incomplétude de ces bases de donnéesnécessite le développement de méthodes de complétionautomatiques pour rendre ces applications viables.La complétion de graphes de connaissances, aussi appeléeprédiction de liens, se doit de comprendre automatiquementla structure des larges graphes de connaissances (graphes dirigéslabellisés) pour prédire les entrées manquantes (les arêtes labellisées).Une approche gagnant en popularité consiste à représenter ungraphe de connaissances comme un tenseur d'ordre 3, etd'utiliser des méthodes de décomposition de tenseur pourprédire leurs entrées manquantes.Les modèles de factorisation existants proposent différentscompromis entre leur expressivité, et leur complexité en temps et en espace.Nous proposons un nouveau modèle appelé ComplEx, pour"Complex Embeddings", pour réconcilier expressivité etcomplexité par l'utilisation d'une factorisation en nombre complexes,dont nous explorons le lien avec la diagonalisation unitaire.Nous corroborons notre approche théoriquement en montrantque tous les graphes de connaissances possiblespeuvent être exactement décomposés par le modèle proposé.Notre approche, basées sur des embeddings complexesreste simple, car n'impliquant qu'un produit trilinéaire complexe,là où d'autres méthodes recourent à des fonctions de compositionde plus en plus compliquées pour accroître leur expressivité.Le modèle proposé ayant une complexité linéaire en tempset en espace est passable à l'échelle, tout endépassant les approches existantes sur les jeux de données de référencepour la prédiction de liens.Nous démontrons aussi la capacité de ComplEx àapprendre des représentations vectorielles utiles pour d'autres tâches,en enrichissant des embeddings de mots, qui améliorentles prédictions sur le problème de traitement automatiquedu langage d'implication entre paires de phrases.Dans la dernière partie de cette thèse, nous explorons lescapacités de modèles de factorisation à apprendre lesstructures relationnelles à partir d'observations.De part leur nature vectorielle,il est non seulement difficile d'interpréter pourquoicette classe de modèles fonctionne aussi bien,mais aussi où ils échouent et comment ils peuventêtre améliorés. Nous conduisons une étude expérimentalesur les modèles de l'état de l'art, non pas simplementpour les comparer, mais pour comprendre leur capacitésd'induction. Pour évaluer les forces et faiblessesde chaque modèle, nous créons d'abord des tâches simplesreprésentant des propriétés atomiques despropriétés des relations des graphes de connaissances ;puis des tâches représentant des inférences multi-relationnellescommunes au travers de généalogies synthétisées.À partir de ces résultatsexpérimentaux, nous proposons de nouvelles directionsde recherches pour améliorer les modèles existants,y compris ComplEx.
Published: 2017

156. Ensemble forecasting using sequential aggregation for photovoltaic power applications

Author: Thorey, Jean, Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria), Université Pierre et Marie Curie - Paris VI, Isabelle Herlin, STAR, ABES, Numerical Analysis, Geophysics and Ecology (ANGE), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Jacques-Louis Lions (LJLL (UMR_7598)), and Université Paris Diderot - Paris 7 (UPD7)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Université Paris Diderot - Paris 7 (UPD7)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)
Subjects: Sequential aggregation, Apprentissage statistique, Probabilistic forecasting, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Photovoltaic power, Agégation séquentielle, Machine learning, Prévision probabilistique, Photovoltaïque, Ensemble forecasting, CRPS, Prévision d'ensemble, [MATH.MATH-ST] Mathematics [math]/Statistics [math.ST]
Abstract: Our main objective is to improve the quality of photovoltaic power forecasts deriving from weather forecasts. Such forecasts are imperfect due to meteorological uncertainties and statistical modeling inaccuracies in the conversion of weather forecasts to power forecasts. First we gather several weather forecasts, secondly we generate multiple photovoltaic power forecasts, and finally we build linear combinations of the power forecasts. The minimization of the Continuous Ranked Probability Score (CRPS) allows to statistically calibrate the combination of these forecasts, and provides probabilistic forecasts under the form of a weighted empirical distribution function. We investigate the CRPS bias in this context and several properties of scoring rules which can be seen as a sum of quantile-weighted losses or a sum of threshold-weighted losses. The minimization procedure is achieved with online learning techniques. Such techniques come with theoretical guarantees of robustness on the predictive power of the combination of the forecasts. Essentially no assumptions are needed for the theoretical guarantees to hold. The proposed methods are applied to the forecast of solar radiation using satellite data, and the forecast of photovoltaic power based on high-resolution weather forecasts and standard ensembles of forecasts., Notre principal objectif est d'améliorer la qualité des prévisions de production d'énergie photovoltaïque (PV). Ces prévisions sont imparfaites à cause des incertitudes météorologiques et de l'imprécision des modèles statistiques convertissant les prévisions météorologiques en prévisions de production d'énergie. Grâce à une ou plusieurs prévisions météorologiques, nous générons de multiples prévisions de production PV et nous construisons une combinaison linéaire de ces prévisions de production. La minimisation du Continuous Ranked Probability Score (CRPS) permet de calibrer statistiquement la combinaison de ces prévisions, et délivre une prévision probabiliste sous la forme d'une fonction de répartition empirique pondérée.Dans ce contexte, nous proposons une étude du biais du CRPS et une étude des propriétés des scores propres pouvant se décomposer en somme de scores pondérés par seuil ou en somme de scores pondérés par quantile. Des techniques d'apprentissage séquentiel sont mises en oeuvre pour réaliser cette minimisation. Ces techniques fournissent des garanties théoriques de robustesse en termes de qualité de prévision, sous des hypothèses minimes. Ces méthodes sont appliquées à la prévision d'ensoleillement et à la prévision de production PV, fondée sur des prévisions météorologiques à haute résolution et sur des ensembles de prévisions classiques.
Published: 2017

157. Rank-based Molecular Prognosis and Network-guided Biomarker Discovery for Breast Cancer

Author: Jiao, Yunlong, Centre de Bioinformatique (CBIO), MINES ParisTech - École nationale supérieure des mines de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), Université Paris sciences et lettres, and Jean-Philippe Vert
Subjects: Molecular Prognosis, Analyse de données génomiques, Apprentissage statistique, [SDV.CAN]Life Sciences [q-bio]/Cancer, Pronostic moléculaire, Découverte de biomarqueurs, Biomarker Discovery, Biological Network, Machine Learning, Breast Cancer, Genomic Data Analysis, [INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM], Réseau biologique, Cancer du sein
Abstract: Breast cancer is the second most common cancer worldwide and the leading cause of women's death from cancer. Improving cancer prognosis has been one of the problems of primary interest towards better clinical management and treatment decision making for cancer patients. With the rapid advancement of genomic profiling technologies in the past decades, easy availability of a substantial amount of genomic data for medical research has been motivating the currently popular trend of using computational tools, especially machine learning in the era of data science, to discover molecular biomarkers regarding prognosis improvement. This thesis is conceived following two lines of approaches intended to address two major challenges arising in genomic data analysis for breast cancer prognosis from a methodological standpoint of machine learning: rank-based approaches for improved molecular prognosis and network-guided approaches for enhanced biomarker discovery. Furthermore, the methodologies developed and investigated in this thesis, pertaining respectively to learning with rank data and learning on graphs, have a significant contribution to several branches of machine learning, concerning applications across but not limited to cancer biology and social choice theory.; Le cancer du sein est le deuxième cancer le plus répandu dans le monde et la principale cause de décès due à un cancer chez les femmes. L'amélioration du pronostic du cancer a été l'une des principales préoccupations afin de permettre une meilleure gestion et un meilleur traitement clinique des patients. Avec l'avancement rapide des technologies de profilage génomique durant ces dernières décennies, la disponibilité aisée d'une grande quantité de données génomiques pour la recherche médicale a motivé la tendance actuelle qui consiste à utiliser des outils informatiques tels que l'apprentissage statistique dans le domaine de la science des données afin de découvrir les biomarqueurs moléculaires en lien avec l'amélioration du pronostic. Cette thèse est conçue suivant deux directions d'approches destinées à répondre à deux défis majeurs dans l'analyse de données génomiques pour le pronostic du cancer du sein d'un point de vue méthodologique de l'apprentissage statistique : les approches basées sur le classement pour améliorer le pronostic moléculaire et les approches guidées par un réseau donné pour améliorer la découverte de biomarqueurs. D'autre part, les méthodologies développées et étudiées dans cette thèse, qui concernent respectivement l'apprentissage à partir de données de classements et l'apprentissage sur un graphe, apportent une contribution significative à plusieurs branches de l'apprentissage statistique, concernant au moins les applications à la biologie du cancer et la théorie du choix social.
Published: 2017

158. Challenges d'analyse de données : une formation par la pratique transversale et multidisciplinaire en science des données

Author: Jean-Baptiste Durand, Modelling and Inference of Complex and Structured Stochastic Systems (MISTIS ), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Laboratoire Jean Kuntzmann (LJK ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), and Durand, Jean-Baptiste
Subjects: machine learning, data analysis, science des données, compétition, analyse des données, data science, apprentissage statistique, Challenge, [STAT.OT]Statistics [stat]/Other Statistics [stat.ML], [STAT.OT] Statistics [stat]/Other Statistics [stat.ML]
Abstract: A teaching project base on data challenges is presented in this communication. This project will begin in school year 2017-2018 at Université Grenoble Alpes. The challenges will be interdisciplinary and cross-educational. The organization of the challenges is described, as well as their positioning within Grenoble University community, and the projects of platform and multimodal classroom on which they rely., Nous présentons ici un projet pédagogique axé sur des challenges d'analyse de données, qui sera mis en oeuvre à l'Université Grenoble Alpes à la rentrée 2017-2018. Ces challenges, transversaux à plusieurs formations, se veulent multidisciplinaires. Nous présentons l'organisation de ces challenges, leur positionnement dans le tissu universitaire grenoblois, et les projets de plateforme et de salle multimodale sur lesquelles ils s'appuient.
Published: 2017

159. Vers des interfaces cérébrales adaptées aux utilisateurs : interaction robuste et apprentissage statistique basé sur la géométrie riemannienne

Author: Kalunga, Emmanuel, Laboratoire d'Ingénierie des Systèmes de Versailles (LISV), Université de Versailles Saint-Quentin-en-Yvelines (UVSQ), Université Paris-Saclay, Tshwane University of Technology, Eric Monacelli, and Sylvain Chevallier
Subjects: Signal processing, Traitement de signal, Brain-Computer Interface, Interfaces cerveau-Machines, Apprentissage statistique, Transfert d'apprentissage, Electroencephalographie (EEG), Géometrie Riemannienne, Machine learning, [INFO.INFO-RB]Computer Science [cs]/Robotics [cs.RO], Riemannian geometry, Electroencephalography (EEG), Transfer learning
Abstract: In the last two decades, interest in Brain-Computer Interfaces (BCI) has tremendously grown, with a number of research laboratories working on the topic. Since the Brain-Computer Interface Project of Vidal in 1973, where BCI was introduced for rehabilitative and assistive purposes, the use of BCI has been extended to more applications such as neurofeedback and entertainment. The credit of this progress should be granted to an improved understanding of electroencephalography (EEG), an improvement in its measurement techniques, and increased computational power.Despite the opportunities and potential of Brain-Computer Interface, the technology has yet to reach maturity and be used out of laboratories. There are several challenges that need to be addresses before BCI systems can be used to their full potential. This work examines in depth some of these challenges, namely the specificity of BCI systems to users physical abilities, the robustness of EEG representation and machine learning, and the adequacy of training data. The aim is to provide a BCI system that can adapt to individual users in terms of their physical abilities/disabilities, and variability in recorded brain signals.To this end, two main avenues are explored: the first, which can be regarded as a high-level adjustment, is a change in BCI paradigms. It is about creating new paradigms that increase their performance, ease the discomfort of using BCI systems, and adapt to the user’s needs. The second avenue, regarded as a low-level solution, is the refinement of signal processing and machine learning techniques to enhance the EEG signal quality, pattern recognition and classification.On the one hand, a new methodology in the context of assistive robotics is defined: it is a hybrid approach where a physical interface is complemented by a Brain-Computer Interface (BCI) for human machine interaction. This hybrid system makes use of users residual motor abilities and offers BCI as an optional choice: the user can choose when to rely on BCI and could alternate between the muscular- and brain-mediated interface at the appropriate time.On the other hand, for the refinement of signal processing and machine learning techniques, this work uses a Riemannian framework. A major limitation in this filed is the EEG poor spatial resolution. This limitation is due to the volume conductance effect, as the skull bones act as a non-linear low pass filter, mixing the brain source signals and thus reducing the signal-to-noise ratio. Consequently, spatial filtering methods have been developed or adapted. Most of them (i.e. Common Spatial Pattern, xDAWN, and Canonical Correlation Analysis) are based on covariance matrix estimations. The covariance matrices are key in the representation of information contained in the EEG signal and constitute an important feature in their classification. In most of the existing machine learning algorithms, covariance matrices are treated as elements of the Euclidean space. However, being Symmetric and Positive-Definite (SPD), covariance matrices lie on a curved space that is identified as a Riemannian manifold. Using covariance matrices as features for classification of EEG signals and handling them with the tools provided by Riemannian geometry provide a robust framework for EEG representation and learning.; Au cours des deux dernières décennies, l'intérêt porté aux interfaces cérébrales ou Brain Computer Interfaces (BCI) s’est considérablement accru, avec un nombre croissant de laboratoires de recherche travaillant sur le sujet. Depuis le projet Brain Computer Interface, où la BCI a été présentée à des fins de réadaptation et d'assistance, l'utilisation de la BCI a été étendue à d'autres applications telles que le neurofeedback et l’industrie du jeux vidéo. Ce progrès a été réalisé grâce à une meilleure compréhension de l'électroencéphalographie (EEG), une amélioration des systèmes d’enregistrement du EEG, et une augmentation de puissance de calcul.Malgré son potentiel, la technologie de la BCI n’est pas encore mature et ne peut être utilisé en dehors des laboratoires. Il y a un tas de défis qui doivent être surmontés avant que les systèmes BCI puissent être utilisés à leur plein potentiel. Ce travail porte sur des aspects importants de ces défis, à savoir la spécificité des systèmes BCI aux capacités physiques des utilisateurs, la robustesse de la représentation et de l'apprentissage du EEG, ainsi que la suffisance des données d’entrainement. L'objectif est de fournir un système BCI qui peut s’adapter aux utilisateurs en fonction de leurs capacités physiques et des variabilités dans les signaux du cerveau enregistrés.À ces fins, deux voies principales sont explorées : la première, qui peut être considérée comme un ajustement de haut niveau, est un changement de paradigmes BCI. Elle porte sur la création de nouveaux paradigmes qui peuvent augmenter les performances de la BCI, alléger l'inconfort de l'utilisation de ces systèmes, et s’adapter aux besoins des utilisateurs. La deuxième voie, considérée comme une solution de bas niveau, porte sur l’amélioration des techniques de traitement du signal et d’apprentissage statistique pour améliorer la qualité du signal EEG, la reconnaissance des formes, ainsi que la tache de classification.D'une part, une nouvelle méthodologie dans le contexte de la robotique d'assistance est définie : il s’agit d’une approche hybride où une interface physique est complémentée par une interface cérébrale pour une interaction homme-machine plus fluide. Ce système hybride utilise les capacités motrices résiduelles des utilisateurs et offre la BCI comme un choix optionnel : l'utilisateur choisit quand utiliser la BCI et peut alterner entre les interfaces cérébrales et musculaire selon le besoin.D'autre part, pour l’amélioration des techniques de traitement du signal et d'apprentissage statistique, ce travail utilise un cadre Riemannien. Un frein majeur dans le domaine de la BCI est la faible résolution spatiale du EEG. Ce problème est dû à l'effet de conductance des os du crâne qui agissent comme un filtre passe-bas non linéaire, en mélangeant les signaux de différentes sources du cerveau et réduisant ainsi le rapport signal-à-bruit. Par conséquent, les méthodes de filtrage spatial ont été développées ou adaptées. La plupart d'entre elles – à savoir la Common Spatial Pattern (CSP), la xDAWN et la Canonical Correlation Analysis (CCA) – sont basées sur des estimations de matrice de covariance. Les matrices de covariance sont essentielles dans la représentation d’information contenue dans le signal EEG et constituent un élément important dans leur classification. Dans la plupart des algorithmes d'apprentissage statistique existants, les matrices de covariance sont traitées comme des éléments de l'espace euclidien. Cependant, étant symétrique et défini positive (SDP), les matrices de covariance sont situées dans un espace courbe qui est identifié comme une variété riemannienne. Utiliser les matrices de covariance comme caractéristique pour la classification des signaux EEG, et les manipuler avec les outils fournis par la géométrie de Riemann, fournit un cadre solide pour la représentation et l'apprentissage du EEG.
Published: 2017

160. Toward user-adapted brain computer interfaces : robust interaction and machine learning based on riemannian geometry

Author: Kalunga, Emmanuel, Laboratoire d'Ingénierie des Systèmes de Versailles (LISV), Université de Versailles Saint-Quentin-en-Yvelines (UVSQ), Université Paris-Saclay, Tshwane University of Technology, Eric Monacelli, Sylvain Chevallier, and STAR, ABES
Subjects: Signal processing, Traitement de signal, Brain-Computer Interface, Apprentissage statistique, Transfert d'apprentissage, Géometrie Riemannienne, [INFO.INFO-RB] Computer Science [cs]/Robotics [cs.RO], Transfer learning, Interfaces cerveau-Machines, Electroencephalographie (EEG), Machine learning, [INFO.INFO-RB]Computer Science [cs]/Robotics [cs.RO], Riemannian geometry, Electroencephalography (EEG)
Abstract: In the last two decades, interest in Brain-Computer Interfaces (BCI) has tremendously grown, with a number of research laboratories working on the topic. Since the Brain-Computer Interface Project of Vidal in 1973, where BCI was introduced for rehabilitative and assistive purposes, the use of BCI has been extended to more applications such as neurofeedback and entertainment. The credit of this progress should be granted to an improved understanding of electroencephalography (EEG), an improvement in its measurement techniques, and increased computational power.Despite the opportunities and potential of Brain-Computer Interface, the technology has yet to reach maturity and be used out of laboratories. There are several challenges that need to be addresses before BCI systems can be used to their full potential. This work examines in depth some of these challenges, namely the specificity of BCI systems to users physical abilities, the robustness of EEG representation and machine learning, and the adequacy of training data. The aim is to provide a BCI system that can adapt to individual users in terms of their physical abilities/disabilities, and variability in recorded brain signals.To this end, two main avenues are explored: the first, which can be regarded as a high-level adjustment, is a change in BCI paradigms. It is about creating new paradigms that increase their performance, ease the discomfort of using BCI systems, and adapt to the user’s needs. The second avenue, regarded as a low-level solution, is the refinement of signal processing and machine learning techniques to enhance the EEG signal quality, pattern recognition and classification.On the one hand, a new methodology in the context of assistive robotics is defined: it is a hybrid approach where a physical interface is complemented by a Brain-Computer Interface (BCI) for human machine interaction. This hybrid system makes use of users residual motor abilities and offers BCI as an optional choice: the user can choose when to rely on BCI and could alternate between the muscular- and brain-mediated interface at the appropriate time.On the other hand, for the refinement of signal processing and machine learning techniques, this work uses a Riemannian framework. A major limitation in this filed is the EEG poor spatial resolution. This limitation is due to the volume conductance effect, as the skull bones act as a non-linear low pass filter, mixing the brain source signals and thus reducing the signal-to-noise ratio. Consequently, spatial filtering methods have been developed or adapted. Most of them (i.e. Common Spatial Pattern, xDAWN, and Canonical Correlation Analysis) are based on covariance matrix estimations. The covariance matrices are key in the representation of information contained in the EEG signal and constitute an important feature in their classification. In most of the existing machine learning algorithms, covariance matrices are treated as elements of the Euclidean space. However, being Symmetric and Positive-Definite (SPD), covariance matrices lie on a curved space that is identified as a Riemannian manifold. Using covariance matrices as features for classification of EEG signals and handling them with the tools provided by Riemannian geometry provide a robust framework for EEG representation and learning., Au cours des deux dernières décennies, l'intérêt porté aux interfaces cérébrales ou Brain Computer Interfaces (BCI) s’est considérablement accru, avec un nombre croissant de laboratoires de recherche travaillant sur le sujet. Depuis le projet Brain Computer Interface, où la BCI a été présentée à des fins de réadaptation et d'assistance, l'utilisation de la BCI a été étendue à d'autres applications telles que le neurofeedback et l’industrie du jeux vidéo. Ce progrès a été réalisé grâce à une meilleure compréhension de l'électroencéphalographie (EEG), une amélioration des systèmes d’enregistrement du EEG, et une augmentation de puissance de calcul.Malgré son potentiel, la technologie de la BCI n’est pas encore mature et ne peut être utilisé en dehors des laboratoires. Il y a un tas de défis qui doivent être surmontés avant que les systèmes BCI puissent être utilisés à leur plein potentiel. Ce travail porte sur des aspects importants de ces défis, à savoir la spécificité des systèmes BCI aux capacités physiques des utilisateurs, la robustesse de la représentation et de l'apprentissage du EEG, ainsi que la suffisance des données d’entrainement. L'objectif est de fournir un système BCI qui peut s’adapter aux utilisateurs en fonction de leurs capacités physiques et des variabilités dans les signaux du cerveau enregistrés.À ces fins, deux voies principales sont explorées : la première, qui peut être considérée comme un ajustement de haut niveau, est un changement de paradigmes BCI. Elle porte sur la création de nouveaux paradigmes qui peuvent augmenter les performances de la BCI, alléger l'inconfort de l'utilisation de ces systèmes, et s’adapter aux besoins des utilisateurs. La deuxième voie, considérée comme une solution de bas niveau, porte sur l’amélioration des techniques de traitement du signal et d’apprentissage statistique pour améliorer la qualité du signal EEG, la reconnaissance des formes, ainsi que la tache de classification.D'une part, une nouvelle méthodologie dans le contexte de la robotique d'assistance est définie : il s’agit d’une approche hybride où une interface physique est complémentée par une interface cérébrale pour une interaction homme-machine plus fluide. Ce système hybride utilise les capacités motrices résiduelles des utilisateurs et offre la BCI comme un choix optionnel : l'utilisateur choisit quand utiliser la BCI et peut alterner entre les interfaces cérébrales et musculaire selon le besoin.D'autre part, pour l’amélioration des techniques de traitement du signal et d'apprentissage statistique, ce travail utilise un cadre Riemannien. Un frein majeur dans le domaine de la BCI est la faible résolution spatiale du EEG. Ce problème est dû à l'effet de conductance des os du crâne qui agissent comme un filtre passe-bas non linéaire, en mélangeant les signaux de différentes sources du cerveau et réduisant ainsi le rapport signal-à-bruit. Par conséquent, les méthodes de filtrage spatial ont été développées ou adaptées. La plupart d'entre elles – à savoir la Common Spatial Pattern (CSP), la xDAWN et la Canonical Correlation Analysis (CCA) – sont basées sur des estimations de matrice de covariance. Les matrices de covariance sont essentielles dans la représentation d’information contenue dans le signal EEG et constituent un élément important dans leur classification. Dans la plupart des algorithmes d'apprentissage statistique existants, les matrices de covariance sont traitées comme des éléments de l'espace euclidien. Cependant, étant symétrique et défini positive (SDP), les matrices de covariance sont situées dans un espace courbe qui est identifié comme une variété riemannienne. Utiliser les matrices de covariance comme caractéristique pour la classification des signaux EEG, et les manipuler avec les outils fournis par la géométrie de Riemann, fournit un cadre solide pour la représentation et l'apprentissage du EEG.
Published: 2017

161. Apprentissage statistique sous contraintes de budget

Author: Contardo, Gabriella, Machine Learning and Information Access (MLIA), Laboratoire d'Informatique de Paris 6 (LIP6), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS), Université Pierre et Marie Curie - Paris VI, Thierry Artières, and Ludovic Denoyer
Subjects: Meta-learning, Apprentissage statistique, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Machine learning, Feature acquisition, Apprentissage actif, Apprentissage sous contrainte, Acquisition de caractéristiques, Meta apprentissage
Abstract: This thesis studies the problem of machine learning under budget constraints, in particular we propose to focus on the cost of the information used by the system to predict accurately. Most methods in machine learning usually defines the quality as the performance (e.g accuracy) on the task at hand, but ignores the cost of the model itself: for instance, the number of examples and/or labels needed during learning, the memory used, or the number of features required to predict at test-time. We propose more specifically in this manuscript several methods for cost-sensitive prediction w.r.t. the quantity of features used. We present three models that learn to predict under such constraint, i.e that learn a strategy to gather only the necessary information in order to predict well but with a small cost. The first model is a static approach applied on cold-start recommendation. We then define two adaptive methods that allow for a better trade-off between cost and accuracy, in a more generic setting. We rely on representation learning techniques, along with recurrent neural networks architecture and gradient descent algorithms for learning. In the last part of the thesis, we propose to study the problem of active-learning, where one aims at constraining the amount of labels used to train a model. We present our work for a novel approach of the problem using meta-learning, with an instantiation using bi-directional recurrent neural networks.; Cette thèse propose de s'intéresser au problème de la prédiction en apprentissage statistique sous contrainte de coût, notamment du coût de l'information utilisée par le système de prédiction. Les approches classiques d'apprentissage statistique utilisent généralement le seul aspect de la performance en prédiction pour évaluer la qualité d'un modèle, ignorant le coût potentiel du modèle, par exemple en quantité de données utilisées en apprentissage (nombre d'exemples, nombre d'étiquette, mémoire) ou en inférence (quantité de features -ou caractéristiques-). Nous proposons plus particulièrement dans ce manuscrit plusieurs approches pour l'inférence sous contrainte de coût en terme de caractéristiques. Nous développons trois modèles qui intègrent pendant l'apprentissage une notion du coût de l'information utilisée pour la prédiction, avec pour objectif de contraindre le coût de la prédiction en inférence. Nous présentons un modèle de sélection de features appliqué au démarrage à froid en recommendation, puis deux méthodes adaptatives d'acquisition de caractéristiques, qui permettent un meilleur compromis coût/prédiction, dans un cadre plus général. Nous utilisons des méthodes d'apprentissage de représentations avec des architectures type réseau de neurones récurrents et des algorithmes par descente de gradient pour l'apprentissage. La dernière partie du manuscrit s'intéresse au coût lié aux étiquettes, usuellement dénommé apprentissage actif dans la littérature. Nous présentons nos travaux pour une approche nouvelle de ce problème en utilisant le méta-apprentissage ainsi qu'une première instanciation basée sur des réseaux récurrents bi-directionnels.
Published: 2017

162. De l'intelligence artificielle dans vos cartes

Author: Thomas, Alban, Corpetti, Thomas, Corgne, Samuel, Garnier, Laurent, Tavenard, Romain, Oszwald, Johan, Université de Rennes 2 (UR2), Littoral, Environnement, Télédétection, Géomatique UMR 6554 (LETG), Université de Caen Normandie (UNICAEN), Normandie Université (NU)-Normandie Université (NU)-Université d'Angers (UA)-École Pratique des Hautes Études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université de Brest (UBO)-Université de Rennes 2 (UR2)-Centre National de la Recherche Scientifique (CNRS)-Institut de Géographie et d'Aménagement Régional de l'Université de Nantes (IGARUN), Université de Nantes (UN)-Université de Nantes (UN), Observatoire des Sciences de l'Univers de Rennes (OSUR), Université de Rennes (UR)-Institut national des sciences de l'Univers (INSU - CNRS)-Université de Rennes 2 (UR2)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Littoral, Environnement, Télédétection, Géomatique (LETG - Rennes), Université de Nantes (UN)-Université de Nantes (UN)-Université de Caen Normandie (UNICAEN), CNRS, réseau DEVLOG, Université de Rennes (UNIV-RENNES), Normandie Université (NU)-Normandie Université (NU)-Université d'Angers (UA)-École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université de Brest (UBO)-Université de Rennes 2 (UR2), and Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Centre National de la Recherche Scientifique (CNRS)-Institut de Géographie et d'Aménagement Régional de l'Université de Nantes (IGARUN)
Subjects: Cartographie, télédétection, apprentissage statistique, [SHS.GEO]Humanities and Social Sciences/Geography, Python
Abstract: National audience; Mapping Learning se veut un outil pour faciliter l'utilisation d'algorithmes de machine learning, en vue de produire des cartes, mais pas seulement. De nombreux algorithmes sont disponibles, et peuvent être appliqués à des données de différentes natures (tableau, image, données vectorielles). Application open-source, Mapping Learning vise à devenir un projet éducatif sur le machine learning mais aussi le développement à l'aide de Python ( scikit-learn, mlpy, Gdal/Ogr/Osgeo).
Published: 2017

163. Personalized drug adverse side effect prediction

Author: Bellón Molina, Víctor, Centre de Bioinformatique (CBIO), MINES ParisTech - École nationale supérieure des mines de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), Université Paris sciences et lettres, Véronique Stoven, and Chloé-Agathe Azencott
Subjects: Machine Learning, Multitask learning, Apprentissage statistique, [SDV.SP.MED]Life Sciences [q-bio]/Pharmaceutical sciences/Medication, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], Effets secondaires indésirables, Personalized Medicine, Adverse drug reaction, Médecine personnalisée, Side effect prediction, Prédiction d'effets secondaires, Apprentissage multitâche
Abstract: Adverse drug reaction (ADR) is a serious concern that has important health and economical repercussions. Between 1.9%-2.3% of the hospitalized patients suffer from ADR, and the annual cost of ADR have been estimated to be of 400 million euros in Germany alone. Furthermore, ADRs can cause the withdrawal of a drug from the market, which can cause up to millions of dollars of losses to the pharmaceutical industry.Multiple studies suggest that genetic factors may play a role in the response of the patients to their treatment. This covers not only the response in terms of the intended main effect, but also % according toin terms of potential side effects. The complexity of predicting drug response suggests that machine learning could bring new tools and techniques for understanding ADR.In this doctoral thesis, we study different problems related to drug response prediction, based on the genetic characteristics of patients.We frame them through multitask machine learning frameworks, which combine all data available for related problems in order to solve them at the same time.We propose a novel model for multitask linear prediction that uses task descriptors to select relevant features and make predictions with better performance as state-of-the-art algorithms. Finally, we study strategies for increasing the stability of the selected features, in order to improve interpretability for biological applications.; Les effets indésirables médicamenteux (EIM) ont des répercussions considérables tant sur la santé que sur l'économie. De 1,9% à 2,3% des patients hospitalisés en sont victimes, et leur coût a récemment été estimé aux alentours de 400 millions d'euros pour la seule Allemagne. De plus, les EIM sont fréquemment la cause du retrait d'un médicament du marché, conduisant à des pertes pour l'industrie pharmaceutique se chiffrant parfois en millions d'euros.De multiples études suggèrent que des facteurs génétiques jouent un rôle non négligeable dans la réponse des patients à leur traitement. Cette réponse comprend non seulement les effets thérapeutiques attendus, mais aussi les effets secondaires potentiels. C'est un phénomène complexe, et nous nous tournons vers l'apprentissage statistique pour proposer de nouveaux outils permettant de mieux le comprendre.Nous étudions différents problèmes liés à la prédiction de la réponse d'un patient à son traitement à partir de son profil génétique. Pour ce faire, nous nous plaçons dans le cadre de l'apprentissage statistique multitâche, qui consiste à combiner les données disponibles pour plusieurs problèmes liés afin de les résoudre simultanément.Nous proposons un nouveau modèle linéaire de prédiction multitâche qui s'appuie sur des descripteurs des tâches pour sélectionner les variables pertinentes et améliorer les prédictions obtenues par les algorithmes de l'état de l'art. Enfin, nous étudions comment améliorer la stabilité des variables sélectionnées, afin d'obtenir des modèles interprétables.
Published: 2017

164. A Machine Learning Approach to the Forecast Combination Puzzle

Author: Mandel, Antoine, Sani, Amir, Centre d'économie de la Sorbonne (CES), Université Paris 1 Panthéon-Sorbonne (UP1)-Centre National de la Recherche Scientifique (CNRS), Paris School of Economics (PSE), École des Ponts ParisTech (ENPC)-École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Paris 1 Panthéon-Sorbonne (UP1)-Centre National de la Recherche Scientifique (CNRS)-École des hautes études en sciences sociales (EHESS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), CFM-Imperial Institute of Quantitative Finance, and Imperial College London
Subjects: Machine Learning, Forecast combinations, [SHS.STAT]Humanities and Social Sciences/Methods and statistics, Apprentissage statistique, Econométrie, JEL: D - Microeconomics/D.D8 - Information, Knowledge, and Uncertainty/D.D8.D85 - Network Formation and Analysis: Theory, Forecast Combination Puzzle, [SHS.INFO]Humanities and Social Sciences/Library and information sciences, JEL: C - Mathematical and Quantitative Methods/C.C7 - Game Theory and Bargaining Theory/C.C7.C71 - Cooperative Games, Econometrics, Combinaison de prédicteurs, [SHS.ECO]Humanities and Social Sciences/Economics and Finance, Forecasting
Abstract: Forecast combination algorithms provide a robust solution to noisy data andshifting process dynamics. However in practice, sophisticated combinationmethods often fail to consistently outperform the simple mean combination.This “forecast combination puzzle” limits the adoption of alternative com-bination approaches and forecasting algorithms by policy-makers. Throughan adaptive machine learning algorithm designed for streaming data, this pa-per proposes a novel time-varying forecast combination approach that retainsdistribution-free guarantees in performance while automatically adapting com-binations according to the performance of any selected combination approachor forecaster. In particular, the proposed algorithm offers policy-makers theability to compute the worst-case loss with respect to the mean combinationex-ante, while also guaranteeing that the combination performance is neverworse than this explicit guarantee. Theoretical bounds are reported with re-spect to the relative mean squared forecast error. Out-of-sample empiricalperformance is evaluated on the Stock and Watson seven-country dataset and the ECB Sur-vey of Professional Forecasters.
Published: 2017

165. Mise en relation d'images et de modèles 3D avec des réseaux de neurones convolutifs

Author: Suzano Massa, Francisco Vitor, Laboratoire d'Informatique Gaspard-Monge (LIGM), Centre National de la Recherche Scientifique (CNRS)-Fédération de Recherche Bézout-ESIEE Paris-École des Ponts ParisTech (ENPC)-Université Paris-Est Marne-la-Vallée (UPEM), Université Paris-Est, Renaud Marlet, Mathieu Aubry, and STAR, ABES
Subjects: Apprentissage profond, Neural Networks, Apprentissage statistique, [INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing, Computer Vision, Synthetic Data, Machine Learning, Deep Learning, [INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing, Vision par ordinateur, Object Detection, Données synthétiques, Détection d'objets, Réseaux de neurones
Abstract: The recent availability of large catalogs of 3D models enables new possibilities for a 3D reasoning on photographs. This thesis investigates the use of convolutional neural networks (CNNs) for relating 3D objects to 2D images.We first introduce two contributions that are used throughout this thesis: an automatic memory reduction library for deep CNNs, and a study of CNN features for cross-domain matching. In the first one, we develop a library built on top of Torch7 which automatically reduces up to 91% of the memory requirements for deploying a deep CNN. As a second point, we study the effectiveness of various CNN features extracted from a pre-trained network in the case of images from different modalities (real or synthetic images). We show that despite the large cross-domain difference between rendered views and photographs, it is possible to use some of these features for instance retrieval, with possible applications to image-based rendering.There has been a recent use of CNNs for the task of object viewpoint estimation, sometimes with very different design choices. We present these approaches in an unified framework and we analyse the key factors that affect performance. We propose a joint training method that combines both detection and viewpoint estimation, which performs better than considering the viewpoint estimation separately. We also study the impact of the formulation of viewpoint estimation either as a discrete or a continuous task, we quantify the benefits of deeper architectures and we demonstrate that using synthetic data is beneficial. With all these elements combined, we improve over previous state-of-the-art results on the Pascal3D+ dataset by a approximately 5% of mean average viewpoint precision.In the instance retrieval study, the image of the object is given and the goal is to identify among a number of 3D models which object it is. We extend this work to object detection, where instead we are given a 3D model (or a set of 3D models) and we are asked to locate and align the model in the image. We show that simply using CNN features are not enough for this task, and we propose to learn a transformation that brings the features from the real images close to the features from the rendered views. We evaluate our approach both qualitatively and quantitatively on two standard datasets: the IKEAobject dataset, and a subset of the Pascal VOC 2012 dataset of the chair category, and we show state-of-the-art results on both of them, La récente mise à disposition de grandes bases de données de modèles 3D permet de nouvelles possibilités pour un raisonnement à un niveau 3D sur les photographies. Cette thèse étudie l'utilisation des réseaux de neurones convolutifs (CNN) pour mettre en relation les modèles 3D et les images.Nous présentons tout d'abord deux contributions qui sont utilisées tout au long de cette thèse : une bibliothèque pour la réduction automatique de la mémoire pour les CNN profonds, et une étude des représentations internes apprises par les CNN pour la mise en correspondance d'images appartenant à des domaines différents. Dans un premier temps, nous présentons une bibliothèque basée sur Torch7 qui réduit automatiquement jusqu'à 91% des besoins en mémoire pour déployer un CNN profond. Dans un second temps, nous étudions l'efficacité des représentations internes des CNN extraites d'un réseau pré-entraîné lorsqu'il est appliqué à des images de modalités différentes (réelles ou synthétiques). Nous montrons que malgré la grande différence entre les images synthétiques et les images naturelles, il est possible d'utiliser certaines des représentations des CNN pour l'identification du modèle de l'objet, avec des applications possibles pour le rendu basé sur l'image.Récemment, les CNNs ont été utilisés pour l'estimation de point de vue des objets dans les images, parfois avec des choix de modélisation très différents. Nous présentons ces approches dans un cadre unifié et nous analysons les facteur clés qui ont une influence sur la performance. Nous proposons une méthode d'apprentissage jointe qui combine à la fois la détection et l'estimation du point de vue, qui fonctionne mieux que de considérer l'estimation de point de vue de manière indépendante.Nous étudions également l'impact de la formulation de l'estimation du point de vue comme une tâche discrète ou continue, nous quantifions les avantages des architectures de CNN plus profondes et nous montrons que l'utilisation des données synthétiques est bénéfique. Avec tous ces éléments combinés, nous améliorons l'état de l'art d'environ 5% pour la précision de point de vue moyenne sur l'ensemble des données Pascal3D+.Dans l'étude de recherche de modèle d'objet 3D dans une base de données, l'image de l'objet est fournie et l'objectif est d'identifier parmi un certain nombre d'objets 3D lequel correspond à l'image. Nous étendons ce travail à la détection d'objet, où cette fois-ci un modèle 3D est donné, et l'objectif consiste à localiser et à aligner le modèle 3D dans image. Nous montrons que l'application directe des représentations obtenues par un CNN ne suffit pas, et nous proposons d'apprendre une transformation qui rapproche les répresentations internes des images réelles vers les représentations des images synthétiques. Nous évaluons notre approche à la fois qualitativement et quantitativement sur deux jeux de données standard: le jeu de données IKEAobject, et le sous-ensemble du jeu de données Pascal VOC 2012 contenant des instances de chaises, et nous montrons des améliorations sur chacun des deux
Published: 2017

166. Statistical learning for large longitudinal data and applications to video game design

Author: Allart, Thibault and STAR, ABES
Subjects: Video games, Optimization, Apprentissage statistique, Jeux video, Analyse de survie, Optimisation, [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], Survival analysis, Statistical learning, [SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing
Abstract: This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations., Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs.
Published: 2017

167. Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations

Author: Luu, Keurcien, STAR, ABES, Techniques de l'Ingénierie Médicale et de la Complexité - Informatique, Mathématiques et Applications, Grenoble - UMR 5525 (TIMC-IMAG), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-VetAgro Sup - Institut national d'enseignement supérieur et de recherche en alimentation, santé animale, sciences agronomiques et de l'environnement (VAS)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Université Grenoble Alpes, and Michaël Blum
Subjects: Next-Generation Sequencing, [SDV.GEN.GPO]Life Sciences [q-bio]/Genetics/Populations and Evolution [q-bio.PE], Apprentissage statistique, Bioinformatics, Bio-Informatique, Machine Learning, Statistical Learning, Génétique des populations, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], [SDV.GEN.GPO] Life Sciences [q-bio]/Genetics/Populations and Evolution [q-bio.PE], [INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM], [MATH.MATH-ST] Mathematics [math]/Statistics [math.ST], Population Genetics, Séquençage nouvelle génération, [INFO.INFO-BI] Computer Science [cs]/Bioinformatics [q-bio.QM]
Abstract: Identifying genes involved in local adaptation is of major interest in population genetics. Current statistical methods for genome scans are no longer suited to the analysis of Next Generation Sequencing (NGS) data. We propose new statistical methods to perform genome scans on massive datasets. Our methods rely exclusively on Principal Component Analysis which use in population genetics will be discussed extensively. We also explain the reasons why our approaches can be seen as extensions of existing methods and demonstrate how our PCA-based statistics compare with state-of-the-art methods. Our work has led to the development of pcadapt, an R package designed for outlier detection for various genetic data., L'identification de gènes ayant permis à des populations de s'adapter à leur environnement local constitue une des problématiques majeures du domaine de la génétique des populations. Les méthodes statistiques actuelles répondant à cette problématique ne sont plus adaptées aux données de séquençage nouvelle génération (NGS). Nous proposons dans cette thèse de nouvelles statistiques adaptées à ces nouveaux volumes de données, destinées à la détection de gènes sous sélection. Nos méthodes reposent exclusivement sur l'Analyse en Composantes Principales, dont nous justifierons l'utilisation en génétique des populations. Nous expliquerons également les raisons pour lesquelles nos approches généralisent les méthodes statistiques existantes et démontrons l'intérêt d'utiliser une approche basée sur l'Analyse en Composantes Principales en comparant nos méthodes à celles de l'état de l'art. Notre travail a notamment abouti au développement de pcadapt, une librairie R permettant l'utilisation de nos statistiques de détection sur des données génétiques variées.
Published: 2017

168. Dynamic stochastic block models, clustering and segmentations in dynamic graphs

Author: Corneli, Marco, Corneli, Marco, Statistique, Analyse et Modélisation Multidisciplinaire (SAmos-Marin Mersenne) (SAMM), Université Paris 1 Panthéon-Sorbonne (UP1), Université Paris 1 - Panthéon Sorbonne, Fabrice Rossi (fabrice.rossi@univ-paris1.fr), and Pierre Latouche (pierre.latouche@univ-paris1.fr)
Subjects: graphs, model selection, [STAT.ME] Statistics [stat]/Methodology [stat.ME], classification non supervisée, sélection de modèle, segmentation, dynamic networks, réseaux dynamiques, apprentissage statistique, [MATH] Mathematics [math], [STAT.ML] Statistics [stat]/Machine Learning [stat.ML], segmentations, [STAT] Statistics [stat], [STAT]Statistics [stat], statistical learning, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], inférence variationnelle, graphes, [MATH]Mathematics [math], mixture models, [STAT.ME]Statistics [stat]/Methodology [stat.ME], model based clustering, variational inference, modèles de mélange
Abstract: Graphs are mathematical structures very suitable to model interactions between objects or actors of interest.Several real networks such as communication networks, financial transaction networks, mobile telephone networks and social networks (Facebook, Linkedin, etc.) can be modeled via graphs. When observing a network, the time variable comes into play intwo different ways: we can study the time dates at which the interactions occur and/or the interaction time spans. This thesis only focuses on the first time dimension and each interaction is assumed to be instantaneous, for simplicity. Hence, the network evolution is given by the interaction time dates only. In this framework, graphs can be used in two different ways to model networks:1) Discrete time. A network is observed at several times and a graph is associated with each observation time. Two nodes of a graph are connected if one or more interactions occurred between them in the corresponding time frame. Thus, interactions are aggregated between two consecutive observation times and the exact interaction dates are lost. In this context, a dynamic network is represented by a sequence of graphs.2) Continuous Time. Several edges are allowed to connect the nodes of a graph at different times. One edge is uniquely associated with a pair of nodes and a time point. No aggregation is required and interaction times are never lost. Therefore, a dynamic network is represented by a single multiple graph whose edges are labeled by the interaction times.In this thesis both these perspectives are adopted, alternatively. We consider new unsupervised methods to cluster the nodes of a graph into groups of homogeneous connection profiles. In this manuscript, the node groups are assumed to be time invariant to avoid possible identifiability issues. Moreover, the approaches that we propose aim to detect structural changes in the way the node clusters interact with each other. The building block of this thesis is the stochastic block model (SBM), a probabilistic approach initially used in social sciences. The standard SBM assumes that the nodes of a graph belong to hidden (disjoint) clusters and that the probability of observing an edge between two nodes only depends on their clusters. Since no further assumption is made on the connection probabilities, SBM is a very flexible model able to detect different network topologies (hubs, stars, communities, etc.).By adapting the block modeling perspective of SBM to dynamic graphs, the main contributions of this thesis are the following:1. We introduce a new extension of SBM for dynamic graphs. The proposed approach, called dSBM, adopts non homogeneous Poisson processes to model the interaction times between pairs of nodes in dynamic graphs, either in discrete or continuous time. The intensity functions of the processes only depend on the node clusters, in a block modeling perspective. Moreover, all the intensity functions share some regularity properties on hidden time intervals that need to be estimated.2. A recent estimation algorithm for SBM, based on the greedy maximization of an exact criterion (exact ICL) is adopted for inference and model selection in dSBM. To the best of our knowledge, this is the first time this algorithm is adopted for inference in dynamic stochastic block models.3. An exact algorithm for change point detection in time series, the "pruned exact linear time" (PELT) method is extended to deal with dynamic graph data modeled via dSBM. The approach we propose can be used for change point analysis in graph data. 4. A further extension of dSBM is developed to analyze dynamic networks with textual edges (like social networks, for instance). In this context, the graph edges are associated with documents exchanged between the corresponding nodes. The textual content of the documents can provide additional information about the dynamic graph topological structure. The new model we propose is called "dynamic stochastic topic block model" (dSTBM).This manuscript is organized as follows. In the first chapter, we pass through the main notions of graph theory and review some stylized facts about real networks. Two formal definitions of dynamic graph are provided. Then, the main existing generative models for static and dynamic random graphs are presented along with their associated inference procedures. Finally, some statistical tools not necessarily related with network analysis are described in detail since they are used in later chapters.In the second chapter, two versions of dSBM are introduced, both dealing with discrete time dynamic graphs. The corresponding inference procedure aims to maximize the complete data integrated log-likelihood, thus allowing us to learn the model parameters and select the number of clusters at the same time. In the third chapter, we model continuous time dynamic graphs via dSBM and focus on clustering and change point analysis in graph data. A standard variational approach is adopted for the inference and one step of the estimation algorithm relies on the PELT method.Finally, the fourth chapter introduces the dSTBM for discrete time dynamic graph with textual edges. The inference procedure is detailed and a model selection criterion is formally obtained.The last part of each chapter is devoted to experiments on both simulated and real data. These experiments allow us to highlight the features of the proposed approaches and to compare them with alternative methods., Les graphes sont des structures mathématiques très adaptées pour modéliser les interactions parmi des objet/individus à étudier. De nombreux types de réseaux réels peuvent être modélisés à travers des graphes, tels que les réseaux de transport, les réseaux de transactions financières ou les réseaux sociaux comme Facebook ou Linkedin. Quand on observe un réseau d'interactions, le tempsentre en jeu de deux manières différentes: on peut étudier les instants auxquels les interactions ont lieu et les durées de ces interactions. Les travaux de cette thèse se limitent à la première dimension temporelle. Chaque interaction est donc considérée comme instantanée pour des raisons de simplicité. L'évolution du réseau repose ainsi sur les temps des interactions uniquement. Dans ce contexte, les graphes peuvent être utilisés de deux manières différentes pour modéliser les réseaux:1) Temps discret. Un réseau est observé à des instants différents et un graphe est associé à chacun de ces instants. Deux nœuds d'un graphe sont connectés si une ou plusieurs interactions entre eux sont observées dans le réseau à l'instant correspondant. Les interactions sont donc agrégées entre un instant d'observation et le suivant et les dates exactes des interactions sont perdues. Un réseau dynamique est enfin représenté par une séquence de graphes. 2)Temps continu. Plusieurs arcs connectent les nœuds d'un graphe. Chaque arc est donc uniquement associé à une paire de nœuds et à un instant temporel. Il n'y a pas d'agrégation temporelle dans ce cas et les instants exacts des interactions ne sont pas perdus. Le réseau dynamique est donc représenté par un seul graphe multiple dont les arcs sont étiquetés par les temps d'interaction. Dans cette thèse ces deux visions sont adoptées alternativement. Nous proposons de nouvelles méthodes d'apprentissage non supervisé qui visent à partitionner les sommets d'un graphe dynamique en classes homogènes au sens où les sommets d'une même classe ont des profils d'interaction similaires. Pour éviter des problèmes d'identifiabilité les groupes de nœuds ne changent pas dans le temps. Par ailleurs, les approches proposées visent à détecter des changements structurels dans la façon dont les groupes de nœuds interagissent entre eux. Le point de départ de cette thèse est le stochastic block model (SBM), une approche probabiliste initialement utilisée en sciences sociales. Dans la version standard du modèle, les nœuds d'un graphe sont répartis dans des classes et la probabilité d'apparition d'un arc entre deux nœuds dépend uniquement des classes auxquelles ils appartiennent. Comme aucune hypothèse n'étant faite sur les probabilités d'interaction, SBM est un modèle très flexible qui permet de capturer des structures topologiques différentes et variées (hubs, stars, communautés, etc.). Tout en gardant une approche de modélisation par blocs (comme dans SBM) dans le contexte des graphes dynamiques,les principales contributions de cette thèse sont les suivantes:1) Nous introduisons une nouvelle extension dynamique du SBM, appelée dSBM, qui utilise des processus de Poisson non homogènes pour modéliser les interactions parmi les paires de nœuds d'un graphe dynamique, en temps discret et continu. Les fonctions d'intensité des processus ne dépendent que des classes des nœuds comme dans SBM. De plus, ces fonctions d'intensité ont des propriétés de régularité sur des intervalles temporels qui sont à estimer, et à l'intérieur desquels les processus de Poisson redeviennent homogènes.2) Un récent algorithme d'estimation pour SBM, qui repose sur la maximisation d'un critère exact (ICL exacte) est ici adopté pour estimer les paramètres de dSBM et sélectionner simultanément le modèle optimal. notre connaissance, c'est la première fois que cet algorithme est utilisé dans le cadre d'un modèle SBM dynamique.3) Un algorithme exact pour la détection de rupture dans les séries temporelles, la méthode pruned exact linear time (PELT), est étendu pour faire de la détection de rupture dans des données de graphe dynamique selon le modèle dSBM.4 Le modèle dSBM est étendu ultérieurement pour faire de l'analyse de réseau textuel dynamique. Les réseaux sociaux sont un exemple de réseaux textuels: les acteurs s'échangent des documents (posts, tweets, etc.) dont le contenu textuel peut être utilisé pour faire de la classification et détecter la structure temporelle du graphe dynamique. Le modèle que nous introduisons est appelé dynamic stochastic topic block model (dSTBM). Ce manuscrit est organisé de la façon suivante.Dans le premier chapitre nous faisons état des principales notions de théorie des graphes et des propriétés connues des réseaux réels. Deux définitions formelles de graphe dynamique sont énoncées. Ensuite, nous présentons les principaux modèles génératifs existants pour les graphes (statiques et dynamiques) et les méthodes d'estimation introduites dans la littérature pour ces modèles.Enfin, nous introduisons des outils statistiques (pas forcement liés à l'analyse de réseau) qui sont à la base de nos travaux.Dans le deuxième chapitre, deux versions du modèle dSBM sont présentées pour l'analyse des réseaux dynamiques en temps discret. Une procédure d'inférence est ensuite détaillée. Elle vise à maximiser (de façon gloutonne) la vraisemblance intégrée des données complétées: ceci permet d'estimer les paramètres du modèle tout en sélectionnant simultanément le nombre de classes. Le troisième chapitre introduit une version du modèle dSBM pour l'analyse de graphes dynamiques en temps continu. La méthode proposée assure une forme de détection de rupture dans l'évolution temporelle de ce type de graphes. L'inférence repose sur une approche variationnelle classique dont une partie est basée sur le PELT.Le quatrième chapitre revient sur les graphes dynamiques en temps discret. Les réseaux dynamiques textuels sont pris en compte, le modèle dSTBM est présenté et une procédure d'inférence est détaillée. Un critère de sélection de modèle est enfin formellement dérivé.En conclusion chaque chapitre, nous conduisons des expériences sur des données simulées et réelles. Ces expériences nous servent à la fois à tester les points forts et les faiblesses de nos méthodes et à les comparer avec des approches concurrentes.
Published: 2017

169. Mapping Learning

Author: Thomas, Alban, Corpetti, Thomas, Corgne, Samuel, Garnier, Laurent, Tavenard, Romain, Oszwald, Johan, and Thomas, Alban
Subjects: Cartographie, télédétection, [SHS.GEO] Humanities and Social Sciences/Geography, apprentissage statistique, Python
Abstract: Mapping Learning se veut un outil pour faciliter l'utilisation d'algorithmes de machine learning, en vue de produire des cartes, mais pas seulement. De nombreux algorithmes sont disponibles, et peuvent être appliqués à des données de différentes natures (tableau, image, données vectorielles). Application open-source, Mapping Learning vise à devenir un projet éducatif sur le machine learning mais aussi le développement à l'aide de Python ( scikit-learn, mlpy, Gdal/Ogr/Osgeo).
Published: 2017

170. Waterpixels et Leur Application à l'Apprentissage Statistique de la Segmentation

Author: Machairas, Vaïa, Centre de Morphologie Mathématique (CMM), MINES ParisTech - École nationale supérieure des mines de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), Université Paris sciences et lettres, Etienne Decencière, Thomas Walter, MINES ParisTech - École nationale supérieure des mines de Paris-PSL Research University (PSL), PSL Research University, and Université de recherche Paris Sciences et Lettres
Subjects: Segmentation, Apprentissage statistique, Mathematical morphology, [INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV], Superpixels, Machine learning, Ligne de partage des eaux, Apprentissage automatique, waterpixels, Morphologie mathématique, Watershed, [SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing
Abstract: In this work, we would like to provide a general method for automatic semantic segmentation, which could adapt itself to any image database in order to be directly used by non-experts in image analysis (such as biologists). To address this problem, we first propose to use pixel classification, a classic approach based on supervised learning, where the aim is to assign to each pixel the label of the object it belongs to. Features describing each pixel properties, and which are used to determine the class label, are often computed on a fixed-shape support (such as a centered window), which leads, in particular, to misclassifcations on object contours. Therefore, we consider another support which is wider than the pixel itself and adapts to the image content: the superpixel. Superpixels are homogeneous and rather regular regions resulting from a low-level segmentation. We propose a new superpixel generation method based on the watershed, the waterpixels, which are efficient, fast to compute and easy to handle by the user. They are then inserted in the classification pipeline, either in replacement of pixels to be classified, or as pertinent supports to compute the features, called Superpixel-Adaptive Features (SAF). This second approach constitutes a general segmentation method whose pertinence is qualitatively and quantitatively highlighted on three databases from the biological field.; L’objectif de ces travaux est de fournir une méthode de segmentation sémantique qui soit générale et automatique, c’est-à-dire une méthode qui puisse s’adapter par elle-même à tout type de base d’images, afin d’être utilisée directement par les non experts en traitement d’image, comme les biologistes par exemple. Pour cela, nous proposons d’utiliser la classification de pixel, une approche classique d’apprentissage supervisé, où l’objectif est d’attribuer à chaque pixel l’étiquette de l’objet auquel il appartient. Les descripteurs des pixels à classer sont souvent calculés sur des supports fixes, par exemple une fenêtre centrée sur chaque pixel, ce qui conduit à des erreurs de classification, notamment au niveau des contours d’objets. Nous nous intéressons donc à un autre support, plus large que le pixel et s’adaptant au contenu de l’image: le superpixel. Les superpixels sont des régions homogènes et plutôt régulières, issues d’une segmentation de bas niveau. Nous proposons une nouvelle façon de les générer grâce à la ligne de partage des eaux, les waterpixels, méthode rapide, performante et facile à prendre en main par l’utilisateur. Ces superpixels sont ensuite utilisés dans la chaîne de classification, soit à la place des pixels à classer, soit comme support pertinent pour calculer les descripteurs, appelés SAF (Superpixel-Adaptive Features). Cette seconde approche constitue une méthode générale de segmentation dont la pertinence est vérifiée qualitativement et quantitativement sur trois bases d’images provenant du milieu biomédical.
Published: 2016

171. Combining machine learning and evolution for the annotation of metagenomics data

Author: Ugarte, Ari, Biologie Computationnelle et Quantitative = Laboratory of Computational and Quantitative Biology (LCQB), Institut de Biologie Paris Seine (IBPS), Institut National de la Santé et de la Recherche Médicale (INSERM)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS), Université Pierre et Marie Curie - Paris VI, Alessandra Carbone, Angela Falciatore, Université Pierre et Marie Curie - Paris 6 (UPMC)-Institut de Biologie Paris Seine (IBPS), and Université Pierre et Marie Curie - Paris 6 (UPMC)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS)
Subjects: Métatranscriptomique, Modèle probabiliste, Apprentissage statistique, Probabilistic models, Metagenomics, [INFO.INFO-BT]Computer Science [cs]/Biotechnology, Annotation de domaine, Annotation de protéine, Metatranscriptomics, Métagénomique
Abstract: Metagenomics is used to study microbial communities by the analyze of DNA extracted directly from environmental samples. It allows to establish a catalog very extended of genes present in the microbial communities. This catalog must be compared against the genes already referenced in the databases in order to find similar sequences and thus determine their function. In the course of this thesis, we have developed MetaCLADE, a new methodology that improves the detection of protein domains already referenced for metagenomic and metatranscriptomic sequences. For the development of MetaCLADE, we modified an annotation system of protein domains that has been developed within the Laboratory of Computational and Quantitative Biology clade called (closer sequences for Annotations Directed by Evolution) [17]. In general, the methods for the annotation of protein domains characterize protein domains with probabilistic models. These probabilistic models, called sequence consensus models (SCMs) are built from the alignment of homolog sequences belonging to different phylogenetic clades and they represent the consensus at each position of the alignment. However, when the sequences that form the homolog set are very divergent, the signals of the SCMs become too weak to be identified and therefore the annotation fails. In order to solve this problem of annotation of very divergent domains, we used an approach based on the observation that many of the functional and structural constraints in a protein are not broadly conserved among all species, but they can be found locally in the clades. The approach is therefore to expand the catalog of probabilistic models by creating new models that focus on the specific characteristics of each clade. MetaCLADE, a tool designed with the objective of annotate with precision sequences coming from metagenomics and metatranscriptomics studies uses this library in order to find matches between the models and a database of metagenomic or metatranscriptomic sequences. Then, it uses a pre-computed step for the filtering of the sequences which determine the probability that a prediction is a true hit. This pre-calculated step is a learning process that takes into account the fragmentation of metagenomic sequences to classify them. We have shown that the approach multi source in combination with a strategy of meta-learning taking into account the fragmentation outperforms current methods.; La métagénomique sert à étudier les communautés microbiennes en analysant de l’ADN extrait directement d’échantillons pris dans la nature, elle permet également d’établir un catalogue très étendu des gènes présents dans les communautés microbiennes. Ce catalogue doit être comparé contre les gènes déjà référencés dans les bases des données afin de retrouver des séquences similaires et ainsi déterminer la fonction des séquences qui le composent. Au cours de cette thèse, nous avons développé MetaCLADE, une nouvelle méthodologie qui améliore la détection des domaines protéiques déjà référencés pour des séquences issues des données métagénomiques et métatranscriptomiques. Pour le développement de MetaCLADE, nous avons modifié un système d’annotations de domaines protéiques qui a été développé au sein du Laboratoire de Biologie Computationnelle et Quantitative appelé CLADE (CLoser sequences for Annotations Directed by Evolution) [17]. En général les méthodes pour l’annotation de domaines protéiques caractérisent les domaines connus avec des modèles probabilistes. Ces modèles probabilistes, appelés Sequence Consensus Models (SCMs) sont construits à partir d’un alignement des séquences homologues appartenant à différents clades phylogénétiques et ils représentent le consensus à chaque position de l’alignement. Cependant, quand les séquences qui forment l’ensemble des homologues sont très divergentes, les signaux des SCMs deviennent trop faibles pour être identifiés et donc l’annotation échoue. Afin de résoudre ce problème d’annotation de domaines très divergents, nous avons utilisé une approche fondée sur l’observation que beaucoup de contraintes fonctionnelles et structurelles d’une protéine ne sont pas globalement conservées parmi toutes les espèces, mais elles peuvent être conservées localement dans des clades. L’approche consiste donc à élargir le catalogue de modèles probabilistes en créant de nouveaux modèles qui mettent l’accent sur les caractéristiques propres à chaque clade. MetaCLADE, un outil conçu dans l’objectif d’annoter avec précision des séquences issues des expériences métagénomiques et métatranscriptomiques utilise cette libraire afin de trouver des correspondances entre les modèles et une base de données de séquences métagénomiques ou métatranscriptomiques. En suite, il se sert d’une étape pré-calculée pour le filtrage des séquences qui permet de déterminer la probabilité qu’une prédiction soit considérée vraie. Cette étape pré-calculée est un processus d’apprentissage qui prend en compte la fragmentation de séquences métagénomiques pour les classer.Nous avons montré que l’approche multi source en combinaison avec une stratégie de méta apprentissage prenant en compte la fragmentation atteint une très haute performance.
Published: 2016

172. Prédiction à long terme ds performances de piles à combustible à membrane échangeuse de protons par apprentissage statistique

Author: Wu, Yiming, Laboratoire Systèmes et Transports (IRTES - SET), Université de Technologie de Belfort-Montbeliard (UTBM)-Institut de Recherche sur les Transports, l'Energie et la Société - IRTES, Université de Technologie de Belfort-Montbeliard, Abdellatif Miraoui, and Fei Gao
Subjects: Apprentissage statistique, Performance pediction, Machine learning, [SPI.NRJ]Engineering Sciences [physics]/Electric power, Pile à combustible à membrane échangeuse de potons, PEMFC
Abstract: The environmental issues, especially the global warming due to greenhouse effect, has become more and morecritical in recent decades. As one potential candidate among different alternative "green energy" solutions forsustainable development, the Proton Exchange Membrane Fuel Cell (PEMFC) has been received extensiveresearch attention since many years for energy and transportation applications. The PEMFC stacks, can produceelectricity directly from electrochemical reaction between hydrogen and oxygen in the air, with the only by-productsof water and heat. If the hydrogen is produced from renewable energy sources, this energy conversion is 100% ecofriendly.However, the relatively short lifespan of PEMFCs operating under non-steady-state conditions (for vehicles forexample) impedes its massive use. The accurate prediction of their aging mechanisms can thus help to designproper maintenance patterns of PEMFCs by providing foreseeable performance degradation information. In addition,the prediction could also help to avoid or mitigate the unwanted degradation of PEMFC systems during operation.This thesis proposes a novel data driven approach to predict the performance degradation of the PEMFC using animproved relevance vector machine method.Firstly, the theoretical description of the PEMFC during operation will be presented followed by an extensivelydetailed illustration on impacts of operational conditions on PEMFC performance, along with the degradationmechanisms on each component of PEMFC. Moreover, different approaches of PEMFC performance prediction inthe literature will also be briefly introduced.Further, a performance prediction method using an improved Relevance Vector Machine (RVM) would be proposedand demonstrated. The prediction results based on different training zones from historical data will also bediscussed and compared with the prediction results using conventional Support Vector Machine (SVM).Moreover, a self-adaptive kernel RVM prediction method will be introduced. At the meantime, the design matrix ofthe RVM training will also be modified in order to acquire higher precision during prediction. The prediction resultswill be illustrated and discussed thoroughly in the end.In summary, this dissertation mainly discusses the analysis of the PEMFC performance prediction using advancedmachine learning methods.; Les questions environnementales, en particulier le réchauffement de la planète en raison de l'effet de serre, estdevenu de plus en plus critique au cours des dernières décennies. Candidate potentielle parmi les différentessolutions alternatives d'énergie verte pour le développement durable, la pile à combustible à membrane échangeusede protons (PEMFC en anglais) a fait l'objet de nombreux travaux de recherche, dans les domaines de l'énergie etdes transports. Les PEMFC peuvent produire de l'électricité directement à partir de la réaction électrochimique entrel'hydrogène et l'oxygène de l'air, avec comme seul sous-produits de l'eau et de la chaleur. Si l'hydrogène est produità partir de sources d'énergie renouvelables, cette conversion de l'énergie est complètement écologique.Cependant, la durée de vie relativement courte des PEMFC fonctionnant dans des conditions dynamiques (pour lesvéhicules, par exemple) empêche son utilisation massive. La prévision précise de leurs mécanismes devieillissement peut ainsi aider à concevoir des modèles de maintenance appropriés des PEMFC en fournissant desinformations prévisibles sur la dégradation des performances. De plus, la prédiction pourrait également contribuer àatténuer la dégradation indésirable des systèmes PEMFC en cours d'exploitation. Ces travaux proposent unenouvelle approche guidée par les données pour prédire la dégradation des performances des PEMFC en utilisantune méthode d'apprentissage améliorée (Relevance Vector Machine : RVM).Tout d'abord, la description théorique des PEMFC en fonctionnement est présentée. Ensuite, une illustrationdétaillée de l'impact des conditions opérationnelles sur la performance des PEMFC est exposée, ainsi que desmécanismes de dégradation de chaque composant des PEMFC.Une méthode de prédiction de performance en utilisant la RVM améliorée est ensuite proposée et démontrée. Lesrésultats de prédiction basés sur des zones d'apprentissage différentes à partir des données historiques sontégalement discutés et comparés avec les résultats de prédiction utilisant les machines à vecteurs de support(Support Vector Machine : SVM).En outre, une méthode de prédiction RVM à noyau auto-adaptatif (Self-Adaptive Kernel) est présentée. La matricede conception de la formation du RVM est également modifiée afin d'acquérir une plus grande précision lors de laprédiction. Les résultats de la prévision sont illustrés et discutés en détails.En résumé, ces travaux permettent de discuter principalement de l'analyse de la prédiction de la performance desPEMFC en utilisant des méthodes d'apprentissage statistique.
Published: 2016

173. Modèles de mélange de von Mises-Fisher pour la classification simple et croisée de données éparses de grande dimension

Author: Salah, Aghiles, Laboratoire d'Informatique Paris Descartes (LIPADE - EA 2517), Université Paris Descartes - Paris 5 (UPD5), Université Sorbonne Paris Cité, and Mohamed Nadif
Subjects: Text mining, Apprentissage statistique, High dimensional data, Collaborative filtering, Sparse data, Classification, Filtrage collaboratif, Fouille de textes, Statistiques directionnelles, Clustering, Modèles de mélanges, Directional statistics, Matrices creuses, Classification croisée, Systèmes de recommandation, Distribution de von Mises-Fisher, Von Mises-Fisher distribution, Co-clustering, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], Machine learning, Grande dimension, Recommender systems, Mixture models
Abstract: Cluster analysis or clustering, which aims to group together similar objects, is undoubtedly a very powerful unsupervised learning technique. With the growing amount of available data, clustering is increasingly gaining in importance in various areas of data science for several reasons such as automatic summarization, dimensionality reduction, visualization, outlier detection, speed up research engines, organization of huge data sets, etc. Existing clustering approaches are, however, severely challenged by the high dimensionality and extreme sparsity of the data sets arising in some current areas of interest, such as Collaborative Filtering (CF) and text mining. Such data often consists of thousands of features and more than 95% of zero entries. In addition to being high dimensional and sparse, the data sets encountered in the aforementioned domains are also directional in nature. In fact, several previous studies have empirically demonstrated that directional measures—that measure the distance between objects relative to the angle between them—, such as the cosine similarity, are substantially superior to other measures such as Euclidean distortions, for clustering text documents or assessing the similarities between users/items in CF. This suggests that in such context only the direction of a data vector (e.g., text document) is relevant, not its magnitude. It is worth noting that the cosine similarity is exactly the scalar product between unit length data vectors, i.e., L 2 normalized vectors. Thus, from a probabilistic perspective using the cosine similarity is equivalent to assuming that the data are directional data distributed on the surface of a unit-hypersphere. Despite the substantial empirical evidence that certain high dimensional sparse data sets, such as those encountered in the above domains, are better modeled as directional data, most existing models in text mining and CF are based on popular assumptions such as Gaussian, Multinomial or Bernoulli which are inadequate for L 2 normalized data. In this thesis, we focus on the two challenging tasks of text document clustering and item recommendation, which are still attracting a lot of attention in the domains of text mining and CF, respectively. In order to address the above limitations, we propose a suite of new models and algorithms which rely on the von Mises-Fisher (vMF) assumption that arises naturally for directional data lying on a unit-hypersphere.; La classification automatique, qui consiste à regrouper des objets similaires au sein de groupes, également appelés classes ou clusters, est sans aucun doute l’une des méthodes d’apprentissage non-supervisé les plus utiles dans le contexte du Big Data. En effet, avec l’expansion des volumes de données disponibles, notamment sur le web, la classification ne cesse de gagner en importance dans le domaine de la science des données pour la réalisation de différentes tâches, telles que le résumé automatique, la réduction de dimension, la visualisation, la détection d’anomalies, l’accélération des moteurs de recherche, l’organisation d’énormes ensembles de données, etc. De nombreuses méthodes de classification ont été développées à ce jour, ces dernières sont cependant fortement mises en difficulté par les caractéristiques complexes des ensembles de données que l’on rencontre dans certains domaines d’actualité tel que le Filtrage Collaboratif (FC) et de la fouille de textes. Ces données, souvent représentées sous forme de matrices, sont de très grande dimension (des milliers de variables) et extrêmement creuses (ou sparses, avec plus de 95% de zéros). En plus d’être de grande dimension et sparse, les données rencontrées dans les domaines mentionnés ci-dessus sont également de nature directionnelles. En effet, plusieurs études antérieures ont démontré empiriquement que les mesures directionnelles, telle que la similarité cosinus, sont supérieurs à d’autres mesures, telle que la distance Euclidiennes, pour la classification des documents textuels ou pour mesurer les similitudes entre les utilisateurs/items dans le FC. Cela suggère que, dans un tel contexte, c’est la direction d’un vecteur de données (e.g., représentant un document texte) qui est pertinente, et non pas sa longueur. Il est intéressant de noter que la similarité cosinus est exactement le produit scalaire entre des vecteurs unitaires (de norme 1). Ainsi, d’un point de vue probabiliste l’utilisation de la similarité cosinus revient à supposer que les données sont directionnelles et réparties sur la surface d’une hypersphère unité. En dépit des nombreuses preuves empiriques suggérant que certains ensembles de données sparses et de grande dimension sont mieux modélisés sur une hypersphère unité, la plupart des modèles existants dans le contexte de la fouille de textes et du FC s’appuient sur des hypothèses populaires : distributions Gaussiennes ou Multinomiales, qui sont malheureusement inadéquates pour des données directionnelles. Dans cette thèse, nous nous focalisons sur deux challenges d’actualité, à savoir la classification des documents textuels et la recommandation d’items, qui ne cesse d’attirer l’attention dans les domaines de la fouille de textes et celui du filtrage collaborative, respectivement. Afin de répondre aux limitations ci-dessus, nous proposons une série de nouveaux modèles et algorithmes qui s’appuient sur la distribution de von Mises-Fisher (vMF) qui est plus appropriée aux données directionnelles distribuées sur une hypersphère unité.
Published: 2016

174. Von Mises-Fisher based (co-)clustering for high-dimensional sparse data : application to text and collaborative filtering data

Author: Salah, Aghiles, Laboratoire d'Informatique Paris Descartes (LIPADE - EA 2517), Université Paris Descartes - Paris 5 (UPD5), Université Sorbonne Paris Cité, and Mohamed Nadif
Subjects: Text mining, Apprentissage statistique, High dimensional data, Collaborative filtering, Sparse data, Classification, Filtrage collaboratif, Fouille de textes, Statistiques directionnelles, Clustering, Modèles de mélanges, Directional statistics, Matrices creuses, Classification croisée, Systèmes de recommandation, Distribution de von Mises-Fisher, Von Mises-Fisher distribution, Co-clustering, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], Machine learning, Grande dimension, Recommender systems, Mixture models
Abstract: Cluster analysis or clustering, which aims to group together similar objects, is undoubtedly a very powerful unsupervised learning technique. With the growing amount of available data, clustering is increasingly gaining in importance in various areas of data science for several reasons such as automatic summarization, dimensionality reduction, visualization, outlier detection, speed up research engines, organization of huge data sets, etc. Existing clustering approaches are, however, severely challenged by the high dimensionality and extreme sparsity of the data sets arising in some current areas of interest, such as Collaborative Filtering (CF) and text mining. Such data often consists of thousands of features and more than 95% of zero entries. In addition to being high dimensional and sparse, the data sets encountered in the aforementioned domains are also directional in nature. In fact, several previous studies have empirically demonstrated that directional measures—that measure the distance between objects relative to the angle between them—, such as the cosine similarity, are substantially superior to other measures such as Euclidean distortions, for clustering text documents or assessing the similarities between users/items in CF. This suggests that in such context only the direction of a data vector (e.g., text document) is relevant, not its magnitude. It is worth noting that the cosine similarity is exactly the scalar product between unit length data vectors, i.e., L 2 normalized vectors. Thus, from a probabilistic perspective using the cosine similarity is equivalent to assuming that the data are directional data distributed on the surface of a unit-hypersphere. Despite the substantial empirical evidence that certain high dimensional sparse data sets, such as those encountered in the above domains, are better modeled as directional data, most existing models in text mining and CF are based on popular assumptions such as Gaussian, Multinomial or Bernoulli which are inadequate for L 2 normalized data. In this thesis, we focus on the two challenging tasks of text document clustering and item recommendation, which are still attracting a lot of attention in the domains of text mining and CF, respectively. In order to address the above limitations, we propose a suite of new models and algorithms which rely on the von Mises-Fisher (vMF) assumption that arises naturally for directional data lying on a unit-hypersphere.; La classification automatique, qui consiste à regrouper des objets similaires au sein de groupes, également appelés classes ou clusters, est sans aucun doute l’une des méthodes d’apprentissage non-supervisé les plus utiles dans le contexte du Big Data. En effet, avec l’expansion des volumes de données disponibles, notamment sur le web, la classification ne cesse de gagner en importance dans le domaine de la science des données pour la réalisation de différentes tâches, telles que le résumé automatique, la réduction de dimension, la visualisation, la détection d’anomalies, l’accélération des moteurs de recherche, l’organisation d’énormes ensembles de données, etc. De nombreuses méthodes de classification ont été développées à ce jour, ces dernières sont cependant fortement mises en difficulté par les caractéristiques complexes des ensembles de données que l’on rencontre dans certains domaines d’actualité tel que le Filtrage Collaboratif (FC) et de la fouille de textes. Ces données, souvent représentées sous forme de matrices, sont de très grande dimension (des milliers de variables) et extrêmement creuses (ou sparses, avec plus de 95% de zéros). En plus d’être de grande dimension et sparse, les données rencontrées dans les domaines mentionnés ci-dessus sont également de nature directionnelles. En effet, plusieurs études antérieures ont démontré empiriquement que les mesures directionnelles, telle que la similarité cosinus, sont supérieurs à d’autres mesures, telle que la distance Euclidiennes, pour la classification des documents textuels ou pour mesurer les similitudes entre les utilisateurs/items dans le FC. Cela suggère que, dans un tel contexte, c’est la direction d’un vecteur de données (e.g., représentant un document texte) qui est pertinente, et non pas sa longueur. Il est intéressant de noter que la similarité cosinus est exactement le produit scalaire entre des vecteurs unitaires (de norme 1). Ainsi, d’un point de vue probabiliste l’utilisation de la similarité cosinus revient à supposer que les données sont directionnelles et réparties sur la surface d’une hypersphère unité. En dépit des nombreuses preuves empiriques suggérant que certains ensembles de données sparses et de grande dimension sont mieux modélisés sur une hypersphère unité, la plupart des modèles existants dans le contexte de la fouille de textes et du FC s’appuient sur des hypothèses populaires : distributions Gaussiennes ou Multinomiales, qui sont malheureusement inadéquates pour des données directionnelles. Dans cette thèse, nous nous focalisons sur deux challenges d’actualité, à savoir la classification des documents textuels et la recommandation d’items, qui ne cesse d’attirer l’attention dans les domaines de la fouille de textes et celui du filtrage collaborative, respectivement. Afin de répondre aux limitations ci-dessus, nous proposons une série de nouveaux modèles et algorithmes qui s’appuient sur la distribution de von Mises-Fisher (vMF) qui est plus appropriée aux données directionnelles distribuées sur une hypersphère unité.
Published: 2016

175. Standardization of textual data for comprehensive job market analysis

Author: Malherbe, Emmanuel, Mathématiques Appliquées aux Systèmes - EA 4037 (MAS), Ecole Centrale Paris, Université Paris Saclay (COmUE), Marie-Aude Aufaure, and STAR, ABES
Subjects: Machine Learning, [SPI.OTHER]Engineering Sciences [physics]/Other, Apprentissage statistique, Text Mining, [SPI.OTHER] Engineering Sciences [physics]/Other, E-Recruitment, Natural Langage processing, Fouille de texte, Traitement Automatique de la Langue, E-Recrutement
Abstract: With so many job adverts and candidate profiles available online, the e-recruitment constitutes a rich object of study. All this information is however textual data, which from a computational point of view is unstructured. The large number and heterogeneity of recruitment websites also means that there is a lot of vocabularies and nomenclatures. One of the difficulties when dealing with this type of raw textual data is being able to grasp the concepts contained in it, which is the problem of standardization that is tackled in this thesis. The aim of standardization is to create a unified process providing values in a nomenclature. A nomenclature is by definition a finite set of meaningful concepts, which means that the attributes resulting from standardization are a structured representation of the information. Several questions are however raised: Are the websites' structured data usable for a unified standardization? What structure of nomenclature is the best suited for standardization, and how to leverage it? Is it possible to automatically build such a nomenclature from scratch, or to manage the standardization process without one? To illustrate the various obstacles of standardization, the examples we are going to study include the inference of the skills or the category of a job advert, or the level of training of a candidate profile. One of the challenges of e-recruitment is that the concepts are continuously evolving, which means that the standardization must be up-to-date with job market trends. In light of this, we will propose a set of machine learning models that require minimal supervision and can easily adapt to the evolution of the nomenclatures. The questions raised found partial answers using Case Based Reasoning, semi-supervised Learning-to-Rank, latent variable models, and leveraging the evolving sources of the semantic web and social media. The different models proposed have been tested on real-world data, before being implemented in a industrial environment. The resulting standardization is at the core of SmartSearch, a project which provides a comprehensive analysis of the job market., Sachant qu'une grande partie des offres d'emplois et des profils candidats est en ligne, le e-recrutement constitue un riche objet d'étude. Ces documents sont des textes non structurés, et le grand nombre ainsi que l'hétérogénéité des sites de recrutement implique une profusion de vocabulaires et nomenclatures. Avec l'objectif de manipuler plus aisément ces données, Multiposting, une entreprise française spécialisée dans les outils de e-recrutement, a soutenu cette thèse, notamment en terme de données, en fournissant des millions de CV numériques et offres d'emplois agrégées de sources publiques.Une difficulté lors de la manipulation de telles données est d'en déduire les concepts sous-jacents, les concepts derrière les mots n'étant compréhensibles que des humains. Déduire de tels attributs structurés à partir de donnée textuelle brute est le problème abordé dans cette thèse, sous le nom de normalisation. Avec l'objectif d'un traitement unifié, la normalisation doit fournir des valeurs dans une nomenclature, de sorte que les attributs résultants forment une représentation structurée unique de l'information. Ce traitement traduit donc chaque document en un language commun, ce qui permet d'agréger l'ensemble des données dans un format exploitable et compréhensible. Plusieurs questions sont cependant soulevées: peut-on exploiter les structures locales des sites web dans l'objectif d'une normalisation finale unifiée? Quelle structure de nomenclature est la plus adaptée à la normalisation, et comment l'exploiter? Est-il possible de construire automatiquement une telle nomenclature de zéro, ou de normaliser sans en avoir une?Pour illustrer le problème de la normalisation, nous allons étudier par exemple la déduction des compétences ou de la catégorie professionelle d'une offre d'emploi, ou encore du niveau d'étude d'un profil de candidat. Un défi du e-recrutement est que les concepts évoluent continuellement, de sorte que la normalisation se doit de suivre les tendances du marché. A la lumière de cela, nous allons proposer un ensemble de modèles d'apprentissage statistique nécessitant le minimum de supervision et facilement adaptables à l'évolution des nomenclatures. Les questions posées ont trouvé des solutions dans le raisonnement à partir de cas, le learning-to-rank semi-supervisé, les modèles à variable latente, ainsi qu'en bénéficiant de l'Open Data et des médias sociaux. Les différents modèles proposés ont été expérimentés sur des données réelles, avant d'être implémentés industriellement. La normalisation résultante est au coeur de SmartSearch, un projet qui fournit une analyse exhaustive du marché de l'emploi.
Published: 2016

176. Normalisation textuelle pour une analyse exhaustive du marché de l'emploi

Author: Malherbe, Emmanuel, Mathématiques Appliquées aux Systèmes - EA 4037 (MAS), Ecole Centrale Paris, Université Paris Saclay (COmUE), Marie-Aude Aufaure, and STAR, ABES
Subjects: Machine Learning, [SPI.OTHER]Engineering Sciences [physics]/Other, Apprentissage statistique, [SPI.OTHER] Engineering Sciences [physics]/Other, Text Mining, E-Recruitment, Natural Langage processing, Fouille de texte, Traitement Automatique de la Langue, E-Recrutement
Abstract: With so many job adverts and candidate profiles available online, the e-recruitment constitutes a rich object of study. All this information is however textual data, which from a computational point of view is unstructured. The large number and heterogeneity of recruitment websites also means that there is a lot of vocabularies and nomenclatures. One of the difficulties when dealing with this type of raw textual data is being able to grasp the concepts contained in it, which is the problem of standardization that is tackled in this thesis. The aim of standardization is to create a unified process providing values in a nomenclature. A nomenclature is by definition a finite set of meaningful concepts, which means that the attributes resulting from standardization are a structured representation of the information. Several questions are however raised: Are the websites' structured data usable for a unified standardization? What structure of nomenclature is the best suited for standardization, and how to leverage it? Is it possible to automatically build such a nomenclature from scratch, or to manage the standardization process without one? To illustrate the various obstacles of standardization, the examples we are going to study include the inference of the skills or the category of a job advert, or the level of training of a candidate profile. One of the challenges of e-recruitment is that the concepts are continuously evolving, which means that the standardization must be up-to-date with job market trends. In light of this, we will propose a set of machine learning models that require minimal supervision and can easily adapt to the evolution of the nomenclatures. The questions raised found partial answers using Case Based Reasoning, semi-supervised Learning-to-Rank, latent variable models, and leveraging the evolving sources of the semantic web and social media. The different models proposed have been tested on real-world data, before being implemented in a industrial environment. The resulting standardization is at the core of SmartSearch, a project which provides a comprehensive analysis of the job market., Sachant qu'une grande partie des offres d'emplois et des profils candidats est en ligne, le e-recrutement constitue un riche objet d'étude. Ces documents sont des textes non structurés, et le grand nombre ainsi que l'hétérogénéité des sites de recrutement implique une profusion de vocabulaires et nomenclatures. Avec l'objectif de manipuler plus aisément ces données, Multiposting, une entreprise française spécialisée dans les outils de e-recrutement, a soutenu cette thèse, notamment en terme de données, en fournissant des millions de CV numériques et offres d'emplois agrégées de sources publiques.Une difficulté lors de la manipulation de telles données est d'en déduire les concepts sous-jacents, les concepts derrière les mots n'étant compréhensibles que des humains. Déduire de tels attributs structurés à partir de donnée textuelle brute est le problème abordé dans cette thèse, sous le nom de normalisation. Avec l'objectif d'un traitement unifié, la normalisation doit fournir des valeurs dans une nomenclature, de sorte que les attributs résultants forment une représentation structurée unique de l'information. Ce traitement traduit donc chaque document en un language commun, ce qui permet d'agréger l'ensemble des données dans un format exploitable et compréhensible. Plusieurs questions sont cependant soulevées: peut-on exploiter les structures locales des sites web dans l'objectif d'une normalisation finale unifiée? Quelle structure de nomenclature est la plus adaptée à la normalisation, et comment l'exploiter? Est-il possible de construire automatiquement une telle nomenclature de zéro, ou de normaliser sans en avoir une?Pour illustrer le problème de la normalisation, nous allons étudier par exemple la déduction des compétences ou de la catégorie professionelle d'une offre d'emploi, ou encore du niveau d'étude d'un profil de candidat. Un défi du e-recrutement est que les concepts évoluent continuellement, de sorte que la normalisation se doit de suivre les tendances du marché. A la lumière de cela, nous allons proposer un ensemble de modèles d'apprentissage statistique nécessitant le minimum de supervision et facilement adaptables à l'évolution des nomenclatures. Les questions posées ont trouvé des solutions dans le raisonnement à partir de cas, le learning-to-rank semi-supervisé, les modèles à variable latente, ainsi qu'en bénéficiant de l'Open Data et des médias sociaux. Les différents modèles proposés ont été expérimentés sur des données réelles, avant d'être implémentés industriellement. La normalisation résultante est au coeur de SmartSearch, un projet qui fournit une analyse exhaustive du marché de l'emploi.
Published: 2016

177. Recognition of gestures and actions for man and robot collaboration on assembly line

Author: Coupeté, Eva, Centre de Robotique (CAOR), MINES ParisTech - École nationale supérieure des mines de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), Université Paris sciences et lettres, Fabien Moutarde, and Sotiris Manitsaris
Subjects: Collaborative robotics, Apprentissage statistique, Interaction homme-robot, Robotique collaborative, Vision par ordinateur, Machine learning, Human-Robot interaction, Real-time gesture recognition, Reconnaissance de gestes en temps réel, [INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC], Computeur vision
Abstract: Collaborative robots are becoming more and more present in our everyday life. In particular, within the industrial environment, they emerge as one of the preferred solution to make assembly line in factories more flexible, cost-effective and to reduce the hardship of the operators’ work. However, to enable a smooth and efficient collaboration, robots should be able to understand their environment and in particular the actions of the humans around them.With this aim in mind, we decided to study technical gestures recognition. Specifically, we want the robot to be able to synchronize, adapt its speed and understand if something unexpected arises.We considered two use-cases, one dealing with copresence, the other with collaboration. They are both inspired by existing task on automotive assembly lines.First, for the co-presence use case, we evaluated the feasibility of technical gestures recognition using inertial sensors. We obtained a very good result (96% of correct recognition with one operator) which encouraged us to follow this idea.On the collaborative use-case, we decided to focus on non-intrusive sensors to minimize the disturbance for the operators and we chose to use a depth-camera. We filmed the operators with a top view to prevent most of the potential occultations.We introduce an algorithm that tracks the operator’s hands by calculating the geodesic distances between the points of the upper body and the top of the head.We also design and evaluate an approach based on discrete Hidden Markov Models (HMM) taking the hand positions as an input to recognize technical gestures. We propose a method to adapt our system to new operators and we embedded inertial sensors on tools to refine our results. We obtain the very good result of 90% of correct recognition in real time for 13 operators.Finally, we formalize and detail a complete methodology to realize technical gestures recognition on assembly lines.; Les robots collaboratifs sont de plus en plus présents dans nos vies quotidiennes. En milieu industriel, ils sont une solution privilégiée pour rendre les chaînes de montage plus flexibles, rentables et diminuer la pénibilité du travail des opérateurs. Pour permettre une collaboration fluide et efficace, les robots doivent être capables de comprendre leur environnement, en particulier les actions humaines.Dans cette optique, nous avons décidé d’étudier la reconnaissance de gestes techniques afin que le robot puisse se synchroniser avec l’opérateur, adapter son allure et comprendre si quelque chose d’inattendu survient.Pour cela, nous avons considéré deux cas d’étude, un cas de co-présence et un cas de collaboration, tous les deux inspirés de cas existant sur les chaînes de montage automobiles.Dans un premier temps, pour le cas de co-présence, nous avons étudié la faisabilité de la reconnaissance des gestes en utilisant des capteurs inertiels. Nos très bons résultats (96% de reconnaissances correctes de gestes isolés avec un opérateur) nous ont encouragés à poursuivre dans cette voie.Sur le cas de collaboration, nous avons privilégié l’utilisation de capteurs non-intrusifs pour minimiser la gêne des opérateurs, en l’occurrence une caméra de profondeur positionnée avec une vue de dessus pour limiter les possibles occultations.Nous proposons un algorithme de suivi des mains en calculant les distances géodésiques entre les points du haut du corps et le haut de la tête. Nous concevons également et évaluons un système de reconnaissance de gestes basé sur des Chaînes de Markov Cachées (HMM) discrètes et prenant en entrée les positions des mains. Nous présentons de plus une méthode pour adapter notre système de reconnaissance à un nouvel opérateur et nous utilisons des capteurs inertiels sur les outils pour affiner nos résultats. Nous obtenons le très bon résultat de 90% de reconnaissances correctes en temps réel pour 13 opérateurs.Finalement, nous formalisons et détaillons une méthodologie complète pour réaliser une reconnaissance de gestes techniques sur les chaînes de montage.
Published: 2016

178. Reconnaissance de gestes et actions pour la collaboration homme-robot sur chaîne de montage

Author: Coupeté, Eva, Centre de Robotique (CAOR), MINES ParisTech - École nationale supérieure des mines de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), Université Paris sciences et lettres, Fabien Moutarde, and Sotiris Manitsaris
Subjects: Collaborative robotics, Apprentissage statistique, Interaction homme-robot, Robotique collaborative, Vision par ordinateur, Machine learning, Human-Robot interaction, Real-time gesture recognition, Reconnaissance de gestes en temps réel, [INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC], Computeur vision
Abstract: Collaborative robots are becoming more and more present in our everyday life. In particular, within the industrial environment, they emerge as one of the preferred solution to make assembly line in factories more flexible, cost-effective and to reduce the hardship of the operators’ work. However, to enable a smooth and efficient collaboration, robots should be able to understand their environment and in particular the actions of the humans around them.With this aim in mind, we decided to study technical gestures recognition. Specifically, we want the robot to be able to synchronize, adapt its speed and understand if something unexpected arises.We considered two use-cases, one dealing with copresence, the other with collaboration. They are both inspired by existing task on automotive assembly lines.First, for the co-presence use case, we evaluated the feasibility of technical gestures recognition using inertial sensors. We obtained a very good result (96% of correct recognition with one operator) which encouraged us to follow this idea.On the collaborative use-case, we decided to focus on non-intrusive sensors to minimize the disturbance for the operators and we chose to use a depth-camera. We filmed the operators with a top view to prevent most of the potential occultations.We introduce an algorithm that tracks the operator’s hands by calculating the geodesic distances between the points of the upper body and the top of the head.We also design and evaluate an approach based on discrete Hidden Markov Models (HMM) taking the hand positions as an input to recognize technical gestures. We propose a method to adapt our system to new operators and we embedded inertial sensors on tools to refine our results. We obtain the very good result of 90% of correct recognition in real time for 13 operators.Finally, we formalize and detail a complete methodology to realize technical gestures recognition on assembly lines.; Les robots collaboratifs sont de plus en plus présents dans nos vies quotidiennes. En milieu industriel, ils sont une solution privilégiée pour rendre les chaînes de montage plus flexibles, rentables et diminuer la pénibilité du travail des opérateurs. Pour permettre une collaboration fluide et efficace, les robots doivent être capables de comprendre leur environnement, en particulier les actions humaines.Dans cette optique, nous avons décidé d’étudier la reconnaissance de gestes techniques afin que le robot puisse se synchroniser avec l’opérateur, adapter son allure et comprendre si quelque chose d’inattendu survient.Pour cela, nous avons considéré deux cas d’étude, un cas de co-présence et un cas de collaboration, tous les deux inspirés de cas existant sur les chaînes de montage automobiles.Dans un premier temps, pour le cas de co-présence, nous avons étudié la faisabilité de la reconnaissance des gestes en utilisant des capteurs inertiels. Nos très bons résultats (96% de reconnaissances correctes de gestes isolés avec un opérateur) nous ont encouragés à poursuivre dans cette voie.Sur le cas de collaboration, nous avons privilégié l’utilisation de capteurs non-intrusifs pour minimiser la gêne des opérateurs, en l’occurrence une caméra de profondeur positionnée avec une vue de dessus pour limiter les possibles occultations.Nous proposons un algorithme de suivi des mains en calculant les distances géodésiques entre les points du haut du corps et le haut de la tête. Nous concevons également et évaluons un système de reconnaissance de gestes basé sur des Chaînes de Markov Cachées (HMM) discrètes et prenant en entrée les positions des mains. Nous présentons de plus une méthode pour adapter notre système de reconnaissance à un nouvel opérateur et nous utilisons des capteurs inertiels sur les outils pour affiner nos résultats. Nous obtenons le très bon résultat de 90% de reconnaissances correctes en temps réel pour 13 opérateurs.Finalement, nous formalisons et détaillons une méthodologie complète pour réaliser une reconnaissance de gestes techniques sur les chaînes de montage.
Published: 2016

179. Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data

Author: Coucke, Alice, Laboratoire de Physique Théorique de l'ENS (LPTENS), Université Pierre et Marie Curie - Paris 6 (UPMC)-Fédération de recherche du Département de physique de l'Ecole Normale Supérieure - ENS Paris (FRDPENS), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS), Université Paris sciences et lettres, Rémi Monasson, Martin Weigt, STAR, ABES, Laboratoire de Physique Théorique de l'ENS [École Normale Supérieure] (LPTENS), Fédération de recherche du Département de physique de l'Ecole Normale Supérieure - ENS Paris (FRDPENS), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS-PSL), and Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)
Subjects: Apprentissage statistique, Pseudolikelihood, [PHYS.MPHY]Physics [physics]/Mathematical Physics [math-ph], Champ moyen, Pseudo vraisemblance, Entropie maximale, [PHYS.MPHY] Physics [physics]/Mathematical Physics [math-ph], Statistical learning, Inférence, Statistical modeling of protein sequences, Protein coevolution, Cluster expansion, Mean field, Inference, Maximum entropy, Développement en grappe, Modélisation statistique des séquences de protéines, Ccoévolution des protéines, Regularization, Vraisemblance maximale, Régularisation, Maximum likelihood
Abstract: Over the last decades, genomic databases have grown exponentially in size thanks to the constant progress of modern DNA sequencing. A large variety of statistical tools have been developed, at the interface between bioinformatics, machine learning, and statistical physics, to extract information from these ever increasing datasets. In the specific context of protein sequence data, several approaches have been recently introduced by statistical physicists, such as direct-coupling analysis, a global statistical inference method based on the maximum-entropy principle, that has proven to be extremely effective in predicting the three-dimensional structure of proteins from purely statistical considerations.In this dissertation, we review the relevant inference methods and, encouraged by their success, discuss their extension to other challenging fields, such as sequence folding prediction and homology detection. Contrary to residue-residue contact prediction, which relies on an intrinsically topological information about the network of interactions, these fields require global energetic considerations and therefore a more quantitative and detailed model. Through an extensive study on both artificial and biological data, we provide a better interpretation of the central inferred parameters, up to now poorly understood, especially in the limited sampling regime. Finally, we present a new and more precise procedure for the inference of generative models, which leads to further improvements on real, finitely sampled data., Grâce aux progrès des techniques de séquençage, les bases de données génomiques ont connu une croissance exponentielle depuis la fin des années 1990. Un grand nombre d'outils statistiques ont été développés à l'interface entre bioinformatique, apprentissage automatique et physique statistique, dans le but d'extraire de l'information de ce déluge de données. Plusieurs approches de physique statistique ont été récemment introduites dans le contexte précis de la modélisation de séquences de protéines, dont l'analyse en couplages directs. Cette méthode d'inférence statistique globale fondée sur le principe d'entropie maximale, s'est récemment montrée d'une efficacité redoutable pour prédire la structure tridimensionnelle de protéines, à partir de considérations purement statistiques.Dans cette thèse, nous présentons les méthodes d'inférence en question, et encouragés par leur succès, explorons d'autres domaines complexes dans lesquels elles pourraient être appliquées, comme la détection d'homologies. Contrairement à la prédiction des contacts entre résidus qui se limite à une information topologique sur le réseau d'interactions, ces nouveaux champs d'application exigent des considérations énergétiques globales et donc un modèle plus quantitatif et détaillé. À travers une étude approfondie sur des donnéesartificielles et biologiques, nous proposons une meilleure interpretation des paramètres centraux de ces méthodes d'inférence, jusqu'ici mal compris, notamment dans le cas d'un échantillonnage limité. Enfin, nous présentons une nouvelle procédure plus précise d'inférence de modèles génératifs, qui mène à des avancées importantes pour des données réelles en quantité limitée.
Published: 2016

180. Méthodes d’apprentissage statistique pour l’optimisation globale

Author: Contal, Emile, Centre de Mathématiques et de Leurs Applications (CMLA), École normale supérieure - Cachan (ENS Cachan)-Centre National de la Recherche Scientifique (CNRS), Université Paris Saclay (COmUE), Nicolas Vayatis, and STAR, ABES
Subjects: Optimization, Processus gaussien, [MATH.MATH-GM]Mathematics [math]/General Mathematics [math.GM], Apprentissage statistique, [MATH.MATH-GM] Mathematics [math]/General Mathematics [math.GM], Optimisation, Gaussian process, Statistical learning
Abstract: This dissertation is dedicated to a rigorous analysis of sequential global optimization algorithms. We consider the stochastic bandit model where an agent aim at finding the input of a given system optimizing the output. The function which links the input to the output is not explicit, the agent requests sequentially an oracle to evaluate the output for any input. This function is not supposed to be convex and may display many local optima. In this work we tackle the challenging case where the evaluations are expensive, which requires to design a careful selection of the input to evaluate. We study two different goals, either to maximize the sum of the rewards received at each iteration, or to maximize the best reward found so far. The present thesis comprises the field of global optimization where the function is a realization from a known stochastic process, and the novel field of optimization by ranking where we only perform function value comparisons. We propose novel algorithms and provide theoretical concepts leading to performance guarantees. We first introduce an optimization strategy for observations received by batch instead of individually. A generic study of local supremum of stochastic processes allows to analyze Bayesian optimization on nonparametric search spaces. In addition, we show that our approach extends to natural non-Gaussian processes. We build connections between active learning and ranking and deduce an optimization algorithm of potentially discontinuous functions., Cette thèse se consacre à une analyse rigoureuse des algorithmes d'optimisation globale équentielle. On se place dans un modèle de bandits stochastiques où un agent vise à déterminer l'entrée d'un système optimisant un critère. Cette fonction cible n'est pas connue et l'agent effectue séquentiellement des requêtes pour évaluer sa valeur aux entrées qu'il choisit. Cette fonction peut ne pas être convexe et contenir un grand nombre d'optima locaux. Nous abordons le cas difficile où les évaluations sont coûteuses, ce qui exige de concevoir une sélection rigoureuse des requêtes. Nous considérons deux objectifs, d'une part l'optimisation de la somme des valeurs reçues à chaque itération, d'autre part l'optimisation de la meilleure valeur trouvée jusqu'à présent. Cette thèse s'inscrit dans le cadre de l'optimisation bayésienne lorsque la fonction est une réalisation d'un processus stochastique connu, et introduit également une nouvelle approche d'optimisation par ordonnancement où l'on effectue seulement des comparaisons des valeurs de la fonction. Nous proposons des algorithmes nouveaux et apportons des concepts théoriques pour obtenir des garanties de performance. Nous donnons une stratégie d'optimisation qui s'adapte à des observations reçues par batch et non individuellement. Une étude générique des supremums locaux de processus stochastiques nous permet d'analyser l'optimisation bayésienne sur des espaces de recherche nonparamétriques. Nous montrons également que notre approche s'étend à des processus naturels non gaussiens. Nous établissons des liens entre l'apprentissage actif et l'apprentissage statistique d'ordonnancements et déduisons un algorithme d'optimisation de fonctions potentiellement discontinue.
Published: 2016

181. Bandits on graphs and structures

Author: Valko, Michal, Sequential Learning (SEQUEL), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), École normale supérieure de Cachan - ENS Cachan, and Aurélien Garivier
Subjects: graphs, sequential decision-making, machine learning, bandits, structured learning, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], apprentissage statistique
Abstract: We investigate the structural properties of certain sequential decision-making problems with limited feedback (bandits) in order to bring the known algorithmic solutions closer to a practical use. In the first part, we put a special emphasis on structures that can be represented as graphs on actions, in the second part we study the large action spaces that can be of exponential size in the number of base actions or even infinite. We show how to take advantage of structures over the actions and (provably) learn faster.
Published: 2016

182. High-Order Inference, Ranking, and Regularization Path for Structured SVM

Author: Dokania, Puneet Kumar, CEA/DEN/MAR/UG-UST/STIC/GPSI, Commissariat à l'énergie atomique et aux énergies alternatives (CEA), Université Paris Saclay (COmUE), Pawan Kumar Mudigonda, and STAR, ABES
Subjects: [SPI.OTHER]Engineering Sciences [physics]/Other, Registration, Apprentissage statistique, [SPI.OTHER] Engineering Sciences [physics]/Other, Computer Vision, Classement, Chemin de régularisation, Recalage, Inférence, Machine Learning, Inference, Vision par ordinateur, Regularization path, Structured SVM, Ranking, Medical imaging, SVM structurées, Imagerie médicale
Abstract: This thesis develops novel methods to enable the use of structured prediction in computer vision and medical imaging. Specifically, our contributions are four fold. First, we propose a new family of high-order potentials that encourage parsimony in the labeling, and enable its use by designing an accurate graph cuts based algorithm to minimize the corresponding energy function. Second, we show how the average precision SVM formulation can be extended to incorporate high-order information for ranking. Third, we propose a novel regularization path algorithm for structured SVM. Fourth, we show how the weakly supervised framework of latent SVM can be employed to learn the parameters for the challenging deformable registration problem.In more detail, the first part of the thesis investigates the high-order inference problem. Specifically, we present a novel family of discrete energy minimization problems, which we call parsimonious labeling. It is a natural generalization of the well known metric labeling problems for high-order potentials. In addition to this, we propose a generalization of the Pn-Potts model, which we call Hierarchical Pn-Potts model. In the end, we propose parallelizable move making algorithms with very strong multiplicative bounds for the optimization of the hierarchical Pn-Potts model and the parsimonious labeling.Second part of the thesis investigates the ranking problem while using high-order information. Specifically, we introduce two alternate frameworks to incorporate high-order information for the ranking tasks. The first framework, which we call high-order binary SVM (HOB-SVM), optimizes a convex upperbound on weighted 0-1 loss while incorporating high-order information using joint feature map. The rank list for the HOB-SVM is obtained by sorting samples using max-marginals based scores. The second framework, which we call high-order AP-SVM (HOAP-SVM), takes its inspiration from AP-SVM and HOB-SVM (our first framework). Similar to AP-SVM, it optimizes upper bound on average precision. However, unlike AP-SVM and similar to HOB-SVM, it can also encode high-order information. The main disadvantage of HOAP-SVM is that estimating its parameters requires solving a difference-of-convex program. We show how a local optimum of the HOAP-SVM learning problem can be computed efficiently by the concave-convex procedure. Using standard datasets, we empirically demonstrate that HOAP-SVM outperforms the baselines by effectively utilizing high-order information while optimizing the correct loss function.In the third part of the thesis, we propose a new algorithm SSVM-RP to obtain epsilon-optimal regularization path of structured SVM. We also propose intuitive variants of the Block-Coordinate Frank-Wolfe algorithm (BCFW) for the faster optimization of the SSVM-RP algorithm. In addition to this, we propose a principled approach to optimize the SSVM with additional box constraints using BCFW and its variants. In the end, we propose regularization path algorithm for SSVM with additional positivity/negativity constraints.In the fourth and the last part of the thesis (Appendix), we propose a novel weakly supervised discriminative algorithm for learning context specific registration metrics as a linear combination of conventional metrics. Conventional metrics can cope partially - depending on the clinical context - with tissue anatomical properties. In this work we seek to determine anatomy/tissue specific metrics as a context-specific aggregation/linear combination of known metrics. We propose a weakly supervised learning algorithm for estimating these parameters conditionally to the data semantic classes, using a weak training dataset. We show the efficacy of our approach on three highly challenging datasets in the field of medical imaging, which vary in terms of anatomical structures and image modalities., Cette thèse présente de nouvelles méthodes pour l'application de la prédiction structurée en vision numérique et en imagerie médicale.Nos nouvelles contributions suivent quatre axes majeurs.La première partie de cette thèse étudie le problème d'inférence d'ordre supérieur.Nous présentons une nouvelle famille de problèmes de minimisation d'énergie discrète, l'étiquetage parcimonieux, encourageant la parcimonie des étiquettes.C'est une extension naturelle des problèmes connus d'étiquetage de métriques aux potentiels d'ordre élevé.Nous proposons par ailleurs une généralisation du modèle Pn-Potts, le modèle Pn-Potts hiérarchique.Enfin, nous proposons un algorithme parallélisable à proposition de mouvements avec de fortes bornes multiplicatives pour l'optimisation du modèle Pn-Potts hiérarchique et l'étiquetage parcimonieux.La seconde partie de cette thèse explore le problème de classement en utilisant de l'information d'ordre élevé.Nous introduisons deux cadres différents pour l'incorporation d'information d'ordre élevé dans le problème de classement.Le premier modèle, que nous nommons SVM binaire d'ordre supérieur (HOB-SVM), optimise une borne supérieure convexe sur l'erreur 0-1 pondérée tout en incorporant de l'information d'ordre supérieur en utilisant un vecteur de charactéristiques jointes.Le classement renvoyé par HOB-SVM est obtenu en ordonnant les exemples selon la différence entre la max-marginales de l'affectation d'un exemple à la classe associée et la max-marginale de son affectation à la classe complémentaire.Le second modèle, appelé AP-SVM d'ordre supérieur (HOAP-SVM), s'inspire d'AP-SVM et de notre premier modèle, HOB-SVM.Le modèle correspond à une optimisation d'une borne supérieure sur la précision moyenne, à l'instar d'AP-SVM, qu'il généralise en permettant également l'incorporation d'information d'ordre supérieur.Nous montrons comment un optimum local du problème d'apprentissage de HOAP-SVM peut être déterminé efficacement grâce à la procédure concave-convexe.En utilisant des jeux de données standards, nous montrons empiriquement que HOAP-SVM surpasse les modèles de référence en utilisant efficacement l'information d'ordre supérieur tout en optimisant directement la fonction d'erreur appropriée.Dans la troisième partie, nous proposons un nouvel algorithme, SSVM-RP, pour obtenir un chemin de régularisation epsilon-optimal pour les SVM structurés.Nous présentons également des variantes intuitives de l'algorithme Frank-Wolfe pour l'optimisation accélérée de SSVM-RP.De surcroît, nous proposons une approche systématique d'optimisation des SSVM avec des contraintes additionnelles de boîte en utilisant BCFW et ses variantes.Enfin, nous proposons un algorithme de chemin de régularisation pour SSVM avec des contraintes additionnelles de positivité/negativité.Dans la quatrième et dernière partie de la thèse, en appendice, nous montrons comment le cadre de l'apprentissage semi-supervisé des SVM à variables latentes peut être employé pour apprendre les paramètres d'un problème complexe de recalage déformable.Nous proposons un nouvel algorithme discriminatif semi-supervisé pour apprendre des métriques de recalage spécifiques au contexte comme une combinaison linéaire des métriques conventionnelles.Selon l'application, les métriques traditionnelles sont seulement partiellement sensibles aux propriétés anatomiques des tissus.Dans ce travail, nous cherchons à déterminer des métriques spécifiques à l'anatomie et aux tissus, par agrégation linéaire de métriques connues.Nous proposons un algorithme d'apprentissage semi-supervisé pour estimer ces paramètres conditionnellement aux classes sémantiques des données, en utilisant un jeu de données faiblement annoté.Nous démontrons l'efficacité de notre approche sur trois jeux de données particulièrement difficiles dans le domaine de l'imagerie médicale, variables en terme de structures anatomiques et de modalités d'imagerie.
Published: 2016

183. Apprentissage de métrique temporelle multi-modale et multi-échelle pour la classification robuste de séries temporelles par plus proches voisins

Author: Do, Cao-Tri, Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Université Grenoble Alpes, Ahlame Douzal-Chouakria, and Michèle Rombaut
Subjects: Machine Learning, Apprentissage statistique, Metric learning, Svm, Knn, Séries temporelles, [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], Apprentissage de métrique, Time Series, Classification, [MATH.MATH-NA]Mathematics [math]/Numerical Analysis [math.NA]
Abstract: The definition of a metric between time series is inherent to several data analysis and mining tasks, including clustering, classification or forecasting. Time series data present naturally several characteristics, called modalities, covering their amplitude, behavior or frequential spectrum, that may be expressed with varying delays and at different temporal granularity and localization - exhibited globally or locally. Combining several modalities at multiple temporal scales to learn a holistic metric is a key challenge for many real temporal data applications. This PhD proposes a Multi-modal and Multi-scale Temporal Metric Learning (M2TML) approach for robust time series nearest neighbors classification. The solution is based on the embedding of pairs of time series into a pairwise dissimilarity space, in which a large margin optimization process is performed to learn the metric. The M2TML solution is proposed for both linear and non linear contexts, and is studied for different regularizers. A sparse and interpretable variant of the solution shows the ability of the learned temporal metric to localize accurately discriminative modalities as well as their temporal scales.A wide range of 30 public and challenging datasets, encompassing images, traces and ECG data, that are linearly or non linearly separable, are used to show the efficiency and the potential of M2TML for time series nearest neighbors classification.; La définition d'une métrique entre des séries temporelles est un élément important pour de nombreuses tâches en analyse ou en fouille de données, tel que le clustering, la classification ou la prédiction. Les séries temporelles présentent naturellement différentes caractéristiques, que nous appelons modalités, sur lesquelles elles peuvent être comparées, comme leurs valeurs, leurs formes ou leurs contenus fréquentielles. Ces caractéristiques peuvent être exprimées avec des délais variables et à différentes granularités ou localisations temporelles - exprimées globalement ou localement. Combiner plusieurs modalités à plusieurs échelles pour apprendre une métrique adaptée est un challenge clé pour de nombreuses applications réelles impliquant des données temporelles. Cette thèse propose une approche pour l'Apprentissage d'une Métrique Multi-modal et Multi-scale (M2TML) en vue d'une classification robuste par plus proches voisins. La solution est basée sur la projection des paires de séries temporelles dans un espace de dissimilarités, dans lequel un processus d'optimisation à vaste marge est opéré pour apprendre la métrique. La solution M2TML est proposée à la fois dans le contexte linéaire et non-linéaire, et est étudiée pour différents types de régularisation. Une variante parcimonieuse et interprétable de la solution montre le potentiel de la métrique temporelle apprise à pouvoir localiser finement les modalités discriminantes, ainsi que leurs échelles temporelles en vue de la tâche d'analyse considérée. L'approche est testée sur un vaste nombre de 30 bases de données publiques et challenging, couvrant des images, traces, données ECG, qui sont linéairement ou non-linéairement séparables. Les expériences montrent l'efficacité et le potentiel de la méthode M2TML pour la classification de séries temporelles par plus proches voisins.
Published: 2016

184. Modèles prudents en apprentissage statistique supervisé

Author: Yang, Gen, Heuristique et Diagnostic des Systèmes Complexes [Compiègne] (Heudiasyc), Université de Technologie de Compiègne (UTC)-Centre National de la Recherche Scientifique (CNRS), Université de Technologie de Compiègne, Marie-Hélène Masson, Sébastien Destercke, and STAR, ABES
Subjects: [SPI.OTHER]Engineering Sciences [physics]/Other, Probabilities, Prediction theory, Apprentissage statistique, Probabilités imprécises, [SPI.OTHER] Engineering Sciences [physics]/Other, Coûts de classification, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Discriminant analysis, [INFO.INFO-OH] Computer Science [cs]/Other [cs.OH], Cluster analysis, Classification supervisée, Machine learning, Prédictions partielles, Apprentissage sensible aux coûts, Modèles prudents
Abstract: In some areas of supervised machine learning (e.g. medical diagnostics, computer vision), predictive models are not only evaluated on their accuracy but also on their ability to obtain more reliable representation of the data and the induced knowledge, in order to allow for cautious decision making. This is the problem we studied in this thesis. Specifically, we examined two existing approaches of the literature to make models and predictions more cautious and more reliable: the framework of imprecise probabilities and the one of cost-sensitive learning. These two areas are both used to make models and inferences more reliable and cautious. Yet few existing studies have attempted to bridge these two frameworks due to both theoretical and practical problems. Our contributions are to clarify and to resolve these problems. Theoretically, few existing studies have addressed how to quantify the different classification errors when set-valued predictions are produced and when the costs of mistakes are not equal (in terms of consequences). Our first contribution has been to establish general properties and guidelines for quantifying the misclassification costs for set-valued predictions. These properties have led us to derive a general formula, that we call the generalized discounted cost (GDC), which allow the comparison of classifiers whatever the form of their predictions (singleton or set-valued) in the light of a risk aversion parameter. Practically, most classifiers basing on imprecise probabilities fail to integrate generic misclassification costs efficiently because the computational complexity increases by an order (or more) of magnitude when non unitary costs are used. This problem has led to our second contribution, the implementation of a classifier that can manage the probability intervals produced by imprecise probabilities and the generic error costs with the same order of complexity as in the case where standard probabilities and unitary costs are used. This is to use a binary decomposition technique, the nested dichotomies. The properties and prerequisites of this technique have been studied in detail. In particular, we saw that the nested dichotomies are applicable to all imprecise probabilistic models and they reduce the imprecision level of imprecise models without loss of predictive power. Various experiments were conducted throughout the thesis to illustrate and support our contributions. We characterized the behavior of the GDC using ordinal data sets. These experiences have highlighted the differences between a model based on standard probability framework to produce indeterminate predictions and a model based on imprecise probabilities. The latter is generally more competent because it distinguishes two sources of uncertainty (ambiguity and the lack of information), even if the combined use of these two types of models is also of particular interest as it can assist the decision-maker to improve the data quality or the classifiers. In addition, experiments conducted on a wide variety of data sets showed that the use of nested dichotomies significantly improves the predictive power of an indeterminate model with generic costs., Dans certains champs d’apprentissage supervisé (e.g. diagnostic médical, vision artificielle), les modèles prédictifs sont non seulement évalués sur leur précision mais également sur la capacité à l'obtention d'une représentation plus fiable des données et des connaissances qu'elles induisent, afin d'assister la prise de décisions de manière prudente. C'est la problématique étudiée dans le cadre de cette thèse. Plus spécifiquement, nous avons examiné deux approches existantes de la littérature de l'apprentissage statistique pour rendre les modèles et les prédictions plus prudents et plus fiables: le cadre des probabilités imprécises et l'apprentissage sensible aux coûts. Ces deux domaines visent tous les deux à rendre les modèles d'apprentissage et les inférences plus fiables et plus prudents. Pourtant peu de travaux existants ont tenté de les relier, en raison de problèmes à la fois théorique et pratique. Nos contributions consistent à clarifier et à résoudre ces problèmes. Sur le plan théorique, peu de travaux existants ont abordé la manière de quantifier les différentes erreurs de classification quand des prédictions sous forme d'ensembles sont produites et quand ces erreurs ne se valent pas (en termes de conséquences). Notre première contribution a donc été d'établir des propriétés générales et des lignes directrices permettant la quantification des coûts d'erreurs de classification pour les prédictions sous forme d'ensembles. Ces propriétés nous ont permis de dériver une formule générale, le coût affaiblie généralisé (CAG), qui rend possible la comparaison des classifieurs quelle que soit la forme de leurs prédictions (singleton ou ensemble) en tenant compte d'un paramètre d'aversion à la prudence. Sur le plan pratique, la plupart des classifieurs utilisant les probabilités imprécises ne permettent pas d'intégrer des coûts d'erreurs de classification génériques de manière simple, car la complexité du calcul augmente de magnitude lorsque des coûts non unitaires sont utilisés. Ce problème a mené à notre deuxième contribution, la mise en place d'un classifieur qui permet de gérer les intervalles de probabilités produits par les probabilités imprécises et les coûts d'erreurs génériques avec le même ordre de complexité que dans le cas où les probabilités standards et les coûts unitaires sont utilisés. Il s'agit d'utiliser une technique de décomposition binaire, les dichotomies emboîtées. Les propriétés et les pré-requis de ce classifieur ont été étudiés en détail. Nous avons notamment pu voir que les dichotomies emboîtées sont applicables à tout modèle probabiliste imprécis et permettent de réduire le niveau d'indétermination du modèle imprécis sans perte de pouvoir prédictif. Des expériences variées ont été menées tout au long de la thèse pour appuyer nos contributions. Nous avons caractérisé le comportement du CAG à l’aide des jeux de données ordinales. Ces expériences ont mis en évidence les différences entre un modèle basé sur les probabilités standards pour produire des prédictions indéterminées et un modèle utilisant les probabilités imprécises. Ce dernier est en général plus compétent car il permet de distinguer deux sources d'indétermination (l'ambiguïté et le manque d'informations), même si l'utilisation conjointe de ces deux types de modèles présente également un intérêt particulier dans l'optique d'assister le décideur à améliorer les données ou les classifieurs. De plus, des expériences sur une grande variété de jeux de données ont montré que l'utilisation des dichotomies emboîtées permet d'améliorer significativement le pouvoir prédictif d'un modèle imprécis avec des coûts génériques.
Published: 2016

185. Reading Faces. Using Hard Multi-Task Metric Learning for Kernel Regression

Author: Nicolle, Jérémie, Institut des Systèmes Intelligents et de Robotique (ISIR), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS), Université Pierre et Marie Curie - Paris VI, and Mohamed Chetouani
Subjects: Multi-Tâches, Localisation de points caractéristiques, Prédiction des émotions, Apprentissage statistique, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Metric learning, Expressions faciales, Action units, Analyse faciale, Multi-task
Abstract: Collecting and labeling various and relevant data for training automatic facial information prediction systems is both hard and time-consuming. As a consequence, available data is often of limited size compared to the difficulty of the prediction tasks. This makes overfitting a particularly important issue in several face-related machine learning applications. In this PhD, we introduce a novel method for multi-dimensional label regression, namely Hard Multi-Task Metric Learning for Kernel Regression (H-MT-MLKR). Our proposed method has been designed taking a particular focus on overfitting reduction. The Metric Learning for Kernel Regression method (MLKR) that has been proposed by Kilian Q. Weinberger in 2007 aims at learning a subspace for minimizing the quadratic training error of a Nadaraya-Watson estimator. In our method, we extend MLKR for multi-dimensional label regression by adding a novel multi-task regularization that reduces the degrees of freedom of the learned model along with potential overfitting. We evaluate our regression method on two different applications, namely landmark localization and Action Unit intensity prediction. We also present our work on automatic emotion prediction in a continuous space which is based on the Nadaraya-Watson estimator as well. Two of our frameworks let us win international data science challenges, namely the Audio-Visual Emotion Challenge (AVEC’12) and the fully continuous Facial Expression Recognition and Analysis challenge (FERA’15).; Recueillir et labelliser un ensemble important et pertinent de données pour apprendre des systèmes de prédiction d'informations à partir de visages est à la fois difficile et long. Par conséquent, les données disponibles sont souvent de taille limitée comparée à la difficultés des tâches. Cela rend le problème du sur-apprentissage particulièrement important dans de nombreuses applications d'apprentissage statistique liées au visage. Dans cette thèse, nous proposons une nouvelle méthode de régression de labels multi-dimensionnels, nommée Hard Multi-Task Metric Learning for Kernel Regression (H-MT-MLKR). Notre méthode a été développée en focalisant sur la réduction du phénomène de sur-apprentissage. La méthode Metric Learning for Kernel Regression qui a été proposée par Kilian Q. Weinberger en 2007 vise à apprendre un sous-espace pour minimiser l'erreur quadratique d'un estimateur de Nadaraya-Watson sur la base d'apprentissage. Dans notre méthode, on étend la méthode MLKR pour une régression de labels multi-dimensionnels en ajoutant une nouvelle régularisation multi-tâches qui réduit les degrés de liberté du modèle appris ainsi que le sur-apprentissage. Nous évaluons notre méthode pour deux applications différentes, à savoir la localisation de points caractéristiques et la prédiction de l'intensité des Action Units. Nous présentons aussi un travail sur la prédiction des émotions en espace continu basé aussi sur l'estimateur de Nadaraya-Watson. Deux des systèmes proposés nous ont permis de remporter deux premières places à des concours internationaux, à savoir le Audio-Visual Emotion Challenge (AVEC'12) et le Facial Expression Recognition and Analysis challenge (FERA'15).
Published: 2016

186. Analyse de visages à l'aide d'une régularisation multi-tâches contrainte pour un apprentissage de métrique adaptée à un régresseur par noyaux

Author: Nicolle, Jérémie, Institut des Systèmes Intelligents et de Robotique (ISIR), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS), Université Pierre et Marie Curie - Paris VI, and Mohamed Chetouani
Subjects: Multi-Tâches, Apprentissage statistique, Prédiction des émotions, Localisation de points caractéristiques, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Metric learning, Expressions faciales, Action units, Analyse faciale, Multi-task
Abstract: Collecting and labeling various and relevant data for training automatic facial information prediction systems is both hard and time-consuming. As a consequence, available data is often of limited size compared to the difficulty of the prediction tasks. This makes overfitting a particularly important issue in several face-related machine learning applications. In this PhD, we introduce a novel method for multi-dimensional label regression, namely Hard Multi-Task Metric Learning for Kernel Regression (H-MT-MLKR). Our proposed method has been designed taking a particular focus on overfitting reduction. The Metric Learning for Kernel Regression method (MLKR) that has been proposed by Kilian Q. Weinberger in 2007 aims at learning a subspace for minimizing the quadratic training error of a Nadaraya-Watson estimator. In our method, we extend MLKR for multi-dimensional label regression by adding a novel multi-task regularization that reduces the degrees of freedom of the learned model along with potential overfitting. We evaluate our regression method on two different applications, namely landmark localization and Action Unit intensity prediction. We also present our work on automatic emotion prediction in a continuous space which is based on the Nadaraya-Watson estimator as well. Two of our frameworks let us win international data science challenges, namely the Audio-Visual Emotion Challenge (AVEC’12) and the fully continuous Facial Expression Recognition and Analysis challenge (FERA’15).; Recueillir et labelliser un ensemble important et pertinent de données pour apprendre des systèmes de prédiction d'informations à partir de visages est à la fois difficile et long. Par conséquent, les données disponibles sont souvent de taille limitée comparée à la difficultés des tâches. Cela rend le problème du sur-apprentissage particulièrement important dans de nombreuses applications d'apprentissage statistique liées au visage. Dans cette thèse, nous proposons une nouvelle méthode de régression de labels multi-dimensionnels, nommée Hard Multi-Task Metric Learning for Kernel Regression (H-MT-MLKR). Notre méthode a été développée en focalisant sur la réduction du phénomène de sur-apprentissage. La méthode Metric Learning for Kernel Regression qui a été proposée par Kilian Q. Weinberger en 2007 vise à apprendre un sous-espace pour minimiser l'erreur quadratique d'un estimateur de Nadaraya-Watson sur la base d'apprentissage. Dans notre méthode, on étend la méthode MLKR pour une régression de labels multi-dimensionnels en ajoutant une nouvelle régularisation multi-tâches qui réduit les degrés de liberté du modèle appris ainsi que le sur-apprentissage. Nous évaluons notre méthode pour deux applications différentes, à savoir la localisation de points caractéristiques et la prédiction de l'intensité des Action Units. Nous présentons aussi un travail sur la prédiction des émotions en espace continu basé aussi sur l'estimateur de Nadaraya-Watson. Deux des systèmes proposés nous ont permis de remporter deux premières places à des concours internationaux, à savoir le Audio-Visual Emotion Challenge (AVEC'12) et le Facial Expression Recognition and Analysis challenge (FERA'15).
Published: 2016

187. Acquisition of semantic relations from layout elements

Author: Fauconnier, Jean-Philippe, MEthodes et ingénierie des Langues, des Ontologies et du DIscours (IRIT-MELODI), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Université de Toulouse, Nathalie Aussenac-Gilles, and Mouna Kamel
Subjects: [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, Analyse du document, Apprentissage statistique, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], Document analysis, Machine learning, Relation extraction, Extraction de relations, Traitement Automatique du Langage, Natural Language Processing, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.; Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats.
Published: 2016

188. Bandit Contextuel pour la Capture de Données Temps Réel sur les Médias Sociaux

Author: Gisselbrecht, Thibault, Lamprier, Sylvain, Gallinari, Patrick, IRT SystemX, Machine Learning and Information Access (MLIA), Laboratoire d'Informatique de Paris 6 (LIP6), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS), and IRT SystemX (IRT SystemX)
Subjects: [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Bandit Manchot, Apprentissage Statistique, Médias Sociaux, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: National audience; Social media usually provide streaming data access that enable dynamic capture of the social activity of their users. Leveraging such APIs for collecting data that satisfy a given pre-defined need may constitute a complex task, that implies careful stream selections. On large social media, this represents a very challenging task due to the huge number of potential targets, the intrinsic non-stationarity of user's behavior, and restricted access to the data. We propose an approach that anticipates which profiles are likely to publish relevant contents and dynamically selects a subset of accounts to follow at each iteration using a contextual bandit algorithm. We conduct experiments on Twitter that demonstrate the empirical effectiveness of our approach in real-world settings.; La plupart des médias sociaux offrent un accès aux flux de données produites par leurs utilisateurs. L'utilisation des API fournies pour collecter ces données, relativement à un besoin spécifique, peut se révéler être une tâche complexe car elle nécessite une sélection soigneuse des sources. Cela représente un problème particulièrement difficile dans les réseaux sociaux de grandes tailles étant donné le nombre important d'utilisateurs potentiellement intéressants, la non-stationnarité intrinsèque de leur comportement, et les restrictions d'accès aux données. Dans cet article, nous proposons une approche permettant d'anticiper les profils les plus sus-ceptibles de publier des contenus pertinents et de sélectionner un sous ensemble de comptes à chaque itération. Nous formalisons cette tâche comme un problème de bandit contextuel avec sélections multiples. Les expérimentations menées sur le réseau social Twitter montrent l'effi-cacité de notre approche dans un scenario réel.
Published: 2016
Full Text: View/download PDF

189. Learning of semantic classes for aerial image analysis

Author: Randrianarivo, Hicham and STAR, ABES
Subjects: Apprentissage statistique, Object detection, [INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing, Machine learning, Détection d'objets, Modèle de contexte, Contextual Model, Semantic segmentation, Segmentation sémantique, [SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing
Abstract: This work is about interpretation of the content of very high resolution aerial optical panchromatic images. Two methods are proposed for the classification of this kind of images. The first method aims at detecting the instances of a class of objects and the other method aims at segmenting superpixels extracted from the images using a contextual model of the relations between the superpixels. The object detection method in very high resolution images uses a mixture of appearance models of a class of objects then fuses the hypothesis returned by the models. We develop a method that clusters training samples into visual subcategories based on a two stages procedure using metadata and visual information. The clustering part allows to learn models that are specialised in recognizing a subset of the dataset and whose fusion lead to a generalization of the object detector. The performances of the method are evaluate on several dataset of very high resolution images at several resolutions and several places. The method proposed for contextual semantic segmentation use a combination of visual description of a superpixel extract from the image and contextual information gathered between a superpixel and its neighbors. The contextual representation is based on a graph where the nodes are the superpixels and the edges are the relations between two neighbors. Finally we predict the category of a superpixel using the predictions made by of the neighbors using the contextual model in order to make the prediction more reliable. We test our method on a dataset of very high resolution images., Ce travail concerne l'interprétation du contenu des images aériennes optiques panchromatiques très haute résolution. Deux méthodes pour la classification du contenu de ces images ont été développées. Une méthode basée sur la détection des instances des différentes catégories d'objets et une autre méthode basée sur la segmentation sémantique des superpixels de l'image utilisant un modèle de contexte entre les différentes instances des superpixels. La méthode de détection des objets dans une image très haute résolution est basée sur l'apprentissage d'un mélange de modèle d'apparence de la catégorie d'objets à détecter puis d'une fusion des hypothèses renvoyées par les différents modèles. Nous proposons une méthode de partitionnement en sous catégories visuelles basée sur une procédure en deux étapes des exemples d'apprentissages de la base en fonction des métadonnées disponibles et de l'apparence des exemples d'apprentissage. Cette phase de partitionnement permet d'apprendre des modèles d'apparence où chacun est spécialisés dans la reconnaissance d'une sous-partie de la base et dont la fusion permet la généralisation de la détection à l'ensemble des objets de la classe. Les performances du détecteur ainsi obtenu sont évaluées sur plusieurs bases d'images aériennes très haute résolution à des résolution différentes et en plusieurs endroits du monde. La méthode de segmentation sémantique contextuelle développée utilise une combinaison de la description visuelle d'un superpixel extrait d'une image et des informations de contexte extraient entre un superpixel et ses voisins. La représentation du contexte entre les superpixels est obtenu en utilisant une représentation par modèle graphique entre les superpixels voisins. Les noeuds du graphes étant la représentation visuelle d'un superpixel et les arêtes la représentation contextuelle entre deux voisins. Enfin nous présentons une méthode de prédiction de la catégorie d'un superpixel en fonction des décisions données par les voisins pour rendre les prédictions plus robustes. La méthode a été testé sur une base d'image aérienne très haute résolution.
Published: 2016

190. Long term performance prediction of proton exchange membrane fuel cells using machine learning method

Author: Wu, Yiming and STAR, ABES
Subjects: Apprentissage statistique, Performance pediction, Machine learning, Pile à combustible à membrane échangeuse de potons, PEMFC, [SPI.NRJ] Engineering Sciences [physics]/Electric power
Abstract: The environmental issues, especially the global warming due to greenhouse effect, has become more and morecritical in recent decades. As one potential candidate among different alternative "green energy" solutions forsustainable development, the Proton Exchange Membrane Fuel Cell (PEMFC) has been received extensiveresearch attention since many years for energy and transportation applications. The PEMFC stacks, can produceelectricity directly from electrochemical reaction between hydrogen and oxygen in the air, with the only by-productsof water and heat. If the hydrogen is produced from renewable energy sources, this energy conversion is 100% ecofriendly.However, the relatively short lifespan of PEMFCs operating under non-steady-state conditions (for vehicles forexample) impedes its massive use. The accurate prediction of their aging mechanisms can thus help to designproper maintenance patterns of PEMFCs by providing foreseeable performance degradation information. In addition,the prediction could also help to avoid or mitigate the unwanted degradation of PEMFC systems during operation.This thesis proposes a novel data driven approach to predict the performance degradation of the PEMFC using animproved relevance vector machine method.Firstly, the theoretical description of the PEMFC during operation will be presented followed by an extensivelydetailed illustration on impacts of operational conditions on PEMFC performance, along with the degradationmechanisms on each component of PEMFC. Moreover, different approaches of PEMFC performance prediction inthe literature will also be briefly introduced.Further, a performance prediction method using an improved Relevance Vector Machine (RVM) would be proposedand demonstrated. The prediction results based on different training zones from historical data will also bediscussed and compared with the prediction results using conventional Support Vector Machine (SVM).Moreover, a self-adaptive kernel RVM prediction method will be introduced. At the meantime, the design matrix ofthe RVM training will also be modified in order to acquire higher precision during prediction. The prediction resultswill be illustrated and discussed thoroughly in the end.In summary, this dissertation mainly discusses the analysis of the PEMFC performance prediction using advancedmachine learning methods., Les questions environnementales, en particulier le réchauffement de la planète en raison de l'effet de serre, estdevenu de plus en plus critique au cours des dernières décennies. Candidate potentielle parmi les différentessolutions alternatives d'énergie verte pour le développement durable, la pile à combustible à membrane échangeusede protons (PEMFC en anglais) a fait l'objet de nombreux travaux de recherche, dans les domaines de l'énergie etdes transports. Les PEMFC peuvent produire de l'électricité directement à partir de la réaction électrochimique entrel'hydrogène et l'oxygène de l'air, avec comme seul sous-produits de l'eau et de la chaleur. Si l'hydrogène est produità partir de sources d'énergie renouvelables, cette conversion de l'énergie est complètement écologique.Cependant, la durée de vie relativement courte des PEMFC fonctionnant dans des conditions dynamiques (pour lesvéhicules, par exemple) empêche son utilisation massive. La prévision précise de leurs mécanismes devieillissement peut ainsi aider à concevoir des modèles de maintenance appropriés des PEMFC en fournissant desinformations prévisibles sur la dégradation des performances. De plus, la prédiction pourrait également contribuer àatténuer la dégradation indésirable des systèmes PEMFC en cours d'exploitation. Ces travaux proposent unenouvelle approche guidée par les données pour prédire la dégradation des performances des PEMFC en utilisantune méthode d'apprentissage améliorée (Relevance Vector Machine : RVM).Tout d'abord, la description théorique des PEMFC en fonctionnement est présentée. Ensuite, une illustrationdétaillée de l'impact des conditions opérationnelles sur la performance des PEMFC est exposée, ainsi que desmécanismes de dégradation de chaque composant des PEMFC.Une méthode de prédiction de performance en utilisant la RVM améliorée est ensuite proposée et démontrée. Lesrésultats de prédiction basés sur des zones d'apprentissage différentes à partir des données historiques sontégalement discutés et comparés avec les résultats de prédiction utilisant les machines à vecteurs de support(Support Vector Machine : SVM).En outre, une méthode de prédiction RVM à noyau auto-adaptatif (Self-Adaptive Kernel) est présentée. La matricede conception de la formation du RVM est également modifiée afin d'acquérir une plus grande précision lors de laprédiction. Les résultats de la prévision sont illustrés et discutés en détails.En résumé, ces travaux permettent de discuter principalement de l'analyse de la prédiction de la performance desPEMFC en utilisant des méthodes d'apprentissage statistique.
Published: 2016

191. Learning similarities for linear classification : theoretical foundations and algorithms

Author: Nicolae, Maria-Irina and STAR, ABES
Subjects: Apprentissage de métriques, Time series, Learning theory, Apprentissage statistique, Metric learning, Séries temporelles, [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], Théorie de l'apprentissage, Classification, Statistical learning
Abstract: The notion of metric plays a key role in machine learning problems, such as classification, clustering and ranking. Learning metrics from training data in order to make them adapted to the task at hand has attracted a growing interest in the past years. This research field, known as metric learning, usually aims at finding the best parameters for a given metric under some constraints from the data. The learned metric is used in a machine learning algorithm in hopes of improving performance. Most of the metric learning algorithms focus on learning the parameters of Mahalanobis distances for feature vectors. Current state of the art methods scale well for datasets of significant size. On the other hand, the more complex topic of multivariate time series has received only limited attention, despite the omnipresence of this type of data in applications. An important part of the research on time series is based on the dynamic time warping (DTW) computing the optimal alignment between two time series. The current state of metric learning suffers from some significant limitations which we aim to address in this thesis. The most important one is probably the lack of theoretical guarantees for the learned metric and its performance for classification.The theory of (ℰ , ϓ, τ)-good similarity functions has been one of the first results relating the properties of a similarity to its classification performance. A second limitation in metric learning comes from the fact that most methods work with metrics that enforce distance properties, which are computationally expensive and often not justified. In this thesis, we address these limitations through two main contributions. The first one is a novel general framework for jointly learning a similarity function and a linear classifier. This formulation is inspired from the (ℰ , ϓ, τ)-good theory, providing a link between the similarity and the linear classifier. It is also convex for a broad range of similarity functions and regularizers. We derive two equivalent generalization bounds through the frameworks of algorithmic robustness and uniform convergence using the Rademacher complexity, proving the good theoretical properties of our framework. Our second contribution is a method for learning similarity functions based on DTW for multivariate time series classification. The formulation is convex and makes use of the(ℰ , ϓ, τ)-good framework for relating the performance of the metric to that of its associated linear classifier. Using uniform stability arguments, we prove the consistency of the learned similarity leading to the derivation of a generalization bound., La notion de métrique joue un rôle clef dans les problèmes d’apprentissage automatique tels que la classification, le clustering et le ranking. L’apprentissage à partir de données de métriques adaptées à une tâche spécifique a suscité un intérêt croissant ces dernières années. Ce domaine vise généralement à trouver les meilleurs paramètres pour une métrique donnée sous certaines contraintes imposées par les données. La métrique apprise est utilisée dans un algorithme d’apprentissage automatique dans le but d’améliorer sa performance. La plupart des méthodes d’apprentissage de métriques optimisent les paramètres d’une distance de Mahalanobis pour des vecteurs de features. Les méthodes actuelles de l’état de l’art arrivent à traiter des jeux de données de tailles significatives. En revanche, le sujet plus complexe des séries temporelles multivariées n’a reçu qu’une attention limitée, malgré l’omniprésence de ce type de données dans les applications réelles. Une importante partie de la recherche sur les séries temporelles est basée sur la dynamic time warping (DTW), qui détermine l’alignement optimal entre deux séries temporelles. L’état actuel de l’apprentissage de métriques souffre de certaines limitations. La plus importante est probablement le manque de garanties théoriques concernant la métrique apprise et sa performance pour la classification. La théorie des fonctions de similarité (ℰ , ϓ, T)-bonnes a été l’un des premiers résultats liant les propriétés d’une similarité à celles du classifieur qui l’utilise. Une deuxième limitation vient du fait que la plupart des méthodes imposent des propriétés de distance, qui sont coûteuses en terme de calcul et souvent non justifiées. Dans cette thèse, nous abordons les limitations précédentes à travers deux contributions principales. La première est un nouveau cadre général pour l’apprentissage conjoint d’une fonction de similarité et d’un classifieur linéaire. Cette formulation est inspirée de la théorie de similarités (ℰ , ϓ, τ) -bonnes, fournissant un lien entre la similarité et le classifieur linéaire. Elle est convexe pour une large gamme de fonctions de similarité et de régulariseurs. Nous dérivons deux bornes de généralisation équivalentes à travers les cadres de robustesse algorithmique et de convergence uniforme basée sur la complexité de Rademacher, prouvant les propriétés théoriques de notre formulation. Notre deuxième contribution est une méthode d’apprentissage de similarités basée sur DTW pour la classification de séries temporelles multivariées. Le problème est convexe et utilise la théorie des fonctions (ℰ , ϓ, T)-bonnes liant la performance de la métrique à celle du classifieur linéaire associé. A l’aide de la stabilité uniforme, nous prouvons la consistance de la similarité apprise conduisant à la dérivation d’une borne de généralisation.
Published: 2016

192. Theory and algorithms for learning metrics with controlled behaviour

Author: Perrot, Michaël and STAR, ABES
Subjects: Artificial intelligence, Apprentissage des métriques, Learning theory, Apprentissage statistique, Metric learning, Machine learning, Apprentissage automatique, [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], Intelligence artificielle, Théorie de l'apprentissage, Statistical learning
Abstract: Many Machine Learning algorithms make use of a notion of distance or similarity between examples to solve various problems such as classification, clustering or domain adaptation. Depending on the tasks considered these metrics should have different properties but manually choosing an adapted comparison function can be tedious and difficult. A natural trend is then to automatically tailor such metrics to the task at hand. This is known as Metric Learning and the goal is mainly to find the best parameters of a metric under some specific constraints. Standard approaches in this field usually focus on learning Mahalanobis distances or Bilinear similarities and one of the main limitations is that the control over the behaviour of the learned metrics is often limited. Furthermore if some theoretical works exist to justify the generalization ability of the learned models, most of the approaches do not come with such guarantees. In this thesis we propose new algorithms to learn metrics with a controlled behaviour and we put a particular emphasis on the theoretical properties of these algorithms. We propose four distinct contributions which can be separated in two parts, namely (i) controlling the metric with respect to a reference metric and (ii) controlling the underlying transformation corresponding to the learned metric. Our first contribution is a local metric learning method where the goal is to regress a distance proportional to the human perception of colors. Our approach is backed up by theoretical guarantees on the generalization ability of the learned metrics. In our second contribution we are interested in theoretically studying the interest of using a reference metric in a biased regularization term to help during the learning process. We propose to use three different theoretical frameworks allowing us to derive three different measures of goodness for the reference metric. These measures give us some insights on the impact of the reference metric on the learned one. In our third contribution we propose a metric learning algorithm where the underlying transformation is controlled. The idea is that instead of using similarity and dissimilarity constraints we associate each learning example to a so-called virtual point belonging to the output space associated with the learned metric. We theoretically show that metrics learned in this way generalize well but also that our approach is linked to a classic metric learning method based on pairs constraints. In our fourth contribution we also try to control the underlying transformation of a learned metric. However instead of considering a point-wise control we consider a global one by forcing the transformation to follow the geometrical transformation associated to an optimal transport problem. From a theoretical standpoint we propose a discussion on the link between the transformation associated with the learned metric and the transformation associated with the optimal transport problem. On a more practical side we show the interest of our approach for domain adaptation but also for a task of seamless copy in images, De nombreux algorithmes en Apprentissage Automatique utilisent une notion de distance ou de similarité entre les exemples pour résoudre divers problèmes tels que la classification, le partitionnement ou l'adaptation de domaine. En fonction des tâches considérées ces métriques devraient avoir des propriétés différentes mais les choisir manuellement peut-être fastidieux et difficile. Une solution naturelle est alors d'adapter automatiquement ces métriques à la tâche considérée. Il s'agit alors d'un problème connu sous le nom d'Apprentissage de Métriques et où le but est principalement de trouver les meilleurs paramètres d'une métrique respectant des contraintes spécifiques. Les approches classiques dans ce domaine se focalisent habituellement sur l'apprentissage de distances de Mahalanobis ou de similarités bilinéaires et l'une des principales limitations est le fait que le contrôle du comportement de ces métriques est souvent limité. De plus, si des travaux théoriques existent pour justifier de la capacité de généralisation des modèles appris, la plupart des approches ne présentent pas de telles garanties. Dans cette thèse nous proposons de nouveaux algorithmes pour apprendre des métriques à comportement contrôlé et nous mettons l'accent sur les propriétés théoriques de ceux-ci. Nous proposons quatre contributions distinctes qui peuvent être séparées en deux parties: (i) contrôler la métrique apprise en utilisant une métrique de référence et (ii) contrôler la transformation induite par la métrique apprise. Notre première contribution est une approche locale d'apprentissage de métriques où le but est de régresser une distance proportionnelle à la perception humaine des couleurs. Notre approche est justifiée théoriquement par des garanties en généralisation sur les métriques apprises. Dans notre deuxième contribution nous nous sommes intéressés à l'analyse théorique de l'intérêt d'utiliser une métrique de référence dans un terme de régularisation biaisé pour aider lors du processus d'apprentissage. Nous proposons d'utiliser trois cadres théoriques différents qui nous permettent de dériver trois mesures différentes de l'apport de la métrique de référence. Ces mesures nous donnent un aperçu de l'impact de la métrique de référence sur celle apprise. Dans notre troisième contribution nous proposons un algorithme d'apprentissage de métriques où la transformation induite est contrôlée. L'idée est que, plutôt que d'utiliser des contraintes de similarité et de dissimilarité, chaque exemple est associé à un point virtuel qui appartient déjà à l'espace induit par la métrique apprise. D'un point de vue théorique nous montrons que les métriques apprises de cette façon généralisent bien mais aussi que notre approche est liée à une méthode plus classique d'apprentissage de métriques basée sur des contraintes de paires. Dans notre quatrième contribution nous essayons aussi de contrôler la transformation induite par une métrique apprise. Cependant, plutôt que considérer un contrôle individuel pour chaque exemple, nous proposons une approche plus globale en forçant la transformation à suivre une transformation géométrique associée à un problème de transport optimal. D'un point de vue théorique nous proposons une discussion sur le lien entre la transformation associée à la métrique apprise et la transformation associée au problème de transport optimal. D'un point de vue plus pratique nous montrons l'intérêt de notre approche pour l'adaptation de domaine mais aussi pour l'édition d'images
Published: 2016

193. Traitement de données RGB et Lidar à extrêmement haute résolution: retombées de la compétition de fusion de données 2015 de l'IEEE GRSS - Partie A / compétition 2D

Author: Devis Tuia, Bertrand Le Saux, Hicham Randrianarivo, Adriana Romero-Soriano, Marin Ferecatu, Adrien Lagrange, Stéphane Herbin, Anne Beaupere, Gabriele Moser, Adrien Chan-Hon-Tong, Michal Shimoni, Gustau Camps-Valls, Alexandre Boulch, Carlo Gatta, Manuel Campos-Taberner, Universitat de València (UV), Universitat de Barcelona (UB), Universitat Autònoma de Barcelona (UAB), ONERA - The French Aerospace Lab [Palaiseau], ONERA-Université Paris Saclay (COmUE), École Nationale Supérieure de Techniques Avancées (ENSTA Paris), Centre d'études et de recherche en informatique et communications (CEDRIC), Ecole Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise (ENSIIE)-Conservatoire National des Arts et Métiers [CNAM] (CNAM), Royal Military Academy (RMA), University of Genoa (UNIGE), Universität Zürich [Zürich] = University of Zurich (UZH), Centre National de la Recherche Scientifique - CNRS (FRANCE), Institut National Polytechnique de Toulouse - INPT (FRANCE), Office National d'Etudes et Recherches Aérospatiales - ONERA (FRANCE), Université Toulouse III - Paul Sabatier - UT3 (FRANCE), Université Toulouse - Jean Jaurès - UT2J (FRANCE), Université Toulouse 1 Capitole - UT1 (FRANCE), Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE), University of Zurich, and Tuia, Devis
Subjects: Atmospheric Science, 010504 meteorology & atmospheric sciences, Computer science, MULTIMODAL-DATA FUSION, Geophysics. Cosmic physics, 0211 other engineering and technologies, 02 engineering and technology, CONTEST, computer.software_genre, 01 natural sciences, Outcome (game theory), LIDAR, Traitement des images, IMAGE ANALYSIS AND DATA FUSION (IADF), DEEP NEURAL NETWORKS, Deep neural networks, Traitement du signal et de l'image, MULTIRESOLUTION, 910 Geography & travel, Multiresolution, Ground truth, LANDCOVER CLASSIFICATION, IMAGE AERIENNE, 1903 Computers in Earth Sciences, Benchmarking, Vision par ordinateur et reconnaissance de formes, Ocean engineering, 10122 Institute of Geography, Lidar, Data mining, Extremely high spatial resolution, Multimodal-data fusion, LiDAR, Computers in Earth Sciences, Image analysis and data fusion (IADF), EXTREMELY HIGH SPATIAL RESOLUTION, CLASSIFICATION, TRAITEMENT IMAGE, 1902 Atmospheric Science, APPRENTISSAGE STATISTIQUE, TELEDETECTION, Synthèse d'image et réalité virtuelle, TC1501-1800, 021101 geological & geomatics engineering, 0105 earth and related environmental sciences, Landcover classification, multiresolution, [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], QC801-809, Intelligence artificielle, MULTISOURCE, Sensor fusion, RGB color model, computer, Multisource
Abstract: International audience; In this paper, we discuss the scientific outcomes of the 2015 data fusion contest organized by the Image Analysis and Data Fusion Technical Committee (IADF TC) of the IEEE Geoscience and Remote Sensing Society (IEEE GRSS). As for previous years, the IADF TC organized a data fusion contest aiming at fostering new ideas and solutions for multisource studies. The 2015 edition of the contest proposed a multiresolution and multisensorial challenge involving extremely high-resolution RGB images and a three-dimensional (3-D) LiDAR point cloud. The competition was framed in two parallel tracks, considering 2-D and 3-D products, respectively. In this paper, we discuss the scientific results obtained by the winners of the 2-D contest, which studied either the complementarity of RGB and LiDAR with deep neural networks (winning team) or provided a comprehensive benchmarking evaluation of new classification strategies for extremely high-resolution multimodal data (runner-up team). The data and the previously undisclosed ground truth will remain available for the community and can be obtained at http://www.grss-ieee.org/community/technical-committees/data-fusion/2015-ieee-grss-data-fusion-contest/. The 3-D part of the contest is discussed in the Part-B paper [1].
Published: 2016
Full Text: View/download PDF

194. Extraction de caractéristiques et apprentissage statistique pour l'imagerie biomédicale cellulaire et tissulaire

Author: Zubiolo, Alexis, Morphologie et Images (MORPHEME), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut de Biologie Valrose (IBV), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Signal, Images et Systèmes (Laboratoire I3S - SIS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Centre National de la Recherche Scientifique (CNRS), Université Nice Sophia Antipolis, and Éric Debreuve
Subjects: [SPI.OTHER]Engineering Sciences [physics]/Other, [SDV.SA]Life Sciences [q-bio]/Agricultural sciences, Biomedical image processing, Apprentissage statistique, Machine learning, Traitement d'images biomédicales, [SDV.MHEP]Life Sciences [q-bio]/Human health and pathology
Abstract: The purpose of this Ph.D. thesis is to study the classification based on morphological features of cells and tissues taken from biomedical images. The goal is to help medical doctors and biologists better understand some biological phenomena. This work is spread in three main parts corresponding to the three typical problems in biomedical imaging tackled. The first part consists in analyzing endomicroscopic videos of the colon in which the pathological class of the polyps has to be determined. This task is performed using a supervised multiclass machine learning algorithm combining support vector machines and graph theory tools. The second part concerns the study of the morphology of mice neurons taken from fluorescent confocal microscopy. In order to obtain a rich information, the neurons are imaged at two different magnifications, the higher magnification where the soma appears in details, and the lower showing the whole cortex, including the apical dendrites. On these images, morphological features are automatically extracted with the intention of performing a classification. The last part is about the multi-scale processing of digital histology images in the context of kidney cancer. The vascular network is extracted and modeled by a graph to establish a link between the architecture of the tumor and its pathological class.; L'objectif de cette thèse est de s'intéresser à la classification de cellules et de tissus au sein d'images d'origine biomédicales en s'appuyant sur des critères morphologiques. Le but est de permettre aux médecins et aux biologistes de mieux comprendre les lois qui régissent certains phénomènes biologiques. Ce travail se décompose en trois principales parties correspondant aux trois problèmes typiques des divers domaines de l'imagerie biomédicale abordés. L'objet de la première est l'analyse de vidéos d'endomicroscopie du colon dans lesquelles il s'agit de déterminer automatiquement la classe pathologique des polypes qu'on y observe. Cette tâche est réalisée par un apprentissage supervisé multiclasse couplant les séparateurs à vaste marge à des outils de théorie des graphes. La deuxième partie s'intéresse à l'étude de la morphologie de neurones de souris observés par microscopie confocale en fluorescence. Afin de disposer d'une information riche, les neurones sont observés à deux grossissements, l'un permettant de bien caractériser les corps cellulaires, l'autre, plus faible, pour voir les dendrites apicales dans leur intégralité. Sur ces images, des descripteurs morphologiques des neurones sont extraits automatiquement en vue d'une classification. La dernière partie concerne le traitement multi-échelle d'images d'histologie digitale dans le contexte du cancer du rein. Le réseau vasculaire est extrait et mis sous forme de graphe afin de pouvoir établir un lien entre l'architecture vasculaire de la tumeur et sa classe pathologique.
Published: 2015

195. Quantification d’incertitude sur fronts de Pareto et stratégies pour l’optimisation bayésienne en grande dimension, avec applications en conception automobile

Author: Binois, Mickaël, Département Décision en Entreprise : Modélisation, Optimisation (DEMO-ENSMSE), École des Mines de Saint-Étienne (Mines Saint-Étienne MSE), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut Henri Fayol, Ecole Nationale Supérieure des Mines de Saint-Etienne, Olivier Roustant, David Ginsbourger, and STAR, ABES
Subjects: SUR, Apprentissage statistique, Vorob'ev deviation, Processus gaussiens, Gaussian processes, [MATH.MATH-GM] Mathematics [math]/General Mathematics [math.GM], REMBO, Multi-objective optimization, [MATH.MATH-GM]Mathematics [math]/General Mathematics [math.GM], Quantification d’incertitude, Optimisation multiobjectif, Copulas, Expected Improvement, Plongements aléatoires, Copules
Abstract: This dissertation deals with optimizing expensive or time-consuming black-box functionsto obtain the set of all optimal compromise solutions, i.e. the Pareto front. In automotivedesign, the evaluation budget is severely limited by numerical simulation times of the considered physical phenomena. In this context, it is common to resort to “metamodels” (models of models) of the numerical simulators, especially using Gaussian processes. They enable adding sequentially new observations while balancing local search and exploration. Complementing existing multi-objective Expected Improvement criteria, we propose to estimate the position of the whole Pareto front along with a quantification of the associated uncertainty, from conditional simulations of Gaussian processes. A second contribution addresses this problem from a different angle, using copulas to model the multi-variate cumulative distribution function. To cope with a possibly high number of variables, we adopt the REMBO algorithm. From a randomly selected direction, defined by a matrix, it allows a fast optimization when only a few number of variables are actually influential, but unknown. Several improvements are proposed, such as a dedicated covariance kernel, a selection procedure for the low dimensional domain and of the random directions, as well as an extension to the multi-objective setup. Finally, an industrial application in car crash-worthiness demonstrates significant benefits in terms of performance and number of simulations required. It has also been used to test the R package GPareto developed during this thesis., Cette thèse traite de l’optimisation multiobjectif de fonctions coûteuses, aboutissant à laconstruction d’un front de Pareto représentant l’ensemble des compromis optimaux. En conception automobile, le budget d’évaluations est fortement limité par les temps de simulation numérique des phénomènes physiques considérés. Dans ce contexte, il est courant d’avoir recours à des « métamodèles » (ou modèles de modèles) des simulateurs numériques, en se basant notamment sur des processus gaussiens. Ils permettent d’ajouter séquentiellement des observations en conciliant recherche locale et exploration. En complément des critères d’optimisation existants tels que des versions multiobjectifs du critère d’amélioration espérée, nous proposons d’estimer la position de l’ensemble du front de Pareto avec une quantification de l’incertitude associée, à partir de simulations conditionnelles de processus gaussiens. Une deuxième contribution reprend ce problème à partir de copules. Pour pouvoir traiter le cas d’un grand nombre de variables d’entrées, nous nous basons sur l’algorithme REMBO. Par un tirage aléatoire directionnel, défini par une matrice, il permet de trouver un optimum rapidement lorsque seules quelques variables sont réellement influentes (mais inconnues). Plusieurs améliorations sont proposées, elles comprennent un noyau de covariance dédié, une sélection du domaine de petite dimension et des directions aléatoires mais aussi l’extension au casmultiobjectif. Enfin, un cas d’application industriel en crash a permis d’obtenir des gainssignificatifs en performance et en nombre de calculs requis, ainsi que de tester le package R GPareto développé dans le cadre de cette thèse.
Published: 2015

196. Modélisation statistique de l’état de charge des batteries électriques

Author: Kalawoun, Jana, Laboratoire de Mathématiques d'Orsay (LM-Orsay), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Intégration des Systèmes et des Technologies (LIST), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria), Université Paris Saclay (COmUE), Gilles Celeux, and Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA))
Subjects: Apprentissage statistique, [MATH.MATH-DS]Mathematics [math]/Dynamical Systems [math.DS], State of charge of an electric battery, Switching Markov State Space Model, Model selection, Statistical learning, Sélection de modèle, Patricle filter, Modèle à espaces d'états gouverné par une chaîne de Markov, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], Filtrage particulaire, Etat de charge d'une batterie électrique, Algorithme EM, EM algorithm, [SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing
Abstract: Electric batteries are omnipresent in our daily lives: computers, smartphones, etc. Batteries are important for anticipating the scarcity of fossil fuels and tackling their environmental impact. Therefore, estimating the State of Charge (SoC) of a battery is nowadays a challenging issue, as existing physical and statistical models are not yet robust. Indeed a battery is a complex electrochemical system. Its dynamic depends not only on its internal characteristics but also on uncontrolled usage conditions: temperature, usage profile, etc. However the SoC estimation helps to prevent overcharge and deep discharge, and to estimate the battery autonomy. In this study, the battery dynamics are described by a set of physical linear equations, switching randomly according to a Markov chain. This model is referred to as switching Markov state space model. To ensure the unicity of the model parameters, we prove its identifiability by applying straightforward and natural constraints on its “physical” parameters. Embedded applications, like electric vehicles, impose online estimated with hardware and time constraints. Therefore we estimate the SoC using a sequential importance sampling technique. Furthermore the model includes two latent variables: the SoC and the Markov chain state. Thus, to estimate the parameters, we develop and test three algorithms adapted to latent structure models: particle Gibbs sampler, Monte Carlo EM penalized with identifiability constraints, and Monte Carlo EM penalized with a prior distribution. The hidden Markov states aim to model the different “regimes” of the battery dynamics. We identify their number using different model selection criteria. Finally, when applied to various data from three battery types (cell, module and pack of an electric vehicle) our model allows us to analyze the battery dynamics and to obtain a robust and accurate SoC estimation under uncontrolled usage conditions.; Les batteries électriques sont omniprésentes dans notre vie quotidienne : ordinateur, téléphone, etc. Elles jouent un rôle important dans le défi de la transition énergétique : anticiper la raréfaction des énergies fossiles et réduire la pollution, en développant le stockage des énergies renouvelables et les transports électriques. Cependant, l'estimation de l'état de charge (State of Charge – SoC) d'une batterie est difficile et les modèles de prédiction actuels sont peu robustes. En effet, une batterie est un système électrochimique complexe, dont la dynamique est influencée non seulement par ses caractéristiques internes, mais aussi par les conditions d'usages souvent non contrôlables : température, profil d’utilisation, etc. Or, une estimation précise du SoC permet de garantir une utilisation sûre de la batterie en évitant une surcharge ou surdécharge ; mais aussi d’estimer son autonomie. Dans cette étude, nous utilisons un modèle à espaces d'états gouverné par une chaîne de Markov cachée. Ce modèle est fondé sur des équations physiques et la chaîne de Markov cachée permet d’appréhender les différents «régimes de fonctionnement» de la batterie. Pour garantir l’unicité des paramètres du modèle, nous démontrons son identifiabilité à partir de contraintes simples et naturelles sur ses paramètres «physiques ». L’estimation du SoC dans un véhicule électrique doit être faîte en ligne et avec une puissance de calcul limitée. Nous estimons donc le SoC en utilisant une technique d’échantillonnage préférentiel séquentiel. D’autre part l’estimation des paramètres est faîte à partir d’une base d’apprentissage pour laquelle les états de la chaîne de Markov et le SoC ne sont pas observés. Nous développons et testons trois algorithmes adaptés à notre modèle à structure latente : un échantillonneur particulaire de Gibbs, un algorithme de Monte-Carlo EM pénalisé par des contraintes d’identifiabilité et un algorithme de Monte-Carlo EM pénalisé par une loi a priori. Par ailleurs les états cachés de la chaîne de Markov visent à modéliser les différents régimes du fonctionnement de la batterie. Nous identifions leur nombre par divers critères de sélection de modèles. Enfin, à partir de données issues de trois types de batteries (cellule, module et pack d’un véhicule électrique), notre modèle a permis d’appréhender les différentes sollicitations de la batterie et donne des estimations robustes et précises du SoC.
Published: 2015

197. Prévision séquentielle par agrégation d'ensemble : application à des prévisions météorologiques assorties d'incertitudes

Author: Baudin, Paul, Coupling environmental data and simulation models for software integration (Clime), Inria Paris-Rocquencourt, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Paris 11, Gilles Stoltz, and Vivien Mallet
Subjects: machine learning, Sequential prediction, apprentissage statistique, meteorology, météorologie, Prévision séquentielle, [INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation
Abstract: In this thesis, we are interested in sequential prediction problems. As a previsionist, we seek to predict, day after day, a physical variable, for instance the pressure at a given location. Several elementary predictors, from different simulations are made available to resolve this prediction problem. Nowadays indeed, previsionnists always devise several physical and thermodynamical models useful in various contexts. Rather than selecting one of these simulations, we seek to weigh them with coefficients. Each weight may be linked to the past performance of the simulation, in a more or less intuitive fashion.To devise this weights, we rely on the formalization and the theoretical results given by the individual sequences , a branch of machine learning. This domain indeed offers algorithms, that is automatic strategies, drawing experience from the past. The automatization is a valuable asset since it implies little to no maintenance cost as soon as the algorithm is integrated in the programs. Furthermore, these algorithms are given with strong theoretical guarantees, valid in a wide range of situation. The analysis of these algorithms implies that, even in the worst case scenario, the quantitativ performances of prediction are only slightly deteriorated.Firstly, we explore a theoretical part of the problem : we study online prediction of bounded stationary ergodic processes. Taking examples from the regression trees, we develop an auto-regressiv strategy, only using the past observations. Then we show that these strategies are asymptotically optimal in a stochastic setting and we then draw links with existing methods.Secondly, we expose sequential aggregation methods of meteorolog ical simulation of mean sea level pressure and of wind speed 10 meter above ground. The aim is to obtain, with a ridge regression of the weights, better prediction performance than a reference prediction, namely the deterministic prediction. This goal is attained on the given dataset with performance gains at 18 % on the mean sea level pressure and of 9 % on the wind speed.In the last chapter, we present the tools used in a probabilistic prediction framework, before using two algorithms on the aforementioned datasets. First, we explain the relevancy of probabilistic prediction and expose this domain's state of the art and the second part presents popular probabilistic scores. The used algorithm are then thoroughly descibed. The most automatized results give a relative performance gain of 18 % for the pressure variable and of 13 % for the wind speed variable.; Dans cette thèse, nous nous intéressons à des problèmes de prévision tour après tour. Nous endossons le rôle d'un prévisionniste et cherchons à prévoir une grandeur physique, par exemple la pression, toutes les vingt-quatre heures en un point donné. À cette fin, nous disposons d'un grand nombre de prévisions distinctes de cette grandeur, issues de simulations concurrentes. De nos jours, en effet, les prévisio nnistes ont systématiquement à leur dispositions plusieurs modèles physiques et thermodynamiques aux performances et aux mérites différents. Plutôt que de sélectionner une seule de ces simulations, nous cherchons à les pondérer, c'est-à-dire à assigner un coefficient à chacune d'entre elles. Selon les cas, ce coefficient peut être lié ou non de manière intuitive aux performances de la simulation dans le passé.Pour réaliser une telle pondération, nous nous appuyons sur la formalisation et les résultats théoriques offerts par le cadre de suite individuelle, une branche de l'apprentissage statistique. Ce domaine propose en effet des algorithmes, c'est-à-dire des stratégies automatiques, qui tirent de l'expérience du passé afin de prévoir l'avenir, et s'appuient éventuellement sur plusieurs prédicteurs élémentaires. L'automatisation de ces stratégies les rend séduisantes en pratique puisque, une fois intégrées dans les codes de prévision, il n'est plus besoin de les paramétrer manuellement. Mieux encore, ces algorithmes bénéficient souvent de garanties théoriques valables dans un cadre très général et sont, à ce titre, qualifiées de robustes. L'analyse théorique de ces algorithmes assure que, même dans le pire des cas, les performances quantitatives de la prévision ne sont que peu détériorées.Dans un premier temps, nous explorons un volet théorique du problème : nous y étudions la prévision séquentielle de processus bornés stationnaires ergodiques. Inspiré par les arbres aléatoires, nous y développons une stratégie de prévision auto-régressive, qui utilise uniquement les observations passées. Puis nous montrons que les stratégies envisagées sont asymptotiquement optimales dans un cadre stochastique plus classique et faisons ainsi le lien avec des méthodes existantes.Dans un second temps, nous présentons les algorithmes d'agrégation séquentielle des simulations météorologiques de pression réduite au niveau de la mer d'une part et de no rme de la vitesse du vent à dix mètres au-dessus du sol d'autre part. L'objectif est d'obtenir, grâce à l'algorithme ridge de régression régularisée sur les poids, de meilleures performances en prévision que la prévision de référence dite déterministe. Objectif atteint sur le jeu de données : les gains de performance sont de 18 % pour la pression et de 9 % pour la vitesse du vent.Dans le dernier chapitre, nous présentons les enjeux et les outils de la prévision probabiliste avant de mettre en pratique deux algorithmes sur les jeux de données précédents. La première partie motive l'utilisation de prévisions probabilistes et expose l'état de l'art dans ce domaine et la seconde partie présente des scores probabilistes historiques et populaires. Les algorithmes utilisés sont ensuite décrits dans la troisième partie. Les résultats pratiques les plus automatisés possibles se traduisent par un gain de performance de 18 % pour la pression et de 13 % pour la vitesse du vent.
Published: 2015

198. Estimation non-paramétrique du quantile conditionnel et apprentissage semi-paramétrique : Applications en assurance et actuariat

Author: knefati, Muhammad Anas, Université de Poitiers - Faculté de Sciences fondamentales et appliquées, Université de Poitiers, and Farid Beninel
Subjects: supervised classification, Apprentissage statistique, Nonparametric estimation of conditional quantile, Régression non-paramétrique, Statistical learning, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Classification supervisée, Machine learning, semi parametric single index models, Paramètre de lissage, Modèles à score unique, Mean Regression, Quantile, Estimation non-paramétrique du quantile conditionnel, Smoothing parameter
Abstract: The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter.Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernelsw.r.t.x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used. The "supervised learning" part is, too, with 3 chapters. Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data.; La thèse se compose de deux parties : une partie consacrée à l'estimation des quantiles conditionnels et une autre à l'apprentissage supervisé. La partie "Estimation des quantiles conditionnels" est organisée en 3 chapitres : Le chapitre 1 est consacré à une introduction sur la régression linéaire locale, présentant les méthodes les plus utilisées, pour estimer le paramètre de lissage. Le chapitre 2 traite des méthodes existantes d’estimation nonparamétriques du quantile conditionnel ; Ces méthodes sont comparées, au moyen d’expériences numériques sur des données simulées et des données réelles. Le chapitre 3 est consacré à un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymétrique en x. Sous certaines hypothèses, notre estimateur s'avère plus performant que les estimateurs usuels. La partie "Apprentissage supervisé" est, elle aussi, composée de 3 chapitres : Le chapitre 4 est une introduction à l’apprentissage statistique et les notions de base utilisées, dans cette partie. Le chapitre 5 est une revue des méthodes conventionnelles de classification supervisée. Le chapitre 6 est consacré au transfert d'un modèle d'apprentissage semi-paramétrique. La performance de cette méthode est montrée par des expériences numériques sur des données morphométriques et des données de credit-scoring.
Published: 2015

199. Learning multimodal behavioral models for interactive conversational agents

Author: Mihoub, Alaeddine, Grenoble Images Parole Signal Automatique ( GIPSA-lab ), Université Pierre Mendès France - Grenoble 2 ( UPMF ) -Université Stendhal - Grenoble 3-Université Joseph Fourier - Grenoble 1 ( UJF ) -Institut Polytechnique de Grenoble - Grenoble Institute of Technology-Centre National de la Recherche Scientifique ( CNRS ) -Université Grenoble Alpes ( UGA ), Laboratoire d'InfoRmatique en Image et Systèmes d'information ( LIRIS ), Université Lumière - Lyon 2 ( UL2 ) -École Centrale de Lyon ( ECL ), Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 ( UCBL ), Université de Lyon-Centre National de la Recherche Scientifique ( CNRS ) -Institut National des Sciences Appliquées de Lyon ( INSA Lyon ), Université de Lyon-Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ), Université Grenoble Alpes, Gérard Bailly, Christian Wolf, STAR, ABES, Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-École Centrale de Lyon (ECL), and Université de Lyon-Université Lumière - Lyon 2 (UL2)
Subjects: [ INFO.INFO-TS ] Computer Science [cs]/Signal and Image Processing, DBN, Apprentissage statistique, [INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing, Arbres de décision, Decision trees, SVM, HSMM, Traitement des signaux sociaux, [ SPI.SIGNAL ] Engineering Sciences [physics]/Signal and Image processing, Reconnaissance de l’unité interactionnelle, Interaction face à face, [INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing, Machine learning, Génération de gestes, HMM, [SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing, Probabilistic graphical models, Gaze generation, Classifiers, Modèles séquentiels incrémentaux, Histogramme de coordination, Incremental sequential models, Génération de regard, Face-to-face interaction, Modèles sensori-moteurs de comportement multimodal, Sensorimotor models of multimodal behavior, Modèles probabilistes graphiques, Classifieurs, Social signal processing, Recognition of the interaction unit, Gesture generation, [SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing, Coordination histogram
Abstract: Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events., L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux.
Published: 2015

200. Evaluating Computational Models of Vision with Functional Magnetic Resonance Imaging

Author: Eickenberg, Michael, Modelling brain structure, function and variability based on high-field MRI data (PARIETAL), Service NEUROSPIN (NEUROSPIN), Université Paris-Saclay-Direction de Recherche Fondamentale (CEA) (DRF (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Direction de Recherche Fondamentale (CEA) (DRF (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Paris Sud - Paris XI, and Bertrand Thirion
Subjects: Signal processing, Artificial neural networks, Apprentissage statistique, Statistical learning/machine learning, Neurosciences, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], Traitement d'image, Réseaux de neurones convolutifs, IRM fonctionnelle, Traitement du signal, Vision (biologique), Convex optimization, Imagérie médicale, Optimisation convexe, Image processing, Vision par ordinateur, Réseaux de neurones artificiels, (biological) vision, Computer vision, Medical imaging, Functional MRI, Neuroscience, Convolutional networks
Abstract: Blood-oxygen-level dependent (BOLD) functional magnetic resonance imaging (fMRI) makes it possible to measure brain activity through blood flow to areas with metabolically active neurons. In this thesis we use these measurements to evaluate the capacity of biologically inspired models of vision coming from computer vision to represent image content in a similar way as the human brain. The main vision models used are convolutional networks.Deep neural networks have made unprecedented progress in many fields in recent years. Even strongholds of biological systems such as scene analysis and object detection have been addressed with enormous success. A body of prior work has been able to establish firm links between the first and last layers of deep convolutional nets and brain regions: The first layer and V1 essentially perform edge detection and the last layer as well as inferotemporal cortex permit a linear read-out of object category. In this work we have generalized this correspondence to all intermediate layers of a convolutional net. We found that each layer of a convnet maps to a stage of processing along the ventral stream, following the hierarchy of biological processing: Along the ventral stream we observe a stage-by-stage increase in complexity. Between edge detection and object detection, for the first time we are given a toolbox to study the intermediate processing steps.A preliminary result to this was obtained by studying the response of the visual areas to presentation of visual textures and analysing it using convolutional scattering networks.The other global aspect of this thesis is “decoding” models: In the preceding part, we predicted brain activity from the stimulus presented (this is called “encoding”). Predicting a stimulus from brain activity is the inverse inference mechanism and can be used as an omnibus test for presence of this information in brain signal. Most often generalized linear models such as linear or logistic regression or SVMs are used for this task, giving access to a coefficient vector the same size as a brain sample, which can thus be visualized as a brain map. However, interpretation of these maps is difficult, because the underlying linear system is either ill-defined and ill-conditioned or non-adequately regularized, resulting in non-informative maps. Supposing a sparse and spatially contiguous organization of coefficient maps, we build on the convex penalty consisting of the sum of total variation (TV) seminorm and L1 norm (“TV+L1”) to develop a penalty grouping an activation term with a spatial derivative. This penalty sets most coefficients to zero but permits free smooth variations in active zones, as opposed to TV+L1 which creates flat active zones. This method improves interpretability of brain maps obtained through cross-validation to determine the best hyperparameter.In the context of encoding and decoding models, we also work on improving data preprocessing in order to obtain the best performance. We study the impulse response of the BOLD signal: the hemodynamic response function. To generate activation maps, instead of using a classical linear model with fixed canonical response function, we use a bilinear model with spatially variable hemodynamic response (but fixed across events). We propose an efficient optimization algorithm and show a gain in predictive capacity for encoding and decoding models on different datasets.; L'imagerie par résonance magnétique fonctionnelle (IRMf) permet de mesurer l'activité cérébrale à travers le flux sanguin apporté aux neurones. Dans cette thèse nous évaluons la capacité de modèles biologiquement plausibles et issus de la vision par ordinateur à représenter le contenu d'une image de façon similaire au cerveau. Les principaux modèles de vision évalués sont les réseaux convolutionnels.Les réseaux de neurones profonds ont connu un progrès bouleversant pendant les dernières années dans divers domaines. Des travaux antérieurs ont identifié des similarités entre le traitement de l'information visuelle à la première et dernière couche entre un réseau de neurones et le cerveau. Nous avons généralisé ces similarités en identifiant des régions cérébrales correspondante à chaque étape du réseau de neurones. Le résultat consiste en une progression des niveaux de complexité représentés dans le cerveau qui correspondent à l'architecture connue des aires visuelles: Plus la couche convolutionnelle est profonde, plus abstraits sont ses calculs et plus haut niveau sera la fonction cérébrale qu'elle sait modéliser au mieux. Entre la détection de contours en V1 et la spécificité à l'objet en cortex inférotemporal, fonctions assez bien comprises, nous montrons pour la première fois que les réseaux de neurones convolutionnels de détection d'objet fournissent un outil pour l'étude de toutes les étapes intermédiaires du traitement visuel effectué par le cerveau.Un résultat préliminaire à celui-ci est aussi inclus dans le manuscrit: L'étude de la réponse cérébrale aux textures visuelles et sa modélisation avec les réseaux convolutionnels de scattering.L'autre aspect global de cette thèse sont modèles de “décodage”: Dans la partie précédente, nous prédisions l'activité cérébrale à partir d'un stimulus (modèles dits d’”encodage”). La prédiction du stimulus à partir de l'activité cérébrale est le méchanisme d'inférence inverse et peut servir comme preuve que cette information est présente dans le signal. Le plus souvent, des modèles linéaires généralisés tels que la régression linéaire ou logistique ou les SVM sont utilisés, donnant ainsi accès à une interprétation des coefficients du modèle en tant que carte cérébrale. Leur interprétation visuelle est cependant difficile car le problème linéaire sous-jacent est soit mal posé et mal conditionné ou bien non adéquatement régularisé, résultant en des cartes non-informatives. En supposant une organisation contigüe en espace et parcimonieuse, nous nous appuyons sur la pénalité convexe d'une somme de variation totale et la norme L1 (TV+L1) pour développer une pénalité regroupant un terme d'activation et un terme de dérivée spatiale. Cette pénalité a la propriété de mettre à zéro la plupart des coefficients tout en permettant une variation libre des coefficients dans une zone d'activation, contrairement à TV+L1 qui impose des zones d’activation plates. Cette méthode améliore l'interprétabilité des cartes obtenues dans un schéma de validation croisée basé sur la précision du modèle prédictif.Dans le contexte des modèles d’encodage et décodage nous tâchons à améliorer les prétraitements des données. Nous étudions le comportement du signal IRMf par rapport à la stimulation ponctuelle : la réponse impulsionnelle hémodynamique. Pour générer des cartes d'activation, au lieu d’un modèle linéaire classique qui impose une réponse impulsionnelle canonique fixe, nous utilisons un modèle bilinéaire à réponse hémodynamique variable spatialement mais fixe à travers les événements de stimulation. Nous proposons un algorithme efficace pour l'estimation et montrons un gain en capacité prédictive sur les analyses menées, en encodage et décodage.
Published: 2015

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Language

Publication Type

Journal

Database

Publisher

360 results on '"apprentissage statistique"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources