1. Méthodes linéaires de Réduction de Dimension
- Author
-
Franc, Alain, Biodiversité, Gènes & Communautés (BioGeCo), Université de Bordeaux (UB)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), from patterns to models in computational biodiversity and biotechnology (PLEIADE), Laboratoire Bordelais de Recherche en Informatique (LaBRI), Université de Bordeaux (UB)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Centre National de la Recherche Scientifique (CNRS)-Université de Bordeaux (UB)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Centre National de la Recherche Scientifique (CNRS)-Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Biodiversité, Gènes & Communautés (BioGeCo), Université de Bordeaux (UB)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Inria Bordeaux Sud-Ouest, PlaFRIM, ADT Gordon, and ADT Diodon
- Subjects
Apprentissage statistique ,Principal Components Analysis ,Analyse canonique ,Réduction de dimension ,Correspondence Analysis ,Analyse Factorielle des Correspondances ,Dimensionality reduction ,Analyse avec variables instrumentales ,Multivariate Data Analysis ,Statistical Learning ,Analysis with Instrumental Variables ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,Analyse de données multivariées ,Canonical Analysis ,Analyse en Composantes Principales ,[MATH.MATH-NA]Mathematics [math]/Numerical Analysis [math.NA] - Abstract
These notes are an overview of some classical linear methods in Multivariate Data Analysis. This is a good old domain, well established since the 60's, and refreshed timely as a key step in statistical learning. It can be presented as part of statistical learning, or as dimensionality reduction with a geometric flavor. Both approaches are tightly linked: it is easier to learn patterns from data in low dimensional spaces than in high-dimensional spaces. It is shown how a diversity of methods and tools boil down to a single core methods, PCA with SVD, such that the efforts to optimize codes for analyzing massive data sets like distributed memory and task-based programming or to improve the efficiency of the algorithms like Randomised SVD can focus on this shared core method, and benefit to all methods.; Ce document brosse un panorama des méthodes linéaires de l'Analyse de données multivariées. Il s'agit d'un domaine ancien et classique, bien établi depuis les années 60, et redevenu d'actualité en tant qu'étape clé dans l'apprentissage statistique. On peut considérer ces méthodes comme faisant partie d'une approche algébrique de l'apprentissage statistique ou bien comme une réduction de dimension avec une tonalité plus géométrique. Ces deux approches sont étroitement liées : il est plus facile d'apprendre des patterns des données dans des espaces à faible dimension que dans des espaces à grande dimension. Nous montrons comment une apparente diversité de méthodes et outils se réduit en fait pour un tableau à une seule méthode : l'Analyse en Composantes Principales, avec la SVD (Singular Value Decomposition), de telle sorte que les efforts d'optimisation des codes pour l'analyse de jeux de données massives pourraient eut se focaliser sur cette méthode centrale partagée, au bénéfice de toutes les méthodes. Une extension à l'étude de plusieurs tableaux est présentée (Analyse canonique).
- Published
- 2023