1. Study of dimension reduction techniques based on Principal Components: Non-linear Principal Components Analysis
- Author
-
Giraldo Otálvaro, Juan David, Esteban Duarte, Nubia, and Martínez Aragón, Aymara
- Subjects
Principal Components Analyisis ,Optimal Scaling ,Análisis de Homogeneidad ,Análisis multivariable ,Multivariate analysis ,Homogeinity Analysis ,Escalamiento Óptimo ,Componentes Principales no Lineales ,Nonlinear Principal Components ,Componentes Principales ,Mínimos Cuadrados Alternantes ,519 - Probabilidades y matemáticas aplicadas [510 - Matemáticas] ,Alternating Least Squares - Abstract
figuras, tablas En la estadística multivariada un gran desafío en el manejo correcto de grandes cantidades de datos es el análisis de variables de carácter cuantitativo y cualitativo al mismo tiempo, es decir, análisis de datos mixtos. En lo relacionado al tratamiento de datos solamente cuantitativos existen varias técnicas que ayudan en la reducción de la dimensión, en donde el Análisis de Componentes Principales (PCA) es la metodología de mayor relevancia. Para el análisis de datos mixtos, la técnica de Análisis de Componentes Principales proporciona una base fundamental para otras técnicas multivariadas como lo es el Análisis de Componentes Principales No Lineales (NLPCA), la cual no está muy bien documentada y tal vez aplicada sin la rigurosidad que la teoría requiere. Por otro lado, su uso no ha sido extendido a la metodología de las cartas de control como herramienta que apoya la gestión de calidad desde un punto de vista analítico. Por lo anterior, en este trabajo se describe de forma teórica la metodología de Análisis de Componentes Principales y se formaliza una técnica que permita el procesamiento de datos mixtos con el fin de facilitar la reducción de dimensión bajo el marco del PCA seleccionando la técnica de Análisis de Componentes Principales No Lineales (NLPCA), la cual incluye en su procesamiento la cuantificación óptima de datos cualitativos de manera no lineal con el fin de encontrar las mejores relaciones entre las variables. Se propone adaptar las cartas de control desarrolladas para variables múltiples y componentes obtenidas a partir del PCA, a las técnicas NLPCA obteniendo herramientas novedosas de gran interés para la interpretación de datos. Las metodologías descritas son aplicadas a un conjunto de datos reales pertenecientes al Proyecto “Corazones de Baependi” (Processo Fapesp 2007/58150-7) del Laboratorio de Genética y Cardiología Molecular (Incor/USP). (Texto tomado de la fuente) In multivariate statistics, a great challenge in the correct handling of large amounts of data is the analysis of variables of a quantitative and qualitative nature at the same time, that is, analysis of mixed data. Regarding the treatment of only quantitative data, there are several techniques that help in dimensional reduction, where the Principal Component Analysis (PCA) is the most relevant methodology. For the analysis of mixed data, the Principal Component Analysis technique provides a fundamental basis for other multivariate techniques such as Nonlinear Principal Component Analysis (NLPCA), which is not very well documented and perhaps applied without rigor. that the theory requires. On the other hand, its use has not been extended to the control chart methodology as a tool that supports quality management from an analytical point of view. Due to the above, in this work the Principal Component Analysis methodology is described theoretically and a technique is formalized that allows the processing of mixed data in order to facilitate the reduction of dimensions under the framework of the PCA by selecting the technique Non-linear Principal Components Analysis (NLPCA), which includes in its processing the optimal quantification of qualitative data in a non-linear way in order to find the best relationships between the variables. It is proposed to adapt the control charts developed for multiple variables and components obtained from the PCA, to the NLPCA techniques, obtaining novel tools of great interest for data interpretation. The methodologies described are applied to a set of real data belonging to the Project "Hearts of Baependi ”(Processo Fapesp 2007 / 58150-7) of the Molecular Genetics and Cardiology Laboratory (Incor / USP). Maestría Magíster en Ciencias - Matemática Aplicada
- Published
- 2021