1. Clustering large dimensional data via second order statistics: applications in wireless communications
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Mestre Pons, Francesc X., Gregoratti, David, Pascual Iserte, Antonio, Pereira, Roberto Matheus Pinheiro, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Mestre Pons, Francesc X., Gregoratti, David, Pascual Iserte, Antonio, and Pereira, Roberto Matheus Pinheiro
- Abstract
Tesi amb menció de Doctorat Internacional, (English) In many modern signal processing applications, traditional machine learning and pattern recognition methods heavily rely on the having a sufficiently large amount of data samples to correctly estimate the underlying structures within complex signals. The main idea is to understand the inherent structural information and relationships embedded within the raw data, thereby enabling a wide variety of inference tasks. Nevertheless, the definition of what constitutes a sufficiently large dataset remains subjective and it is often problem-dependent. In this context, traditional learning approaches often fail to learn meaningful structures in the cases where the number of features closely matches (or even exceeds) the number of observations. These scenarios emphasize the need for tailored strategies that effectively extract meaningful structured information from these high-dimensional settings. In this thesis we address fundamental challenges posed by applying traditional machine learning techniques in large dimensional settings. Particularly, this thesis explores the comparison and clustering of symmetric positive definite matrices, such as covariance matrices, seen as objects in a Riemannian manifold. Initially, we investigate the asymptotic behavior of distances between sample covariance matrices by establishing a central limit theorem (CLT) that allows us to describe the asymptotic statistical law of these distances. We provide a general result for the class of distances that can be expressed as sums of traces of functions applied separately to each covariance matrix. This class includes conventional metrics like the Euclidean distance and Jeffreys' divergence, as well as more advanced distances found in Riemannian geometry, such as the log-Euclidean metric. Subsequently, we extend these findings to address the challenge of consistently estimating the distance between covariance matrices directly from the data. We complement this with a new statistical analys, (Español) En varias aplicaciones modernas de procesado de señales, los métodos tradicionales de aprendizaje automático y reconocimiento de patrones dependen en gran medida de la presencia de una cantidad de muestras de datos suficientemente grande para estimar correctamente las estructuras subyacentes en señales complejas. La idea principal es adquirir la información estructural inherente y las relaciones intrínsecas dentro de los datos brutos, lo que permite una amplia variedad de tareas de inferencia. Sin embargo, la definición de lo que constituye un conjunto de datos suficientemente grande sigue siendo subjetiva y a su vez depende del problema. En este contexto, los enfoques de aprendizaje tradicionales a menudo fallan al aprender estructuras significativas, especialmente en los casos en los que la dimensíon de los dados es muy similar (o incluso superior) al número de observaciones. Estos escenarios enfatizan la necesidad de diseñar nuevas estrategias que permitan extraer de forma eficaz información estructurada y significativa desde estos contextos de alta dimensionalidad. En esta tesis abordamos los desafíos fundamentales que plantean la aplicación de las técnicas tradicionales de aprendizaje automático en entornos de grandes dimensiones. En concreto, esta tesis explora la comparación y el agrupamiento de matrices simétricas definidas positivas, como las matrices de covarianza, vistas como objetos en una variedad de Riemann. Inicialmente, investigamos el comportamiento asintótico de las distancias entre matrices de covarianza muestral estableciendo un teorema central del límite que nos permite describir la distribución asintótica de estas distancias. En concreto, presentamos un resultado general para la familia de distancias que pueden expresarse como sumas de trazas de funciones aplicadas por separado a cada matriz de covarianza. Esta familia incluye métricas convencionales como la distancia euclidiana y la divergencia de Jeffreys, así como distancias más av, Postprint (published version)
- Published
- 2023