1. Imputación basada en la distribución Normal multivariada de datos faltantes de mediciones de partículas finas suspendidas en el aire
- Author
-
Arroyave López, Esteban, Villarreal Monsalve, Alejandro, Olaya Ochoa, Javier, Arroyave López, Esteban, Villarreal Monsalve, Alejandro, and Olaya Ochoa, Javier
- Abstract
We propose and evaluate two imputation methods for missing data of fine particulate matter on air. We assume a 24-variate normal distribution, one per weekday. From this distribution properties, the imputation methods are based on the conditional distributions for missing hours, starting from hours with available records. We estimate the weekday variance-covariance matrix using two methods: maximum likelihood (denoted by ∑), and shrinkage (denoted ∑*). Afterwards, we verify the missing completely at random (MCAR) assumption using the Little’s test, and also de multivariate normality using the Mardia´s test. Finally, we evaluate the proposed methods through a simulation trial, generating suitable scenarios for this kind of problems. We use two evaluation criteria: the coefficient of determination (R2) and the square root of the mean square error (RMSE). We use a 2018 data set from Cali, Colombia, to illustrate how to use the proposed methods. We reach R2 values of around 0.70 and 0.49, and RMSE values of around 5.7 and 8.5, for the methods based on ∑ and ∑*, respectively., Propomos e avaliamos dois métodos de imputação de dados perdidos de partículas finas no ar. Assumimos uma distribuição normal de 24 variáveis, uma por dia da semana. A partir dessas propriedades de distribuição, os métodos de imputação baseiam-se nas distribuições condicionais de horas faltantes, a partir das horas com registros disponíveis. Estimamos a matriz de variância-covariância dos dias da semana usando dois métodos: máxima verossimilhança (denotada por ∑) e redução (denotada por ∑ *). Posteriormente, verificamos a suposição de falta completamente ao acaso (MCAR) usando o teste de Little e também a normalidade multivariada usando o teste de Mardia. Por fim, avaliamos os métodos propostos por meio de um ensaio de simulação, gerando cenários adequados para este tipo de problemas. Usamos dois critérios de avaliação: o coeficiente de determinação (R2) e a raiz quadrada do erro quadrático médio (RMSE). Usamos um conjunto de dados de 2018 de Cali, Colômbia, para ilustrar como usar os métodos propostos. Atingimos valores de R2 em torno de 0,70 e 0,49, e valores de RMSE em torno de 5,7 e 8,5, para os métodos baseados em ∑ e ∑ *, respectivamente., Se proponen y evalúan dos métodos de imputación para datos faltantes de partículas finas suspendidas en el aire, asumiendo que cada día de la semana se puede modelar mediante una distribución normal 24-variada. A partir de las propiedades de esta distribución, se conduce la imputación estimando las distribuciones condicionales para las horas faltantes a partir de las horas con información disponible. Para cada día se estima la matriz de varianzas y covarianzas por dos métodos: por máxima verosimilitud (denotada ∑) y por shrinkage (denotada ∑*). Luego, se prueba el supuesto de pérdida completamente al azar (MCAR) mediante el test de Little y se prueba el supuesto de normalidad multivariada con el test de Mardia. Finalmente, se evalúan los métodos propuestos vía simulación, generando escenarios posibles para este tipo de problemas, junto con dos criterios: coeficiente de determinación (R2) y raíz cuadrada del error cuadrático medio (RMSE). Los métodos propuestos se ilustran con datos de mediciones de Cali, Colombia, de 2018. Se alcanzan valores alrededor de 0.70 y 0.49 para el R2 y de 5.7 y 8.5 para el RMSE, para los métodos basados en ∑ y ∑*, respectivamente.
- Published
- 2023