Back to Search Start Over

Simulation et imputation de plusieurs variables corrélées dans un contexte de données manquantes de façon non aléatoires (MNAR)

Authors :
M. Albouy
Nicolas Venisse
Sylvie Rabouan
J. De Keizer
E. Gand
Virginie Migeot
J. Paul
Antoine Dupuis
Source :
Revue d'Épidémiologie et de Santé Publique. 69:S32-S33
Publication Year :
2021
Publisher :
Elsevier BV, 2021.

Abstract

Introduction Les dosages biologiques sont tous soumis a une limite de quantification (LOQ) des methodes analytiques utilisees. Cela amene a analyser dans les etudes des variables contenant des donnees manquantes (DM) de facon non aleatoires (MNAR). Plusieurs dosages issus des memes echantillons peuvent etre a la fois correles entre eux et faire l’objet de DM liees a une limite de quantification. L’objectif du projet est de reussir a simuler ce type de DM afin d’etudier et de comparer les differentes techniques d’imputations simple et multiple proposees dans le cas de donnees manquantes MNAR. Methodes La cohorte EDDS (« Endocrine Disrupting Deux-Sevres »), visant a comparer des methodes d’estimation de l’exposition hydrique aux perturbateurs endocriniens chez des femmes enceintes, a donne lieu a la creation d’une base de donnees contenant cinq variables correlees avec des donnees manquantes MNAR. L’etude porte sur les differentes formes de Bisphenol A chlores pouvant se retrouver dans l’eau a destination de consommation humaine sous les formes mono, bi, tri ou tetrachlorees. Les dosages des cinq molecules montrent une LOQ atteinte dans au moins 35 % des echantillons et jusqu’a 88 % de donnees non quantifiables. Les differentes formes de la molecule cohabitent dans l’eau, leurs concentrations sont liees. La simulation des donnees d’etude est realisee a partir de l’exponentielle de plusieurs lois normales dont les parametres ont ete fixes a la suite de l’observation des differentes distributions des donnees de la cohorte EDDS. Des contraintes supplementaires ont ete ajoutees necessitant la creation de set de donnees par iterations jusqu’a obtenir cinq variables correlees ayant des taux de DM differents les uns des autres. Les methodes d’imputation comparees sur les donnees simulees sont l’imputation simple par la moitie de la valeur de LOQ (HM), les imputations multiples : QRILC, MICE, BLOQ, GSimp, et kNN-TN. Ces methodes sont comparees a l’aide de l’indicateur NRMSE. Resultats Les parametres de la simulation sont la creation d’une base de donnees de 100 dosages, contenant cinq variables continues avec un taux de DM respectivement de 30 %, 45 %, 60 %, 75 % et 90 %. La correlation de Spearman souhaitee entre les differentes variables est comprise entre [0,30 ; 0,85]. Chacune des cinq variables simulees a une moyenne et un ecart type specifiques et fixes, associes a l’exponentielle d’une loi normale. Ces parametres sont choisis afin de se rapprocher le plus possible des donnees de la cohorte EDDS. Cent sets de donnees sont construits. La mediane (Quartile1- Quartile3) des iterations necessaires a leur creation est de 2028 (902-3438) pour un temps median machine de 6,5 (2,8-10,8) secondes. Les differentes methodes d’imputation citees sont appliquees sur ces donnees. Les methodes HM et GSimp montrent la plus faible difference entre les donnees simulees et celles imputees. Leurs performances evaluees par NRMSE pour ces deux methodes d’imputation sont proches. Conclusion Les techniques iteratives permettent de simuler des variables correlees les unes aux autres en presence de donnees manquantes MNAR. Les methodes HM et GSimp semblent les plus performantes pour imputer des variables contenant ce type de donnees manquantes. La prise en compte de differentes LOQ au sein d’une meme variable, de variables d’ajustement et de tailles de jeux de simulations differentes sont les perspectives de travail de cette etude.

Details

ISSN :
03987620
Volume :
69
Database :
OpenAIRE
Journal :
Revue d'Épidémiologie et de Santé Publique
Accession number :
edsair.doi...........7a7422e0c6f1158925c4afc55014910e
Full Text :
https://doi.org/10.1016/j.respe.2021.04.052