Back to Search Start Over

Traitement des données manquantes pour l’estimation de prévalences

Authors :
N. Soullier
Alice Guéguen
G. Santin
Source :
Archives des Maladies Professionnelles et de l'Environnement. 77:1023-1024
Publication Year :
2016
Publisher :
Elsevier BV, 2016.

Abstract

Contexte En sante comme dans d’autres domaines, les taux de reponse aux enquetes diminuent de plus en plus. La non-reponse est souvent problematique car elle peut entrainer des biais ; elle a egalement des consequences deleteres sur la variance des estimateurs. L’etude des biais de non-reponse n’est pas nouvelle en epidemiologie : plusieurs etudes ont deja montre que la participation a une enquete epidemiologique est liee a l’âge, a la categorie sociale, a l’etat de sante de la personne et aux comportements a risque pour la sante tels que la consommation d’alcool et de tabac. Nous nous placons ici dans le cadre d’enquetes de sante publique ou de surveillance epidemiologique ayant pour objectif de produire des estimations de prevalence extrapolables a une population d’interet. On distingue la non-reponse totale qui survient lorsque la personne enquetee ne repond a aucune question de l’enquete a de la non-reponse partielle, appelee plus communement donnee manquante, qui est rencontree si la personne enquetee repond a certaines questions de l’enquete, mais pas a toutes. Le biais de non-reponse depend de la variable d’interet, puisqu’il est fonction du produit de l’inverse de la probabilite de reponse moyenne et de la covariance entre la probabilite de reponse et la variable d’interet. Autrement dit, il y aura absence de biais si la probabilite de reponse est egale a 1 (tout le monde repond), ou si la covariance entre la probabilite de reponse et la variable d’interet est nulle. Les non-reponses peuvent etre classees selon trois types : non-reponse completement aleatoire (Missing Completely At Random ou MCAR), non-reponse aleatoire (Missing At Random ou MAR), non-reponse non aleatoire (Missing Not At Random ou MNAR). Dans le cas MCAR, il y a independance entre la probabilite de reponse et la variable d’interet. La prevalence estimee de la variable d’interet est sans biais. Dans le cas MAR, il y a independance entre la probabilite de reponse et la variable d’interet conditionnellement a d’autres variables notees X. Autrement dit, la probabilite de reponse et la variable d’interet partagent des causes communes X. Apres prise en compte de ces causes communes par des methodes appropriees, la prevalence estimee de la variable d’interet est sans biais. Quelle que soit la technique utilisee, la correction est possible a condition que l’ensemble des causes communes X soient disponibles pour l’ensemble des repondants et des non-repondants. Dans le cas MNAR, il n’y a pas independance entre la probabilite de reponse et la variable d’interet. Elle peut resulter soit d’un lien direct entre la variable d’interet et la probabilite de reponse, soit lorsqu’il n’a pas ete possible de prendre en compte l’ensemble des causes communes X. Dans ce cas, la prevalence estimee de la variable d’interet ne peut etre sans biais. Les methodes qui permettent de prendre en compte les causes communes X dans le cas MAR seront presentees : la reponderation (preferentiellement utilisee pour traiter la non-reponse totale) et l’imputation (preferentiellement utilisee pour traiter les donnees manquantes). Correction de la non-reponse totale par reponderation : l’exemple de la phase pilote de la cohorte Coset-RSI La non reponse totale traitee par reponderation est presentee ici et sera illustree a partir des donnees de la phase pilote de la cohorte Coset-RSI, cohorte pour la surveillance epidemiologique en lien avec le travail aupres d’actifs relevant du regime social des independants au moment de l’inclusion. La reponderation pour correction de la non-reponse consiste a augmenter les poids de sondage des repondants afin de compenser l’absence de reponse des non-repondants. La premiere etape est d’expliquer le mecanisme de non-reponse en le modelisant a partir des informations qui sont disponibles a la fois pour les repondants et pour les non-repondants. Cela suppose d’avoir de telles informations, dites variables auxiliaires, qui, par definition, ne sont pas issues du questionnaire. Parmi les variables auxiliaires disponibles, on selectionne les variables qui expliquent la non-reponse et qui sont liees aux variables d’interet evaluees par le questionnaire. La cohorte Coset-RSI a la particularite de disposer de nombreuses variables auxiliaires. En effet, outre les donnees de la base de sondage qui sont classiquement utilisees, les donnees de l’assurance maladie (SNIIRAM) sont renseignees pour tous les individus selectionnes pour etre enquetes. Pour etre utilisees, les donnees du SNIIRAM sont synthetisees sous la forme d’indicateurs disponibles a la fois pour les repondants et les non-repondants. La non-reponse est ensuite modelisee selon ces indicateurs via une regression logistique, qui permet d’obtenir pour chaque individu une probabilite de reponse predite. La deuxieme etape est la constitution de groupes de reponse homogene. Pour les constituer, la methode des scores est utilisee : les groupes correspondent aux quantiles de la distribution des probabilites de reponse predites. Dans chaque groupe ainsi constitue, on calcule ensuite le taux de reponse observe. L’inverse de ce taux de reponse est applique a tous les repondants du groupe, en multipliant leur poids de sondage initial par ce facteur correctif. Chaque etape de la methode de reponderation sera illustree a partir des donnees de la phase pilote de la cohorte Coset-RSI. L’impact de la correction de la non-reponse sera observe sur des prevalences mesurees dans l’enquete telles que le tabagisme, l’obesite ou la symptomatologie depressive. Traitement de la non-reponse partielle par imputation : l’exemple de la cohorte Constances La non-reponse partielle traitee par imputation est presentee ici et sera illustree a partir des donnees d’inclusion de la cohorte Constances, cohorte epidemiologique « generaliste » constituee a terme d’un echantillon de 200 000 adultes âges de 18 a 69 ans a l’inclusion et affilies au regime general de la securite sociale. L’imputation consiste a remplacer les valeurs manquantes par des valeurs plausibles. Les methodes d’imputation reposent sur les memes hypotheses que les methodes de ponderation, a savoir que les donnees sont manquantes au hasard, c’est-a-dire manquantes aleatoirement conditionnellement aux donnees observees. Les methodes d’imputation sont nombreuses : on distingue les methodes deterministes des methodes probabilistes et les imputations simples des imputations multiples. Nous presenterons deux methodes d’imputation qui peuvent etre utilisees si l’objectif est d’estimer la prevalence d’une variable d’interet et que toutes les variables auxiliaires sont non manquantes. La methode « hot deck par donneur » consiste a remplacer les valeurs manquantes d’un sujet « receveur » par celle d’un sujet « donneur » ne presentant pas de donnee manquante et ayant les memes caracteristiques (e.g. les memes variables auxiliaires) que celles du sujet « receveur ». L’imputation par modele de regression consiste a remplacer la valeur manquante d’un sujet par sa prediction issue d’un modele de regression expliquant la variable d’interet par les variables auxiliaires. Les prevalences sur donnees completes et sur donnees imputees seront comparees pour la symptomatologie depressive (mesuree par le CESD) et pour le questionnaire de Siegrist.

Details

ISSN :
17758785
Volume :
77
Database :
OpenAIRE
Journal :
Archives des Maladies Professionnelles et de l'Environnement
Accession number :
edsair.doi...........4dbd529fcab8bdc1181da335a0e63042
Full Text :
https://doi.org/10.1016/j.admp.2016.10.046