1. Development of Bayesian variable selection methods to integrate expert information
- Author
-
Boulet, Sandrine, Centre de Recherche des Cordeliers (CRC (UMR_S_1138 / U1138)), École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Paris Diderot - Paris 7 (UPD7)-Université Paris Descartes - Paris 5 (UPD5)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU), Université Paris Cité, Sarah Zohar, Anne-Sophie Jannot, and STAR, ABES
- Subjects
[SDV.MHEP] Life Sciences [q-bio]/Human health and pathology ,Distribution a priori ,Clinical relevance weights elicitation ,Stochastic Search Variable Selection ,Bayesian variable selection methods ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,Electronic health records ,Prior distribution ,Repeated measures ,Dossiers de santé informatisés ,[MATH.MATH-ST] Mathematics [math]/Statistics [math.ST] ,Méthodes bayésiennes de sélection de variables ,Mesures répétées ,[SDV.MHEP]Life Sciences [q-bio]/Human health and pathology ,Élicitation de poids de pertinence clinique - Abstract
Context: Build decision support tools for clinicians first requires to select the relevant variables to model the clinical decision. For this, two sources of information can be used: the observed data collected in electronic health records, and the expertise of physicians. Few methods can combine these two types of information. The originality of my thesis is to propose strategies to take into account these two sources of data. Our use case focuses on modeling the medical decision to modify Irinotecan doses based on patient characteristics and adverse effects in the treatment of metastatic colorectal cancer. Methods: The methods developed are based on Bayesian variable selection methods in which the expertise is integrated in the form of weights associated with each variable and elicited by the experts. The first model is an adaptation of a Bayesian variable selection method, the Stochastic Search Variable Selection (SSVS) method, for which expert information is introduced into the prior distribution of the variable selection indicator. The model was called Weights-Based SSVS (WBS). The second model is based on the power prior method (PP) and allows combining simulated data from expert parameters and observations. Variable selection is also provided by an SSVS model. We performed simulations to analyze the performances of the first model compared to the LASSO and SSVS models' ones. For the use case, the care data of the patients who received a protocol including Irinotecan at a theoretical dose of 180 mg/m2 over a cycle of a theoretical duration of 14 days were extracted from the electronic health record of the Georges Pompidou European Hospital in Paris. To take into account the clinical expertise, we built a questionnaire in collaboration with the oncologists in which they quantify the importance of each patient characteristic and each grade of each toxicity type on dose reduction through weights taking their values between 0 and 100. Results: The WBS model performs better than models based only on observed data. However, these performances depend on the weights elicited by the clinicians as well as their sum, which must therefore be carefully calibrated according to the number of variables that one wishes to select. The model based on the PP gives similar performances to the SSVS model including only patient data actually observed. However, it does not select the same variables and allows to exclude negligible variables from the expert point of view while revealing those which, important but rare in the data, could be omitted. Regarding the use case, the weights elicited by the experts are very variable and our approaches select clinically relevant variables. Conclusion: This thesis introduces two Bayesian methods of variable selection combining elicited expert information and observed data. The first method improves predictive performance on small samples. The second method allows us to manage larger samples, and automatically select both important variables for experts and variables used in real life. The differences in the choice of weights elicited by oncologists show a certain variability of professional practices. The modeling of medical decision-making is a first step in modeling the complex relationship that links patient characteristics, chemotherapy doses, toxicities, and survival., Contexte : La construction d’outils d’aide à la décision à destination des cliniciens nécessite de sélectionner, au préalable, les variables pertinentes pour modéliser la décision clinique. Pour cela, deux sources d’information peuvent être utilisées : les données observées recueillies dans les dossiers informatisés des patients, et l'expertise des médecins. Peu de méthodes permettent de combiner ces deux types d’information. L'originalité de ma thèse est donc de proposer des stratégies pour prendre en compte ces deux sources de données. Notre application porte sur la modélisation de la décision médicale de modification des doses d’Irinotecan en fonction des caractéristiques des patients et des effets indésirables dans le traitement du cancer colorectal métastatique. Méthodes : Les méthodes développées reposent sur des méthodes de sélection de variables bayésiennes dans lesquelles l’expertise est intégrée sous forme de poids associées à chaque variable et élicités par les experts. Le premier modèle est une adaptation d'une méthode de sélection de variables bayésienne, la méthode de Stochastic Search Variable Selection (SSVS), pour laquelle l'information experte est introduite dans la distribution a priori de l’indicatrice de sélection de variable. Le modèle a été appelé Weights-Based SSVS (WBS). Le deuxième modèle est fondé sur la méthode du power prior (PP) et permet de combiner des données simulées à partir des paramètres experts et les observations. La sélection de variables est elle aussi assurée par un modèle SSVS. Nous avons réalisé des simulations afin d’analyser les performances du premier modèle par rapport à celles des modèles LASSO et SSVS. Pour le cas d’usage, les données de soin des patients ayant reçu un protocole incluant de l’Irinotecan à une dose théorique de 180 mg/m2 sur un cycle d’une durée théorique de 14 jours ont été extraites des dossiers patients informatisés de l’Hôpital Européen Georges Pompidou à Paris. Pour prendre en compte l'expertise clinique, nous avons construit un questionnaire en collaboration avec les oncologues dans lequel ils quantifient l'importance de chaque caractéristique des patients et de chaque grade de chaque type de toxicités sur la réduction de dose par l’intermédiaire de poids élicités prenant leurs valeurs entre 0 et 100. Résultats : Le modèle WBS présente de meilleures performances que les modèles uniquement basés sur les données observées. Cependant, ces performances dépendent des poids élicités par les cliniciens ainsi que de leur somme, qui doit donc être minutieusement calibrée en fonction du nombre de variables que l’on souhaite sélectionner. Le modèle basé sur le PP donne lui des performances similaires au modèle SSVS n’incluant que des données patient réellement observées. Toutefois, il ne sélectionne pas les mêmes variables et permet d’écarter des variables négligeables du point de vue expert tout en révélant celles qui, importantes mais peu fluctuantes dans les données, pourraient être omises. Concernant le cas d’usage, les poids élicités par les experts sont très variables et nos approches sélectionnent des variables pertinentes sur le plan clinique. Conclusion : Cette thèse introduit deux méthodes Bayésiennes de sélection de variables combinant information experte élicitée et données observées. La première méthode permet d'améliorer les performances prédictives sur des petits échantillons. La deuxième méthode permet de gérer des échantillons de plus grande taille, et de sélectionner automatiquement à la fois les variables importantes pour les experts et les variables utilisées en vie réelle. Les différences dans le choix des poids élicités par les oncologues montrent une certaine variabilité des pratiques professionnelles. La modélisation de la prise de décision médicale constitue une première étape dans la modélisation de la relation complexe qui lie caractéristiques du patients, doses de chimiothérapie, toxicités et survie.
- Published
- 2019