Pierrick Piette, Laboratoire de Sciences Actuarielle et Financière (SAF), Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon, Laboratoire de Probabilités, Statistique et Modélisation (LPSM (UMR_8001)), Université Paris Diderot - Paris 7 (UPD7)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Sinalys, Université Lyon 1 - Claude Bernard, Stéphane Loisel, Olivier Lopez, STAR, ABES, Laboratoire de Probabilités, Statistiques et Modélisations (LPSM (UMR_8001)), and Université de Lyon
The continuous enhancement of computer performances during the last decades has favored a widespread application of statistical learning theory in multiple domains. Actuaries, long-standing statistical experts, notably turn more and more frequently to these new algorithms for the evaluation of risks they are facing. Thus, in this thesis, we examine how the integration of methods derived from statistical learning can contribute to the development of actuarial science and risk management through the study of three independent problematics, preliminarily presented in a general introduction. The first two chapters propose new mortality forecasting models within the longevity risk evaluation framework that insurance companies and pension funds encounter. Chapter 1 focuses on the singe population case, while Chapter 2 extends the study to the multi-population. In both situations, high-dimensionality appears to be a major concern. We tackle this issue thanks to a penalized vector autoregressive (VAR). This model is directly applied to the mortality improvement rates in the first chapter, and to the time series derived from Lee-Carter’s model fits in the second one. The elastic-net penalization preserves the large freedom in the spatio-temporal dependence structure offered by the VAR, while remaining sparse in terms of estimated parameters, thereby avoiding overfitting. In Chapter 3, we analyze lapse risk in life insurance policies through the use of supervised classification algorithms. We apply, among others, support vector machine (SVM) and extreme gradient boosting (XGBoost). In order to compare performances from one classifier to another, we adopt an economic point of view derived from the marketing literature and based on potential profits of a retention campaign. We insist on the importance of the loss function retained in the statistical learning algorithms according to the pursued objective: the use of a loss function linked to the performance measure leads to a significant enhancement in the application of the XGBoost in our study. In the last Chapter, in the financial risks’ management framework, we study agricultural commodity price dynamics throughout specific trading sessions where governmental reports, that contain valuable information for the agents, are released. We examine the potential of open data, in particular the satellite data on vegetation index made available thanks to the NASA, for market reactions forecast. We then suggest some improvements to be considered before an operational implementation of this forecasting method, L’augmentation continuelle des performances informatiques des dernières décennies a permis une application répandue de la théorie de l’apprentissage statistique dans de multiples domaines. Les actuaires, experts historiques des statistiques, se tournent en particulier de plus en plus fréquemment vers ces algorithmes novateurs pour l’évaluation des risques auxquels ils sont confrontés. Ainsi, dans cette thèse, nous examinons comment l’intégration de méthodologies issues de l’apprentissage statistique peut contribuer au développement des sciences actuarielles et de la gestion des risques au travers de l’étude de trois problématiques indépendantes, présentées au préalable dans une introduction générale. Les deux premiers chapitres proposent de nouveaux modèles de projection de mortalité dans le cadre de l’évaluation du risque de longévité porté par les compagnies d’assurances ou les fonds de pensions. Le Chapitre 1 s’attarde sur le cas où une seule population est étudiée, alors que le Chapitre 2 étend l’analyse à la multi-population. Dans les deux situations, la problématique de la grande dimension apparait centrale et nous l’abordons à l’aide d’un vecteur autorégressif (VAR) pénalisé. Ce modèle est appliqué directement sur les taux d’amélioration de mortalité dans le premier chapitre, et sur les séries temporelles issues de l’estimation d’un modèle Lee-Carter pour le second. La pénalisation elastic-net permet de garder la grande liberté de structure de dépendance spatio-temporelle qu’offre le VAR tout en restant parcimonieux dans le nombre de paramètres, et donc éviter le surapprentissage. Dans le Chapitre 3 nous analysons le risque de rachat des contrats d’assurance vie par l’utilisation d’algorithmes de classification supervisée. Nous y appliquons entre autres le séparateur à vaste marge (SVM) et l’extreme gradient boosting (XGBoost). Afin de comparer les performances des différents classificateurs nous adoptons une vision économique issue de la littérature du marketing et basée sur les profits potentiels d’une campagne de rétention. Nous insistons sur l’importance de la fonction de perte retenue dans les algorithmes d’apprentissage statistique suivant l’objectif recherché : l’utilisation d’une fonction de perte en lien avec la mesure de performance amène une amélioration significative dans l’application de l’XGBoost dans notre étude. Enfin, dans le cadre de la gestion des risques financiers, nous étudions les dynamiques des prix agricoles lors de sessions de bourse particulières où des rapports gouvernementaux, contenant des informations précieuses pour les agents, sont publiés. Nous examinons le potentiel des données en libre accès, en particulier les images satellites d’indice de végétation rendues disponibles par la NASA, pour la prédiction des réactions des marchés. Nous proposons alors des pistes d’amélioration à considérer pour une mise en œuvre pratique de cette méthodologie d’enrichissement des données dans la gestion des risques