Back to Search Start Over

Data Anonymisation through Unsupervised Learning

Authors :
Zouinina, Sarah
STAR, ABES
Laboratoire d'Informatique de Paris-Nord (LIPN)
Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Nord
Université Paris-Nord - Paris XIII
Ecole nationale des sciences appliquées (Kénitra, Maroc)
Younès Bennani
Abdelouahid Lyhyaoui
Source :
Ordinateur et société [cs.CY]. Université Paris-Nord-Paris XIII; Ecole nationale des sciences appliquées (Kénitra, Maroc), 2020. Français. ⟨NNT : 2020PA131005⟩
Publication Year :
2020
Publisher :
HAL CCSD, 2020.

Abstract

Preserving the utility of anonymized data is one of the biggest limitationto the research field of Privacy Preserving Machine Learning. On theone hand, people claim a maximum level of privacy to protect their personalinformation from malicious intruders. And on the other hand, researchers,industries and governments demand a higher level of utility in order to developproducts that are interesting and suitable to the specific needs of theircustomers. The research presented in this thesis tackles the privacy-utilitytrade-off by using unsupervised learning approaches. Firstly, the Multi-viewCollaborative Self Organizing Maps as a way to cluster the data locally oneach view of the data set, but collaborate by exchanging information abouttheir findings. Secondly, the 1D Kernel Density Estimation, as a way to improvethe utility of the anonymized data while respecting the distributionof each feature in the dataset. Lasty, a supervised learning layer using theWeighted Learning Vector Quantization is added in order to enhance thelearning of the previously proposed approaches, and give more representativeprototypes to pseudo-anonymize the data. The tests were done on morethan six different datasets, and the results show an improvement in the accuracyof the models compared to the state of the art MDAV algorithm. Theresearch presented give some interesting ways of using machine learning toachieve privacy preservation through multiview microaggregation<br />Depuis la mise en vigueur du Règlement Général sur la Protection des Données (RGPD), l’intérêt pour la protection et la sécurité des données a évolué. D’une part, les nombreux accidents de fuite de données. D’une autre part, l’évolution exponentielle des utilisateurs des appareils connectés dans le monde entier, ont fait de l’anonymisation des données une nécessité pour la sécurité des individus y figurant. Depuis les années 2000,plusieurs techniques d’anonymisation des données ont été proposées, certaines relèvent de la cryptographie, d’autres des statistiques et certaines se basaient sur la fouille des données. Les travaux présentés dans cette thèse, résument, comparent et développent des méthodes d’anonymisation des données en se basant sur l’Apprentissage Automatique. Les deux premières approches proposent d’utiliser l’apprentissage collaboratif comme un outil d’anonymisation des données. La troisième méthode utilise le clustering par densité des noyaux à une dimension pour protéger les données. La dernière solution proposée, améliore les performances des trois méthodes introduites précédemment en rajoutant une couche d’anonymisation supervisée. Les méthodes sont validées par des mesures d’utilité et de confidentialité. Ce mémoire est structuré en quatre chapitres de poids relativement équivalents. Après une introduction rapide, le premier chapitre expose le contexte scientifique général de la thèse. Le chapitre deux, trois et quatre présentent les contributions effectives et discutent leur validation expérimentale sur plusieurs jeux de données.

Details

Language :
French
Database :
OpenAIRE
Journal :
Ordinateur et société [cs.CY]. Université Paris-Nord-Paris XIII; Ecole nationale des sciences appliquées (Kénitra, Maroc), 2020. Français. ⟨NNT : 2020PA131005⟩
Accession number :
edsair.dedup.wf.001..994b7a0de13f1ac5960d269203508d17