Back to Search Start Over

Malware Detection in PDF Files Using Machine Learning

Authors :
Cuan , Bonan
Damien , Aliénor
Delaplace , Claire
Valois , Mathieu
Extraction de Caractéristiques et Identification (imagine)
Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS)
Université Lumière - Lyon 2 (UL2)-École Centrale de Lyon (ECL)
Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-Institut National des Sciences Appliquées de Lyon (INSA Lyon)
Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Lumière - Lyon 2 (UL2)-École Centrale de Lyon (ECL)
Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)
THALES [France]
Équipe Tolérance aux fautes et Sûreté de Fonctionnement informatique (LAAS-TSF)
Laboratoire d'analyse et d'architecture des systèmes (LAAS)
Université Toulouse Capitole (UT Capitole)
Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse)
Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J)
Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3)
Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP)
Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole)
Université de Toulouse (UT)
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL)
Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)
Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)
Equipe SAFE - Laboratoire GREYC - UMR6072
Groupe de Recherche en Informatique, Image et Instrumentation de Caen (GREYC)
Université de Caen Normandie (UNICAEN)
Normandie Université (NU)-Normandie Université (NU)-École Nationale Supérieure d'Ingénieurs de Caen (ENSICAEN)
Normandie Université (NU)-Centre National de la Recherche Scientifique (CNRS)-Université de Caen Normandie (UNICAEN)
Normandie Université (NU)-Centre National de la Recherche Scientifique (CNRS)
Extraction de Caractéristiques et Identification ( imagine )
Laboratoire d'InfoRmatique en Image et Systèmes d'information ( LIRIS )
Université Lumière - Lyon 2 ( UL2 ) -École Centrale de Lyon ( ECL )
Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 ( UCBL )
Université de Lyon-Centre National de la Recherche Scientifique ( CNRS ) -Institut National des Sciences Appliquées de Lyon ( INSA Lyon )
Université de Lyon-Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Université Lumière - Lyon 2 ( UL2 ) -École Centrale de Lyon ( ECL )
Université de Lyon-Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA )
Thales (France)
Équipe Tolérance aux fautes et Sûreté de Fonctionnement informatique ( LAAS-TSF )
Laboratoire d'analyse et d'architecture des systèmes [Toulouse] ( LAAS )
Institut National Polytechnique [Toulouse] ( INP ) -Institut National des Sciences Appliquées - Toulouse ( INSA Toulouse )
Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Université Paul Sabatier - Toulouse 3 ( UPS ) -Centre National de la Recherche Scientifique ( CNRS ) -Institut National Polytechnique [Toulouse] ( INP ) -Institut National des Sciences Appliquées - Toulouse ( INSA Toulouse )
Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Université Paul Sabatier - Toulouse 3 ( UPS ) -Centre National de la Recherche Scientifique ( CNRS )
Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189 ( CRIStAL )
Institut National de Recherche en Informatique et en Automatique ( Inria ) -Ecole Centrale de Lille-Institut Mines-Télécom [Paris]-Université de Lille-Centre National de la Recherche Scientifique ( CNRS )
Institut de Recherche en Informatique et Systèmes Aléatoires ( IRISA )
Université de Rennes 1 ( UR1 )
Université de Rennes ( UNIV-RENNES ) -Université de Rennes ( UNIV-RENNES ) -Institut National des Sciences Appliquées - Rennes ( INSA Rennes ) -Université de Bretagne Sud ( UBS ) -École normale supérieure - Rennes ( ENS Rennes ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -CentraleSupélec-Centre National de la Recherche Scientifique ( CNRS ) -IMT Atlantique Bretagne-Pays de la Loire ( IMT Atlantique )
Equipe Monétique & Biométrie - Laboratoire GREYC - UMR6072
Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen ( GREYC )
Université de Caen Normandie ( UNICAEN )
Normandie Université ( NU ) -Normandie Université ( NU ) -Ecole Nationale Supérieure d'Ingénieurs de Caen ( ENSICAEN )
Normandie Université ( NU ) -Centre National de la Recherche Scientifique ( CNRS ) -Université de Caen Normandie ( UNICAEN )
Normandie Université ( NU ) -Centre National de la Recherche Scientifique ( CNRS )
REDOCS
Institut National des Sciences Appliquées de Lyon (INSA Lyon)
Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-École Centrale de Lyon (ECL)
Université de Lyon-Université Lumière - Lyon 2 (UL2)-Institut National des Sciences Appliquées de Lyon (INSA Lyon)
Université de Lyon-Université Lumière - Lyon 2 (UL2)
Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1)
Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Université Toulouse III - Paul Sabatier (UT3)
Université Fédérale Toulouse Midi-Pyrénées-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse)
Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National Polytechnique (Toulouse) (Toulouse INP)
Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1)
Université Fédérale Toulouse Midi-Pyrénées
Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1)
Université de Rennes (UNIV-RENNES)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique)
Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Ingénieurs de Caen (ENSICAEN)
Normandie Université (NU)-Normandie Université (NU)-Université de Caen Normandie (UNICAEN)
Normandie Université (NU)-Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Ingénieurs de Caen (ENSICAEN)
Normandie Université (NU)
Ecole Centrale de Lille-Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut Mines-Télécom [Paris]-Université de Lille-Centre National de la Recherche Scientifique ( CNRS )
Source :
SECRYPT 2018-15th International Conference on Security and Cryptography, SECRYPT 2018-15th International Conference on Security and Cryptography, Jul 2018, Porto, Portugal. 8p, [Research Report] Rapport LAAS n° 18030, REDOCS. 2018, 16p
Publication Year :
2018
Publisher :
HAL CCSD, 2018.

Abstract

In this report we present how we used machine learning techniques to detect malicious behaviours in PDF files.At this aim, we first set up a SVM (Support Machine Vector) classifier that was able to detect 99.7% of malware. However, this classifier was easy to lure with malicious PDF, we forged to make them look like clean ones. We first proposed a very naive attack, that was easily stopped by the establishment of a threshold. We also implemented a gradientdescent attack to evade this SVM. This attack was almost 100% successful. In order to fix this problem, we provided counter-measures to the latter attack. A more elaborated features selection, and the use of a threshold, allowed us to stop up to 99.99% of these attacks.Finally, using adversarial learning techniques, we were able to prevent gradient descent attacks by iteratively feeding the SVM with malicious forged PDF. We found that after 3 iterations, every gradient-descent forged PDF were detected, completely preventing the attack.

Details

Language :
English
Database :
OpenAIRE
Journal :
SECRYPT 2018-15th International Conference on Security and Cryptography, SECRYPT 2018-15th International Conference on Security and Cryptography, Jul 2018, Porto, Portugal. 8p, [Research Report] Rapport LAAS n° 18030, REDOCS. 2018, 16p
Accession number :
edsair.doi.dedup.....78e0daa4d397be6e205d7f996d599437