Skip to search
Skip to main content
Back to Search
Start Over
Malware Detection in PDF Files Using Machine Learning
Authors :
Cuan , Bonan Damien , Aliénor Delaplace , Claire Valois , Mathieu Extraction de Caractéristiques et Identification (imagine) Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS) Université Lumière - Lyon 2 (UL2)-École Centrale de Lyon (ECL) Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 (UCBL) Université de Lyon-Institut National des Sciences Appliquées de Lyon (INSA Lyon) Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Lumière - Lyon 2 (UL2)-École Centrale de Lyon (ECL) Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS) THALES [France] Équipe Tolérance aux fautes et Sûreté de Fonctionnement informatique (LAAS-TSF) Laboratoire d'analyse et d'architecture des systèmes (LAAS) Université Toulouse Capitole (UT Capitole) Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse) Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J) Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3) Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP) Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole) Université de Toulouse (UT) Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL) Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS) Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA) Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes) Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique) Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT) Equipe SAFE - Laboratoire GREYC - UMR6072 Groupe de Recherche en Informatique, Image et Instrumentation de Caen (GREYC) Université de Caen Normandie (UNICAEN) Normandie Université (NU)-Normandie Université (NU)-École Nationale Supérieure d'Ingénieurs de Caen (ENSICAEN) Normandie Université (NU)-Centre National de la Recherche Scientifique (CNRS)-Université de Caen Normandie (UNICAEN) Normandie Université (NU)-Centre National de la Recherche Scientifique (CNRS) Extraction de Caractéristiques et Identification ( imagine ) Laboratoire d'InfoRmatique en Image et Systèmes d'information ( LIRIS ) Université Lumière - Lyon 2 ( UL2 ) -École Centrale de Lyon ( ECL ) Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 ( UCBL ) Université de Lyon-Centre National de la Recherche Scientifique ( CNRS ) -Institut National des Sciences Appliquées de Lyon ( INSA Lyon ) Université de Lyon-Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Université Lumière - Lyon 2 ( UL2 ) -École Centrale de Lyon ( ECL ) Université de Lyon-Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) Thales (France) Équipe Tolérance aux fautes et Sûreté de Fonctionnement informatique ( LAAS-TSF ) Laboratoire d'analyse et d'architecture des systèmes [Toulouse] ( LAAS ) Institut National Polytechnique [Toulouse] ( INP ) -Institut National des Sciences Appliquées - Toulouse ( INSA Toulouse ) Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Université Paul Sabatier - Toulouse 3 ( UPS ) -Centre National de la Recherche Scientifique ( CNRS ) -Institut National Polytechnique [Toulouse] ( INP ) -Institut National des Sciences Appliquées - Toulouse ( INSA Toulouse ) Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Université Paul Sabatier - Toulouse 3 ( UPS ) -Centre National de la Recherche Scientifique ( CNRS ) Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189 ( CRIStAL ) Institut National de Recherche en Informatique et en Automatique ( Inria ) -Ecole Centrale de Lille-Institut Mines-Télécom [Paris]-Université de Lille-Centre National de la Recherche Scientifique ( CNRS ) Institut de Recherche en Informatique et Systèmes Aléatoires ( IRISA ) Université de Rennes 1 ( UR1 ) Université de Rennes ( UNIV-RENNES ) -Université de Rennes ( UNIV-RENNES ) -Institut National des Sciences Appliquées - Rennes ( INSA Rennes ) -Université de Bretagne Sud ( UBS ) -École normale supérieure - Rennes ( ENS Rennes ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -CentraleSupélec-Centre National de la Recherche Scientifique ( CNRS ) -IMT Atlantique Bretagne-Pays de la Loire ( IMT Atlantique ) Equipe Monétique & Biométrie - Laboratoire GREYC - UMR6072 Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen ( GREYC ) Université de Caen Normandie ( UNICAEN ) Normandie Université ( NU ) -Normandie Université ( NU ) -Ecole Nationale Supérieure d'Ingénieurs de Caen ( ENSICAEN ) Normandie Université ( NU ) -Centre National de la Recherche Scientifique ( CNRS ) -Université de Caen Normandie ( UNICAEN ) Normandie Université ( NU ) -Centre National de la Recherche Scientifique ( CNRS ) REDOCS Institut National des Sciences Appliquées de Lyon (INSA Lyon) Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Claude Bernard Lyon 1 (UCBL) Université de Lyon-École Centrale de Lyon (ECL) Université de Lyon-Université Lumière - Lyon 2 (UL2)-Institut National des Sciences Appliquées de Lyon (INSA Lyon) Université de Lyon-Université Lumière - Lyon 2 (UL2) Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1) Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Université Toulouse III - Paul Sabatier (UT3) Université Fédérale Toulouse Midi-Pyrénées-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse) Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National Polytechnique (Toulouse) (Toulouse INP) Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1) Université Fédérale Toulouse Midi-Pyrénées Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes) Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1) Université de Rennes (UNIV-RENNES)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique) Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Ingénieurs de Caen (ENSICAEN) Normandie Université (NU)-Normandie Université (NU)-Université de Caen Normandie (UNICAEN) Normandie Université (NU)-Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Ingénieurs de Caen (ENSICAEN) Normandie Université (NU) Ecole Centrale de Lille-Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut Mines-Télécom [Paris]-Université de Lille-Centre National de la Recherche Scientifique ( CNRS )
Source :
SECRYPT 2018-15th International Conference on Security and Cryptography, SECRYPT 2018-15th International Conference on Security and Cryptography, Jul 2018, Porto, Portugal. 8p, [Research Report] Rapport LAAS n° 18030, REDOCS. 2018, 16p
Publication Year :
2018
Publisher :
HAL CCSD, 2018.
Abstract
In this report we present how we used machine learning techniques to detect malicious behaviours in PDF files.At this aim, we first set up a SVM (Support Machine Vector) classifier that was able to detect 99.7% of malware. However, this classifier was easy to lure with malicious PDF, we forged to make them look like clean ones. We first proposed a very naive attack, that was easily stopped by the establishment of a threshold. We also implemented a gradientdescent attack to evade this SVM. This attack was almost 100% successful. In order to fix this problem, we provided counter-measures to the latter attack. A more elaborated features selection, and the use of a threshold, allowed us to stop up to 99.99% of these attacks.Finally, using adversarial learning techniques, we were able to prevent gradient descent attacks by iteratively feeding the SVM with malicious forged PDF. We found that after 3 iterations, every gradient-descent forged PDF were detected, completely preventing the attack.
Details
Language :
English
Database :
OpenAIRE
Journal :
SECRYPT 2018-15th International Conference on Security and Cryptography, SECRYPT 2018-15th International Conference on Security and Cryptography, Jul 2018, Porto, Portugal. 8p, [Research Report] Rapport LAAS n° 18030, REDOCS. 2018, 16p
Accession number :
edsair.doi.dedup.....78e0daa4d397be6e205d7f996d599437