Descriptor: "Exploration de données" - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Exploration de données"' showing total 166 results

Start Over Descriptor "Exploration de données"

166 results on '"Exploration de données"'

1. Data science and analytics with Python.

Author: Rogel-Salazar, Jesus
Subjects: Data mining, Databases, Python, Computers, Datenanalyse, Exploration de données, Python (Computer program language)
Abstract: Summary: This book is designed for practitioners in data science and data analytics in both academic and business environments. The aim is to present the reader with the main concepts used in data science using tools developed in Python, such as SciKit-learn, Pandas, Numpy, and others. The use of Python is of particular interest, given its recent popularity in the data science community. The book can be used by seasoned programmers and newcomers alike. The book is organized in a way that individual chapters are sufficiently independent from each other so that the reader is comfortable using the contents as a reference. The book discusses what data science and analytics are, from the point of view of the process and results obtained. Important features of Python are also covered, including a Python primer. The basic elements of machine learning, pattern recognition, and artificial intelligence that underpin the algorithms and implementations used in the rest of the book also appear in the first part of the book. Regression analysis using Python, clustering techniques, and classification algorithms are covered in the second part of the book. Hierarchical clustering, decision trees, and ensemble techniques are also explored, along with dimensionality reduction techniques and recommendation systems. The support vector machine algorithm and the Kernel trick are discussed in the last part of the book.
Published: 2017

2. Gatekeeping of translations in Shinchunji in South Korea during the Cold War (1946–1954) from the text mining approach.

Author: Kim, Ye Jin, Tak, Jin-young, Kwak, Eun-Joo, and Kim, Hyosook
Subjects: *GATEKEEPING, *COLD War & politics, *ANTI-communist movements, *DATA mining
Abstract: This study examines the change of criteria for selecting texts for translation in Shinchunji, the most influential magazine in liberated Korea. Using data mining methods, the study analyzes the topics and narratives of the source texts on the two occupiers of Korea: the US and the USSR. The results reveal that institutional, domestic, and international changes affected the magazine's selection process, as its editors' perceptions of the two powers changed over time. The selected texts' topics and narratives show the ideological transformation of the publishing company from a left-leaning or moderate to an anti-communist governmental mouthpiece, expressing the editors' desire to win over the minds of the Koreans for nation-building. [ABSTRACT FROM AUTHOR]
Published: 2023
Full Text: View/download PDF

3. STATE OF KNOWLEDGE OF METHODOLOGIES FOR ESTABLISHING "TYPOLOGIES OF PRODUCTION SYSTEMS".

Author: OKA, E., FLOQUET, A., and MONGBO, R. L.
Subjects: *FOOD supply, *AGRICULTURAL innovations, *AGRICULTURE, *DATA mining, *INSTITUTIONAL environment, *SUSTAINABILITY
Abstract: In sub-Saharan Africa, climatic hazards and land pressure have stimulated a search for production intensification methods, adapted to the various environments and types of farming, in a bid to ensure food security in the region. Indeed, this intensification is conditioned by the availability to farmers of innovations that are adapted to their constraints and priorities. Thus, the adaptation of innovations to the diversity of agricultural production systems requires establishment of typologies that reflect the heterogeneity of farms and make it possible to reduce diversity to a manageable scale. In this article, we reviewed the state of knowledge on methods for establishing "typologies of production systems", based on existing knowledge, in order to examine the extent to which they enable understanding of this reality of the agricultural economy. Faced with current global challenges, such as population growth and climate change, sufficient food supplies and quality will require more efficient and robust production systems, based on good agricultural practices that ensure efficient use of the natural resource base, and within an enabling policy and institutional environment. Improving production systems for sustainability will, therefore, need to be based on the implementation of relevant recommendations derived from typologies built through science-based robust methodology, combining participatory approaches and quantitative and qualitative data analysis methods, "data mining". [ABSTRACT FROM AUTHOR]
Published: 2023
Full Text: View/download PDF

4. Unraveling Spatial, Structural, and Social Country-Level Conditions for the Emergence of the Foreign Fighter Phenomenon: An Exploratory Data Mining Approach to the Case Of ISIS.

Author: Pájaro, Agustín, Duran, Ignacio J., and Rodrigo, Pablo
Subjects: TERRORIST recruiting, TERRORIST organizations, RADICALISM, SOCIAL factors, COMPLEXITY (Philosophy), DATA mining, DECISION trees
Abstract: Copyright of Dados - Revista de Ciências Sociais is the property of DADOS and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 2022
Full Text: View/download PDF

5. ESTUDIO DE CASO AGUARDIENTE: APLICACIÓN DEL MODELO DE INFOCONOCIMIENTO.

Author: SALCEDO VITOLA, FERNANDO, RIVEROS MARENTES, JENNIFFER CAROLINA, ALBA CABAÑAS, MARISLEIDY, and VELÁZQUEZ ESPINOZA, NOÉ
Subjects: THEORY of knowledge, SELECTIVE dissemination of information, DATA mining, ORGANIZATIONAL performance
Abstract: Copyright of Revista Criterio Libre is the property of Revista Criterio Libre and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 2020

6. A data-mining algorithm to assess key factors in asthma diagnosis.

Author: Mozaffarinya, M., Reza Shahriyari, A., Karim Bahadori, M., Ghazvini, A., Shamsadin Athari, S., and Vahedi, G.
Abstract: Copyright of Revue Francaise d'Allergologie is the property of Elsevier B.V. and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 2019
Full Text: View/download PDF

7. Analyse von Patentdaten mittels Workflows und Big-Data-Technologien.

Author: Aras, Hidir
Abstract: In diesem Beitrag geht es um das interdisziplinäre Erlernen von Data Science u. a. im Rahmen von Aus- und Weiterbildungsmaßnahmen mittels interaktiver Lernumgebungen am Beispiel der Analyse großer Datenmengen mit Patentinformationen für neue Nutzergruppen wie z. B. den Informationsspezialisten, welche in der Regel über wenig bis keine Kenntnisse z. B. über Verfahren des maschinellen Lernens verfügen. Mittels einer interaktiven Lernumgebung auf Grundlage von Scientific Workflows und Big-Data-Technologien können dabei neue Methoden des Text und Data Mining (TDM) effizient erlernt und im Rahmen praktischer Anwendungsfälle erprobt werden. This article deals with the interdisciplinary learning of data science, e.g. in the context of education and training measures by means of interactive learning environments for the analysis of large amounts of data with patent information for new user groups such as information specialists, who usually have little to no knowledge of e.g. machine learning. Using an interactive learning environment based on scientific workflows and big data technologies, new methods of text and data mining (TDM) can be efficiently learned and tested in practical applications. [ABSTRACT FROM AUTHOR]
Published: 2019
Full Text: View/download PDF

8. Interprétation littéraire numérique : modélisation algorithmique, cybersémiotique et herméneutique

Author: Audin, Yann, Eberle Sinatra, Michael, and Vitali-Rosati, Marcello
Subjects: Literary hermeneutics, literary semiotics, Herméneutique algorithmique, Modélisation littéraire, Cybersémiotique, cybersemiotics, literary modelling, digital criticism, Sémiotique littéraire, data mining, Herméneutique littéraire, Exploration de données
Abstract: Dans ce mémoire, nous explorons les possibilités d’une herméneutique algorithmique littéraire en faisant d’abord des parallèles entre la lecture humaine et la modélisation textuelle numérique. À partir des caractéristiques de ces deux formes de rapports au texte littéraire, nous différencions les modèles littéraires nés de la cognition et de la computation, en plus de rester critique des formes représentatives ainsi générées. Nous utilisons ensuite les cadres théoriques de la sémiotique et de la cybersémiotique pour placer l’interprétation humaine et computationnelle sur un même continuum d’évolution biotechnologique. Ainsi, nous envisageons la possibilité de sens littéraire numérique à partir de méthodes d’exploration de données appliquées aux modèles littéraires algorithmiques. Finalement, nous considérons les potentielles conséquences, limites et avantages d’une pratique de l’herméneutique algorithmique, et la forme qu’une telle pratique pourrait prendre., In this master thesis, we explore the possibilities of digital criticism, first by creating parallels between human reading and computational text modelling. From the characteristics of both these approaches to literary work, we differentiate literary models born of cognition and computation, and stay critical of these representative forms. We then use literary semiotics and cybersemiotics as theoretical frameworks to set human and computer interpretations as two steps on the same biotechnological evolutionary ladder. Thus, we consider the possibility of digital literary meaning produced with advanced data mining tools applied to algorithmically generated literary models. Finally, we contemplate what consequences, limits and advantages such a digital hermeneutic practice would have and offer, and the shapes it may or may not take.
Published: 2023

9. Production semi-automatisée d’une carte conceptuelle en science et technologie

Author: Maxim Morin and Jean-Guy Blais
Subjects: génération automatique de cartes conceptuelles, carte conceptuelle, analyse de texte, exploration de données, traitement automatique du langage naturel, automatic concept mapping, concept map, text analysis, data mining, natural language processing, geração automática de mapas concetuais, mapa concetual, análise de texto, exploração de dados, processamento automático da linguagem natural, Education
Abstract: Cet article décrit la conception et la mise à l’essai d’un programme informatique de production semi-automatisée de cartes conceptuelles. Cette technique dérivée de l’extraction d’information a pour but de produire une représentation simple et signifiante du contenu d’un ou de plusieurs textes sous forme d’un schéma de connaissances. Le programme a été mis à l’essai à partir de deux corpus de textes choisis pour couvrir deux thèmes du Programme de formation de l’école québécoise de quatrième secondaire en science et technologie. Les résultats de l’étude sont très encourageants et montrent le potentiel d’une telle approche pour faciliter la construction d’une carte conceptuelle, une tâche qui est généralement réalisée par des humains. Les résultats suscitent également quelques réflexions quant aux modalités courantes d’élaboration et d’évaluation de cartes conceptuelles.
Published: 2017
Full Text: View/download PDF

10. Unraveling Spatial, Structural, and Social Country-Level Conditions for the Emergence of the Foreign Fighter Phenomenon: An Exploratory Data Mining Approach to the Case Of ISIS

Author: Agustín Pájaro, Ignacio J. Duran, and Pablo Rodrigo
Subjects: knowledge discovery in databases, exploration de données, General Social Sciences, foreign fighters, minería de datos, complexity theory, ISIS, data mining, teoria da complexidade, combattants étrangers, descoberta de conhecimento em bancos de dados, Découverte des Connaissances dans les Bases de Données, teoría de la complejidad, théorie de la complexité, mineração de dados, combatentes estrangeiros, combatientes extranjeros, descubrimiento de conocimientos en bases de datos
Abstract: Governments face a tough and timeless challenge: dealing with the capability of radical terrorist organizations to recruit foreign fighters. However, scholars so far have ignored that this phenomenon pertains to the realm of complexity theory, failing to determine the combination of country-level variables able to catalyze this issue. This is an important concern if countries want to design effective socio-political strategies aimed at decreasing terrorist groups’ capability to enroll foreign fighters or, at least, to curtail the penetration of their radical message. Thus, to address this issue we undertake an exploratory data mining approach (knowledge discovery in databases) to discover country-level patterns which might engender conditions that induce people to join an extremist organization, based on the case of ISIS. After a pre-selection procedure, the 950 variables initially selected were reduced to 22, and subsequently used in decision tree algorithms. Findings reveal the existence of six specific country clusters, which are characterized by some spatial, structural (economic and political), and social variables that create favorable conditions for the emergence of the phenomenon. Academic and practical recommendations are then discussed. RESUMO Na atualidade, um dos maiores desafios para os governos é lidar com organizações terroristas radicais e, em particular, a forma como elas recrutam combatentes estrangeiros. Porém, pesquisadores até agora ignoraram que este fenômeno pertence ao reino da teoria da complexidade, falhando em determinar a combinação de variáveis de países que podem catalisar o problema. Esta é uma questão importante para nações que querem elaborar estratégias sociopolíticas eficazes para diminuir a adesão de combatentes estrangeiros a grupos extremistas ou, pelo menos, para reduzir a penetração de suas mensagens radicais. Portanto, para estudar este fenômeno, fizemos um estudo através da prática de mineração de dados para descobrir padrões a nível nacional que poderiam influenciar a inclusão desses jovens em grupos terroristas, usando como exemplo o caso do chamado Estado Islâmico. Após um procedimento de pré-seleção, as 950 variáveis inicialmente selecionadas foram reduzidas para 22, e subsequentemente utilizadas em árvores de decisão. As descobertas revelam a existência de seis grupos específicos de países, caracterizados por variáveis espaciais, estruturais (econômicas e políticas) e sociais que criam um ambiente favorável para o surgimento deste fenômeno. Posteriormente, discutimos recomendações acadêmicas e práticas. RÉSUMÉ L’un des plus grands défis pour les gouvernements aujourd’hui est de traiter avec les organisations terroristes radicales et, en particulier, la façon dont elles recrutent des combattants étrangers. Cependant, les chercheurs ont jusqu’à présent ignoré que ce phénomène appartenait au domaine de la théorie de la complexité, n’ayant pas réussi à déterminer la combinaison de variables nationales pouvant catalyser le problème. Il s’agit d’un enjeu important pour les nations qui souhaitent concevoir des stratégies sociopolitiques efficaces pour diminuer l’adhésion des combattants étrangers aux groupes extrémistes ou, à tout le moins, réduire la pénétration de leurs messages radicaux. Par conséquent, pour étudier ce phénomène, nous avons mené une étude à travers la pratique de l’exploration de données pour découvrir des modèles au niveau national qui pourraient influencer l’inclusion de ces jeunes dans des groupes terroristes, en prenant comme exemple le cas du soi-disant État Islamique. Après une procédure de présélection, les 950 variables initialement sélectionnées ont été réduites à 22, puis utilisées dans les arbres de décision. Les résultats révèlent l’existence de six groupes spécifiques de pays, caractérisés par des variables spatiales, structurelles (économiques et politiques) et sociales qui créent un environnement favorable à l’émergence de ce phénomène. Nous discutons ensuite des recommandations académiques et pratiques. RESUMEN Hoy en día, uno de los mayores desafíos para los gobiernos es tratar con organizaciones terroristas radicales y, en particular, cómo estas reclutan a combatientes extranjeros. Sin embargo, hasta ahora los investigadores han ignorado que este fenómeno pertenece al ámbito de la teoría de la complejidad, fallando en determinar la combinación de variables de países que pueden catalizar el problema. Esta es una cuestión importante para las naciones que desean desarrollar estrategias sociopolíticas eficaces para reducir la composición de combatientes extranjeros a grupos extremistas o, al menos, para reducir la penetración de sus mensajes radicales. Por lo tanto, para estudiar este fenómeno, realizamos un estudio a través de la práctica de la minería de datos para descubrir estándares nacionales que podrían influir en la inclusión de estos jóvenes en grupos terroristas, utilizando como ejemplo el caso del llamado Estado Islámico. Después de un procedimiento de preselección, las 950 variables seleccionadas inicialmente se redujeron a 22, y posteriormente se utilizaron en árboles de decisión. Los resultados revelan la existencia de seis grupos específicos de países, caracterizados por variables espaciales, estructurales (económicas y políticas) y sociales que crean un entorno favorable para la aparición de este fenómeno. Más tarde, discutimos recomendaciones académicas y prácticas.
Published: 2022

11. Réseaux de capteurs sans fil à faible coût pour la surveillance participative de la qualité de l'air

Author: Fekih, Mohamed Anis, CITI Centre of Innovation in Telecommunications and Integration of services (CITI), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria), AlGorithmes et Optimisation pour Réseaux Autonomes (AGORA), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Inria Lyon, Institut National de Recherche en Informatique et en Automatique (Inria), Université de Lyon, Walid Bechkit, and Hervé Rivano
Subjects: Micro Sensor, Surveillance, Microcapteur, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Air quality mapping, Environmental monitoring, Qualité de l'air, Mesure participative, Informatique, Exploration de données, Computer science, Capteur, Cartographie de la qualité de l'air, Air quality Monitoring, Participatory sensing, Air quality, Wireless Sensor Networks, Réseau de capteurs sans fil, Data mining, Surveillance environnementale, Sensor
Abstract: Mobile crowdsensing is an emerging and promising paradigm that has attracted much attention in recent years, especially for environmental monitoring. Coupled with the power of low-cost wireless sensor networks (WSN), it leverages population density to collect extensive data in many applications, such as air pollution and urban heat islands (UHI) monitoring. In fact, air pollution and UHI are one of the main problems that still suffer from a lack of characterization due to the limitations of traditional assessment methods employed in terms of cost, network size, and flexibility. Mobile crowdsensing and WSN aim at filling this gap by enabling large-scale deployments to improve the local knowledge of these phenomena on the one hand, while simultaneously involving the citizens in the process on the other hand. In this thesis, we mainly consider the air quality monitoring application with a mobile crowdsensing approach, while focusing on three main parts: 1) the design of low-cost participatory air quality monitoring systems; 2) the analysis of dense data from low-cost WSNs and their contribution to the fine-grained mapping of air quality; 3) the selection of the participants’ paths in order to improve the knowledge of the phenomenon while taking into account the constraints of travel distance and sensor errors. Through this work, we aim to show the potential of using low-cost WSN coupled with participatory sensing for air quality monitoring. In this vein, we carry out substantial experimental work on the design of a participatory air quality monitoring system from scratch. We provide engineering guidelines regarding the design of low-cost participatory environmental monitoring platforms. Moreover, we conduct extensive validation tests to evaluate the performance of our sensor nodes. In addition, we perform analysis on our sensors’ data and propose a general framework that allows the comparison of different regression and data assimilation strategies, based on numerical simulations and an adequate estimation of simulation and sensing error covariances. We also explore the impact of the sensing rate on the energy consumption and the mapping error. Furthermore, we tackle the problem of route selection in participatory sensing and propose two new approaches that take into account the participants’ constraints and the characteristics of air quality monitoring using low-cost WSN.; La mesure mobile par la foule (aussi appelé mobile crowdsensing) est un paradigme émergent et prometteur qui a attiré beaucoup d’attention ces dernières années, notamment dans le domaine de la surveillance de l’environnement. Couplé à la puissance des réseaux de capteurs sans fil (RCSF) à bas coût, il permet de tirer parti de la densité de la population pour collecter de nombreuses données dans de nombreuses applications, telles que la surveillance de la pollution de l’air et des îlots de chaleur urbains (ICU). En effet, la pollution de l’air et les ICUs sont parmi les principaux problèmes qui souffrent encore d’un manque de caractérisation en raison des limites des méthodes d’évaluation traditionnelles en termes de coût, de taille de réseau et de flexibilité. Le mobile crowdsensing et les RCSFs visent à combler cette lacune en permettant des déploiements à grande échelle afin d’améliorer la connaissance locale du phénomène, tout en impliquant les citoyens dans le processus de suivi de celui-ci. Dans cette thèse, nous considérons l’application de surveillance de la qualité de l’air avec une approche de crowdsensing mobile, tout en nous concentrant sur trois axes principaux : 1) la conception de systèmes de surveillance de la qualité de l’air participatifs et à faible coût ; 2) l’analyse de données denses issues de micro-capteurs à bas coût et leur apport à la cartographie fine de la qualité de l’air ; 3) la sélection des chemins des participants afin d’améliorer la connaissance du phénomène tout en prenant en compte différentes contraintes. À travers ce travail, nous souhaitons montrer le potentiel de l’utilisation de RCSF à faible coût couplé à la mesure participative dans la surveillance de la qualité de l’air. Dans cette optique, nous réalisons un travail expérimental poussé sur la conception d’un système participatif de surveillance de la qualité de l’air. Nous fournissons des recommandations d’ingénierie concernant la conception de plateformes de surveillance environnementale participative à faible coût. En outre, nous effectuons des tests de validation approfondis pour évaluer les performances de nos nœuds de capteurs. De plus, nous analysons les données collectées par nos capteurs et proposons un framework général qui permet de comparer différentes stratégies de régression et d’assimilation de données, à l’aide de simulations numériques et d’une estimation adéquate des covariances des erreurs de simulation et de mesure. Nous explorons également l’impact de la fréquence de mesure sur la consommation d’énergie et l’erreur de cartographie. Enfin, nous nous intéressons au problème de sélection de routes dans le cadre de la mesure participative et proposons deux nouvelles approches qui prennent en compte les contraintes des participants et les caractéristiques de la surveillance de la qualité de l’air à l’aide de RCSF à faible coût.
Published: 2022

12. Minería de datos en egresados de la Universidad de Caldas.

Author: Mauricio Bedoya, Oscar, López Trujillo, Marcelo, and Marulanda Echeverry, Carlos Eduardo
Abstract: Copyright of Revista Virtual Universidad Católica del Norte is the property of Revista Virtual Universidad Catolica del Norte and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 2016

13. Prediction of maintenance cost for road construction equipment: a case study.

Author: Bayzid, Sharif Mohammad, Mohamed, Yasser, and Al-Hussein, Maria
Subjects: *CONSTRUCTION equipment, *MAINTENANCE, *CONDITION-based maintenance, *DATA mining, *MANAGEMENT -- Case studies
Abstract: Equipment maintenance cost is significant in construction operations budgets. This study proposes a systematic approach to predict maintenance cost of road construction equipment. First, maintenance cost data over more than 10 years was collected from a partner company's equipment management information system. Data was cleaned and analyzed to obtain a general understanding of maintenance costs trends. Next, traditional cumulative cost models and alternative data mining models were generated to predict maintenance cost based on available equipment and operation attributes. Data mining models were evaluated and validated using portions of the collected data that have not been used in model development. Data collection, analyses, modeling, and validation steps are discussed. The paper also presents the performance of different model types. Based on the case study data, regression model trees performed better than other model types with equipment work hours being the most significant parameter for predicting maintenance cost. [ABSTRACT FROM AUTHOR]
Published: 2016
Full Text: View/download PDF

14. Economic Resilience of Regions under Crises: A Study of the Australian Economy.

Author: Courvisanos, Jerry, Jain, Ameeta, and K. Mardaneh, Karim
Subjects: AUSTRALIAN economy, 1945-, EVOLUTIONARY economics, DATA mining, LOCAL government, GLOBAL Financial Crisis, 2008-2009
Abstract: Copyright of Regional Studies is the property of Routledge and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 2016
Full Text: View/download PDF

15. Survey of compound microsatellites in multiple Lactobacillus genomes.

Author: Basharat, Zarrin and Yasmin, Azra
Subjects: *MICROSATELLITE repeats, *LACTOBACILLUS, *NUCLEOTIDE sequence, *BACTERIAL genomes, *GENETIC code
Abstract: Distinct simple sequence repeats with 2 or more individual microsatellites joined together or lying adjacent to each other are identified as compound microsatellites. Investigation of such composite microsatellites in the genomes of genus Lactobacillus was the aim of this study. In silico inspection of microsatellite clustering in genomes of 14 Lactobacillus species revealed a wealth of compound microsatellites. All of the mined compound microsatellites were imperfect, were composed of variant motifs, and increased in all genomes, with maximum distance ( dMAX) increments of 10 to 50. The majority of these repeats were present in the coding regions. A correlation of microsatellite to compound microsatellite density was detected. The difference established in compound microsatellite division among eukaryotes, Escherichia coli, and lactobacilli is suggestive of diverse genomic features and elementary distinction between creation and fixation methods of compound microsatellites among these organisms. [ABSTRACT FROM AUTHOR]
Published: 2015
Full Text: View/download PDF

16. Méthode d'élagage des règles d'association et estimation de la perte d'information dans les données médicales

Author: Ouedraogo, Pengwende Abdoulaye and Ouedraogo, Pengwende Abdoulaye
Published: 2021

17. Construction knowledge discovery system using fuzzy approach.

Author: Elwakil, Emad and Zayed, Tarek
Subjects: *FUZZY systems, *CONSTRUCTION, *SIMULATION methods & models, *DATA mining, *TASK analysis, *FUZZY sets, *ELECTRONIC data processing
Abstract: Most research works in simulating construction operations have predominantly focused on modeling and mistreated data preparation that is paramount for simulation. To prepare data for simulation process, a knowledge discovery system (KDS) is indispensable in extracting hidden knowledge from construction data sets. This knowledge is typically hard to obtain using traditional means, such as statistical analysis. The presented research develops, using fuzzy approach, a KDS to prepare, utilize, analyze, and extract the hidden patterns from construction data to predict work task durations. The KDS depends mainly on finding the relation between quantitative and qualitative variables, which affect the duration of construction operations and work tasks as well as prepare data for simulation modeling. It consists of two stages: data processing and mining. Data processing consists of cleaning, integrating, transforming, and selecting the appropriate knowledge. Data mining consists of selecting the factors that affect a construction operation, generating their fuzzy sets, defining fuzzy rule and models, developing a fuzzy knowledge base, and testing the effectiveness of this knowledge base in predicting work task durations. The developed KDS has been tested using a construction case study in which the results found satisfactory with an average validity percent of 92%. The developed system assists researchers and practitioners in utilizing historical construction data to extract knowledge that could not be obtained by traditional techniques and precisely predicting work task durations. [ABSTRACT FROM AUTHOR]
Published: 2015
Full Text: View/download PDF

18. Multimodal NMR data analysis for binary glioma grade classification using artificial intelligence

Author: Dequidt, Paul, XLIM (XLIM), Université de Limoges (UNILIM)-Centre National de la Recherche Scientifique (CNRS), Université de Poitiers, Christine Fernandez-Maloigne, Rémy Guillevin, and STAR, ABES
Subjects: [INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing, [INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing, Computed-Aided diagnosis, Data exploration, Aide au diagnostic automatique, [INFO.INFO-IM] Computer Science [cs]/Medical Imaging, [INFO.INFO-IM]Computer Science [cs]/Medical Imaging, Glioma, Exploration de données, Gliome, Mri, Irm
Abstract: Gliomas are brain tumors whose evolution from low to high grade is a sign of a darkened outcome. The grade is assessed through invasive techniques such as or surgery or biopsy. The Poitiers University Hospital develops a non-invasive alternative through multimodal magnetic resonance imaging, including anatomical, diffusion, perfusion and spectroscopy data.In this thesis, we have proposed new tools to analyse an automatic classifier's behaviour. This help us underline inconsistencies within the most popular database used for glioma binary grade classification. We have proposed an alternative through a consensus of five expert radiologists.Then, we have designed a pipeline for automatic data processing, from the acquisition to the classification, and explore how multimodal data can enhance the classifier's performances., Les gliomes sont des tumeurs cérébrales dont l'évolution de bas grade à haut grade signe un diagnostic sombre pour le patient.Le grade du gliome est connu via des techniques invasives : analyse de pièce chirurgicale ou biopsie. Le CHU de Poitiers propose une alternative non-invasive via un bilan d'imagerie par résonance magnétique multimodal, regroupant des données anatomiques, de diffusion, de perfusion et de spectroscopie.Dans ce travail de thèse, nous proposons d'implémenter des outils de classification automatique depuis l'analyse de ces images multivariées. Nous déployons pour cela des outils novateurs permettant d'analyser le comportement de classifieurs automatiques. Cela nous amène à pointer des incohérences au sein de la base de données la plus utilisée sur la tâche de classification binaire du grade du gliome. Nous proposons une alternative via un consensus de cinq experts radiologues. Puis, nous créons une chaîne de traitement complète allant de l'acquisition à la classification, et explorons comment les données multimodales améliorent les performances de classification automatique.
Published: 2021

19. When physical experiments meet machine learning experiments for the understanding and prediction of the ageing of refrigerated transport vehicles

Author: capo, claudia, STAR, ABES, Centre d'Energétique et de Thermique de Lyon (CETHIL), Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), Université de Lyon, Jocelyn Bonjour, and Rémi Revellin
Subjects: Performance de l'isolation thermique, Refrigerated transports, Refrigerated vehicle, Thermal performance, Thermal insulation performance, Mécanique, Apprentissage automatique, [SPI.MECA]Engineering Sciences [physics]/Mechanics [physics.med-ph], Vieillissement thermique, Mechanics, Véhicules frigorifiques, Exploration de données, [SPI.MECA] Engineering Sciences [physics]/Mechanics [physics.med-ph], Thermal ageing, Modèle numerique, Refrigerated vehicules, Numerical model, Database, Machine learning, Base de données, Transports frigorifiques, Performance thermique, Thermal insulation, Data mining, Isolation thermique
Abstract: The thermal insulation of the vehicles’enclosures used in refrigerated transport is a critical element both for the quality of the cold chain and for the energy consumption of these vehicles. Its efficiency is characterized by the overall insulation coefficient ("K coefficient"), which tends to increase over time due to the ageing of the enclosure. This thesis presents the results of a work carried out according to three complementary approaches to understand the ageing phenomenon. The results from experimental test campaigns have been confronted with results produced by methods from the world of data science to support physical modeling efforts. The experiments consisted of measurements of the K coefficient of prototype vehicles after their manufacturing and in service-vehicles after 12 years of use. This made it possible to evaluate the impact of the refrigerating unit and to quantify the difference between the new vehicles and their prototypes. Besides, the thermal and energy performances of a new type of vehicle built with sandwich panels with vacuum inserts in the walls were determined. The availability of a large amount of data stored in Cemafroid's Datafrig® databases makes it possible to study the ageing phenomenon using a data-centric approach. The data were statistically analysed using simple probability density concepts and artificial intelligence techniques. A numerical model of ageing was developed using a random forest algorithm: it allows the prediction of the ageing with an error of less than 6%. Finally, a 1D physical model was developed in order to understand the ageing phenomenon from a thermal point of view. This model reproduces the initial insulation performances (K_p and K_0) of a refrigerated vehicle and allows to simulate the ageing of the vehicle after 12 years of life, L'isolation thermique de la caisse des véhicules utilisés dans le transport sous température dirigée est un élément critique tant pour la qualité de la chaîne du froid que pour la consommation énergétique de ces véhicules. Son efficacité est caractérisée par le coefficient d'isolation global ("coefficient K"), qui tend à augmenter au cours du temps en raison du vieillissement de la caisse. Cette thèse présente les résultats de travaux réalisés selon trois approches complémentaires pour comprendre le vieillissement. Des résultats de campagnes d'essais expérimentaux ont été confrontés à des résultats produits par des méthodes du monde de la science des données pour conforter des efforts de modélisation physique. Les expériences ont consisté à réaliser des mesures du coefficient K d'engins prototypes après leur fabrication et d'engins en service depuis 12 ans. Ceci a permis d'évaluer l'impact du groupe frigorifique et de quantifier la différence entre les nouveaux engins et leurs prototypes. Par ailleurs, les performances thermiques et énergétiques d'un nouveau type d’engin construit avec des panneaux sandwich ayant des inserts sous vide dans les parois ont été déterminées. La disponibilité d'un grand nombre de données stockées dans les bases de données Datafrig® du Cemafroid permet d'étudier le phénomène de vieillissement par une approche centrée sur les données. Les données ont été analysées statistiquement en utilisant des concepts simples de densité de probabilité et des techniques d'intelligence artificielle. Un modèle numérique de vieillissement a été développé à partir d’un algorithme de forêt aléatoire : il permet de prédire le vieillissement avec une erreur inférieure à 6%. Enfin, un modèle physique 1D a été développé afin de comprendre le phénomène de vieillissement d'un point de vue thermique. Ce modèle reproduit les performances d'isolation initiales (K_p et K_0) d'un véhicule frigorifique et permet de simuler le vieillissement du véhicule après 12 ans de vie.
Published: 2021

20. Planning of surgical activities under capacity constraint

Author: Dorval, Valérie, Laboratoire d'Automatique, de Mécanique et d'Informatique industrielles et Humaines - UMR 8201 (LAMIH), Université de Valenciennes et du Hainaut-Cambrésis (UVHC)-Centre National de la Recherche Scientifique (CNRS)-INSA Institut National des Sciences Appliquées Hauts-de-France (INSA Hauts-De-France), Université Polytechnique Hauts-de-France, Université Laval Québec, Daoud Aït-Kadi, and Abdelhakim Artiba
Subjects: Planning, Planification, Surgical activities, Modélisation, Modeling, Activités chirurgicales, Length of stay, Durée de séjour, Exploration de données, Data mining, [INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation, Simulation, [SDV.MHEP]Life Sciences [q-bio]/Human health and pathology
Abstract: Surgical services face difficulties in meeting demand and patients face long waiting lists for treatment. In order to improve services, maximum deadlines have been set for certain types of surgery, but this adds a constraint to the already overloaded system. Finally, the cancellation of surgeries due to a lack of beds in intensive care and on care units is considered quite frequent, causing a bottleneck in the patient flow. In this context, the objective of this thesis is to propose and validate a surgical activity planning procedure that takes into account capacity in post-operative care units, with the aim of improving the use of hospital beds and thus increasing patient flow in the system. This thesis proposes a decision support tool to formalize the surgical activity planning process at the tactical/operational level and to take into account the availability of hospital beds and the variability in patients' length of stay according to different factors. This tool takes into account the current functioning of the system and the context surrounding it in order to ensure the feasibility of implementation. First, a model for predicting the length of patients' stay is designed by combining a data classification method, classification and regression tree theory, with a method for estimating the data distribution, phase-type distributions. A validation step will compare the model results with empirical data. Second, a surgical activity planning tool is being developed using integer linear programming and incorporating the "length of stay" component to control hospital bed occupancy in addition to surgical room occupancy. Finally, a simulator is developed and used to evaluate different strategies and criteria for scheduling activities and to take into account the inherent variability of the problem. At this point, it is possible to integrate the model for predicting the length of stay developed at the beginning of the project.; Les services de chirurgies sont confrontés à des difficultés à répondre à la demande et les patients font face à de longues listes d’attente avant d’être traités. Afin d’améliorer les services, des délais maximums à respecter ont été mis en place pour certains types de chirurgie, ajoutant toutefois une contrainte au système surchargé. Finalement, l’annulation de chirurgies pour cause de manque de lits aux soins intensifs et sur les unités de soins est considérée comme assez fréquente, causant un goulot d’étranglement dans le flux de patients. Dans ce contexte, l’objectif de cette thèse est de proposer et de valider une procédure de planification des activités chirurgicales tenant compte de la capacité dans les unités de soins post-opératoires, dans le but d’améliorer l’utilisation des lits d’hospitalisation et ainsi d’augmenter le flux de patients dans le système. Cette thèse propose un outil d’aide à la décision pour formaliser le processus de planification des activités chirurgicales au niveau tactique/opérationnel et permettant de tenir compte de la disponibilité des lits d’hospitalisation et de la variabilité de la durée de séjour des patients, en fonction de différents facteurs. Cet outil tient compte du fonctionnement actuel du système et du contexte l’entourant en vue d’assurer la faisabilité de la mise en oeuvre. Dans un premier temps, un modèle de prédiction de la durée de séjour des patients est conçu en combinant une méthode de classification des données, soit les arbres de classification et de régression, avec une méthode permettant l’estimation de la distribution des données, les distributions phase-type. Une étape de validation permettra de comparer les résultats du modèle aux données empiriques. En second lieu, un outil de planification des activités chirurgicales est développé en utilisant la programmation linéaire en nombres entiers et en y incorporant la composante « durée de séjour des patients » dans le but de contrôler l’occupation des lits d’hospitalisation en plus de l’occupation des salles de chirurgies. Finalement, un simulateur est développé et utilisé pour permettre d’évaluer différentes stratégies et critères d’ordonnancement des activités en plus de tenir compte de la variabilité inhérente au problème. À ce niveau il est possible d’intégrer le modèle de prévision des durées de séjour développé en début de projet.
Published: 2019

21. Multi-stage response to contaminant ingress into water distribution systems and probability quantification.

Author: Shen, Hailiang, McBean, Edward A., and Ghazali, Mirnader
Subjects: *DATA mining, *PROBABILITY theory, *WATER distribution, *WATER-supply engineering, *DETECTORS
Abstract: A multi-stage response procedure for identifying possible ingress nodes (PINs) and quantifying the likelihood that a PIN in a given water distribution system is the actual point of ingress is described. The procedure uses data mining to successively decrease the number of PINs based on a pre-constructed database. In each stage, query sentences are executed to locate the PINs and a Euclidean distance is proposed to estimate the probability, to allow the identification of locations with the highest probabilities of being the true ingress location. As demonstrated in a case study, the ranges of PINs are reduced in the 1st, 2nd, and 3rd stages; except the first sensor alarm, the Euclidean distance metric can identify the true ingress node with the program run-time of less than 2 min; the multi-stage procedure saves roughly 3 h in identifying the true ingress node after the second sensor alarm, instead of waiting for a third sensor alarm to provide the location information. The multi-stage response procedure is shown to be an effective and efficient way for identification and probability quantification of PINs. [ABSTRACT FROM AUTHOR]
Published: 2009
Full Text: View/download PDF

22. Urban data-mining: spatiotemporal exploration of multidimensional data.

Author: Behnisch, Martin and Ultsch, Alfred
Subjects: DATA mining, DATABASE searching, GEOSPATIAL data, SPATIAL analysis (Statistics), COMMUNITIES
Abstract: 'Urban data-mining' describes a methodological approach to reveal logical or mathematical and partly complex descriptions of patterns and regularities inside a set of geospatial data. The cyclical methodology procedure is characterized by six main tasks following the initial step of data collection: data inspection, structure visualization, structure definition, structure control, operationalization, and knowledge conversion. Geovisualization and spatial analysis supplement the process of knowledge conversion and communication. The multidimensional mining approach is presented as a case study applied to 12 430 German communities to analyse multidynamic characteristics between 1994 and 2004. In particular, Emergent Self Organizing Maps (ESOM) are performed as an appropriate method for clustering and classification. Their advantage is to visualize the structure of data and later on to define a number of feasible clusters. A good evidence-base for decision-makers and the implementation of planning tools would be the spatiotemporal exploration of multidimensional data leading to specific details, explanations and abstractions in the context of dynamic community behaviour. The presented techniques are expected to be of increasing interest for the management and development of building stocks, as well as for urban and regional planning processes. «L'exploration de donnees urbaines» decrit une approche methodologique qui vise a reveler les descriptions logiques ou mathematiques et partiellement complexes des schemas et regularites au sein d'un jeu de donnees geospatiales. Cette procedure qui suit une methodologie cyclique se caracterise par six taches principales suivant la tache initiale de collecte des donnees: inspection des donnees, visualisation des structures, definition des structures, controle des structures, operationnalisation et conversion en connaissances. La geovisualisation et l'analyse spatiale completent le processus de conversion en connaissances et de communication. Cette approche faisant appel a l'exploration de donnees multidimensionnelles est presentee sous forme d'une etude de cas appliquee a 12430 communes allemandes afin d'en analyser les caracteristiques multidynamiques entre 1994 et 2004. Il est en particulier realise des cartes auto-organisatrices emergentes (ESOM), s'agissant d'une methode adaptee au groupage et a la classification. Elles ont pour avantage de visualiser la structure des donnees et de definir ulterieurement un certain nombre de groupes realisables. L'exploration spatio-temporelle de donnees multidimensionnelles conduisant a des details, des explications et des abstractions specifiques dans le contexte d'un comportement communautaire dynamique constituerait une bonne base probante pour les decisionnaires et pour la mise en œuvre d'outils de planification. Il est attendu des techniques presentees qu'elles soient d'un interet croissant pour la gestion et le developpement des parcs batis, ainsi que pour les processus de planification urbaine et regionale. Mots cles: parc bati, exploration de donnees, Systemes d'Information Geographie ou geomatique (SIG), analyse spatio-temporelle, analyse urbaine [ABSTRACT FROM AUTHOR]
Published: 2009
Full Text: View/download PDF

23. Production semi-automatisée d’une carte conceptuelle en science et technologie

Author: Jean-Guy Blais and Maxim Morin
Subjects: automatic concept mapping, génération automatique de cartes conceptuelles, Social Sciences and Humanities, exploration de données, analyse de texte, text analysis, data mining, General Medicine, exploração de dados, mapa concetual, geração automática de mapas concetuais, traitement automatique du langage naturel, carte conceptuelle, Sciences Humaines et Sociales, concept map, análise de texto, natural language processing, processamento automático da linguagem natural
Abstract: Cet article décrit la conception et la mise à l’essai d’un programme informatique de production semi-automatisée de cartes conceptuelles. Cette technique dérivée de l’extraction d’information a pour but de produire une représentation simple et signifiante du contenu d’un ou de plusieurs textes sous forme d’un schéma de connaissances. Le programme a été mis à l’essai à partir de deux corpus de textes choisis pour couvrir deux thèmes du Programme de formation de l’école québécoise de quatrième secondaire en science et technologie. Les résultats de l’étude sont très encourageants et montrent le potentiel d’une telle approche pour faciliter la construction d’une carte conceptuelle, une tâche qui est généralement réalisée par des humains. Les résultats suscitent également quelques réflexions quant aux modalités courantes d’élaboration et d’évaluation de cartes conceptuelles., This article presents the development and testing of a computer program for semi-automatic production of concept maps. This technique derived from information extraction intends to provide a simple and significant representation of the content of one or many texts by a knowledge diagram. The application was tested with two text corpora chosen for covering two themes coming from the Programme de formation de l’école québécoise of Secondary 4 in science and technology. The very encouraging results demonstrate the potential of this approach for easing the construction of concept maps, a process that is usually performed by humans. The results arouse as well some questions about the current methods for creating and assessing concept maps., Este artigo descreve a conceção e o teste de um programa informático de produção semiautomatizada de mapas concetuais. Esta técnica derivada da extração de informação destina-se a produzir uma representação simples e significativa do conteúdo de um ou mais textos sob a forma de um esquema de conhecimentos. O programa foi testado a partir de dois corpus de textos selecionados para cobrir dois temas de ciência e tecnologia do Programa de formação do 4.º ano do secundário da escola quebequense. Os resultados do estudo são muito animadores e demonstram o potencial de uma tal abordagem para facilitar a construção de um mapa concetual, uma tarefa que geralmente é realizada por seres humanos. Os resultados suscitam também algumas reflexões sobre as modalidades atuais de elaboração e de avaliação de mapas concetuais.
Published: 2017

24. Data mining for government construction procurement.

Author: Perng, Yeng-Horng and Chang, Chui-Lung
Subjects: DATA mining, DATABASE searching, GOVERNMENT purchasing, CONSTRUCTION spending, CONSTRUCTION, STRUCTURAL design, STRUCTURAL engineering
Abstract: Copyright of Building Research & Information is the property of Routledge and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 2004
Full Text: View/download PDF

25. Identification de maladies associées aux régressions du développement dans le syndrome de Phelan-McDermid : analyse exhaustive d'un registre international

Author: Dusenne, Mikaël, UNIROUEN - UFR Santé (UNIROUEN UFR Santé), Université de Rouen Normandie (UNIROUEN), Normandie Université (NU)-Normandie Université (NU), and Stéfan Darmoni
Subjects: developmental regression, Entrepôts de données, Phelan-McDermid Syndrome, Chromosome 22 -- Anomalies -- Chez l'enfant, 22q13.3 deletion syndrome, Médecine -- Informatique, Données massives, Exploration de données, Clinical Datawarehouse, [SDV.MHEP]Life Sciences [q-bio]/Human health and pathology, Troubles du développement
Abstract: Developmental regression is a frequent and severe complication in the Phelan-McDermid Syndrome (PMS). Little is known about the causes and mechanisms of this condition, and no treatment is available to date. Finding medical conditions associated to the apparition of developmental regressions in PMS could help to understand the mechanisms of the regressions.Materials and methods: Using the Phelan-McDermid Data Network allowed us to analyze the Parent Reported Outcomes (PRO) from 233 patients and the full clinical notes history processed by natural language processing (NLP) of 78 patients with PMS, expressed as SNOMED CT codes. We analyzed the PRO with a Phenome-Wide Association Study (PheWAS). After ascertaining the quality of the NLP processing by comparing the codes to a set of manually annotated conditions, clinical notes were analyzed with a PheWAS and several machine learning modelisations: Elastic Net logistic regression, Random Forest, Gradient Boosting Machine. We attempted to aggregate the SNOMED CT by limiting the depth of the tree to reduce the number of features. We identified important variables to predict the presence of developmental regressions. We then manually reviewed the clinical notes and the PRO to fully analyze the available information for these features.Results: The PRO analysis did not yield significant features. In the clinical notes, seizure disorders were close to significance in all the PheWAS (FDR = 0.098). it was also consistently found as the most important factor in the machine learning modelisations. When reading of the clinical notes, 13/30 (43.3%) of the patients with regression also had epilepsy, and 12/48 (25.0%) without regression had epilepsy. Conclusion: This study found a consistent link between epileptic seizures and developmental regressions in PMS. Further studies should confirm it, investigate it’s nature and potential mechanisms. We did not identify other conditions associated to developmental regressions.
Published: 2019

26. Mining useful patterns in attributed graphs

Author: Bendimerad, Anes, Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-École Centrale de Lyon (ECL), Université de Lyon-Université Lumière - Lyon 2 (UL2), Data Mining and Machine Learning (DM2L), Université de Lyon-Université Lumière - Lyon 2 (UL2)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon, Marc Plantevit, Céline Robardet, and STAR, ABES
Subjects: Data model, Modèle de données, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Graphes attribués, Informatique, Fouille de données, Exploration de données, Computer science, Attributed graphs, Graph, [INFO.INFO-OH] Computer Science [cs]/Other [cs.OH], Pattern mining, Motif, Data mining
Abstract: In this thesis, we address the problem of pattern discovery in vertex-attributed graphs. This kind of structure consists of a graph augmented with attributes associated to vertices. Vertex-attributed graphs provide a powerful abstraction that can be used to represent many datasets in an intuitive manner. Mining these graphs can be very useful for many applications, such as analyzing social networks, biological networks, the World Wide Web, etc. Several methods have been proposed to identify patterns in these structures. Generally, these methods define a pattern as a subgraph whose vertices satisfy some structural constraints (e.g., density, connectivity) and have a subset of attributes with homogeneous values. When mining vertex-attributed graphs, the principled integration of both graph and attribute data poses two important challenges. First, we need to define a pattern syntax (the abstract form of patterns) that is intuitive and lends itself to efficient search. A pattern being intuitive means that it can be easily interpreted and assimilated by the user. Considering that a pattern is generally defined over a subgraph, a pattern can be often huge in terms of vertices, which makes it difficult to grasp. Thus, the assimilation cost of a pattern is an important question that needs to be addressed. The second challenge is the formalization of the pattern interestingness. A pattern is generally relevant if it depicts some local properties that are somehow exceptional, otherwise, it will be already expected from the overall properties of the graph. Furthermore, the interestingness of patterns is subjective in practice, i.e., it significantly depends on the final user, her background knowledge and her preferences. A user would consider that a pattern is useful if it brings some new knowledge to her, especially if this pattern informs about some features or topics that usually interest this user. Another common problem related to the interestingness of patterns is the redundancy issue in the result set. In other terms, a data mining approach may return a set of patterns that give redundant information, because these patterns cover very overlapping parts of vertices and attributes. Information redundancy can be also due to some semantic relation between different attributes, such as attribute hierarchies. For example, knowing that a community of a social network is characterized by a high interest in ``rock music'' makes it less informative that it also has a high interest in ``music'', because ``rock music'' is a subtype ``music''. Consequently, the quality of patterns depends on many different factors.We address these challenges for the problem of mining attributed graphs. More precisely, we first introduce the task of discovering exceptional attributed subgraphs, which is rooted in the Subgroup Discovery framework. The goal is to identify connected subgraphs whose vertices share characteristics that distinguish them from the rest of the graph. Then, we propose methods that aim to take into account the user and the domain knowledge when assessing the interestingness of patterns. We design a method that makes it possible to incorporate user's background knowledge and pattern's assimilation cost. This method is able to identify patterns that are both unexpected (thus informative) and easy to interpret. To ease the assimilation, alternative descriptions of exceptional attributed subgraphs are provided. Furthermore, we propose another graph mining approach that integrates user's preferences. This method exploits an interactive process with the user to bias the pattern interestingness. It has been defined for the task of geo-located event detection in social media. Then, we design an approach that is able to incorporate hierarchical attribute dependencies into the pattern interestingness, which allows to avoid redundancy related to this kind of semantic relations between attributes. In other terms, when the attributes are organized as a hierarchy, this method is able to account for the inference that the user would make about some attribute values when she is informed about values of other attributes. Finally, we conclude this thesis by discussing some research perspectives., Nous adressons le problème de découverte de motifs dans les graphes attribués. Cette structure de données correspond à un graphe qui est augmenté par des attributs associés aux sommets. Elle permet de modéliser efficacement et intuitivement une large variété de bases de données réelles. L'analyse de ce type de graphes peut offrir une grande opportunité pour extraire des informations utiles et actionnables, par exemple, l'analyse des réseaux sociaux, réseaux biologiques, réseaux internet, etc. La fouille de graphes attribués nécessite des méthodes qui prennent en compte au même temps la structure du graphe et les attributs décrivant les sommets, et cela génère deux défis. Premièrement, il est important de définir un langage de motifs intuitif sur lequel on peut appliquer des stratégies de recherche efficaces. Un motif étant intuitif signifie qu'il peut être facilement interprété et compris par l'utilisateur. Sachant qu'un motif est généralement défini sur un sous-graphe, il peut donc être immense en nombre de sommets, ce qui le rend difficile à comprendre. Le coût d'assimilation du motif est donc une question importante qui doit être adressée. Le deuxième défi est la formalisation de la mesure de qualité (pertinence) des motifs. Un motif local est généralement pertinent s'il décrit des propriétés locales distinctives, autrement, ce motif serait déjà attendu en regardant les propriétés globales du graphe. Par ailleurs, la qualité d'un motif est subjective, i.e., elle dépend significativement de l'utilisateur final, de ses connaissances antérieurs sur les données et de ses préférences. Généralement, un utilisateur considère qu'un motif est utile s'il lui fournit de nouvelles connaissances, particulièrement si ce motif lui informe sur des caractéristiques ou des sujets qui intéressent habituellement l'utilisateur. Un autre problème lié à la qualité des motifs est la redondance. En d'autres termes, une méthode de fouille de données peut retourner un ensemble de motifs qui donnent des informations redondantes, par exemple, des motifs peuvent couvrir des parties significativement superposées de sommets et d'attributs. La redondance d'information peut être aussi due aux relations sémantiques entre les attributs, comme les hiérarchies d'attributs. Par exemple, dans un réseau social, si on sait déjà qu'une communauté est caractérisée par un grand intérêt lié à la "musique du rock", caractériser cette communauté encore par "musique" serait redondant, car "musique du rock" est un sous-type de "musique". Dans cette thèse, nous adressons ces différents défis pour le problème de la fouille de graphes attribués. Plus précisément, nous définissons de nouveaux langages de motifs, des mesures de qualités, des algorithms pour la fouille de graphes attribués. On réalise aussi des études empiriques approfondies pour évaluer la pertinence de ces contributions.
Published: 2019

27. Potentiels et limites des traces (géo)numériques dans l’analyse des mobilités : l’exemple des données de la plateforme de covoiturage BlaBlaCar

Author: Boris Mericskay, Espaces et Sociétés (ESO), Institut de Géographie et d'Aménagement Régional de l'Université de Nantes (IGARUN), Université de Nantes (UN)-Université de Nantes (UN)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 2 (UR2), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-AGROCAMPUS OUEST, Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Université d'Angers (UA)-Université de Caen Normandie (UNICAEN), Normandie Université (NU)-Normandie Université (NU)-Le Mans Université (UM), Le Mans Université (UM)-Université de Caen Normandie (UNICAEN), Normandie Université (NU)-Normandie Université (NU)-Université d'Angers (UA)-AGROCAMPUS OUEST-Université de Rennes 2 (UR2), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Centre National de la Recherche Scientifique (CNRS)-Institut de Géographie et d'Aménagement Régional de l'Université de Nantes (IGARUN), and Université de Nantes (UN)-Université de Nantes (UN)
Subjects: Geography (General), 050210 logistics & transportation, 050402 sociology, spatial analysis, exploratory data analysis (EDA), movilidad, exploration de données, 05 social sciences, exploración de datos, [SHS.GEO]Humanities and Social Sciences/Geography, GIS, SIG, mobility, data, 0504 sociology, análisis espacial, 0502 economics and business, G1-922, ComputingMilieux_MISCELLANEOUS, analyse spatiale, mobilité, Social Sciences (miscellaneous)
Abstract: Les données massives représentent un champ d’investigation riche de promesses mais encore complexe pour renouveler l’analyse des mobilités spatiales. Toutefois, penser les pratiques de déplacements par le prisme des traces (géo)numériques soulève de multiples interrogations tant au niveau de la nature des données, des modalités d’accessibilité que des méthodes et des techniques de traitement associées. Cet article a pour ambition d’explorer les potentialités des traces numériques dans la compréhension du covoiturage à travers l’exploration des données de la plateforme BlaBlaCar. Par l’analyse (temporelle et spatiale) des trajets publiés au départ et à destination de la métropole rennaise pendant cinq mois, l’objectif est à la fois de dresser un portrait du covoiturage au sein de la capitale bretonne et de faire un tour d’horizon des avantages et des limites de ces données dans la compréhension de cette nouvelle forme de mobilité. Big data is a field of investigation rich in promises but still complex in renewing spatial mobility analysis. In fact, thinking about mobility through the prism of digital footprints raises many questions regarding the data nature, the accessibility procedures and the methods and techniques of treatment. This paper aims to explore the potential of digital footprints in the analysis of mobility through the example of data from the Carpooling platform BlaBlaCar. By analyzing (temporal and spatial) trips to and from city of Rennes over the course of 5 months, the goal is both to draw a portrait of Carpooling in the capital of Britanny and to give an overview of advantages and limitations of these data in understanding this new form of mobility. El Big data o datos masivos, representa un amplio campo de investigación tanto actual como en proyecciones, pero aún complejo para renovar el enfoque de análisis de las movilidades espaciales. Sin embargo, pensar en las prácticas de viaje a través del prisma de las huellas (geo) digitales plantea muchas interrogantes, en lo que refiere a nivel de la naturaleza de los datos, modalidades de accesibilidad y métodos asociados o técnicas de procesamiento. Este artículo, tiene como objetivo explorar el potencial de las huellas digitales en la comprensión del uso del auto compartido a partir de la exploración de datos extraídos de la plataforma BlaBlaCar. Por medio de un análisis (temporal y espacial) de las rutas (publicadas) desde y hacia la metrópolis de Rennes durante cinco meses, se planteó el objetivo de elaborar un retrato del viaje compartido en automóvil en la capital bretona y determinar las ventajas y límites de estos datos para comprender esta nueva forma de movilidad.
Published: 2019

28. Estimation de la mobilité urbaine par l'exploitation des données de géolocalisation de téléphonie mobile

Author: Bachir, Danya, Institut Mines-Télécom [Paris] (IMT), Université Paris-Saclay, IRT SystemX (IRT SystemX), Télécom SudParis (Institut Mines-Télécom), Université Paris Saclay, and Mounim El Yacoubi
Subjects: travel flows, flux voyageurs, mobile phone data, exploration de données, géolocalisation, données mobiles, data mining, mobilité urbaine, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI], geolocation, machine learning, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], urban mobility, apprentissage automatique, [PHYS.PHYS.PHYS-DATA-AN]Physics [physics]/Physics [physics]/Data Analysis, Statistics and Probability [physics.data-an]
Abstract: In the upcoming decades, traffic and travel times are expected to skyrocket, followingtremendous population growth in urban territories. The increasing congestionon transport networks threatens cities efficiency at several levels such as citizenswell-being, health, economy, tourism and pollution. Thus, local and national authoritiesare urged to promote urban planning innovation by adopting supportive policiesleading to effective and radical measures. Prior to decision making processes, itis crucial to estimate, analyze and understand daily urban mobility. Traditionally,the information on population movements has been gathered through national andlocal reports such as census and surveys. Still, such materials are constrained bytheir important cost, inducing extremely low-update frequency and lack of temporalvariability. On the meantime, information and communications technologies are providingan unprecedented quantity of up-to-date mobility data, across all categoriesof population. In particular, most individuals carry their mobile phone everywherethrough their daily trips and activities.In this thesis, we estimate urban mobility by mining mobile network data, which arecollected in real-time by mobile phone providers at no extra-cost. Processing theraw data is non-trivial as one must deal with temporal sparsity, coarse spatial precisionand complex spatial noise. The thesis addresses two problematics through aweakly supervised learning scheme (i.e., using few labeled data) combining severalmobility data sources. First, we estimate population densities and number of visitorsover time, at fine spatio-temporal resolutions. Second, we derive Origin-Destinationmatrices representing total travel flows over time, per transport modes. All estimatesare exhaustively validated against external mobility data, with high correlations andsmall errors. Overall, the proposed models are robust to noise and sparse data yetthe performance highly depends on the choice of the spatial resolution. In addition,reaching optimal model performance requires extra-calibration specific to the casestudy region and to the transportation mode. This step is necessary to accountfor the bias induced by the joined effect of heterogeneous urban density and userbehavior. Our work is the first successful attempt to characterize total road and railpassenger flows over time, at the intra-region level. Although additional in-depthvalidation is required to strengthen this statement, our findings highlight the hugepotential of mobile network data mining for urban planning applications.; Dans les prochaines décennies, la circulation et les temps de trajets augmenterontdrastiquement en raison du fort taux d’accroissement de la population urbaine.L’augmentation grandissante de la congestion sur les réseaux de transports menacele bon fonctionnement des villes à plusieurs niveaux, tels que le bien-être descitoyens, la santé, l’économie, le tourisme ou la pollution. Ainsi, il est urgent, pourles autorités locales et nationales, de promouvoir l’innovation pour la planificationurbaine, à l’aide d’une politique de soutien à l’innovation et de prises de mesuresradicales. Pour guider les processus de décisions, il est crucial d’estimer, analyseret comprendre la mobilité urbaine au quotidien. Traditionnellement, les informationssur les déplacements des populations étaient collectées via des rapports nationauxet locaux, tels que les recensements et les enquêtes. Toutefois, ces derniers ontun coût important, induisant une très faible fréquence de mise-à-jour, ainsi qu’unetemporalité restreinte des données. En parallèle, les technologies de l’informationet de la communication fournissent une quantité de données de mobilité sansprécédent, au jour le jour, toutes catégories de population confondues. En particulier,les téléphones portables accompagnent désormais la majorité des citoyens lors deleurs déplacements et activités du quotidien.Dans cette thèse, nous estimons la mobilité urbaine par l’exploration des donnéesdu réseau mobile, qui sont collectées en temps réel, sans coût additionnel, parles opérateurs télécom. Le traitement des données brutes est non-trivial en raisonde leur nature sporadique et de la faible précision spatiale couplée à un bruitcomplexe. La thèse adresse deux problématiques via un schéma d’apprentissagefaiblement supervisé (i.e., utilisant très peu de données labélisées) combinantplusieurs sources de données de mobilité. Dans un premier temps, nous estimonsles densités de population et le nombre de visiteurs au cours du temps, à une échellespatio-temporelle relativement fine. Dans un second temps, nous construisons lesmatrices Origine-Destination qui représentent les flux totaux de déplacements aucours du temps, pour différents modes de transports. Ces estimations sont validéespar une comparaison avec des données de mobilité externes, avec lesquelles defortes corrélations et de faibles erreurs sont obtenues. Les modèles proposés sontrobustes au bruit et à la faible fréquence des données, bien que la performancedes modèles soit fortement dépendante de l’échelle spatiale. Pour atteindre uneperformance optimale, la calibration des modèles doit également prendre en comptela zone d’étude et le mode de transport. Cette étape est nécessaire pour réduire lesbiais générés par une densité urbaine hétérogène et les différents comportementsutilisateur. Ces travaux sont les premiers à estimer les flux totaux de voyageursroutiers et ferrés dans le temps, à l’échelle intra-régionale. Bien qu’une validationplus approfondie des modèles soit requise pour les renforcer, nos résultats mettenten évidence l’énorme potentiel de la science des données de réseaux mobilesappliquées à la planification urbaine.
Published: 2019

29. Planification des activités chirurgicales sous contrainte de capacité

Author: Dorval, Valérie, STAR, ABES, Laboratoire d'Automatique, de Mécanique et d'Informatique industrielles et Humaines - UMR 8201 (LAMIH), Université de Valenciennes et du Hainaut-Cambrésis (UVHC)-Centre National de la Recherche Scientifique (CNRS)-INSA Institut National des Sciences Appliquées Hauts-de-France (INSA Hauts-De-France), Université Polytechnique Hauts-de-France, Université Laval Québec, Daoud Aït-Kadi, and Abdelhakim Artiba
Subjects: Planification, [SDV.MHEP] Life Sciences [q-bio]/Human health and pathology, Surgical activities, Modeling, Activités chirurgicales, Durée de séjour, Exploration de données, [INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation, Planning, Modélisation, Length of stay, [INFO.INFO-MO] Computer Science [cs]/Modeling and Simulation, Data mining, [SDV.MHEP]Life Sciences [q-bio]/Human health and pathology, Simulation
Abstract: Surgical services face difficulties in meeting demand and patients face long waiting lists for treatment. In order to improve services, maximum deadlines have been set for certain types of surgery, but this adds a constraint to the already overloaded system. Finally, the cancellation of surgeries due to a lack of beds in intensive care and on care units is considered quite frequent, causing a bottleneck in the patient flow. In this context, the objective of this thesis is to propose and validate a surgical activity planning procedure that takes into account capacity in post-operative care units, with the aim of improving the use of hospital beds and thus increasing patient flow in the system. This thesis proposes a decision support tool to formalize the surgical activity planning process at the tactical/operational level and to take into account the availability of hospital beds and the variability in patients' length of stay according to different factors. This tool takes into account the current functioning of the system and the context surrounding it in order to ensure the feasibility of implementation. First, a model for predicting the length of patients' stay is designed by combining a data classification method, classification and regression tree theory, with a method for estimating the data distribution, phase-type distributions. A validation step will compare the model results with empirical data. Second, a surgical activity planning tool is being developed using integer linear programming and incorporating the "length of stay" component to control hospital bed occupancy in addition to surgical room occupancy. Finally, a simulator is developed and used to evaluate different strategies and criteria for scheduling activities and to take into account the inherent variability of the problem. At this point, it is possible to integrate the model for predicting the length of stay developed at the beginning of the project., Les services de chirurgies sont confrontés à des difficultés à répondre à la demande et les patients font face à de longues listes d’attente avant d’être traités. Afin d’améliorer les services, des délais maximums à respecter ont été mis en place pour certains types de chirurgie, ajoutant toutefois une contrainte au système surchargé. Finalement, l’annulation de chirurgies pour cause de manque de lits aux soins intensifs et sur les unités de soins est considérée comme assez fréquente, causant un goulot d’étranglement dans le flux de patients. Dans ce contexte, l’objectif de cette thèse est de proposer et de valider une procédure de planification des activités chirurgicales tenant compte de la capacité dans les unités de soins post-opératoires, dans le but d’améliorer l’utilisation des lits d’hospitalisation et ainsi d’augmenter le flux de patients dans le système. Cette thèse propose un outil d’aide à la décision pour formaliser le processus de planification des activités chirurgicales au niveau tactique/opérationnel et permettant de tenir compte de la disponibilité des lits d’hospitalisation et de la variabilité de la durée de séjour des patients, en fonction de différents facteurs. Cet outil tient compte du fonctionnement actuel du système et du contexte l’entourant en vue d’assurer la faisabilité de la mise en oeuvre. Dans un premier temps, un modèle de prédiction de la durée de séjour des patients est conçu en combinant une méthode de classification des données, soit les arbres de classification et de régression, avec une méthode permettant l’estimation de la distribution des données, les distributions phase-type. Une étape de validation permettra de comparer les résultats du modèle aux données empiriques. En second lieu, un outil de planification des activités chirurgicales est développé en utilisant la programmation linéaire en nombres entiers et en y incorporant la composante « durée de séjour des patients » dans le but de contrôler l’occupation des lits d’hospitalisation en plus de l’occupation des salles de chirurgies. Finalement, un simulateur est développé et utilisé pour permettre d’évaluer différentes stratégies et critères d’ordonnancement des activités en plus de tenir compte de la variabilité inhérente au problème. À ce niveau il est possible d’intégrer le modèle de prévision des durées de séjour développé en début de projet.
Published: 2019

30. Activity recognition by graphical models based on formal concept analysis in sensor-based smart environments

Author: Hao, Jianguo and Hao, Jianguo
Abstract: With the advancement of information and communication technology, sensors, actuators or other computational elements can be embedded seamlessly in the daily objects of our lives. These components can make our lives smarter by generating an intelligent living environment called smart home. Information indicating environmental changes can be integrated from many sources and exchanged in such an environment through wireless communications. Smart homes attempt to create a human-centered environment that let all kinds of components work cooperatively to make residents lives more comfortable, and allow the environment to respond adaptively to various requests. They are also be expected to autonomously acquire contextual information under the premise of ensuring privacy to guarantee the safety of residents and improve their experience in that environment. As a prerequisite for all above functionalities, activity recognition is an important part of smart home applications. It greatly affects the appropriateness and accuracy of intelligent assistance and preventive interventions. However, modeling and understanding human behaviors involve many tasks, each of which may affect the final recognition results. First, the collected sensor data is massive and continuous with various data types. How to filter noise, extract useful behavioral patterns and manage discovered knowledge are a thorny issue at the preprocessing stage. Second, because of various lifestyles and other factors, there are often many different behavioral patterns that describe the same activities. Moreover, different activities may also have similar patterns. In addition, some composite activities can be performed in a continuous, concurrent or interleaved manner. These factors increase the uncertainty and complexity of activity recognition problem. Third, if there are multiple residents in a smart home, it is difficult to determine exactly who triggered some sensor events or which activity a sensor data belongs
Published: 2018

31. Traitement des objets 3D et images par les méthodes numériques sur graphes

Author: El Sayed, Abdul Rahman, Laboratoire de Mathématiques Appliquées du Havre (LMAH), Université Le Havre Normandie (ULH), Normandie Université (NU)-Normandie Université (NU), Normandie Université, and Adnan Yassine
Subjects: Saliency detection, Correspondance de maillage 3D, 3D point clouds, Face detection, Exploration de données, Détection de saillance, Détection faciale, Programmation linéaire, 3D Mesh matching, Point clouds simplification, Nuages de points 3D, [MATH.MATH-GM]Mathematics [math]/General Mathematics [math.GM], Linear programming, Détection de la peau, Data mining, Simplification des nuages de points, Skin detection
Abstract: Skin detection involves detecting pixels corresponding to human skin in a color image. The faces constitute a category of stimulus important by the wealth of information that they convey because before recognizing any person it is essential to locate and recognize his face. Most security and biometrics applications rely on the detection of skin regions such as face detection, 3D adult object filtering, and gesture recognition. In addition, saliency detection of 3D mesh is an important pretreatment phase for many computer vision applications. 3D segmentation based on salient regions has been widely used in many computer vision applications such as 3D shape matching, object alignments, 3D point-point smoothing, searching images on the web, image indexing by content, video segmentation and face detection and recognition. The detection of skin is a very difficult task for various reasons generally related to the variability of the shape and the color to be detected (different hues from one person to another, orientation and different sizes, lighting conditions) and especially for images from the web captured under different light conditions. There are several known approaches to skin detection: approaches based on geometry and feature extraction, motion-based approaches (background subtraction (SAP), difference between two consecutive images, optical flow calculation) and color-based approaches. In this thesis, we propose numerical optimization methods for the detection of skins color and salient regions on 3D meshes and 3D point clouds using a weighted graph. Based on these methods, we provide 3D face detection approaches using Linear Programming and Data Mining. In addition, we adapted our proposed methods to solve the problem of simplifying 3D point clouds and matching 3D objects. In addition, we show the robustness and efficiency of our proposed methods through different experimental results. Finally, we show the stability and robustness of our methods with respect to noise.; La détection de peau consiste à détecter les pixels correspondant à une peau humaine dans une image couleur. Les visages constituent une catégorie de stimulus importante par la richesse des informations qu’ils véhiculent car avant de reconnaître n’importe quelle personne il est indispensable de localiser et reconnaître son visage. La plupart des applications liées à la sécurité et à la biométrie reposent sur la détection de régions de peau telles que la détection de visages, le filtrage d'objets 3D pour adultes et la reconnaissance de gestes. En outre, la détection de la saillance des mailles 3D est une phase de prétraitement importante pour de nombreuses applications de vision par ordinateur. La segmentation d'objets 3D basée sur des régions saillantes a été largement utilisée dans de nombreuses applications de vision par ordinateur telles que la correspondance de formes 3D, les alignements d'objets, le lissage de nuages de points 3D, la recherche des images sur le web, l’indexation des images par le contenu, la segmentation de la vidéo et la détection et la reconnaissance de visages. La détection de peau est une tâche très difficile pour différentes raisons liées en général à la variabilité de la forme et la couleur à détecter (teintes différentes d’une personne à une autre, orientation et tailles quelconques, conditions d’éclairage) et surtout pour les images issues du web capturées sous différentes conditions de lumière. Il existe plusieurs approches connues pour la détection de peau : les approches basées sur la géométrie et l’extraction de traits caractéristiques, les approches basées sur le mouvement (la soustraction de l’arrière-plan (SAP), différence entre deux images consécutives, calcul du flot optique) et les approches basées sur la couleur. Dans cette thèse, nous proposons des méthodes d'optimisation numérique pour la détection de régions de couleurs de peaux et de régions saillantes sur des maillages 3D et des nuages de points 3D en utilisant un graphe pondéré. En se basant sur ces méthodes, nous proposons des approches de détection de visage 3D à l'aide de la programmation linéaire et de fouille de données (Data Mining). En outre, nous avons adapté nos méthodes proposées pour résoudre le problème de la simplification des nuages de points 3D et de la correspondance des objets 3D. En plus, nous montrons la robustesse et l’efficacité de nos méthodes proposées à travers de différents résultats expérimentaux réalisés. Enfin, nous montrons la stabilité et la robustesse de nos méthodes par rapport au bruit.
Published: 2018

32. Détection et caractérisation de comportements complexes récurrents dans des données séquentielles

Author: Gautrais, Clément, Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Large Scale Collaborative Data Mining (LACODAM), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-GESTION DES DONNÉES ET DE LA CONNAISSANCE (IRISA-D7), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Université de Rennes, Alexandre Termier, Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), and Université Rennes 1
Subjects: Analyse des données symboliques, [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], Data Mining, Pattern Mining, Exploration de données, Bases de données temporelles, Sequential Data
Abstract: Cette thèse introduit un nouveau type de motif appelé signature. La signature segmente une séquence d'itemsets, afin de maximiser la taille de l'ensemble d'items qui apparaît dans tous les segments. La signature a été initialement introduite pour identifier les produits favoris d'un consommateur de supermarché à partir de son historique d'achat. L'originalité de la signature vient du fait qu'elle identifie les items récurrents qui 1) peuvent apparaître à différentes échelles temporelles, 2) peuvent avoir des occurrences irrégulières et 3) peuvent être rapidement compris par des analystes. Étant donné que les approches existantes en fouille de motifs n'ont pas ces 3 propriétés, nous avons introduit la signature. En comparant la signature avec les méthodes de l'état de l'art, nous avons montré que la signature est capable d'identifier de nouvelles régularités dans les données, tout en identifiant les régularités détectées par les méthodes existantes. Bien qu'initialement liée au domaine de la fouille de motifs, nous avons également lié le problème de la fouille de signatures au domaine de la segmentation de séquences. Nous avons ensuite défini différents algorithmes, utilisant des méthodes liées à la fouille de motifs et à la segmentation de séquences. Les signatures ont été utilisées pour analyser un large jeu de données issu d'un supermarché français. Une analyse qualitative des signatures calculées sur ces consommateurs réels a montré que les signatures sont capables d'identifier les produits favoris d'un consommateur. Les signatures ont également été capables de détecter et de caractériser l'attrition de consommateurs. Cette thèse définit également 2 extensions de la signature. La première extension est appelée la sky-signature. La sky-signature permet de présenter les items récurrents d'une séquence à différentes échelles de temps. La sky-signature peut être vue comme une manière efficace de résumer les signatures calculées à toutes les échelles de temps possibles. Les sky-signatures ont été utilisées pour analyser les discours de campagne des candidats à la présidentielle américaine de 2016. Les sky-signatures ont identifié les principaux thèmes de campagne de chaque candidat, ainsi que leur rythme de campagne. Cette analyse a également montré que les signatures peuvent être utilisées sur d'autres types de jeux de données. Cette thèse introduit également une deuxième extension de la signature, qui permet de calculer la signature qui correspond le plus aux données. Cette extension utilise une technique de sélection de modèle basée sur le principe de longueur de description minimale, communément utilisée en fouille de motifs. Cette extension a également été utilisée pour analyser des consommateurs de supermarché.; Cette thèse introduit un nouveau type de motif appelé signature. La signature segmente une séquence d'itemsets, afin de maximiser la taille de l'ensemble d'items qui apparaît dans tous les segments. La signature a été initialement introduite pour identifier les produits favoris d'un consommateur de supermarché à partir de son historique d'achat. L'originalité de la signature vient du fait qu'elle identifie les items récurrents qui 1) peuvent apparaître à différentes échelles temporelles, 2) peuvent avoir des occurrences irrégulières et 3) peuvent être rapidement compris par des analystes. Étant donné que les approches existantes en fouille de motifs n'ont pas ces 3 propriétés, nous avons introduit la signature. En comparant la signature avec les méthodes de l'état de l'art, nous avons montré que la signature est capable d'identifier de nouvelles régularités dans les données, tout en identifiant les régularités détectées par les méthodes existantes. Bien qu'initialement liée au domaine de la fouille de motifs, nous avons également lié le problème de la fouille de signatures au domaine de la segmentation de séquences. Nous avons ensuite défini différents algorithmes, utilisant des méthodes liées à la fouille de motifs et à la segmentation de séquences. Les signatures ont été utilisées pour analyser un large jeu de données issu d'un supermarché français. Une analyse qualitative des signatures calculées sur ces consommateurs réels a montré que les signatures sont capables d'identifier les produits favoris d'un consommateur. Les signatures ont également été capables de détecter et de caractériser l'attrition de consommateurs. Cette thèse définit également 2 extensions de la signature. La première extension est appelée la sky-signature. La sky-signature permet de présenter les items récurrents d'une séquence à différentes échelles de temps. La sky-signature peut être vue comme une manière efficace de résumer les signatures calculées à toutes les échelles de temps possibles. Les sky-signatures ont été utilisées pour analyser les discours de campagne des candidats à la présidentielle américaine de 2016. Les sky-signatures ont identifié les principaux thèmes de campagne de chaque candidat, ainsi que leur rythme de campagne. Cette analyse a également montré que les signatures peuvent être utilisées sur d'autres types de jeux de données. Cette thèse introduit également une deuxième extension de la signature, qui permet de calculer la signature qui correspond le plus aux données. Cette extension utilise une technique de sélection de modèle basée sur le principe de longueur de description minimale, communément utilisée en fouille de motifs. Cette extension a également été utilisée pour analyser des consommateurs de supermarché.
Published: 2018

33. Detection of attacks on Internet access equipment

Author: Roudiere , Gilles, Équipe Services et Architectures pour Réseaux Avancés ( LAAS-SARA ), Laboratoire d'analyse et d'architecture des systèmes [Toulouse] ( LAAS ), Institut National Polytechnique [Toulouse] ( INP ) -Institut National des Sciences Appliquées - Toulouse ( INSA Toulouse ), Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Université Toulouse III - Paul Sabatier ( UPS ), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique ( CNRS ) -Institut National Polytechnique [Toulouse] ( INP ) -Institut National des Sciences Appliquées - Toulouse ( INSA Toulouse ), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique ( CNRS ), Institut national des sciences appliquées de Toulouse, and Philippe OWEZARSKI
Subjects: [ INFO.INFO-NI ] Computer Science [cs]/Networking and Internet Architecture [cs.NI], Machine learning, Security, Network, Sécurité, Apprentissage automatique, Réseau, Exploration de données, Data mining
Abstract: National audience; 2039/5000Network anomalies, and in particular distributed denial of service attacks, remain a significant threat to Internet players. The detection of these anomalies requires adapted tools, able not only to perform a correct detection, but also to meet the many constraints related to operation in an industrial context. Among other things, the ability of a detector to operate autonomously and to operate on sampled traffic are important criteria. Unlike supervised or signature approaches, unsupervised attack detection requires no prior knowledge of traffic properties or anomalies. This approach is based on an autonomous characterization of the traffic in production, and does not require the intervention of the administrator until later, when a deviation of the usual traffic is detected. The problem with such approaches is that building such a characterization is algorithmically complex, and may therefore require substantial computing resources. This requirement, especially when the detection must operate on network equipment with already heavy functional loads, is dissuasive as to the adoption of such approaches. This leads us to propose a new unsupervised detection algorithm that is more economical in computing resources, targeting distributed denial of service attacks as a priority. Its detection relies on creating snapshots of traffic at regular intervals, and produces results that are easy to interpret, helping the administrator's diagnosis. We evaluate the performance of our algorithm on two datasets to verify both its ability to correctly detect anomalies without raising false positives and its ability to operate in real time with limited computing resources, as well as traffic sampled. The results obtained are compared with those of two other detectors, FastNetMon and UNADA.; Les anomalies réseaux, et en particulier les attaques par déni de service distribuées, restent une menace considérable pour les acteurs de l’Internet. La détection de ces anomalies requiert des outils adaptés, capables non seulement d’opérer une détection correcte, mais aussi de répondre aux nombreuses contraintes liées à un fonctionnement dans un contexte industriel. Entre autres, la capacité d’un détecteur à opérer de manière autonome, ainsi qu’à fonctionner sur du trafic échantillonné sont des critères importants. Au contraire des approches supervisées ou par signatures, la détection non-supervisée des attaques ne requiert aucune forme de connaissance préalable sur les propriétés du trafic ou des anomalies. Cette approche repose sur une caractérisation autonome du trafic en production, et ne nécessite l’intervention de l’administrateur qu’à postériori, lorsque une déviation du trafic habituel est détectée. Le problème avec de telle approches reste que construire une telle caractérisation est algorithmiquement complexe, et peut donc nécessiter des ressources de calculs conséquentes. Cette exigence, notamment lorsque la détection doit fonctionner sur des équipements réseaux aux charges fonctionnelles déjà lourdes, est dissuasive quant à l’adoption de telles approches. Ce constat nous amène à proposer un nouvel algorithme de détection non-supervisé plus économe en ressources de calcul, visant en priorité les attaques par déni de service distribuées. Sa détection repose sur la création à intervalles réguliers d’instantanés du trafic, et produit des résultats simples à interpréter, aidant le diagnostic de l’administrateur. Nous évaluons les performances de notre algorithme sur deux jeux de données pour vérifier à la fois sa capacité à détecter correctement les anomalies sans lever de faux-positifs et sa capacité à fonctionner en temps réel avec des ressources de calcul limitées, ainsi que sur du trafic échantillonné. Les résultats obtenus sont comparés à ceux de deux autres détecteurs, FastNetMon et UNADA.
Published: 2018

34. Découverte de règles d'association multi-relationnelles à partir de bases de connaissances ontologiques pour l'enrichissement d'ontologies

Author: Tran, Duc Minh, Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Web-Instrumented Man-Machine Interactions, Communities and Semantics (WIMMICS), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Côte d'Azur, Université de Danang (Vietnam), Andrea Tettamanzi, Thanh Binh Nguyen, Université Nice Sophia Antipolis (1965 - 2019) (UNS), and COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)
Subjects: Algorithmes évolutionnaires, Ontology, Description logics, Découverte de modèle, [INFO.INFO-WB]Computer Science [cs]/Web, [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], Ontologie, Evolutionary algorithms, Pattern discovery, Exploration de données, RDF, Logique de description, Web sémantique, Data mining, Semantic web, SWRL, OWL
Abstract: In the Semantic Web context, OWL ontologies represent explicit domain knowledge based on the conceptualization of domains of interest while the corresponding assertional knowledge is given by RDF data referring to them. In this thesis, based on ideas derived from ILP, we aim at discovering hidden knowledge patterns in the form of multi-relational association rules by exploiting the evidence coming from the assertional data of ontological knowledge bases. Specifically, discovered rules are coded in SWRL to be easily integrated within the ontology, thus enriching its expressive power and augmenting the assertional knowledge that can be derived. Two algorithms applied to populated ontological knowledge bases are proposed for finding rules with a high inductive power: (i) level-wise generated-and-test algorithm and (ii) evolutionary algorithm. We performed experiments on publicly available ontologies, validating the performances of our approach and comparing them with the main state-of-the-art systems. In addition, we carry out a comparison of popular asymmetric metrics, originally proposed for scoring association rules, as building blocks for a fitness function for evolutionary algorithm to select metrics that are suitable with data semantics. In order to improve the system performance, we proposed to build an algorithm to compute metrics instead of querying via SPARQL-DL.; Dans le contexte du Web sémantique, les ontologies OWL représentent des connaissances explicites sur un domaine sur la base d'une conceptualisation des domaines d'intérêt, tandis que la connaissance correspondante sur les individus est donnée par les données RDF qui s'y réfèrent. Dans cette thèse, sur la base d'idées dérivées de l'ILP, nous visons à découvrir des motifs de connaissance cachés sous la forme de règles d'association multi-relationnelles en exploitant l'évidence provenant des assertions contenues dans les bases de connaissances ontologiques. Plus précisément, les règles découvertes sont codées en SWRL pour être facilement intégrées dans l'ontologie, enrichissant ainsi son pouvoir expressif et augmentant les connaissances sur les individus (assertions) qui en peuvent être dérivées. Deux algorithmes appliqués aux bases de connaissances ontologiques peuplées sont proposés pour trouver des règles à forte puissance inductive : (i) un algorithme de génération et test par niveaux et (ii) un algorithme évolutif. Nous avons effectué des expériences sur des ontologies accessibles au public, validant les performances de notre approche et les comparant avec les principaux systèmes de l'état de l'art. En outre, nous effectuons une comparaison des métriques asymétriques les plus répandues, proposées à l'origine pour la notation de règles d'association, comme éléments constitutifs d'une fonction de fitness pour l'algorithme évolutif afin de sélectionner les métriques qui conviennent à la sémantique des données. Afin d'améliorer les performances du système, nous avons proposé de construire un algorithme pour calculer les métriques au lieu d'interroger viaSPARQL-DL.
Published: 2018

35. Human-system co-evolutive approach for database exploration

Author: Rajaonarivo, Hiary Landy, Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance (Lab-STICC), École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS)-Université Bretagne Loire (UBL)-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT), Université de Bretagne occidentale - Brest, and Pierre de Loor
Subjects: Adaptabilité, Recommandation, Data exploration, 3D environment, Recommendation, Exploration de données, Environnement 3D, Co-evolution, Adaptability, Visualisation, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], Métaphores, Metaphors, Visualization
Abstract: This thesis focus on a proposition that helps humans during the exploration of database. The particularity of this proposition relies on a co-evolution principle between the user and an intelligent interface. It provides a support to the understanding of the domain represented by the data. A metaphor of living virtual museum is adopted. This museum evolves incrementally according to the user's interactions. It incarnates both the data and the semantic information which are expressed by a knowledge model specific to the domain of the data. Through the topological organization and the incremental evolution, the museum personalizes online the user's exploration. The approach is insured by three main mechanisms: the evaluation of the user profile modelled by a dynamical weighting of the semantic information, the use of this dynamic profile to establish a recommendation as well as the incarnation of the data in the living museum. The approach has been applied to the heritage domain as part of the ANTIMOINE project, funded by the National Research Agency (ANR). The genericity of the latter has been demonstrated through its application to a database of publications but also using various types of interfaces (website, virtual reality).Experiments have validated the hypothesis that our system adapts itself to the user behavior and that it is able, in turn, to influence him.They also showed the comparison between a 2D interface and a 3D interface in terms of quality of perception, guidance, preference and efficiency.; Ces travaux de recherche portent sur l'aide à l'exploration de bases de données.La particularité de l'approche proposée repose sur un principe de co-évolution de l'utilisateur et d'une interface intelligente. Cette dernière devant permettre d'apporter une aide à la compréhension du domaine représenté par les données. Pour cela, une métaphore de musée virtuel vivant a été adoptée. Ce musée évolue de façon incrémentale au fil des interactions de l'utilisateur. Il incarne non seulement les données mais également des informations sémantiques explicitées par un modèle de connaissances spécifique au domaine exploré.A travers l'organisation topologique et l'évolution incrémentale, le musée personnalise en ligne le parcours de l'utilisateur. L'approche est assurée par trois mécanismes principaux : l'évaluation du profil de l'utilisateur modélisé par une pondération dynamique d'informations sémantiques, l'utilisation de ce profil dynamique pour établir une recommandation ainsi que l'incarnation des données dans le musée.L'approche est appliquée au domaine du patrimoine dans le cadre du projet ANTIMOINE, financé par l'Agence Nationale de la Recherche (ANR). La généricité de cette dernière a été démontrée à travers son application à une base de données de publications mais également à travers l'utilisation de types d'interfaces variés (site web, réalité virtuelle).Des expérimentations ont permis de valider l'hypothèse que notre système s'adapte aux évolutions des comportements de l'utilisateur et qu'il est capable, en retour, d'influencer ce dernier. Elles ont également permis de comparer une interface 2D avec une interface 3D en termes de qualité de perception, de guidage, de préférence et d'efficacité.
Published: 2018

36. Approche co-évolutive humain-système pour l'exploration de bases de données

Author: Rajaonarivo, Hiary Landy, Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance (Lab-STICC), École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS)-Université Bretagne Loire (UBL)-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT), Université de Bretagne occidentale - Brest, and Pierre de Loor
Subjects: Adaptabilité, Recommandation, Data exploration, 3D environment, Recommendation, Exploration de données, Environnement 3D, Co-evolution, Adaptability, Visualisation, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], Métaphores, Metaphors, Visualization
Abstract: This thesis focus on a proposition that helps humans during the exploration of database. The particularity of this proposition relies on a co-evolution principle between the user and an intelligent interface. It provides a support to the understanding of the domain represented by the data. A metaphor of living virtual museum is adopted. This museum evolves incrementally according to the user's interactions. It incarnates both the data and the semantic information which are expressed by a knowledge model specific to the domain of the data. Through the topological organization and the incremental evolution, the museum personalizes online the user's exploration. The approach is insured by three main mechanisms: the evaluation of the user profile modelled by a dynamical weighting of the semantic information, the use of this dynamic profile to establish a recommendation as well as the incarnation of the data in the living museum. The approach has been applied to the heritage domain as part of the ANTIMOINE project, funded by the National Research Agency (ANR). The genericity of the latter has been demonstrated through its application to a database of publications but also using various types of interfaces (website, virtual reality).Experiments have validated the hypothesis that our system adapts itself to the user behavior and that it is able, in turn, to influence him.They also showed the comparison between a 2D interface and a 3D interface in terms of quality of perception, guidance, preference and efficiency.; Ces travaux de recherche portent sur l'aide à l'exploration de bases de données.La particularité de l'approche proposée repose sur un principe de co-évolution de l'utilisateur et d'une interface intelligente. Cette dernière devant permettre d'apporter une aide à la compréhension du domaine représenté par les données. Pour cela, une métaphore de musée virtuel vivant a été adoptée. Ce musée évolue de façon incrémentale au fil des interactions de l'utilisateur. Il incarne non seulement les données mais également des informations sémantiques explicitées par un modèle de connaissances spécifique au domaine exploré.A travers l'organisation topologique et l'évolution incrémentale, le musée personnalise en ligne le parcours de l'utilisateur. L'approche est assurée par trois mécanismes principaux : l'évaluation du profil de l'utilisateur modélisé par une pondération dynamique d'informations sémantiques, l'utilisation de ce profil dynamique pour établir une recommandation ainsi que l'incarnation des données dans le musée.L'approche est appliquée au domaine du patrimoine dans le cadre du projet ANTIMOINE, financé par l'Agence Nationale de la Recherche (ANR). La généricité de cette dernière a été démontrée à travers son application à une base de données de publications mais également à travers l'utilisation de types d'interfaces variés (site web, réalité virtuelle).Des expérimentations ont permis de valider l'hypothèse que notre système s'adapte aux évolutions des comportements de l'utilisateur et qu'il est capable, en retour, d'influencer ce dernier. Elles ont également permis de comparer une interface 2D avec une interface 3D en termes de qualité de perception, de guidage, de préférence et d'efficacité.
Published: 2018

37. Detailed understanding of the metro, RER and streetcar network lines behaviour for the realization of operating studies

Author: Dimanche, Vincent, Centre de Recherche en Sciences et Technologies de l'Information et de la Communication - EA 3804 (CRESTIC), Université de Reims Champagne-Ardenne (URCA), Université de Reims Champagne-Ardenne, Bernard Riera, and Passat, Nicolas
Subjects: Railway network, [SPI.AUTO] Engineering Sciences [physics]/Automatic, Operating studies, Etudes d’exploitabilité, Data visualization, Transports ferroviaires, Visual analytics, Fouille de données, Domaine ferroviaire, statistiques et données numériques, Exploration de données, Data mining, [SPI.AUTO]Engineering Sciences [physics]/Automatic
Abstract: Dense railway networks face significant saturation. And the balance between the theoretical offer and the growing demand imposes strong operability constraints. An imbalance will generate conflicting points such as bottlenecks with the effect of delays on the following trains. As the human factor influences the operation performance; taking it into account more accurately should improve understanding and modeling of railway lines to increase capacity without reducing passenger comfort. To fulfill this objective, we are working on an adapted visualization of the operating data and on their automated mining. These two solutions have been adapted and applied to the railway sector, particularly to the lines of rail networks operated by RATP. The "Visual Analytics" process, implemented in our work to meet these needs, encompasses the steps required to value the data, going from the preparation of the data to the expert analysis. This expert analysis is made through graphic representation and the use of data mining algorithms. Among these data mining algorithms, CorEx and Sieve allowed us to analyze operating data and then extract characteristics human behavior thanks to unsupervised learning based on a multivariate mutual information measure to. Finally, we propose an intuitive visualization of a large amount of data allowing their global integration and facilitating the overall diagnosis of the railway lines behavior., Les réseaux ferroviaires en milieu dense font face à des saturations importantes. Et l'adéquation entre l'offre théorique et la demande croissante impose des contraintes d'exploitabilités fortes. Un déséquilibre générera des points conflictuels comme des goulets d'étranglement avec pour effet des retards sur les trains amonts. Comme le facteur humain, parmi une multitude, influence l'exploitation ; le prendre en compte plus finement devrait améliorer la compréhension et la modélisation des lignes pour en accroître la capacité sans sacrifier le confort des passagers. Pour répondre à cet objectif, nos travaux reposent sur une visualisation adaptée des données remontées de l'exploitation et sur leur fouille automatisée. Elles ont été adaptées et appliquées au domaine ferroviaire notamment aux lignes des réseaux ferrés exploités par la RATP. Le processus « Visual Analytics », mis en œuvre dans nos travaux pour répondre à ces besoins, englobe les étapes nécessaires à la valorisation de la donnée, allant de leur préparation à l’analyse experte en passant par leur représentation graphique et par l’utilisation d'algorithmes de fouille de données. Parmi ces derniers, le CorEx et le Sieve nous ont permis par un apprentissage non supervisé basé sur une mesure de l'information mutuelle multivariée d'analyser les données d'exploitation pour en extraire des caractéristiques du comportement humain. Enfin, nous proposons aussi une visualisation intuitive d'une grande quantité de données permettant leur intégration et facilitant le diagnostic global du comportement des lignes ferroviaires.
Published: 2018

38. La recommandation, un axe de recherche en plein essor

Author: Negre, Elsa, Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE), Université Paris Dauphine-PSL, and Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: extraction d'information, [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, système de recommandation, informatique décisionnelle, aide à la décision, exploration de données
Abstract: National audience; Des milliers de décisions sont prises chaque jour. Si certaines d'entre elles semblent aller de soi, d'autres se prennent beaucoup plus difficilement face au déluge de données que nous connaissons actuellement. La recommandation est un axe de recherche en plein essor pour nous aider dans ce processus de décision.
Published: 2018

39. Intermodal mobility analysis with smart-card data. Spatio-temporal analysis of the bus-metro network of Rennes metropole

Author: Latifa Oukhellou, Cyprien Richer, Mohamed Khalil El Mahrsi, Etienne Côme, Centre d'Etudes et d'Expertise sur les Risques, l'Environnement, la Mobilité et l'Aménagement - Equipe-projet ESPRIM (Cerema Equipe-projet ESPRIM), Centre d'Etudes et d'Expertise sur les Risques, l'Environnement, la Mobilité et l'Aménagement (Cerema), Génie des Réseaux de Transport Terrestres et Informatique Avancée (IFSTTAR/COSYS/GRETTIA), and Institut Français des Sciences et Technologies des Transports, de l'Aménagement et des Réseaux (IFSTTAR)-Communauté Université Paris-Est
Subjects: intermodal transportation, 050210 logistics & transportation, mobilité quotidienne, Geography (General), [SHS.ARCHI]Humanities and Social Sciences/Architecture, space management, transport intermodal, daily mobility, exploration de données, 05 social sciences, data analysis, public transportation, 020101 civil engineering, 02 engineering and technology, [SHS.GEO]Humanities and Social Sciences/Geography, transport collectif, 0201 civil engineering, 11. Sustainability, 0502 economics and business, G1-922, data science, Social Sciences (miscellaneous), ComputingMilieux_MISCELLANEOUS
Abstract: Cet article porte sur l’analyse des mobilités intermodales à l’échelle du réseau bus-métro de Rennes Métropole. L’intermodalité étant très liée à l’usage des réseaux de transport collectif urbain, les données billettiques du réseau bus-métro de Rennes Métropole fournis par Keolis-Rennes renseignent une part très significative de l’intermodalité quotidienne. Pour pallier le manque d’information des données billettiques sur les destinations et détecter les correspondances, la reconstruction des chaînes de validations a été opérée sur la base d’hypothèses fournies par la littérature. Les recherches menées dans le projet Mobilletic ont ainsi permis d’approfondir considérablement les dimensions temporelles et spatiales de la mobilité intermodale au sein du réseau de transport collectif urbain de Rennes Métropole. This paper aims to analyse the intermodal practices of mobility in the bus-metro network of Rennes metropole. Intermodality being strongly linked to the use of urban public transport networks, the Rennes Métropole bus and metro network data provided by Keolis-Rennes provides a very significant part of daily intermodality. To compensate for the lack of information on destinations and correspondances in the ticketing data a reconstruction of trips was made on the basis of hypotheses provided by the literature. The research carried out in the "Mobilletic" project considerably deepened the understanding of the temporal and spatial dimensions of intermodal mobility within Rennes Métropole’s urban public transport network. 本论文旨在分析研究雷恩都市圈地铁公交网络的多式联运。由于联运需要充分利用城市公共交通系统，由法国凯奥雷斯集团(雷恩)提供的雷恩都市圈地铁公交网络运行数据包含非常重要的日常联运数据。尽管智能卡数据不能提供行程目的地和换乘信息，我们在由文献得出的假设的基础上重构了行程和目的地的模型。雷恩都市圈地铁公交网络多式联运的时空分析在学术上具有重要的意义，"Mobilletic"研究项目增强了我们对该研究领域的理解和分析。
Published: 2018

40. L'étude des habitudes humaines : de la reconstruction de la mobilité à la prédiction du trafic mobile

Author: Chen, Guangshuo, INFormation NEtworks (INFINE-POST), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Paris-Saclay, and Aline Carneiro Viana
Subjects: Remplissage spatial de données, Trafic de données mobiles, [INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI], Human mobility, [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], Cellular networks, Mobile data traffic, Réseaux cellulaires, Spatio data completion, Mobilité humaine, Exploration de données, Data mining
Abstract: The understanding of human behaviors is a central question in multi-disciplinary research and has contributed to a wide range of applications. The ability to foresee human activities has essential implications in many aspects of cellular networks. In particular, the high availability of mobility prediction can enable various application scenarios such as location-based recommendation, home automation, and location-related data dissemination; the better understanding of mobile data traffic demand can help to improve the design of solutions for network load balancing, aiming at improving the quality of Internet-based mobile services. Although a large and growing body of literature has investigated the topic of predicting human mobility, there has been little discussion in anticipating mobile data traffic in cellular networks, especially in spatiotemporal view of individuals.For understanding human mobility, mobile phone datasets, consisting of Charging Data Records (CDRs), are a practical choice of human footprints because of the large-scale user populations and the vast diversity of individual movement patterns. The accuracy of mobility information granted by CDR depends on the network infrastructure and the frequency of user communication events. As cellular network deployment is highly irregular and interaction frequencies are typically low, CDR data is often characterized by spatial and temporal sparsity, which, in turn, can bias mobility analyses based on such data and cause the loss of whereabouts in individual trajectories.In this thesis, we present novel solutions of the reconstruction of individual trajectories and the prediction of individual mobile data traffic. Our contributions address the problems of (1) overcoming the incompleteness of mobility information for the use of mobile phone datasets and (2) predicting future mobile data traffic demand for the support of network management applications.First, we focus on the flaw of mobility information in mobile phone datasets. We report on an in-depth analysis of its effect on the measurement of individual mobility features and the completeness of individual trajectories. In particular, (1) we provide a confirmation of previous findings regarding the biases in mobility measurements caused by the temporal sparsity of CDR; (2) we evaluate the geographical shift caused by the mapping of user locations to cell towers and reveal the bias caused by the spatial sparsity of CDR; (3) we provide an empirical estimation of the data completeness of individual CDR-based trajectories. (4) we propose novel solutions of CDR completion to reconstruct incomplete. Our solutions leverage the nature of repetitive human movement patterns and the state-of-the-art data inference techniques and outperform previous approaches shown by data-driven simulations.Second, we address the prediction of mobile data traffic demands generated by individual mobile network subscribers. Building on trajectories completed by our developed solutions and data consumption histories extracted from a large-scale mobile phone dataset, (1) we investigate the limits of predictability by measuring the maximum predictability that any algorithm has potential to achieve and (2) we propose practical mobile data traffic prediction approaches that utilize the findings of the theoretical predictability analysis. Our theoretical analysis shows that it is theoretically possible to anticipate the individual demand with a typical accuracy of 75% despite the heterogeneity of users and with an improved accuracy of 80% using joint prediction with mobility information. Our practical based on machine learning techniques can achieve a typical accuracy of 65% and have a 1%~5% degree of improvement by considering individual whereabouts.In summary, the contributions mentioned above provide a step further towards supporting the use of mobile phone datasets and the management of network operators and their subscribers.; La capacité à prévoir les activités humaines a des implications essentielles dans de nombreux aspects des réseaux cellulaires. En particulier, la haute disponibilité de la prédiction de la mobilité peut permettre différents scénarios d'application; une meilleure compréhension de la demande de trafic de données mobiles peut aider à améliorer la conception de solutions pour l'équilibrage de la charge du réseau. Bien que de nombreux chercheurs aient étudié le sujet de la prédiction de la mobilité humaine, il y a eu peu de discussions sur l'anticipation du trafic de données mobiles dans les réseaux cellulaires.Pour comprendre la mobilité humaine, les ensembles de données de téléphones mobiles, consistant en des enregistrements de données de taxation (CDR), constituent un choix pratique d'empreintes humaines. Comme le déploiement du réseau cellulaire est très irrégulier et que les fréquences d'interaction sont généralement faibles, les données CDR sont souvent caractérisées par une parcimonie spatio-temporelle qui, à son tour, peut biaiser les analyses de mobilité basées sur de telles données et provoquer la perte de trajectoires individuelles.Dans cette thèse, nous présentons de nouvelles solutions de reconstruction de trajectoires individuelles et de prédiction de trafic de données mobiles individuelles. Nos contributions abordent les problèmes de (1) surmonter l'incomplétude des informations de mobilité pour l'utilisation des ensembles de données de téléphonie mobile et (2) prédire la future demande de trafic de données mobiles pour le support des applications de gestion de réseau.Premièrement, nous nous concentrons sur la faille de l'information sur la mobilité dans les ensembles de données de téléphones mobiles. Nous rapportons une analyse en profondeur de son effet sur la mesure des caractéristiques de mobilité individuelles et l'exhaustivité des trajectoires individuelles. En particulier, (1) nous fournissons une confirmation des résultats antérieurs concernant les biais dans les mesures de mobilité causées par la rareté temporelle de la CDR; (2) nous évaluons le décalage géographique provoqué par la cartographie des emplacements des utilisateurs vers les tours cellulaires et révélons le biais causé par la rareté spatiale de la CDR; (3) nous fournissons une estimation empirique de l'exhaustivité des données des trajectoires CDR individuelles. (4) nous proposons de nouvelles solutions de complétion CDR pour reconstruire incomplète. Nos solutions tirent parti de la nature des modèles de mouvements humains répétitifs et des techniques d'inférence de données de pointe et surpassent les approches précédentes illustrées par des simulations axées sur les données.Deuxièmement, nous abordons la prédiction des demandes de trafic de données mobiles générées par les abonnés individuels du réseau mobile. Sur la base de trajectoires complétées par nos solutions développées et nos historiques de consommation de données extraites d'un ensemble de données de téléphonie mobile à grande échelle, (1) nous étudions les limites de prévisibilité en mesurant la prévisibilité maximale que tout algorithme peut atteindre. les approches de prédiction du trafic de données mobiles qui utilisent les résultats de l'analyse théorique de la prévisibilité. Notre analyse théorique montre qu'il est théoriquement possible d'anticiper la demande individuelle avec une précision typique de 75% malgré l'hétérogénéité des utilisateurs et avec une précision améliorée de 80% en utilisant la prédiction conjointe avec des informations de mobilité. Notre pratique basée sur des techniques d'apprentissage automatique peut atteindre une précision typique de 65% et avoir un degré d'amélioration de 1% à 5% en considérant les déplacements individuels.En résumé, les contributions mentionnées ci-dessus vont dans le sens de l'utilisation des ensembles de données de téléphonie mobile et de la gestion des opérateurs de réseau et de leurs abonnés.
Published: 2018

41. Human Habits Investigation : from Mobility Reconstruction to Mobile Traffic Prediction

Author: Chen, Guangshuo, INFormation NEtworks (INFINE-POST), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Paris Saclay (COmUE), and Aline Carneiro Viana
Subjects: Remplissage spatial de données, Trafic de données mobiles, [INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI], Human mobility, [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], Cellular networks, Mobile data traffic, Réseaux cellulaires, Spatio data completion, Exploration de données, Mobilité humaine, Data mining
Abstract: The understanding of human behaviors is a central question in multi-disciplinary research and has contributed to a wide range of applications. The ability to foresee human activities has essential implications in many aspects of cellular networks. In particular, the high availability of mobility prediction can enable various application scenarios such as location-based recommendation, home automation, and location-related data dissemination; the better understanding of mobile data traffic demand can help to improve the design of solutions for network load balancing, aiming at improving the quality of Internet-based mobile services. Although a large and growing body of literature has investigated the topic of predicting human mobility, there has been little discussion in anticipating mobile data traffic in cellular networks, especially in spatiotemporal view of individuals.For understanding human mobility, mobile phone datasets, consisting of Charging Data Records (CDRs), are a practical choice of human footprints because of the large-scale user populations and the vast diversity of individual movement patterns. The accuracy of mobility information granted by CDR depends on the network infrastructure and the frequency of user communication events. As cellular network deployment is highly irregular and interaction frequencies are typically low, CDR data is often characterized by spatial and temporal sparsity, which, in turn, can bias mobility analyses based on such data and cause the loss of whereabouts in individual trajectories.In this thesis, we present novel solutions of the reconstruction of individual trajectories and the prediction of individual mobile data traffic. Our contributions address the problems of (1) overcoming the incompleteness of mobility information for the use of mobile phone datasets and (2) predicting future mobile data traffic demand for the support of network management applications.First, we focus on the flaw of mobility information in mobile phone datasets. We report on an in-depth analysis of its effect on the measurement of individual mobility features and the completeness of individual trajectories. In particular, (1) we provide a confirmation of previous findings regarding the biases in mobility measurements caused by the temporal sparsity of CDR; (2) we evaluate the geographical shift caused by the mapping of user locations to cell towers and reveal the bias caused by the spatial sparsity of CDR; (3) we provide an empirical estimation of the data completeness of individual CDR-based trajectories. (4) we propose novel solutions of CDR completion to reconstruct incomplete. Our solutions leverage the nature of repetitive human movement patterns and the state-of-the-art data inference techniques and outperform previous approaches shown by data-driven simulations.Second, we address the prediction of mobile data traffic demands generated by individual mobile network subscribers. Building on trajectories completed by our developed solutions and data consumption histories extracted from a large-scale mobile phone dataset, (1) we investigate the limits of predictability by measuring the maximum predictability that any algorithm has potential to achieve and (2) we propose practical mobile data traffic prediction approaches that utilize the findings of the theoretical predictability analysis. Our theoretical analysis shows that it is theoretically possible to anticipate the individual demand with a typical accuracy of 75% despite the heterogeneity of users and with an improved accuracy of 80% using joint prediction with mobility information. Our practical based on machine learning techniques can achieve a typical accuracy of 65% and have a 1%~5% degree of improvement by considering individual whereabouts.In summary, the contributions mentioned above provide a step further towards supporting the use of mobile phone datasets and the management of network operators and their subscribers.; La capacité à prévoir les activités humaines a des implications essentielles dans de nombreux aspects des réseaux cellulaires. En particulier, la haute disponibilité de la prédiction de la mobilité peut permettre différents scénarios d'application; une meilleure compréhension de la demande de trafic de données mobiles peut aider à améliorer la conception de solutions pour l'équilibrage de la charge du réseau. Bien que de nombreux chercheurs aient étudié le sujet de la prédiction de la mobilité humaine, il y a eu peu de discussions sur l'anticipation du trafic de données mobiles dans les réseaux cellulaires.Pour comprendre la mobilité humaine, les ensembles de données de téléphones mobiles, consistant en des enregistrements de données de taxation (CDR), constituent un choix pratique d'empreintes humaines. Comme le déploiement du réseau cellulaire est très irrégulier et que les fréquences d'interaction sont généralement faibles, les données CDR sont souvent caractérisées par une parcimonie spatio-temporelle qui, à son tour, peut biaiser les analyses de mobilité basées sur de telles données et provoquer la perte de trajectoires individuelles.Dans cette thèse, nous présentons de nouvelles solutions de reconstruction de trajectoires individuelles et de prédiction de trafic de données mobiles individuelles. Nos contributions abordent les problèmes de (1) surmonter l'incomplétude des informations de mobilité pour l'utilisation des ensembles de données de téléphonie mobile et (2) prédire la future demande de trafic de données mobiles pour le support des applications de gestion de réseau.Premièrement, nous nous concentrons sur la faille de l'information sur la mobilité dans les ensembles de données de téléphones mobiles. Nous rapportons une analyse en profondeur de son effet sur la mesure des caractéristiques de mobilité individuelles et l'exhaustivité des trajectoires individuelles. En particulier, (1) nous fournissons une confirmation des résultats antérieurs concernant les biais dans les mesures de mobilité causées par la rareté temporelle de la CDR; (2) nous évaluons le décalage géographique provoqué par la cartographie des emplacements des utilisateurs vers les tours cellulaires et révélons le biais causé par la rareté spatiale de la CDR; (3) nous fournissons une estimation empirique de l'exhaustivité des données des trajectoires CDR individuelles. (4) nous proposons de nouvelles solutions de complétion CDR pour reconstruire incomplète. Nos solutions tirent parti de la nature des modèles de mouvements humains répétitifs et des techniques d'inférence de données de pointe et surpassent les approches précédentes illustrées par des simulations axées sur les données.Deuxièmement, nous abordons la prédiction des demandes de trafic de données mobiles générées par les abonnés individuels du réseau mobile. Sur la base de trajectoires complétées par nos solutions développées et nos historiques de consommation de données extraites d'un ensemble de données de téléphonie mobile à grande échelle, (1) nous étudions les limites de prévisibilité en mesurant la prévisibilité maximale que tout algorithme peut atteindre. les approches de prédiction du trafic de données mobiles qui utilisent les résultats de l'analyse théorique de la prévisibilité. Notre analyse théorique montre qu'il est théoriquement possible d'anticiper la demande individuelle avec une précision typique de 75% malgré l'hétérogénéité des utilisateurs et avec une précision améliorée de 80% en utilisant la prédiction conjointe avec des informations de mobilité. Notre pratique basée sur des techniques d'apprentissage automatique peut atteindre une précision typique de 65% et avoir un degré d'amélioration de 1% à 5% en considérant les déplacements individuels.En résumé, les contributions mentionnées ci-dessus vont dans le sens de l'utilisation des ensembles de données de téléphonie mobile et de la gestion des opérateurs de réseau et de leurs abonnés.
Published: 2018

42. Croiser les outils de représentation pour explorer le changement

Author: Nahassia, Lucie, Géographie-cités (GC (UMR_8504)), Université Paris 1 Panthéon-Sorbonne (UP1)-Centre National de la Recherche Scientifique (CNRS)-Université Paris Diderot - Paris 7 (UPD7), and Collège international des sciences territoriales (CIST)
Subjects: changement, exploration de données, Long term, analyse spatio-temporelle, temps long, Change, [SHS.GEO]Humanities and Social Sciences/Geography, Spatio-temporal analysis, Data mining
Abstract: International audience; Standard uses of data representations (maps, charts…) are not always sufficient when analysing the long term dynamics of a territory. When working on the case study of the location of activities in the city of Tours for 2,000 years, we addressed this difficulty by using both usual and new methodologies. First, static maps are produced based on archaeological data, ranging from simple location to statistical maps. However, these methods are not enough to properly represent and study the changes of spatial structures. New, more synthetic, variables are then generated and charted in a way which fully expresses the temporal complexity of the studied dynamics. The generalisation that occurs during this process is intended, but it also needs to be confronted back to the detailed data. To facilitate this, the process includes the development and use of a web application to dynamically explore the temporal, spatial and functional dimensions of data.; L'usage classique de différents types de représentations (cartes, graphiques…) n'est pas toujours adapté aux études portant sur le temps long des territoires. Dans le cadre d'un travail sur Tours et les dynamiques spatio-temporelles de localisation des activités sur plus de 2 000 ans, les limites des approches conventionnelles ont été dépassées dans une démarche de croisement des modes et méthodes de représentations. À partir de données archéologiques, des cartes d'états de l'espace intraurbain peuvent être produites, du simple inventaire à des analyses spatiales plus approfondies. Mais ce type de représentation reste très limité pour étudier le changement. En complément, des variables synthétiques sont donc développées et représentées de manière à exprimer toute la richesse temporelle des données. Elles opèrent une généralisation de l'information qui est nécessaire à l'analyse mais qui gagne à être confrontée aux données initiales. La démarche est donc complétée par le déploiement d'une application web d'exploration spatio-temporelle des données.
Published: 2018

43. Personnalisation et enrichissement des méthodes d’accès aux données

Author: Smits, Grégory, Symbolic and Human-centric view of dAta MANagement (SHAMAN), GESTION DES DONNÉES ET DE LA CONNAISSANCE (IRISA-D7), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA), Université Rennes 1, Christophe Marsala, Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), and SMITS, Grégory
Subjects: [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], exploration de données, knowledge extraction, DB flexible querying, extraction de c, fuzzy query processing, linguistic sum, nterrogation flexible de BD, cooperative approaches, approche coopér, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], extraction de connaissances, résumé linguistique de données, [INFO.INFO-DB] Computer Science [cs]/Databases [cs.DB], data exploration, exécution de requêtes floues, [INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR], Interrogation flexible de BD, approche coopérative
Abstract: The translation of data into knowledge is a crucial task at the heart of many professional activities. Two main strategies may be envisaged to perform this translation : by querying a database management system or by using data mining techniques. These two approaches have been so far studied independently by two distinct communities, namely the database community and the data mining one. The works described in this document, whose aim is to synthetize the research results obtained during the last eight years passed in the IRISA laboratory, mainly belong to the database area. However, considering the growing importance of unstructured data, my last contributions are at the intersection of data mining and databases. The common thread in this document is the enrichment of the methods used to access data. Data access is considered as a three steps process : 1) the expression of an information need, 2) the efficient retrieval of data satisfying the considered information need, and 3) the restitution of the query results to the user. The singular aspect of the data processing chain described in this document relies on the leading role given to the user at each step of the process defined to translate data into knowledge. The first part of the document is dedicated to the enrichment of some methods used to access data. My contributions on that point are twofold. The first one aims at making querying interfaces moreflexible and at increasing their expressivity by letting users access data using their own vocabulary composed of linguistic terms. The second approach consists in helping users, with cooperative strategies or intuitive query interfaces, translate their information needs into queries. As commercial database systems do not provide flexible querying functionalities, the second part of the document describes my contributions on the evaluation of selection statements involving conditions based on the satisfaction of subjective linguistic terms. Through these last works, I have shown that a compromise may be found between flexibility and efficiency when querying data. An intelligent data management system should also assist users during the analysis of the results of their queries. Cooperative answering strategies aim at helping users understand the content of a result set and also aim at enriching it with indirect answers and complementary knowledge. The third part of the document details several cooperative answering strategies that ease the translation of query results into knowledge. The theoretical framework that links the different parts of the data processing chain presented in this document is soft computing. In this sense, an underlying objective of this document isalso to show that the theories and techniques of soft computing bring pragmatic and innovative solutions to answer the crucial issue of data management. A positive conclusion and perspectives for future research directions are given at the end of this document about the role the soft computing community can play by promoting the idea of representing, computing and reasoning about data with words., La transformation de données en connaissances constitue une tâche cruciale au cœur de nombreuses activités professionnelles. Deux principales stratégies peuvent être envisagées pour effectuer cette transformation : l’interaction par requêtage avec un système de gestion de bases de données ou l’application de méthodes souvent automatiques de fouille de données. Ces deux approches ont jusqu’alors été étudiées de manière indépendante par deux communautés scientifiques distinctes : celle des bases de données et celle de la fouille de données. Les travaux décrits dans ce document, dont un objectif est d’effectuer une synthèse constructive des résultats obtenus au cours de mes huit années de recherche à l’IRISA, s’inscrivent principalement dans le cadre de l’interrogation de bases de données. Cependant, de par l’importance grandissante prise par les données non tructurées, mes dernières contributions établissent une intersection entre l’acquisition automatique non supervisée de connaissances et l’interrogation de données. Le fil conducteur de ce document est l’enrichissement des méthodes d’accès aux données. L’accès aux données y est vu comme un processus en trois étapes, 1) l’expression d’un besoin d’information, 2) la récupération efficace des données satisfaisant le besoin d’information exprimé et 3) la restitution des résultats à l’utilisateur. Le trait singulier de la chaîne de traitement de données décrite dans ce document provient de la place prépondérante accordée à l’utilisateur à chaque étape du processus de transformation des données en connaissances. La première partie de ce document est consacrée à l’enrichissement des méthodes d’accès aux données. Mes contributions sur l’enrichissement de l’étape d’expression des besoins d’information s’articulent autour de deux axes. Le premier consiste à rendre flexibles les interfaces d’interrogation et à améliorer leur expressivité en permettant à l’utilisateur d’accéder aux données à travers l’utilisation d’un vocabulaire personnel composé de descripteurs linguistiques. Le second axe consiste à assister l’utilisateur, avec des stratégies coopératives ou des interfaces d’interrogation intuitives, lors de la traduction de son besoin d’information en requête. Les systèmes commerciaux de gestion de données n’étant pas initialement pourvus de fonctionnalités d’interrogation flexible à l’aide de descripteurs linguistiques, la seconde partie du document décrit mes contributions sur l’évaluation de conditions de sélection de données exprimées à l’aide de descripteurs linguistiques subjectifs. Ces travaux m’ont permis de montrer qu’il était possible de trouver un compromis intéressant entre flexibilité et efficacité lors de l’interrogation de données. Un système intelligent d’accès aux données se doit d’accompagner l’utilisateur lors de l’analyse des résultats de sa requête. Les stratégies de réponse coopérative visent à aider l’utilisateur à comprendre un ensemble de résultats et à l’enrichir avec des données ou connaissances complémentaires. La troisième partie de ce document détaille plusieurs stratégies coopératives permettant à l’utilisateur de transformer plus rapidement les résultats de ses requêtes en connaissances. Le cadre théorique qui unifie les maillons de la chaîne de traitement de données présentée dans ce document est celui du soft computing. Ce document a également pour objectif de montrer que les théories et techniques de soft computing apportent des solutions pragmatiques et novatrices à unenjeu actuel crucial, celui de la valorisation des données. Le bilan, dressé sous forme de perspectives de recherche à la fin de ce document, souligne le rôle majeur que peut jouer la communauté scientifique du soft computing en promouvant l’idée de représenter, calculer et raisonner sur des données avec des mots.
Published: 2018

44. Analysis of user popularity pattern and engagement prediction in online social networks

Author: Mohammadi, Samin, STAR, ABES, Département Réseaux et Services Multimédia Mobiles (RS2M), Institut Mines-Télécom [Paris] (IMT)-Télécom SudParis (TSP), Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux (SAMOVAR), Centre National de la Recherche Scientifique (CNRS), Institut National des Télécommunications, and Noël Crespi
Subjects: Popularité, [INFO.INFO-NI] Computer Science [cs]/Networking and Internet Architecture [cs.NI], Prédiction, Exploration de données, Representation learning, Apprentissage de la représentation, [INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI], Popularity, Machine learning, Réseaux sociaux en ligne, Data Mining, Apprentissage machine, Prediction, Online social networks
Abstract: Nowadays, social media has widely affected every aspect of human life. The most significant change in people's behavior after emerging Online Social Networks (OSNs) is their communication method and its range. Having more connections on OSNs brings more attention and visibility to people, where it is called popularity on social media. Depending on the type of social network, popularity is measured by the number of followers, friends, retweets, likes, and all those other metrics that is used to calculate engagement. Studying the popularity behavior of users and published contents on social media and predicting its future status are the important research directions which benefit different applications such as recommender systems, content delivery networks, advertising campaign, election results prediction and so on. This thesis addresses the analysis of popularity behavior of OSN users and their published posts in order to first, identify the popularity trends of users and posts and second, predict their future popularity and engagement level for published posts by users. To this end, i) the popularity evolution of ONS users is studied using a dataset of 8K Facebook professional users collected by an advanced crawler. The collected dataset includes around 38 million snapshots of users' popularity values and 64 million published posts over a period of 4 years. Clustering temporal sequences of users' popularity values led to identifying different and interesting popularity evolution patterns. The identified clusters are characterized by analyzing the users' business sector, called category, their activity level, and also the effect of external events. Then ii) the thesis focuses on the prediction of user engagement on the posts published by users on OSNs. A novel prediction model is proposed which takes advantage of Point-wise Mutual Information (PMI) and predicts users' future reaction to newly published posts. Finally, iii) the proposed model is extended to get benefits of representation learning and predict users' future engagement on each other's posts. The proposed prediction approach extracts user embedding from their reaction history instead of using conventional feature extraction methods. The performance of the proposed model proves that it outperforms conventional learning methods available in the literature. The models proposed in this thesis, not only improves the reaction prediction models to exploit representation learning features instead of hand-crafted features but also could help news agencies, advertising campaigns, content providers in CDNs, and recommender systems to take advantage of more accurate prediction results in order to improve their user services, De nos jours, les médias sociaux ont largement affecté tous les aspects de la vie humaine. Le changement le plus significatif dans le comportement des gens après l'émergence des réseaux sociaux en ligne (OSNs) est leur méthode de communication et sa portée. Avoir plus de connexions sur les OSNs apporte plus d'attention et de visibilité aux gens, où cela s'appelle la popularité sur les médias sociaux. Selon le type de réseau social, la popularité se mesure par le nombre d'adeptes, d'amis, de retweets, de goûts et toutes les autres mesures qui servaient à calculer l'engagement. L'étude du comportement de popularité des utilisateurs et des contenus publiés sur les médias sociaux et la prédiction de leur statut futur sont des axes de recherche importants qui bénéficient à différentes applications telles que les systèmes de recommandation, les réseaux de diffusion de contenu, les campagnes publicitaires, la prévision des résultats des élections, etc. Cette thèse porte sur l'analyse du comportement de popularité des utilisateurs d'OSN et de leurs messages publiés afin, d'une part, d'identifier les tendances de popularité des utilisateurs et des messages et, d'autre part, de prévoir leur popularité future et leur niveau d'engagement pour les messages publiés par les utilisateurs. A cette fin, i) l'évolution de la popularité des utilisateurs de l'ONS est étudiée à l'aide d'un ensemble de données d'utilisateurs professionnels 8K Facebook collectées par un crawler avancé. L'ensemble de données collectées comprend environ 38 millions d'instantanés des valeurs de popularité des utilisateurs et 64 millions de messages publiés sur une période de 4 ans. Le regroupement des séquences temporelles des valeurs de popularité des utilisateurs a permis d'identifier des modèles d'évolution de popularité différents et intéressants. Les grappes identifiées sont caractérisées par l'analyse du secteur d'activité des utilisateurs, appelé catégorie, leur niveau d'activité, ainsi que l'effet des événements externes. Ensuite ii) la thèse porte sur la prédiction de l'engagement des utilisateurs sur les messages publiés par les utilisateurs sur les OSNs. Un nouveau modèle de prédiction est proposé qui tire parti de l'information mutuelle par points (PMI) et prédit la réaction future des utilisateurs aux messages nouvellement publiés. Enfin, iii) le modèle proposé est élargi pour tirer profit de l'apprentissage de la représentation et prévoir l'engagement futur des utilisateurs sur leurs postes respectifs. L'approche de prédiction proposée extrait l'intégration de l'utilisateur de son historique de réaction au lieu d'utiliser les méthodes conventionnelles d'extraction de caractéristiques. La performance du modèle proposé prouve qu'il surpasse les méthodes d'apprentissage conventionnelles disponibles dans la littérature. Les modèles proposés dans cette thèse, non seulement déplacent les modèles de prédiction de réaction vers le haut pour exploiter les fonctions d'apprentissage de la représentation au lieu de celles qui sont faites à la main, mais pourraient également aider les nouvelles agences, les campagnes publicitaires, les fournisseurs de contenu dans les CDN et les systèmes de recommandation à tirer parti de résultats de prédiction plus précis afin d'améliorer leurs services aux utilisateurs
Published: 2018

45. Multi-modal approaches for anomaly detection in social networks

Author: Jaafor, Omar, STAR, ABES, Institut Charles Delaunay (ICD), Université de Technologie de Troyes (UTT)-Centre National de la Recherche Scientifique (CNRS), Université de Technologie de Troyes, and Babiga Birregah
Subjects: Boosting (algorithmes), Classification automatique, [INFO.INFO-SI] Computer Science [cs]/Social and Information Networks [cs.SI], [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], Réseaux sociaux, Boosting (Algorithms), [INFO.INFO-DS] Computer Science [cs]/Data Structures and Algorithms [cs.DS], Anomaly detection, Exploration de données, [INFO.INFO-SI]Computer Science [cs]/Social and Information Networks [cs.SI], Social networks, Détection des anomalies (informatique), Collective Intelligence, Automatic classification, Intelligence collective, Data mining
Abstract: The emergence of on-line social networks such as Twitter, Facebook as well as blogs and forums has allowed for the first time to carry out large-scale analyzis of human interactions. Whereas in the past, the majority of human-centered studies were field-oriented, the emergence of these networks allowed the development of statistical methods which took as entry traces of human activity. The emergence of these social networks has nevertheless been accompanied by the growth of malicious users who now have access to platforms enabling them to communicate with millions of users. Radical groups use social networks to recruit jihadists. Resellers of stolen credit cards are now able to access a large market through social networks. Also, spammers can use robots that pollute the content of these networks.This thesis concerns the detection of malicious users who behave in an anomalous manner in on-line platforms using their different modes of interactions and similarity (Retweets, Mentions, URL similarity, text similarity). We have developed semi-supervised methods as well as unsupervised methods (based on community detection) to detect malicious users., L'émergence des réseaux sociaux numériques tels que Twitter, Facebook ainsi que les blogs et forums ont permis pour la première fois d’effectuer des analyses à grande échelle sur le comportement humain. Alors que dans le passé, la majorité des études centrées sur l’humain était orientée terrain, ces réseaux ont permis le développement de méthodes statistiques qui analysent des traces de l’activité humaine.Ces plateformes ont également permis aux utilisateurs malicieux d’atteindre des millions de personnes. Ainsi, des groupes radicaux utilisent les réseaux sociaux pour recruter des jihadistes. Des revendeurs de cartes de crédits volées ont également pu avoir accès à un marché important grâce aux réseaux sociaux. Aussi, des spammeurs peuvent utiliser des robots qui polluent le contenu de ces réseaux.Cette thèse concerne la détection de ces utilisateurs malicieux qui ont un comportement atypique sur ces réseaux sociaux numériques en prenant en compte les différents modes d’interaction et de similarité (Retweets, Mentions, Similarité d’URL, similarité du texte, etc.). Nous avons développé des méthodes semi-supervisées ainsi que des méthodes non-supervisées (basées sur la détection de communautés) afin de détecter ces utilisateurs.
Published: 2018

46. Prise en compte du contexte dans les systèmes de recommandations de requêtes OLAP

Author: Negre, Elsa, Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE), Université Paris Dauphine-PSL, and Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: exploration de données, InformationSystems_DATABASEMANAGEMENT, [INFO]Computer Science [cs], entrepôts de données
Abstract: Data warehouses store large volumes of consolidated and historized multidimensional data for analysis and exploration by decision-makers. Exploring data is an incremental OLAP (OnLine Analytical Processing) query process. In order to ease user exploration, recommender systems are used. However some recommendations can be insufficiently relevant. To overcome this problem, contextual data/information are integrated into the recommender system (RS) which becomes a context-aware RS. In this paper, we propose to determine the contextual data/information useful in OLAP applications and how to integrate it into an OLAP query RS.; Les entrepôts de données stockent de grands volumes de données multidimensionnelles, consolidées et historisées en vue de leur analyse et exploration par des décideurs. L’exploration de données est réalisée par le biais de requêtes OLAP (On-Line Analytical Processing). Afin de faciliter cette exploration, les systèmes de recommandations (SR) existent. Cependant, certaines recommandations peuvent parfois ne pas être suffisamment pertinentes. Pour pallier ce problème, les données / informations contextuelles sont intégrées dans le SR qui devient un SR contextuel. Dans cet article, nous proposons de déterminer les données / informations contextuelles utiles dans les applications OLAP et comment les intégrer dans un SR de requêtes OLAP.
Published: 2017

47. Requêtes et fouille de multigraphes

Author: Ingalalli, Vijay, ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Université Montpellier, Pascal Poncelet, and Dino Ienco
Subjects: Graph theory, Fouille de graphes, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], La théorie des graphes, Graph mining, Exploration de données, Data mining, Graph database, Base de données du graphes
Abstract: With the ever-increasing growth of data and information, extracting the right knowledge has become a real challenge.Further, the advanced applications demand the analysis of complex, interrelated data which cannot be adequately described using a propositional representation. The graph representation is of great interest for the knowledge extraction community, since graphs are versatile data structures and are one of the most general forms of data representation. Among several classes of graphs, textit{multigraphs} have been captivating the attention in the recent times, thanks to their inherent property of succinctly representing the entities by allowing the rich and complex relations among them.The focus of this thesis is streamlined into two themes of knowledge extraction; one being textit{knowledge retrieval}, where we focus on the subgraph query matching aspects in multigraphs, and the other being textit{knowledge discovery}, where we focus on the problem of frequent pattern mining in multigraphs.This thesis makes three main contributions in the field of query matching and data mining.The first contribution, which is very generic, addresses querying subgraphs in multigraphs that yields isomorphic matches, and this problem finds potential applications in the domains of remote sensing, social networks, bioinformatics, chemical informatics. The second contribution, which is focussed on knowledge graphs, addresses querying subgraphs in RDF multigraphs that yield homomorphic matches. In both the contributions, we introduce efficient indexing structures that capture the multiedge information. The query matching processes introduced have been carefully optimized, w.r.t. the time performance and the heuristics employed assure robust performance.The third contribution is in the field of data mining, where we propose an efficient frequent pattern mining algorithm for multigraphs. We observe that multigraphs pose challenges while exploring the search space, and hence we introduce novel optimization techniques and heuristic search methods to swiftly traverse the search space.For each proposed approach, we perform extensive experimental analysis by comparing with the existing state-of-the-art approaches in order to validate the performance and correctness of our approaches.In the end, we perform a case study analysis on a remote sensing dataset. Remote sensing dataset is modelled as a multigraph, and the mining and query matching processes are employed to discover some useful knowledge.; Avec des volumes de données et d’informations de plus en plus importants, des données de plus en plus complexes et fortement inter-reliées, l’extraction de connaissances reste un véritable défi. Les graphes offrent actuellement un support de représentation efficace pour représenter ces données. Parmi les approches existantes, les multi-graphes ont montré que leur pouvoir d’expression était particulièrement adapté pour manipuler des données complexes possédant de nombreux types de relations entre elles. Cette thèse aborde deux aspects principaux liés aux multigraphes : la recherche de sous graphes et la fouille de sous graphes fréquents dans des multigraphes.Elle propose trois propositions dans le domaines du requêtage et de la fouille de données.La première contribution s’inscrit dans la recherche de sous graphes et concerne l’isomorphisme de sous graphes dans des multigraphes. Cette approche peut, par exemple, être appliquée dans de nombreux domaines d’applications comme l’analyse d’images satellites ou de réseaux sociaux. Dans la seconde, nous nous intéressons aux graphes de connaissances et abordons la problématique de l’homorphisme de graphes dans des multigraphes RDF. Dans les deux contributions, nous proposons de nouvelles techniques d’indexations pour représenter efficacement les informations contenues dans les multigraphes. La recherche des sous graphes tire avantage de ces nouveaux index et différentes heuristiques et optimisations sont également proposées pour garantir de bonnes performances lors de l’exécution des requêtes. La seconde contribution s’inscrit dans le domaine de la fouille de données et nous proposons un algorithme efficace pour extraire les multigraphes fréquents. Etant donné l’espace de recherche à considérer, la recherche de motifs fréquents dans des graphes est un problème difficile en fouille de données. Pour parcourir efficacement l’espace de recherche encore plus volumineux pour les multigraphes, nous proposons de nouvelles techniques et méthodes pour le traverser efficacement notamment en éliminant des candidats où détectant à l’avance les motifs non fréquents. Pour chacune de ces propositions de nombreuses expérimentations sont réalisées pour valider à la fois leurs performances et exactitudes en les comparant avec les approches existantes. Finalement, nous proposons une étude de cas sur des jeux de données issues d’images satellites modélisées sous la forme de multigraphe et montrons que l’application de nos propositions permet de mettre en évidence de nouvelles connaissances utiles.
Published: 2017

48. Querying and Mining Multigraphs

Author: Ingalalli, Vijay, ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Université Montpellier, Pascal Poncelet, and Dino Ienco
Subjects: Graph theory, Fouille de graphes, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], La théorie des graphes, Graph mining, Exploration de données, Data mining, Graph database, Base de données du graphes
Abstract: With the ever-increasing growth of data and information, extracting the right knowledge has become a real challenge.Further, the advanced applications demand the analysis of complex, interrelated data which cannot be adequately described using a propositional representation. The graph representation is of great interest for the knowledge extraction community, since graphs are versatile data structures and are one of the most general forms of data representation. Among several classes of graphs, textit{multigraphs} have been captivating the attention in the recent times, thanks to their inherent property of succinctly representing the entities by allowing the rich and complex relations among them.The focus of this thesis is streamlined into two themes of knowledge extraction; one being textit{knowledge retrieval}, where we focus on the subgraph query matching aspects in multigraphs, and the other being textit{knowledge discovery}, where we focus on the problem of frequent pattern mining in multigraphs.This thesis makes three main contributions in the field of query matching and data mining.The first contribution, which is very generic, addresses querying subgraphs in multigraphs that yields isomorphic matches, and this problem finds potential applications in the domains of remote sensing, social networks, bioinformatics, chemical informatics. The second contribution, which is focussed on knowledge graphs, addresses querying subgraphs in RDF multigraphs that yield homomorphic matches. In both the contributions, we introduce efficient indexing structures that capture the multiedge information. The query matching processes introduced have been carefully optimized, w.r.t. the time performance and the heuristics employed assure robust performance.The third contribution is in the field of data mining, where we propose an efficient frequent pattern mining algorithm for multigraphs. We observe that multigraphs pose challenges while exploring the search space, and hence we introduce novel optimization techniques and heuristic search methods to swiftly traverse the search space.For each proposed approach, we perform extensive experimental analysis by comparing with the existing state-of-the-art approaches in order to validate the performance and correctness of our approaches.In the end, we perform a case study analysis on a remote sensing dataset. Remote sensing dataset is modelled as a multigraph, and the mining and query matching processes are employed to discover some useful knowledge.; Avec des volumes de données et d’informations de plus en plus importants, des données de plus en plus complexes et fortement inter-reliées, l’extraction de connaissances reste un véritable défi. Les graphes offrent actuellement un support de représentation efficace pour représenter ces données. Parmi les approches existantes, les multi-graphes ont montré que leur pouvoir d’expression était particulièrement adapté pour manipuler des données complexes possédant de nombreux types de relations entre elles. Cette thèse aborde deux aspects principaux liés aux multigraphes : la recherche de sous graphes et la fouille de sous graphes fréquents dans des multigraphes.Elle propose trois propositions dans le domaines du requêtage et de la fouille de données.La première contribution s’inscrit dans la recherche de sous graphes et concerne l’isomorphisme de sous graphes dans des multigraphes. Cette approche peut, par exemple, être appliquée dans de nombreux domaines d’applications comme l’analyse d’images satellites ou de réseaux sociaux. Dans la seconde, nous nous intéressons aux graphes de connaissances et abordons la problématique de l’homorphisme de graphes dans des multigraphes RDF. Dans les deux contributions, nous proposons de nouvelles techniques d’indexations pour représenter efficacement les informations contenues dans les multigraphes. La recherche des sous graphes tire avantage de ces nouveaux index et différentes heuristiques et optimisations sont également proposées pour garantir de bonnes performances lors de l’exécution des requêtes. La seconde contribution s’inscrit dans le domaine de la fouille de données et nous proposons un algorithme efficace pour extraire les multigraphes fréquents. Etant donné l’espace de recherche à considérer, la recherche de motifs fréquents dans des graphes est un problème difficile en fouille de données. Pour parcourir efficacement l’espace de recherche encore plus volumineux pour les multigraphes, nous proposons de nouvelles techniques et méthodes pour le traverser efficacement notamment en éliminant des candidats où détectant à l’avance les motifs non fréquents. Pour chacune de ces propositions de nombreuses expérimentations sont réalisées pour valider à la fois leurs performances et exactitudes en les comparant avec les approches existantes. Finalement, nous proposons une étude de cas sur des jeux de données issues d’images satellites modélisées sous la forme de multigraphe et montrons que l’application de nos propositions permet de mettre en évidence de nouvelles connaissances utiles.
Published: 2017

49. Graph Mining for Influence Maximization in Social Networks

Author: Rossi, Maria and STAR, ABES
Subjects: Fouille de graphes, [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], Influence Maximization, Data Mining, Science Computationelle, [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], Exploration de données, Spreading Processes, Computational Science, Graph Mining
Abstract: Modern science of graphs has emerged the last few years as a field of interest and has been bringing significant advances to our knowledge about networks. Until recently the existing data mining algorithms were destined for structured/relational data while many datasets exist that require graph representation such as social networks, networks generated by textual data, 3D protein structures and chemical compounds. It has become therefore of crucial importance to be able to extract meaningful information from that kind of data and towards this end graph mining and analysis methods have been proven essential. The goal of this thesis is to study problems in the area of graph mining focusing especially on designing new algorithms and tools related to information spreading and specifically on how to locate influential entities in real-world networks. This task is crucial in many applications such as information diffusion, epidemic control and viral marketing. In the first part of the thesis, we have studied spreading processes in social networks focusing on finding topological characteristics that rank entities in the network based on their influential capabilities. We have specifically focused on the K-truss decomposition which is an extension of the core decomposition of the graph. Extensive experimental analysis showed that the nodes that belong to the maximal K-truss subgraph show a better spreading behavior when compared to baseline criteria. Such spreaders can influence a greater part of the network during the first steps of a spreading process but also the total fraction of the influenced nodes at the end of the epidemic is greater. We have also observed that node members of such dense subgraphs are those achieving the optimal spreading in the network.In the second part of the thesis, we focused on identifying a group of nodes that by acting all together maximize the expected number of influenced nodes at the end of the spreading process, formally called Influence Maximization (IM). The IM problem is actually NP-hard though there exist approximation guarantees for efficient algorithms that can solve the problem while obtaining a solution within the 63% of optimal classes of models. As those guarantees propose a greedy approximation which is computationally expensive especially for large graphs, we proposed the MATI algorithm which succeeds in locating the group of users that maximize the influence while also being scalable. The algorithm takes advantage the possible paths created in each node’s neighborhood to precalculate each node’s potential influence and produces competitive results in quality compared to those of baseline algorithms such as the Greedy, LDAG and SimPath. In the last part of the thesis, we study the privacy point of view of sharing such metrics that are good influential indicators in a social network. We have focused on designing an algorithm that addresses the problem of computing through an efficient, correct, secure, and privacy-preserving algorithm the k-core metric which measures the influence of each node of the network. We have specifically adopted a decentralization approach where the social network is considered as a Peer-to-peer (P2P) system. The algorithm is built based on the constraint that it should not be possible for a node to reconstruct partially or entirely the graph using the information they obtain during its execution. While a distributed algorithm that computes the nodes’ coreness is already proposed, dynamic networks are not taken into account. Our main contribution is an incremental algorithm that efficiently solves the core maintenance problem in P2P while limiting the number of messages exchanged and computations. We provide a security and privacy analysis of the solution regarding network de-anonimization and show how it relates to previously defined attacks models and discuss countermeasures., La science moderne des graphes est apparue ces dernières années comme un domaine d'intérêt et a apporté des progrès significatifs à notre connaissance des réseaux. Jusqu'à récemment, les algorithmes d'exploration de données existants étaient destinés à des données structurées / relationnelles, alors que de nombreux ensembles de données nécessitent une représentation graphique, comme les réseaux sociaux, les réseaux générés par des données textuelles, les structures protéiques 3D ou encore les composés chimiques. Il est donc crucial de pouvoir extraire des informations pertinantes à partir de ce type de données et, pour ce faire, les méthodes d'extraction et d'analyse des graphiques ont été prouvées essentielles.L'objectif de cette thèse est d'étudier les problèmes dans le domaine de la fouille de graphes axés en particulier sur la conception de nouveaux algorithmes et d'outils liés à la diffusion d'informations et plus spécifiquement sur la façon de localiser des entités influentes dans des réseaux réels. Cette tâche est cruciale dans de nombreuses applications telles que la diffusion de l'information, les contrôles épidémiologiques et le marketing viral.Dans la première partie de la thèse, nous avons étudié les processus de diffusion dans les réseaux sociaux ciblant la recherche de caractéristiques topologiques classant les entités du réseau en fonction de leurs capacités influentes. Nous nous sommes spécifiquement concentrés sur la décomposition K-truss qui est une extension de la décomposition k-core. On a montré que les noeuds qui appartiennent au sous-graphe induit par le maximal K-truss présenteront de meilleurs proprietés de propagation par rapport aux critères de référence. De tels épandeurs ont la capacité non seulement d'influencer une plus grande partie du réseau au cours des premières étapes d'un processus d'étalement, mais aussi de contaminer une plus grande partie des noeuds.Dans la deuxième partie de la thèse, nous nous sommes concentrés sur l'identification d'un groupe de noeuds qui, en agissant ensemble, maximisent le nombre attendu de nœuds influencés à la fin du processus de propagation, formellement appelé Influence Maximization (IM). Le problème IM étant NP-hard, il existe des algorithmes efficaces garantissant l’approximation de ses solutions. Comme ces garanties proposent une approximation gloutonne qui est coûteuse en termes de temps de calcul, nous avons proposé l'algorithme MATI qui réussit à localiser le groupe d'utilisateurs qui maximise l'influence, tout en étant évolutif. L'algorithme profite des chemins possibles créés dans le voisinage de chaque nœud et précalcule l'influence potentielle de chaque nœud permettant ainsi de produire des résultats concurrentiels, comparés à ceux des algorithmes classiques.Finallement, nous étudions le point de vue de la confidentialité quant au partage de ces bons indicateurs d’influence dans un réseau social. Nous nous sommes concentrés sur la conception d'un algorithme efficace, correct, sécurisé et de protection de la vie privée, qui résout le problème du calcul de la métrique k-core qui mesure l'influence de chaque noeud du réseau. Nous avons spécifiquement adopté une approche de décentralisation dans laquelle le réseau social est considéré comme un système Peer-to-peer (P2P). L'algorithme est construit de telle sorte qu'il ne devrait pas être possible pour un nœud de reconstituer partiellement ou entièrement le graphe en utilisant les informations obtiennues lors de son exécution. Notre contribution est un algorithme incrémental qui résout efficacement le problème de maintenance de core en P2P tout en limitant le nombre de messages échangés et les calculs. Nous fournissons également une étude de sécurité et de confidentialité de la solution concernant la désanonymisation des réseaux, nous montrons ainsi la rélation avec les strategies d’attaque précédemment definies tout en discutant les contres-mesures adaptés.
Published: 2017

50. Data Mining and Official Statistics: The Past, the Present and the Future

Author: Emmanuel Sirimal Silva, Hossein Hassani, Gilbert Saporta, Bournemouth University [Poole] (BU), CEDRIC. Méthodes statistiques de data-mining et apprentissage (CEDRIC - MSDMA), Centre d'études et de recherche en informatique et communications (CEDRIC), and Ecole Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise (ENSIIE)-Conservatoire National des Arts et Métiers [CNAM] (CNAM)-Ecole Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise (ENSIIE)-Conservatoire National des Arts et Métiers [CNAM] (CNAM)
Subjects: Official statistics, Information Systems and Management, 02 engineering and technology, Statistiques officielles, Exploration de données, computer.software_genre, Data science, Computer Science Applications, Identification (information), Geography, Work (electrical), [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], 020204 information systems, 0202 electrical engineering, electronic engineering, information engineering, Data Mining, [INFO]Computer Science [cs], 020201 artificial intelligence & image processing, Data mining, computer, Information Systems
Abstract: Along with the increasing availability of large databases under the purview of National Statistical Institutes, the application of data mining techniques to official statistics is now a hot topic that is far more important at present than it was ever before. Presented in this article is a thorough review of published work to date on the application of data mining in official statistics, and on identification of the techniques that have been explored. In addition, the importance of data mining to official statistics is flagged and a summary of the challenges that have hindered its development over the course of the last two decades is presented.
Published: 2014

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Language

Publication Type

Journal

Region

Database

Publisher

166 results on '"Exploration de données"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources