240 results on '"Apprentissage profond"'
Search Results
2. Intelligence artificielle en hépatologie.
- Author
-
Mouliade, Charlotte, Cadranel, Jean-François, and Bedoya, José Ursic
- Abstract
Artificial intelligence (AI) is omnipresent in our daily lives and generates questions about its future place in medicine, in general, and in hepatology in particular. Numerous articles have been published in recent years on the subject, highlighting the potential role of AI, particularly in radiology for the diagnosis of hepatocellular carcinoma and hepatic dysmorphia, as well as in pathology. The use of AI will probably expand and play an increasingly important role at different stages of patient care: screening for cirrhosis in general medicine, predicting the risk of developing advanced fibrosis or esophageal varices. AI could also help identify the ideal candidate for a liver transplant for cirrhosis linked to an alcohol use disorder and interfere in the doctor-patient relationship by responding in a "more empathetic" way to questions asked by patients. This mini-review presents some applications of AI in our specialty. [ABSTRACT FROM AUTHOR]
- Published
- 2024
- Full Text
- View/download PDF
3. Apport de l'intelligence artificielle dans la prévision de croissance mandibulaire : revue systématique de la littérature.
- Author
-
Brouchet, Edouard, de Brondeau, François, Boileau, Marie-José, and Makaremi, Masrour
- Abstract
Copyright of Revue d'Orthopédie Dento-Faciale is the property of Parresia and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
- Full Text
- View/download PDF
4. La justice prédictive justice à l'ère de l'intelligence artificielle: Avantages et inconvénients.
- Author
-
Zaina, Ait-Ali
- Published
- 2023
5. Modèle tabulaire adaptatif de classement des outils intelligents d’aide à la conception architecturale
- Author
-
Roobaert Louis and Claeys Damien
- Subjects
intelligence artificielle ,conception architecturale ,tableau périodique ,apprentissage automatique ,apprentissage profond ,Social Sciences - Abstract
L’usage d’outils intelligents d’aide à la conception redéfinit les pratiques en conception architecturale. Pour permettre aux non-experts d’appréhender les fonctions et les combinaisons potentielles de ces différentes formes d’intelligence artificielle, un modèle de tableau périodique et adaptatif des outils intelligents est proposé et discuté. Pour révéler la pertinence du modèle, différentes variétés algorithmiques sont présentées et placées dans le tableau.
- Published
- 2024
- Full Text
- View/download PDF
6. Le phénotypage digital pour une pratique clinique en santé mentale mieux informée.
- Author
-
Bougeard, Alan, Hottin, Rose Guay, Houde, Valérie, Jean, Thierry, Piront, Thibault, Potvin, Stéphane, Bernard, Paquito, Tourjman, Valérie, De Benedictis, Luigi, and Orban, Pierre
- Abstract
Copyright of Sante Mentale au Quebec is the property of Revue Sante Mentale au Quebec and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2021
- Full Text
- View/download PDF
7. La traduction automatique neuronale et les biais de genre : le cas des noms de métiers entre l'italien et le français.
- Author
-
Marzi, Eleonora
- Subjects
ARTIFICIAL intelligence ,MACHINE translating ,TRANSLATING & interpreting ,ALGORITHMS ,ADJECTIVES (Grammar) - Abstract
Copyright of Synergies Italie is the property of GERFLINT (Groupe d'Etudes et de Recherches pour le Francais Langue Internationale) and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2021
8. L'intelligence artificielle au service des protocoles orthodontico-chirurgicaux.
- Author
-
PetitPas, L., Weissenbach, O., Makaremi, Masrour, and Bouletreau, Pierre
- Abstract
Copyright of Revue d'Orthopédie Dento-Faciale is the property of Parresia and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2021
- Full Text
- View/download PDF
9. Intelligence artificielle et droit d’auteur : le dilemme canadien
- Author
-
Jonnaert, Caroline and Gendreau, Ysolde
- Subjects
Apprentissage profond ,Artificial intelligence ,Originality ,Intellectual property ,Computational creativity ,Ownership ,Joint work ,Autorat ,Deep learning ,Intelligence artificielle ,Œuvre créée en collaboration ,Authorship ,Droit d’auteur ,Originalité ,Créativité computationnelle ,Copyright ,Propriété intellectuelle ,Titularité - Abstract
En 2016, un « nouveau Rembrandt » a été créé par intelligence artificielle dans le cadre du projet The Next Rembrandt. Grâce à la méthode d’apprentissage profond, un ordinateur a en effet permis la réalisation d’un tableau qui, selon les experts, aurait pu être créé par le maître hollandais. Ainsi, une création artistique a été conçue avec un programme d’intelligence artificielle, « en collaboration » avec des humains. Depuis, de nouvelles créations algorithmiques ont vu le jour, en minimisant chaque fois davantage l’empreinte créatrice humaine. Mais comment le droit d’auteur canadien encadre-t-il ou, le cas échéant, pourrait-il encadrer ce type de créations ? Voici la question générale à laquelle notre projet de recherche souhaite répondre. En dépit des récentes avancées technologiques et d’un certain abus de langage, l’intelligence artificielle n’est pas (encore) entièrement autonome (Chapitre liminaire). Il en résulte qu’un humain crée les dessous de l’œuvre, c’est-à-dire les règles dans le cadre duquel les créations sont produites. À l’heure actuelle, les créations « artificielles » sont donc issues d’un processus où l’algorithme agit comme simple outil. Partant, les principes classiques de droit d’auteur doivent s’appliquer à ces créations assistées par intelligence artificielle (Chapitre premier). En l’espèce, les critères d’originalité et d’autorat constituent les principaux obstacles à la protection de (certaines) créations algorithmiques. En outre, le processus collaboratif de création ne permet pas d’identifier systématiquement des co-auteurs faisant preuve « de talent et de jugement » (Chapitre deux). Dans ce contexte singulier, des juristes étrangers ont proposé des « solutions », afin de protéger les créations produites « artificiellement » par leurs régimes de droit d’auteur respectifs (Chapitre trois). La réception des propositions étrangères en sol canadien n’est toutefois pas souhaitable, car elle risque de fragiliser la cohérence interne de la Loi, ainsi que les fondements du régime. Dès lors, ces solutions ne permettent pas de résoudre la « problématique » des créations algorithmiques. Quelle devrait donc être la réponse canadienne ? Il s’agit de la question à laquelle nous répondons au Chapitre quatre. Afin de respecter l’intégrité du régime de droit d’auteur canadien, nous concluons que seules les créations répondant aux critères de la législation canadienne sur le droit d’auteur doivent être protégées. Les productions ne parvenant pas à respecter l’une ou l’autre des conditions de protection tomberaient, pour leur part, dans le domaine public. En dépit de ce constat, nous croyons que la constitution d’un régime sui generis, propre aux créations algorithmiques, pourrait être appropriée. Il appartiendra cependant au gouvernement canadien de décider si l’édification d’un tel régime est pertinente. Pour ce faire, il sera nécessaire d’obtenir des données probantes de la part des différentes parties prenantes. Il s’agit-là du dilemme auquel le Canada fait face., In 2016, a « new Rembrandt » was created with artificial intelligence as part of The Next Rembrandt project. Thanks to the deep learning method, a computer has indeed made it possible to make a painting that, according to experts, could have been created by the Dutch Master. Thus, an artistic creation was designed with an artificial intelligence program, « in collaboration » with humans. Since then, new algorithmic creations have emerged, each time further minimizing the human creative footprint. But how does or could the Canadian copyright regime protect this type of creation ? This is the general question that our research project wishes to answer. Despite recent technological advances and a certain abuse of language, artificial intelligence is not (yet) autonomous (Preliminary Chapter). As a result, a human creates the underside of the work, that is, the rules within which the creations are produced. At present, « artificial » creations are therefore the result of a process where the algorithm acts as a simple tool. Therefore, the classical principles of copyright should apply to such creations produced with computer assistance (Chapter One). In the present case, the conditions of originality and authorship constitute the main obstacles to the protection of (certain) algorithmic creations. In addition, the collaborative creative process does not systematically allow the identification of coauthors (Chapter Two). In this singular context, foreign authors have proposed solutions to protect these creations by their respective copyright regimes (Chapter Three). However, the adoption of these proposals in Canada is not desirable, as it may weaken the internal scheme of the Canadian copyright regime, as well as its foundations. As such, these solutions do not solve the « problem » of algorithmic 5 creations. What should be the Canadian response ? This is the question we answer in Chapter Four. In order to protect the integrity of the Canadian copyright regime, we conclude that only creations that meet the criteria of the Copyright Act should be protected. Productions that fail to comply with any of these conditions should fall into the public domain. Despite this observation, we believe that the constitution of a sui generis regime specific to algorithmic creations could be appropriate. Yet, it will be up to the Canadian government to decide whether the creation of such a regime is pertinent. This will require gathering evidence from different stakeholders. This is the dilemma that Canada is facing.
- Published
- 2023
10. Détection et suivi temps-réel d'objets 3D pour la smart mobilité routière et ferroviaire
- Author
-
Evain, Alexandre, Mauri, Antoine, Garnier, François, Kounouho, Messmer, Khemmar, Redouane, Haddad, Madjid, Boutteau, Rémi, Breteche, Sébastien, Ahmed-Ali, Sofiane, Institut de Recherche en Systèmes Electroniques Embarqués (IRSEEM), Université de Rouen Normandie (UNIROUEN), Normandie Université (NU)-Normandie Université (NU)-École Supérieure d’Ingénieurs en Génie Électrique (ESIGELEC), Pôle Instrumentation, Informatique et Systèmes, Normandie Université (NU)-Normandie Université (NU)-École Supérieure d’Ingénieurs en Génie Électrique (ESIGELEC)-Université de Rouen Normandie (UNIROUEN), Segula Technologies [France], Laboratoire d'Informatique, du Traitement de l'Information et des Systèmes (LITIS), Université Le Havre Normandie (ULH), Normandie Université (NU)-Normandie Université (NU)-Université de Rouen Normandie (UNIROUEN), Normandie Université (NU)-Institut national des sciences appliquées Rouen Normandie (INSA Rouen Normandie), Institut National des Sciences Appliquées (INSA)-Normandie Université (NU)-Institut National des Sciences Appliquées (INSA), Informatique, BioInformatique, Systèmes Complexes (IBISC), Université d'Évry-Val-d'Essonne (UEVE)-Université Paris-Saclay, Université de Toulon, Université d'Aix Marseille, INRIA, and LIS Toulon
- Subjects
estimation de la distance ,localisation d'objets ,détection multi-objets 3D ,apprentissage profond ,[INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV] ,3D Bounding Boxes Estimation ,estimation des boîtes englobantes 3D ,Détection d'objets 3D ,3D Multi-Object Detection ,Smart Mobility ,mobilité intelligente ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Deep Learning ,3D Object Detection ,Distance Estimation ,distillation de connaissances ,Knowledge Distillation ,Object Localization - Abstract
International audience; Three-dimensional (3D) real-time object detection and tracking is an important task in the case of autonomous vehicles and road and railway smart mobility in order to allow them to analyze their environment for navigation and obstacle avoidance purposes. In this paper, we try to improve the efficiency of 3D monocular object detection by using dataset combination, knowledge distillation, and creating a lightweight model. Firstly, we combine real and synthetic datasets to increase the diversity and richness of the training data. Then, we use knowledge distillation to transfer the knowledge from a large, pre-trained model to a smaller, lightweight model. Finally, we created a lightweight model by selecting the combinations of width, depth and resolution in order to reach a target complexity and computation time. Our experiments show that using each method improves either the accuracy or the efficiency of our model with no significant drawbacks. Using all these approaches is especially useful for resource-constrained environments, such as self-driving cars and railway systems.; La détection et le suivi d'objets tridimensionnels (3D) temps-réel est une tâche importante dans le cas des véhicules autonomes et de la mobilité intelligente routière et ferroviaire, afin de leur permettre d'analyser leur environnement à des fins de navigation et d'évitement d'obstacles. Dans cet article, nous essayons d'améliorer l'efficacité de la détection d'objets 3D monoculaire en utilisant la combinaison de jeux de données, la distillation de connaissances et la création d'un modèle léger. Tout d'abord, nous combinons des ensembles de données réelles et synthétiques pour augmenter la diversité et la richesse des données d'entraînement. Ensuite, nous utilisons la distillation des connaissances pour transférer les connaissances d'un grand modèle pré-entraîné vers un modèle plus petit et léger. Enfin, nous avons créé un modèle léger en sélectionnant les combinaisons de largeur, de profondeur et de résolution afin d'atteindre une complexité et un temps de calcul cibles. Nos expériences montrent que l'utilisation de chaque méthode améliore soit la précision, soit l'efficacité de notre modèle, sans inconvénient majeur. L'utilisation de toutes ces approches est particulièrement utile pour les environnements à ressources limitées, tels que les voitures à conduite autonome et les systèmes ferroviaires.
- Published
- 2023
11. L'intelligence artificielle au service de l'orthodontie : l'exemple de Dental Monitoring.
- Author
-
Petitpas, L. and Costi, Arnaud
- Abstract
Copyright of Revue d'Orthopédie Dento-Faciale is the property of Parresia and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2019
- Full Text
- View/download PDF
12. Intelligence artificielle et endoscopie : le meilleur des mondes ?
- Author
-
Dray, Xavier, Leenhardt, Romain, Histace, Aymeric, and Becq, Aymeric
- Abstract
Artificial intelligence (AI) aims to simulate the human intelligence. It is a cognitive science which relies on neurobiology, logical and critical thinking (problem solving, deep learning, neural networks), computing sciences (calculation, internet), and on databases. Big data exploitation (epidemiology, predictive medicine) and "signals" analysis (EKG, EEG, imaging, pathology, dermatology, ophthalmology...) were the first successful application of AI in healthcare, followed by government approval. AI has a vast spectrum of potential applications in digestive endoscopy as well. AI can be used for screening, diagnosis, characterization, treatment, and prognosis evaluation, in a wide array of procedures. The quantity of published work in this field is thriving. Computer-assisted detection and characterization of colonic polyps for instance, were amongst the first successful applications of AI, and should be commercially available shortly. The automated reading of a capsule endoscopy, based on a network of machine learning systems, is also very demonstrative of what AI will be able to accomplish in the next future. It is believed that AI will significantly improve diagnostic performances and thus the quality of care. Today, endoscopists should not only promote this technological revolution, but also address new issues in the field of AI, regarding the respective roles of physicians (focused on ethics and patient-relations) and AI-machines (assistants vs autonomous), as well as responsibility (physicians vs. manufacturing companies), and reimbursement (physician vs manufacturing companies). [ABSTRACT FROM AUTHOR]
- Published
- 2019
- Full Text
- View/download PDF
13. Décoder l’habileté perceptive dans le cerveau humain : contenu représentationnel et computations cérébrales
- Author
-
Faghel-Soubeyrand, Simon and Gosselin, Frédéric
- Subjects
Apprentissage profond ,Vision ,Super-recognisers ,Electroencephalography ,Deep learning ,Apprentissage automatique ,Facial recognition ,Prosopagnosia ,Différences individuelles ,RSA ,Psychophysique ,Super-recognizers ,Individual differences ,Machine learning ,Psychophysics ,Électroencéphalographie ,Prosopagnosie ,Reconnaissance Faciale - Abstract
La capacité à reconnaître les visages de nos collègues, de nos amis et de nos proches est essentielle à notre réussite en tant qu'êtres sociaux. Notre cerveau accomplit cet exploit facilement et rapidement, dans une série d’opérations se déroulant en quelques dizaines de millisecondes à travers un vaste réseau cérébral du système visuel ventral. L’habileté à reconnaître les visages, par contre, varie considérablement d’une personne à l’autre. Certains individus, appelés «super-recognisers», sont capables de reconnaître des visages vus une seule fois dans la rue des années plus tôt. D’autres, appelés «prosopagnosiques», sont incapables de reconnaître le visage de leurs collègues ou leurs proches, même avec une vision parfaite. Une question simple reste encore largement sans réponse : quels mécanismes expliquent que certains individus sont meilleurs à reconnaître des visages? Cette thèse rapporte cinq articles étudiant les mécanismes perceptifs (articles 1, 2, 3) et cérébraux (articles 4, 5) derrière ces variations à travers différentes populations d’individus. L’article 1 décrit le contenu des représentations visuelles faciales chez une population avec un diagnostic de schizophrénie et d’anxiété sociale à l’aide d’une technique psychophysique Bubbles. Nous révélons pour la première fois les mécanismes en reconnaissance des expressions de cette population: un déficit de reconnaissance est accompagné par i) une sous-utilisation de la région des yeux des visages expressifs et ii) une sous-utilisation des détails fins. L’article 2 valide ensuite une nouvelle technique permettant de révéler simultanément le contenu visuel dans trois dimensions psychophysiques centrales pour le système visuel — la position, les fréquences spatiales, et l’orientation. L’article 3 a mesuré, à l'aide de cette nouvelle technique, le contenu représentationnel de 120 individus pendant la discrimination faciale du sexe et des expressions ( >500,000 observations). Nous avons observé de fortes corrélations entre l’habileté à discriminer le sexe et les expressions des visages, ainsi qu'entre l’habileté à discriminer le sexe et l’identité. Crucialement, plus un individu est habile en reconnaissance faciale, plus il utilise un contenu représentationnel similaire entre les tâches. L’article 4 a examiné les computations cérébrales de super-recognisers en utilisant l’électroencéphalographie haute-densité (EEG) et l’apprentissage automatique. Ces outils ont permis de décoder, pour la première fois, l’habileté en reconnaissance faciale à partir du cerveau avec jusqu’à 80% d’exactitude –– et ce à partir d’une seule seconde d’activité cérébrale. Nous avons ensuite utilisé la Representational Similarity Analysis (RSA) pour comparer les représentations cérébrales de nos participants à celles de modèles d’apprentissage profond visuels et langagiers. Les super-recognisers, comparé aux individus avec une habileté typique, ont des représentations cérébrales plus similaires aux computations visuelles et sémantiques de ces modèles optimaux. L’article 5 rapporte une investigation des computations cérébrales chez le cas le plus spécifique et documenté de prosopagnosie acquise, la patiente PS. Les mêmes outils computationnels et d’imagerie que ceux de l’article 4 ont permis i) de décoder les déficits d’identification faciale de PS à partir de son activité cérébrale EEG, et ii) de montrer pour la première fois que la prosopagnosie est associée à un déficit des computations visuelles de haut niveau et des computations cérébrales sémantiques., The ability to recognise the faces of our colleagues, friends, and family members is critical to our success as social beings. Our brains accomplish this feat with astonishing ease and speed, in a series of operations taking place in tens of milliseconds across a vast brain network of the visual system. The ability to recognise faces, however, varies considerably from one person to another. Some individuals, called "super-recognisers", are able to recognise faces seen only once years earlier. Others, called "prosopagnosics", are unable to recognise the faces of their colleagues or relatives, even with perfect vision and typical intelligence. A simple question remains largely unanswered: what mechanisms explain why some individuals are better at recognizing faces? This thesis reports five articles studying the perceptual (article 1, 2, 3) and neural (article 4, 5) mechanisms behind these variations across different populations of individuals. Article 1 describes the content of visual representations of faces in a population with a comorbid diagnosis of schizophrenia and social anxiety disorder using an established psychophysical technique, Bubbles. We reveal for the first time the perceptual mechanisms of expression recognition in this population: a recognition deficit is accompanied by i) an underutilization of the eye region of expressive faces and ii) an underutilization of fine details. Article 2 then validates a new psychophysical technique that simultaneously reveals the visual content in three dimensions central to the visual system — position, spatial frequencies, and orientation. We do not know, however, whether skilled individuals perform well across a variety of facial recognition tasks and, if so, how they accomplish this feat. Article 3 measured, using the technique validated in article 2, the perceptual representations of 120 individuals during facial discrimination of gender and expressions (total of >500,000 trials). We observed strong correlations between the ability to discriminate gender and facial expressions, as well as between the ability to discriminate gender and identify faces. More importantly, we found a positive correlation between individual ability and the similarity of perceptual representations used across these tasks. Article 4 examined differences in brain dynamics between super-recognizers and typical individuals using high-density electroencephalography (EEG) and machine learning. These tools allowed us to decode, for the first time, facial recognition ability from the brain with up to 80% accuracy — using a mere second of brain activity. We then used Representational Similarity Analysis (RSA) to compare our participants' brain representations to those of deep learning models of object and language classification. This showed that super-recognisers, compared to individuals with typical perceptual abilites, had brain representations more similar to the visual and semantic computations of these optimal models. Article 5 reports an investigation of brain computations in the most specific and documented case of acquired prosopagnosia, patient PS. The same computational tools used in article 4 enabled us to decode PS's facial identification deficits from her brain dynamics. Crucially, associations between brain deep learning models showed for the first time that prosopagnosia is associated with deficits in high-level visual and semantic brain computations.
- Published
- 2023
14. Traitement de séries longitudinales pour l'imagerie médicale
- Author
-
Fakhfakh, Mohamed and Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE)
- Subjects
Apprentissage profond ,MCMC ,Ns-HMC ,Optimisation - Abstract
L'imagerie médicale ne cesse de profiter des progrès technologiques et scientifiques. Elle permet d’explorer le corps humain sans examens intrusifs et d'opérer avec grande précision. La mise en avant des innovations technologies durant ces dernières années a favorisé l’émergence de nouvelles techniques pour l’aide au diagnostic. Pour des fins de précisions, le diagnostic peut être réalisé aujourd’hui sur des séries longitudinales d’images. Durant ces années de thèse, trois contributions ont été proposées : Nous avons présenté une méthode de pronostic Covid-19 basée sur des architectures d'apprentissage en profondeur. La méthode proposée est basée sur la combinaison d'un réseau de neurones convolutifs et récurrents pour classifier des images radiographiques thoraciques multi-temporelles et prédire l'évolution de la pathologie pulmonaire observée. L’un des principaux défis dans les méthodes d’apprentissage est l’optimisation des poids du réseau. Dans ce contexte, nous avons développé une nouvelle méthode d'optimisation bayésienne permettant d'ajuster les poids des réseaux de neurones artificiels parcimonieux. La méthode proposée repose sur la dynamique hamiltonienne avec des régularisations non lisses. Par la suite, nous étendons dans la troisième contribution le schéma d’optimisation en proposant une fonction d’activation entraînable à l’aide des Chaîne de Markov Monte Carlo.
- Published
- 2023
15. Reconstruction rapide et précise de champs de Simulations des Grandes Echelles Thermiques par Apprentissage Profond
- Author
-
Zatout, Yanis, Toutant, Adrien, Mathelin, Lionel, Semeraro, Onofrio, and Bataille, Françoise
- Subjects
Turbulence ,Solaire ,Récepteurs Solaires ,Apprentissage Automatique ,Simulation Numérique Directe ,Apprentissage Profond ,Simulation des Grandes Echelles ,Réseaux de Neurones Convolutifs ,Hautes Températures - Abstract
Le développement des centrales solaires de nouvelle génération nécessite des récepteurs solaires à haute température. Une possibilité est d'utiliser un mélange de gaz sous pression comme fluide de transfert dans le récepteur solaire. La maîtrise des écoulements turbulents fortement anisothermes constitue alors un verrou scientifique pour le développement de ces centrales solaires. En effet, les couplages entre turbulence et température rendent la physique particulièrement complexe. Cet article étudie la reconstruction ou super-résolution de Simulation des Grandes Echelles Thermiques (SGE-T) par apprentissage machine (AM) dans la configuration d'un chauffage asymétrique dû au fait que le récepteur solaire n'a qu'une seule face soumise à la lumière solaire concentrée. La reconstruction intervient dans un objectif d'apprentissage cohérent, lorsqu'on évalue un modèle de tenseur de contraintes sous-mailles dans le contexte d'une SGE-T, il est nécessaire de pouvoir précisément le comparer avec un champ de référence SND sans faire appel à l'interpolation d'ordre 2 ou plus, trop coûteuse au vu de notre maillage. Cet algorithme sera ré-utilisé dans un futur article sur l'apprentissage d'opérateurs de le contexte des SGE-T. Les techniques préexistantes de reconstruction de champ sous-résolus sont peu précises vis-à-vis des statistiques du deuxième ordre ou plus élevées. Nous proposons d'entraîner un réseau de neurones à connaître la correction nécessaire à la reconstruction du champ de thermique SGE-T. A notre connaissance, il n'existe pas de modèles de reconstruction prenant en compte les distributions des statistiques comme fonction d'erreur. Par conséquent, le travail dans cet article correspond à l'adaptation de travail déjà présent en AM. En particulier, nous proposons d'adapter les fonctions d'erreur prise en compte lors de l'entraînement de notre réseau de neurones pour optimiser et améliorer la précision des champs reconstruits. Les métriques d'importance dans notre cas seront l'écart type de la température et du flux, en particulier aux parois pour nécessaire à l'obtention des contraintes thermomécaniques. Nous testons également différentes métriques de distances de distribution lors de l'apprentissage. A partir de base de données de SND, nous sommes capables d'apprendre à reconstruire les petites échelles en filtrant d'abord les SND, puis en les reconstruisant avec notre réseau de neurones. L'architecture du réseau de neurones correspond à un réseau de neurones convolutifs (RNC). La reconstruction apprise sera ensuite comparée aux méthodes de reconstruction classiques pour avoir un point de référence. Cette technique de reconstruction sera ensuite testée sur des champs de données SND d'une distribution différence non vue durant l'apprentissage pour évaluer sa capacité à généraliser.
- Published
- 2023
- Full Text
- View/download PDF
16. Réseaux de neurones profonds pour la reconstruction en IRM et la correction d'inhomogénéités de B₀ de l'imagerie pondérée en susceptibilité magnétique non cartésienne à 3 Tesla
- Author
-
Daval-Frerot, Guillaume, Building large instruments for neuroimaging: from population imaging to ultra-high magnetic fields (BAOBAB), Service NEUROSPIN (NEUROSPIN), Université Paris-Saclay-Direction de Recherche Fondamentale (CEA) (DRF (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Direction de Recherche Fondamentale (CEA) (DRF (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Philippe Ciuciu, and Alexandre Vignaud
- Subjects
Acquisitions non-Cartésiennes ,Apprentissage profond ,Correction d'effet hors-Resonance ,[SDV.IB.IMA]Life Sciences [q-bio]/Bioengineering/Imaging ,Imagerie pondérée en susceptibilité magnétique ,Trajectoires SPARKLING ,Reconstruction d'image IRM ,Deep learning ,Susceptibility-Weighted imaging ,Non-Cartesian imaging ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Off-Resonance correction ,[INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing ,SPARKLING trajectories ,MR image reconstruction - Abstract
Magnetic Resonance Imaging (MRI) became one of the most important imaging modalities by providing non-invasive and non-ionizing ways to probe soft tissues in the human body. Susceptibility-weighted imaging (SWI) is a remarkable MRI contrast used in brain venography or traumatic brain injuries that takes advantage of long echo times to enhance tissue magnetic susceptibility, which makes it slower to collect as compared to other contrasts. Recent progress in non-Cartesian design with the Spreading Projection Algorithm for Rapid K-space sampLING (SPARKLING) method enabled 3D trajectories to reach acceleration factors up to 20 as compared to fully-sampled Cartesian acquisitions by allowing a better exploration of the sampling domain with fewer but longer readouts. However, non-Cartesian trajectories are more sensitive to B₀ field inhomogeneities, also called off-resonance, induced by the air/tissue interfaces in the patients and long readouts that cause geometric distortions and image blurring. Hardware methods such as spherical harmonic shimming are helpful but limited, while alternative software-based post-processing approaches are either slow or incomplete and require the acquisition or estimation of a ΔB₀ field map.The objective of this PhD is to combine the theoretical guarantees of compressed sensing with parallel imaging and physics-driven off-resonance correction models in clinically acceptable post-processing times using modern deep learning methods. To this end, we proposed a ΔB₀ field map estimation robust to signal loss that competes with externally collected ΔB₀ field maps without needing any additional acquisition, solely based on physics properties. Then, we partnered with the Henri-Mondor hospital to collect a large SWI dataset and apply this method to provide self-corrected fast Full 3D SPARKLING SWI acquisitions. To tackle the slow reconstruction process, we developed physics-aware unrolled deep neural networks to cut down the computations from 8 hours to less than 10 minutes while ensuring stability of results. Finally, we extended the SPARKLING algorithm to better account for B₀ inhomogeneities and consequently making the acquisitions more robust and correctable at no additional scan time.; L'imagerie par résonance magnétique (IRM) est devenue l'une des modalités d'imagerie les plus importantes en fournissant des moyens non invasifs et non ionisants de sonder les tissus mous dans le corps humain. L'imagerie pondérée en susceptibilité magnétique (SWI) en particulier est un contraste IRM utilisé en phlébographie cérébrale ou pour les lésions cérébrales traumatiques et qui tire parti de longs temps d'écho pour réhausser la sensibilité à la susceptibilité magnétique des tissus, ce qui en ralentit l'acquisition par rapport à d'autres contrastes. Les progrès récents dans la conception de trajectoires non cartésiennes avec la méthode SPARKLING (Spreading Projection Algorithm for Rapid K-space sampLING) ont permis aux trajectoires d'atteindre en 3D des facteurs d'accélération jusqu'à 20 par rapport aux acquisitions cartésiennes standard en permettant une meilleure exploration du domaine d'échantillonnage avec des mesures moins nombreuses mais plus longues. Cependant, les trajectoires non cartésiennes sont plus sensibles aux inhomogénéités de champ B₀, également appelées effet hors-résonance, induites par les interfaces air/tissu chez les patients et les longues mesures qui provoquent des distorsions géométriques et un flou dans l'image. Les approches matérielles telles que le calage par harmoniques sphériques sont efficaces mais limitées, tandis que les approches logicielles de post-traitement sont lentes ou incomplètes et nécessitent l'acquisition ou l'estimation d'une carte de champ ΔB₀.L'objectif de cette thèse est de combiner les garanties théoriques de l'acquisition comprimée avec l'imagerie parallèle et des modèles physiques de correction d'effet hors résonance en des temps de post-traitement cliniquement acceptables grâce aux méthodes modernes d'apprentissage profond. Dans ce but, nous avons proposé une estimation de carte de champ ΔB₀ robuste à la perte de signal et qui concurrence les cartes de champ ΔB₀ collectées sans nécessiter d'acquisition supplémentaire, uniquement basée sur les propriétés physiques des données. Ensuite, nous nous sommes associés à l'hôpital Henri-Mondor pour collecter une base de données SWI et appliquer cette méthode pour fournir des acquisitions rapides Full 3D SPARKLING SWI auto-corrigées. Pour réduire le temps de reconstruction, nous avons développé des réseaux de neurones profonds "déroulés" basés sur la physique de l'IRM pour réduire les temps de calculs de 8 heures à moins de 10 minutes tout en assurant la stabilité des résultats. Enfin, nous avons étendu l'algorithme SPARKLING pour mieux prendre en compte les inhomogénéités de B₀ et par conséquent rendre les acquisitions plus robustes et corrigibles sans temps d'examen supplémentaire.
- Published
- 2022
17. Usages de l’apprentissage artificiel pour l’éducation
- Author
-
Bouchereau, Aymeric and Roxin, Ioan
- Subjects
knowledge ,apprentissage profond ,aprendizaje profundo ,"robo-ethics" ,inteligencia artificial ,"robo-ética" ,gobernabilidad ,intelligence artificielle ,AI ethics ,Artificial Intelligence ,pédagogie ,éthique ,technologies ,TIC ,education ,Régulation ,pratique ,gouvernance ,pedagogy ,IA ,digital ,ética ,connaissances ,deep learning ,regulation ,Inteligencia artificial (IA) ,éducation ,ethics ,Inteligencia artificial ,Gobernanza ,País en desarrollo ,UEMOA ,ética de la IA ,AI ,ICT ,technology ,pedagogía ,educación ,discours ,conocimiento - Abstract
Le développement rapide de l’Intelligence artificielle (IA) dans le domaine éducatif suscite de nombreuses attentes et craintes traduisant un besoin de régulation. L’apprentissage artificiel, à la base des systèmes d’IA, est utilisé afin de personnaliser l’apprentissage et d’automatiser des tâches d’enseignement. Cet article étudie les enjeux de régulation spécifiques à ces usages de l’apprentissage artificiel et montre qu’ils entraînent une encapsulation de connaissances en raison de plusieurs facteurs à la fois techniques et sociaux. Une approche de régulation by design de l’apprentissage artificiel est proposée pour limiter l’encapsulation des connaissances en partant de l’analyse d’un dispositif pédagogique existant. The rapid development of Artificial Intelligence (AI) in the field of education raises many expectations and concerns reflecting the need for regulation. Artificial learning, the basis of AI systems, is used to personalise learning and to automate teaching tasks. This article examines the regulatory issues specific to these uses of artificial learning and shows that they lead to knowledge encapsulation due to several factors, both technical and social. A regulation by design approach to artificial learning is proposed to limit knowledge encapsulation based on the analysis of an existing pedagogical device. El rápido desarrollo de la Inteligencia Artificial (IA) en el ámbito de la educación suscita muchas expectativas y temores, lo que refleja la necesidad de regulación. El aprendizaje artificial, base de los sistemas de IA, se utiliza para personalizar el aprendizaje y automatizar las tareas de enseñanza. Este artículo examina las cuestiones de regulación específicas de estos usos del aprendizaje artificial y muestra que conducen a la encapsulación del conocimiento debido a varios factores, tanto técnicos como sociales. Se propone un enfoque de regulación por diseño del aprendizaje artificial para limitar la encapsulación del conocimiento, basado en el análisis de un dispositivo pedagógico existente.
- Published
- 2022
18. Explicabilité en Intelligence Artificielle ; vers une IA Responsable
- Author
-
Racoceanu, Daniel, Ounissi, Mehdi, Kergosien, Yannick, Sorbonne Université (SU), Institut du Cerveau = Paris Brain Institute (ICM), Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-CHU Pitié-Salpêtrière [AP-HP], Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Sorbonne Université (SU)-Sorbonne Université (SU)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Algorithms, models and methods for images and signals of the human brain (ARAMIS), Sorbonne Université (SU)-Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut du Cerveau = Paris Brain Institute (ICM), Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Sorbonne Université (SU)-Sorbonne Université (SU)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-CHU Pitié-Salpêtrière [AP-HP], Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Sorbonne Université (SU)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Université de Cergy Pontoise (UCP), and Université Paris-Seine
- Subjects
Machine Learning ,Deep Learning ,Intelligence Artificielle Explicable ,Intelligence Artificielle Responsable ,Explainable Artificial Intelligence ,Apprentissage Automatique ,Apprentissage Profond ,Responsible Artificial Intelligence ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; Essential for a good adoption, as well as for a wise and unbiased use, explicability is a real technology lock to the evolution of Artificial Intelligence (AI), in particular concerning Machine and Deep Learning. Without an effective explicability of the proposed algorithms, these techniques will remain a black box for health (and not only) professionals, researchers, engineers and technicians - who assume (and will continue to assume) the full responsibility of their actions. Increasingly, engineers and designers of AI tools will have to demonstrate their responsibility by providing algorithms that guarantee the explicability of the proposed models. This article presents the motivations of an explainable AI, the main characteristics of the conceptual landscape of explainability in AI, the major families of explainability methods - with a focus on some of the most common methods, to finally present some of the opportunities, challenges and perspectives of this exciting field of human-machine interaction. Indeed, only through a good understanding of the challenges associated with this technological revolution that we will be able to transform AI into assets for our companies as well as for our human actors, partners and customers.; Essentielle pour une adoption efficace comme pour une utilisation avisée et objective de l'Intelligence Artificielle (IA), l'explicabilité est un véritable verrou de l'évolution de ces technologies, en particulier concernant l'apprentissage automatique et profond. Sans une réelle explicabilité des algorithmes proposés, ces technologies resteront une boîte noire pour les professionnels de santé (et pas seulement), chercheurs, ingénieurs, techniciens - qui assument (et vont continuer à assumer) la pleine responsabilité de leurs actes.De plus en plus, les ingénieurs exploitants et concepteurs d'outils d'IA devront donc faire preuve de responsabilité, en fournissant des algorithmes permettant de garantir l'explicabilité des modèles proposés.Cet article présente les motivations d'une IA explicable, les principales caractéristiques du paysage conceptuel de l'explicabilité en IA, les grandes familles de méthodes pour l'explicabilité - avec un focus sur quelques méthodes parmi les plus courantes, pour finir sur un aperçu des opportunités, challenges et perspectives de ce domaine passionnant de l'interaction homme-machine.En effet, c'est uniquement par une bonne compréhension des challenges associés à cette révolution technologique que nous pourrons la transformer en atout pour nos entreprises ainsi que pour l'ensemble de nos acteurs, partenaires et clients humains.
- Published
- 2022
19. Quelques contributions à la théorie de l'apprentissage profond : optimisation, robustesse et approximation
- Author
-
Achour, El Mehdi, Institut de Mathématiques de Toulouse UMR5219 (IMT), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS), Université Paul Sabatier - Toulouse III, François Malgouyres, and Sébastien Gerchinovitz
- Subjects
Optimization ,Apprentissage profond ,Robustesse ,Réseaux de neurones ,Deep learning ,Optimisation ,[MATH.MATH-OC]Mathematics [math]/Optimization and Control [math.OC] ,Robustness ,Approximation ,Neural networks - Abstract
In this thesis, we study different theoretical aspects of deep learning, in particular optimization, robustness, and approximation. Optimization: We study the optimization landscape of the empirical risk of deep linear neural networks with the square loss. It is known that, under weak assumptions, there are no spurious local minima and no local maxima. However, the existence and diversity of non-strict saddle points, which can play a role in first-order algorithms' dynamics, have only been lightly studied. We go a step further with a full analysis of the optimization landscape at order 2. We characterize, among all critical points, which are global minimizers, strict saddle points, and non-strict saddle points. We enumerate all the associated critical values. The characterization is simple, involves conditions on the ranks of partial matrix products, and sheds some light on global convergence or implicit regularization that have been proved or observed when optimizing linear neural networks. In passing, we provide an explicit parameterization of the set of all global minimizers and exhibit large sets of strict and non-strict saddle points. Robustness: We study the theoretical properties of orthogonal convolutional layers. We establish necessary and sufficient conditions on the layer architecture guaranteeing the existence of an orthogonal convolutional transform. The conditions prove that orthogonal convolutional transforms exist for almost all architectures user in practice for 'circular' padding. We also exhibit limitations with 'valid' boundary conditions and 'same' boundary conditions with zero-padding. Recently, a regularization term imposing the orthogonality of convolutional layers has been proposed, and impressive empirical results have been obtained in different applications cite{wang2020orthogonal}. The second motivation is to specify the theory behind this. We make the link between this regularization term and orthogonality measures. In doing so, we show that this regularization strategy is stable with respect to numerical and optimization errors and that, in the presence of small errors and when the size of the signal/image is large, the convolutional layers remain close to isometric. The theoretical results are confirmed with experiments and the landscape of the regularization term is studied. Experiments on real datasets show that when orthogonality is used to enforce robustness, the parameter multiplying the regularization term can be used to tune a tradeoff between accuracy and orthogonality, for the benefit of both accuracy and robustness. Altogether, the study guarantees that the regularization proposed in (Wang et al. 2020) is an efficient, flexible and stable numerical strategy to learn orthogonal convolutional layers. Approximation: We study the fundamental limits to the expressive power of neural networks. Given two sets dollarFdollar, dollarGdollar of real-valued functions, we first prove a general lower bound on how well functions in dollarFdollarcan be approximated in dollarL^p(mu) dollar norm by functions in dollarGdollar, for any dollarp geq 1dollar and any probability measure dollarmudollar. The lower bound depends on the packing number of dollarFdollar, the range of dollarFdollar, and the fat-shattering dimension of dollarGdollar. We then instantiate this bound to the case where dollarGdollar corresponds to a piecewise-polynomial feed-forward neural network, and describe in details the application to two sets dollarFdollar: Hölder balls and multivariate monotonic functions. Beside matching (known or new) upper bounds up to log factors, our lower bounds shed some light on the similarities or differences between approximation in dollarL^pdollar norm or in sup norm, solving an open question by (DeVore et al. 2021).; Dans cette thèse, nous étudions différents aspects théoriques de l'apprentissage profond, en particulier l'optimisation, la robustesse et l'approximation. Optimisation: Nous étudions le paysage d'optimisation du risque empirique des réseaux neuronaux linéaires profonds avec la perte des moindres carrées. Il est connu que, sous des hypothèses faibles, il n'y a pas de minimiseurs locaux non-globaux et pas de maximiseurs locaux. Cependant, l'existence et la diversité des points selle non-stricts, qui peuvent jouer un rôle dans la dynamique des algorithmes du premier ordre, n'ont été que peu étudiées. Nous fournissons une analyse complète du paysage d'optimisation à l'ordre 2. Nous caractérisons, parmi tous les points critiques, les minimiseurs globaux, les points-selles stricts et les points-selles non stricts. Nous énumérons toutes les valeurs critiques associées. La caractérisation est simple, elle implique des conditions sur les rangs des produits partiels de matrices, et éclaire la convergence globale ou la régularisation implicite qui ont été prouvées ou observées lors de l'optimisation de réseaux neuronaux linéaires. Au passage, nous fournissons une paramétrisation explicite de l'ensemble de tous les minimiseurs globaux et exposons de grands ensembles de points selle stricts et non stricts. Robustesse: Nous étudions les propriétés théoriques des couches convolutives orthogonales. Nous établissons des conditions nécessaires et suffisantes sur l'architecture de la couche garantissant l'existence d'une transformée convolutive orthogonale. Ces conditions prouvent que les transformées convolutives orthogonales existent pour presque toutes les architectures utilisées en pratique pour le padding "circulaire". Nous montrons également des limitations avec des conditions aux bords "valid" et des conditions aux bords "same" avec un zero-padding. Récemment, un terme de régularisation imposant l'orthogonalité des couches convolutives a été proposé, et des résultats empiriques impressionnants ont été obtenus dans différentes applications : (Wang et al. 2020). Nous faisons le lien entre ce terme de régularisation et les mesures d'orthogonalité. Ce faisant, nous montrons que cette stratégie de régularisation est stable vis-à-vis des erreurs numériques et d'optimisation et que, en présence de petites erreurs et lorsque la taille du signal/de l'image est grande, les couches convolutives restent proches de l'isométrie. Les résultats théoriques sont confirmés par des expériences et le paysage du terme de régularisation est étudié. Les expériences sur des jeux de données réels montrent que lorsque l'orthogonalité est utilisée pour renforcer la robustesse, le paramètre multipliant le terme de régularisation peut être utilisé pour régler un compromis entre la précision et l'orthogonalité, au profit de la précision et de la robustesse. Approximation: Nous étudions les limites fondamentales du pouvoir expressif des réseaux de neurones. Étant donné deux ensembles F, G de fonctions à valeurs réelles, nous prouvons d'abord une limite inférieure générale sur la façon dont les fonctions de F peuvent être approximées en norme L^p par des fonctions de G. La borne inférieure dépend du "packing number" de F, de l'étendue de F, et de la "fat-shattering dimension" G. Nous instancions ensuite cette borne au cas où G correspond à un réseau de neurones feedforward dont la fonction d'activation est polynomiale par morceaux, et décrivons en détail l'application à deux ensembles F : les boules de Hölder et les fonctions monotones multivariées. En plus de correspondre aux limites supérieures (connues ou nouvelles) à des facteurs logarithmiques près, nos limites inférieures éclairent les similitudes ou les différences entre l'approximation en norme L^p et en norme sup, résolvant ainsi une question ouverte par (DeVore et al. 2021).
- Published
- 2022
20. Comment évaluer les bénéfices nets des solutions d’IA pour l’environnement ?
- Author
-
Ligozat, Anne-Laure, Bugeau, Aurélie, Lefèvre, Julien, Combaz, Jacques, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Institut Universitaire de France (IUF), Ministère de l'Education nationale, de l’Enseignement supérieur et de la Recherche (M.E.N.E.S.R.), Laboratoire Bordelais de Recherche en Informatique (LaBRI), Université de Bordeaux (UB)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Centre National de la Recherche Scientifique (CNRS), Université de Bordeaux (UB), Aix Marseille Université (AMU), VERIMAG (VERIMAG - IMAG), Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS), Ecole Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise (ENSIIE), Information, Langue Ecrite et Signée (ILES), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), and Université Grenoble Alpes (UGA)
- Subjects
Apprentissage profond ,Intelligence artficielle ,Apprentissage automatique ,Impacts environnementaux ,Analyse de cycle de vie ,[SDE.ES]Environmental Sciences/Environmental and Society ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; L’intelligence artificielle (IA) est aujourd’hui souvent considérée comme un des outils à utiliser pour résoudre les problèmes environnementaux. En particulier, elle pourrait permettre de réduire les émissions de gaz à effet de serre (GES) dans plusieurs secteurs comme l'agriculture ou les transports. Mais la mise en place et l’utilisation de solutions basées sur l'IA peuvent nécessiter beaucoup d’énergie et d’équipements, qui ont eux aussi un impact sur l’environnement. Alors comment évaluer les bénéfices nets complets de telles solutions d’IA sur l’environnement ?
- Published
- 2022
21. Méthode d'apprentissage profond pour l'analyse génomique des cancers canins comme modèle des cancers humains
- Author
-
Kergal, Camille, Institut de Génétique et Développement de Rennes (IGDR), Université de Rennes (UR)-Centre National de la Recherche Scientifique (CNRS)-Structure Fédérative de Recherche en Biologie et Santé de Rennes ( Biosit : Biologie - Santé - Innovation Technologique ), Université de Rennes, Christophe Hitte, and Thomas Derrien
- Subjects
Apprentissage profond ,Génomique ,Modèle animal ,Deep learning ,Genomics ,Species model ,Cancers ,[SDV.MHEP]Life Sciences [q-bio]/Human health and pathology - Abstract
Deep learning (DL) methods have recently been shown to be powerful strategies for predicting the regulatory activity of a genomic sequence and thus for ultimately assessing the impact of regulatory mutations on gene expression. The Basenji tool proposes a DL approach using convolutional neural networks to predict the expression level of human genes. We adapted this program to train a dog-specific gene expression model and showed that this model achieved similar performance to that observed in humans, with high correlations between real and predicted expression levels (r=0.66). To predict the ex- pression level of canine genes, we show that the canine prediction model (within-species approach) leads to better performances than the human model (cross-species approach), particularly due to some specific features of canine sequences (GC content, transposable elements and evolutionary conservation). As the dog is a spontaneous model for human cancers, we used these models to predict the impact of non-coding mutations on the expression of genes involved in cancers. We identified 1301 common mutations to both humans and dogs, suggesting a functional role in the regulation of the expression of genes involved in cancer. Finally, models and tools to exploit them are available on GitHub: https://github.com/ckergal/BLIMP.; Les méthodes d’apprentissage profond (DL) se sont récemment révélées être de puissantes stratégies pour prédire l’activité régulatrice d’une séquence génomique et donc pour, in fine, évaluer l’impact des mutations régulatrices sur l’expression des gènes. L’outil Basenji propose une approche DL utilisant des réseaux de neurones convolutifs pour prédire le niveau d’expression de gènes humains. Nous avons adapté ce programme pour entraîner un modèle d’expression génique spécifique au chien et montré que ce modèle de prédiction atteignait des performances similaires à celles observées chez l’homme, avec des corrélations élevées entre les niveaux d’expression réels et ceux pré- dits (r=0,66). Pour prédire le niveau d’expression de gènes canins, nous démontrons également que l’utilisation du modèle de prédiction canin (approche intra-espèce) aboutit à de meilleures performances que le modèle humain (approche inter-espèce), notamment en lien avec certaines caractéristiques spécifiques aux séquences canines (niveau de GC, d’éléments transposable et conservation évolutive). Le chien étant un modèle naturel pour l’étude des cancers humains, nous avons également exploité ces modèles pour prédire l’impact de mutations non-codantes sur l’expression de gènes impliqués dans les cancers. Nous avons ainsi localisé 1301 mutations communes entre l’homme et le chien, suggérant un rôle fonctionnel dans la régulation de l’expression de gènes impliqués dans les cancers. Finalement, nos modèles et les outils pour les exploiter sont disponibles sur GitHub : https://github.com/ckergal/BLIMP.
- Published
- 2022
22. Interprétation de l'apprentissage profond pour la prédiction de phénotypes à partir de données d'expression de gènes
- Author
-
Bourgeais, Victoria, Informatique, BioInformatique, Systèmes Complexes (IBISC), Université d'Évry-Val-d'Essonne (UEVE)-Université Paris-Saclay, Université Paris-Saclay, Blaise Hanczar, and Farida Zehraoui
- Subjects
Apprentissage profond ,Precision medicine ,Connaissances a priori ,Interpretation ,Interprétation ,Deep learning ,Gene expression ,Données d'expression de gènes ,Médecine de précision ,[INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM] ,[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,Prior knowledge - Abstract
Deep learning has been a significant advance in artificial intelligence in recent years. Its main domains of interest are image analysis and natural language processing. One of the major future challenges of this approach is its application to precision medicine. This new form of medicine will make it possible to personalize each stage of a patient's care pathway according to his or her characteristics, in particular molecular characteristics such as gene expression data that inform about the cellular state of a patient. However, deep learning models are considered black boxes as their predictions are not accompanied by an explanation, limiting their use in clinics. The General Data Protection Regulation (GDPR), adopted recently by the European Union, imposes that the machine learning algorithms must be able to explain their decisions to the users. Thus, there is a real need to make neural networks more interpretable, and this is particularly true in the medical field for several reasons. Understanding why a phenotype has been predicted is necessary to ensure that the prediction is based on reliable representations of the patients rather than on irrelevant artifacts present in the training data. Regardless of the model's effectiveness, this will affect any end user's decisions and confidence in the model. Finally, a neural network performing well for the prediction of a certain phenotype may have identified a signature in the data that could open up new research avenues.In the current state of the art, two general approaches exist for interpreting these black-boxes: creating inherently interpretable models or using a third-party method dedicated to the interpretation of the trained neural network. Whatever approach is chosen, the explanation provided generally consists of identifying the important input variables and neurons for the prediction. However, in the context of phenotype prediction from gene expression, these approaches generally do not provide an understandable explanation, as these data are not directly comprehensible by humans. Therefore, we propose novel and original deep learning methods, interpretable by design. The architecture of these methods is defined from one or several knowledge databases. A neuron represents a biological object, and the connections between neurons correspond to the relations between biological objects. Three methods have been developed, listed below in chronological order.Deep GONet is based on a multilayer perceptron constrained by a biological knowledge database, the Gene Ontology (GO), through an adapted regularization term. The explanations of the predictions are provided by a posteriori interpretation method.GraphGONet takes advantage of both a multilayer perceptron and a graph neural network to deal with the semantic richness of GO knowledge. This model has the capacity to generate explanations automatically.BioHAN is only established on a graph neural network and can easily integrate different knowledge databases and their semantics. Interpretation is facilitated by the use of an attention mechanism, enabling the model to focus on the most informative neurons.These methods have been evaluated on diagnostic tasks using real gene expression datasets and have shown competitiveness with state-of-the-art machine learning methods. Our models provide intelligible explanations composed of the most contributive neurons and their associated biological concepts. This feature allows experts to use our tools in a medical setting.; L'apprentissage profond est une avancée majeure de l'intelligence artificielle de ces dernières années. Ses domaines de prédilection sont principalement l'analyse d'image et le traitement du langage naturel. Un des futurs enjeux majeurs de cette approche est son application à la médecine de précision. Cette nouvelle forme de médecine permettra de personnaliser chaque étape du parcours de soin d'un patient en fonction de ses caractéristiques, notamment moléculaires telles que les données d'expression de gènes qui informent de l'état cellulaire d'un patient. Les modèles d'apprentissage profond sont néanmoins considérés comme des boîtes noires où aucune explication n'est fournie à la prédiction calculée. L'Union Européenne a adopté récemment un texte imposant aux algorithmes d'apprentissage automatique d'être capables d'expliquer leurs décisions aux utilisateurs. Il y a donc un réel besoin de rendre les réseaux de neurones plus interprétables et cela est particulièrement vrai dans le domaine médical pour différentes raisons. D'une part, pour s'assurer que le modèle se base sur des représentations fiables des patients et ne se concentre pas sur des artefacts non pertinents présents dans les données d'apprentissage. Ensuite, cela permettrait de rendre les différents utilisateurs (médecins, patients, chercheurs…) confiants dans leur utilisation de ce modèle. Enfin, un réseau de neurones performant pour la prédiction d'un certain phénotype peut avoir identifié une signature dans les données qui pourrait ouvrir sur de nouvelles pistes de recherche. Dans l'état de l'art actuel, il existe deux approches pour interpréter les réseaux neurones : en créant des modèles qui sont par essence interprétables, ou en ayant recours a posteriori à une méthode tierce dédiée à l'interprétation du réseau de neurones déjà appris. Quelle que soit la méthode choisie, l'explication fournie consiste généralement en l'identification des variables d'entrée et des neurones importants pour la prédiction. Or, dans le cas d'une application sur les données d'expression de gènes, cela n'est pas suffisant, car ces données sont difficilement compréhensibles par l'homme. Nous proposons ainsi de nouvelles méthodes originales d'apprentissage profond, interprétables par construction. L'architecture de ces méthodes est définie à partir d'une ou plusieurs bases de connaissances. Un neurone y représente un objet biologique et les connexions entre les neurones correspondent aux relations entre les objets biologiques. Trois méthodes ont été développées, listées ci-dessous dans l'ordre chronologique. La méthode Deep GONet se base sur un perceptron multicouche contraint par une base de connaissance biologique, la Gene Ontology (GO), par l'intermédiaire d'un terme de régularisation adapté. Les explications des prédictions sont fournies par une méthode d'interprétation a posteriori. La méthode GraphGONet tire parti à la fois d'un perceptron multicouche et d'un réseau de neurones de graphes afin d'exploiter au maximum la richesse sémantique de la connaissance GO. Ce modèle a la capacité de rendre automatiquement des explications. La méthode BioHAN ne se base plus que sur un réseau de neurones de graphes et peut facilement intégrer différentes bases de connaissances et leur sémantique. L'interprétation est facilitée par le recours aux mécanismes d'attention orientant le modèle à se concentrer sur les neurones les plus informatifs. Ces méthodes ont été évaluées sur des tâches de diagnostic à partir de jeux de données d'expression de gènes réelles et ont montré leur compétitivité par rapport aux méthodes d'apprentissage automatique de l'état de l'art. Nos modèles fournissent des explications intelligibles composées des neurones les plus importants et des concepts biologiques qui leur sont associés. Cette caractéristique permet aux experts d'utiliser nos outils dans un cadre médical.
- Published
- 2022
23. L’éthique située de l’IA et ses controverses
- Author
-
Manuel Zacklad, Antoinette Rouvroy, Dispositifs d'Information et de Communication à l'Ère du Numérique - Paris Île-de-France (DICEN-IDF), Université Paris Nanterre (UPN)-Conservatoire National des Arts et Métiers [CNAM] (CNAM), HESAM Université - Communauté d'universités et d'établissements Hautes écoles Sorbonne Arts et métiers université (HESAM)-HESAM Université - Communauté d'universités et d'établissements Hautes écoles Sorbonne Arts et métiers université (HESAM)-Université Gustave Eiffel, Centre de Recherche Information, Droit et Société (CRIDS), Université de Namur [Namur] (UNamur), and HESAM Université - Communauté d'universités et d'établissements Hautes écoles Sorbonne Arts et métiers université (HESAM)-HESAM Université - Communauté d'universités et d'établissements Hautes écoles Sorbonne Arts et métiers université (HESAM)-Université Paris-Est Marne-la-Vallée (UPEM)
- Subjects
intelligence artificielle ,apprentissage profond ,controverse ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,Geography, Planning and Development ,éthique située ,éthique ,situated ethic ,deep learning ,ethic ,Development ,artificial intelligence ,controversy - Abstract
Pour aborder la manière dont l’IA affecte le quotidien, nous nous positionnerons dans une approche pragmatique de l’éthique, que nous appellerons éthique située, qui nous semble une alternative à des approches incantatoires courant de « l’IA éthique » qui suscite un certain nombre de critiques pointant un risque « d’éthique-washing ». Après une présentation des principes de l’éthique située qui ne sépare pas « royaume des valeurs » du « monde des faits » nous rappellerons les enjeux particuliers de l’IA connexionniste et la diversité de ses applications dans des situations quotidiennes. Enfin, nous introduirons les six espaces de controverses de l’éthique située de l’IA. To address the way in which AI affects everyday life, we will position ourselves in a pragmatic approach to ethics, which we will call situated ethics, which seems to us an alternative to the incantatory approaches common to “ethical AI” which arouses a a number of critics pointing to a risk of “ethics-washing”. After a presentation of the principles of situated ethics which does not separate the “realm of values” from the “world of facts”, we will recall the particular issues of connectionist AI and the diversity of its applications in everyday situations. Finally, we will introduce the six space of shared controversy of the situated ethics of connectionist AI.
- Published
- 2022
- Full Text
- View/download PDF
24. Les enjeux d'une nouvelle interface.
- Author
-
Guiral-Desnoës, H. and Makaremi, M.
- Abstract
Copyright of Revue d'Orthopédie Dento-Faciale is the property of Parresia and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2018
- Full Text
- View/download PDF
25. Intelligence artificielle & Sciences humaines et sociales (SHS)
- Author
-
Sauret, Nicolas, Huma-Num : la TGIR des humanités numériques (Huma-Num), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), Labex Les passés dans le présent (Labex PasP), and Université Paris 1 Panthéon-Sorbonne (UP1)-Université Paris 8 Vincennes-Saint-Denis (UP8)-Université Paris Nanterre (UPN)-Bibliothèque nationale de France (BnF)-Institut National de l'Audiovisuel (INA)-Musée d'Archéologie Nationale-Musée du quai Branly – Jacques Chirac (MQBJC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris Lumières (UPL)-Archives nationales
- Subjects
Patrimoine ,Apprentissage profond ,intelligence artificielle ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,epistémologie du numérique ,données massives ,[SHS]Humanities and Social Sciences - Abstract
International audience; L’intelligence artificielle s’impose désormais dans tous les domaines des sciences humaines et sociales, lesquelles accueillent cette nouvelle approche à la fois en tant que méthodologie de traitement des données, et en tant qu’objet de recherche à part entière. Signe d’un second tournant numérique de la recherche, cet engouement témoigne de la convergence entre les besoins en traitement massif des données de la recherche et des archives patrimoniales, après les larges campagnes de numérisation opérées lors de ces dernières décennies, et avec la maturation des méthodes d’apprentissage automatique et profond. Pour autant, cette accessibilité des méthodes de l’IA n’est pas sans poser certains défis aux communautés SHS : défis en termes de compétences et de ressources nécessaires, mais aussi en termes d’enjeux scientifiques, épistémologiques et éthiques.
- Published
- 2022
- Full Text
- View/download PDF
26. Détection multiple de points de fuite horizontaux par deep learning
- Author
-
Elassam, A, Simon, G, Berger, M.-O, Recalage visuel avec des modèles physiquement réalistes (TANGRAM), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Department of Algorithms, Computation, Image and Geometry (LORIA - ALGO), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Apprentissage profond ,Deep Learning ,Computer Vision ,Points de fuite ,Vision par ordinateur ,[INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV] ,[INFO]Computer Science [cs] ,Vanishing points - Abstract
National audience; We investigate in this paper the application of convolutional neural networks (CNN) for estimating multiple horizontal vanishing points (hVPs) from a single RGB image. Motivated by the success of recent works that use learningbased techniques for horizon line detection, we first propose a method for hVP detection that integrates CNN’s power and the robustness of the a-contrario method for extracting meaningful hVPs. To detect multiple hVPs and take advantage of the surface normal map’s structural information, we propose a multi-task model that estimates the horizon line jointly, hVPs and the surface normal map from a single RGB image. Finally, we introduce a fusion process to recover a more extensive set of hVPs while avoiding duplicate ones.We evaluate our method thoroughly on the Holicity dataset containing ground-truth surface normal maps and VPs. We also compare it to a state-of-the-art algorithm for hVP detection.; Dans cet article, nous proposons des réseaux de neurones convolutionnels (CNN) pour l'estimation de plusieurs points de fuite horizontaux (PFh) à partir d'une seule image. Motivés par le succès des travaux récents qui utilisent des techniques basées sur l'apprentissage pour la détection des lignes d'horizon, nous proposons d'abord une méthode de détection des PFh qui intègre la puissance des CNN et la robustesse des méthodes a-contrario pour extraire des PFh significatifs. Pour détecter plusieurs PFh et tirer parti des informations structurelles de la carte des normales de surface, nous proposons un modèle multitâches qui estime conjointement la ligne d'horizon, les points de fuite horizontaux et la carte des normales de surface à partir d'une seule image. Enfin, nous introduisons un processus de fusion pour récupérer un ensemble plus étendu de points de fuite tout en évitant les doublons. Nous évaluons notre méthode de manière approfondie sur l'ensemble de données Holicity contenant des carte des normales et la vérité terrain des points de fuite. Nous la comparons également à une méthode de référence.
- Published
- 2022
27. Analyse multimodale de situations conflictuelles en contexte véhicule
- Author
-
Portes, Quentin, Équipe Robotique, Action et Perception (LAAS-RAP), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT), Université Paul Sabatier - Toulouse III, Frédéric Lerasle, Julien Pinquier, and STAR, ABES
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Apprentissage profond ,Interactions ,Deep learning ,Audio-vidéo ,Système embarqué ,[INFO.INFO-ES] Computer Science [cs]/Embedded Systems ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Audio-vide ,Multimodal ,Intéractions ,[INFO.INFO-ES]Computer Science [cs]/Embedded Systems ,Fusion ,Embedded system - Abstract
In this thesis we study human interactions in order to identify potential aggression situations in the vehicle cabin. Humans most commonly use sight and hearing to analyze interactions. This task seems trivial, but is complex for an artificial intelligence model. It must capture video and audio information and analyze it to predict a conflictual situation. Our approach is new compared to previous research on this topic since passengers are constrained in their movements in the cabin and the computing power on board for this task is limited. To our knowledge, no work has been done on the analysis of human interactions for conflictual situation detection in this context and with these constraints. Our investigations are first based on a public corpus of sentiment analysis to compare with the literature. We implement a model capable of ingesting video, audio and text data (audio transcription) to merge them and make a decision. In our application context, we then record a multimodal dataset of human interactions simulating more or less conflictual situations in a vehicle cockpit. This database is exploited to implement end-to-end and parametric classification models. The results obtained are consistent with the literature on the impact of each modality on the system performance. Thus, text is respectively more informative than audio and video. The different fusion approaches implemented show significant benefits on the performance of single-modality classification., Dans cette thèse nous étudions les interactions humaines afin d'identifier des situations conflictuelles dans l'habitacle d'un véhicule. Les humains utilisent le plus communément la vue et l'ouïe pour analyser les interactions. Cette tâche paraît anodine, mais reste complexe pour un modèle d'intelligence artificielle. Celui-ci doit capturer les informations vidéo et audio et les analyser pour prédire une situation conflictuelle. Notre approche est nouvelle en regard des recherches réalisées jusque-là sur ce sujet puisque les passagers sont contraints dans leurs mouvements dans l'habitacle et que la puissance de calcul embarqué pour cette tâche est limitée. Aucuns travaux, à notre connaissance, ne se sont intéressés à l'analyse des interactions humaines pour la détection de situations conflictuelles dans ce contexte et avec ces contraintes. Nos investigations s'appuient tout d'abord sur un corpus public d'analyse de sentiment pour se comparer à la littérature. Nous implémentons un modèle capable d'ingérer des données vidéo, audio et textes (transcription de l'audio) pour les fusionner et prendre une décision. Dans notre contexte applicatif, nous enregistrons par la suite un jeu de données multimodal d'interactions humaines simulant des situations plus ou moins conflictuelles dans un habitacle de véhicule. Cette base de données est exploitée afin d'implémenter des modèles de classification de bout-en-bout et paramétrique. Les résultats obtenus sont cohérents avec la littérature sur l'impact de chaque modalité sur les performances du système. Ainsi, le texte est respectivement plus informatif que l'audio et que la vidéo. Les différentes approches de fusion implémentées montrent des bénéfices notables sur les performances de classification mono-modalité.
- Published
- 2022
28. Étude d'un imageur hyperspectral adaptatif pour l'observation de la Terre
- Author
-
Rouxel, Antoine, Équipe Photonique (LAAS-PHOTO), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université Fédérale Toulouse Midi-Pyrénées-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Équipe Robotique et InteractionS (LAAS-RIS), Institut National des Sciences Appliquées de Toulouse, Henri Camon, Antoine Monmayrant, Sébastien Lopez, Simon Lacroix, and HAL-LAAS, LAAS
- Subjects
hyperspectral ,apprentissage profond ,[SPI.OPTI] Engineering Sciences [physics]/Optics / Photonic ,design ,optical ,[SPI.OPTI]Engineering Sciences [physics]/Optics / Photonic ,deep learning ,modeling ,optique ,conception ,simulation ,modélisation - Abstract
In a context of Earth observation, spectral imagery allows a fine understanding of the observed scene. However, it generates a large amount of data which is generally processed afterwards in a ground station. In order to optimize the information flow, the paradigm of compressive sensing/sampling proposes to optically encode the incident light and to rely on processing to extract the semantic information of interest or to reconstruct the signal. This approach, which integrates optical systems and signal processing, requires new design methods and tools necessary for instrument development.This thesis deals with the joint design of an optical system, the CASSI double-disperser, and its associated algorithmic processing. Reflections were carried out on how to dimension the system as a whole, taking into account the close links between these two disciplines. It is necessary to use a design environment that allows to evaluate these interdependencies and to quickly test new optical and algorithmic configurations. A physical model has been proposed to describe the propagation of light through our instrument. It has been integrated into a compressed hyperspectral image acquisition simulator that includes various physical phenomena. This one interfaces easily with the data processing module, used to reconstruct the signal or extract semantic information.A prototype has been developed in order to explore the possibilities opened by these systems in an earth observation context. Particular attention has been paid to the adaptability of the optical encoding performed by the system. By basing ourselves on an array of micro-mirrors playing the role of spatial light modulator, the spectral filtering obtained is dynamic. It can thus adapt to the observed scene and allows the development of acquisition schemes specific to the missions that are entrusted to it. The experimental part of the thesis consisted in assembling, aligning and calibrating the optical system. Software and hardware tools have been developed to facilitate its realization., Dans un contexte d’observation de la Terre, l’imagerie spectrale permet une compréhension fine de la scène observée. Elle génère cependant une large quantité de données qui est généralement traitée à posteriori dans une station sol. En vue d’optimiser le flux d’informations, le paradigme de l’acquisition compressée propose d’encoder optiquement la lumière incidente et de s’appuyer sur des algorithmes de traitement pour extraire les informations sémantiques d’intérêt ou reconstruire le signal. Cette approche, qui intrique système optique et traitement du signal, nécessite de revoir les méthodes et outils de conception nécessaires au développement des instruments.La thèse porte sur la conception conjointe d’un système optique, le double-disperseur CASSI, et du traitement algorithmique qui lui est associé. Des réflexions ont été menées sur la manière de dimensionner le système dans sa globalité, en prenant en compte les liens étroits entre ces deux disciplines. Il convient d’utiliser un environnement de conception qui permette d’évaluer ces interdépendances et de tester rapidement de nouvelles configurations optiques et algorithmiques. Un modèle physique a été proposé pour décrire la propagation de la lumière à travers notre instrument. Il a été intégré à un simulateur d’acquisition d’images hyperspectrales compressées qui inclus divers phénomènes physiques. Celui-ci s’interface facilement avec le module de traitement des données, utilisé pour reconstruire le signal ou extraire des informations sémantiques.Un prototype a été développé dans le but d’explorer les possibilités ouvertes par ces systèmes dans un contexte d’observation de la terre. Une attention particulière a été portée à l’adaptativité de l’encodage optique effectuée par le système. En nous basant sur une matrice de micro-miroirs jouant le rôle du modulateur spatial de lumière, le filtrage spectral obtenu est dynamique. Il peut donc s’adapter à la scène observée et permet de mettre au point des schémas d’acquisitions spécifiques aux missions qui lui sont confiées. La partie expérimentale de la thèse a consisté à assembler, aligner puis étalonner le système optique. Des outils logiciels et matériels ont été développés pour faciliter sa réalisation.
- Published
- 2022
29. Étude d’un imageur hyperspectral adaptatif dans un contexte d’observation de la terre
- Author
-
Rouxel, Antoine, Équipe Photonique (LAAS-PHOTO), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT), INSA de Toulouse, Henri Camon, Antoine Monmayrant, and Sébastien Lopez
- Subjects
Apprentissage profond ,[PHYS.PHYS.PHYS-OPTICS]Physics [physics]/Physics [physics]/Optics [physics.optics] ,Hyperspectral ,Optique ,Imager ,Deep learning ,Adaptive ,Adaptatif ,Optical ,Imageur - Abstract
National audience; In the context of Earth observation, spectral imagery provides a detailed understanding of the observed scene. However, it generates a large amount of data that must be processed afterwards in the ground stations. In order to optimise the information flow, the compressed sensing paradigm proposes to optically encode the incident light and to rely on processing algorithms to directly extract the semantic information of interest or to reconstruct the compressed signal. This approach, which integrates optical systems and digital information processing, requires modifications to the design methods and tools needed to develop the instruments.The thesis focuses on the joint design of an optical system, the CASSI double-disperser, and its associated algorithmic processing. Reflections have been made on how to dimension the system as a whole, taking into account the close links between these two disciplines. It is necessary to use a development environment that allows the evaluation of these interdependencies and the rapid testing of new optical and algorithmic configurations. A physical model has been proposed to describe the propagation of light through our instrument. It has been integrated into a compressed hyperspectral image acquisition simulator that includes various physical phenomena. This easily interfaces with the data processing module which is used to reconstruct the signal and/or extract semantic information.A prototype has been developed to explore the possibilities opened by these systems in an earth observation context. Particular attention was paid to the adaptability of the optical encoding performed by the system. By using an array of micro-mirrors as a spatial light modulator, the spectral filtering obtained is dynamic. It can therefore adapt to the observed scene and thus allow the development of acquisition schemes specific to the missions entrusted to the system. The experimental part of the thesis consisted of assembling, aligning and calibrating the optical system. Software and hardware tools were developed to facilitate the realisation of the prototype.Finally, a learning algorithm for the segmentation of compressed hyperspectral images was proposed and tested in simulation on earth observation data. The objective of this approach is to extract semantic information directly from the compressed measurements, without going through a reconstruction step of the hyperspectral image.; Dans un contexte d’observation de la Terre, l’imagerie spectrale permet une compréhension fine de la scène observée. Elle génère cependant une large quantité de données qui est doit être traitée à posteriori dans les stations sols. En vue d’optimiser le flux d’informations, le paradigme de l’acquisition compressée propose d’encoder optiquement la lumière incidente et de s’appuyer sur des algorithmes de traitement pour extraire les informations sémantiques d’intérêt ou pour reconstruire le signal compressé. Cette approche, qui intrique système optique et traitement numérique de l’information, nécessite de modifier les méthodes et outils de conception nécessaires au développement des instruments.La thèse porte sur la conception conjointe d’un système optique, le double-disperseur CASSI, et de son traitement algorithmique associé. Des réflexions ont été menées sur la manière de dimensionner le système dans sa globalité, en prenant en compte les liens étroits entre ces deux disciplines. Il convient d’utiliser un environnement de développement qui permette d’évaluer ces interdépendances et de tester rapidement de nouvelles configurations optiques et algorithmiques. Un modèle physique a été proposé pour décrire la propagation de la lumière à travers notre instrument. Il a été intégré à un simulateur d’acquisition d’images hyperspectrales compressées qui inclus divers phénomènes physiques. Celui-ci s’interface facilement avec le module de traitement des données, utilisé pour reconstruire le signal ou extraire des informations sémantiques.Un prototype a été développé dans le but d’explorer les possibilités ouvertes par ces systèmes dans un contexte d’observation de la terre. Une attention particulière a été portée à l’adaptativité de l’encodage optique effectuée par le système. En nous basant sur une matrice de micro-miroirs comme modulateur spatial de lumière, le filtrage spectral obtenu est dynamique. Il peut donc s’adapter à la scène observée et permet ainsi de mettre au point des schémas d’acquisitions spécifiques aux missions qui sont confiées au système. La partie expérimentale de la thèse a consisté à assembler, aligner puis étalonner le système optique. Des outils logiciels et matériels ont été développés pour faciliter la réalisation du prototype.Finalement, un algorithme d’apprentissage pour la segmentation d’images hyperspectrales compressées a été proposé puis testé en simulation sur des données d’observation de la terre. L’objectif de cette approche est d’extraire des informations sémantiques directement à partir des mesures compressées, sans passer par une étape de reconstruction de l’image hyperspectrale .
- Published
- 2022
30. 'Implants cérébraux : la délicate question de la responsabilité juridique des interfaces homme-machine'
- Author
-
Roumeau, Elise, Centre Michel de l'Hospital : laboratoire de recherche en sciences juridiques et politiques (CMH ), Université Clermont Auvergne (UCA), and VITALIEN-CHARBONNEL, Audrey
- Subjects
apprentissage profond ,[SHS.DROIT] Humanities and Social Sciences/Law ,bioéthique ,Elon Musk ,neurosciences ,homme augmenté ,implants ,transhumanisme ,ordinateurs ,[SHS.DROIT]Humanities and Social Sciences/Law ,intelligence artificielle (IA) ,informatique ,éthique ,cerveau ,électronique ,machines ,ComputingMilieux_MISCELLANEOUS - Abstract
National audience
- Published
- 2022
31. Évaluation dosimétrique des images de synthèse CT obtenues par la tomodensitométrie à faisceau conique
- Author
-
Guo, Alan, Carrier, Jean-François, and Bedwani, Stéphane
- Subjects
Apprentissage profond ,CT on rails ,Cone-beam CT ,Tomodensitomètre synthétique ,Tomodensitomètre sur rails ,Tomodensitomètre à faisceau conique ,Deep-learning ,Synthetic CT - Abstract
La tomodensitométrie à faisceau conique (CBCT) est répandue à travers les centres de cancérologie pour le positionnement du patient avant chaque traitement de radiothérapie. Ces images pourraient potentiellement être utilisées pour des tâches plus complexes. En radio-oncologie, les techniques de planification adaptative sont en développement et nécessitent l'utilisation des images de tomodensitométrie synthétiques (sCT). Alors, plusieurs groupes de recherche ont proposé différentes techniques pour générer des images sCT à partir des données CBCT. L'objectif principale de ce projet est d'évaluer une nouvelle méthode d'apprentissage profond pour générer des images sCT de pelvis à partir des images CBCT. Onze patients ont été rétrospectivement étudiés. Chaque patient a été imagé en séquence par deux techniques d'imagerie volumétrique dans la même position, soit un scan au CBCT et un autre au CT sur rails (CTr). Afin de pouvoir utiliser les images synthétiques dans un contexte clinique, la qualité de l'image et l'impact dosimétrique entre les sCT et les CTr doivent être évalués. Les nombres CT des images sCT sont comparés à ceux des images CTr. Finalement, pour évaluer l'impact dosimétrique, les plans de traitement optimaux sont recalculés sur les images sCT et CTr. Les différences de dose sont évaluées à l'aide d'une analyse gamma et des histogrammes dose-volume. L'évaluation quantitative montre qu'il y a des différences statistiquement significatives dans les os et les cavités d'air. Tandis que, les différences des tissus adipeux et mous ne sont pas statistiquement significatives. Les doses estimées dans les organes à risque et les PTV à partir des données des sCT sont surestimées comparativement à celles calculées à partir des données des CTr. Cependant, les erreurs de doses sont inférieures à 2% pour la plupart des cas étudiés. Ces erreurs de doses sont probablement causées par le manque de tissus dans la périphérie du patient et les erreurs des nombres CT. Bien que les différences de doses soient cliniquement acceptable, la méthode proposée devrait temporairement être limitée aux validations quotidiennes de plans de traitement pour des cas pelviens., The cone-beam computed tomography (CBCT) is widely spread in cancer centers for positioning the patient before their radiotherapy treatment. These images could potentially be used for more complex tasks. In radio-oncology, adaptive planning technics are in development and require the use of synthetic CT (sCT) images. So, multiple research groups proposed different methods to generate sCT images from CBCT data. The main purpose of this project is to assess a new deep-learning method to generate sCT images from CBCT images. Eleven patients were retrospectively studied. Each patient was subsequently imaged by two volumetric imaging methods in the same position, one CBCT scan and the other from CT on rails (CTr). In order to clinically use the synthetic images, image quality and dosimetric impact between sCT and CTr must be evaluated. sCT images' CT values are compared to those in CTr images. Finally, to evaluate the dosimetric impact, optimal treatment plans are recalculated with sCT and CTr images. Dose differences are assessed by gamma analysis and dose-volume histograms. The quantitative evaluation shows that differences are statistically different in bones and air cavities. As for adipose and soft tissues, differences were not statistically different. The estimated doses in organs-at-risk and PTVs from sCT data are overestimated compared to those from CTr data. However, dose errors are inferior to 2% in the majority of studied cases. These dose errors are most likely due to missing tissues on the outskirt of the patient and the errors of CT numbers. Although dose differences are clinically acceptable, the proposed method should temporarily be limited to daily validations of pelvic treatment plans.
- Published
- 2022
32. Caractérisation du niveau d’amusement grâce à des techniques d’apprentissage machine
- Author
-
Toupin, Gabrielle and Jerbi, Karim
- Subjects
apprentissage profond ,machine learning ,Random Forest ,humour ,deep learning ,Forêt d'arbre décisionnels ,amusement ,apprentissage machine ,LSTM - Abstract
Introduction. L'humour est un processus cognitif complexe qui peut entraîner un état émotionnel positif d’amusement. La réponse émotionnelle déclenchée par l'humour possède plusieurs bénéfices pour la santé. Son utilisation en recherche et lors d’essais cliniques est d’ailleurs de plus en plus fréquente. Malheureusement, l’appréciation de l’humour varie considérablement d’un individu à l’autre, et entraîne des réponses émotionnelles très différentes. Cette variabilité, rarement prise en compte dans les études de recherche, est donc importante à quantifier pour pouvoir évaluer de manière robuste les effets de l’humour sur la santé. Objectifs. Ce projet de maîtrise vise à explorer différentes modalités permettant d’établir une mesure objective de l'appréciation de l'humour via des techniques d'apprentissage automatique et d'apprentissage profond. Les caractéristiques de la vidéo, les expressions faciales et l'activité cérébrale ont été testées comme prédicteur potentiels de l’intensité de l'amusement. Étude 1. Dans notre première étude, les participants (n = 40) ont regardé et évalué des vidéos humoristiques et neutres pendant que leurs expressions faciales étaient enregistrées. Pour chaque vidéo, nous avons calculé le mouvement moyen, la saillance et deux scores sémantiques. L’algorithme d’arbres aléatoire a été entraîné sur les caractéristiques des vidéos et le sourire des participants afin de prédire à quel point le participant a évalué la vidéo comme étant drôle, et ce, à trois moments durant la vidéo (début, milieu et fin). De plus, nous avons utilisé l'expression faciale du participant pour explorer la dynamique temporelle de l'appréciation de l'humour tout au long de la vidéo et ses impacts sur la vidéo suivante. Nos résultats ont montré que les caractéristiques des vidéos permettent de bien classifier les vidéos neutres et les vidéos humoristiques, mais ne permettent pas de différencier les intensités d'humour. À l’inverse, le sourire est un bon prédicteur de l’intensité de l’amusement au sein des vidéos humoristiques (contribution=0.53) et est la seule modalité à fluctuer dans le temps; montrant ainsi que l'appréciation de l'humour est plus grande à la fin de la vidéo et après la vidéo. Étude 2. Notre deuxième étude a utilisé des techniques d'apprentissage profond afin de prédire l’intensité de l’amusement ressenti par les participants (n = 10) lorsqu’ils visionnaient des vidéos humoristiques avec un casque EEG commercial. Nous avons utilisé un algorithme LSTM pour prédire les intensités d'amusement vi (faible, modéré, élevé, très élevé) en fonction d'une seconde d'activité cérébrale. Les résultats ont montré une bonne transférabilité entre les participants et une précision de décodage dépassant 80% d’exactitude. Conclusion. Les caractéristiques de la vidéo, les expressions faciales des participants et l'activité cérébrale ont permis de prédire l'appréciation de l'humour. À partir de ces trois modalités, nous avons trouvé que les réactions physiologiques (expression faciale et activité cérébrale) prédisent mieux les intensités de l’amusement tout en offrant une meilleure précision temporelle de la dynamique d'appréciation de l'humour. Les futures études employant l'humour gagneraient à inclure le niveau d’appréciation, mesuré via le sourire ou l’activité cérébrale, comme variable d’intérêt dans leurs protocoles expérimentaux., Introduction. Humour is a complex cognitive process that can result in a positive emotional state of amusement. The emotional response triggered by humour has several health benefits and is used in many research and clinical trials as treatments. Humour appreciation varies greatly between participants and can trigger different levels of emotional response. Unfortunately, research rarely considers these individual differences, which could impact the implication of humour in research. These researches would benefit from having an objective method to detect humour appreciation. Objectives. This master's thesis seeks to provide an appropriate solution for an objective measure of humour appreciation by using machine learning and deep learning techniques to predict how individuals react to humorous videos. Video characteristics, facial expressions and brain activity were tested as potential predictors of amusement’s intensity. Study 1. In our first study, participants (n=40) watched and rated humorous and neutral videos while their facial expressions were recorded. For each video, we computed the average movement, saliency and semantics associated with the video. Random Forest Classifier was used to predict how funny the participant rated the video at three moments during the clip (begging, middle, end) based on the video's characteristics and the smiles of the participant. Furthermore, we used the participant's facial expression to explore the temporal dynamics of humour appreciation throughout the video and its impacts on the following video. Our results showed that video characteristics are better to classify between neutral and humorous videos but cannot differentiate humour intensities. On the other hand, smiling was better to determine how funny the humorous videos were rated. The proportion of smiles also had more significant fluctuations in time, showing that humour appreciation is greater at the end of the video and the moment just after. Study 2. Our second study used deep learning techniques to predict how funny participants (n=10) rated humorous videos with a commercial EEG headset. We used an LSTM algorithm to predict the intensities of amusement (low, medium, high, very high) based on one second of brain activity. Results showed good transferability across participants, and decoding accuracy reached over 80%. Conclusion. Video characteristics, participant's facial expressions and brain activity allowed us to predict humour appreciation. From these three, we found that physiological reactions (facial expression and brain activity) better predict funniness intensities while also offering a better temporal precision as to when humour appreciation occurs. Further studies using humour would benefit from adding physiological responses as a variable of interest in their experimental protocol.
- Published
- 2022
33. Utilisation du plongement du domaine pour l’adaptation non supervisée en traduction automatique
- Author
-
Frenette, Xavier and Langlais, Philippe
- Subjects
apprentissage profond ,domain adaptation ,réseaux de neurones ,deep learning ,adaptation de domaine ,transfer learning ,neural networks ,machine translation ,transfert d’apprentissage ,machine learning ,apprentissage automatique ,traitement automatique du langage naturel ,natural language processing ,traduction automatique - Abstract
L'industrie de la traduction utilise de plus en plus des modèles de traduction automatique. Des modèles dits « universels » sont capables d'obtenir de bonnes performances lorsqu'évalués sur un large ensemble de domaines, mais leurs performances sont souvent limitées lorsqu'ils sont testés sur des domaines précis. Or, les traductions doivent être adaptées au style, au sujet et au vocabulaire des différents domaines, en particulier ceux des nouveaux (pensons aux textes reliés à la COVID-19). Entrainer un nouveau modèle pour chaque domaine demande du temps, des outils technologiques spécialisés et de grands ensembles de données. De telles ressources ne sont généralement pas disponibles. Nous proposons, dans ce mémoire, d'évaluer une nouvelle technique de transfert d'apprentissage pour l'adaptation à un domaine précis. La technique peut s'adapter rapidement à tout nouveau domaine, sans entrainement supplémentaire et de façon non supervisée. À partir d'un échantillon de phrases du nouveau domaine, le modèle lui calcule une représentation vectorielle qu'il utilise ensuite pour guider ses traductions. Pour calculer ce plongement de domaine, nous testons cinq différentes techniques. Nos expériences démontrent qu'un modèle qui utilise un tel plongement réussit à extraire l'information qui s'y trouve pour guider ses traductions. Nous obtenons des résultats globalement supérieurs à un modèle de traduction qui aurait été entrainé sur les mêmes données, mais sans utiliser le plongement. Notre modèle est plus avantageux que d'autres techniques d'adaptation de domaine puisqu'il est non supervisé, qu'il ne requiert aucun entrainement supplémentaire pour s'adapter et qu'il s'adapte très rapidement (en quelques secondes) uniquement à partir d'un petit ensemble de phrases., Machine translation models usage is increasing in the translation industry. What we could call "universal" models attain good performances when evaluated over a wide set of domains, but their performance is often limited when tested on specific domains. Translations must be adapted to the style, subjects and vocabulary of different domains, especially new ones (the COVID-19 texts, for example). Training a new model on each domain requires time, specialized technological tools and large data sets. Such resources are generally not available. In this master's thesis, we propose to evaluate a novel learning transfer technique for domain adaptation. The technique can adapt quickly to any new domain, without additional training, and in an unsupervised manner. Given a sample of sentences from the new domain, the model computes a vector representation for the domain that is then used to guide its translations. To compute this domain embedding, we test five different techniques. Our experiments show that a model that uses this embedding obtains globally superior performances than a translation model that would have been trained on the same data, but without the embedding. Our model is more advantageous than other domain adaptation techniques since it is unsupervised, requires no additional training to adapt, and adapts very quickly (within seconds) from a small set of sentences only.
- Published
- 2022
34. Les machines y voient-elles quelque chose ?
- Author
-
Bonnay, Denis
- Subjects
vision ,apprentissage profond ,représentation ,philosophy ,representation ,functionalism ,deep learning ,fonctionnalisme ,computer vision ,optics ,vision par ordinateur ,philosophie ,téléosémantique ,optique ,teleosemantics - Abstract
La vision par ordinateur est un des domaines de l’intelligence artificielle qui connaît les succès les plus fulgurants. Depuis une vingtaine d’années, les machines n’ont cessé de progresser dans leur capacité à extraire des informations à partir d’images et à identifier des objets. Mais faut-il en conclure que ces machines sont littéralement des machines voyantes, ou ne s’agit-il que d’une façon imagée de décrire des capacités de détection ? Le présent article se propose de fournir les bases d’une réponse raisonnée à cette question. Nous examinons successivement trois types de conditions d’attribution de la vision, et soutenons que le critère fonctionnaliste, en termes de représentations internes de stimuli visuels exploitables à diverses fins, doit être préféré aux critères behavioriste ou phénoménologique. Ce critère fonctionnaliste est ensuite appliqué à une des technologies les plus utilisées dans le domaine de la vision par ordinateur, celle des réseaux de neurones et plus particulièrement des réseaux convolutifs. Nous soutenons alors que de tels réseaux sont bien capables de voir, précisément dans la mesure où ils sont entraînés pour produire des représentations à partir de données visuelles. Ces représentations ont des traits spécifiques associés à un entraînement réussi : elles sont hiérarchiques, versatiles et robustes. De telles propriétés ont un intérêt théorique au-delà de leur domaine d’origine : nous suggérons pour finir qu’elles pourraient être utilisées pour spécifier la nature de la fonction de représentation et résoudre certains des problèmes classiques auxquels font face les théories téléosémantiques de la représentation comme celle de Dretske. Computer vision is one of AI’s most successful fields. In the last twenty years, machines have become increasingly good at extracting information from images and at identifying objects. But does this mean that machines really can see, or is computer vision just a fancy metaphor for object detection? This paper aims to provide a reasoned answer to the question. First, three criteria for vision attribution are reviewed and it is argued that a functionalist criterion, in terms of exploitable internal representations based on visual stimuli, fares better than behaviourist or phenomenological ones. The functionalist criterion is then applied to vision algorithms based on neural networks and it is argued that such machines can indeed see, insofar as neural networks are precisely trained to generate representations of the visual data they are fed with. Those representations present the specific traits associated with successful training: They are hierarchical, robust, and versatile. We argue that these properties may be used as further constraints on representational devices in general, helping to solve some of the classical issues faced by teleosemantic theories of representation such as that expounded by Dretske.
- Published
- 2022
35. Deep Learning pour l’amélioration de signaux vocaux captés avec des transducteurs intra-auriculaires
- Author
-
Hauret, Julien, Bavu, Eric, Joubaud, Thomas, Zimpfer, Véronique, BAVU, Eric, and Intelligence artificielle pour la santé, la physqiue, les transports et la sécurité - - AHEAD2020 - ANR-20-THIA-0002 - PNIA - VALID
- Subjects
Signaux vocaux ,[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Apprentissage profond ,Application embarquée ,[SPI.ACOU] Engineering Sciences [physics]/Acoustics [physics.class-ph] ,Extension de bande passante - Abstract
Ce projet de recherche est né d’une collaboration entre l’équipe LMSSC (Laboratoire de Mécanique des Structures et des Systèmes Couplés) du CNAM et l’équipe APC (Acoustique et Protection du Combattant) de l’ISL. Il a pour objectif d’améliorer l’intelligibilité de la parole captée par un microphone intra-auriculaire développé par l’ISL. Ce dispositif de captation non- conventionnel, adossé à une protection auditive active, permet de capter les signaux vocaux émis par un locuteur en éliminant toutes nuisances sonores extérieures. Cependant, le trajet acoustique entre la bouche et les transducteurs est responsable d’une perte totale d’information au-delà de 2 kHz. En basses fréquences, une légère amplification ainsi que des bruits physiologiques sont observés. Nous avons donc à faire à un problème de reconstruction de signal absent en hautes fréquences et de débruitage.Les méthodes par apprentissage profond seront privilégiées pour la reconstruction des hautes fréquences au détriment du modèle source-filtre qui n’est pas capable de rétablir d’information manquante.Une première phase d’analyse des signaux captés est nécessaire pour modéliser la dégradation et observer sa variabilité. La conception d’une base de données conséquente est alors rendue possible avec un filtrage numérique simulant les détériorations observées. Afin d’augmenter la richesse de cette base de données et d’éviter tout phénomène de sur- apprentissage, une composante aléatoire sera introduite dans le filtrage.La conception de réseaux de neurones profonds est maintenant rendue possible pour la régénération du signal émis à partir du signal dégradé. Une vaste exploration sur l’architecture des réseaux, les fonctions de coût utilisées et les stratégies d’apprentissage sera entreprise. L’objectif final est d’intégrer un réseau d’inférence sur une carte de programmation pour un traitement en temps réel. Une attention particulière sera attachée à la taille du réseau et au délai de traitement sur ce type d’architecture légère et peu consommatrice d’énergie.
- Published
- 2022
36. Les outils de l'apprentissage profond au service de l'évaluation et de la conservation des archives
- Author
-
Valérie Lee, Julien Longhi, David Picard, Camille Simon Chane, Michel Jordan, and lee, valerie
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,apprentissage profond ,[INFO.INFO-TI] Computer Science [cs]/Image Processing [eess.IV] ,Parlement de Paris ,conservation ,registres ,réseaux neuronaux ,archives ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences - Abstract
This article presents the results of the first year of a doctoral research on the use of an artificial intelligence technology, deep learning, to evaluate fromphotographs the condition state of the binded archives of the Parlement de Paris (parliament of Paris), with an automatic mode. This doctoral thesis is carried out at the university CY Cergy Paris Université in partnership with the Archives nationales (national archives) andthe ETIS laboratory, Este artículo presenta los resultados del primer año de investigación del doctorado sobre el uso de una tecnología de inteligencia artificial, el aprendizaje profundo, para evaluar el estado de conservación de los archivos encuadernados del Parlamento de París por medio de fotografías y de manera automática. Este doctorado se realiza en la universidad CY Cergy Paris Université en asociación con los Archivos nacionales y el laboratorio de ETIS., Cet article présente les résultats de la première année de recherche doctorale sur l’utilisation d’une technologie de l’intelligence artificielle, l’apprentissage profond, pour évaluer l’état de conservation des archives reliées du Parlement de Paris à partir de photographies et d’une manière automatique. Ce doctorat est mené à l’université de CY Cergy Paris Université en partenariat avec les Archives nationales et le laboratoire ETIS.
- Published
- 2022
37. Modélisation de l'indice de sévérité du trouble de la parole à l'aide de méthodes d'apprentissage profond : d'une modélisation à partir de quelques exemples à un apprentissage auto-supervisé via une mesure entropique
- Author
-
Roger, Vincent and STAR, ABES
- Subjects
Apprentissage profond ,Indice de sévérité ,Pathological speech ,Severity index ,Traitement automatique de la parole ,Automatic speech processing ,Parole pathologique ,Deep learning ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,Intelligibility ,Intelligibilité - Abstract
People with head and neck cancers have speech difficulties after surgery or radiation therapy. It is important for health practitioners to have a measure that reflects the severity of speech. To produce this measure, a perceptual study is commonly performed with a group of five to six clinical experts. This process limits the use of this assessment in practice. Thus, the creation of an automatic measure, similar to the severity index, would allow a better follow-up of the patients by facilitating its obtaining. To realise such a measure, we relied on a reading task, classically performed. We used the recordings of the C2SI-RUGBI corpus, which includes more than 100 people. This corpus represents about one hour of recording to model the severity index. In this PhD work, a review of state-of-the-art methods on speech, emotion and speaker recognition using little data was undertaken. We then attempted to model severity using transfer learning and deep learning. Since the results were not usable, we turned to the so-called "few shot" techniques (learning from only a few examples). Thus, after promising first attempts at phoneme recognition, we obtained promising results for categorising the severity of patients. Nevertheless, the exploitation of these results for a medical application would require improvements. We therefore performed projections of the data from our corpus. As some score slices were separable using acoustic parameters, we proposed a new entropic measurement method. This one is based on self-supervised speech representations on the Librispeech corpus: the PASE+ model, which is inspired by the Inception Score (generally used in image processing to evaluate the quality of images generated by models). Our method allows us to produce a score similar to the severity index with a Spearman correlation of 0.87 on the reading task of the cancer corpus. The advantage of our approach is that it does not require data from the C2SI-RUGBI corpus for training. Thus, we can use the whole corpus for the evaluation of our system. The quality of our results has allowed us to consider a use in a clinical environment through an application on a tablet: tests are underway at the Larrey Hospital in Toulouse., Les personnes atteintes de cancers des voies aérodigestives supérieures présentent des difficultés de prononciation après des chirurgies ou des radiothérapies. Il est important pour le praticien de pouvoir disposer d'une mesure reflétant la sévérité de la parole. Pour produire cette mesure, il est communément pratiqué une étude perceptive qui rassemble un groupe de cinq à six experts cliniques. Ce procédé limite l'usage de cette évaluation en pratique. Ainsi, la création d'une mesure automatique, semblable à l'indice de sévérité, permettrait un meilleur suivi des patients en facilitant son obtention. Pour réaliser une telle mesure, nous nous sommes appuyés sur une tâche de lecture, classiquement réalisée. Nous avons utilisé les enregistrements du corpus C2SI-RUGBI qui rassemble plus de 100 personnes. Ce corpus représente environ une heure d'enregistrement pour modéliser l'indice de sévérité. Dans ce travail de doctorat, une revue des méthodes de l'état de l'art sur la reconnaissance de la parole, des émotions et du locuteur utilisant peu de données a été entreprise. Nous avons ensuite essayé de modéliser la sévérité à l'aide d'apprentissage par transfert et par apprentissage profond. Les résultats étant non utilisables, nous nous sommes tourné sur les techniques dites "few shot" (apprentissage à partir de quelques exemples seulement). Ainsi, après de premiers essais prometteurs sur la reconnaissance de phonèmes, nous avons obtenu des résultats prometteurs pour catégoriser la sévérité des patients. Néanmoins, l'exploitation de ces résultats pour une application médicale demanderait des améliorations. Nous avons donc réalisé des projections des données de notre corpus. Comme certaines tranches de scores étaient séparables à l'aide de paramètres acoustiques, nous avons proposé une nouvelle méthode de mesure entropique. Celle-ci est fondée sur des représentations de la parole autoapprise sur le corpus Librispeech : le modèle PASE+, qui est inspiré de l'Inception Score (généralement utilisé en image pour évaluer la qualité des images générées par les modèles). Notre méthode nous permet de produire un score semblable à l'indice de sévérité avec une corrélation de Spearman de 0,87 sur la tâche de lecture du corpus cancer. L'avantage de notre approche est qu'elle ne nécessite pas des données du corpus C2SI-RUGBI pour l'apprentissage. Ainsi, nous pouvons utiliser l'entièreté du corpus pour l'évaluation de notre système. La qualité de nos résultats nous a permis d'envisager une utilisation en milieu clinique à travers une application sur tablette : des tests sont d'ailleurs en cours à l'hôpital Larrey de Toulouse.
- Published
- 2022
38. Détection d'objets industriels à l'aide de modèles 3D dans des images égocentriques
- Author
-
Cohen, Julia and Cohen, Julia
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,apprentissage profond ,egocentric viewpoint ,jeu de données synthétique ,détection d’objets ,point de vue égocentrique ,deep learning ,object detection ,synthetic dataset - Abstract
Industrial manufacturing can be facilitated using innovative digital solutions such as Augmented Reality (AR). The development of new devices such as AR headsets and head-mounted devices enable operators to visualize assembly instructions while having their hands free to manipulate the physical pieces. The detection of these industrial objects through a head-mounted camera enables the virtual elements to automatically adapt to the real scene. However, images captured with an AR headset present visual artefacts inherent to the egocentric point of view. Although object detection in images is a popular application of deep learning for its effectiveness, artificial neural networks are rarely applied to egocentric images and industrial objects. The task is even more complex when no real image of the objects of interest is available, and the algorithm will be embedded in a mobile computer with a real-time inference requirement. In this thesis led in collaboration with engineering and design company DEMS, we addressed the topic of industrial objects recognition in images from an AR headset. We leveraged the available 3D models of the objects of interest in order to create a synthetic and egocentric dataset for the training of mobile and real-time neural networks. We analyzed the key elements of this synthetic dataset in order to remove the need for real images during training. Then, we proposed to use the depth information contained in RGB-D images to improve the performance of the object detector. We tackled the issue of domain generalization from synthetic to real RGB-D images, and we proposed different approaches in order to reduce the reality gap, that are compatible with a mobile and real-time inference., L’assemblage de produits industriels peut aujourd’hui être facilité et accéléré par l’usage de solutions numériques innovantes telles que la réalité augmentée (RA). En effet, le développement de nouveaux supports tels que des casques de RA permet aux opérateurs de visualiser des instructions tout en ayant les mains libres pour la manipulation des pièces. La détection de ces objets industriels par une caméra positionnée sur le casque permet une adaptation des éléments virtuels à la scène réelle. Cependant, les images issues d’un casque de RA présentent des difficultés inhérentes à leur point de vue égocentrique. Bien que la détection d’objets dans des images soit l’une des applications dans lesquelles l’apprentissage profond excelle, les réseaux de neurones artificiels sont rarement appliqués aux images égocentriques et contenant des objets industriels. En particulier, la tâche se complique lorsqu’aucune image réelle des objets à identifier n’est disponible, et lorsque l’algorithme de détection doit être déployé sur un système embarqué pour une application en temps réel.Dans cette thèse menée en partenariat avec le bureau d’études en ingénierie et design DEMS, nous nous sommes attaqués à la problématique de la reconnaissance d’objets industriels à partir des images d’un casque de RA. Nous avons tiré parti de la disponibilité des modèles 3D des objets d’intérêt afin de générer un jeu de données synthétique égocentrique pour l’entraînement de réseaux de neurones compacts, dédiés à la détection mobile et en temps réel. Nous avons analysé les éléments de ce jeu de données permettant de se passer totalement d’images réelles pour entraîner ce réseau de neurones. Par la suite, nous avons étudié la possibilité d’utiliser l’information de profondeur contenue dans les images RGB-D afin d’améliorer la performance du détecteur d’objets. Nous avons ainsi abordé la problématique de la généralisation de domaine entre des images RGB-D synthétiques et réelles, et nous avons proposé différentes approches afin de réduire l’écart à la réalité, compatibles avec une inférence mobile et en temps réel.
- Published
- 2022
39. Interprétation des représentations profondes des traits phonétiques via l'approche NCD -Neuro-based Concept Detector : Application aux troubles de la parole
- Author
-
Abderrazek, Sondes, Fredouille, Corinne, Ghio, Alain, Lalain, Muriel, Meunier, Christine, Woisard, Virginie, ABDERRAZEK, sondes, Recherche d'unités linguistiques pertinentes pour améliorer la mesure de l'intelligibilité de la parole altérée par des troubles de production pathologique - - RUGBI2018 - ANR-18-CE45-0008 - AAPG2018 - VALID, Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Avignon Université (AU), Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT), Laboratoire de NeuroPsychoLinguistique (LNPL), Université de Toulouse (UT)-Université de Toulouse (UT)-Toulouse Mind & Brain Institut (TMBI), Université de Toulouse (UT)-Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), and ANR-18-CE45-0008,RUGBI,Recherche d'unités linguistiques pertinentes pour améliorer la mesure de l'intelligibilité de la parole altérée par des troubles de production pathologique(2018)
- Subjects
Apprentissage profond ,Heand and Neck Cancers (HNC) ,Cancer de la tête et du cou ,Intelligibilité de la parole ,speech disorders ,Troubles de la parole ,Deep learning ,[INFO] Computer Science [cs] ,Interprétabilité ,[INFO]Computer Science [cs] ,Interpretability ,Traits phonétiques ,speech intelligibility ,phonetic traits - Abstract
The popularity of deep neural networks (DNNs) continues to grow, as does the interest in better understanding how they work. In this paper, we present a general framework, called Neuro-based Concept Detector (NCD), to interpret deep representations of a DNN. Based on the activation patterns of hidden units, this framework highlights the ability of neurons to detect an implicit concept related to the targeted final task. Applied to normal speech, the NCD framework reveals the emergence of phonetic features (target concept here) in the layers of a model trained on the French phoneme classification task. We further show that, on a corpus of head and neck cancers, the knowledge gained from NCD allows us to characterize the speech disorders of patients in terms of phonetic features alteration, thus providing first information very relevant for clinical practice such as rehabilitation, La popularité des réseaux de neurones profonds (DNN) ne cesse de croître, tout comme l'intérêt de mieux comprendre leur fonctionnement. Dans ce papier, nous présentons un cadre de travail général, nommé Neuro-based Concept Detector (NCD), pour interpréter les représentations profondes d'un DNN. Basé sur les schémas d'activation des unités cachées, ce cadre met en évidence la capacité des neurones à détecter un concept implicite en lien avec la tâche finale visée. Appliqué à la parole normale, le NCD révèle l'émergence de traits phonétiques (concept cible ici) dans les couches d'un modèle entraîné sur la tâche de classification des phonèmes français. Nous montrons également que, sur un corpus de cancers de la tête et du cou, les connaissances issues du NCD permettent de caractériser les troubles de parole des patients en terme d'altération des traits phonétiques, fournissant ainsi de premières informations très pertinentes pour la pratique clinique telle que la rééducation.
- Published
- 2022
40. Exploiting deep learning algorithms and satellite image time series for deforestation prediction
- Author
-
Moskolai, Waytehad Rose and STAR, ABES
- Subjects
Artificial intelligence ,Deforestation prediction ,Réseaux de neurones récurrents ,Apprentissage profond ,Recurrent neural networks ,[INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing ,Image time series ,Deep learning ,Satellite images ,Séries temporelles d'images ,Intelligence artificielle ,Prédiction déforestation ,Images satellitaires - Abstract
In recent years, we have witnessed the emergence of Deep Learning (DL) methods, which have led to enormous progress in various fields such as automotive driving, computer vision, medicine, finances, and remote sensing data analysis. The success of these machine learning methods is due to the ever-increasing availability of large amounts of information and the computational power of computers. In the field of remote sensing, we now have considerable volumes of satellite images thanks to the large number of Earth Observation (EO) satellites orbiting the planet. With the revisit time of satellites over an area becoming shorter and shorter, it will probably soon be possible to obtain daily images of any area in the world. This availability of images allows to create time series of data called Satellite Image Time Series (SITS). SITS can be used for multiple real-world applications such as the prediction of land cover changes in general, and in particular the deforestation. The aim of this thesis is to exploit the potential of deep learning methods and the availability of SITS to create predictive models based on deep learningarchitectures, that will analyze historical data of a given area and will predict the deforestation in that area. Four main contributions are noted at the end of this thesis work: 1) Proposal of a workflow for batch collection and preprocessing of Sentinel-1 satellite images; 2) Comparison of three DL architectures for the task of predicting the next occurrence in a STIS; 3) Validation of DL methods for predicting land cover changes by comparison with the most method used in the literature (CA-Markov method); 4) Proposal of a model called (Deforest_Pred) for the prediction of deforestation around the Dja Biosphere Reserve (Cameroon). The Deforest_Pred model is based on a hybrid CNN-LSTM architecture and trained on Sentinel-1A images, augmented by an image fusion technique proposed in this study., Ces dernières années, nous assistons à une émergence des méthodes d'apprentissage profond appelées Deep Learning en anglais (DL), qui ont favorisé d'énormes progrès dans divers domaines tels que la conduite autonome, la vision par ordinateur, la médecine, les finances, ainsi que dans le domaine de l'analyse des données de télédétection. Le succès de ces méthodes d'apprentissage automatique résulte de la disponibilité sans cesse croissante de grandes quantités d'informations ainsi que des puissances de calculs des ordinateurs. Dans le domaine de la télédétection par exemple, on dispose aujourd'hui de volumes considérables d'images satellitaires grâce au nombre élevé de satellites d'Observation de la Terre (OT) qui gravitent autour de la planète. Avec un temps de revisite des satellites au-dessus d'une zone de plus en plus court, il sera probablement bientôt possible d'obtenir quotidiennement et gratuitement des images satellites, de n'importe quelle zone dans le monde. Cette disponibilité en images permet de constituer des séries chronologiques de données appelées Séries Temporelles d'Images Satellitaires (STIS). Les STIS peuvent être utilisées pour de multiples applications du monde réel comme la prédiction des changements de classes d'occupation de sol en général, et la déforestation en particulier. Dans le cadre de cette thèse, il est question d'exploiter les potentialités des méthodes d'apprentissage profond et la disponibilité des STIS pour créer des modèles prédictifs basés sur l'apprentissage profond, capables d'analyser les données historiques d'une zone donnée et de prédire la déforestation dans cette zone. Quatre principales contributions sont réalisées au terme de ces travaux de thèse : 1) Proposition d'un workflow de collecte et de prétraitement par lot des images satellitaires Sentinel-1; 2) Comparaison de trois architectures DL par la création de modèles de prédiction de la prochaine occurrence dans une STIS; 3) Validation des méthodes DL pour la prédiction des changement des classes d'occupation par comparaison à la méthode actuelle utilisée (méthode CA-Markov); 4) Proposition d'un modèle de prédiction de déforestation (Deforest_Pred) autour de la réservede Biosphère du Dja (Cameroun). Le modèle Deforest_Pred est basé sur une architecture hybride CNN-LSTM et entraîné sur un jeu de données d'images Sentinel-1A augmentées par une technique de fusion d'images proposée dans le cadre de ces travaux.
- Published
- 2022
41. Augmentation de données pour l'analyse d'images histopathologiques : approches par génération d'images et déformations spatiales pour la segmentation de glomérules
- Author
-
Allender, Florian, STAR, ABES, Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (ICube), École Nationale du Génie de l'Eau et de l'Environnement de Strasbourg (ENGEES)-Université de Strasbourg (UNISTRA)-Institut National des Sciences Appliquées - Strasbourg (INSA Strasbourg), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Les Hôpitaux Universitaires de Strasbourg (HUS)-Centre National de la Recherche Scientifique (CNRS)-Matériaux et Nanosciences Grand-Est (MNGE), Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)-Réseau nanophotonique et optique, Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Centre National de la Recherche Scientifique (CNRS), Université de Strasbourg, Cédric Wemmert, and Jean-Michel Dischler
- Subjects
Apprentissage profond ,Generative adversarial networks ,Glomérules ,[SDV.MHEP] Life Sciences [q-bio]/Human health and pathology ,Data augmentation ,Digital histopathology ,Augmentation de données ,Réseaux génératifs adversaires ,Histopathologie numérique ,Random spatial deformations ,Texture synthesis ,Synthèse de texture ,Segmentation ,Deep Learning ,Déformations spatiales aléatoires ,[INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM] ,Glomeruli ,[SDV.MHEP]Life Sciences [q-bio]/Human health and pathology ,[INFO.INFO-BI] Computer Science [cs]/Bioinformatics [q-bio.QM] - Abstract
In this thesis, we are interested in renal histopathological data and in particular glomeruli segmentation. These structures are complex and include multiple substructures making their automatic segmentation particularly difficult. Our objective is to improve the automatic segmentation of glomeruli in whole slide images using a CNN called U-Net, a standard model in medical image segmentation. Training such a model requires a large amount of annotated images (several tens of thousands). However, in our context, the number of available annotated images is of the order of a few hundreds, which raises the question of data augmentation. This thesis investigates the application and the impact of two types of augmentation techniques. We first study geometric variations, introduced using random spatial deformations. Second, we study texture variations, introduced using texture synthesis methods and generative models., Dans le cadre de cette thèse, nous nous intéressons à des données histopathologiques rénales, et en particulier à la segmentation de glomérules. Ces structures sont complexes et comportent de multiples sous-structures rendant leur segmentation automatique particulièrement difficile. Notre objectif est d'améliorer la segmentation automatique de glomérules dans des coupes complètes en utilisant un CNN de type U-Net. L'entraînement d'un tel modèle nécessite une grande quantité d'images annotées. Or, dans notre contexte, le nombre d'images annotées disponibles est de l'ordre de quelques centaines seulement, ce qui pose la question des augmentations de données. Nous proposons d'étudier l'application et l'impact d'augmentations de deux types. Nous étudions premièrement les variations géométriques, introduites à l'aide de déformations spatiales aléatoires. Deuxièmement, nous étudions les variations de texture, introduites à l'aide de méthodes de synthèse de texture et de modèles génératifs.
- Published
- 2022
42. HMLoss: Une fonction de coût robuste au déséquilibre des classes
- Author
-
Foahom Gouabou Arthur Cartel, Rabah Iguernaissi, Jean Luc Damoiseaux, Abdellatif Moudafi, Djamal Merad, FOAHOM GOUABOU, Arthur Cartel, Aide au diagnostic de mélanome par l'exemple - - DIAMELEX2020 - ANR-20-CE45-0026 - AAPG2020 - VALID, Aix Marseille Université (AMU), Laboratoire d'Informatique et Systèmes (LIS), Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS), ANR-20-CE45-0026,DIAMELEX,Aide au diagnostic de mélanome par l'exemple(2020), Images et Modèles (I&M), and Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,déséquilibre des classes ,apprentissage profond ,fonction de coût ,Image classification and analysis ,[INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,[INFO.INFO-IM] Computer Science [cs]/Medical Imaging ,[INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV] ,[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Deep learning DL ,[INFO.INFO-CV] Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV] ,[INFO.INFO-TI] Computer Science [cs]/Image Processing [eess.IV] ,[INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV] ,[INFO.INFO-IM]Computer Science [cs]/Medical Imaging ,Loss functions ,vision par ordinateur ,Class imbalance problem ,[SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing ,classification d'images ,[SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing - Abstract
This work adresses the class imbalances issue in deep learning. We introduce a new cost function called ’Hard Mining Loss’(HMLoss) allowing to reduce simultaneously the contribution of both easy examples and outliers while increasing the contribution of hardexamples during learning, thus allowing the model to focus on informative samples. HMLoss outperforms common methods for solving thisproblem in image classification applications. Datasets, code and models are publicly available at https://github.com/cartelgouabou/HMLoss., Ce travail propose une résolution de la problématique du biais induit durant l'apprentissage des modèles neuronaux sur des bases déséquilibrées. Pour cela, nous introduisons une nouvelle fonction de coût dénommée 'Hard Mining Loss' (HMLoss) permettant de réduire simultanément la contribution des exemples faciles et aberrants durant l'apprentissage tout en augmentant la contribution des exemples difficiles, permettant ainsi au modèle de se focaliser sur les échantillons discriminants. La fonction HMLoss surclasse les méthodes courantes pour résoudre ce problème dans des applications de classification d'images. Les bases de données, codes et architectures utilisés sont disponibles à l'adresse: https://github.com/cartelgouabou/HMLoss.
- Published
- 2022
43. Caractérisation du répertoire vocal des chimpanzés par apprentissage profond
- Author
-
Audebert, Nicolas, Laporte, Marion, and Audebert, Nicolas
- Subjects
apprentissage profond ,vocalisations ,[INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing ,grands singes ,[INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,[SDV.BA.ZV] Life Sciences [q-bio]/Animal biology/Vertebrate Zoology ,réseaux convolutifs ,reconnaissance de sons - Published
- 2022
44. Automatisation du traitement des imageries tridimensionnelles dento-maxillo-faciales par apprentissage profond : application à la segmentation et à la céphalométrie
- Author
-
Dot, Gauthier and STAR, ABES
- Subjects
Artificial intelligence ,Apprentissage profond ,Interprétation d'images radiographiques assistée par ordinateur ,Cephalometry ,Céphalométrie ,[PHYS.MECA.BIOM] Physics [physics]/Mechanics [physics]/Biomechanics [physics.med-ph] ,Tomography. x-Ray computed ,Anatomic landmarks ,Deep learning ,Intelligence artificielle ,Repères anatomiques ,Radiographic image interpretation. computer-Assisted ,Tomodensitométrie - Abstract
The clinical use of three-dimensional (3D) dentomaxillofacial imaging has developed significantly in recent years, allowing for improved diagnosis and planning of some orthodontic and orthodontic-surgical treatments. However, the processing of these 3D images remains restrictive and relies on many manual steps, requiring several levels of validation, time and trained operators. The clinical routine is still largely based on the use of 2D methods, which are not well adapted for patients with complex facial deformities such as important asymmetries or craniofacial syndromes.The main objective of this work was to implement deep learning models in order to automate two steps in the processing of these 3D images: (1) the reconstruction of 3D surface models, a process called "segmentation", and (2) the placement of anatomical landmarks for 3D cephalometric analysis. The evaluation of these models was performed on an original database of patients with varied and marked facial deformities, comparing the performance of the algorithm with that of experts on the basis of clinically relevant metrics.In a test database of 153 CT scans, the automated segmentation had a surface Dice Similarity Coefficient at 1mm of 98.03 ± 2.48%, with 148 scans having a mean score which cleared the 95% limit for clinical significance. In a test database of 37 CT scans, the mean error of cephalometric landmark localization was 1.0 ± 1.3 mm, and 90.4% of predictions were within 2 mm of the reference. A broader validation, including data from other clinical centers, will need to be performed to assess the generalizability of these results. Three clinical cases illustrate the perspectives of clinical applications of these results., L’utilisation clinique d’imageries tridimensionnelles (3D) dento-maxillo-faciales s’est fortement développée ces dernières années, permettant d’améliorer le diagnostic et la planification de certains traitements orthodontiques et orthodontico-chirurgicaux. Le traitement de ces imageries 3D est cependant contraignant et repose sur de nombreuses étapes manuelles, nécessitant plusieurs niveaux de validation, du temps et des opérateurs formés. La routine clinique reste largement basée sur l’utilisation de méthodes 2D, peu adaptées pour les patients présentant des dysmorphies faciales complexes comme des asymétries importantes ou des syndromes cranio-faciaux.L’objectif principal de ce travail a été de mettre en œuvre des modèles d’apprentissage profond afin d’automatiser deux étapes du traitement de ces imageries 3D : (1) la reconstruction des modèles surfaciques 3D, processus appelé « segmentation » et (2) le placement de points d’intérêts anatomiques pour la réalisation d’une analyse céphalométrique 3D. L’évaluation de ces modèles a été effectuée sur une base de données originale de patients présentant des dysmorphies faciales variées et marquées, en comparant la performance de l’algorithme avec celle d’experts sur la base de critères présentant une pertinence clinique.Sur une base de données de test de 153 scanners, la segmentation automatisée a présenté un coefficient de Dice surfacique à 1 mm de 98.03 ± 2.48 %, 148 scanners présentant un score moyen supérieur au seuil de viabilité clinique de 95 %. Sur une base de données de test de 37 scanners, l’erreur moyenne du placement des points céphalométriques était de 1.0 ± 1.3 mm et 90.4 % des prédictions étaient situées à moins de 2 mm de la référence. Une validation plus large, incluant des données d’autres centres cliniques, devra être effectuée afin d’évaluer le potentiel de généralisation de ces résultats. Trois cas cliniques sont présentés pour illustrer les perspectives d’applications cliniques de ces résultats.
- Published
- 2022
45. Remplacement de mentions pour l'adaptation d'un corpus de reconnaissance d'entités nommées à un domaine cible
- Author
-
Arthur Amalvy, Vincent Labatut, Richard Dufour, Amalvy, Arthur, Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Traitement Automatique du Langage Naturel (LS2N - équipe TALN ), Laboratoire des Sciences du Numérique de Nantes (LS2N), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-École Centrale de Nantes (Nantes Univ - ECN), Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST), Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), and Nantes Université (Nantes Univ)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,apprentissage profond ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,named entity recognition ,deep learning ,augmentation de données ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,reconnaissance d'entités nommées ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,data augmentation - Abstract
Named Entity Recognition is a well-studied natural language processing task, that is useful in a number of applications. Since recently, deep-learning models are able to solve this task with good performance. However, datasets used to train and evaluate those models cover a sparse number of domains (newswire, web). As performance for a model trained on a specific domain are generally lower on another one, this implies lower performance for less covered domains. In order to fix this issue, this article proposes to use a data augmentation technique that can be used to adapt a named entity recognition corpus from a source domain to a target domain where the encountered names can be different. We apply this technique to fantasy novels, and we show that it can yield performance gains in that context., La reconnaissance d'entités nommées est une tâche de traitement automatique du langage naturel bien étudiée et utile dans de nombreuses applications. Dernièrement, les modèles neuronaux permettent de la résoudre avec de très bonnes performances. Cependant, les jeux de données permettant l'entraînement et l'évaluation de ces modèles se concentrent sur un nombre restreint de domaines et types de documents (articles journalistiques, internet). Or, les performances d'un modèle entraîné sur un domaine ciblé sont en général moindres dans un autre : ceux moins couverts sont donc pénalisés. Pour tenter de remédier à ce problème, cet article propose d'utiliser une technique d'augmentation de données permettant d'adapter un corpus annoté en entités nommées d'un domaine source à un domaine cible où les types de noms rencontrés peuvent être différents. Nous l'appliquons dans le cadre de la littérature de fantasy, où nous montrons qu'elle peut apporter des gains de performance.
- Published
- 2022
46. Prédiction et évitement d'obstacles basés deep learning : Application à la mobilité ferroviaire et routière
- Author
-
Mauri, Antoine and STAR, ABES
- Subjects
Mobilité intelligente ,Apprentissage profond ,Smart mobility ,Multi-modal dataset ,Détection multi-objets 3D ,Ensemble de données multimodales ,Deep learning ,3D bounding box estimation ,3D multi-object detection ,Estimation de la boîte englobante 3D ,[INFO.INFO-AU] Computer Science [cs]/Automatic Control Engineering - Abstract
To improve transportation safety and make driving more autonomous, vehicles must have a better perception of their environment. Although the development of the autonomous car is receiving a lot of attention, rail transport is also following the same path. The challenge is both to improve driving comfort through navigation assistance and to increase safety during navigation.The work presented in this thesis aims at creating a reliable perception system using a single modality, in this case, images from a camera, to detect life-threatening obstacles. The system must be generic to be used on any type of camera in a traffic context on road but also rail. We will use deep learning to achieve this goal and we present four contributions. The first one is an approach based on the combination of an object detector (Yolov3), a depth estimator (MadNet), and a Kalman filter to detect, locate and track objects on the vehicle track. The second contribution is based on a new evaluation protocol for depth estimation more suitable for object localization tasks. The third contribution is based on the creation of two new databases, a virtual one based on the video game Grand Theft Auto and a real one (ESRORAD) for the autonomous train. Finally, our last contribution is an approach to the detection of 3D objects based on Yolov5 and their tracking based on a Kalman filter.The results obtained by this last approach show a real improvement in the computation time and allows use on embedded systems while being as accurate as the state-of-the-art methods., Afin d'améliorer la sécurité des transports et rendre la conduite plus autonome, les véhicules doivent disposer d'une meilleure perception de leur environnement. Bien que le développement de la voiture autonome fasse l'objet d'une grande attention, le transport ferroviaire suit aussi la même voie. L'enjeu est à la fois d'améliorer le confort de conduite grâce à l'aide à la navigation et d'accroître la sécurité pendant la navigation.Les travaux présentés dans cette thèse visent à créer un système de perception fiable utilisant une seule modalité, en l'occurrence les images d'une caméra, afin de détecter des obstacles mettant en danger la vie des passagers. Le système doit être générique afin de pouvoir être utilisé sur tout type de caméra dans un contexte de trafic sur route mais aussi sur rail. Nous utiliserons l'apprentissage profond pour atteindre cet objectif et nous présentons quatre contributions. La première est une approche basée sur la combinaison d'un détecteur d'objets (Yolov3), d'un estimateur de profondeur (MadNet) et d'un filtre de Kalman pour détecter, localiser et suivre des objets sur la voie du véhicule. La deuxième contribution est basée sur un nouveau protocole d'évaluation de l'estimation de la profondeur plus adapté aux tâches de localisation d'objets. La troisième contribution est basée sur la création de deux nouvelles bases de données, une virtuelle basée sur le jeu vidéo \textit{Grand Theft Auto} et une réelle (ESRORAD) pour le train autonome. Enfin, notre dernière contribution est une approche pour la détection d'objets 3D basée sur Yolov5 et leur suivi basé sur un filtre de Kalman.Les résultats obtenus par cette dernière approche montrent une réelle amélioration du temps de calcul et permettent une utilisation sur des systèmes embarqués tout en étant aussi précis que les méthodes de l'état de l'art.
- Published
- 2022
47. Quelle image met le mieux en valeur un modèle 3D ?
- Author
-
Pelissier-Combescure, Marie, Morin, Géraldine, Chambon, S, and Pelissier-Combescure, Marie
- Subjects
highligthing score ,apprentissage profond ,[INFO.INFO-CV] Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV] ,saliency ,score de pertinence ,points d’intérêt ,[INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,deep learning ,interest points ,2D/3D ,saillance - Abstract
Given an object present in an image, our purpose is to quantify how well this object is represented in this view. To do this, we define a highlighting score that allows us to rank a set of images : from the one that best showcases the object to the worst one. To quantify the showcase of an object in the image, we combine three complementary criteria into a highlighting score : its dominance, its size and the quantity of its characteristic information based on a score given by a curvilinear saliency detector. As an alternative, we consider the confidence scores of state of the art detection and classification neural networks. In order to validate the proposed approaches based on these scores, we provide a validation protocol based on a set images we generate to provide a reference classification. Our experimental results demonstrate the efficiency of our method and help understanding the behaviour of the networks. We also illustrate the interest of the approach with visual qualitative results on a real dataset., Étant donné une image d’un objet d’intérêt, nous souhaitons quantifier la qualité de la vue de cet objet 3D dans cette représentation 2D. Pour cela, nous définissons un score de pertinence permettant d’ordonner un ensemble d’images : de celle mettant le mieux en valeur l’objet à celle présentant la plus mauvaise mise en valeur. Ce score s’appuie sur trois critères complémentaires relatifs à l’objet étudié dans l’image : la dominance, la taille et la quantité d’information caractéristique disponible sur cet objet, dans l’image. Cette information caractéristique exploite les résultats fournis par un détecteur de saillance curviligne. De manière complémentaire, nous considérons également les scores de confiance fournis par la sortie d’un réseau de neurones (nous choisissons des réseaux neurones de référence dans le domaine de la détection ou de la classification). Afin de valider et de comparer l’approche introduite et les méthodes étudiées, nous avons mis en place un protocole utilisant des images permettant de proposer un classement de référence. Nos résultats expérimentaux démontrent l’efficacité de notre méthode et permettent de comprendre le comportement des réseaux de neurones. Nous fournissons également des résultats qualitatifs visuels sur des jeux de données réels pour illustrer l’intérêt de l’approche.
- Published
- 2022
48. Deep learning for the characterization of prostate cancer by aggressiveness in multiparametric MRI
- Author
-
Duran, Audrey, STAR, ABES, Université de Lyon, and Carole Lartizien
- Subjects
Prostate cancer ,Image Processing ,Attention models ,Magnetic resonance imaging - MRI ,Deep learning ,Cancer de la prostate ,Imagerie par résonance magnétique - IRM ,Semantic segmentation ,Traitement des images ,Multiparamétrique ,Multiparametric ,Apprentissage Profond ,Aided detection ,Aide au diagnostic ,Supervised Learning ,Segmentation sémantique ,Modèles d'attention ,[SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing ,Apprentissage Supervisé ,[SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing - Abstract
Prostate cancer (PCa) is the most frequently diagnosed cancer in men in more than half the countries in the world and the fifth leading cause of cancer death among men in 2020. Diagnosis of PCa includes multiparametric magnetic resonance imaging acquisition (mp-MRI) - which combines T2 weighted (T2-w), diffusion weighted imaging (DWI) and dynamic contrast enhanced (DCE) sequences - prior to any biopsy. The joint analysis of these multimodal images is time demanding and challenging, especially when individual MR sequences yield conflicting findings. In addition, the sensitivity of MRI is low for less aggressive cancers and inter-reader reproducibility remains moderate at best. Moreover, visual analysis does not currently allow to determine the cancer aggressiveness, characterized by the Gleason score (GS). This is why computer-aided diagnosis (CAD) systems based on statistical learning models have been proposed in recent years, to assist radiologists in their diagnostic task, but the vast majority of these models focus on the binary detection of clinically significant (CS) lesions. The objective of this thesis is to develop a CAD system to detect and segment PCa on mp-MRI images but also to characterize their aggressiveness, by predicting the associated GS. In a first part, we present a supervised CAD system to segment PCa by aggressiveness from T2-w and ADC maps. This end-to-end multi-class neural network jointly segments the prostate gland and cancer lesions with GS group grading. The model was trained and validated with a 5-fold cross-validation on a heterogeneous series of 219 MRI exams acquired on three different scanners prior prostatectomy. Regarding the automatic GS group grading, Cohen’s quadratic weighted kappa coefficient (κ) is 0.418 ± 0.138, which is the best reported lesion-wise kappa for GS segmentation to our knowledge. The model has also encouraging generalization capacities on the PROSTATEx-2 public dataset. In a second part, we focus on a weakly supervised model that allows the inclusion of partly annotated data, where the lesions are identified by points only, for a consequent saving of time and the inclusion of biopsy-based databases. Regarding the automatic GS group grading on our private dataset, we show that we can approach performance achieved with the baseline fully supervised model while considering 6% of annotated voxels only for training. In the last part, we study the contribution of DCE MRI, a sequence often omitted as input to deep models, for the detection and characterization of PCa. We evaluate several ways to encode the perfusion from the DCE MRI information in a U-Net like architecture. Parametric maps derived from DCE MR exams are shown to positively impact segmentation and grading performance of PCa lesions., Le cancer de la prostate (CaP) est le cancer le plus diagnostiqué dans plus de la moitié des pays du monde et le cinquième cancer le plus meurtrier chez les hommes en 2020. Le diagnostic du CaP inclut l'acquisition d'une imagerie par résonance magnétique multiparamétrique (IRM-mp) - qui combine une séquence T2-pondérée (T2-w), une imagerie pondérée en diffusion (DWI) et une séquence dynamique de contraste amélioré (DCE) - avant la réalisation de biopsies. L'analyse jointe de ces images multimodales est fastidieuse et chronophage, en particulier lorsque les séquences mènent à des conclusions différentes. En outre, la sensibilité de l'IRM reste faible pour les cancers peu agressifs et la variabilité inter-observateur élevée. De plus, l'analyse visuelle ne permet pas aujourd'hui de déterminer l'agressivité des cancers, caractérisée par le score de Gleason (GS). C'est pourquoi des systèmes d'aide au diagnostic (CAD) basés sur des modèles statistiques par apprentissage ont été proposés ces dernières années, pour d'assister les radiologues dans leur diagnostic. Toutefois, la majorité de ces systèmes se concentrent sur une tâche de détection binaire des lésions cliniquement significatives (CS). L'objectif de cette thèse est d'élaborer un système CAD pour détecter les CaP sur des IRM-mp, mais aussi de caractériser leur agressivité en prédisant le GS associé. Dans une première partie, nous présentons un système CAD supervisé permettant de segmenter le CaP par agressivité à partir des cartes T2-w et ADC. Ce réseau de neurones multiclasse segmente simultanément la prostate et les lésions par agressivité. Le modèle a été entraîné et évalué en validation croisée à 5 plis sur une base de données hétérogène de 219 examens IRM acquis avant prostatectomie. Pour la tâche de classification par GS, le kappa de Cohen quadratiquement pondéré (κ) est de 0.418 ± 0.138, ce qui représente le meilleur kappa par lésions pour une tâche de segmentation par GS à notre connaissance. Le modèle présente également des capacités de généralisation encourageantes sur le jeu de données public PROSTATEx-2. Dans une deuxième partie, nous nous penchons sur un modèle faiblement supervisé, permettant l'inclusion de données où les lésions sont identifiées par des points seulement, pour un gain de temps conséquent et l'inclusion de bases de données établies sur la biopsie. Concernant la tâche de classification par GS, les performances approchent celles obtenues avec le modèle totalement supervisé de référence, en n'ayant que 6% de voxels annotés pour l'entraînement. Dans une dernière partie, nous étudions l'apport de l'imagerie DCE, séquence souvent omise en entrée des modèles profonds, pour la détection et la caractérisation du CaP. Plusieurs stratégies d'encodage de la perfusion dans une architecture U-Net sont étudiées. Nous montrons que les cartes paramétriques dérivées des examens IRM DCE ont un impact positif sur les performances de segmentation et de classification du CaP.
- Published
- 2022
49. Analyse des pathologies neuro-dégénératives par apprentissage profond
- Author
-
Ostertag, Cécilia and STAR, ABES
- Subjects
Neuro-degenerative disorders ,Apprentissage profond ,Réseaux siamois ,Multimodal ,Maladies neuro-dégénératives ,[INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,Deep learning ,Siamese networks ,Multimodality ,[INFO.INFO-BI] Computer Science [cs]/Bioinformatics [q-bio.QM] - Abstract
Monitoring and predicting the cognitive state of a subject affected by a neuro-degenerative disorder is crucial to provide appropriate treatment as soon as possible. Thus, these patients are followed for several years, as part of longitudinal medical studies. During each visit, a large quantity of data is acquired : risk factors linked to the pathology, medical imagery (MRI or PET scans for example), cognitive tests results, sampling of molecules that have been identified as bio-markers, etc. These various modalities give information about the disease's progression, some of them are complementary and others can be redundant. Several deep learning models have been applied to bio-medical data, notably for organ segmentation or pathology diagnosis. This PhD is focused on the conception of a deep neural network model for cognitive decline prediction, using multimodal data, here both structural brain MRI images and clinical data. In this thesis we propose an architecture made of sub-modules tailored to each modality : 3D convolutional network for the brain MRI, and fully connected layers for the quantitative and qualitative clinical data. To predict the patient's evolution, this model takes as input data from two medical visits for each patient. These visits are compared using a siamese architecture. After training and validating this model with Alzheimer's disease as our use case, we look into knowledge transfer to other neuro-degenerative pathologies, and we use transfer learning to adapt our model to Parkinson's disease. Finally, we discuss the choices we made to take into account the temporal aspect of our problem, both during the ground truth creation using the long-term evolution of a cognitive score, and for the choice of using pairs of visits as input instead of longer sequences., Le suivi et l'établissement de pronostics sur l'état cognitif des personnes affectées par une maladie neurologique sont cruciaux, car ils permettent de fournir un traitement approprié à chaque patient, et cela le plus tôt possible. Ces patients sont donc suivis régulièrement pendant plusieurs années, dans le cadre d'études longitudinales. À chaque visite médicale, une grande quantité de données est acquise : présence de facteurs de risque associés à la maladie, imagerie médicale (IRM ou PET-scan), résultats de tests cognitifs, prélèvements de molécules identifiées comme biomarqueurs de la maladie, etc. Ces différentes modalités apportent des informations sur la progression de la maladie, certaines complémentaires et d'autres redondantes. De nombreux modèles d'apprentissage profond ont été appliqués avec succès aux données biomédicales, notamment pour des problématiques de segmentation d'organes ou de diagnostic de maladies. Ces travaux de thèse s'intéressent à la conception d'un modèle de type "réseau de neurones profond" pour la prédiction du déclin cognitif de patients à l'aide de données multimodales. Ainsi, nous proposons une architecture composée de sous-modules adaptés à chaque modalité : réseau convolutif 3D pour les IRM de cerveau, et couches entièrement connectées pour les données cliniques quantitatives et qualitatives. Pour évaluer l'évolution du patient, ce modèle prend en entrée les données de deux visites médicales quelconques. Ces deux visites sont comparées grâce à une architecture siamoise. Après avoir entraîné et validé ce modèle en utilisant comme cas d'application la maladie d'Alzheimer, nous nous intéressons au transfert de connaissance avec d'autres maladies neuro-dégénératives, et nous utilisons avec succès le transfert d'apprentissage pour appliquer notre modèle dans le cas de la maladie de Parkinson. Enfin, nous discutons des choix que nous avons pris pour la prise en compte de l'aspect temporel du problème, aussi bien lors de la création de la vérité terrain en fonction de l'évolution au long terme d'un score cognitif, que pour le choix d'utiliser des paires de visites au lieu de plus longues séquences.
- Published
- 2022
50. Recherche d'architecture de réseaux de neurones pour la classification extrême et dans un contexte d'apprentissage partiellement étiqueté
- Author
-
Pauletto, Loïc and STAR, ABES
- Subjects
Recherche d'architecture ,Apprentissage semi-Supervisé ,Apprentissage profond ,Semi-Supervised learning ,Architecteture search ,Networks optimization ,[INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,Deep learning ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,Optimisation des réseaux - Abstract
Deep learning applications are rapidly expanding and show no signs of slowing down. Neural network topologies are becoming larger and more complex for challenging real-life problems.This increased complexity necessitates more time and expertise from professionals, as well as a significant financial investment for AI companies.Neural Architecture Search is a novel Machine Learning paradigm that seeks to determine the best NN architecture for a given problem. NAS techniques, on the other hand, have only been studied and developed in limited, well-defined Machine Learning problems, which are not representative of all existing ML scenarios.This thesis focuses on the research and development of the NAS approaches for new tasks as well as a new learning framework that is more relevant to real-world applications.We suggested using a neuro-evolutionary NAS framework to solve the extreme multi-label classification challenge in particular.We combined convolution and recurrent networks to provide a more appropriate space search for this assignment.On several datasets, we evaluate the performance of the searched network. We also looked at the challenge of reconstructing an RSSI map, which is a more difficult process due to the lack of input data and the fact that it is only partially annotated. In this way, we provide a system for semantic segmentation task dynamic architecture search with a minimal number of annotated samples. We investigated multiple semi-supervised learning algorithms in this framework to see which one was the most successful at using unlabeled samples.We looked at a number of strategies, including "traditional" and "new" semi-supervision approaches, as well as self-supervision approaches., Les applications d'apprentissage profond se développent rapidement et ne montrent aucun signe de ralentissement. Les topologies des réseaux neuronaux deviennent de plus en plus grandes et complexes pour résoudre les problèmes de la vie réelle.Cette complexité accrue nécessite plus de temps et d'expertise de la part des professionnels, ainsi qu'un investissement financier important pour les entreprises d'IA.La recherche d'architecture neuronale (RAN) est un nouveau paradigme d'apprentissage automatique qui cherche à déterminer la meilleure architecture de réseau neuronal pour un problème donné. Les techniques de RNA, d'autre part, n'ont été étudiées et développées que dans des problèmes d'apprentissage automatique limités et bien définis, qui ne sont pas représentatifs de tous les scénarios d'apprentissage automatique existants.Cette thèse se concentre sur la recherche et le développement des approches RAN pour de nouvelles tâches ainsi que sur un nouveau cadre d'apprentissage qui est plus pertinent pour les applications du monde réel.Nous avons proposé d'utiliser un cadre RAN neuro-évolutif pour résoudre le défi extrême de la classification multi-label en particulier.Nous avons combiné des réseaux de convolution et récurrents pour fournir une recherche spatiale plus appropriée à cette tâche.Sur plusieurs jeux de données, nous évaluons la performance du réseau recherché. Nous avons également examiné le défi de la reconstruction d'une carte RSSI, qui est un processus plus difficile en raison du manque de données d'entrée(c'est-à-dire données partiellement annotées). De cette façon, nous proposons un système de recherche d'architecture dynamique pour les tâches de segmentation sémantique avec un nombre minimal d'échantillons annotés. Nous avons étudié plusieurs algorithmes d'apprentissage semi-supervisé dans ce cadre afin de déterminer celui qui réussit le mieux à utiliser des échantillons non étiquetés.Nous avons examiné un certain nombre de stratégies, y compris des approches de semi-supervision "traditionnelles" et "nouvelles", ainsi que des approches d'auto-supervision.
- Published
- 2022
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.