56 results on '"Zanon Boito, Marcely"'
Search Results
2. Unsupervised Word Segmentation from Speech with Attention
- Author
-
Godard, Pierre, Zanon-Boito, Marcely, Ondel, Lucas, Berard, Alexandre, Yvon, François, Villavicencio, Aline, and Besacier, Laurent
- Subjects
Computer Science - Computation and Language ,Computer Science - Artificial Intelligence - Abstract
We present a first attempt to perform attentional word segmentation directly from the speech signal, with the final goal to automatically identify lexical units in a low-resource, unwritten language (UL). Our methodology assumes a pairing between recordings in the UL with translations in a well-resourced language. It uses Acoustic Unit Discovery (AUD) to convert speech into a sequence of pseudo-phones that is segmented using neural soft-alignments produced by a neural machine translation model. Evaluation uses an actual Bantu UL, Mboshi; comparisons to monolingual and bilingual baselines illustrate the potential of attentional word segmentation for language documentation., Comment: Interspeech 2018
- Published
- 2018
3. Multilingual Distilwhisper: Efficient Distillation of Multi-Task Speech Models Via Language-Specific Experts
- Author
-
Ferraz, Thomas Palmeira, primary, Zanon Boito, Marcely, additional, Brun, Caroline, additional, and Nikoulina, Vassilina, additional
- Published
- 2024
- Full Text
- View/download PDF
4. NAVER LABS Europe’s Multilingual Speech Translation Systems for the IWSLT 2023 Low-Resource Track
- Author
-
Gow-Smith, Edward, primary, Berard, Alexandre, additional, Zanon Boito, Marcely, additional, and Calapodescu, Ioan, additional
- Published
- 2023
- Full Text
- View/download PDF
5. A Study of Gender Impact in Self-supervised Models for Speech-to-Text Systems
- Author
-
Zanon Boito, Marcely, primary, Besacier, Laurent, additional, Tomashenko, Natalia, additional, and Estève, Yannick, additional
- Published
- 2022
- Full Text
- View/download PDF
6. ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource Speech Translation Tasks
- Author
-
Zanon Boito, Marcely, primary, Ortega, John, additional, Riguidel, Hugo, additional, Laurent, Antoine, additional, Barrault, Loïc, additional, Bougares, Fethi, additional, Chaabani, Firas, additional, Nguyen, Ha, additional, Barbier, Florentin, additional, Gahbiche, Souhir, additional, and Estève, Yannick, additional
- Published
- 2022
- Full Text
- View/download PDF
7. Findings of the IWSLT 2022 Evaluation Campaign
- Author
-
Anastasopoulos, Antonios, primary, Barrault, Loïc, additional, Bentivogli, Luisa, additional, Zanon Boito, Marcely, additional, Bojar, Ondřej, additional, Cattoni, Roldano, additional, Currey, Anna, additional, Dinu, Georgiana, additional, Duh, Kevin, additional, Elbayad, Maha, additional, Emmanuel, Clara, additional, Estève, Yannick, additional, Federico, Marcello, additional, Federmann, Christian, additional, Gahbiche, Souhir, additional, Gong, Hongyu, additional, Grundkiewicz, Roman, additional, Haddow, Barry, additional, Hsu, Benjamin, additional, Javorský, Dávid, additional, Kloudová, Vĕra, additional, Lakew, Surafel, additional, Ma, Xutai, additional, Mathur, Prashant, additional, McNamee, Paul, additional, Murray, Kenton, additional, Nǎdejde, Maria, additional, Nakamura, Satoshi, additional, Negri, Matteo, additional, Niehues, Jan, additional, Niu, Xing, additional, Ortega, John, additional, Pino, Juan, additional, Salesky, Elizabeth, additional, Shi, Jiatong, additional, Sperber, Matthias, additional, Stüker, Sebastian, additional, Sudoh, Katsuhito, additional, Turchi, Marco, additional, Virkar, Yogesh, additional, Waibel, Alexander, additional, Wang, Changhan, additional, and Watanabe, Shinji, additional
- Published
- 2022
- Full Text
- View/download PDF
8. Modèles et ressources pour la segmentation non supervisée des mots basée sur l'attention
- Author
-
Zanon Boito, Marcely, Laboratoire d'Informatique de Grenoble (LIG), Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP), Université Grenoble Alpes (UGA)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes [2020-....], Laurent Besacier, and Aline Villavicencio
- Subjects
Unsupervised word segmentation ,Discrétisation de la parole ,Neural machine translation ,Approches à faibles ressources ,Speech discretization ,Segmentation non supervisée des mots ,Documentation computationnelle des langues ,Traduction automatique neuronale ,Low-Resource approaches ,Computational language documentation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Computational Language Documentation (CLD) is a research field interested in proposing methodologies capable of speeding up language documentation, helping linguists to efficiently collect and process data from many dialects, some of which are expected to vanish before the end of this century (Austin and Sallabank, 2013). In order to achieve that, the proposed methods need to be robust to low-resource data processing, as corpora from documentation initiatives lack size, and they must operate from speech, as many of these languages are from oral tradition, meaning that there is a lack of standard written form.In this thesis we investigate the task of Unsupervised Word Segmentation (UWS) from speech. The goal of this approach is to segment utterances into smaller chunks corresponding to the words in that language, without access to any written transcription. Here we propose to ground the word segmentation process in aligned bilingual information. This is inspired by the possible availability of translations, often collected by linguists during documentation (Adda et al., 2016).Thus, using bilingual corpora made of speech utterances and sentence-aligned translations, we propose the use of attention-based Neural Machine Translation (NMT) models in order to align and segment. Since speech processing is known for requiring considerable amounts of data, we split this approach in two steps. We first perform Speech Discretization (SD), transforming input utterances into sequences of discrete speech units. We then train NMT models, which output soft-alignment probability matrices between units and word translations. This attention-based soft-alignment is used for segmenting the units with respect to the bilingual alignment obtained, and the final segmentation is carried to the speech signal. Throughout this work, we investigate the use of different models for these two tasks.For the SD task, we compare five different approaches: three Bayesian HMM-based models (Ondel et al., 2016, 2019; Yusuf et al., 2020), and two Vector Quantization (VQ) neural models (van den Oord et al., 2017; Baevski et al.,2020a). We find that the Bayesian SD models, in particular the SHMM (Ondel et al., 2019) and H-SHMM (Yusuf et al., 2020), are the most exploitable for direct application in text-based UWS in our documentation setting. For the alignment and segmentation task, we compare three attention-based NMT models: RNN (Bahdanau et al., 2015), 2D-CNN (Elbayad et al., 2018), and Transformer (Vaswani et al., 2017). We find that the attention mechanism is still exploitable in our limited setting (5,130 aligned sentences only), but that the soft-alignment probability matrices from novel NMT approaches (2D-CNN, Transformer) are inferior to the ones from the simpler RNN model.Finally, our attention-based UWS approach is evaluated in topline conditions using the true phones (Boito et al., 2019a), and in realistic conditions using the output of SD models (Godard et al., 2018c). We use eight languages and fifty six language pairs for verifying the language-related impact caused by grounding segmentation in bilingual information (Boito et al., 2020b), and we present extensions for increasing the quality of the produced soft-alignment probability matrices (Boito et al., 2021).Overall we find our method to be generalizable. In realistic settings and across different languages, attention-based UWS is competitive against the nonparametric Bayesian model (dpseg) from Goldwater et al. (2009). Moreover, ours has the advantage of retrieving bilingual annotation for the word segments it produces. Lastly, in this work we also present two corpora for CLD studies (Godard et al.,2018a; Boito et al., 2018), and a dataset for low-resource speech processing with diverse language pairs (Boito et al., 2020a).; La documentation computationnelle des langues (CLD) est un domaine de recherche qui vise à proposer des méthodologies capables d'accélérer la documentation des langues, en aidant les linguistes à collecter et à traiter efficacement les données de nombreux dialectes, dont certains devraient disparaître d'ici 2100 (Austin et Sallabank, 2013). Pour y parvenir, les méthodes proposées doivent être robustes au traitement de données disponibles en faible quantité, car les corpus issus des initiatives de documentation manquent de volume, et elles sont basées sur la parole, car beaucoup de ces langues sont de tradition orale, sans forme écrite standard.Dans cette thèse, nous étudions la tâche de segmentation non supervisée en mots (UWS) à partir de la parole. Le but de cette approche est de segmenter la parole en petits morceaux correspondant aux mots de cette langue, sans avoir accès à une transcription écrite. Nous proposons ici de baser le processus de segmentation des mots sur des informations bilingues alignées. Ceci est inspiré par la potentielle disponibilité de traductions, souvent collectées par les linguistes lors de la documentation (Adda et al., 2016).Ainsi, à l'aide de corpus bilingues composés d'énoncés vocaux et de traductions alignées au niveau des phrases, nous proposons l'utilisation de modèles de traduction automatique neuronale (NMT) basés sur l'attention afin d'aligner et de segmenter. Le traitement de la parole nécessitant des quantités considérables de données, nous divisons cette approche en deux étapes. Nous effectuons d'abord une discrétisation de la parole (SD), en transformant les énoncés d'entrée en séquences d'unités de parole discrètes. Nous entraînons ensuite des modèles NMT, qui produisent des matrices de probabilité d'alignement entre les unités et les traductions de mots. Cette probabilité d’alignement bilingue est utilisée pour segmenter les unités, et la segmentation finale est appliquée au signal vocal.Pour la tâche de SD, nous comparons 5 approches : 3 modèles bayésiens basés sur les HMM (Ondel et al., 2016, 2019 ; Yusuf et al., 2020), et 2 modèles neuronaux à quantification vectorielle (van den Oord et al., 2017 ; Baevski et al.,2020a). Nous constatons que les modèles bayésiens, en particulier le SHMM (Ondel et al., 2019) et le H-SHMM (Yusuf et al., 2020), sont les plus exploitables pour l’UWS basée sur le texte dans notre cadre de documentation. Pour l'alignement et la segmentation, nous comparons 3 modèles NMT basés sur l'attention : RNN (Bahdanau et al., 2015), 2D-CNN (Elbayad et al., 2018), et Transformer (Vaswani et al., 2017). Nous constatons que le mécanisme d'attention est toujours exploitable dans notre cadre limité (5130 phrases alignées uniquement), mais que les matrices produites par les modèles NMT récents (2D-CNN, Transformer) sont inférieures à celles du modèle RNN, plus simple.Enfin, notre approche UWS basée sur l'attention est évaluée dans des conditions optimales en utilisant les phonèmes (Boito et al., 2019a), et dans des conditions réalistes en utilisant la sortie des modèles de SD (Godard et al., 2018c). Nous utilisons 8 langues et 56 paires de langues pour vérifier l'impact linguistique de la segmentation basée sur l’information bilingue (Boito et al., 2020b), et nous présentons des extensions pour augmenter la qualité des matrices de probabilité d'alignement produites (Boito et al., 2021).Dans des contextes réalistes et en utilisant différentes langues, l'UWS basé sur l'attention est compétitif par rapport au modèle bayésien non-paramétrique de Goldwater et al. (2009). De plus, le nôtre a l'avantage de récupérer des annotations bilingues pour les segments de mots qu'elle produit. Enfin, dans ce travail, nous présentons également 2 corpus pour les études de CLD (Godard et al.,2018a ; Boito et al., 2018), et un corpus pour le traitement de la parole à faibles ressources avec des paires de langues diverses (Boito et al., 2020a).
- Published
- 2021
9. Investigating Language Impact in Bilingual Approaches for Computational Language Documentation
- Author
-
Zanon Boito, Marcely, Villavicencio, Aline, Besacier, Laurent, Laboratoire d'Informatique de Grenoble (LIG), Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), Instituto de Informática da UFRGS (UFRGS), Universidade Federal do Rio Grande do Sul [Porto Alegre] (UFRGS), University of Sheffield [Sheffield], Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP), Université Grenoble Alpes (UGA)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), and ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019)
- Subjects
FOS: Computer and information sciences ,ComputingMethodologies_PATTERNRECOGNITION ,Computer Science - Computation and Language ,word segmentation ,computational language documentation ,sequence-to-sequence models ,[INFO]Computer Science [cs] ,attention mechanism ,Computation and Language (cs.CL) ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
For endangered languages, data collection campaigns have to accommodate the challenge that many of them are from oral tradition, and producing transcriptions is costly. Therefore, it is fundamental to translate them into a widely spoken language to ensure interpretability of the recordings. In this paper we investigate how the choice of translation language affects the posterior documentation work and potential automatic approaches which will work on top of the produced bilingual corpus. For answering this question, we use the MaSS multilingual speech corpus (Boito et al., 2020) for creating 56 bilingual pairs that we apply to the task of low-resource unsupervised word segmentation and alignment. Our results highlight that the choice of language for translation influences the word segmentation performance, and that different lexicons are learned by using different aligned translations. Lastly, this paper proposes a hybrid approach for bilingual word segmentation, combining boundary clues extracted from a non-parametric Bayesian model (Goldwater et al., 2009a) with the attentional word segmentation neural model from Godard et al. (2018). Our results suggest that incorporating these clues into the neural models' input representation increases their translation and alignment quality, specially for challenging language pairs., Accepted to 1st Joint SLTU and CCURL Workshop
- Published
- 2020
10. How Does Language Influence Documentation Workflow? Unsupervised Word Discovery Using Translations in Multiple Languages
- Author
-
Zanon Boito, Marcely, Villavicencio, Aline, Besacier, Laurent, Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), University of Sheffield [Sheffield], Instituto de Informática da UFRGS (UFRGS), Universidade Federal do Rio Grande do Sul [Porto Alegre] (UFRGS), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), and ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019)
- Subjects
FOS: Computer and information sciences ,Computer Science - Computation and Language ,découverte non supervisée du lexique ,language documentation ,documentation des langues ,multilingual approaches ,[INFO]Computer Science [cs] ,approches multilingues ,unsupervised word discovery ,Computation and Language (cs.CL) ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
For language documentation initiatives, transcription is an expensive resource: one minute of audio is estimated to take one hour and a half on average of a linguist's work (Austin and Sallabank, 2013). Recently, collecting aligned translations in well-resourced languages became a popular solution for ensuring posterior interpretability of the recordings (Adda et al. 2016). In this paper we investigate language-related impact in automatic approaches for computational language documentation. We translate the bilingual Mboshi-French parallel corpus (Godard et al. 2017) into four other languages, and we perform bilingual-rooted unsupervised word discovery. Our results hint towards an impact of the well-resourced language in the quality of the output. However, by combining the information learned by different bilingual models, we are only able to marginally increase the quality of the segmentation., Comment: 4 pages, workshop LIFT 2019
- Published
- 2019
- Full Text
- View/download PDF
11. ON-TRAC Consortium End-to-End Speech Translation Systems for the IWSLT 2019 Shared Task
- Author
-
Nguyen, Manh Ha, Tomashenko, Natalia, Zanon Boito, Marcely, Caubrière, Antoine, Bougares, Fethi, Rouvier, Mickael, Besacier, Laurent, Estève, Yannick, Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Laboratoire d'Informatique de l'Université du Mans (LIUM), Le Mans Université (UM), Laboratoire Informatique d'Avignon (LIA), Centre d'Enseignement et de Recherche en Informatique - CERI-Avignon Université (AU), Communication Langagière et Interaction Personne-Système (CLIPS - IMAG), Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Grenoble (INPG)-Université Joseph Fourier - Grenoble 1 (UJF), and ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019)
- Subjects
FOS: Computer and information sciences ,Sound (cs.SD) ,Computer Science - Computation and Language ,Audio and Speech Processing (eess.AS) ,FOS: Electrical engineering, electronic engineering, information engineering ,Computation and Language (cs.CL) ,Computer Science - Sound ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Electrical Engineering and Systems Science - Audio and Speech Processing - Abstract
This paper describes the ON-TRAC Consortium translation systems developed for the end-to-end model task of IWSLT Evaluation 2019 for the English-to-Portuguese language pair. ON-TRAC Consortium is composed of researchers from three French academic laboratories: LIA (Avignon Universit\'e), LIG (Universit\'e Grenoble Alpes), and LIUM (Le Mans Universit\'e). A single end-to-end model built as a neural encoder-decoder architecture with attention mechanism was used for two primary submissions corresponding to the two EN-PT evaluations sets: (1) TED (MuST-C) and (2) How2. In this paper, we notably investigate impact of pooling heterogeneous corpora for training, impact of target tokenization (characters or BPEs), impact of speech input segmentation and we also compare our best end-to-end model (BLEU of 26.91 on MuST-C and 43.82 on How2 validation sets) to a pipeline (ASR+MT) approach., Comment: IWSLT 2019 - First two authors contributed equally to this work
- Published
- 2019
- Full Text
- View/download PDF
12. A Small Griko-Italian Speech Translation Corpus
- Author
-
Zanon Boito, Marcely, primary, Anastasopoulos, Antonios, additional, Villavicencio, Aline, additional, Besacier, Laurent, additional, and Lekakou, Marika, additional
- Published
- 2018
- Full Text
- View/download PDF
13. Un jeu de données pour répondre à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances
- Author
-
Paul Lerner, Olivier Ferret, Camille Guinaudeau, Hervé Le Borgne, Romaric Besançon, Jose G Moreno, Jesús Lovón-Melgarejo, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Département Intelligence Ambiante et Systèmes Interactifs (DIASI), Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay, Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT), Université Paul Sabatier, IRIT, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
question-réponse visuelle ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,bases de connaissances ,jeu de données ,multimodalité ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Dans le contexte général des traitements multimodaux, nous nous intéressons à la tâche de réponse à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (KVQAE). Nous mettons à disposition ViQuAE, un nouveau jeu de données de 3 700 questions associées à des images, annoté à l’aide d’une méthode semi-automatique. C’est le premier jeu de données de KVQAE comprenant des types d’entités variés associé à une base de connaissances composée d’1,5 million d’articles Wikipédia, incluant textes et images. Nous proposons également un modèle de référence de KVQAE en deux étapes : recherche d’information puis extraction des réponses. Les résultats de nos expériences démontrent empiriquement la difficulté de la tâche et ouvrent la voie à une meilleure représentation multimodale des entités nommées.
- Published
- 2022
14. Le projet FREEM : ressources, outils et enjeux pour l’étude du français d’Ancien Régime
- Author
-
Simon Gabay, Pedro Ortiz Suarez, Rachel Bawden, Alexandre Bartz, Philippe Gambette, Benoît Sagot, Université de Genève = University of Geneva (UNIGE), Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Sorbonne Université (SU), Laboratoire d'Informatique Gaspard-Monge (LIGM), École des Ponts ParisTech (ENPC)-Centre National de la Recherche Scientifique (CNRS)-Université Gustave Eiffel, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Diachronic linguistics ,Reconnaissance d’entités nommées ,Named-entity recognition ,Normalisation ,Linguistique diachronique ,linguistic normalisation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Despite their undoubted quality, the resources and tools available for the analysis of Ancien Régime French are no longer able to meet the challenges of research in linguistics and literature for this period. After having precisely defined the chronological framework, we present the corpora made available and the results obtained with them for several NLP tasks, fundamental to the study of language and literature.; En dépit de leur qualité certaine, les ressources et outils disponibles pour l’analyse du français d’Ancien Régime ne sont plus à même de répondre aux enjeux de la recherche en linguistique et en littérature pour cette période. Après avoir précisément défini le cadre chronologique retenu, nous présentons les corpus mis à disposition et les résultats obtenus avec eux pour plusieurs tâches de TAL fondamentales à l’étude de la langue et de la littérature.
- Published
- 2022
15. Une étude statistique des plongements dans les modèles transformers pour le français
- Author
-
Fosse, Loïc, Nguyen, Duc-Hau, Sébillot, Pascale, Gravier, Guillaume, Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SIGNAL, IMAGE ET LANGAGE (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA), Institut des sciences de l'information et de leurs interactions (INS2I-CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
plongements de mots ,FlauBERT ,analyse statistique ,[INFO.INFO-MM]Computer Science [cs]/Multimedia [cs.MM] ,transfomer ,[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,CamemBERT ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; Nous étudions les propriétés statistiques des plongements dans les modèles transformers pour le français. Nous nous appuyons sur une analyse de la variance, des similarités cosinus intra-phrase et du rang effectif des plongements aux différents niveaux d’un transformer, pour des modèles pré-entraînés et des modèles adaptés à la classification de textes. Nous montrons que les modèles FlauBERT et CamemBERT pré-entraînés ont des comportements très différents même si les deux ont une tendance à générer des représentations anisotropiques, c’est-à-dire se concentrant dans un cône au sein de l’espace des plongements, comme observé pour l’anglais. L’adaptation à la classification de textes modifie le comportement des modèles, notamment dans les dernières couches, et procure une tendance forte à l’alignement des plongements, réduisant également la dimension effective de l’espace au final. Nous mettons également en évidence un lien entre convergence des plongements au sein d’une phrase et classification de texte, lien dont la nature reste difficile à appréhender.
- Published
- 2022
16. Évaluation comparative de systèmes neuronal et statistique pour la résolution de coréférence en langage parlé
- Author
-
Brassier, Maëlle, Azzouza, Théo, Grobol, Loïc, Antoine, Jean-Yves, Lefeuvre-Halftermeyer, Anaïs, Bases de données et traitement des langues naturelles (BDTLN), Laboratoire d'Informatique Fondamentale et Appliquée de Tours (LIFAT), Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Université d'Orléans (UO), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
classification statistique ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,modèle neuronal ,résolution de coréférence ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,langage parlé - Abstract
National audience; Nous présentons OFCoRS, un système de résolution de coréférence, basé sur le français parlé et un ensemble de modèles Random Forest. L’objectif de ce papier est de comparer l’approche statistique d’OFCoRS avec l’approche neuronale du système DeCoFre. Nous soulignons particulièrement les similarités et différences entre les deux systèmes. Nous comparons ensuite leurs performances sur le corpus français ANCOR et observons que les performances d’OFCoRS s’approchent de celles de DeCoFre. Une analyse détaillée montre également que les deux systèmes affichent de faibles performances sur les coréférences indirectes, montrant ainsi qu’on ne peut pas considérer le traitement des anaphores complexes comme un problème résolu.
- Published
- 2022
17. Détection des influenceurs dans des médias sociaux par une approche hybride
- Author
-
Deturck, Kevin, Nouvel, Damien, Patel, Namrata, Segond, Frederique, Équipe de Recherche en Textes, Informatique, Multilinguisme (ERTIM), Institut National des Langues et Civilisations Orientales (Inalco), Département de Mathématiques et Informatique Appliquées (MIAP), Université Paul-Valéry - Montpellier 3 (UPVM), Institut National de Recherche en Informatique et en Automatique (Inria), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
TAL ,graphes ,réseaux sociaux ,influenceurs ,centralité ,médias sociaux ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; L’influence sociale est un phénomène important dans divers domaines, tels que l’économie et la politique, qui a gagné en résonnance avec la popularité des médias sociaux, notamment les réseaux sociaux et les forums. La majorité des travaux sur ce sujet propose des approches fondées sur des théories en sciences humaines (sociologie, linguistique), et des techniques d’analyse de réseau (mesures de propagation et de centralité) ou de TAL. Dans cet article, nous présentons un modèle d’influence inspiré de travaux en psychologie sociale, sur lequel nous construisons un système combinant un module de TAL pour détecter les messages reflétant les processus d’influence, associé à une analyse par centralité de la transmission de ces messages. Nos expériences sur le forum de débats Change My View montrent que l’approche par hybridation, comparée à la centralité seule, aide à mieux détecter les influenceurs.
- Published
- 2022
18. Décontextualiser des plongements contextuels pour construire des thésaurus distributionnels
- Author
-
Ferret, Olivier, Département Intelligence Ambiante et Systèmes Interactifs (DIASI), Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay, ANR-17-CE23-0001,ADDICTE,Analyse distributionnelle en domaine de spécialité(2017), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
Plongements statiques et contextuels ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,thésaurus distributionnel ,similarité ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
International audience; Même si les modèles de langue contextuels sont aujourd'hui dominants en traitement automatique des langues, les représentations qu'ils construisent ne sont pas toujours adaptées à toutes les utilisations. Dans cet article, nous proposons une nouvelle méthode pour construire des plongements statiques à partir de modèles contextuels. Cette méthode combine la généralisation et l'agrégation des représentations contextuelles. Nous l'évaluons pour un large ensemble de noms en anglais dans la perspective de la construction de thésaurus distributionnels pour l'extraction de relations de similarité sémantique. Finalement, nous montrons que les représentations ainsi construites et les plongements statiques natifs peuvent être complémentaires.
- Published
- 2022
19. Décodage guidé par un discriminateur avec le Monte Carlo Tree Search pour la génération de texte contrainte
- Author
-
Chaffin, Antoine, Claveau, Vincent, Kijak, Ewa, IMATAG [Rennes], Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SIGNAL, IMAGE ET LANGAGE (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Génération de texte ,decoding ,Monte Carlo Tree Search ,décodage ,Text generation ,collaborative generation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,génération collaborative - Abstract
National audience; In this paper, we explore how to control text generation at decoding time to satisfy certain constraints (eg. being non-toxic, conveying certain emotions...) without fine-tuning the language model. Precisely, we formalize constrained generation as a tree exploration process guided by a discriminator that indicates how well the associated sequence respects the constraint. We propose several original methods to search this generation tree, notably the Monte Carlo Tree Search (MCTS) which provides theoretical guarantees on the search efficiency.Through 3 tasks and 2 languages, we show that discriminator-guided MCTS decoding achieves state-of-the-art results without having to tune the language model. We also demonstrate that other proposed decoding methods based on re-ranking can be really effective when diversity among the generated propositions is encouraged.; Dans cet article, nous explorons comment contrôler la génération de texte au moment du décodage pour satisfaire certaines contraintes (e.g. être non toxique, transmettre certaines émotions...), sans nécessiter de ré-entrainer le modèle de langue. Pour cela, nous formalisons la génération sous contrainte comme un processus d’exploration d’arbre guidé par un discriminateur qui indique dans quelle mesure la séquence associée respecte la contrainte. Nous proposons plusieurs méthodes originales pour explorer cet arbre de génération, notamment le Monte Carlo Tree Search (MCTS) qui fournit des garanties théoriques sur l’efficacité de la recherche. Au travers d’expériences sur 3 jeux de données et 2 langues, nous montrons que le décodage par MCTS guidé par les discriminateurs permet d’obtenir des résultats à l’état-de-l’art. Nous démontrons également que d’autres méthodes de décodage que nous proposons, basées sur le re-ordonnancement, peuvent être réellement efficaces lorsque la diversité parmi les propositions générées est encouragée.
- Published
- 2022
20. Étiquetage ou génération de séquences pour la compréhension automatique du langage en contexte d'interaction?
- Author
-
Abrougui, Rim, Damnati, Géraldine, Heinecke, Johannes, Béchet, Frédéric, Orange Innovation, Traitement Automatique du Langage Ecrit et Parlé (TALEP), Laboratoire d'Informatique et Systèmes (LIS), Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS), Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Compréhension du langage ,génération seq2seq ,étiquetage de séquence ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; La tâche de compréhension automatique du langage en contexte d’interaction (NLU pour Natural Language Understanding) est souvent réduite à la détection d’intentions et de concepts sur des corpus mono-domaines annotés avec une seule intention par énoncé. Afin de dépasser ce paradigme, nous cherchons à aborder des référentiels plus complexes en visant des représentations sémantiques structurées au-delà du simple modèle intention/concept. Nous nous intéressons au corpus MultiWOZ, couramment utilisé pour le suivi de l’état du dialogue. Nous questionnons la projection de ces annotations sémantiques complexes pour le NLU, en comparant plusieurs approches d’étiquetage de séquence, puis en proposant un nouveau formalisme inspiré des méthodes de génération de graphe pour la modélisation sémantique AMR. Nous discutons enfin le potentiel des approches génératives.
- Published
- 2022
21. Une chaîne de traitements pour prédire et appréhender la complexité des textes pour enfants d'un point de vue linguistique et psycho-linguistique
- Author
-
Battistelli, Delphine, Etienne, Aline, Rahman, Rashedur, Teissèdre, Charles, Lecorvé, Gwénolé, Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Expressiveness in Human Centered Data/Media (EXPRESSION), SIGNAL, IMAGE ET LANGAGE (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Synapse, Orange, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, ANR-19-CE38-0014,TextoKids,Accès au contenu informationnel de textes par les enfants(2019), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), and Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes 1 (UR1)
- Subjects
âge ,étapes développementales ,descripteurs linguistiques ,complexité d’un texte ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Nos travaux abordent la question de la mesure de la complexité d’un texte vis-à-vis d’une cible de lecteurs, les enfants en âge de lire, au travers de la mise en place d’une chaîne de traitements. Cette chaîne vise à extraire des descripteurs linguistiques, principalement issus de travaux en psycholinguistique et de travaux sur la lisibilité, mobilisables pour appréhender la complexité d’un texte. En l’appliquant sur un corpus de textes de fiction, elle permet d’étudier des corrélations entre certains descripteurs linguistiques et les tranches d’âges associées aux textes par les éditeurs. L’analyse de ces corrélations tend à valider la pertinence de la catégorisation en âges par les éditeurs. Elle justifie ainsi la mobilisation d’un tel corpus pour entraîner à partir des âges éditeurs un modèle de prédiction de l’âge cible d’un texte.
- Published
- 2022
22. Flux d'informations dans les systèmes encodeur-décodeur. Application à l'explication des biais de genre dans les systèmes de traduction automatique
- Author
-
Zhu, Lichao, Wisniewski, Guillaume, Ballier, Nicolas, Yvon, François, Laboratoire de Linguistique Formelle (LLF - UMR7110), Centre National de la Recherche Scientifique (CNRS)-Université Paris Cité (UPCité), Centre de Linguistique Inter-langues, de Lexicologie, de Linguistique Anglaise et de Corpus (CLILLAC-ARP (URP_3967)), Université Paris Cité (UPCité), Traitement du Langage Parlé (TLP ), Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Traduction Automatique Neuronale ,Explicabilité ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Biais de Genre - Abstract
National audience; Ce travail présente deux séries d’expériences visant à identifier les flux d’information dans les systèmes de traduction neuronaux. La première série s’appuie sur une comparaison des décisions d’un modèle de langue et d’un modèle de traduction pour mettre en évidence le flux d’information provenant de la source. La seconde série met en évidence l’impact de ces flux sur l’apprentissage du système dans le cas particulier du transfert de l’information de genre.
- Published
- 2022
23. Filtrage et régularisation pour améliorer la plausibilité des poids d'attention dans la tâche d'inférence en langue naturelle
- Author
-
Hau Nguyen, Duc, Gravier, Guillaume, Sébillot, Pascale, Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SIGNAL, IMAGE ET LANGAGE (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
plausibilité ,mécanisme d’attention ,[INFO.INFO-MM]Computer Science [cs]/Multimedia [cs.MM] ,[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,explicabilité ,inférence en langue naturelle ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; Nous étudions la plausibilité d’un mécanisme d’attention pour une tâche d’inférence de phrases (entailment), c’est-à-dire sa capacité à fournir une explication plausible pour un humain de la relation entre deux phrases. En s’appuyant sur le corpus Explanation-Augmented Standford Natural Language Inference, il a été montré que les poids d’attention sont peu plausibles en pratique et tendent à ne pas se concentrer sur les tokens importants. Nous étudions ici différentes approches pour rendre les poids d’attention plus plausibles, en nous appuyant sur des masques issus d’une analyse morphosyntaxique ou sur une régularisation pour forcer la parcimonie. Nous montrons que ces stratégies permettent d’améliorer sensiblement la plausibilité des poids d’attention et s’avèrent plus performantes que les approches par carte de saillance.
- Published
- 2022
24. Stratégies d'adaptation pour la reconnaissance d'entités médicales en français
- Author
-
Le Clercq de Lannoy, Tiphaine, Besançon, Romaric, Ferret, Olivier, Tourille, Julien, Brin-Henry, Frédérique, Vieru, Bianca, Département Intelligence Ambiante et Systèmes Interactifs (DIASI), Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay, Analyse et Traitement Informatique de la Langue Française (ATILF), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Ces travaux ont bénéficié d’un financement dans le cadre du programme e-Meuse Santé, porté par leDépartement de la Meuse et soutenu par les Départements de la Haute-Marne et de la Meurthe etMoselle, les GIP Objectif Meuse et Haute-Marne, la Région Grand Est, l’Agence Régionale de SantéGrand Est, et la Banque des Territoires au titre du programme France 2030., Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Travaux réalisés grâce au supercalculateur Factory-IA financé par le Conseil Régional d’Ile-de-France.
- Subjects
BERT ,Reconnaissance d’entités nommées ,UMLS ,Extraction d’information ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; In a context where few annotated corpora for medical entity extraction are available, we study in this paper a hybrid approach combining the use of specialized knowledge and language model adaptation ; furthermore, we study the effect of pretraining a general language model (CamemBERT) with different biomedical corpora. The methods are tested on the QUAERO corpus. We show that, even with a small corpus, pretrain a model with a specialized corpus can improve the results. The combination of several approaches allows to gain one to seven points on the F1-score depending on the test corpus and the method.; Dans un contexte où peu de corpus annotés pour l’extraction d’entités médicales sont disponibles, nous étudions dans cet article une approche hybride combinant utilisation de connaissances spécialisées et adaptation de modèles de langues en mettant l’accent sur l’effet du pré-entraînement d’un modèle de langue généraliste (CamemBERT) sur différents corpus. Les résultats sont obtenus sur le corpus QUAERO. Nous montrons que pré-entraîner un modèle avec un corpus spécialisé, même de taille réduite, permet d’observer une amélioration des résultats. La combinaison de plusieurs approches permet de gagner un à sept points de F1-mesure selon le corpus de test et la méthode.
- Published
- 2022
25. Construction de Graphes de Connaissance à partir de textes avec une I.A. centrée-utilisateur
- Author
-
Ayats, H. Ambre, Université de Rennes (UR), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Large Scale Collaborative Data Mining (LACODAM), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-GESTION DES DONNÉES ET DE LA CONNAISSANCE (IRISA-D7), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Graph-FCA ,I.A. centrée-utilisateur ,Knowledge Graph ,explainability ,Web sémantique ,Graphe de Connaissances ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Semantic Web ,user-centric A.I ,explicabilité - Abstract
National audience; With the rise of the Semantic Web over the last two decades, there has been a need for tools to build good quality knowledge graphs. This paper presents my thesis work, which is the design of an explainable, user-centered method for the semi-automated production of knowledge graphs fromdomain-specific texts. This system is initially presented as a guided RDF editing interface. Then, based on the user’s actions, a triplet suggestion system is implemented. Finally, through interactions with the user, the system gradually automates the process. After presenting the workflow of the system, and detailing the units that compose it - a pre-processing unit, an interactive unit and an automated unit - this article details the aspects of this workflow already implemented, as well as the results of their evaluation.; Avec l’essor du Web sémantique au cours des deux dernières décennies est apparu un besoin en outils permettant de construire des graphes de connaissances de bonne qualité. Cet article présente mon travail de thèse, qui est la conception d’une méthode explicable et centrée-utilisateur pour la production semi-automatisée de graphes de connaissances à partir de textes spécifiques à un domaine. Ce système se présente initialement comme une interface d’édition guidée de RDF. Puis, se basant sur les actions de l’utilisateur, un système de suggestion de triplets se met en place. Enfin, à travers des interactions avec l’utilisateur, le système automatise progressivement le processus. Après avoir présenté le workflow du système et détaillé les unités qui le compose – une unité de prétraitement, une unité interactive et une unité automatisée - cet article documente les aspects de ce workflow déjà implémentés, ainsi que les résultats de leur évaluation.
- Published
- 2022
26. Choosing The Right Teammate For Cooperative Text Generation
- Author
-
Chaffin, Antoine, Scialom, Thomas, Lamprier, Sylvain, Staiano, Jacopo, Piwowarski, Benjamin, Kijak, Ewa, Claveau, Vincent, IMATAG [Rennes], Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SIGNAL, IMAGE ET LANGAGE (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), reciTAL, Machine Learning and Information Access (MLIA), Institut des Systèmes Intelligents et de Robotique (ISIR), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Institut des sciences de l'information et de leurs interactions (INS2I-CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
Génération de texte ,génération coopérative ,decoding ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Monte Carlo Tree Search ,décodage ,Text generation ,collaborative generation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Language models (LM) generate texts by successively predicting probability distributions for next tokens given past ones. In order to generate texts with some desired properties (eg. being more natural, non toxic, or having a specific writing style...), recent approaches use a classifier to guide thedecoding of the LM distribution towards relevant texts with the expected property. In this paper, we examine three families of (transformer-based) discriminators for this task of cooperative decoding : bidirectional, left-to-right and generative ones. We evaluate the pros and cons of these different types of discriminators for cooperative generation, exploring their respective accuracy on classification tasks, their impact on the resulting sample quality and their computational performance. We also provide the batched implementation of the powerful cooperative decoding strategy used for ourexperiments, the Monte Carlo Tree Search, working with each discriminator for Natural Language Generation., Les modèles de langue génèrent des textes en prédisant successivement des distributions de probabilité pour les prochains tokens en fonction des tokens précédents. Pour générer des textes avec des propriétés souhaitées (par ex. être plus naturels, non toxiques ou avoir un style d’écriture spécifique), une solution — le décodage coopératif — consiste à utiliser un classifieur lors de la génération pour guider l’échantillonnage de la distribution du modèle de langue vers des textes ayant la propriété attendue. Dans cet article, nous examinons trois familles de discriminateurs (basés sur des transformers) pour cette tâche de décodage coopératif : les discriminateurs bidirectionnels, unidirectionnels (de gauche à droite) et génératifs. Nous évaluons leurs avantages et inconvénients, en explorant leur précision respective sur des tâches de classification, ainsi que leur impact sur la génération coopérative et leur coût de calcul, dans le cadre d’une stratégie de décodage état de l’art, basée sur une recherche arborescente de Monte-Carlo (MCTS). Nous fournissons également l’implémentation (batchée) utilisée pour nos expériences.
- Published
- 2022
27. Tâches Auxiliaires Multilingues pour le Transfert de Modèles de Détection de Discours Haineux
- Author
-
Riabi Arij, Montariol Syrielle, Seddah Djamé, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Ce travail a reçu le financement du programme de recherche et d’innovation Horizon 2020 de l’Unioneuropéenne sous la convention de subvention numéro 101021607. Le dernier auteur a reçu le soutiende l’Agence française de la recherche via le projet ANR ParSiTi (ANR16-CE33-0021)., Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, ANR-16-CE33-0021,PARSITI,Analyser l'impossible, Traduire l'improbable(2016), and European Project: 101021607,Counter
- Subjects
Transfert Cross-lingue ,Apprentissage multitâche ,Détection des Discours Haineux ,Hate Speech Detection, Cross-lingual Transfer, Multi-task learning ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Detecting hateful content is a challenging task, as it requires extensive cultural and contextual knowledge from the model; the necessary knowledge varies depending on the speaker’s language or the target of the content. However, annotated data for specific domains and languages are often inexistant or limited. In that case, annotated data in other languages can be exploited ; but the crosslingual transfer is often difficult due to these cultural and contextual variations. In this paper, we highlight this limitation for several domains and languages and show the positive impact of learning multilingual auxiliary tasks - sentiment analysis, recognition, and tasks based on morpho-syntactic information - on the cross-lingual zero-shot transfer of hate speech detection models in order to bridge this cultural gap., https://aclanthology.org/2022.jeptalnrecital-taln.41
- Published
- 2022
- Full Text
- View/download PDF
28. Détection d'anomalies textuelles à base de l'ingénierie d'invite
- Author
-
Xu, Yizhou, Gábor, Kata, Khouas, Leila, Segond, Frédérique, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, CY Cergy-Paris Université, AGORA - INALCO, ERTIM, Institut National des Langues et Civilisations Orientales (Inalco), ChapsVision, and Institut National de Recherche en Informatique et en Automatique (Inria)
- Subjects
Modèle de langage préentraîné ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Ingénierie d’invite ,Détection d’anomalies textuelles ,GPT-2 ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; La détection d’anomalies textuelles est une tâche importante de la fouille de textes. Plusieurs approches générales, visant l’identification de points de données aberrants, ont été appliqués dans ce domaine. Néanmoins, ces approches exploitent peu les nouvelles avancées du traitement automatique des langues naturelles (TALN). L’avènement des modèles de langage pré-entraînés comme BERT et GPT-2 a donné naissance à un nouveau paradigme de l’apprentissage automatique appelé ingénierie d’invite (prompt engineering) qui a montré de bonnes performances sur plusieurs tâches du TALN. Cet article présente un travail exploratoire visant à examiner la possibilité de détecter des anomalies textuelles à l’aide de l’ingénierie d’invite. Dans nos expérimentations, nous avons examiné la performance de différents modèles d’invite. Les résultats ont montré que l’ingénierie d’invite est une méthode prometteuse pour la détection d’anomalies textuelles.
- Published
- 2022
29. Modèle-s bayés-ien-s pour la segment-ation à deux niveau-x faible-ment super-vis-é-e
- Author
-
Okabe, Shu, Yvon, François, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Traitement du Langage Parlé (TLP ), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and ANR-19-CE38-0015,CLD2025,La documentation computationnelle des langues à l'horizon 2025(2019)
- Subjects
modèle bayésien non-paramétrique ,segmentation en morphèmes ,documentation automatique des langues ,segmentation en mots ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; La segmentation automatique en mots et en morphèmes est une étape cruciale dans le processus de documentation des langues. Dans ce travail, nous étudions plusieurs modèles bayésiens pour réaliser une segmentation conjointe des phrases à ces deux niveaux : d’une part, en introduisant un couplage déterministe entre deux modèles spécialisés pour identifier chaque type de frontières, d’autre part, en proposant une modélisation intrinsèquement hiérarchique. Un objectif important de cette étude est de comparer ces modèles dans un scénario où une supervision faible est disponible. Nos expériences portent sur deux langues et permettent de comparer dans des conditions réalistes les mérites de ces diverses modélisations.
- Published
- 2022
30. Adaptation au domaine de modèles de langue à l'aide de réseaux à base de graphes
- Author
-
Bouhandi, Merieme, Morin, Emmanuel, Hamon, Thierry, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, Laboratoire des Sciences du Numérique de Nantes (LS2N), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-École Centrale de Nantes (Nantes Univ - ECN), Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST), Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ), Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), and Université Sorbonne Paris Nord
- Subjects
plongements de mots ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,modèles de langue ,modèles neuronaux à base de graphes ,domaine spécialisé ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Les modèles de langue prodonds encodent les propriétés linguistiques et sont utilisés comme entrée pour des modèles plus spécifiques. Utiliser leurs représentations de mots telles quelles pour des domaines peu dotés se révèle être moins efficace. De plus, ces modèles négligent souvent les informations globales sur le vocabulaire au profit d’une plus forte dépendance à l’attention. Nous considérons que ces informations influent sur les résultats des tâches en aval. Leur combinaison avec les représentations contextuelles est effectuée à l’aide de réseaux de neurones à base de graphes. Nous montrons que l’utilité de cette combinaison qui surpassent les performances de baselines.
- Published
- 2022
31. Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources
- Author
-
Stephen Mutuvi, Emanuela Boros, Antoine Doucet, Adam Jatowt, Gaël Lejeune, Moses Odeo, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
extraction d’événements épidémiologiques ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,langues peu dotées ,modèles de langues - Abstract
Les modèles de langues pré-entraînés connaissent un très grand succès en TAL, en particulier dans les situations où l’on dispose de suffisamment de données d’entraînement. Cependant, il reste difficile d’obtenir des résultats similaires dans des environnements multilingues avec peu de données d’entraînement, en particulier dans des domaines spécialisés tels que la surveillance des épidémies. Dans cet article, nous explorons plusieurs hypothèses concernant les facteurs qui pourraient avoir une influence sur les performances d’un système d’extraction d’événements épidémiologiques dans un scénario multilingue à faibles ressources : le type de modèle pré-entraîné, la qualité du tokenizer ainsi que les caractéristiques des entités à extraire. Nous proposons une analyse exhaustive de ces facteurs et observons une corrélation importante, quoique variable ; entre ces caractéristiques et les performances observées sur la base d’une tâche de veille épidémiologique multilingue à faibles ressources. Nous proposons aussi d’adapter les modèles de langues à cette tâche en étendant le vocabulaire du tokenizer pré-entraîné avec les entités continues, qui sont des entités qui ont été divisées en plusieurs sous-mots. Suite à cette adaptation, nous observons une amélioration notable des performances pour la plupart des modèles et des langues évalués.
- Published
- 2022
32. Notation automatique de réponses courtes d’étudiants : présentation de la campagne DEFT 2022
- Author
-
Grouin, Cyril, Illouz, Gabriel, Information, Langue Ecrite et Signée (ILES), Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), and Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)
- Subjects
campagne d’évaluation ,Correction automatique ,réponses courtes d’étudiants ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; La correction de copies d’étudiants est une tâche coûteuse en temps pour l’enseignant. Nous proposons deux tâches d’attribution automatique de notes à des réponses courtes d’étudiants : une tâche classique d’entraînement de système et d’application sur le corpus de test, et une tâche d’amélioration continue du système avec interrogation d’un serveur d’évaluation. Les corpus se composent de réponses courtes d’étudiants à des questions en programmation web et bases de données, et sont anonymes. Quatre équipes ont participé à la première tâche. Les meilleures précisions de chaque équipe varient de 0,440 à 0,756 pour une précision moyenne de 0,542 et une médiane de 0,524. En raison de la complexité de la deuxième tâche, une seule équipe a participé, mais les résultats soumis ne sont pas exploitables.
- Published
- 2022
33. Etude des stéréotypes genrés dans le théâtre français du XVIe au XIXe siècle à travers des plongements lexicaux
- Author
-
Benamar, Alexandra, Grouin, Cyril, Bothua, Meryl, Vilnat, Anne, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Information, Langue Ecrite et Signée (ILES), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), EDF (EDF), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Théâtre ,Stéréotypes de genre ,Plongements lexicaux ,Biais ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Les modèles de TAL les plus récents cherchent à capturer au mieux toutes les subtilités de la langue, ce qui implique de récupérer les stéréotypes qui y sont associés. Dans cet article, nous étudions les stéréotypes de genre qui existent dans des modèles Word2Vec. Nous avons constitué un jeu de données composé de pièces de théâtre françaises allant du XVIe au XIXe siècle. Nous avons choisi de travailler sur le genre théâtral car il tend à pousser à leur paroxysme certains traits de caractère représentatifs de hiérarchies sociales préexistantes. Nous présentons des expériences dans lesquelles nous parvenons à mettre en avant des stéréotypes de genre en relation avec les rôles et les émotions traditionnellement imputés aux femmes et aux hommes. De plus, nous mettons en avant une sémantique spécifique associée à des personnages féminins et masculins. Cette étude démontre l’intérêt de mettre en évidence des stéréotypes dans des corpus à l’aide de modèles contextuels « classiques ».
- Published
- 2022
34. Impact du français inclusif sur les outils du TAL
- Author
-
Grouin, Cyril, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Traitement Automatique des Langues ,Français inclusif ,Taux d’erreur ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Le français inclusif est une variété du français standard mise en avant pour témoigner d’une conscience de genre et d’identité. Plusieurs procédés existent pour lutter contre l’utilisation générique du masculin (coordination de formes féminines et masculines, féminisation des fonctions, écriture inclusive, et neutralisation). Dans cette étude, nous nous intéressons aux performances des outils sur quelques tâches du TAL (étiquetage, lemmatisation, repérage d’entités nommées) appliqués sur des productions langagières de ce type. Les taux d’erreur sur l’étiquetage en parties du discours (TreeTagger et spaCy) augmentent de 3 à 7 points sur les portions rédigées en français inclusif par rapport au français standard, sans lemmatisation possible pour le TreeTagger. Sur le repérage d’entités nommées, les modèles sont sensibles aux contextes en français inclusif et font des prédictions erronées, avec une précision en baisse.
- Published
- 2022
35. « Est-ce que tu me suis ? » : une revue du suivi de l’état du dialogue
- Author
-
Jacqmin, Léo, Aix Marseille Université (AMU), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Suivi de l’état du dialogue ,systèmes de dialogues orienté tâches ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Tout en communiquant avec un utilisateur, un système de dialogue orienté tâche doit suivre les besoins de l’utilisateur à chaque étape selon l’historique de la conversation. Ce procédé appelé suivi de l’état du dialogue est primordial car il informe directement les actions du système. Cet article présente dans un premier temps la tâche du suivi de l’état du dialogue, les jeux de données disponibles et les approches modernes. Ensuite, compte tenu du nombre important de publications des dernières années, il vise à recenser les point saillants et les avancées des recherches. Bien que les approches neuronales aient permis des progrès notables, nous argumentons que certains aspects critiques liés aux systèmes de dialogue sont encore trop peu explorés. Pour motiver de futures études, plusieurs pistes de recherche sont proposées.
- Published
- 2022
36. Evaluation of Automatic Text Simplification: Where are we now, where should we go from here
- Author
-
Grabar, Natalia, Saggion, Horacio, Savoirs, Textes, Langage (STL) - UMR 8163 (STL), Université de Lille-Centre National de la Recherche Scientifique (CNRS), DICT, Universitat Pompeu Fabra, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
évaluation de la simplification ,données de référence ,mesures ,utilisateur final ,Simplification ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Évaluation de la simplification automatique de textes : où nous en sommes et vers où devonsnous aller. L’objectif de la simplification automatique de textes consiste à adapter le contenu de documents afin de les rendre plus faciles à comprendre par une population donnée ou bien pour améliorer les performances d’autres tâches TAL, comme le résumé automatique ou extraction d’information. Les étapes principales de la simplification automatique de textes sont plutôt bien définies et étudiées dans les travaux existants, alors que l’évaluation de la simplification reste sous-étudiée. En effet, contrairement à d’autres tâches de TAL, comme la recherche et extraction d’information, la structuration de terminologie ou les questions-réponses, qui s’attendent à avoir des résultats factuels et consensuels, il est difficile de définir un résultat standard de la simplification. Le processus de simplification est très subjectif et souvent non consensuel parce qu’il est lourdement basé sur les connaissances propres des personnes. Ainsi, plusieurs facteurs sont impliqués dans le processus de simplification et son évaluation. Dans ce papier, nous présentons et discutons quelques uns de ces facteurs : le rôle de l’utilisateur final, les données de référence, le domaine des documents source et les mesures d’évaluation.
- Published
- 2022
37. La Chine de Buffon : édition numérique et exploration sémantique de l’Histoire naturelle (1749-1789)
- Author
-
Axel Le Roy, Motasem Alrahabi, Glenn Roe, Sorbonne Université (SU), Observatoire des textes, des idées et des corpus (ObTIC), Bibliothèque nationale de France (BnF)-Centre d’étude de la langue et des littératures françaises (CELLF), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)- Sorbonne Center for Artificial Intelligence (SCAI), Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD)-Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
Histoire naturelle ,annotation ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,corpus ,Buffon ,Chine ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,jugement critique ,lecture attentive ,XML-TEI - Abstract
National audience; Nous présentons un travail en cours sur la structuration et l’exploration d’un grand corpus textuel de Georges-Louis de Buffon, célèbre naturaliste français du XVIII e siècle. Il s’agit d’éditer en XML-TEI les trente-six volumes de son Histoire naturelle et d’effectuer une première exploration autour de la thématique des animaux chinois. Afin de comprendre la représentation du monde chinois et plus particulièrement la construction et la discussion des savoirs sur les animaux dans l’œuvre de Buffon, nous avons commencé à explorer le corpus selon une approche symbolique à base de lexique. Celleci permet d’identifier dans les textes les passages porteurs de modalités subjectives: opinions, sentiments ou émotions. Malgré la simplicité de notre approche, les résultats nous ont permis de faire des constats intéressants sur la critique des sources chez Buffon, sur sa description des animaux et sur son observation des pratiques chinoises.
- Published
- 2022
38. Classification automatique de questions spontanées vs. préparées dans des transcriptions de l'oral
- Author
-
Eshkol-Taravella, Iris, Barbedette, Angèle, Liu, Xingyu, Soumah, Valentin-Gabriel, Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Université Sorbonne Nouvelle - Paris 3, Université Paris Nanterre (UPN), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
corpus oral ,classification de questions ,discours spontané ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,apprentissage supervisé ,discours préparé ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Ce travail a pour objectif de développer un modèle linguistique pour classifier automatiquement des questions issues de transcriptions d’enregistrements provenant des corpus ESLO2 et ACSYNT en deux catégories "spontané" et "préparé". Avant de procéder au traitement automatique, nous proposons une liste de critères définitoires et discriminants permettant de distinguer les questions parmi d’autres énoncés. Les expériences basées sur des méthodes d’apprentissage supervisé sont réalisées selon une classification multiclasse comprenant les catégories "spontané", "préparé" et "non-question" et selon une classification binaire incluant les catégories "spontané" et "préparé" uniquement. Les meilleurs résultats pour les méthodes traditionnelles d’apprentissage automatique sont obtenus avec une régression logistique combinée aux critères linguistiques significatifs uniquement (F-score de 0.75). Pour finir, nous mettons en parallèle ces résultats avec ceux obtenus en utilisant des techniques d’apprentissage profond.
- Published
- 2022
39. Reconnaissance automatique des appellations d’œuvres visuelles antiques
- Author
-
Lessieux, Aurore, Eshkol-Taravella, Iris, Szabados, Anne-Violaine, Nazarian, Marlène, Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Archéologies et Sciences de l'Antiquité (ArScAn), Université Paris 1 Panthéon-Sorbonne (UP1)-Université Paris 8 Vincennes-Saint-Denis (UP8)-Université Paris Nanterre (UPN)-Ministère de la Culture et de la Communication (MCC)-Institut national de recherches archéologiques préventives (Inrap)-Centre National de la Recherche Scientifique (CNRS), Lexicon Iconographicum Mythologiae Classicae (LIMC), Université Paris 1 Panthéon-Sorbonne (UP1)-Université Paris 8 Vincennes-Saint-Denis (UP8)-Université Paris Nanterre (UPN)-Ministère de la Culture et de la Communication (MCC)-Institut national de recherches archéologiques préventives (Inrap)-Centre National de la Recherche Scientifique (CNRS)-Université Paris 1 Panthéon-Sorbonne (UP1)-Université Paris 8 Vincennes-Saint-Denis (UP8)-Université Paris Nanterre (UPN)-Ministère de la Culture et de la Communication (MCC)-Institut national de recherches archéologiques préventives (Inrap)-Centre National de la Recherche Scientifique (CNRS), Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
méthodes symboliques ,TAL ,appellations d’œuvre ,REN ,humanités numériques ,[SHS.ART]Humanities and Social Sciences/Art and art history ,histoire de l’art ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[SHS]Humanities and Social Sciences - Abstract
National audience; Le projet pluridisciplinaire MonumenTAL a pour objectif de repérer et répertorier les appellations d’œuvres d’art visuel de l’Antiquité classique dans des textes en français publiés du XVIIIe au XXIe siècle en utilisant les méthodes du TAL. Il repose sur une collaboration étroite entre historiens de l’art (LIMC), linguistes-TAListes (MoDyCo) et bibliothécaires (BnF). Le traitement proposé implique plusieurs étapes : sélection du corpus d’étude, élaboration d’une typologie des appellations, constitution d’un corpus annoté par les experts du domaine et développement d’un outil de reconnaissance automatique des appellations fondé sur des méthodes symboliques.
- Published
- 2022
40. Mieux utiliser BERT pour la détection d'évènements à partir de peu d'exemples
- Author
-
Tuo, Aboubacar, Besançon, Romaric, Ferret, Olivier, Tourille, Julien, Département Intelligence Ambiante et Systèmes Interactifs (DIASI), Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
BERT ,apprentissage à partir de peu d’exemples ,métaapprentissage ,Extraction d’évènements ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Les méthodes actuelles pour la détection d’évènements, qui s’appuient essentiellement sur l’apprentissage supervisé profond, s’avèrent très coûteuses en données annotées. Parmi les approches pour l’apprentissage à partir de peu de données, nous exploitons dans cet article le méta-apprentissage et l’utilisation de l’encodeur BERT pour cette tâche. Plus particulièrement, nous explorons plusieurs stratégies pour mieux exploiter les informations présentes dans les différentes couches d’un modèle BERT pré-entraîné et montrons que ces stratégies simples permettent de dépasser les résultats de l’état de l’art pour cette tâche en anglais.
- Published
- 2022
41. Identification de mots et passages difficiles dans les documents médicaux en français
- Author
-
Sheang, Kim Cheng, Koptient, Anaïs, Grabar, Natalia, Saggion, Horacio, Universitat Pompeu Fabra, Savoirs, Textes, Langage (STL) - UMR 8163 (STL), Université de Lille-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Text simplification ,Complex word identification ,Simplification de texte ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Détection de mots difficiles - Abstract
Comunicació presentada a: 29e Conférence sur le Traitement Automatique des Langues Naturelles, celebrat del 27 de juny a l'1 de juliol de 2022 a Avignon, França L’objectif de la simplification automatique des textes consiste à fournir une nouvelle version de documents qui devient plus facile à comprendre pour une population donnée ou plus facile à traiter par d’autres applications du TAL. Cependant, avant d’effectuer la simplification, il est important de savoir ce qu’il faut simplifier exactement dans les documents. En effet, même dans les documents techniques et spécialisés, il n’est pas nécessaire de tout simplifier mais juste les segments qui présentent des difficultés de compréhension. Il s’agit typiquement de la tâche d’identification de mots complexes : effectuer le diagnostic de difficulté d’un document donné pour y détecter les mots et passages complexes. Nous proposons de travail sur l’identification de mots et passages complexes dans les documents biomédicaux en français. The purpose of automatic text simplification is to provide a new version of documents that are easier to understand by a given population or easier to process by other NLP applications. However, it is important to know what should be simplified exactly within the documents before the simplification is done. Indeed, even in technical and specialized documents, it is unnecessary to simplify everything but just those segments that present understanding difficulty. Typically, the purpose of complex word identification is to diagnose the difficulty of a given document to detect complex words or passages within it. We propose to address the issue of identifying complex words and passages within biomedical documents in French. Our work is partly supported by the project Context-aware Multilingual Text Simplification (ConMuTeS) PID2019-109066GB-I00/AEI/10.13039/501100011033 awarded by Ministerio de Ciencia, Innovación y Universidades (MCIU), by Agencia Estatal de Investigación (AEI) of Spain, and by the French National Agency for Research (ANR) as part of the CLEAR project (Communication, Literacy, Education, Accessibility, Readability), ANR-17-CE19-0016-01.
- Published
- 2022
42. Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement
- Author
-
Gerald, Thomas, Ettayeb, Sofiane, Quang Le, Ha, Illouz, Gabriel, Paroubek, Patrick, Vilnat, Anne, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Information, Langue Ecrite et Signée (ILES), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
extraction d’informations ,question/réponse ,système d’annotation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Dans cette démonstration, nous présenterons les travaux en cours pour l’annotation d’un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme “FQuad” ou “Piaf”, nous nous intéressons à l’annotation de questions-réponses “non factuelles”. En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s’appuyant sur un schéma de raisonnement issue de l’agrégation de différentes sources ou contextes. L’objectif du projet associé est de parvenir à la création d’un assistant virtuel pour l’éducation, ainsi des réponses explicatives, de raisonnement et/ou d’agrégation de l’information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d’approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l’étape de validation de la campagne d’annotation. Une deuxième phase d’annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).
- Published
- 2022
43. L'importance des entités pour la tâche de détection d'événements en tant que système de question-réponse
- Author
-
Emanuela Boros, Jose Moreno, Antoine Doucet, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,apprentissage en peu de coups ,systèmes de question-réponse ,Détection d’événements - Abstract
Dans cet article, nous abordons un paradigme récent et peu étudié pour la tâche de détection d’événements en la présentant comme un problème de question-réponse avec possibilité de réponses multiples et le support d’entités. La tâche d’extraction des déclencheurs d’événements est ainsi transformée en une tâche d’identification des intervalles de réponse à partir d’un contexte, tout en se concentrant également sur les entités environnantes. L’architecture est basée sur un modèle de langage pré-entraîné et finement ajusté, où le contexte d’entrée est augmenté d’entités marquées à différents niveaux, de leurs positions, de leurs types et, enfin, de leurs rôles d’arguments. Nos expériences sur le corpus ACE 2005 démontrent que le modèle proposé exploite correctement les informations sur les entités dans le cadre de la détection des événements et qu’il constitue une solution viable pour cette tâche. De plus, nous démontrons que notre méthode, avec différents marqueurs d’entités, est particulièrement capable d’extraire des types d’événements non vus dans des contextes d’apprentissage en peu de coups.
- Published
- 2022
44. Une chaîne de traitements pour la simplification automatique de la parole et sa traduction automatique vers des pictogrammes
- Author
-
Macaire, Cécile, Ormaechea-Grijalba, Lucia, Pupier, Adrien, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Analyse syntaxique ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Parole ,Simplification de phrase ,Pictogramme ,Communication Alternative et Augmentée ,Bout-en-bout - Abstract
La Communication Alternative et Augmentée (CAA) prend une place importante chez les personnes en situation de handicap ainsi que leurs proches à cause de la difficulté de son utilisation. Pour réduire ce poids, l’utilisation d’outils de traduction de la parole en pictogrammes est pertinente. De plus, ils peuvent être d’une grande aide pour l’accessibilité communicative dans le milieu hospitalier. Dans cet article, nous présentons un projet de recherche visant à développer un système de traduction de la parole vers des pictogrammes. Il met en jeu une chaîne de traitement comportant plusieurs axes relevant du traitement automatique des langues et de la parole, tels que la reconnaissance automatique de la parole, l’analyse syntaxique, la simplification de texte et la traduction automatique vers les pictogrammes. Nous présentons les difficultés liées à chacun de ces axes ainsi que, pour certains, les pistes de résolution.
- Published
- 2022
45. TAL et Littérature comparée. Détection automatique des correspondances textuelles entre les réécritures d'un mythe
- Author
-
Suchecka, Karolina, Gasiglia, Nathalie, Analyses littéraires et histoire de la langue - ULR 1061 (ALITHILA), Université de Lille, Savoirs, Textes, Langage (STL) - UMR 8163 (STL), Université de Lille-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
intertextualité quantitative ,Tracer ,série traductive ,TextPAIR ,visualisation de données ,XML-TEI ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,graphes de connaissance - Abstract
National audience; L’idée de pouvoir détecter automatiquement des relations intertextuelles est stimulante, pour la recherche littéraire et linguistique, et pour l’édition numérique. Cependant, si les logiciels employés pour notre projet, TextPAIR et Tracer, sont très performants pour les correspondances proches, grâce à des techniques de l’intelligence artificielle, ils ne détectent pas (bien) des réutilisations et évocations plus complexes. Nous proposons d’améliorer les résultats en faisant coopérer l’herméneutique spécifique des études littéraires avec des méthodes talistes, linguistiques et informatiques. Nous rencontrons toutefois quelques difficultés en traitant notre corpus avec des outils du TAL.
- Published
- 2022
46. Stylo@DEFT2022 : Automatic short answer grading by combinations of similarity methods
- Author
-
Ben Ltaifa, Ibtihel, Boubehziz, Toufik, Briglia, Andrea, Chutaux, Corina, Dupont, Yoann, González-Gallardo, Carlos-Emiliano, Koudoro-Parfait, Caroline, Lejeune, Gaël, Sens, Texte, Informatique, Histoire (STIH), Sorbonne Université (SU), Observatoire des textes, des idées et des corpus (ObTIC), Bibliothèque nationale de France (BnF)-Centre d’étude de la langue et des littératures françaises (CELLF), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)- Sorbonne Center for Artificial Intelligence (SCAI), Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD)-Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD), Laboratoire Informatique, Image et Interaction - EA 2118 (L3I), La Rochelle Université (ULR), Équipe Linguistique computationnelle (STIH-LC), Sorbonne Université (SU)-Sorbonne Université (SU), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, Grouin, Cyril and Illouz, Gabriel, Parmentier, Yannick, and Grouin, Cyril and Illouz, Gabriel
- Subjects
sentence embeddings ,régression linéaire ,régression logistique ,évaluation automatique des réponses courtes ,Question à réponse ouverte courte ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,QROC ,Évaluation automatique des questions à réponses courtes ,n-grammes de caractères ,word pieces ,EAQRC ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Cet article présente la participation de l’équipe STyLO (STIH, L3I, OBTIC) au DÉfi Fouille de Textes 2022 (DEFT 2022). La tâche proposée consiste en une évaluation automatique des questions à réponses courtes (EAQRC) de devoirs d’étudiant·e·s avec le corrigé de l’enseignant comme ressource pour chaque question. Nous exploitons dans notre approche une combinaison de différentes méthodes de représentation des données (corrigés et réponses) : mots, n-grammes de caractères (avec et sans frontières de mots), word pieces] et sentence embeddings ainsi que de différents algorithmes pour calculer la note (régression linéaire et régression logistique). Les méthodes sont évaluées en termes d’exactitude et de corrélation de Spearman.
- Published
- 2022
47. Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques
- Author
-
Baptiste Blouin, Benoit Favre, Jeremy Auguste, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, Laboratoire d'Informatique et Systèmes (LIS), and Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Données historiques ,OCR ,Extraction d’information ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Transformers ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; L’extraction d’information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s’effectue sur des données contemporaines. Malgré l’évolution constante des systèmes d’OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Du fait d’un manque de ressources historiques dédiées au TAL, le traitement de ce domaine reste dépendant de l’utilisation de ressources contemporaines. De nombreuses études ont démontré l’impact négatif que pouvaient avoir les erreurs d’OCR sur les systèmes prêts à l’emploi contemporains. Mais l’évaluation des nouvelles architectures, proposant des résultats prometteurs sur des données récentes, face à ce problème reste encore très minime. Dans cette étude, nous quantifions l’impact des erreurs d’OCR sur trois tâches d’extraction d’information en utilisant plusieurs architectures de type Transformers. Au vu de ces résultats, nous proposons une approche permettant de réduire de plus de 50% cet impact sans avoir recours à des ressources historiques spécialisées.
- Published
- 2022
48. Un algorithme d'analyse sémantique fondée sur les graphes via le problème de l'arborescence généralisée couvrante
- Author
-
Petit, Alban, Corro, Caio, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Traitement du Langage Parlé (TLP ), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
optimisation combinatoire ,analyse fondée sur les graphes ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Analyse sémantique - Abstract
National audience; Nous proposons un nouvel algorithme pour l’analyse sémantique fondée sur les graphes via le problème de l’arborescence généralisée couvrante.
- Published
- 2022
49. Exploration orientée entités : étude du genre dans le Mercure de France
- Author
-
Dupont, Yoann, Bordry, Marguerite, Observatoire des textes, des idées et des corpus (ObTIC), Bibliothèque nationale de France (BnF)-Centre d’étude de la langue et des littératures françaises (CELLF), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)- Sorbonne Center for Artificial Intelligence (SCAI), Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD)-Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Entités nommées ,analyse de sentiment ,liage des entités nommées ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Dans cet article, nous étudions la façon dont le genre influence les critiques littéraires et plus précisément le Mercure de France, l’une des plus importantes revues parisiennes de la fin du XIXe siècle. Nous nous intéressons aux auteurs et autrices italiennes. Nous avons utilisé Wikidata afin de lier les entités repérées à un identifiant unique de la base. Ainsi, nous avons pu récupérer le genre d’un auteur, quel que soit le pseudonyme sous lequel ce dernier écrivait, ce qui nous a permis d’obtenir des cooccurrents spécifiques pour chaque genre.
- Published
- 2022
50. When Being Unseen from mBERT is just the Beginning: Handling New Languages With Multilingual Language Models
- Author
-
Antonios Anastasopoulos, Djamé Seddah, Benjamin Muller, Benoît Sagot, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), George Mason University [Fairfax], ANR-16-CE33-0021,PARSITI,Analyser l'impossible, Traduire l'improbable(2016), ANR-15-CE38-0011,SoSweet,Une sociolinguistique de Twitter : liens sociaux et variations linguistiques(2015), ANR-19-P3IA-0001,PRAIRIE,PaRis Artificial Intelligence Research InstitutE(2019), Sorbonne Université (SU), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
FOS: Computer and information sciences ,Translittération ,Computer science ,02 engineering and technology ,010501 environmental sciences ,computer.software_genre ,01 natural sciences ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Resource (project management) ,0202 electrical engineering, electronic engineering, information engineering ,Set (psychology) ,0105 earth and related environmental sciences ,Computer Science - Computation and Language ,business.industry ,Norm (artificial intelligence) ,Modèles de langues multilingues neuronaux ,020201 artificial intelligence & image processing ,Artificial intelligence ,Language model ,Langues peu dotées ,Raw data ,Transfer of learning ,business ,Computation and Language (cs.CL) ,computer ,Natural language processing - Abstract
Transfer learning based on pretraining language models on a large amount of raw data has become a new norm to reach state-of-the-art performance in NLP. Still, it remains unclear how this approach should be applied for unseen languages that are not covered by any available large-scale multilingual language model and for which only a small amount of raw data is generally available. In this work, by comparing multilingual and monolingual models, we show that such models behave in multiple ways on unseen languages. Some languages greatly benefit from transfer learning and behave similarly to closely related high resource languages whereas others apparently do not. Focusing on the latter, we show that this failure to transfer is largely related to the impact of the script used to write such languages. Transliterating those languages improves very significantly the ability of large-scale multilingual language models on downstream tasks., Accepted at NAACL-HLT 2021
- Published
- 2020
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.