21 results on '"Zanon Boito, Marcely"'
Search Results
2. Unsupervised Word Segmentation from Speech with Attention
- Author
-
Godard, Pierre, Zanon-Boito, Marcely, Ondel, Lucas, Berard, Alexandre, Yvon, François, Villavicencio, Aline, and Besacier, Laurent
- Subjects
Computer Science - Computation and Language ,Computer Science - Artificial Intelligence - Abstract
We present a first attempt to perform attentional word segmentation directly from the speech signal, with the final goal to automatically identify lexical units in a low-resource, unwritten language (UL). Our methodology assumes a pairing between recordings in the UL with translations in a well-resourced language. It uses Acoustic Unit Discovery (AUD) to convert speech into a sequence of pseudo-phones that is segmented using neural soft-alignments produced by a neural machine translation model. Evaluation uses an actual Bantu UL, Mboshi; comparisons to monolingual and bilingual baselines illustrate the potential of attentional word segmentation for language documentation., Comment: Interspeech 2018
- Published
- 2018
3. Investigating Language Impact in Bilingual Approaches for Computational Language Documentation
- Author
-
Zanon Boito, Marcely, Villavicencio, Aline, Besacier, Laurent, Laboratoire d'Informatique de Grenoble (LIG), Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), Instituto de Informática da UFRGS (UFRGS), Universidade Federal do Rio Grande do Sul [Porto Alegre] (UFRGS), University of Sheffield [Sheffield], Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP), Université Grenoble Alpes (UGA)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), and ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019)
- Subjects
FOS: Computer and information sciences ,ComputingMethodologies_PATTERNRECOGNITION ,Computer Science - Computation and Language ,word segmentation ,computational language documentation ,sequence-to-sequence models ,[INFO]Computer Science [cs] ,attention mechanism ,Computation and Language (cs.CL) ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
For endangered languages, data collection campaigns have to accommodate the challenge that many of them are from oral tradition, and producing transcriptions is costly. Therefore, it is fundamental to translate them into a widely spoken language to ensure interpretability of the recordings. In this paper we investigate how the choice of translation language affects the posterior documentation work and potential automatic approaches which will work on top of the produced bilingual corpus. For answering this question, we use the MaSS multilingual speech corpus (Boito et al., 2020) for creating 56 bilingual pairs that we apply to the task of low-resource unsupervised word segmentation and alignment. Our results highlight that the choice of language for translation influences the word segmentation performance, and that different lexicons are learned by using different aligned translations. Lastly, this paper proposes a hybrid approach for bilingual word segmentation, combining boundary clues extracted from a non-parametric Bayesian model (Goldwater et al., 2009a) with the attentional word segmentation neural model from Godard et al. (2018). Our results suggest that incorporating these clues into the neural models' input representation increases their translation and alignment quality, specially for challenging language pairs., Accepted to 1st Joint SLTU and CCURL Workshop
- Published
- 2020
4. How Does Language Influence Documentation Workflow? Unsupervised Word Discovery Using Translations in Multiple Languages
- Author
-
Zanon Boito, Marcely, Villavicencio, Aline, Besacier, Laurent, Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), University of Sheffield [Sheffield], Instituto de Informática da UFRGS (UFRGS), Universidade Federal do Rio Grande do Sul [Porto Alegre] (UFRGS), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), and ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019)
- Subjects
FOS: Computer and information sciences ,Computer Science - Computation and Language ,découverte non supervisée du lexique ,language documentation ,documentation des langues ,multilingual approaches ,[INFO]Computer Science [cs] ,approches multilingues ,unsupervised word discovery ,Computation and Language (cs.CL) ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
For language documentation initiatives, transcription is an expensive resource: one minute of audio is estimated to take one hour and a half on average of a linguist's work (Austin and Sallabank, 2013). Recently, collecting aligned translations in well-resourced languages became a popular solution for ensuring posterior interpretability of the recordings (Adda et al. 2016). In this paper we investigate language-related impact in automatic approaches for computational language documentation. We translate the bilingual Mboshi-French parallel corpus (Godard et al. 2017) into four other languages, and we perform bilingual-rooted unsupervised word discovery. Our results hint towards an impact of the well-resourced language in the quality of the output. However, by combining the information learned by different bilingual models, we are only able to marginally increase the quality of the segmentation., Comment: 4 pages, workshop LIFT 2019
- Published
- 2019
- Full Text
- View/download PDF
5. ON-TRAC Consortium End-to-End Speech Translation Systems for the IWSLT 2019 Shared Task
- Author
-
Nguyen, Manh Ha, Tomashenko, Natalia, Zanon Boito, Marcely, Caubrière, Antoine, Bougares, Fethi, Rouvier, Mickael, Besacier, Laurent, Estève, Yannick, Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Laboratoire d'Informatique de l'Université du Mans (LIUM), Le Mans Université (UM), Laboratoire Informatique d'Avignon (LIA), Centre d'Enseignement et de Recherche en Informatique - CERI-Avignon Université (AU), Communication Langagière et Interaction Personne-Système (CLIPS - IMAG), Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Grenoble (INPG)-Université Joseph Fourier - Grenoble 1 (UJF), and ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019)
- Subjects
FOS: Computer and information sciences ,Sound (cs.SD) ,Computer Science - Computation and Language ,Audio and Speech Processing (eess.AS) ,FOS: Electrical engineering, electronic engineering, information engineering ,Computation and Language (cs.CL) ,Computer Science - Sound ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Electrical Engineering and Systems Science - Audio and Speech Processing - Abstract
This paper describes the ON-TRAC Consortium translation systems developed for the end-to-end model task of IWSLT Evaluation 2019 for the English-to-Portuguese language pair. ON-TRAC Consortium is composed of researchers from three French academic laboratories: LIA (Avignon Universit\'e), LIG (Universit\'e Grenoble Alpes), and LIUM (Le Mans Universit\'e). A single end-to-end model built as a neural encoder-decoder architecture with attention mechanism was used for two primary submissions corresponding to the two EN-PT evaluations sets: (1) TED (MuST-C) and (2) How2. In this paper, we notably investigate impact of pooling heterogeneous corpora for training, impact of target tokenization (characters or BPEs), impact of speech input segmentation and we also compare our best end-to-end model (BLEU of 26.91 on MuST-C and 43.82 on How2 validation sets) to a pipeline (ASR+MT) approach., Comment: IWSLT 2019 - First two authors contributed equally to this work
- Published
- 2019
- Full Text
- View/download PDF
6. Un jeu de données pour répondre à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances
- Author
-
Paul Lerner, Olivier Ferret, Camille Guinaudeau, Hervé Le Borgne, Romaric Besançon, Jose G Moreno, Jesús Lovón-Melgarejo, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Département Intelligence Ambiante et Systèmes Interactifs (DIASI), Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay, Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT), Université Paul Sabatier, IRIT, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
question-réponse visuelle ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,bases de connaissances ,jeu de données ,multimodalité ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Dans le contexte général des traitements multimodaux, nous nous intéressons à la tâche de réponse à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (KVQAE). Nous mettons à disposition ViQuAE, un nouveau jeu de données de 3 700 questions associées à des images, annoté à l’aide d’une méthode semi-automatique. C’est le premier jeu de données de KVQAE comprenant des types d’entités variés associé à une base de connaissances composée d’1,5 million d’articles Wikipédia, incluant textes et images. Nous proposons également un modèle de référence de KVQAE en deux étapes : recherche d’information puis extraction des réponses. Les résultats de nos expériences démontrent empiriquement la difficulté de la tâche et ouvrent la voie à une meilleure représentation multimodale des entités nommées.
- Published
- 2022
7. Évaluation comparative de systèmes neuronal et statistique pour la résolution de coréférence en langage parlé
- Author
-
Brassier, Maëlle, Azzouza, Théo, Grobol, Loïc, Antoine, Jean-Yves, Lefeuvre-Halftermeyer, Anaïs, Bases de données et traitement des langues naturelles (BDTLN), Laboratoire d'Informatique Fondamentale et Appliquée de Tours (LIFAT), Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Université d'Orléans (UO), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
classification statistique ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,modèle neuronal ,résolution de coréférence ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,langage parlé - Abstract
National audience; Nous présentons OFCoRS, un système de résolution de coréférence, basé sur le français parlé et un ensemble de modèles Random Forest. L’objectif de ce papier est de comparer l’approche statistique d’OFCoRS avec l’approche neuronale du système DeCoFre. Nous soulignons particulièrement les similarités et différences entre les deux systèmes. Nous comparons ensuite leurs performances sur le corpus français ANCOR et observons que les performances d’OFCoRS s’approchent de celles de DeCoFre. Une analyse détaillée montre également que les deux systèmes affichent de faibles performances sur les coréférences indirectes, montrant ainsi qu’on ne peut pas considérer le traitement des anaphores complexes comme un problème résolu.
- Published
- 2022
8. Choosing The Right Teammate For Cooperative Text Generation
- Author
-
Chaffin, Antoine, Scialom, Thomas, Lamprier, Sylvain, Staiano, Jacopo, Piwowarski, Benjamin, Kijak, Ewa, Claveau, Vincent, IMATAG [Rennes], Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SIGNAL, IMAGE ET LANGAGE (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), reciTAL, Machine Learning and Information Access (MLIA), Institut des Systèmes Intelligents et de Robotique (ISIR), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Institut des sciences de l'information et de leurs interactions (INS2I-CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
Génération de texte ,génération coopérative ,decoding ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Monte Carlo Tree Search ,décodage ,Text generation ,collaborative generation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Language models (LM) generate texts by successively predicting probability distributions for next tokens given past ones. In order to generate texts with some desired properties (eg. being more natural, non toxic, or having a specific writing style...), recent approaches use a classifier to guide thedecoding of the LM distribution towards relevant texts with the expected property. In this paper, we examine three families of (transformer-based) discriminators for this task of cooperative decoding : bidirectional, left-to-right and generative ones. We evaluate the pros and cons of these different types of discriminators for cooperative generation, exploring their respective accuracy on classification tasks, their impact on the resulting sample quality and their computational performance. We also provide the batched implementation of the powerful cooperative decoding strategy used for ourexperiments, the Monte Carlo Tree Search, working with each discriminator for Natural Language Generation., Les modèles de langue génèrent des textes en prédisant successivement des distributions de probabilité pour les prochains tokens en fonction des tokens précédents. Pour générer des textes avec des propriétés souhaitées (par ex. être plus naturels, non toxiques ou avoir un style d’écriture spécifique), une solution — le décodage coopératif — consiste à utiliser un classifieur lors de la génération pour guider l’échantillonnage de la distribution du modèle de langue vers des textes ayant la propriété attendue. Dans cet article, nous examinons trois familles de discriminateurs (basés sur des transformers) pour cette tâche de décodage coopératif : les discriminateurs bidirectionnels, unidirectionnels (de gauche à droite) et génératifs. Nous évaluons leurs avantages et inconvénients, en explorant leur précision respective sur des tâches de classification, ainsi que leur impact sur la génération coopérative et leur coût de calcul, dans le cadre d’une stratégie de décodage état de l’art, basée sur une recherche arborescente de Monte-Carlo (MCTS). Nous fournissons également l’implémentation (batchée) utilisée pour nos expériences.
- Published
- 2022
9. Tâches Auxiliaires Multilingues pour le Transfert de Modèles de Détection de Discours Haineux
- Author
-
Riabi Arij, Montariol Syrielle, Seddah Djamé, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Ce travail a reçu le financement du programme de recherche et d’innovation Horizon 2020 de l’Unioneuropéenne sous la convention de subvention numéro 101021607. Le dernier auteur a reçu le soutiende l’Agence française de la recherche via le projet ANR ParSiTi (ANR16-CE33-0021)., Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, ANR-16-CE33-0021,PARSITI,Analyser l'impossible, Traduire l'improbable(2016), and European Project: 101021607,Counter
- Subjects
Transfert Cross-lingue ,Apprentissage multitâche ,Détection des Discours Haineux ,Hate Speech Detection, Cross-lingual Transfer, Multi-task learning ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Detecting hateful content is a challenging task, as it requires extensive cultural and contextual knowledge from the model; the necessary knowledge varies depending on the speaker’s language or the target of the content. However, annotated data for specific domains and languages are often inexistant or limited. In that case, annotated data in other languages can be exploited ; but the crosslingual transfer is often difficult due to these cultural and contextual variations. In this paper, we highlight this limitation for several domains and languages and show the positive impact of learning multilingual auxiliary tasks - sentiment analysis, recognition, and tasks based on morpho-syntactic information - on the cross-lingual zero-shot transfer of hate speech detection models in order to bridge this cultural gap., https://aclanthology.org/2022.jeptalnrecital-taln.41
- Published
- 2022
- Full Text
- View/download PDF
10. Détection d'anomalies textuelles à base de l'ingénierie d'invite
- Author
-
Xu, Yizhou, Gábor, Kata, Khouas, Leila, Segond, Frédérique, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, CY Cergy-Paris Université, AGORA - INALCO, ERTIM, Institut National des Langues et Civilisations Orientales (Inalco), ChapsVision, and Institut National de Recherche en Informatique et en Automatique (Inria)
- Subjects
Modèle de langage préentraîné ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Ingénierie d’invite ,Détection d’anomalies textuelles ,GPT-2 ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; La détection d’anomalies textuelles est une tâche importante de la fouille de textes. Plusieurs approches générales, visant l’identification de points de données aberrants, ont été appliqués dans ce domaine. Néanmoins, ces approches exploitent peu les nouvelles avancées du traitement automatique des langues naturelles (TALN). L’avènement des modèles de langage pré-entraînés comme BERT et GPT-2 a donné naissance à un nouveau paradigme de l’apprentissage automatique appelé ingénierie d’invite (prompt engineering) qui a montré de bonnes performances sur plusieurs tâches du TALN. Cet article présente un travail exploratoire visant à examiner la possibilité de détecter des anomalies textuelles à l’aide de l’ingénierie d’invite. Dans nos expérimentations, nous avons examiné la performance de différents modèles d’invite. Les résultats ont montré que l’ingénierie d’invite est une méthode prometteuse pour la détection d’anomalies textuelles.
- Published
- 2022
11. Adaptation au domaine de modèles de langue à l'aide de réseaux à base de graphes
- Author
-
Bouhandi, Merieme, Morin, Emmanuel, Hamon, Thierry, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, Laboratoire des Sciences du Numérique de Nantes (LS2N), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-École Centrale de Nantes (Nantes Univ - ECN), Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST), Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ), Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), and Université Sorbonne Paris Nord
- Subjects
plongements de mots ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,modèles de langue ,modèles neuronaux à base de graphes ,domaine spécialisé ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Les modèles de langue prodonds encodent les propriétés linguistiques et sont utilisés comme entrée pour des modèles plus spécifiques. Utiliser leurs représentations de mots telles quelles pour des domaines peu dotés se révèle être moins efficace. De plus, ces modèles négligent souvent les informations globales sur le vocabulaire au profit d’une plus forte dépendance à l’attention. Nous considérons que ces informations influent sur les résultats des tâches en aval. Leur combinaison avec les représentations contextuelles est effectuée à l’aide de réseaux de neurones à base de graphes. Nous montrons que l’utilité de cette combinaison qui surpassent les performances de baselines.
- Published
- 2022
12. Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources
- Author
-
Stephen Mutuvi, Emanuela Boros, Antoine Doucet, Adam Jatowt, Gaël Lejeune, Moses Odeo, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
extraction d’événements épidémiologiques ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,langues peu dotées ,modèles de langues - Abstract
Les modèles de langues pré-entraînés connaissent un très grand succès en TAL, en particulier dans les situations où l’on dispose de suffisamment de données d’entraînement. Cependant, il reste difficile d’obtenir des résultats similaires dans des environnements multilingues avec peu de données d’entraînement, en particulier dans des domaines spécialisés tels que la surveillance des épidémies. Dans cet article, nous explorons plusieurs hypothèses concernant les facteurs qui pourraient avoir une influence sur les performances d’un système d’extraction d’événements épidémiologiques dans un scénario multilingue à faibles ressources : le type de modèle pré-entraîné, la qualité du tokenizer ainsi que les caractéristiques des entités à extraire. Nous proposons une analyse exhaustive de ces facteurs et observons une corrélation importante, quoique variable ; entre ces caractéristiques et les performances observées sur la base d’une tâche de veille épidémiologique multilingue à faibles ressources. Nous proposons aussi d’adapter les modèles de langues à cette tâche en étendant le vocabulaire du tokenizer pré-entraîné avec les entités continues, qui sont des entités qui ont été divisées en plusieurs sous-mots. Suite à cette adaptation, nous observons une amélioration notable des performances pour la plupart des modèles et des langues évalués.
- Published
- 2022
13. La Chine de Buffon : édition numérique et exploration sémantique de l’Histoire naturelle (1749-1789)
- Author
-
Axel Le Roy, Motasem Alrahabi, Glenn Roe, Sorbonne Université (SU), Observatoire des textes, des idées et des corpus (ObTIC), Bibliothèque nationale de France (BnF)-Centre d’étude de la langue et des littératures françaises (CELLF), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)- Sorbonne Center for Artificial Intelligence (SCAI), Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD)-Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
Histoire naturelle ,annotation ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,corpus ,Buffon ,Chine ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,jugement critique ,lecture attentive ,XML-TEI - Abstract
National audience; Nous présentons un travail en cours sur la structuration et l’exploration d’un grand corpus textuel de Georges-Louis de Buffon, célèbre naturaliste français du XVIII e siècle. Il s’agit d’éditer en XML-TEI les trente-six volumes de son Histoire naturelle et d’effectuer une première exploration autour de la thématique des animaux chinois. Afin de comprendre la représentation du monde chinois et plus particulièrement la construction et la discussion des savoirs sur les animaux dans l’œuvre de Buffon, nous avons commencé à explorer le corpus selon une approche symbolique à base de lexique. Celleci permet d’identifier dans les textes les passages porteurs de modalités subjectives: opinions, sentiments ou émotions. Malgré la simplicité de notre approche, les résultats nous ont permis de faire des constats intéressants sur la critique des sources chez Buffon, sur sa description des animaux et sur son observation des pratiques chinoises.
- Published
- 2022
14. Identification de mots et passages difficiles dans les documents médicaux en français
- Author
-
Sheang, Kim Cheng, Koptient, Anaïs, Grabar, Natalia, Saggion, Horacio, Universitat Pompeu Fabra, Savoirs, Textes, Langage (STL) - UMR 8163 (STL), Université de Lille-Centre National de la Recherche Scientifique (CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Text simplification ,Complex word identification ,Simplification de texte ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Détection de mots difficiles - Abstract
Comunicació presentada a: 29e Conférence sur le Traitement Automatique des Langues Naturelles, celebrat del 27 de juny a l'1 de juliol de 2022 a Avignon, França L’objectif de la simplification automatique des textes consiste à fournir une nouvelle version de documents qui devient plus facile à comprendre pour une population donnée ou plus facile à traiter par d’autres applications du TAL. Cependant, avant d’effectuer la simplification, il est important de savoir ce qu’il faut simplifier exactement dans les documents. En effet, même dans les documents techniques et spécialisés, il n’est pas nécessaire de tout simplifier mais juste les segments qui présentent des difficultés de compréhension. Il s’agit typiquement de la tâche d’identification de mots complexes : effectuer le diagnostic de difficulté d’un document donné pour y détecter les mots et passages complexes. Nous proposons de travail sur l’identification de mots et passages complexes dans les documents biomédicaux en français. The purpose of automatic text simplification is to provide a new version of documents that are easier to understand by a given population or easier to process by other NLP applications. However, it is important to know what should be simplified exactly within the documents before the simplification is done. Indeed, even in technical and specialized documents, it is unnecessary to simplify everything but just those segments that present understanding difficulty. Typically, the purpose of complex word identification is to diagnose the difficulty of a given document to detect complex words or passages within it. We propose to address the issue of identifying complex words and passages within biomedical documents in French. Our work is partly supported by the project Context-aware Multilingual Text Simplification (ConMuTeS) PID2019-109066GB-I00/AEI/10.13039/501100011033 awarded by Ministerio de Ciencia, Innovación y Universidades (MCIU), by Agencia Estatal de Investigación (AEI) of Spain, and by the French National Agency for Research (ANR) as part of the CLEAR project (Communication, Literacy, Education, Accessibility, Readability), ANR-17-CE19-0016-01.
- Published
- 2022
15. L'importance des entités pour la tâche de détection d'événements en tant que système de question-réponse
- Author
-
Emanuela Boros, Jose Moreno, Antoine Doucet, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,apprentissage en peu de coups ,systèmes de question-réponse ,Détection d’événements - Abstract
Dans cet article, nous abordons un paradigme récent et peu étudié pour la tâche de détection d’événements en la présentant comme un problème de question-réponse avec possibilité de réponses multiples et le support d’entités. La tâche d’extraction des déclencheurs d’événements est ainsi transformée en une tâche d’identification des intervalles de réponse à partir d’un contexte, tout en se concentrant également sur les entités environnantes. L’architecture est basée sur un modèle de langage pré-entraîné et finement ajusté, où le contexte d’entrée est augmenté d’entités marquées à différents niveaux, de leurs positions, de leurs types et, enfin, de leurs rôles d’arguments. Nos expériences sur le corpus ACE 2005 démontrent que le modèle proposé exploite correctement les informations sur les entités dans le cadre de la détection des événements et qu’il constitue une solution viable pour cette tâche. De plus, nous démontrons que notre méthode, avec différents marqueurs d’entités, est particulièrement capable d’extraire des types d’événements non vus dans des contextes d’apprentissage en peu de coups.
- Published
- 2022
16. Une chaîne de traitements pour la simplification automatique de la parole et sa traduction automatique vers des pictogrammes
- Author
-
Macaire, Cécile, Ormaechea-Grijalba, Lucia, Pupier, Adrien, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Analyse syntaxique ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Parole ,Simplification de phrase ,Pictogramme ,Communication Alternative et Augmentée ,Bout-en-bout - Abstract
La Communication Alternative et Augmentée (CAA) prend une place importante chez les personnes en situation de handicap ainsi que leurs proches à cause de la difficulté de son utilisation. Pour réduire ce poids, l’utilisation d’outils de traduction de la parole en pictogrammes est pertinente. De plus, ils peuvent être d’une grande aide pour l’accessibilité communicative dans le milieu hospitalier. Dans cet article, nous présentons un projet de recherche visant à développer un système de traduction de la parole vers des pictogrammes. Il met en jeu une chaîne de traitement comportant plusieurs axes relevant du traitement automatique des langues et de la parole, tels que la reconnaissance automatique de la parole, l’analyse syntaxique, la simplification de texte et la traduction automatique vers les pictogrammes. Nous présentons les difficultés liées à chacun de ces axes ainsi que, pour certains, les pistes de résolution.
- Published
- 2022
17. Stylo@DEFT2022 : Automatic short answer grading by combinations of similarity methods
- Author
-
Ben Ltaifa, Ibtihel, Boubehziz, Toufik, Briglia, Andrea, Chutaux, Corina, Dupont, Yoann, González-Gallardo, Carlos-Emiliano, Koudoro-Parfait, Caroline, Lejeune, Gaël, Sens, Texte, Informatique, Histoire (STIH), Sorbonne Université (SU), Observatoire des textes, des idées et des corpus (ObTIC), Bibliothèque nationale de France (BnF)-Centre d’étude de la langue et des littératures françaises (CELLF), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)- Sorbonne Center for Artificial Intelligence (SCAI), Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD)-Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD), Laboratoire Informatique, Image et Interaction - EA 2118 (L3I), La Rochelle Université (ULR), Équipe Linguistique computationnelle (STIH-LC), Sorbonne Université (SU)-Sorbonne Université (SU), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, Grouin, Cyril and Illouz, Gabriel, Parmentier, Yannick, and Grouin, Cyril and Illouz, Gabriel
- Subjects
sentence embeddings ,régression linéaire ,régression logistique ,évaluation automatique des réponses courtes ,Question à réponse ouverte courte ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,QROC ,Évaluation automatique des questions à réponses courtes ,n-grammes de caractères ,word pieces ,EAQRC ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Cet article présente la participation de l’équipe STyLO (STIH, L3I, OBTIC) au DÉfi Fouille de Textes 2022 (DEFT 2022). La tâche proposée consiste en une évaluation automatique des questions à réponses courtes (EAQRC) de devoirs d’étudiant·e·s avec le corrigé de l’enseignant comme ressource pour chaque question. Nous exploitons dans notre approche une combinaison de différentes méthodes de représentation des données (corrigés et réponses) : mots, n-grammes de caractères (avec et sans frontières de mots), word pieces] et sentence embeddings ainsi que de différents algorithmes pour calculer la note (régression linéaire et régression logistique). Les méthodes sont évaluées en termes d’exactitude et de corrélation de Spearman.
- Published
- 2022
18. Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques
- Author
-
Baptiste Blouin, Benoit Favre, Jeremy Auguste, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, Laboratoire d'Informatique et Systèmes (LIS), and Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Données historiques ,OCR ,Extraction d’information ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Transformers ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; L’extraction d’information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s’effectue sur des données contemporaines. Malgré l’évolution constante des systèmes d’OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Du fait d’un manque de ressources historiques dédiées au TAL, le traitement de ce domaine reste dépendant de l’utilisation de ressources contemporaines. De nombreuses études ont démontré l’impact négatif que pouvaient avoir les erreurs d’OCR sur les systèmes prêts à l’emploi contemporains. Mais l’évaluation des nouvelles architectures, proposant des résultats prometteurs sur des données récentes, face à ce problème reste encore très minime. Dans cette étude, nous quantifions l’impact des erreurs d’OCR sur trois tâches d’extraction d’information en utilisant plusieurs architectures de type Transformers. Au vu de ces résultats, nous proposons une approche permettant de réduire de plus de 50% cet impact sans avoir recours à des ressources historiques spécialisées.
- Published
- 2022
19. Exploration orientée entités : étude du genre dans le Mercure de France
- Author
-
Dupont, Yoann, Bordry, Marguerite, Observatoire des textes, des idées et des corpus (ObTIC), Bibliothèque nationale de France (BnF)-Centre d’étude de la langue et des littératures françaises (CELLF), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)- Sorbonne Center for Artificial Intelligence (SCAI), Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD)-Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Entités nommées ,analyse de sentiment ,liage des entités nommées ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Dans cet article, nous étudions la façon dont le genre influence les critiques littéraires et plus précisément le Mercure de France, l’une des plus importantes revues parisiennes de la fin du XIXe siècle. Nous nous intéressons aux auteurs et autrices italiennes. Nous avons utilisé Wikidata afin de lier les entités repérées à un identifiant unique de la base. Ainsi, nous avons pu récupérer le genre d’un auteur, quel que soit le pseudonyme sous lequel ce dernier écrivait, ce qui nous a permis d’obtenir des cooccurrents spécifiques pour chaque genre.
- Published
- 2022
20. When Being Unseen from mBERT is just the Beginning: Handling New Languages With Multilingual Language Models
- Author
-
Antonios Anastasopoulos, Djamé Seddah, Benjamin Muller, Benoît Sagot, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), George Mason University [Fairfax], ANR-16-CE33-0021,PARSITI,Analyser l'impossible, Traduire l'improbable(2016), ANR-15-CE38-0011,SoSweet,Une sociolinguistique de Twitter : liens sociaux et variations linguistiques(2015), ANR-19-P3IA-0001,PRAIRIE,PaRis Artificial Intelligence Research InstitutE(2019), Sorbonne Université (SU), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
FOS: Computer and information sciences ,Translittération ,Computer science ,02 engineering and technology ,010501 environmental sciences ,computer.software_genre ,01 natural sciences ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Resource (project management) ,0202 electrical engineering, electronic engineering, information engineering ,Set (psychology) ,0105 earth and related environmental sciences ,Computer Science - Computation and Language ,business.industry ,Norm (artificial intelligence) ,Modèles de langues multilingues neuronaux ,020201 artificial intelligence & image processing ,Artificial intelligence ,Language model ,Langues peu dotées ,Raw data ,Transfer of learning ,business ,Computation and Language (cs.CL) ,computer ,Natural language processing - Abstract
Transfer learning based on pretraining language models on a large amount of raw data has become a new norm to reach state-of-the-art performance in NLP. Still, it remains unclear how this approach should be applied for unseen languages that are not covered by any available large-scale multilingual language model and for which only a small amount of raw data is generally available. In this work, by comparing multilingual and monolingual models, we show that such models behave in multiple ways on unseen languages. Some languages greatly benefit from transfer learning and behave similarly to closely related high resource languages whereas others apparently do not. Focusing on the latter, we show that this failure to transfer is largely related to the impact of the script used to write such languages. Transliterating those languages improves very significantly the ability of large-scale multilingual language models on downstream tasks., Accepted at NAACL-HLT 2021
- Published
- 2020
21. Toolbox : une chaîne de traitement de corpus pour les humanités numériques
- Author
-
Johanna Mayra Cordova, Yoann Dupont, Ljudmila Petkovic, James Gawley, Motasem Alrahabi, Glenn Roe, Observatoire des textes, des idées et des corpus (ObTIC), Bibliothèque nationale de France (BnF)-Centre d’étude de la langue et des littératures françaises (CELLF), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)- Sorbonne Center for Artificial Intelligence (SCAI), Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD)-Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
OCR ,reconnaissance des entités nommées ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,TEI ,Humanités numériques ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
National audience; Le projet Toolbox propose une chaîne de traitement pour la manipulation et le traitement de corpus textuels incluant la numérisation (OCR/HTR), la conversion au format TEI, la fouille de texte (reconnaissance d’entités nommées) et la visualisation de données. Les fonctionnalités sont accessibles via une interface en ligne qui sert de surcouche graphique à des scripts développés par nos soins ou utilisant des outils externes. Elles permettent d’automatiser les tâches élémentaires de traitement de corpus pour les chercheurs en humanités numériques. Cet outil est ouvert aux contributions externes.
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.