9 results on '"Dominique Fohr"'
Search Results
2. Domain Classification-based Source-specific Term Penalization for Domain Adaptation in Hate-speech Detection.
- Author
-
Tulika Bose, Nikolaos Aletras, Irina Illina, and Dominique Fohr
- Published
- 2022
3. Identification des Expressions Polylexicales dans les Tweets (Identification of Multiword Expressions in Tweets).
- Author
-
Nicolas Zampieri, Carlos Ramisch, Irina Illina, and Dominique Fohr
- Published
- 2022
4. Identification of Multiword Expressions in Tweets for Hate Speech Detection.
- Author
-
Nicolas Zampieri, Carlos Ramisch, Irina Illina, and Dominique Fohr
- Published
- 2022
5. Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of Hate Online.
- Author
-
Dana Ruiter, Liane Reiners, Ashwin Geet D'Sa, Thomas Kleinbauer, Dominique Fohr, Irina Illina, Dietrich Klakow, Christian Schemer, and Angeliki Monnier
- Published
- 2022
6. Dynamically Refined Regularization for Improving Cross-corpora Hate Speech Detection.
- Author
-
Tulika Bose, Nikolaos Aletras, Irina Illina, and Dominique Fohr
- Published
- 2022
- Full Text
- View/download PDF
7. Exploration of Multi-corpus Learning for Hate Speech Classification in Low Resource Scenarios.
- Author
-
Ashwin Geet D'Sa, Irina Illina, Dominique Fohr, and Awais Akbar
- Published
- 2022
- Full Text
- View/download PDF
8. Apprentissage par transfert pour la détection des abus de langage
- Author
-
Bose, Tulika, Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Université de Lorraine, Irina Illina, Dominique Fohr, and ANR-15-IDEX-0004,LUE,Isite LUE(2015)
- Subjects
Domain adaptation ,Adaptation au domaine ,Neighborhood framework ,Transfer learning ,Topic modeling ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Abusive language ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Langage abusif ,Cadre de voisinage ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Apprentissage par transfert ,Corrélations parasites ,[INFO]Computer Science [cs] ,Spurious correlations ,Modélisation thématique - Abstract
The proliferation of social media, despite its multitude of benefits, has led to the increased spread of abusive language. Such language, being typically hurtful, toxic, or prejudiced against individuals or groups, requires timely detection and moderation by online platforms. Deep learning models for detecting abusive language have displayed great levels of in-corpus performance but underperform substantially outside the training distribution. Moreover, they require a considerable amount of expensive labeled data for training.This strongly encourages the effective transfer of knowledge from the existing annotated abusive language resources that may have different distributions to low-resource corpora. This thesis studies the problem of transfer learning for abusive language detection and explores various solutions to improve knowledge transfer in cross-corpus scenarios.First, we analyze the cross-corpus generalizability of abusive language detection models without accessing the target during training. We investigate if combining topic model representations with contextual representations can improve generalizability. The association of unseen target comments with abusive language topics in the training corpus is shown to provide complementary information for a better cross-corpus transfer.Secondly, we explore Unsupervised Domain Adaptation (UDA), a type of transductive transfer learning, with access to the unlabeled target corpus. Some popular UDA approaches from sentiment classification are analyzed for cross-corpus abusive language detection. We further adapt a BERT model variant to the unlabeled target using the Masked Language Model (MLM) objective. While the latter improves the cross-corpus performance, the other UDA methods perform sub-optimally. Our analysis reveals their limitations and emphasizes the need for effective adaptation methods suited to this task.As our third contribution, we propose two DA approaches using feature attributions, which are post-hoc model explanations. Particularly, the problem of spurious corpus-specific correlations is studied that restrict the generalizability of classifiers for detecting hate speech, a sub-category of abusive language. While the previous approaches rely on a manually curated list of terms, we automatically extract and penalize the terms causing spurious correlations. Our dynamic approaches improve the cross-corpus performanceover previous works both independently and in combination with pre-defined dictionaries.Finally, we consider transferring knowledge from a resource-rich source to a low-resource target with fewer labeled instances, across different online platforms. A novel training strategy is proposed, which allows flexible modeling of the relative proximity of neighbors retrieved from the resource-rich corpus to learn the amount of transfer. We incorporate neighborhood information with Optimal Transport that permits exploitingthe embedding space geometry. By aligning the joint embedding and label distributions of neighbors, substantial improvements are obtained in low-resource hate speech corpora.; La prolifération des médias sociaux, malgré ses nombreux avantages, a entraîné une augmentation des propos injurieux. Ces propos, qui sont généralement blessants, toxiques ou empreints de préjugés à l'encontre d'individus ou de groupes, doivent être détectés et modérés rapidement par les plateformes en ligne. Les modèles d'apprentissage profond pour la détection de propos abusifs ont montré des niveaux de performance élevé quand ils sont évalués sur des données similaires à celles qui ont servi à entraîner les modèles, mais sont nettement moins performants s'ils sont évalués sur des données dont la distribution est différente. En outre, ils nécessitent une quantité considérable de données étiquetées coûteuses pour l'apprentissage. C'est pour cela qu'il est intéressant d'étudier le transfert efficace de connaissances à partir de corpus annotés existants de propos abusifs. Cette thèse étudie le problème de l'apprentissage par transfert pour la détection de propos abusifs et explore diverses solutions pour améliorer le transfert de connaissances dans des scénarios inter corpus.Tout d'abord, nous analysons la généralisabilité inter-corpus des modules de détection de propos abusifs sans accéder à des données cibles pendant le processus d'apprentissage. Nous examinons si la combinaison des représentations issues du thème (topic) avec des représentations contextuelles peut améliorer la généralisabilité. Nous montrons que l'association de commentaires du corpus cible avec des thèmes du corpus d'entraînement peut fournir des informations complémentaires pour un meilleur transfert inter-corpus.Ensuite, nous explorons l'adaptation au domaine non supervisée (UDA, Unsupervised Domain Adaptation), un type d'apprentissage par transfert transductif, avec accès au corpus cible non étiqueté. Nous explorons certaines approches UDA populaires dans la classification des sentiments pour la détection de propos abusifs dans le cadre de corpus croisés. Nous adaptons ensuite une variante du modèle BERT au corpus cible non étiqueté en utilisant la technique du modèle de langue avec masques (MLM Masked Language Model). Alors que cette dernière améliore les performances inter-corpus, les autres approches UDA ont des performances sous-optimales. Notre analyse révèle leurs limites et souligne le besoin de méthodes d'adaptation efficaces pour cette tâche.Comme troisième contribution, nous proposons deux approches d'adaptation au domaine utilisant les attributions de caractéristiques (feature attributions), qui sont des explications a posteriori du modèle. En particulier, nous étudions le problème des corrélations erronées (spurious correlations) spécifiques à un corpus qui limitent la généralisation pour la détection des discours de haine, un sous-ensemble des propos abusifs. Alors que les approches de la littérature reposent sur une liste de termes établie manuellement, nous extrayons et pénalisons automatiquement les termes qui causent des corrélations erronées. Nos approches dynamiques améliorent les performances dans le cas de corpus croisés par rapport aux travaux précédents, à la fois indépendamment et en combinaison avec des dictionnaires prédéfinis.Enfin, nous considérons le transfert de connaissances d'un domaine source avec beaucoup de données étiquetées vers un domaine cible, où peu d'instances étiquetées sont disponibles. Nous proposons une nouvelle stratégie d'apprentissage, qui permet une modélisation flexible de la proximité relative des voisins récupérés dans le corpus source pour apprendre la quantité de transfert utile. Nous incorporons les informations de voisinage avec une méthode de transport optimal (Optimal Transport ) qui exploite la géométrie de l'espace de représentation (embedding space) . En alignant les distributions conjointes de l'embedding et des étiquettes du voisinage, nous montrons des améliorations substantielles dans des corpus de discours haineux de taille réduite.
- Published
- 2023
9. Extension des données de formation pour la classification réseaux neuronaux pour la classification des discours haineux
- Author
-
Geet d'Sa, Ashwin, Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Université de Lorraine, Irina Illina, Dominique Fohr, and ANR-18-FRAL-0005,M-PHASIS,Migration et discours haineux dans les médias sociaux - Une perspective cross-culturelle(2018)
- Subjects
Apprentissage profond ,Semi-Supervised learning ,Data augmentation ,Deep learning ,[INFO]Computer Science [cs] ,Multi-Task learning ,Discours de haine ,Classification ,Neural networks ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
The phenomenal increase in internet usage, catering to the dissemination of knowledge and expression, has also led to an increase in online hate speech. Online hate speech is anti-social communicative behavior, which leads to the threat and violence towards an individual or a group. Deep learning-based models have become the state-of-the-art solution in classifying hate speech. However, the performance of these models depends on the amount of labeled training data. In this thesis, we explore various solutions to expand the training data to train a reliable model for hate speech classification. As the first approach, we use a semi-supervised learning approach to combine the huge amount of unlabeled data, easily available on the internet, with a limited amount of labeled data to train the classifier. For this, we use the label-propagation algorithm. The performance of this method depends on the representation space of labeled and unlabeled data. We show that pre-trained sentence embeddings are label agnostic and yield poor results. We propose a simple and effective neural-network-based approach for transforming these pre-trained representations to task-aware ones. This method achieves significant performance improvements in low-resource scenarios. In our second approach, we explore data augmentation, a solution to obtain synthetic samples using the original training data. Our data augmentation technique is based on a single conditional GPT-2 language model fine-tuned on the original training data. Our approach uses a fine-tuned BERT model to select high-quality synthetic data. We study the effect of the quantity of augmented data and show that using a few thousand synthetic samples yields significant performance improvements in hate speech classification. Our qualitative evaluation shows the effectiveness of using BERT for filtering the generated samples. For our final approach, we use multi-task learning as a method to combine several available hate speech datasets and jointly train a single classification model. Our approach leverages the advantages of a pre-trained language model (BERT) as shared layers of our multi-task architecture. We treat one hate speech corpus as one task. Thus, adopting the paradigm of multi-task learning to multi-corpus learning. We show that training a multi-task model with several corpora achieves similar performance as training several corpus-specific models. Nevertheless, fine-tuning the multi-task model for a specific corpus allows improving the results. We demonstrate the effectiveness of our multi-task learning approach for domain adaptation on hate speech corpora. We explore the three proposed approaches in low-resource scenarios and show that they achieve significant performance improvements in very low-resource setups.; L'augmentation phénoménale de l'utilisation d'Internet, qui permet la diffusion d'opinions, a également entraîné une augmentation des discours de haine en ligne. Les discours de haine sont des comportements de communication antisociaux, qui conduisent à des menaces ou à des violences envers un individu ou un groupe. Les modèles basés sur l'apprentissage profond sont devenus la solution état de l'art pour détecter les discours de haine. Cependant, la performance de ces modèles dépend de la quantité de données d'entraînement étiquetées. Dans cette thèse, nous explorons différentes solutions pour augmenter les données d'entraînement afin de d'entrainer un modèle performant pour la classification des discours de haine. Comme première approche, nous proposons d'utiliser apprentissage semi-supervisé pour combiner une grande quantité de données non étiquetées, facilement disponibles sur Internet, avec une quantité limitée de données étiquetées pour entraîner un classifieur. Pour cela, nous utilisons l'algorithme de propagation d'étiquettes. La performance de cette méthode dépend de l'espace de représentation des données. Nous montrons que les plongement (embeddings) de phrases pré-entraînés sont agnostiques et donnent de mauvais résultats. Nous proposons une approche simple et efficace basée sur les réseaux de neurones pour transformer ces représentations pré-entraînées en représentations adaptées à la tache de détection de la haine. Cette méthode permet d'améliorer considérablement les performances dans des scénarios à faibles ressources. Nous explorons les trois approches proposées dans des scénarios à faibles ressources et nous montrons qu'elles permettent d'améliorer considérablement les performances dans des configurations à très faibles ressources. Dans notre deuxième approche proposée, nous explorons une méthode d'augmentation de données (data augmentation), une solution pour générer des échantillons synthétiques en utilisant les données d'entraînement originales. Notre technique d'augmentation des données est basée sur un modèle de langage conditionnel GPT-2 ajusté (fine-funing) sur les données d'entraînement originales. Notre approche utilise un modèle BERT pour sélectionner des données synthétiques de bonne qualité. Nous étudions l'effet de la quantité de données générées et montrons que l'utilisation de quelques milliers d'échantillons synthétiques permet d'améliorer considérablement les performances de la classification des discours haineux. Notre évaluation qualitative montre l'efficacité de l'utilisation de BERT pour filtrer les échantillons générés. Dans notre approche finale, nous utilisons l'apprentissage multi-tâches comme méthode pour combiner plusieurs corpus disponibles de discours haineux et entraîner conjointement un seul modèle de classification. Notre approche exploite les avantages d'un modèle de langage pré-entraîné (BERT) pour les couches partagées de notre architecture multi-tâches. Nous considérons un corpus de discours de haine comme une tâche. Ainsi, nous adaptons le paradigme de l'apprentissage multi-tâches à l'apprentissage multi-corpus. Nous montrons que le réglage fin du modèle multi-tâches pour un corpus spécifique permet d'améliorer les résultats. De plus, notre méthode a obtenu de bonnes performances dans le cadre de l'adaptation au domaine (domain adaptation).
- Published
- 2022
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.