1. Automatic classification of toxicity and stereotypes in texts
- Author
-
Laknani, Fatima
- Subjects
Text classifier ,AI models ,Clasificador de texto ,Toxicity detection ,modelos de IA ,PLN ,LENGUAJES Y SISTEMAS INFORMATICOS ,Grado en Ciencia de Datos-Grau en Ciència de Dades ,Detección de toxicidad - Abstract
[ES] El procesamiento del lenguaje natural (PLN) es una rama de la inteligencia artificial que se encuentra en auge. El objetivo del PLN es que las máquinas comprendan e interpreten el lenguaje natural tal y como los humanos conocemos. Presenta múltiples aplicaciones, tales como: sistemas de traducción automática, clasificación de texto, análisis de sentimientos, sistemas de autocorrección, etc. En la actualidad se genera una gran cantidad de datos diariamente ya sea por medio de redes sociales o por otras plataformas donde la gente interactúa, y donde internautas escriben posts ofensivos bajo el anonimato que son difíciles de detectar.A menudo muchas empresas abordan la tarea de clasificar ciertos mensajes o comentarios clasificándolos de manera manual, lo cual es ineficiente ya que tiene un coste tanto económico como temporal. Debido a la repercusión que estos comentarios pueden generar en varias personas, se han llevado a cabo varias tareas de evaluación que guardan relación con la detección de mensajes de odio. Por ello, el presente TFG se centra en la detección de toxicidad y estereotipos raciales en comentarios publicados en noticias relacionadas con la inmigración, mediante la participación en dos competiciones diferentes, DETOXIS y DETESTS. Mediante el desarrollo y estudio de diversos clasificadores abordaremos la tarea de clasificación de los comentarios ofensivos., [EN] Natural language processing (NLP) is a growing branch of artificial intelligence. The goal of NLP is for machines to understand and interpret natural language as we humans know it. It has multiple applications, such as: machine translation systems, text classification, sentiment analysis, self-correction systems, etc. Nowadays a large amount of data is generated daily either by social networks or by other platforms where people interact, and where users write offensive posts under anonymity that are difficult to detect.Often many companies approach the task of classifying certain messages or comments by classifying them manually, which is inefficient as it has both an economic and time cost. Due to the impact that these comments can have on a number of people, several evaluation tasks have been carried out related to the detection of hate messages. Therefore, this TFG focuses on the detection of toxicity and racial stereotypes in comments published in news related to immigration, by participating in two different competitions, DETOXIS and DETESTS. Through the development and study of different classifiers we will approach the task of classifying offensive comments., [CA] El processament del llenguatge natural (PLN) és una branca de la intel·ligència artificial que es troba en auge. L’objectiu del PLN és que les màquines comprenguen i interpreten el llenguatge natural tal com els humans coneixem. Presenta múltiples aplicacions, com ara: sistemes de traducció automàtica, classificació de text, anàlisi de sentiments, sistemes d’autocorrecció, etc. En l’actualitat es genera una gran quantitat de dades diàriament ja siga per mitjà de xarxes socials o per altres plataformes on la gent interactua, i on internautes escriuen posts ofensius sota l’anonimat que són difícils de detectar.Sovint moltes empreses aborden la tasca de classificar uns certs missatges o comentaris classificant-los de manera manual, la qual cosa és ineficient ja que té un cost tant econòmic com temporal. A causa de la repercussió que aquests comentaris poden generar en diverses persones, s’han dut a terme diverses tasques d’avaluació que guarden relació amb la detecció de missatges d’odi. Per això, el present TFG se centra en la detecció de toxicitat i estereotips racials en comentaris publicats en notícies relacionades amb la immigració, mitjançant la participació en dues competicions diferents, DETOXIS i DETESTS. Mitjançant el desenvolupament i estudi de diversos classificadors abordarem la tasca de classificació dels comentaris ofensius.
- Published
- 2022