Back to Search
Start Over
Clasificación multiclase y visualización de quejas de organismos oficiales en twitter
- Source :
- TecnoLógicas, Volume: 23, Issue: 47, Pages: 107-118, Published: APR 2020, TecnoLógicas, Vol 23, Iss 47, Pp 109-120 (2020)
- Publication Year :
- 2020
- Publisher :
- Instituto Tecnológico Metropolitano - ITM, 2020.
-
Abstract
- Resumen Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente. Abstract Social networks generate massive amounts of information. Current Natural Language techniques allow the automatic processing of that information, and Data Mining enables the automatic extraction of useful info. However, a state-of-the-art review reveals that many classification methods only distinguish two classes. This paper presents a procedure to automatically classify tweets into several classes (more than two). The steps of the procedure are described in detail so that any researcher can follow them. The accuracy and coverage (instead of only coverage as usual in the literature) of two automatic classifiers (SVM and Random Forests) were analyzed in a comparative study. The procedure was applied to automatically identify more than two types of complaint from 190,000 tweets. According to the results, Random Forests should be used because they achieve an average accuracy of 81.46 % and an average coverage of 59.88 %.
- Subjects :
- Computer science
Text Mining
Twitter
Automatic processing
02 engineering and technology
010501 environmental sciences
computer.software_genre
01 natural sciences
lcsh:Technology
Multiclass Classification
0202 electrical engineering, electronic engineering, information engineering
0105 earth and related environmental sciences
clasificación multiclase
minería de texto
lcsh:T
Random forest
Support vector machine
Social Networks
lcsh:TA1-2040
redes sociales
Classification methods
Minería de texto
020201 artificial intelligence & image processing
twitter
Data mining
lcsh:Engineering (General). Civil engineering (General)
computer
Natural language
Subjects
Details
- Language :
- Spanish; Castilian
- Database :
- OpenAIRE
- Journal :
- TecnoLógicas, Volume: 23, Issue: 47, Pages: 107-118, Published: APR 2020, TecnoLógicas, Vol 23, Iss 47, Pp 109-120 (2020)
- Accession number :
- edsair.doi.dedup.....7b1926e0b8f2e7cf84e331b1375fd5a5