151. Análisis de opinión mediante servicios de procesamiento de lenguaje natural con Amazon Comprehend de AWS
- Author
-
Romera Rodriguez, Antonio Manuel, Sierra Collado, Antonio Jesús, Martín Rodríguez, Álvaro, and Universidad de Sevilla. Departamento de Ingeniería Telemática
- Abstract
Hoy día nos encontramos en la era de la información, los datos se han convertido en un activo muy valioso. Es por esto por lo que cada vez son más las empresas que quieren sacar provecho a este activo. Dando lugar a grandes inversiones en el campo del Machine Learning tanto privadas como públicas. Debido al creciente interés en el campo y las grandes inversiones de los últimos años han surgido productos enfocados al Machine Learning. Estos ponen al alcance de empresas y particulares no especializados en esta tecnología herramientas que les permiten explotar los datos de los que disponen. Este trabajo se centra en estudiar las principales opciones que existen en la actualidad relacionadas con el Machine Learning. Nos centramos en aquellas que nos permiten analizar textos, concretamente, las de procesado del lenguaje natural (del inglés, NLP). Durante el estudio de mercado se analizan las opciones que nos ofrecen las tres principales empresas del sector de la computación en la nube: Amazon Web Services, Microsoft Azure y Google Cloud. Estudiamos las opciones que nos ofrecen las tres empresas mencionadas, eligiendo la que mejor cubre nuestras necesidades al menor precio. Una vez realizado el estudio del mercado, hemos creado una aplicación para poner en práctica lo que nos ofrece estos productos y poder comparar las opciones de Amazon Web Services y la de Microsoft Azure. La aplicación consiste en analizar los comentarios de distintos restaurantes, clasificándolos en función de dos parámetros: el idioma en el que están escrito y el sentimiento que transmiten. La fuente de los datos es Google Maps. Para realizar la prueba, hemos dividido el escenario en cuatro fases. • En la fase inicial procedemos a recolectar la información. Para ello empleamos la API de Google Maps, concretamente Place Details, empleando los números de teléfono de los locales para localizarlos dentro de Maps. • Durante la segunda fase analizamos los datos que obtenemos de la primera. Para esta fase empleamos los servicios de Amazon Web Services, concretamente Comprehend y los de Microsoft Azure, concretamente Text Analytics. En esta fase llevamos a cabo dos clasificaciones. La primera en función al idioma empleado en el comentario y la segunda en función a los sentimientos que transmiten dichos comentarios. Lo hacemos primero con la opción de AWS y, luego, con la de Azure. • En la tercera fase procesamos los datos para crear estadística, para ello usamos los datos que obtenemos de la fase anterior. Contamos los comentarios que quedan en cada clasificación y creamos gráficas que emplearemos en la siguiente fase. El objetivo de esta fase es preparar los datos para poder visualizarlos de forma ágil. • En la cuarta y última fase creamos un documento HTML en el que, a partir de una plantilla, rellenamos con los datos y las gráficas obtenidas en los apartados anteriores. De esta forma tras terminar todas las fases, los datos han seguido el siguiente proceso: Recopilación, análisis, tratamiento y visualización. Tras finalizar las fases comentadas comparamos los resultados que hemos obtenido con ambos servicios. Como conclusión podemos decir que ambos servicios tienen un comportamiento similar, si bien AWS parece “comprender” mejor el contexto de la oración que Azure, acercándose más a lo que podría hacer un ser humano. Esta cualidad de AWS hace que la estimación de la puntuación que hacemos en función a los sentimientos que obtenemos tras el análisis sea más cercana a la media que hacemos de las puntuaciones que dejan los autores de los comentarios en Google Maps. Today we are in the information age, data has become a very valuable asset. Therefore, more and more companies want to take advantage of this asset. Resulting in large investments in the field of Machine Learning, both private and public. Due to the growing interest in the field and the large investments in recent years, products focused on Machine Learning have emerged. These make available to companies and individuals not specialized in this technology tools that allow them to exploit the data they have. This work focuses on studying the main options that currently exist related to Machine Learning. We focus on those that allow us to analyse texts, specifically, Natural Language Processing (NLP). During the market study, the options offered by the three main companies in the cloud computing sector are analysed: Amazon Web Services, Microsoft Azure and Google Cloud. We study the options offered by the three companies mentioned, choosing the one that best meets our needs at the lowest price. Once the market study has been carried out, we have created an application to put into practice what these products offer us and to be able to compare the options of Amazon Web Services and that of Microsoft Azure. The application consists of analysing the comments of different restaurants, classifying them based on two parameters: the language in which they are written and the feeling they convey. The source of the data is Google Maps. To perform the test, we have divided the scenario into four phases. • In the initial phase we proceed to collect the information. For this we use the Google Maps API, specifically Place Details, using the telephone numbers of the premises to locate them within Maps. • During the second phase we analyse the data we obtain from the first. For this phase we use the services of Amazon Web Services, specifically Comprehend and those of Microsoft Azure, specifically Text Analytics. In this phase we carry out two classifications. The first based on the language used in the comment and the second based on the feelings that said comments convey. We do it first with the AWS option and then with the Azure option. In the third phase we process the data to create statistics, for this we use the data we obtain from the previous phase. We count the comments left in each classification and create graphs that we will use in the next phase. The objective of this phase is to prepare the data to be able to visualize it in an agile way. • In the fourth and final phase, we create an HTML document in which, from a template, we fill in the data and graphs obtained in the previous sections. In this way, after finishing all the phases, the data has followed the following process: Collection, analysis, processing, and visualization. After finishing the commented phases, we compare the results we have obtained with both services. In conclusion, we can say that both services have a similar behaviour, although AWS seems to "understand" the context of the sentence better than Azure, getting closer to what a human being could do. This quality of AWS makes the estimation of the score that we make based on the feelings that we obtain after the analysis is closer to the average that we make of the scores that the authors of the comments leave in Google Maps. Universidad de Sevilla. Grado en Ingeniería de las Tecnologías de Telecomunicación
- Published
- 2021