Título

Análisis de documentos de opinión usando la representación word2vec

Analysis of opinion documents using the word2vec representation

Autor

ANTONIO DE JESUS GARCIA CHAVEZ

Colaborador

CARLOS ALBERTO BRIZUELA RODRIGUEZ (Asesor de tesis)

HUGO HOMERO HIDALGO SILVA (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Resumen o descripción

El análisis de sentimientos es el área de estudio que involucra la utilización y manejo de información del tipo sentimientos, emociones y actitudes, las cuales se encuentran relacionadas a objetos, personas, servicios, lugares, eventos o temas en específico. Una de las principales tareas en el área es la detección de polaridad en documentos de opinión, lo cual se refiere a realizar un análisis de sentimientos a nivel de documento, para lo cual, es usual considerar y manipular información del tipo sintáctica así como semántica. Por lo que para aprovechar y beneficiarse de estas opiniones suele ser conveniente utilizar técnicas de clasificación automatizadas que facilitan la tarea. En este trabajo se propone emplear la semántica como información con la cual clasificar la polaridad de documentos de opinión. Para esto se utiliza una red neuronal denominada word2vec, la cual logra modelar, por medio de vectores palabra, relaciones semánticamente representativas entre las palabras que se encuentren dentro de un corpus de texto dado. Estos vectores palabra son empleados dentro de la medida de distancia entre documentos que se propuso utilizar en este trabajo, dicha medida lleva por nombre “Word Mover’s Distance” (WMD). Para lo cual el procedimiento propuesto realiza la clasificación de polaridad de documentos mediante los k-vecinos más cercanos, el clasificador recibe como entrada un conjunto de documentos de opinión con polaridades desconocidas así como un determinado número de documentos vecinos con los cuales comparar, mediante la medida de similitud WMD. La salida del algoritmo es la clasificación de polaridad del conjunto de documentos desconocidos de entrada. Para la evaluación del procedimiento propuesto se construyeron 12 espacios semánticos, obtenidos de las combinaciones de los corpora de opiniones utilizados. Se emplearon dos corpora en idioma español, siendo el primero críticas de cine obtenidas de la web “MuchoCine” con un total de 2000 documentos y el segundo opiniones del sitio “TripAdvisor ” con un total de 10845 documentos. Resultados experimentales muestran que el procedimiento propuesto tiene dificultades para clasificar correctamente documentos provenientes del corpus de “MuchoCine” mientras que lo hace exitosamente con documentos de “TripAdvisor ”. En este último caso, se mostró también que es posible incrementar la calidad de los resultados variando el número de documentos vecinos a consultar y el tamaño de la votación.

Sentiment analysis is the area of study that involves the use and processing of information such as feelings, emotions, and attitudes, which are related to specific objects, people, services, places, events, or topics. One of the main tasks in the area is the polarity detection in opinion documents, which refers to performing a sentiment analysis at document level, for which it is usual to use syntactic as well as semantic information. Therefore, in order to take advantage of and benefit from these opinions, it is often convenient to use automated classification techniques that facilitate the task. In this work, we propose to use semantics as information with which to classify the polarity of opinion documents. A neural network called word2vec is used to model semantically representative relationships between words within a given text corpus by means of word vectors. These Word vectors are used within the measure of distance between documents called Word Mover’s Distance (WMD). For this purpose, the proposed procedure classifies the polarity of documents by using the k-nearest neighbours, the classifier receives as input a set of opinion documents with unknown polarities as well as a certain number of neighbouring documents with which to compare, through the WMD similarity measure. The output of the algorithm is the polarity classification of the set of unknown input documents. For the evaluation of the proposed procedure, 12 semantic spaces were constructed, obtained from the combinations of the corpora of opinions used. Two Spanish-language corpora were used, the first being film reviews obtained from the MuchoCine website with a total of 2000 documents and the second being reviews from the TripAdvisor website with a total of 10845 documents. Experimental results show that the proposed procedure has difficulty to correctly classify documents from the MuchoCine corpus while successfully classifying documents from TripAdvisor. In the latter case, it was also shown that it is possible to increase the quality of the results by varying the number of neighbouring documents to be consulted and the size of the vote.

Fecha de publicación

2018

Tipo de publicación

Tesis de maestría

Formato

application/pdf

Idioma

Español

Sugerencia de citación

García Chávez, A.J. 2018. Análisis de documentos de opinión usando la representación word2vec. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 85 pp.

Repositorio Orígen

Repositorio Institucional CICESE

Descargas

551

Comentarios



Necesitas iniciar sesión o registrarte para comentar.