Análisis de documentos de opinión usando la representación word2vec

ANTONIO DE JESUS GARCIA CHAVEZ

Título

Analysis of opinion documents using the word2vec representation

Autor

ANTONIO DE JESUS GARCIA CHAVEZ

Colaborador

CARLOS ALBERTO BRIZUELA RODRIGUEZ (Asesor de tesis)

HUGO HOMERO HIDALGO SILVA (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Licencia

http://creativecommons.org/licenses/by/4.0

Materias

Análisis de sentimientos, Word2vec - (AUTOR) Sentiment analysis - (AUTOR) INGENIERÍA Y TECNOLOGÍA - (CTI) CIENCIAS TECNOLÓGICAS - (CTI) TECNOLOGÍA DE LOS ORDENADORES - (CTI) INTELIGENCIA ARTIFICIAL - (CTI)

Resumen o descripción

El análisis de sentimientos es el área de estudio que involucra la utilización y manejo de información del tipo sentimientos, emociones y actitudes, las cuales se encuentran relacionadas a objetos, personas, servicios, lugares, eventos o temas en especíﬁco. Una de las principales tareas en el área es la detección de polaridad en documentos de opinión, lo cual se reﬁere a realizar un análisis de sentimientos a nivel de documento, para lo cual, es usual considerar y manipular información del tipo sintáctica así como semántica. Por lo que para aprovechar y beneﬁciarse de estas opiniones suele ser conveniente utilizar técnicas de clasiﬁcación automatizadas que facilitan la tarea. En este trabajo se propone emplear la semántica como información con la cual clasiﬁcar la polaridad de documentos de opinión. Para esto se utiliza una red neuronal denominada word2vec, la cual logra modelar, por medio de vectores palabra, relaciones semánticamente representativas entre las palabras que se encuentren dentro de un corpus de texto dado. Estos vectores palabra son empleados dentro de la medida de distancia entre documentos que se propuso utilizar en este trabajo, dicha medida lleva por nombre “Word Mover’s Distance” (WMD). Para lo cual el procedimiento propuesto realiza la clasiﬁcación de polaridad de documentos mediante los k-vecinos más cercanos, el clasiﬁcador recibe como entrada un conjunto de documentos de opinión con polaridades desconocidas así como un determinado número de documentos vecinos con los cuales comparar, mediante la medida de similitud WMD. La salida del algoritmo es la clasiﬁcación de polaridad del conjunto de documentos desconocidos de entrada. Para la evaluación del procedimiento propuesto se construyeron 12 espacios semánticos, obtenidos de las combinaciones de los corpora de opiniones utilizados. Se emplearon dos corpora en idioma español, siendo el primero críticas de cine obtenidas de la web “MuchoCine” con un total de 2000 documentos y el segundo opiniones del sitio “TripAdvisor ” con un total de 10845 documentos. Resultados experimentales muestran que el procedimiento propuesto tiene diﬁcultades para clasiﬁcar correctamente documentos provenientes del corpus de “MuchoCine” mientras que lo hace exitosamente con documentos de “TripAdvisor ”. En este último caso, se mostró también que es posible incrementar la calidad de los resultados variando el número de documentos vecinos a consultar y el tamaño de la votación.

Sentiment analysis is the area of study that involves the use and processing of information such as feelings, emotions, and attitudes, which are related to speciﬁc objects, people, services, places, events, or topics. One of the main tasks in the area is the polarity detection in opinion documents, which refers to performing a sentiment analysis at document level, for which it is usual to use syntactic as well as semantic information. Therefore, in order to take advantage of and beneﬁt from these opinions, it is often convenient to use automated classiﬁcation techniques that facilitate the task. In this work, we propose to use semantics as information with which to classify the polarity of opinion documents. A neural network called word2vec is used to model semantically representative relationships between words within a given text corpus by means of word vectors. These Word vectors are used within the measure of distance between documents called Word Mover’s Distance (WMD). For this purpose, the proposed procedure classiﬁes the polarity of documents by using the k-nearest neighbours, the classiﬁer receives as input a set of opinion documents with unknown polarities as well as a certain number of neighbouring documents with which to compare, through the WMD similarity measure. The output of the algorithm is the polarity classiﬁcation of the set of unknown input documents. For the evaluation of the proposed procedure, 12 semantic spaces were constructed, obtained from the combinations of the corpora of opinions used. Two Spanish-language corpora were used, the ﬁrst being ﬁlm reviews obtained from the MuchoCine website with a total of 2000 documents and the second being reviews from the TripAdvisor website with a total of 10845 documents. Experimental results show that the proposed procedure has difﬁculty to correctly classify documents from the MuchoCine corpus while successfully classifying documents from TripAdvisor. In the latter case, it was also shown that it is possible to increase the quality of the results by varying the number of neighbouring documents to be consulted and the size of the vote.

Fecha de publicación

2018

Tipo de publicación

Tesis de maestría

Recurso de información

http://cicese.repositorioinstitucional.mx/jspui/handle/1007/2251

Formato

application/pdf

Idioma

Español

Sugerencia de citación

García Chávez, A.J. 2018. Análisis de documentos de opinión usando la representación word2vec. Tesis de Maestría en Ciencias. Centro de Investigación Cientíﬁca y de Educación Superior de Ensenada, Baja California. 85 pp.

Repositorio Orígen

Repositorio Institucional CICESE

Descargas

551

Comentarios

Necesitas iniciar sesión o registrarte para comentar.