Author: DANIELA MOCTEZUMA GARCIA

A Case Study of Spanish Text Transformations for Twitter Sentiment Analysis

Oscar Sánchez Siordia Eric Tellez SABINO MIRANDA JIMENEZ Mario Graff Daniela Moctezuma Elio Atenógenes Villaseñor García (2017)

Sentiment analysis is a text mining task that determines the polarity of a given text, i.e., its positiveness or negativeness. Recently, it has received a lot of attention given the interest in opinion mining in micro-blogging platforms. These new forms of textual expressions present new challenges to analyze text because of the use of slang, orthographic and grammatical errors, among others. Along with these challenges, a practical sentiment classifier should be able to handle efficiently large workloads. The aim of this research is to identify in a large set of combinations which text transformations (lemmatization, stemming, entity removal, among others), tokenizers (e.g., word n-grams), and token-weighting schemes make the most impact on the accuracy of a classifier (Support Vector Machine) trained on two Spanish datasets. The methodology used is to exhaustively analyze all combinations of text transformations and their respective parameters to find out what common characteristics the best performing classifiers have. Furthermore, we introduce a novel approach based on the combination of word-based n-grams and character-based q-grams. The results show that this novel combination of words and characters produces a classifier that outperforms the traditional wordbased combination by 11.17% and 5.62% on the INEGI and TASS’15 dataset, respectively.

Article

Sentiment Analysis Error-robust text representations Opinion mining INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES INTELIGENCIA ARTIFICIAL INTELIGENCIA ARTIFICIAL

INGEOTEC at SemEval 2017 Task 4: A B4MSA Ensemble based on Genetic Programming for Twitter Sentiment Analysis

SABINO MIRANDA JIMENEZ MARIO GRAFF GUERRERO Eric Tellez DANIELA MOCTEZUMA GARCIA (2017)

Este documento describe el sistema utilizado en SemEval-2017 Tarea 4 (Subtarea A): Clasificación de polaridad de mensaje para ambos idiomas, inglés y árabe. Nuestro sistema propuesto es un conjunto de dos capas, el primero usa nuestro marco genérico para la clasificación de polaridad multilingüe (B4MSA) y la segunda capa combina todos los valores de función de decisión predichos por sistemas B4MSA usando una función no lineal desarrollada usando un sistema de Programación Genética, EvoDAG . Con este enfoque, los mejores rendimientos alcanzados por nuestro sistema fueron la recuperación de macro0.68 (en inglés) y 0.477 (en árabe), que nos colocaron en sexta y cuarta posición en la tabla de resultados, respectivamente.

Article

Tecnologías de la Información y Comunicación Lingüística Aplicada Análisis de sentimiento Twitter INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS

A Simple Approach to Multilingual Polarity Classication in Twitter

Eric Tellez MARIO GRAFF GUERRERO RANYART RODRIGO SUAREZ PONCE DEL LEON SABINO MIRANDA JIMENEZ DANIELA MOCTEZUMA GARCIA OSCAR GERARDO SANCHEZ SIORDIA (2016)

Recientemente, el análisis del sentimiento ha recibido mucha atención debido al interés en las opiniones mineras de los usuarios de las redes sociales. El análisis del sentimiento consiste en determinar la polaridad de un texto dado, es decir, su grado de positividad o negatividad. Tradicionalmente, los algoritmos de análisis de sentimiento se han adaptado a un lenguaje específico dada la complejidad de tener una serie de variaciones léxicas y errores introducidos por las personas que generan contenido. En esta contribución, nuestro objetivo es proporcionar un marco multilingüe simple de implementar y fácil de usar, que pueda servir como base para los concursos de análisis de sentimientos y como punto de partida para construir nuevos sistemas de análisis de sentimientos. Comparamos nuestro enfoque en ocho idiomas diferentes, tres de ellos tienen importantes concursos internacionales, a saber, SemEval (inglés), TASS (español) y SENTIPOLC (italiano). Dentro de las competiciones, nuestro enfoque abarca desde posiciones medias a altas en los rankings; mientras que en los idiomas restantes nuestro enfoque supera el resultado informado.

Article

Tecnologías de Información y Comunicación Análisis de sentimiento Redes sociales Twitter INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS