Author: Eric Tellez

Near neighbor searching with K nearest references

EDGAR LEONEL CHAVEZ GONZALEZ Mario Graff Gonzalo Navarro ERIC SADIT TELLEZ AVILA (2015)

Proximity searching is the problem of retrieving,from agiven data base,those objects closest to aquery.To avoid exhaustive searching, data structures called indexes are builton the data base prior to serving queries.The curse of dimensionality is awell-known problem

for indexes: in spaces with sufficiently concentrated distance histograms,no index out performs anexhaustive scan of the data base.

Article

Tecnologías de la Información y Comunicación INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS

EvoMSA: A Multilingual Evolutionary Approach for Sentiment Analysis

MARIO GRAFF GUERRERO SABINO MIRANDA JIMENEZ Eric Sadit Téllez Avila Daniela Moctezuma (2019)

Sentiment analysis (SA) is a task related to understanding people's feelings in written text; the starting point would be to identify the polarity level (positive, neutral or negative) of a given text, moving on to identify emotions or whether a text is humorous or not. This task has been the subject of several research competitions in a number of languages, e.g., English, Spanish, and Arabic, among others. In this contribution, we propose an SA system, namely EvoMSA, that our participating systems in various SA competitions, making it domain independent and multilingual by processing text using only language-independent techniques.

EvoMSA is based on Genetic Programming that works by combining the output of text classifers to produce the final prediction. We analyzed EvoMSA on diferent SA competitions to provide a global overview of its performance. The results indicated that EvoMSA is competitive obtaining top rankings in several SA competitions. Furthermore, we performed an analysis of EvoMSA's components to measure their contribution to the performance; the aim was to facilitate a practitioner or newcomer to implement a competitive SA classifer. Finally, it is worth to mention that EvoMSA is available as open source software.

Article

Lenguaje de programación Máquina de aprendizaje INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES LENGUAJES DE PROGRAMACIÓN LENGUAJES DE PROGRAMACIÓN

Semantic Genetic Programming Operators Based on Projections in the Projections in the Phenotype Space

ERIC SADIT TELLEZ AVILA SABINO MIRANDA JIMENEZ MARIO GRAFF GUERRERO Elio Atenógenes Villaseñor García (2015)

In the Genetic Programming (GP) community there has been a great interest in developing semantic genetic operators. These type of operators use information of the phenotype to create ospring. The most recent approaches of semantic GP include the GP framework based on the alignment of error space, the geometric semantic genetic operators, and backpropagation genetic operators. Our contribution proposes two semantic operators based on projections in the phenotype space. The proposed operators have the characteristic, by construction, that the ospring's tness is as at least as good as the tness of the best parent; using as tness the euclidean distance. The semantic operators proposed increment the learning capabilities of GP. These operators are compared against a traditional GP and Geometric Semantic GP in the Human oral bioavailability regression problem and 13 classication problems. The results show that a GP system with our novel semantic operators has the best performance in the training phase in all the problems tested.

Article

Tecnologías de la Información y Comunicación INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS

Minería de opinión en blogs financieros para la predicción de tendencias en mercados bursátiles

Sergio Hernández SABINO MIRANDA JIMENEZ ERIC SADIT TELLEZ AVILA MARIO GRAFF GUERRERO Elio Atenógenes Villaseñor García (2015)

El análisis de redes sociales para el estudio de mercados financieros se ha vuelto un tema de investigación y desarrollo de herramientas que permite a los agentes financieros usar las opiniones de la gente para aumentar la precisión en las predicciones de mercado. Nuestra investigación se enfoca en la predicción de la tendencia de índices financieros usando la minería de opinión, basado en el análisis de blogs especializados en finanzas para el idioma inglés. Los comenta-rios vertidos en estos blogs son clasificados en términos de su opinión respecto a la tendencia de mercado (a la alza, estable o a la baja). Se evalúan distintas téc-nicas de aprendizaje computacional y minería de textos para la clasificación de los comentarios realizados durante un periodo de tres meses. Los resultados ob-tenidos muestran que este análisis puede ser incorporado como un factor en la toma de decisión de los agentes financieros y mejorar la precisión de sus proyec-ciones.

Article

Minería de opinión INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS

A Case Study of Spanish Text Transformations for Twitter Sentiment Analysis

Oscar Sánchez Siordia Eric Tellez SABINO MIRANDA JIMENEZ Mario Graff Daniela Moctezuma Elio Atenógenes Villaseñor García (2017)

Sentiment analysis is a text mining task that determines the polarity of a given text, i.e., its positiveness or negativeness. Recently, it has received a lot of attention given the interest in opinion mining in micro-blogging platforms. These new forms of textual expressions present new challenges to analyze text because of the use of slang, orthographic and grammatical errors, among others. Along with these challenges, a practical sentiment classifier should be able to handle efficiently large workloads. The aim of this research is to identify in a large set of combinations which text transformations (lemmatization, stemming, entity removal, among others), tokenizers (e.g., word n-grams), and token-weighting schemes make the most impact on the accuracy of a classifier (Support Vector Machine) trained on two Spanish datasets. The methodology used is to exhaustively analyze all combinations of text transformations and their respective parameters to find out what common characteristics the best performing classifiers have. Furthermore, we introduce a novel approach based on the combination of word-based n-grams and character-based q-grams. The results show that this novel combination of words and characters produces a classifier that outperforms the traditional wordbased combination by 11.17% and 5.62% on the INEGI and TASS’15 dataset, respectively.

Article

Sentiment Analysis Error-robust text representations Opinion mining INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES INTELIGENCIA ARTIFICIAL INTELIGENCIA ARTIFICIAL

INGEOTEC at SemEval 2017 Task 4: A B4MSA Ensemble based on Genetic Programming for Twitter Sentiment Analysis

SABINO MIRANDA JIMENEZ MARIO GRAFF GUERRERO Eric Tellez DANIELA MOCTEZUMA GARCIA (2017)

Este documento describe el sistema utilizado en SemEval-2017 Tarea 4 (Subtarea A): Clasificación de polaridad de mensaje para ambos idiomas, inglés y árabe. Nuestro sistema propuesto es un conjunto de dos capas, el primero usa nuestro marco genérico para la clasificación de polaridad multilingüe (B4MSA) y la segunda capa combina todos los valores de función de decisión predichos por sistemas B4MSA usando una función no lineal desarrollada usando un sistema de Programación Genética, EvoDAG . Con este enfoque, los mejores rendimientos alcanzados por nuestro sistema fueron la recuperación de macro0.68 (en inglés) y 0.477 (en árabe), que nos colocaron en sexta y cuarta posición en la tabla de resultados, respectivamente.

Article

Tecnologías de la Información y Comunicación Lingüística Aplicada Análisis de sentimiento Twitter INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS

A simple approach to multilingual polarity classification in twitter

Eric Tellez SABINO MIRANDA JIMENEZ Mario Graff Daniela Moctezuma Ranyart Rodrigo Suarez Ponce de Leon Oscar Sánchez Siordia (2017)

Recently, sentiment analysis has received a lot of attention due to the interest in mining opinions of social media users. Sentiment analysis consists in determining the polarity of a given text, i.e., its degree of positiveness or negativeness. Traditionally, Sentiment Analysis algorithms have been tailored to a specific language given the complexity of having a number of lexical variations and errors introduced by the people generating content. In this contribution, our aim is to provide a simple to implement and easy to use multilingual framework, that can serve as a baseline for sentiment analysis contests, and as a starting point to build new sentiment analysis systems. We compare our approach in eight different languages, three of them correspond to important international contests, namely, SemEval (English), TASS (Spanish), and SENTIPOLC (Italian). Within the competitions, our approach reaches from medium to high positions in the rankings; whereas in the remaining languages our approach outperforms the reported results.

Article

Multilingual sentiment analysis Error-robust text representations Opinion mining INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES INTELIGENCIA ARTIFICIAL INTELIGENCIA ARTIFICIAL

A Simple Approach to Multilingual Polarity Classication in Twitter

Eric Tellez MARIO GRAFF GUERRERO RANYART RODRIGO SUAREZ PONCE DEL LEON SABINO MIRANDA JIMENEZ DANIELA MOCTEZUMA GARCIA OSCAR GERARDO SANCHEZ SIORDIA (2016)

Recientemente, el análisis del sentimiento ha recibido mucha atención debido al interés en las opiniones mineras de los usuarios de las redes sociales. El análisis del sentimiento consiste en determinar la polaridad de un texto dado, es decir, su grado de positividad o negatividad. Tradicionalmente, los algoritmos de análisis de sentimiento se han adaptado a un lenguaje específico dada la complejidad de tener una serie de variaciones léxicas y errores introducidos por las personas que generan contenido. En esta contribución, nuestro objetivo es proporcionar un marco multilingüe simple de implementar y fácil de usar, que pueda servir como base para los concursos de análisis de sentimientos y como punto de partida para construir nuevos sistemas de análisis de sentimientos. Comparamos nuestro enfoque en ocho idiomas diferentes, tres de ellos tienen importantes concursos internacionales, a saber, SemEval (inglés), TASS (español) y SENTIPOLC (italiano). Dentro de las competiciones, nuestro enfoque abarca desde posiciones medias a altas en los rankings; mientras que en los idiomas restantes nuestro enfoque supera el resultado informado.

Article

Tecnologías de Información y Comunicación Análisis de sentimiento Redes sociales Twitter INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS