Author: Oscar Sánchez Siordia

Reconstrucción de caracteres para mejora de sistemas OCR con RNAs

Daniela Moctezuma Oscar Sánchez Siordia (2015)

Numerosos avances dentro de la Inteligencia Artificial han estado inspirados en las caracter´ısticas de los procesos biolo´gicos de las redes neuronales. Estas caracter´ısticas, por las ventajas que presentan, han intentado ser emuladas dentro de una computadora para imitar las tareas que son capaces de realizar los seres humanos. Siendo el OCR (Optical Character Recognition) una habilidad humana, la intencio´n de utilizar RNAs (Redes Neuronales Artificiales) para un sistema de reconocimiento de caracteres, va en relacio´n de co´mo las RNAs tratan de simular los procesos que ocurren en el cerebro humano. El presente trabajo implementa un sistema OCR mediante RNAs, as´ı como una modificacio´n al mismo, implementando un paradigma para la reconstruccin del patro´n de entrada (con una red Hopfield) antepuesto al paradigma utilizado para el reconocimiento (red Perceptro´n). Las pruebas realizadas comparan los resultados entre el sistema OCR original y el modificado para este trabajo, utilizando tanto nu´meros como letras. Las ventajas de la modificacio´n planteada para este trabajo pueden ser ampliadas a cualquier sistema OCR ya implementado sin importar el m´etodo de reconocimiento utilizado. Los resultados muestran una importante mejora en el porcentaje de reconocimiento con el m´etodo propuesto respecto al m´etodo comparado.

Article

RNA OCR red Hopfield INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES SISTEMAS DE RECONOCIMIENTO DE CARACTERES SISTEMAS DE RECONOCIMIENTO DE CARACTERES

A Case Study of Spanish Text Transformations for Twitter Sentiment Analysis

Oscar Sánchez Siordia Eric Tellez SABINO MIRANDA JIMENEZ Mario Graff Daniela Moctezuma Elio Atenógenes Villaseñor García (2017)

Sentiment analysis is a text mining task that determines the polarity of a given text, i.e., its positiveness or negativeness. Recently, it has received a lot of attention given the interest in opinion mining in micro-blogging platforms. These new forms of textual expressions present new challenges to analyze text because of the use of slang, orthographic and grammatical errors, among others. Along with these challenges, a practical sentiment classifier should be able to handle efficiently large workloads. The aim of this research is to identify in a large set of combinations which text transformations (lemmatization, stemming, entity removal, among others), tokenizers (e.g., word n-grams), and token-weighting schemes make the most impact on the accuracy of a classifier (Support Vector Machine) trained on two Spanish datasets. The methodology used is to exhaustively analyze all combinations of text transformations and their respective parameters to find out what common characteristics the best performing classifiers have. Furthermore, we introduce a novel approach based on the combination of word-based n-grams and character-based q-grams. The results show that this novel combination of words and characters produces a classifier that outperforms the traditional wordbased combination by 11.17% and 5.62% on the INEGI and TASS’15 dataset, respectively.

Article

Sentiment Analysis Error-robust text representations Opinion mining INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES INTELIGENCIA ARTIFICIAL INTELIGENCIA ARTIFICIAL

Using social media as a tool for assessing citizens perception of regional development dimensions for policy making

Gabriel Puron-Cid José Jaime Sainz-Santamaría Oscar Sánchez Siordia Daniela Moctezuma (2015)

Regional development has enticed the attention from business people, non-profit and international organizations and policy makers at all levels of governments. The main goal of this focus is to fight against regional inequalities and differences. Many methodologies have been used to diagnose multiple dimensions of a particular region in order to conduct analysis and eventually to design or adjust public policies. In general, all these analytical tools have focused on using multiple regional indicators for measuring some development dimensions: income, jobs, housing, education, health, environment, safety, civic engagement, access to services, among others. Today these tools have been advanced due to the improvements of quality of statistical data and the computational power to analyze these data. In spite of these technical and methodological advances, this study claims that these studies are based on data collected using traditional statistical approaches such as census, surveys and questionnaires which are expensive and difficult to implement in various countries. Another limitation is that these methods do not assess citizens’ perception. The objective of this research is to develop an automated tool to assess the perception of citizens about their regional development dimensions by using georeferenced entries in Twitter localized in Mexico. This poster only shows the methodological design of this research, the dimensions and categories to be assessed, and the preliminary results of category of potable water access of the dimension of income/poverty.

Conference poster

Social Media Regional Development Local Development Citizen Perception Well-being Dimension CIENCIAS SOCIALES GEOGRAFÍA GEOGRAFÍA ECONÓMICA DESARROLLO REGIONAL DESARROLLO REGIONAL

A simple approach to multilingual polarity classification in twitter

Eric Tellez SABINO MIRANDA JIMENEZ Mario Graff Daniela Moctezuma Ranyart Rodrigo Suarez Ponce de Leon Oscar Sánchez Siordia (2017)

Recently, sentiment analysis has received a lot of attention due to the interest in mining opinions of social media users. Sentiment analysis consists in determining the polarity of a given text, i.e., its degree of positiveness or negativeness. Traditionally, Sentiment Analysis algorithms have been tailored to a specific language given the complexity of having a number of lexical variations and errors introduced by the people generating content. In this contribution, our aim is to provide a simple to implement and easy to use multilingual framework, that can serve as a baseline for sentiment analysis contests, and as a starting point to build new sentiment analysis systems. We compare our approach in eight different languages, three of them correspond to important international contests, namely, SemEval (English), TASS (Spanish), and SENTIPOLC (Italian). Within the competitions, our approach reaches from medium to high positions in the rankings; whereas in the remaining languages our approach outperforms the reported results.

Article

Multilingual sentiment analysis Error-robust text representations Opinion mining INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES INTELIGENCIA ARTIFICIAL INTELIGENCIA ARTIFICIAL

Geomatics Applications to Contemporary Social and Environmental Problems in Mexico

JOSE LUIS SILVAN CARDENAS Rodrigo Tapia-McClung Camilo Caudillo Pablo López Ramírez Oscar Sánchez Siordia Daniela Moctezuma (2016)

Trends in geospatial technologies have led to the development of new powerful analysis and representation techniques that involve processing of massive datasets, some unstructured, some acquired from ubiquitous sources, and some others from remotely located sensors of different kinds, all of which complement the structured information produced on a regular basis by governmental and international agencies. In this chapter, we provide both an extensive revision of such techniques and an insight of the applications of some of these techniques in various study cases in Mexico for various scales of analysis from regional migration flows of highly qualified people at the country level and the spatio-temporal analysis of unstructured information in geotagged tweets for sentiment assessment, to more local applications of participatory cartography for policy definitions jointly between local authorities and citizens, and an automated method for three dimensional D modelling and visualisation of forest inventorying with laser scanner technology.

Las tendencias en las tecnologías geoespaciales han llevado al desarrollo de nuevas y poderosas técnicas de análisis y representación que implican el procesamiento de conjuntos de datos masivos, algunos no estructurados, algunos adquiridos de fuentes ubicuas y otros de sensores ubicados remotamente de diferentes tipos, todos los cuales complementan la información estructurada producidas regularmente por agencias gubernamentales e internacionales. En este capítulo, proporcionamos una revisión exhaustiva de tales técnicas y una idea de las aplicaciones de algunas de estas técnicas en varios casos de estudio en México para diversas escalas de análisis de flujos migratorios regionales de personas altamente calificadas a nivel de país y de la zona. -temporal de análisis de información no estructurada en tweets geoetiquetados para evaluación de sentimientos, a más aplicaciones locales de cartografía participativa para definiciones de políticas conjuntamente entre autoridades locales y ciudadanos, y un método automatizado para el modelado 3D tridimensional y visualización de inventarios forestales con tecnología de escáner láser.

Book part

crowdsourcing airborne laser scanner crime analysis migration volunteered geographic information CIENCIAS SOCIALES GEOGRAFÍA OTRAS ESPECIALIDADES GEOGRÁFICAS OTRAS OTRAS

A Simple Approach to Multilingual Polarity Classication in Twitter

Eric Tellez MARIO GRAFF GUERRERO RANYART RODRIGO SUAREZ PONCE DEL LEON SABINO MIRANDA JIMENEZ DANIELA MOCTEZUMA GARCIA OSCAR GERARDO SANCHEZ SIORDIA (2016)

Recientemente, el análisis del sentimiento ha recibido mucha atención debido al interés en las opiniones mineras de los usuarios de las redes sociales. El análisis del sentimiento consiste en determinar la polaridad de un texto dado, es decir, su grado de positividad o negatividad. Tradicionalmente, los algoritmos de análisis de sentimiento se han adaptado a un lenguaje específico dada la complejidad de tener una serie de variaciones léxicas y errores introducidos por las personas que generan contenido. En esta contribución, nuestro objetivo es proporcionar un marco multilingüe simple de implementar y fácil de usar, que pueda servir como base para los concursos de análisis de sentimientos y como punto de partida para construir nuevos sistemas de análisis de sentimientos. Comparamos nuestro enfoque en ocho idiomas diferentes, tres de ellos tienen importantes concursos internacionales, a saber, SemEval (inglés), TASS (español) y SENTIPOLC (italiano). Dentro de las competiciones, nuestro enfoque abarca desde posiciones medias a altas en los rankings; mientras que en los idiomas restantes nuestro enfoque supera el resultado informado.

Article

Tecnologías de Información y Comunicación Análisis de sentimiento Redes sociales Twitter INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS