Author: Elio Atenógenes Villaseñor García

Strategy for the automated diagnostic of the openess degree in government data

RAMON REYES CARRION MARIO GRAFF GUERRERO Elio Atenógenes Villaseñor García (2016)

Propósito: una estrategia de análisis de información de extracción de datos y modelos, para evaluar de una manera (semi) automatizada, los datos del gobierno mexicano que analizan la pertinencia, capacidad y organización de los datos abiertos del gobierno mexicano.

Diseño / metodología / enfoque: Proponemos un estudio detallado de los formatos, estructura, temporalidad, uniformidad, acceso, herramientas disponibles, para determinar el grado de apertura de los datos del gobierno mexicano. Además, los resultados obtenidos del estudio, servirán para el modelado y la evaluación de la información para diseñar e implementar las estrategias de análisis de los datos de gobierno abierto, utilizando técnicas avanzadas de análisis de big data.

Originalidad / valor: esta metodología pone en evidencia la viabilidad de las categorías definidas por el grupo de investigación: "Seminario de Investigación de gobierno abierto y big data". Por último, diagnosticamos los datos del gobierno mexicano utilizando herramientas de análisis de big data.

Implicaciones prácticas: el resultado será la aplicación de herramientas de análisis de big data para abrir datos susceptibles de aplicarse a los datos del gobierno de los países en desarrollo. El modelado de los datos será el punto de partida o el diseño e implementación de las estrategias de análisis de datos o se aplicará al gobierno abierto a través del uso de herramientas avanzadas de análisis de datos.

Article

Tecnologías de la Información y Comunicación Big data Análisis de datos México INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS

Minería de opinión en blogs financieros para la predicción de tendencias en mercados bursátiles

Sergio Hernández SABINO MIRANDA JIMENEZ ERIC SADIT TELLEZ AVILA MARIO GRAFF GUERRERO Elio Atenógenes Villaseñor García (2015)

El análisis de redes sociales para el estudio de mercados financieros se ha vuelto un tema de investigación y desarrollo de herramientas que permite a los agentes financieros usar las opiniones de la gente para aumentar la precisión en las predicciones de mercado. Nuestra investigación se enfoca en la predicción de la tendencia de índices financieros usando la minería de opinión, basado en el análisis de blogs especializados en finanzas para el idioma inglés. Los comenta-rios vertidos en estos blogs son clasificados en términos de su opinión respecto a la tendencia de mercado (a la alza, estable o a la baja). Se evalúan distintas téc-nicas de aprendizaje computacional y minería de textos para la clasificación de los comentarios realizados durante un periodo de tres meses. Los resultados ob-tenidos muestran que este análisis puede ser incorporado como un factor en la toma de decisión de los agentes financieros y mejorar la precisión de sus proyec-ciones.

Article

Minería de opinión INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS

A Case Study of Spanish Text Transformations for Twitter Sentiment Analysis

Oscar Sánchez Siordia Eric Tellez SABINO MIRANDA JIMENEZ Mario Graff Daniela Moctezuma Elio Atenógenes Villaseñor García (2017)

Sentiment analysis is a text mining task that determines the polarity of a given text, i.e., its positiveness or negativeness. Recently, it has received a lot of attention given the interest in opinion mining in micro-blogging platforms. These new forms of textual expressions present new challenges to analyze text because of the use of slang, orthographic and grammatical errors, among others. Along with these challenges, a practical sentiment classifier should be able to handle efficiently large workloads. The aim of this research is to identify in a large set of combinations which text transformations (lemmatization, stemming, entity removal, among others), tokenizers (e.g., word n-grams), and token-weighting schemes make the most impact on the accuracy of a classifier (Support Vector Machine) trained on two Spanish datasets. The methodology used is to exhaustively analyze all combinations of text transformations and their respective parameters to find out what common characteristics the best performing classifiers have. Furthermore, we introduce a novel approach based on the combination of word-based n-grams and character-based q-grams. The results show that this novel combination of words and characters produces a classifier that outperforms the traditional wordbased combination by 11.17% and 5.62% on the INEGI and TASS’15 dataset, respectively.

Article

Sentiment Analysis Error-robust text representations Opinion mining INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES INTELIGENCIA ARTIFICIAL INTELIGENCIA ARTIFICIAL

Elsevier´s Journal Metrics for the Identification of a Mainstream Journals Core: A Case Study on Mexic

Ricardo Arencibia_Jorge IBIS ANETTE LOZANO DIAZ HUMBERTO ANDRES CARRILLO CALVET Elio Atenógenes Villaseñor García (2016)

Contexto: Durante las últimas cuatro décadas ha habido argumentos considerables contra el uso arbitrario del Factor de Impacto de Garfield en la evaluación de la investigación. Durante la última década, la aparición de bases de datos con una cobertura considerable, como Scopus y Google Scholar, junto con la demanda general de una mayor precisión en las evaluaciones de revistas, ha motivado la aparición de indicadores de revistas alternativas. Sin embargo, el estudio de las revistas latinoamericanas que utilizan estas medidas cuantitativas es aún escaso.

Objetivos: El propósito de este documento es resaltar el uso de indicadores bibliométricos avanzados para analizar el rendimiento de las revistas científicas e identificar un núcleo de revistas de corriente principal en contextos nacionales y regionales. Métodos. El Journal Citation Report de Thomson Reuters y el Elsevier's Journal Metrics se utilizaron como fuentes de información. Se seleccionaron cuatro indicadores bibliométricos para identificar grupos de revistas de alta visibilidad: Factor de impacto, Puntuación Eigenfactor, Impacto normalizado de fuente por papel y Clasificación de revista SCImago. También se utilizó un método de inteligencia artificial basado en el Mapa de autoorganización (SOM) para identificar un núcleo de revistas convencionales. Los seriales mexicanos fueron seleccionados para el estudio de caso.

Resultados: Se estudió la cobertura de las revistas mexicanas en Web of Science y Scopus durante el período 2004-2013. El desempeño de las revistas científicas mexicanas también fue evaluado. Se compararon los rankings de las revistas mexicanas basados en métricas basadas en Scopus versus métricas basadas en Web of Science.

Contribuciones: Se identifica el núcleo de publicaciones seriales de la corriente principal mexicana más visible. Los bibliotecarios, investigadores y gerentes de investigación pueden usar indicadores alternativos y mapas de autoorganización para caracterizar las clasificaciones de las revistas.

Article

Tecnologías de la Información y Comunicación Ciencias de la información Indicadores bibliométricos México INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS

Semantic Genetic Programming Operators Based on Projections in the Projections in the Phenotype Space

ERIC SADIT TELLEZ AVILA SABINO MIRANDA JIMENEZ MARIO GRAFF GUERRERO Elio Atenógenes Villaseñor García (2015)

In the Genetic Programming (GP) community there has been a great interest in developing semantic genetic operators. These type of operators use information of the phenotype to create ospring. The most recent approaches of semantic GP include the GP framework based on the alignment of error space, the geometric semantic genetic operators, and backpropagation genetic operators. Our contribution proposes two semantic operators based on projections in the phenotype space. The proposed operators have the characteristic, by construction, that the ospring's tness is as at least as good as the tness of the best parent; using as tness the euclidean distance. The semantic operators proposed increment the learning capabilities of GP. These operators are compared against a traditional GP and Geometric Semantic GP in the Human oral bioavailability regression problem and 13 classication problems. The results show that a GP system with our novel semantic operators has the best performance in the training phase in all the problems tested.

Article

Tecnologías de la Información y Comunicación INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS

Visualizaciones bibliométricas con indicadores dependientes e independientes del tamaño utilizando la metodología ViBlioSOM

IBIS ANETTE LOZANO DIAZ JOSE LUIS JIMENEZ ANDRADE HUMBERTO ANDRES CARRILLO CALVET Elio Atenógenes Villaseñor García (2016)

Las metodologías multidimensionales permiten realizar estudios bibliométricos que combinan, de manera no lineal, varios aspectos de la actividad científica. De esta manera, las comparaciones que se realizan entre unidades científicas (e.i. instituciones, países), pueden considerar, simultáneamente, diferentes facetas de la actividad científica, como productividad, impacto, eficiencia y eficacia. Sin embargo, al igual que en los ranqueos unidimensionales, es necesario tener en cuenta la naturaleza de los indicadores utilizados para realizar las interpretaciones adecuadamente. El objetivo general de este trabajo es analizar el efecto que tiene el uso de indicadores dependientes e independientes de tamañoen la metodología ViBlioSOM; técnica multiparamétrica y de visualización basada en distancia. Para ilustrarlo, nos apoyamos en un estudio multiparamétrico que compara el perfil científico de un grupo de países con productividad similar a México. ViBlioSOM permitió identificar automáticamente el perfil científico en cuanto a la eficiencia, impacto y excelencia para 68 países; así como, determinar los valores atípicos que se destacan como perfiles peculiares. No obstante, los resultados con indicadores independientes y dependientes de tamaño en ViBlioSOM ofrecieron perspectivas diferentes.

Conference object

Ciencias de la Información Bibliotecología Estudios bibliométricos INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS

Caracterización de la industria biofarmacéutica cubana a partir de las redes de colaboración

Maria Victoria Guzmán Sánchez Maybel Felipa Piñon Lora JOSE LUIS JIMENEZ ANDRADE HUMBERTO ANDRES CARRILLO CALVET Elio Atenógenes Villaseñor García (2016)

INTRODUCCIÓN: Los estudios de colaboración científica han permitido introducir los conceptos de redes de colaboración. Estas permiten representar la estructura social de una comunidad de investigadores y la transmisión del conocimiento en un país o sector económico específico. La industria biofarmacéutica cubana es un caso excepcional de estudio, pues ha logrado alcanzar un importante desarrollo en el contexto de un país del “Tercer Mundo”.

OBJETIVO: Este trabajo tiene como objetivo general caracterizar la industria biotecnológica cubana a partir de las redes de colaboración.

MÉTODO Y PROCEDIMIENTOS: Se tomó como base de datos el WoS (1969-2015) y se aplicaron indicadores métricos de colaboración científica a partir del campo afiliación. Las visualizaciones en forma de red se obtuvieron a partir del software NodeXL.

RESULTADOS: BioCubaFarma reúne cerca del 50% de la producción científica total de Cuba en todos los sectores. Desde su formación, el sector ha mantenido una significativa colaboración interna y externa, tanto con Europa como América Latina, incluyendo con los Estados Unidos. Esto último es significativo al no existir relaciones diplomáticas con dicho país. La colaboración es mayor hacia los centros del antiguo “Polo científico” que hacia las antiguas empresas del sector farmacéutico. Por otra parte, existe una correlación entre la magnitud de la producción científica con los niveles de colaboración. .

CONCLUSIONES: Para el desarrollo de la biomedicina en Cuba, la colaboración no ha sido solo endógena sino que ha habido de manera importante transferencia y comunicación de conocimiento de Cuba hacia otros países y a la inversa.

Conference object

Redes de colaboración Indicadores métricos Industria biofarmacéutica Cuba INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS

Informetric Mapping of “Big Data” in FI-WARE

ELIO ATENOGENES VILLASENOR GARCIA HUGO ESTRADA ESQUIVEL (2014)

Today, governmental entities are embracing new trends in

information technology. One of the technological developments

that generate more excitement is Big Data; because this

technology let us analyze the huge amount of information

produced by the government and is useful for decisions making.

On the other hand, the Future Internet platform of the European

Community (FI- WARE) is one of the most powerful trends

around the world and has aroused more interest in governments.

This technology is based on a set of Generic Enablers (GE) for

various applications, including Big Data. The FI-WARE is a

platform under construction and knowing how this process

performed is essential to join in this monumental effort and take

advantages of its benefits. This document presents the results of

the application of text and data mining techniques as well as

informetric mapping to gain understanding regarding the

development of Big Data technology present in the FI- WARE.

Article

Procesamiento de datos INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS

Tecnologías constituidas, innovaciones en proceso y tecnologías introducidas en el mercado internacional: caso de estudio

Maidelyn Díaz Pérez Raudel Giráldez Reyes Dayron Armas Peña Reinaldo Javier Rodríguez Font HUMBERTO ANDRES CARRILLO CALVET Elio Atenógenes Villaseñor García (2014)

La presente investigación tiene como objetivo conocer la trayectoria tecnológica del dominio caso de estudio Shale gas. Se propone

como unidad de análisis y medición, la clasificación internacional de patentes de las invenciones relacionadas con el tema y

recuperadas en tres bases de datos internacionales diferentes. Primero, se analizan las tecnologías constituidas consideradas como

patentes concedidas en la oficina de patentes de los Estados Unidos de América United States Patent and Trademark, segundo las

innovaciones en proceso identificadas como patentes solicitadas en la misma United States Patent and Trademark, y por último las

patentes introducidas en el mercado internacional tramitadas mediante el Tratado de Cooperación de Patentes. La metodología

utilizada aplicó indicadores de frecuencia y relacionales a la unidad objeto de estudio y obtuvo resultados que describen el

comportamiento del conocimiento tecnológico del dominio. El análisis de la representación de los datos permitió identificar

mediante el estudio de las clasificaciones las temáticas presentes en los procesos geofísicos de los aceites y gas de lutita conocidos

como Shale gas, relacionados con la utilización de equipos de cómputo digital.

Article

Tecnologías de la información y comunicacón INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS