Advanced search


Knowledge area




130 results, page 1 of 10

Generación de instancias sintéticas para clases desbalanceadas

ATLANTIDA IRENE SANCHEZ VIVAR (2008)

One of the main difficulties that are present in a classification task for machine

learning is the problem of unbalanced classes. This problem is that, in some data sets,

some classes have many more elements than others, causing the classifier to learn

more from them, ignoring the small ones, which right classification is generally of

bigger interest. With respect to this thesis, only problems of two classes are assumed

(minority and majority).

To solve this problem, many techniques have been proposed, from those methods

that that modify existent algorithms and those that create new algorithms, to those that

change the distribution of data with resampling, all of them with the objective of favoring

the classification of the minority class. This thesis focuses on the resampling

methods, specifically on the oversampling of instances, a technique that changes the

distribution of data adding more instances of the minority class, that has obtained satisfactory

results.

In this work, two new oversampling methods of instances are proposed: GIS-G

and GIS-GF. Both methods start from the idea of creating groups of the minority class

and generating the new synthetic instances, while the traditional methods are focused

only on the numeric values assignment. The first method, named GIS-G, generates new

examples by interpolating the numerical values of pairs of instances inside a group.

The second method, GIS-GF, generates the values of the numerical attributes of the

instance with just one instance as seed, making use of the standard deviation of the

values inside of the group.

To test the proposed methods, twenty databases of synthetic data, and twentythree

databases taken from real domains were used. The four main oversampling methods

(ROS, SMOTE, Borderline-SMOTE1 y Borderline-SMOTE2), apart from the

methods proposed in this thesis, were applied. Ten-fold cross validation over each

database were used. Six different classifiers (AdaBoost M1, Naive Bayes, K-NN, C4.5,

PART, and Backpropagation) were tested, and the full process was repeated ten times,

to finally obtain the averages of the results.

It was shown, through the ANOVA Analysis and through and T tests, that the

obtained results from the proposed methods present, on average, better results over

the used databases, with respect to those results obtained by the other methods. These

results are estatistically significant.

Una de las principales dificultades que se presentan en una tarea de clasificación

en aprendizaje computacional es el problema de clases desbalanceadas. Este problema

se refiere a que, en algunos conjuntos de datos, algunas clases tienen muchos más

ejemplos que otras, provocando que el clasificador tienda a aprender m´as de ellas e

ignorar las pequeñas, cuya correcta clasificación generalmente es la de mayor interés.

Para fines de esta tesis, se asumen problemas de sólo dos clases: minoritaria y mayoritaria.

Para solucionar este problema se han propuesto varias técnicas, desde las que

modifican algoritmos existentes y las que crean nuevos algoritmos hasta las que cambian

la distribución de los datos con re-muestreo, todas ellas con la finalidad de favorecer

la clasificación de la clase minoritaria. Esta tesis está enfocada en los métodos

de re-muestreo, específicamente en el sobre-muestreo de instancias, una técnica que

cambia la distribución de datos agregando más instancias de la clase minoritaria y que

ha obtenido resultados satisfactorios.

En este trabajo se proponen dos métodos nuevos de sobre-muestreo de instancias,

GIS-G y GIS-GF. Ambos métodos parten de la idea de crear grupos de la clase

minoritaria y generar las instancias sintéticas dentro de cada grupo, y no de manera

global como lo hacen los métodos tradicionales. Además, propone una forma diferente

de asignar valores nominales a las nuevas instancias, mientras que los métodos

tradicionales únicamente se enfocan en la asignación de valores numéricos. El primer

método, llamado GIS-G, genera nuevos ejemplos interpolando los valores numéricos

de pares de instancias dentro de un grupo. El segundo método, llamado GIS-GF, genera

los valores de los atributos numéricos de la nueva instancia con sólo una instancia

como semilla, haciendo uso de la desviación estándar de los valores dentro del grupo.

Para probar los métodos propuestos se utilizaron veinte bases de datos sintéticas

y veintitrés tomadas de dominios reales, se aplicaron los cuatro métodos de sobremuestreo

principales (ROS, SMOTE, Borderline-SMOTE1 y Borderline-SMOTE2)

además de los dos métodos propuestos en esta tesis, se utilizó validación cruzada de

diez capas sobre cada base de datos, se probaron seis clasificadores diferentes (Ada-

Boost M1, Naive Bayes, K-NN, C4.5, PART y Backpropagation) y el proceso completo

se repitió diez veces para finalmente obtener los promedios de los resultados.

Se mostró, mediante el Análisis ANOVA y pruebas

Master thesis

Sampling methods Classification Manchine learning INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES LENGUAJES DE PROGRAMACIÓN

Identificación de secuencias reguladoras mediante agrupamiento

DULCE MARÍA GARCÍA ORDAZ (2011)

In recent years the number of organisms, which has been obtained its DNA sequence,

has increased . The large amount of data that exists contrast with the limited knowledge

we have of the functions of DNA. The regulatory sequences are short sequences of DNA

wich turn on or turn off the genes. These sequences are found in regions close to genes.

The regulatory sequences are inexact patterns, and can be found using computational

methods. The currently existing tools for the discovery of regulatory sequences are limited

by several factors. Some of these factors are the number of sequences and the length of the

regulatory sequences that can be discovered. An important point is that so far there isn’t

a method capable of identifying all regulatory sequences that exist in the genome, or in

subset of genes. And it was found that all existing tools tend to find at least one sequence

that others methods do not find [16], what causes discovery methods are complementary

to each other. This paper proposes a method for identifying regulatory sequences. This

method is based on a divisive hierarchical clustering algorithm to identify patterns which

are then evaluated to determine candidates for regulatory sequences. We decided to use a

clustering method due to the size of databases, such as Bacillus subtilis organism, which

was evaluated with this method, has more than 4400 genes. The results show that the

method is able to identify these sequences.

En los últimos años ha aumentado la cantidad de organismos de los que se ha obtenido

su secuencia de ADN. La gran cantidad de datos que existen contrasta con el poco conocimiento

que se tiene de las funciones del ADN. Las secuencias reguladoras son un tipo

de secuencia dentro del ADN que se encarga de activar o desactivar a los genes y se encuentran

en regiones cercanas a ´estos. Las secuencias reguladoras son patrones inexactos,

y pueden ser hallados mediante métodos computacionales. Las herramientas que existen

actualmente para el descubrimiento de secuencias reguladoras se encuentran limitados

por diversos factores. Algunos de estos factores son el número de secuencias de entrada

y la longitud de las secuencias reguladoras que pueden descubrir. Un punto importante

es que hasta ahora no existe algún método capaz de identificar todas las secuencias reguladoras

que existan en el genoma, o en un subconjunto de genes. Se ha encontrado que

todas las herramientas existentes suelen encontrar por lo menos una secuencia que las

demás no [16], lo que provoca que los métodos de descubrimiento sean complementarios

entre si. En este trabajo se propone un método para la identificación de secuencias reguladoras.

Este método está basado en un algoritmo de agrupamiento jerárquico divisivo

para identificar los patrones que posteriormente serán evaluados para determinar si son o

no candidatos a secuencias reguladoras. Se decidió utilizar un método de agrupamiento

debido al tamaño de las bases de datos, por ejemplo, el organismo Bacillus Subtilis, con el

que se evaluó este método, cuenta con más de 4400 genes. Los resultados muestran que

el método es capaz de identificar estas secuencias con una precisión cercana al promedio

de los métodos existentes, con la ventaja de que propone el tamaño de las secuencias.

Master thesis

Pattern clustering Data mining Learning CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES

Strategic interactions against non-stationary agents

PABLO FRANCISCO HERNANDEZ LEAL (2015)

Designing an agent that is capable of interacting with another agent is an open problem. An

interaction happen when two or more agents perform an action in an environment and they obtain

an utility based on the performed joint action.Current multiagent learning techniques do not fare

well with agents that change their behavior during a repeated interaction. This happens because

they usually do not model the other agents’ behavior and instead make some assumptions that for

real scenarios are too restrictive. Furthermore, considering that many applications demand different

types of agents to work together this should be an important problem to solve. It does not matter if

the domain is cooperative (where agents have a common goal) or competitive (where objectives are

different), there is one common aspect: agents must learn how their counterpart is acting and react

quickly to changes in behavior.

Doctoral thesis

Learning Repeated games Opponent modeling CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES INSTRUCCIONES ARITMÉTICAS Y DE MÁQUINA

E-learning: recurso de información para los usuarios de la Sociedad del conocimiento

Juan Miguel Palma Peña Mary Carmen Rivera Espino (2012)

The knowledge generated by humanity is the product of teaching and learning, which have been passed for education with the goal of building significant knowledge to society. Current educational trends required by the knowledge society point to the appropriateness of technological advances. This paper deals with regard to the knowledge society and current educational trends. It deals with the concept of e-learning and its typology. Are presented technical information resources of virtual learning. Are some communities of users of e-learning. Finally, we show a view from e-learning librarian.

Los conocimientos generados por la humanidad son producto de enseñanzas y aprendizajes que han sido transmitidos por la educación con el objetivo de construir conocimientos significativos para la sociedad. Las tendencias educativas actuales requeridas por la sociedad del conocimiento apuntan a la adecuación de los avances tecnológicos. Este trabajo trata lo referente a la sociedad del conocimiento y las tendencias educativas actuales. Se aborda el concepto de e-learning y su tipología. Se presentan los recursos de información tecnológicos de entornos virtuales de aprendizaje y algunas comunidades de usuarios de e-learning. Finalmente, se muestra una visión bibliotecológica desde el e-learning.

Article

E-learning Sociedad del conocimiento HUMANIDADES Y CIENCIAS DE LA CONDUCTA

Retroalimentación formativa en línea como apoyo para la enseñanza de matemáticas

Javier Irving Hernández Guerrero (2017)

"El presente trabajo consiste en la construcción de un sistema de retroalimentación en línea como apoyo de la enseñanza de las matemáticas, así como el análisis de algunos aspectos clave en el aprendizaje en línea (e-learning). En el contexto de este documento, se tomará el aprendizaje en línea primero en un ámbito en general y después enfocando al área de las matemáticas en la disciplina de cálculo diferencial.

Teniendo en cuenta el panorama contextual del uso de metodologías para ofrecer una formación mediante las infraestructuras de las tecnologías de la información y la comunicación (TIC), se pretende con este proyecto dar a conocer un prototipo de sistema, que sirva de apoyo a estudiantes de nivel licenciatura para mejorar su aprendizaje de cálculo diferencial con corrección asistida por computadora mediante STACK (System for Teaching and Assessment using a Computer algebra Kernel), éste permite a los estudiantes experimentar una situación de aprendizaje en un entorno virtual. La gran innovación del STACK es posibilitar la introducción de las respuestas en la forma algebraica y recurrir al sistema de álgebra computacional Maxima para evaluar y generar una retroalimentación.

El trabajo se divide en cuatro capítulos, el primer capítulo describe el marco contextual, a saber, la educación en línea (e-learning), el segundo es un marco teórico de las aplicaciones existentes para la educación, se aborda la retroalimentación formativa, así como hablar de que es STACK. En el tercer capítulo contiene el análisis y desarrollo del proyecto, como requerimientos, arquitectura, diagramas, etc. Finalmente, en el último capítulo el desarrollo y pruebas del sistema, además de un apartado donde se recopila la bibliografía consultada y un anexo."

Master thesis

CIENCIAS SOCIALES Maxima E-learning Stock

The Theoretical didactic approach to the counterexample in mathematics.

ARMANDO MORALES CARBALLO EDGARDO LOCIA ESPINOZA MELVIS RAMIREZ BARRAGAN (2018)

This article describes a theoretical-didactic approach to the counterexample within mathematics and its process of teaching-learning, emphasizing the importance of inducing a logical thinking by introducing counterexamples as a process of maturation of mathematical thinking. In addition, it is argued that the counterexamples are not very used in the teaching of mathematics, unlike the important role they have in the professional mathematic activity.

Article

Counterexample Mathematics Validation Teaching learning HUMANIDADES Y CIENCIAS DE LA CONDUCTA PEDAGOGÍA OTRAS ESPECIALIDADES PEDAGÓGICAS

Elaboración del sistema de enseñanza interactivo a distancia e-learning para los alumnos de posgrado

ADRIANA BLANCAS SUAREZ (2009)

"Este trabajo es dedicado al diseño, desarrollo e implementación de un curso a través de la modalidad en línea que permita que los alumnos de posgrado concluyan adecuadamente sus estudios, proporcionando información, la cual, los estudiantes pueden consultar sin los impedimentos que el modelo presencial conlleva, es así como el tiempo, la distancia y otros factores de índole familiar o laboral llegan a ser un obstáculo menor durante el proceso de aprendizaje. El diseño de un curso de esta naturaleza lleva implícito la dedicación y el empeño de varios actores, en este caso de un diseñador, de un pedagogo, de un administrador y un profesor, entre otros, ya que parte del modelo tomado para este curso se basó en la integración no solo de tecnología y comunicación, sino también, de la aplicación de la pedagogía en los contenidos, en este rubro entra el termino conocido como e-learning que es la combinación de todo lo mencionado anteriormente y que se considera como una de las tecnologías más importantes en nuestros tiempos. Sin embargo, el éxito de un curso de esta naturaleza va de la mano con la capacidad y el perfil del profesor que lo imparta, debido a que este último, debe poseer ciertas cualidades y conocimientos para que pueda ser un adecuado tutor virtual, así como también, se requiere que los alumnos participantes posean ciertas cualidades ya que uno de los factores de deserción en esta modalidad se da debido a la lejanía y la falta de comunicación o interés entre los participantes y sus profesores. Una vez que se han considerado todos los factores importantes que debe contener el curso, se pro siguió a su creación. Posteriormente, se colocaron a disposición de todos los participantes inscritos en la materia teoría de decisiones durante el periodo enero-junio a través de la plataforma moodle. Los participantes cursaron la asignatura de forma semipresencial ya que la exposición por parte del profesor se siguió dando de forma regular y la plataforma fungió como medio de apoyo debido a que poseía la totalidad de los contenidos y materiales adecuados para ayudar al desempeño académico del alumnado. Al término del curso se efectuó una evaluación con el fin de determinar la eficiencia y la eficacia del curso, con lo anterior se afirma que el objetivo de este trabajo se cumplió."

Master thesis

CIENCIAS SOCIALES TICs Enseñanza a distancia E learning Moodle

Interactive games in the teaching-learning process of a foreing language.

MARITZA MARIBEL MARTINEZ SANCHEZ (2007)

Games are used as simple recreational activities most of the time, but they are not always that simple. They have a reason for being. While performing games, there is always competition to win, rules to follow, and enjoyment to experience. These activities help teachers to create a better teaching-learning process. They could be presented at different stages of the class at the appropriate moment to create a positive atmosphere while learning without thinking about learning. Teachers should decide carefully when and what kind of games students are going to perform by analyzing different factors such as the aim of the game, the students’ level of English, and students’ ages, among others.

Article

Games Motivation Learning Teaching activities English Foreign Language (EFL) HUMANIDADES Y CIENCIAS DE LA CONDUCTA LINGÜÍSTICA

Algoritmo de aprendizaje para redes bayesianas de nodos temporales

PABLO FRANCISCO HERNANDEZ LEAL (2011)

Bayesian networks have become the reference model to deal with uncertainty due to its easy understanding and different inference and learning algorithms. However, Bayesian networks can not deal with temporal information. The model known as Temporal Nodes Bayesian Networks (TNBN) is an extension that combines uncertainty reasoning with temporal information, but it has not been used extensively due to a lack of learning algorithms for this type of networks. In this thesis we propose a learning algorithm for Temporal Nodes Bayesian Networks that obtains the structure, the intervals and the associated parameters. The algorithm has three main steps: an initial discretization of the temporal nodes, learning of an initial structure and a refinement of the intervals using the structure information. The intervals’ learning algorithm uses a clustering technique to obtain the temporal intervals. The algorithm was evaluated with synthetic data of three TNBNs of different sizes with two distributions to generate the temporal data. In the experiments the algorithm obtained better scores than the baselines, particularly in structural quality and temporal error. The algorithm was also applied with real data, on one side it was applied in prediction and fault diagnosis in a subsystem of a power plant. For this application the algorithm was evaluated using different number of cases in terms of predictive score, temporal error and number of intervals. On the other, it was applied with data from patients with HIV in order to obtain mutational networks; i.e. networks that show the temporal evolution of the mutations with respect to certain drugs. For these experiments, the models were qualitatively evaluated by experts.

Las Redes Bayesianas se han vuelto el modelo de referencia para manejar incertidumbre

debido a su facilidad de interpretación y diversos métodos de inferencia y aprendizaje. Sin

embargo, las redes bayesianas tradicionales no pueden manejar información temporal. El

modelo conocido como Redes Bayesianas de Nodos Temporales (RBNT) es una extensión

que combina el manejo de incertidumbre con información temporal, pero su uso no se ha

extendido debido a que no existen métodos de aprendizaje para estas redes.

En esta tesis proponemos un algoritmo de aprendizaje de Redes Bayesianas de Nodos

Temporales que obtiene la estructura, los intervalos y los parámetros asociados. El algoritmo

se compone de tres pasos principales: una discretización inicial de los nodos temporales, la

obtención de una estructura inicial y posteriormente un refinamiento de los intervalos usando

información de la red. El algoritmo de aprendizaje de intervalos hace uso de un algoritmo

basado en agrupamiento para obtener los intervalos temporales. El conjunto de intervalos

que obtenga el mejor puntaje predictivo es seleccionado.

El algoritmo fue evaluado con datos sintéticos de tres RBNTs de diferentes tamaños

con dos distribuciones diferentes para generar los datos temporales. En los experimentos el

algoritmo superó a los algoritmos base y obtuvo la mejor calidad estructural y el menor

error temporal. El algoritmo también fue aplicado con datos reales, por un lado, en predicción y diagnóstico de fallas en un subsistema de una planta eléctrica. Para esta aplicación

el algoritmo se evaluó con diferente número de casos de entrada en términos de calidad

predictiva, error temporal y número de intervalos. Por otro lado, también se probó con

datos de pacientes con VIH para obtener redes mutacionales; es decir redes, que muestren

la evolución temporal de las mutaciones con respecto a ciertos medicamentos. Para esta

aplicación los modelos fueron evaluados cualitativamente por los expertos.

Master thesis

Temporal reasoning Learning Belief networks CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES