Algoritmos de agrupamiento global para datos mezlados

SAUL LOPEZ ESCOBAR

Título

Autor

SAUL LOPEZ ESCOBAR

Colaborador

JOSE FRANCISCO MARTINEZ TRINIDAD (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Licencia

http://creativecommons.org/licenses/by-nc-nd/4.0

Materias

Pattern recognition - (RECONOCIMIENTO DE PATRONES) Pattern clustering - (AGRUPACIÓN DE PATRONES) Machine learning - (APRENDIZAJE AUTOMÁTICO) INGENIERÍA Y TECNOLOGÍA - (CTI) CIENCIAS TECNOLÓGICAS - (CTI) TECNOLOGÍA DE LOS ORDENADORES - (CTI) BANCOS DE DATOS - (CTI)

Resumen o descripción

Clustering problem arises in many practical applications in several areas such as Pat-

tern Recognition, Machine Learning, Data Mining, Digital Image Processing, etc. The

k-means algorithm is one of the most frequently algorithms used to solve the clustering

problem, this is due its simplicity but, it has many drawbacks such as: i) it only allows

working with numeric data and ii) it heavily depends on the initial conditions.

On the other hand, in soft sciences such as Medicine, Geology, Sociology, Market-

ing, etc, it is common that objects are described in terms of numeric and no numeric

features (mixed data).

In this context, we propose two clustering algorithms based in the k-Means algo-

rithm. Both algorithms allow working with mixed data and they don't depend on the

initial conditions. The proposed algorithms are tested with data sets obtained from

one public repository and they are compared against other clustering algorithms.

El agrupamiento es un problema que se presenta en una gran cantidad de aplicaciones

prácticas en varios campos tales como Reconocimiento de Patrones, Aprendizaje Automático,

Minería de Datos, Procesamiento Digital de Imágenes, etc. El algoritmo k-Means

es uno de los algoritmos más frecuentemente usados para resolver el problema

de agrupamiento, debido principalmente a su simplicidad, pero tiene varias desventa-

jas entre las que se tienen: i) sólo permite trabajar con datos exclusivamente numéricos

y ii) depende fuertemente de las condiciones iniciales con las que sea ejecutado.

Por otro lado, se tiene que en ciencias denominadas \suaves" (soft sciences) tales

como Medicina, Geología, Sociología, Mercadotecnia, etc. es común que los datos se

encuentren descritos por medio de atributos numéricos y no numéricos (datos mezclados)

simultáneamente.

Dentro de este contexto, en este trabajo se proponen dos algoritmos de agrupamiento

restringido basados en el algoritmo k-Means. Ambos algoritmos permiten trabajar

con datos mezclados y no dependen de las condiciones iniciales con las que sean ejecutados.

Los algoritmos propuestos son evaluados usando conjuntos de datos obtenidos

de un repositorio público y son comparados contra otros algoritmos de agrupamiento

restringido.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

febrero de 2007

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Recurso de información

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/628

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

López-Escobar S

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

5105

Comentarios

Necesitas iniciar sesión o registrarte para comentar.