Procesamiento difuso de características para la clasificación de clases traslapadas en el caso de leucemia aguda

ALEJANDRO ROSALES PEREZ

Título

Autor

ALEJANDRO ROSALES PEREZ

Colaborador

CARLOS ALBERTO REYES GARCIA (Asesor de tesis)

MARIA DEL PILAR GOMEZ GIL (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Licencia

http://creativecommons.org/licenses/by-nc-nd/4.0

Materias

Genetic algorithms - (ALGORITMOS GENÉTICOS) Pattern classification - (CLASIFICACIÓN DE PATRONES) Fuzzy logic - (LÓGICA DIFUSA) CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA - (CTI) MATEMÁTICAS - (CTI) CIENCIA DE LOS ORDENADORES - (CTI)

Resumen o descripción

In the field of medicine, it is desirable to have accurate methods to identify

diseases properly. From a computational point of view, this identification involves

several steps, among which we highlight classification. Classification has been used

in the recognition of different diseases, acute leukemia being one of these. In the

other hand, several classification problems contains types and subtypes, where the

subtypes are morphologically similar among them, making difficult their differentiation.

This thesis proposes an automatic selection of adequate ensemble of fuzzy

classification models, adjusted to a specific problem represented by a training data

set. Our model is based on a fuzzy processing of the features to reduce the

degree of overlapping in the data set. This also provides a linguistic description of

features, which are used in the building of the classifier. The system automatically

determines the set of fuzzy _optimal_ classification models for different data sets,

showing overlap among classes. For data sets with types and subtypes, as in a

leukemia data set, a second step is executed, which consists of building a hierarchical

classification path. In this way, information of class types of acute leukemia

is used to classify subtypes of it.

To get an optimal classification model, we use genetic algorithms to find a right

combination of feature selection methods, type of fuzzy processing and fuzzy classifiers. This genetic algorithm allows to minimize the error over a cross validation scheme, and it determines the set of the most diverse fuzzy classifiers for the

training data. These classifiers are part of an ensemble.

The proposed method is tested in several data sets of acute leukemia and data

sets from the UCI repository. Among the most important results obtained with

our method is a 95:58% in correct classification of lymphoblastic and myeloid

types of acute leukemia; a 90:72% in correct classification of subtypes of acute

lymphoblastic leukemia, up to 94:94% in myeloid acute leukemia subtypes. Classification using a hierarchical path reported a 93:02% in subtypes of acute leukemia.

With respect to classification of five data bases taken from UCI repository our

proposed method got a 98:19% in the best case.

En el campo de la medicina es deseable contar con métodos cada vez más

precisos que permitan identificar enfermedades de manera adecuada. Esta identificación, desde el punto de vista computacional, involucra varias etapas, entre

las que podemos destacar la clasificación. La clasificación ha sido usada en el

reconocimiento de diferentes enfermedades, siendo la leucemia aguda una de éstas.

Por otro lado, en varios problemas de clasificación existen tipos y sub-tipos,

donde estos últimos tienen características morfológicas similares entre ellos, lo que

dificulta su reconocimiento. En el presente trabajo se propone la determinación

automática de un ensamble de modelos de clasificación difusos adecuados al problema

representado en los datos de entrenamiento. El modelo está basado en un

preprocesamiento difuso de las características para reducir el grado de traslape

en el conjunto de datos. Esto permite proveer a las características una descripción

lingüística, las cuales son usadas en la clasificación. El sistema automáticamente

determina el conjunto de modelos de clasificación difusos _óptimos_ para los diferentes

conjuntos de datos, que presentan traslape entre sus clases. Para conjuntos

de datos con tipos y subtipos, como en la base de datos de leucemia aguda,

un segundo paso es ejecutado, el cual consiste en la construcción de un camino

jerárquico para la clasificación. De esta manera, la información de las clases de

tipos de leucemia aguda es usada para clasificar los subtipos de ésta.

Para obtener un modelo “óptimo”, usamos algoritmos genéticos para encontrar

la combinación correcta de método de selección de características, tipo de procesamiento

difuso y clasificador difuso. Este algoritmo genético permite minimizar

el error a través del esquema de validación cruzada, y determinar el conjunto

de clasificadores difusos más diversos, dado el conjunto de entrenamiento. Estos

clasificadores son parte de un ensamble.

El método propuesto es probado con varios conjuntos de datos de leucemia

aguda y conjuntos de datos disponibles en el repositorio UCI. Entre los resultados

más importantes destacan 95:58% en clasificación correcta de tipos de leucemia

aguda; 90:72% en clasificación correcta de subtipos de leucemia linfoide aguda,

hasta un 94:94% en subtipos de leucemia mieloide aguda. En la clasificación

usando la jerarquía se reporta un 93:02% en sub-tipos de leucemia aguda.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

2011

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Recurso de información

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/720

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Rosales-Perez A.

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

605

Comentarios

Necesitas iniciar sesión o registrarte para comentar.