Título
Procesamiento difuso de características para la clasificación de clases traslapadas en el caso de leucemia aguda
Autor
ALEJANDRO ROSALES PEREZ
Colaborador
CARLOS ALBERTO REYES GARCIA (Asesor de tesis)
MARIA DEL PILAR GOMEZ GIL (Asesor de tesis)
Nivel de Acceso
Acceso Abierto
Materias
Resumen o descripción
In the field of medicine, it is desirable to have accurate methods to identify
diseases properly. From a computational point of view, this identification involves
several steps, among which we highlight classification. Classification has been used
in the recognition of different diseases, acute leukemia being one of these. In the
other hand, several classification problems contains types and subtypes, where the
subtypes are morphologically similar among them, making difficult their differentiation.
This thesis proposes an automatic selection of adequate ensemble of fuzzy
classification models, adjusted to a specific problem represented by a training data
set. Our model is based on a fuzzy processing of the features to reduce the
degree of overlapping in the data set. This also provides a linguistic description of
features, which are used in the building of the classifier. The system automatically
determines the set of fuzzy _optimal_ classification models for different data sets,
showing overlap among classes. For data sets with types and subtypes, as in a
leukemia data set, a second step is executed, which consists of building a hierarchical
classification path. In this way, information of class types of acute leukemia
is used to classify subtypes of it.
To get an optimal classification model, we use genetic algorithms to find a right
combination of feature selection methods, type of fuzzy processing and fuzzy classifiers. This genetic algorithm allows to minimize the error over a cross validation scheme, and it determines the set of the most diverse fuzzy classifiers for the
training data. These classifiers are part of an ensemble.
The proposed method is tested in several data sets of acute leukemia and data
sets from the UCI repository. Among the most important results obtained with
our method is a 95:58% in correct classification of lymphoblastic and myeloid
types of acute leukemia; a 90:72% in correct classification of subtypes of acute
lymphoblastic leukemia, up to 94:94% in myeloid acute leukemia subtypes. Classification using a hierarchical path reported a 93:02% in subtypes of acute leukemia.
With respect to classification of five data bases taken from UCI repository our
proposed method got a 98:19% in the best case.
En el campo de la medicina es deseable contar con métodos cada vez más
precisos que permitan identificar enfermedades de manera adecuada. Esta identificación, desde el punto de vista computacional, involucra varias etapas, entre
las que podemos destacar la clasificación. La clasificación ha sido usada en el
reconocimiento de diferentes enfermedades, siendo la leucemia aguda una de éstas.
Por otro lado, en varios problemas de clasificación existen tipos y sub-tipos,
donde estos últimos tienen características morfológicas similares entre ellos, lo que
dificulta su reconocimiento. En el presente trabajo se propone la determinación
automática de un ensamble de modelos de clasificación difusos adecuados al problema
representado en los datos de entrenamiento. El modelo está basado en un
preprocesamiento difuso de las características para reducir el grado de traslape
en el conjunto de datos. Esto permite proveer a las características una descripción
lingüística, las cuales son usadas en la clasificación. El sistema automáticamente
determina el conjunto de modelos de clasificación difusos _óptimos_ para los diferentes
conjuntos de datos, que presentan traslape entre sus clases. Para conjuntos
de datos con tipos y subtipos, como en la base de datos de leucemia aguda,
un segundo paso es ejecutado, el cual consiste en la construcción de un camino
jerárquico para la clasificación. De esta manera, la información de las clases de
tipos de leucemia aguda es usada para clasificar los subtipos de ésta.
Para obtener un modelo “óptimo”, usamos algoritmos genéticos para encontrar
la combinación correcta de método de selección de características, tipo de procesamiento
difuso y clasificador difuso. Este algoritmo genético permite minimizar
el error a través del esquema de validación cruzada, y determinar el conjunto
de clasificadores difusos más diversos, dado el conjunto de entrenamiento. Estos
clasificadores son parte de un ensamble.
El método propuesto es probado con varios conjuntos de datos de leucemia
aguda y conjuntos de datos disponibles en el repositorio UCI. Entre los resultados
más importantes destacan 95:58% en clasificación correcta de tipos de leucemia
aguda; 90:72% en clasificación correcta de subtipos de leucemia linfoide aguda,
hasta un 94:94% en subtipos de leucemia mieloide aguda. En la clasificación
usando la jerarquía se reporta un 93:02% en sub-tipos de leucemia aguda.
Editor
Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación
2011
Tipo de publicación
Tesis de maestría
Versión de la publicación
Versión aceptada
Recurso de información
Formato
application/pdf
Idioma
Español
Audiencia
Estudiantes
Investigadores
Público en general
Sugerencia de citación
Rosales-Perez A.
Repositorio Orígen
Repositorio Institucional del INAOE
Descargas
605