Título

A full meta-learning approach to assist in the full model selection problem in high volume datasets

Autor

Angel Diaz Pacheco

Colaborador

CARLOS ALBERTO REYES GARCIA (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Resumen o descripción

Data by itself is not information, it becomes information only when it is analyzed and, a big part of such analysis is performed through machine learning techniques. Choosing the right technique for a dataset is not a trivial task because it requires to test the performance of the available alternatives and, taking into account that many of these techniques possess a set of configurable parameters, the process becomes harder. With the advent of social networks, the information in ambits outside the scientific research grew to unprecedented scales, this situation favored the storing of bigger quantities of data potentially rich in information and economical value, but the challenge of selecting the most adequate technique for those datasets got worsened. The full model selection analysis emerged as a way to address this issue finding the best combination of a learning algorithm, a subset of features and a combination of data-preparation techniques to a dataset. Full model selection is capable to obtain models with high predictive accuracy and key information about datasets where there is no prior knowledge but, is not the first alternative when datasets become bigger. This analysis supposes to perform a series of transformations in the dataset and the construction of a classifier when a single model is evaluated but, bearing in mind the combination of all factors involved in the problem, the number of posible models is huge or even infinite. Consequently, this problem cannot be addressed through simpler methods as a grid search. Furthermore, the time of this process grows proportionally to the size of the datasets under analysis, therefore, with bigger datasets, the problem becomes intractable. Several approaches as the use of: proxy models, meta-learning techniques and tools from the Big Data paradigm were explored to be capable to address the huge search space of the full model selection problem and to enable the analysis of highvolume datasets within an affordable computing time. The obtained results of this work showed an important reduction of the time in the search process in comparison with a robust algorithm for model selection and with models of higher predictive accuracy. The contributions of this work were: a framework to perform the full model selection analysis in datasets of any size, based in the MapReduce programming model.

Los datos en sí mismos no son información, se convierten en información solo cuando son analizados y gran parte de tal análisis es realizado a través de técnicas de aprendizaje automático. Elegir la técnica adecuada para un conjunto de datos no es una labor trivial ya que requiere de probar el desempeño de cada alternativa disponible y tomando en cuenta que muchas de estas poseen un conjunto de parámetros configurables, el proceso se hace más complicado. Con el advenimiento de las redes sociales, la información en ámbitos ajenos a la investigación científica creció a escalas sin precedentes, esta situación favoreció el almacenamiento de grandes cantidades de datos potencialmente ricos en información y valor económico, pero, el desafío de seleccionar la técnica más adecuada para un conjunto de datos se hizo más difícil. El análisis de selección de modelo completo emergió como una forma de afrontar el problema de encontrar la mejor combinación de un algoritmo de aprendizaje, un

subconjunto de características y una combinación de técnicas de preprocesamiento para un conjunto de datos. La selección de modelo completo es capaz de obtener modelos de gran poder predictivo e información de interés en conjuntos de datos que no han sido analizados, pero, no es la primera alternativa cuando los conjuntos de datos se hacen más grandes. Este análisis supone realizar una serie de transformaciones en el conjunto de datos y la construcción de un clasificador cuando solo un modelo es evaluado, pero, teniendo en mente la combinación de todos los factores involucrados en el problema, el número de modelos posibles es enorme e incluso infinito. En consecuencia, este problema no puede ser enfrentado a través de métodos más simples como la búsqueda en rejilla. Además, el tiempo de dicho proceso crece en proporción al tamaño del conjunto de datos bajo análisis, por lo tanto, con conjuntos de datos más grandes el problema se hace intratable. Varios enfoques como el uso de: modelos proxy, técnicas de meta aprendizaje y herramientas provenientes del paradigma de Big Data fueron exploradas para tener la capacidad de enfrentar el enorme espacio de búsqueda del problema de selección de modelo completo y habilitar el análisis de conjuntos con gran volumen de datos dentro de un tiempo de computo razonable.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica.

Fecha de publicación

febrero de 2019

Tipo de publicación

Tesis de doctorado

Versión de la publicación

Versión aceptada

Formato

application/pdf

Idioma

Inglés

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Díaz Pacheco, A., (2019), A full meta-learning approach to assist in the full model selection problem in high volumen datasets, Tesis de Doctorado, Instituto Nacional de Astrofísica, Óptica y Electrónica.

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

1309

Comentarios



Necesitas iniciar sesión o registrarte para comentar.