Título
AsistO: A qualitative MDP-based recommender system for power plant operation
AsistO: Un sistema de recomendaciones basado en MDPs cualitativos para la operación de plantas generadoras
Autor
ALBERTO REYES BALLESTEROS
LUIS ENRIQUE SUCAR SUCCAR
EDUARDO FRANCISCO MORALES MANZANARES
Nivel de Acceso
Acceso Abierto
Materias
Recommender systems - (RECOMMENDER SYSTEMS) Power plants - (POWER PLANTS) Markov decision processes - (MARKOV DECISION PROCESSES) Abstractions - (ABSTRACTIONS) Sistemas de recomendaciones - (SISTEMAS DE RECOMENDACIONES) Plantas generadoras - (PLANTAS GENERADORAS) Procesos de decisión de Markov - (PROCESOS DE DECISIÓN DE MARKOV) Abstracciones - (ABSTRACCIONES) CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA - (CTI) MATEMÁTICAS - (CTI) CIENCIA DE LOS ORDENADORES - (CTI)
Resumen o descripción
This paper proposes a novel and practical model-based learning approach with iterative refinement for solving continuous (and hybrid) Markov decision processes. Initially, an approximate model is learned using conventional sampling methods and solved to obtain a policy. Iteratively, the approximate model is refined using variance in the utility values as partition criterion. In the learning phase, initial reward and transition functions are obtained by sampling the state–action space. The samples are used to induce a decision tree predicting reward values from which an initial partition of the state space is built. The samples are also used to induce a factored MDP. The state abstraction is then refined by splitting states only where the split is locally important. The main contributions of this paper are the use of sampling to construct an abstraction, and a local refinement process of the state abstraction based on utility variance. The proposed technique was tested in AsistO, an intelligent recommender system for power plant operation, where we solved two versions of a complex hybrid continuous-discrete problem. We show how our technique approximates a solution even in cases where standard methods explode computationally.
Este artículo propone una técnica novedosa y práctica de aprendizaje basada en modelos con refinamiento iterativo para resolver procesos de decisión de Markov (MDPs) continuos. Inicialmente, se aprende un modelo aproximado usando métodos de muestreo convencionales, el cual se resuelve para obtener una política. Iterativamente, el modelo aproximado se refina con base en la varianza de los valores de la utilidad esperada. En la fase de aprendizaje, se obtienen las funciones de recompensa inmediata y de transición mediante muestras del tipo estado-acción. Éstas primero se usan para inducir un árbol de decisión que predice los valores de recompensa y a partir del cual se construye una partición inicial del espacio de estados. Posteriormente, las muestras también se usan para inducir un MDP factorizado. Finalmente, la abstracción de espacio de estados resultante se refina dividiendo aquellos estados donde pueda haber cambios en la política. Las contribuciones principales de este trabajo son el uso de datos para construir una abstracción inicial, y el proceso de refinamiento local basado en la varianza de la utilidad. La técnica propuesta fue probada en AsistO, un sistema inteligente de recomendaciones para la operación de plantas generadoras de electricidad, donde resolvimos dos versiones de un problema complejo con variables híbridas continuas y discretas. Aquí mostramos como nuestra técnica aproxima una solución aun en casos donde los métodos estándar explotan computacionalmente.
Editor
Computación y Sistemas
Fecha de publicación
2009
Tipo de publicación
Artículo
Versión de la publicación
Versión aceptada
Recurso de información
Formato
application/pdf
Idioma
Inglés
Audiencia
Estudiantes
Investigadores
Público en general
Sugerencia de citación
Reyes-Ballesteros, A., et al., (2009). AsistO: A qualitative MDP-based recommender system for power plant operation, Computación y Sistemas Vol. 13 (1): 5-20
Repositorio Orígen
Repositorio Institucional del INAOE
Descargas
252