Título
Instrucción de tareas a un robot con retroalimentación en línea proporcionada por voz
Autor
ANA CECILIA TENORIO GONZALEZ
Colaborador
EDUARDO FRANCISCO MORALES MANZANARES (Asesor de tesis)
Nivel de Acceso
Acceso Abierto
Materias
Resumen o descripción
Robots are increasingly common in our daily lives and therefore they need
to work in environments shared with humans. In service robotics they need
to adapt to changing environments, interact naturally with non-expert users
and also work with time restrictions. Trying to solve these needs, some methods
have been proposed to program robots for those situations, between
them, reinforcement learning and learning by demonstration. These methods
have been widely used and although good results have been obtained with
them, they have some problems that should be solved. Reinforcement learning
has long times for training and some problems with methods working
in continuous spaces, which require a lot of experience and therefore spend
so long, and sometimes they do not converge. Reward shaping has been used
in reinforcement learning algorithms to accelerate learning, however, it requires
a priori domain knowledge and therefore, it is static because it can
not be adjusted during the learning process. On the other hand, the success
of learning by demonstration is based on the knowledge and the abilities of
the user who provides examples to the robot, and also this learning does
not cover all the space of possibilities in the task domain. Addressing these
problems, this thesis presents an algorithm of reinforcement learning based
on Sarsa(λ ), with initial task demonstration by voice, and includes additional
on-line feedback to the traditional reinforcements, feedback is provided
through commands and qualifiers by voice. Speech provides a way of natural
instruction, accessible to non-expert users, and its inclusion works as a reward
shaping method in the learning algorithm. Unless the most widely used
reward shaping approaches, additional feedback provided by voice is variable
along time, so it works as a dynamic method of reward shaping that does
not need a prior knowledge or designs (of functions). At the same time a new
simple representation to work on-line with continuous spaces is proposed.
Experiments done with navigation tasks and one handling task show how
the proposed algorithm works with continuous spaces and on-line feedback,
and how learning time can be reduced significantly compared to traditional
reinforcement learning algorithms, obtaining very similar policies.
Los robots se encuentran inmersos en nuestra vida diaria cada vez más y
por consiguiente necesitan estar capacitados para cumplir satisfactoriamente
tareas comunes en ambientes compartidos con humanos. Específicamente,
los robots de servicio requieren adaptarse a los ambientes cambiantes donde
operan, interactuar de forma natural con humanos inexpertos (sin conocimientos
de robótica) y trabajar con restricciones de tiempo. Tratando
de resolver estas necesidades han surgido diversos métodos, entre ellos, el
aprendizaje por refuerzo y el aprendizaje por demostración. Estos métodos
han sido ampliamente usados y aunque han dado buenos resultados, tienen
algunos problemas que deben ser resueltos. En aprendizaje por refuerzo se
tienen largos tiempos de entrenamiento y problemas con los métodos que
trabajan con espacios continuos, que suelen requerir mucha experiencia y
por lo tanto, consumir mucho tiempo en el entrenamiento, e incluso pueden
no llegar a converger. Reward shaping ha sido usado en los algoritmos de
aprendizaje por refuerzo para acelerar el aprendizaje, sin embargo, requiere
conocimiento a priori y sus funciones son estáticas porque no son ajustables
durante el proceso de aprendizaje. Por otro lado, el éxito del aprendizaje por
demostración es dependiente de las habilidades del usuario que proporciona
los ejemplos de la tarea al robot, y no cubre todo el espacio de posibilidades
dentro del dominio de la tarea. Abordando esta problemática, en esta tesis
se presenta un algoritmo de aprendizaje por refuerzo basado en Sarsa(λ)
que incluye demostración inicial de la tarea proporcionada por voz, además
de recibir los refuerzos usuales de los algoritmos tradicionales incluye retroalimentación
en línea a través de comandos y calificativos proporcionados
verbalmente por un usuario. La voz proporciona un medio de instrucción natural,
asequible para usuarios inexpertos, y su inclusión funciona como una
técnica de reward shaping sobre el algoritmo de aprendizaje. Pero a diferencia
de los enfoques de reward shaping más usados, la retroalimentación por voz
puede variar en el tiempo, por lo cual funciona como una técnica dinámica
que no requiere conocimiento ni diseños previos. Al mismo tiempo se propone
una representación sencilla y novedosa para espacios continuos que puede
ser construida en línea.
Editor
Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación
diciembre de 2010
Tipo de publicación
Tesis de maestría
Versión de la publicación
Versión aceptada
Recurso de información
Formato
application/pdf
Idioma
Español
Audiencia
Estudiantes
Investigadores
Público en general
Sugerencia de citación
Tenorio-Gonzalez A. C.
Repositorio Orígen
Repositorio Institucional del INAOE
Descargas
2650