Adaptación en línea de una política de decisión utilizando aprendizaje por refuerzo y su aplicación en rehabilitación virtual

SHENDER MARÍA AVILA SANSORES

Título

Autor

SHENDER MARÍA AVILA SANSORES

Colaborador

LUIS ENRIQUE SUCAR SUCCAR (Asesor de tesis)

FELIPE ORIHUELA ESPINA (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Licencia

http://creativecommons.org/licenses/by-nc-nd/4.0

Materias

Learning - (APRENDIZAJE) Artificial intelligence - (INTELIGENCIA ARTIFICIAL) Virtual reality - (REALIDAD VIRTUAL) Games of skill - (JUEGOS DE HABILIDAD) CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA - (CTI) MATEMÁTICAS - (CTI) CIENCIA DE LOS ORDENADORES - (CTI)

Resumen o descripción

Recientemente, los juegos serios [44] ganan popularidad en varios ámbitos, como

la educación y la medicina. En este tipo de juegos, es deseable que el juego se adapte

al usuario de acuerdo con su estado y su progreso. Una forma de hacerlo es utilizando

los procesos de decisión de Markov (MDP), que pueden representar el estado

del usuario y seleccionar la mejor acción de adaptación de acuerdo con este estado.

Sin embargo ante circunstancias cambiantes, la política generada por el MDP podría

dejar de ser óptima, es decir una política general deja de ser óptima para usuarios

de diferentes capacidades. Para remediar esta desviación el uso de aprendizaje por

refuerzo es una opción, pero este tipo de aprendizaje generalmente requiere un periodo

de aprendizaje largo que en algunas aplicaciones no es deseable o factible como

en la medicina. En este trabajo se propone un enfoque alternativo que parte de una

política inicial obtenida mediante la resolución de un modelo aproximado MDP, que

adapta a la variabilidad natural de distintos usuarios mediante aprendizaje por refuerzo

(RL), este refuerzo es doble, por un lado el modelo aprende monitoreando el

desempeño del paciente. Por otro lado sobre la base de la política actual el sistema

propone una acción de adaptación que se presenta a un experto del dominio, que

acepta o no la propuesta. La retroalimentación del experto se proporciona como una

recompensa adicional (un tipo de confirmación) para el algoritmo de RL y la política

se actualiza en consecuencia. La conjunción de una inicialización proporcionada

por el MDP y el doble refuerzo hace que el sistema pueda aprender en un menor

número de etapas una buena política, y también se puede adaptar a circunstancias

cambiantes y diferentes usuarios. Esta tesis presenta los resultados de incorporar el

modelo de adaptación sugerido a un sistema de rehabilitación que incluye juegos serios

que simulan actividades de la vida diaria en un entorno virtual, para promover

la rehabilitación de las extremidades superiores. Para probar el enfoque propuesto se

implementó una arquitectura de simulación que conoce la política óptima y simula

la respuesta de los usuarios y el experto en las interacciones con el sistema.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

febrero de 2013

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Recurso de información

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/221

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Avila-Sansores S.M.

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

1090

Comentarios

Necesitas iniciar sesión o registrarte para comentar.