Author: PABLO FRANCISCO HERNANDEZ LEAL

Strategic interactions against non-stationary agents

PABLO FRANCISCO HERNANDEZ LEAL (2015)

Designing an agent that is capable of interacting with another agent is an open problem. An

interaction happen when two or more agents perform an action in an environment and they obtain

an utility based on the performed joint action.Current multiagent learning techniques do not fare

well with agents that change their behavior during a repeated interaction. This happens because

they usually do not model the other agents’ behavior and instead make some assumptions that for

real scenarios are too restrictive. Furthermore, considering that many applications demand different

types of agents to work together this should be an important problem to solve. It does not matter if

the domain is cooperative (where agents have a common goal) or competitive (where objectives are

different), there is one common aspect: agents must learn how their counterpart is acting and react

quickly to changes in behavior.

Doctoral thesis

Learning Repeated games Opponent modeling CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES INSTRUCCIONES ARITMÉTICAS Y DE MÁQUINA

Algoritmo de aprendizaje para redes bayesianas de nodos temporales

PABLO FRANCISCO HERNANDEZ LEAL (2011)

Bayesian networks have become the reference model to deal with uncertainty due to its easy understanding and different inference and learning algorithms. However, Bayesian networks can not deal with temporal information. The model known as Temporal Nodes Bayesian Networks (TNBN) is an extension that combines uncertainty reasoning with temporal information, but it has not been used extensively due to a lack of learning algorithms for this type of networks. In this thesis we propose a learning algorithm for Temporal Nodes Bayesian Networks that obtains the structure, the intervals and the associated parameters. The algorithm has three main steps: an initial discretization of the temporal nodes, learning of an initial structure and a refinement of the intervals using the structure information. The intervals’ learning algorithm uses a clustering technique to obtain the temporal intervals. The algorithm was evaluated with synthetic data of three TNBNs of different sizes with two distributions to generate the temporal data. In the experiments the algorithm obtained better scores than the baselines, particularly in structural quality and temporal error. The algorithm was also applied with real data, on one side it was applied in prediction and fault diagnosis in a subsystem of a power plant. For this application the algorithm was evaluated using different number of cases in terms of predictive score, temporal error and number of intervals. On the other, it was applied with data from patients with HIV in order to obtain mutational networks; i.e. networks that show the temporal evolution of the mutations with respect to certain drugs. For these experiments, the models were qualitatively evaluated by experts.

Las Redes Bayesianas se han vuelto el modelo de referencia para manejar incertidumbre

debido a su facilidad de interpretación y diversos métodos de inferencia y aprendizaje. Sin

embargo, las redes bayesianas tradicionales no pueden manejar información temporal. El

modelo conocido como Redes Bayesianas de Nodos Temporales (RBNT) es una extensión

que combina el manejo de incertidumbre con información temporal, pero su uso no se ha

extendido debido a que no existen métodos de aprendizaje para estas redes.

En esta tesis proponemos un algoritmo de aprendizaje de Redes Bayesianas de Nodos

Temporales que obtiene la estructura, los intervalos y los parámetros asociados. El algoritmo

se compone de tres pasos principales: una discretización inicial de los nodos temporales, la

obtención de una estructura inicial y posteriormente un refinamiento de los intervalos usando

información de la red. El algoritmo de aprendizaje de intervalos hace uso de un algoritmo

basado en agrupamiento para obtener los intervalos temporales. El conjunto de intervalos

que obtenga el mejor puntaje predictivo es seleccionado.

El algoritmo fue evaluado con datos sintéticos de tres RBNTs de diferentes tamaños

con dos distribuciones diferentes para generar los datos temporales. En los experimentos el

algoritmo superó a los algoritmos base y obtuvo la mejor calidad estructural y el menor

error temporal. El algoritmo también fue aplicado con datos reales, por un lado, en predicción y diagnóstico de fallas en un subsistema de una planta eléctrica. Para esta aplicación

el algoritmo se evaluó con diferente número de casos de entrada en términos de calidad

predictiva, error temporal y número de intervalos. Por otro lado, también se probó con

datos de pacientes con VIH para obtener redes mutacionales; es decir redes, que muestren

la evolución temporal de las mutaciones con respecto a ciertos medicamentos. Para esta

aplicación los modelos fueron evaluados cualitativamente por los expertos.

Master thesis

Temporal reasoning Learning Belief networks CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES