Título

Validación de respuestas reconociendo la implicación textual

Autor

ALBERTO TELLEZ VALERO

Colaborador

MANUEL MONTES Y GOMEZ (Asesor de tesis)

LUIS VILLASEÑOR PINEDA (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Resumen o descripción

A question answering system is a kind of search engine that allows retrieving concrete information from large text document collections. The characteristic of this type of systems is that requests from users are expressed as questions for which specic pieces of information (i.e., text fragments instead of complete documents) must be returned as answer. Unfortunately, in many cases, the current performance of these systems has not been as expected. Such is the case of spanish, where, to date, the best system of this kind has only correctly answered to 53% of the questions from a given test set in this language. In order to improve this performance in this thesis is presented an answer validation method. This method allows creating a system that labels as valid or erroneous each one of the answers from the question answering systems. In particular, the answer validation system uses a classier based on supervised learning to label the answers. The principal characteristic of the system is that it uses novel attributes to evaluate the textual entailment along with attributes that verify the compatibility between question-answer. This combination of attributes allows the system to select valid answers for the questions while it discards the erroneous ones. The experiments in a set of questions and answers in spanish show the eectiveness of the system. The obtained results are encouraging since they outperform the results achieved by other similar systems; but mainly, because they allow increasing the best performance reached in spanish question answering. This last result mainly produced by the application of the answer validation system to combine the answers from multiple question answering systems.

Un sistema de búsqueda de respuestas es un tipo de motor de búsqueda que permite recuperar información concreta a partir de grandes colecciones de documentos de texto. La característica de este tipo de sistemas es que la petición del usuario es expresada como una pregunta para la cual piezas específicas de información (i.e., fragmentos de texto en lugar de documentos completos) son retornadas como una respuesta. Desafortunadamente el desempeño actual de estos sistemas en muchos casos no ha resultado ser el esperado. Tal como ocurre en el español, donde hasta la fecha el mejor sistema de esta clase sólo ha contestado correctamente a un 53% de las preguntas de un conjunto de prueba en este idioma. Con el propósito de mejorar dicho desempeño en esta tesis se presenta un método de validación de respuestas. Este método permite crear un sistema que etiqueta como válida o errónea a cada una de las respuestas de los sistemas de búsqueda de respuestas. En particular, el sistema de validación de respuestas utiliza un clasificador basado en aprendizaje supervisado para etiquetar cada respuesta. La característica principal del sistema es que emplea atributos novedosos para evaluar la implicación textual junto con atributos que verifican la compatibilidad entre pregunta-respuesta. Esta combinación de atributos le permite al sistema seleccionar respuestas válidas para las preguntas mientras descarta las erróneas. Los experimentos en preguntas y respuestas en español muestran la efectividad del sistema. Los resultados obtenidos son motivadores, éstos superan a los alcanzados por otros sistemas similares. Pero sobre todo, estos resultados permiten incrementar el mejor desempeño alcanzado en la búsqueda de respuestas en español. Esto último principalmente por utilizar el sistema de validación de respuestas para combinar las respuestas de múltiples sistemas de búsqueda de respuestas.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

septiembre de 2009

Tipo de publicación

Tesis de doctorado

Versión de la publicación

Versión aceptada

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Tellez-Valero A.

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

1846

Comentarios



Necesitas iniciar sesión o registrarte para comentar.