Generación automática de resúmenes de múltiples documentos

ESAU VILLATORO TELLO

Título

Autor

ESAU VILLATORO TELLO

Colaborador

LUIS VILLASEÑOR PINEDA (Asesor de tesis)

MANUEL MONTES Y GOMEZ (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Licencia

http://creativecommons.org/licenses/by-nc-nd/4.0

Materias

Cluster tools - (HERRAMIENTAS DE CLÚSTER) Computational linguistics - (LIGÜÍSTICA COMPUTACIONAL) Text analysis - (ANÁLISIS DE TEXTO) INGENIERÍA Y TECNOLOGÍA - (CTI) CIENCIAS TECNOLÓGICAS - (CTI) TECNOLOGÍA DE LOS ORDENADORES - (CTI) SISTEMAS DE RECONOCIMIENTO DE CARACTERES - (CTI)

Resumen o descripción

In this era, where electronic text information is exponentially growing and where

time is a critical resource, it has become virtually impossible for any user to browse

or read large numbers of individual documents. It is therefore important to explore

methods of allowing users to locate and browse information quickly within collections

of documents. Automatic text summarization of multiple documents fulfills such information seeking goals by providing a method for the user to quickly view highlights

and/or relevant portions of document collections. Now days, there has been little

work with multi-document summarization, although single document summarization

has been subject of focus in the last few years.

Multi-document summarization differs from single document summarization in

that the issues of compression levels, management of redundant information and the

method used for the sentence selection are critical in the formation of useful summaries. If multi-document summarization needs to be useful across subject areas and

languages, it must be relatively independent of natural language understanding (i.e.,

scarce use of linguistic resources).

The proposed approach to solve the task of multi-document summarization contains two main modules. The first one, a module based on machine learning techniques

has as a main goal to identify an extract relevant sentences. The main characteristic of

the proposed classifier is that uses word sequences as features to represent sentences.

The second module consists of a clustering process, the main goal of this is to organize

the information extracted by the classifier and find the main sub-themes contained

in the collection, this module also deals with the problem of redundant information

and the compression levels.

The main goal of the proposed approach is to reduce the portability problems of

current multi-document summarization systems. Finally, in order to show the usefulness of the proposed scheme, a comparison between our proposal and two other

systems was made. The evaluations showed that the proposal is useful for the creation

of multi-document summaries of high quality and allows the creation of summaries

that are very similar to those created by humans.

En la era actual en la que vivimos, donde la información en forma textual disponible en medios electronicos crece de manera exponencial y donde el tiempo es un

recurso crítico, se ha vuelto virtualmente imposible para cualquier persona, el navegar

y leer toda esta información disponible. Es por esta razón, que surge la importancia

de desarrollar métodos que permitan a los usuarios buscar y localizar de una manera

rápida, información contenida dentro de grandes colecciones de documentos. La generación automática de resúmenes de múltiples documentos, cumple con estos objetivos

al proporcionar a los usuarios un método que permite observar la información importante y/o porciones de información relevante, contenida dentro de una colección

de documentos. Actualmente los sistemas de generación de resúmenes de múltiples

documentos se encuentran muy poco desarrollados, sin embargo, a la tarea de generar

el resumen de un documento se le ha puesto gran interés en los últimos años.

La tarea de generar resúmenes de múltiples documentos se diferencia de la tarea

de generar el resumen de un documento en: los niveles de compresión que deben

ser manejados, la aparición de información redundante y la forma de seleccionar las

porciones de información relevantes, juega un papel crítico al momento de crear un

resumen de calidad. Si se desea que el sistema de generación de resúmenes sea útil

en diferentes dominios temáticos e incluso diferentes idiomas, es necesario contar con

técnicas que no hagan uso de costosos recursos lingüísticos.

La arquitectura que se propone para solucionar el problema de generar el resumen

de múltiples documentos, se compone de dos grandes módulos. El primero, basado en

técnicas de aprendizaje automático, que tiene por objetivo hacer la adecuada selección

de la información relevante. La característica principal de este módulo es el uso de

secuencias de palabras para representar las oraciones de los documentos. El segundo

módulo, se compone de un algoritmo de agrupamiento, el cual tiene como objetivo

principal organizar la información por sub-temas, eliminar redundancias y controlar

los niveles de compresión.

El propósito de este enfoque es eliminar los problemas de portabilidad que actualmente presentan este tipo de sistemas. Finalmente, para mostrar lo útil de la arquitectura propuesta, se compara el desempeño de ésta contra el obtenido por otros dos

sistemas.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

febrero de 2007

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Recurso de información

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/670

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Villatoro-Tello E

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

636

Comentarios

Necesitas iniciar sesión o registrarte para comentar.