Título
Clasificación de entidades nombradas utilizando información global
Autor
CAROLINA ROCIO SANCHEZ PEREZ
Colaborador
MANUEL MONTES Y GOMEZ (Asesor de tesis)
AURELIO LOPEZ LOPEZ (Asesor de tesis)
Nivel de Acceso
Acceso Abierto
Materias
Resumen o descripción
The recognize and classify the names of people, locations, organizations,
or quantities, is an important step, and in most cases, indispensable in different
applications of Natural Language Processing (NLP), this process is the objective
of the Named Entities Recognition (NER).
The process of recognition of named entities is generally divided into two
steps: the delimitation of named entities (NE) and their subsequent classification,
in this research work we will focus on the latter. In most of the applications,
classification is solved based in a local context, these methods don´t exploit the
global information provided by various references in order to achieve a better
performance in the classification task. This method of using global information
information of a document is what is proposed in this research, using information
from the context of the NE references and not only the reference by itself.
This paper presents a different approach to the traditional, by integrating two
steps, the NEs linking and refining of the initial classification. The purpose of
this approach is to use as much information as possible, available in the different
references to the ENs and support a second classification.
The process of linking its based in measure the similarity between NEs using
different measures to determine a link between ENS. As for the refinement
of classification, vote-based approaches and decision trees approaches are
used, the first based on the theory of assemblages by combining classifications
obtained in a first step, the latter based on decision trees to integrate information from different references and chains like attributes. The experimental
results with different methods do not present a substantial improvement with regard
to the initial classification obtained, however, represent a base to analyze
these approaches with different domains and scenarios, where it is believed
could make more substantial improvements.
El reconocer y clasificar nombres de personas, lugares, organizaciones o
cantidades, es un paso importante, y en la mayoría de los casos indispensable
en distintas aplicaciones del Procesamiento del Lenguaje Natural (PLN), este
proceso es el objetivo del Reconocimiento de Entidades Nombradas (REN).
El proceso de reconocimiento de entidades nombradas se divide generalmente
en dos pasos: la delimitación de entidades nombradas (ENs) y su posterior
clasificación, en este trabajo de investigación nos enfocaremos en esta
última. En la mayoría de las aplicaciones, la clasificación se resuelve basándose
en un contexto local, estos métodos no aprovechan la información global
que brindan las distintas menciones de una EN para alcanzar un mejor desempeño
en la tarea de clasificación. Este método de utilizar la información global
de un documento es el que se propone en este trabajo de investigación, utilizando
la información del contexto de las referencias de una EN y no sólo la
referencia en si. En este trabajo se presenta un enfoque diferente al tradicional
mediante la integración de dos pasos, la vinculación de ENs y el refinamiento
de la clasificación inicial. El propósito de esto es utilizar la mayor cantidad de
información posible, disponible en las distintas menciones de las ENs y apoyar
una segunda clasificación.
El proceso de vinculación se basa en medir la similitud entre ENs utilizando
distintas medidas para determinar un vinculo entre ENs. En cuanto al refinamiento
de clasificación se utilizan enfoques basados en voto y basados en
árboles de decisión, los primeros basados en la teoría de ensambles al combinar
clasificaciones obtenidas en un primer paso; los segundos basados en
árboles de decisión para integrar la información de las distintas menciones y
las cadenas como atributos. Los resultados experimentales con los distintos
métodos no presentan una mejora sustancial con respecto a la clasificación
inicial obtenida, sin embargo, se considera que en un dominio más específico
los métodos propuestos, como en el caso de los métodos de voto, tendrán una
influencia positiva con respecto a la clasificación inicial; además de que este
trabajo representa una pauta para analizar el impacto de la información global
en distintos dominios y escenarios para el idioma español.
Editor
Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación
noviembre de 2008
Tipo de publicación
Tesis de maestría
Versión de la publicación
Versión aceptada
Recurso de información
Formato
application/pdf
Idioma
Español
Audiencia
Estudiantes
Investigadores
Público en general
Sugerencia de citación
Sánchez-Pérez CR
Repositorio Orígen
Repositorio Institucional del INAOE
Descargas
2505