Título

Clasificación de entidades nombradas utilizando información global

Autor

CAROLINA ROCIO SANCHEZ PEREZ

Colaborador

MANUEL MONTES Y GOMEZ (Asesor de tesis)

AURELIO LOPEZ LOPEZ (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Resumen o descripción

The recognize and classify the names of people, locations, organizations,

or quantities, is an important step, and in most cases, indispensable in different

applications of Natural Language Processing (NLP), this process is the objective

of the Named Entities Recognition (NER).

The process of recognition of named entities is generally divided into two

steps: the delimitation of named entities (NE) and their subsequent classification,

in this research work we will focus on the latter. In most of the applications,

classification is solved based in a local context, these methods don´t exploit the

global information provided by various references in order to achieve a better

performance in the classification task. This method of using global information

information of a document is what is proposed in this research, using information

from the context of the NE references and not only the reference by itself.

This paper presents a different approach to the traditional, by integrating two

steps, the NEs linking and refining of the initial classification. The purpose of

this approach is to use as much information as possible, available in the different

references to the ENs and support a second classification.

The process of linking its based in measure the similarity between NEs using

different measures to determine a link between ENS. As for the refinement

of classification, vote-based approaches and decision trees approaches are

used, the first based on the theory of assemblages by combining classifications

obtained in a first step, the latter based on decision trees to integrate information from different references and chains like attributes. The experimental

results with different methods do not present a substantial improvement with regard

to the initial classification obtained, however, represent a base to analyze

these approaches with different domains and scenarios, where it is believed

could make more substantial improvements.

El reconocer y clasificar nombres de personas, lugares, organizaciones o

cantidades, es un paso importante, y en la mayoría de los casos indispensable

en distintas aplicaciones del Procesamiento del Lenguaje Natural (PLN), este

proceso es el objetivo del Reconocimiento de Entidades Nombradas (REN).

El proceso de reconocimiento de entidades nombradas se divide generalmente

en dos pasos: la delimitación de entidades nombradas (ENs) y su posterior

clasificación, en este trabajo de investigación nos enfocaremos en esta

última. En la mayoría de las aplicaciones, la clasificación se resuelve basándose

en un contexto local, estos métodos no aprovechan la información global

que brindan las distintas menciones de una EN para alcanzar un mejor desempeño

en la tarea de clasificación. Este método de utilizar la información global

de un documento es el que se propone en este trabajo de investigación, utilizando

la información del contexto de las referencias de una EN y no sólo la

referencia en si. En este trabajo se presenta un enfoque diferente al tradicional

mediante la integración de dos pasos, la vinculación de ENs y el refinamiento

de la clasificación inicial. El propósito de esto es utilizar la mayor cantidad de

información posible, disponible en las distintas menciones de las ENs y apoyar

una segunda clasificación.

El proceso de vinculación se basa en medir la similitud entre ENs utilizando

distintas medidas para determinar un vinculo entre ENs. En cuanto al refinamiento

de clasificación se utilizan enfoques basados en voto y basados en

árboles de decisión, los primeros basados en la teoría de ensambles al combinar

clasificaciones obtenidas en un primer paso; los segundos basados en

árboles de decisión para integrar la información de las distintas menciones y

las cadenas como atributos. Los resultados experimentales con los distintos

métodos no presentan una mejora sustancial con respecto a la clasificación

inicial obtenida, sin embargo, se considera que en un dominio más específico

los métodos propuestos, como en el caso de los métodos de voto, tendrán una

influencia positiva con respecto a la clasificación inicial; además de que este

trabajo representa una pauta para analizar el impacto de la información global

en distintos dominios y escenarios para el idioma español.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

noviembre de 2008

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Sánchez-Pérez CR

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

2505

Comentarios



Necesitas iniciar sesión o registrarte para comentar.