Título

Descubrimiento automático de hipónimos a partir de texto no estructurado

Autor

ROSA MARIA ORTEGA MENDOZA

Colaborador

LUIS VILLASEÑOR PINEDA (Asesor de tesis)

MANUEL MONTES Y GOMEZ (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Resumen o descripción

Nowadays, thanks to the Web, we dispose of a huge number of electronic

texts. Given the availability and easy access to these texts, it has emerged an

interest for manipulating them in an automatic way with the aim to extract

prominent information. The extracted information can be used to create or to

enrich lexical resources. In general, this type of resources contains

knowledge about the language’s words. Typically, it proposes methods that

extract semantic relationships from texts for building automatically these

resources.

The present investigation work is located inside the automatic construction of

lexical resources. In particular, this work is focused on the construction of a

hyponyms catalog. Basically, the proposed method is based on the use of

patterns to treat the automatic extraction of hyponyms in non-structured texts

Traditionally, methods that use patterns to solve the problem involve

morphological or syntactic information in the patterns’ definition. In contrast

with these methods, we work without this type of information. Therefore, the

patterns are defined exclusively at a lexical level. This way, the proposed

method achieves language independence and domain independence. In

addition, the use of linguistic tools characteristic of a language is avoided (for

example: taggers, syntactic analyzers, etc.). However, the extraction of

incorrect information is favored. The proposed method confronts this

inconvenience by applying two approaches in order to estimate the

confidence of the extracted hyponym-hypernym couples.

Finally, for showing the utility of the proposed method we evaluated the

precision of the obtained catalog. The achieved results are encouraging and

they show the feasibility of using lexical patterns to extract automatically

hyponyms from non-structured texts.

Hoy en día, gracias a la Web, disponemos de una inmensa cantidad de

textos electrónicos. Dada la disponibilidad y el fácil acceso a estos textos, ha

surgido el interés por manipularlos de manera automática para extraer

información relevante. La información extraída puede ser aprovechada para

crear o enriquecer recursos léxicos. Generalmente, este tipo de recursos

contiene conocimiento acerca de las palabras de un idioma. Típicamente,

para construir automáticamente estos recursos se proponen métodos que

extraen relaciones semánticas a partir del texto.

El presente trabajo de investigación se ubica dentro de la construcción

automática de recursos léxicos. En particular, se centra en la construcción de

un catálogo de hipónimos. Básicamente, el método propuesto se basa en el

uso de patrones para abordar la extracción automática de hipónimos en

textos no estructurados.

Tradicionalmente, los métodos que usan patrones para resolver el problema

tienden a incluir información morfológica o sintáctica en la definición de los

patrones. Sin embargo, en este trabajo se evita el uso de este tipo de

información. Por lo tanto, los patrones se encuentran definidos en un nivel

exclusivamente léxico. Esto propicia que el método sea independiente tanto

del idioma como del dominio, pues se evita el uso de herramientas

lingüísticas propias de un idioma (por ejemplo: etiquetadores, analizadores

sintácticos, etc.); pero se favorece la extracción de información incorrecta

(parejas de palabras que no representan una relación de hiponimia). Para

enfrentar este inconveniente, se proponen dos enfoques que permiten

estimar la confianza de las parejas hipónimo-hiperónimo extraídas.

Finalmente, para mostrar la utilidad del método propuesto se evaluó la

precisión del catálogo de hipónimos resultante. Los resultados obtenidos son

alentadores y muestran la factibilidad de usar patrones léxicos para extraer

automáticamente hipónimos a partir de textos no estructurados.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

diciembre de 2007

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Ortega-Mendoza RM

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

644

Comentarios



Necesitas iniciar sesión o registrarte para comentar.