Título
Descubrimiento automático de hipónimos a partir de texto no estructurado
Autor
ROSA MARIA ORTEGA MENDOZA
Colaborador
LUIS VILLASEÑOR PINEDA (Asesor de tesis)
MANUEL MONTES Y GOMEZ (Asesor de tesis)
Nivel de Acceso
Acceso Abierto
Materias
Resumen o descripción
Nowadays, thanks to the Web, we dispose of a huge number of electronic
texts. Given the availability and easy access to these texts, it has emerged an
interest for manipulating them in an automatic way with the aim to extract
prominent information. The extracted information can be used to create or to
enrich lexical resources. In general, this type of resources contains
knowledge about the language’s words. Typically, it proposes methods that
extract semantic relationships from texts for building automatically these
resources.
The present investigation work is located inside the automatic construction of
lexical resources. In particular, this work is focused on the construction of a
hyponyms catalog. Basically, the proposed method is based on the use of
patterns to treat the automatic extraction of hyponyms in non-structured texts
Traditionally, methods that use patterns to solve the problem involve
morphological or syntactic information in the patterns’ definition. In contrast
with these methods, we work without this type of information. Therefore, the
patterns are defined exclusively at a lexical level. This way, the proposed
method achieves language independence and domain independence. In
addition, the use of linguistic tools characteristic of a language is avoided (for
example: taggers, syntactic analyzers, etc.). However, the extraction of
incorrect information is favored. The proposed method confronts this
inconvenience by applying two approaches in order to estimate the
confidence of the extracted hyponym-hypernym couples.
Finally, for showing the utility of the proposed method we evaluated the
precision of the obtained catalog. The achieved results are encouraging and
they show the feasibility of using lexical patterns to extract automatically
hyponyms from non-structured texts.
Hoy en día, gracias a la Web, disponemos de una inmensa cantidad de
textos electrónicos. Dada la disponibilidad y el fácil acceso a estos textos, ha
surgido el interés por manipularlos de manera automática para extraer
información relevante. La información extraída puede ser aprovechada para
crear o enriquecer recursos léxicos. Generalmente, este tipo de recursos
contiene conocimiento acerca de las palabras de un idioma. Típicamente,
para construir automáticamente estos recursos se proponen métodos que
extraen relaciones semánticas a partir del texto.
El presente trabajo de investigación se ubica dentro de la construcción
automática de recursos léxicos. En particular, se centra en la construcción de
un catálogo de hipónimos. Básicamente, el método propuesto se basa en el
uso de patrones para abordar la extracción automática de hipónimos en
textos no estructurados.
Tradicionalmente, los métodos que usan patrones para resolver el problema
tienden a incluir información morfológica o sintáctica en la definición de los
patrones. Sin embargo, en este trabajo se evita el uso de este tipo de
información. Por lo tanto, los patrones se encuentran definidos en un nivel
exclusivamente léxico. Esto propicia que el método sea independiente tanto
del idioma como del dominio, pues se evita el uso de herramientas
lingüísticas propias de un idioma (por ejemplo: etiquetadores, analizadores
sintácticos, etc.); pero se favorece la extracción de información incorrecta
(parejas de palabras que no representan una relación de hiponimia). Para
enfrentar este inconveniente, se proponen dos enfoques que permiten
estimar la confianza de las parejas hipónimo-hiperónimo extraídas.
Finalmente, para mostrar la utilidad del método propuesto se evaluó la
precisión del catálogo de hipónimos resultante. Los resultados obtenidos son
alentadores y muestran la factibilidad de usar patrones léxicos para extraer
automáticamente hipónimos a partir de textos no estructurados.
Editor
Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación
diciembre de 2007
Tipo de publicación
Tesis de maestría
Versión de la publicación
Versión aceptada
Recurso de información
Formato
application/pdf
Idioma
Español
Audiencia
Estudiantes
Investigadores
Público en general
Sugerencia de citación
Ortega-Mendoza RM
Repositorio Orígen
Repositorio Institucional del INAOE
Descargas
644