Título

Búsqueda de colocaciones en la Web para sinónimos de Wordnet

Autor

RAFAEL GUZMAN CABRERA

Manuel Montes y Gómez

Paolo Rosso

Nivel de Acceso

Acceso Abierto

Resumen o descripción

La Web es sin lugar a dudas el repositorio de información más grande jamás construido por el ser humano. Con más de cuatro mil millones de páginas indexadas por los motores de búsqueda públicos, la Web representa el mayor y más amplio corpus textual disponible en la actualidad. Por su valor lingüístico, dado que contiene información en más de 1 500 lenguajes, este corpus está siendo usado con gran éxito en muchas tareas de procesamiento del lenguaje natural. En particular, varios métodos de minería de datos se han aplicado para extraer de la Web algunos tipos de patrones lingüísticos útiles para tareas como la

traducción automática y búsqueda de respuestas. En este artículo presentamos un método que permite encontrar combinaciones de palabras significativas a los diferentes sentidos atribuibles a una palabra polisémica. Los experimentos realizados, aunque preliminares, muestran el gran potencial del método propuesto para encontrar estas colocaciones por sentido usando la Web como corpus, así como la viabilidad de la incorporación de dichas colocaciones en sistemas de desambiguación del sentido de las palabras, que pueden a su vez ser usados en sistemas de traducción automática y recuperación de información.

There is no doubt that the Web is the biggest information repository ever before constructed by human beings. With more than four billion pages index-linked by the public search engines, the Web represents the biggest and the widest textual corpus available in our days.

Because his high linguistic value, because contains information in more than 1500 different languages, this corpus is being used with great success in many tasks related to the natural language process. In particular, several methods of data mining have been applied to extract from the Web some types of linguistic patterns which are useful for a diversity of tasks, such as automatic translations and answer search systems. In this work we present a method that allows finding significant laying to the different senses attributable to a polysemic word. A collocation is an arbitrary and recurrent combination of words. The

experiment results show a great potential of the proposed method to

find collocations between words by using the Web as linguistic corpus, as well as the feasibility of incorporating the lexical patterns obtained in word sense disambiguation systems that can be used, for example, in translation machines or information recovery systems. by using the Web as a linguistic corpus, as well as the feasibility of incorporation the lexical patterns obtained in word sense disambiguation systems that can be used, for example, in machines translation or information recovery systems.

Editor

Universidad de Guanajuato

Fecha de publicación

9 de febrero de 2012

Tipo de publicación

Artículo

Versión de la publicación

Versión publicada

Formato

application/pdf

Fuente

Acta Universitaria: Multidisciplinary Scientific Journal. Vol. 15, No.2 (2005)

Idioma

Español

Relación

http://www.actauniversitaria.ugto.mx/index.php/acta/article/view/213/191

Repositorio Orígen

Repositorio Institucional de la Universidad de Guanajuato

Descargas

0

Comentarios



Necesitas iniciar sesión o registrarte para comentar.