Título
Búsqueda de colocaciones en la Web para sinónimos de Wordnet
Autor
RAFAEL GUZMAN CABRERA
Manuel Montes y Gómez
Paolo Rosso
Nivel de Acceso
Acceso Abierto
Materias
INGENIERÍA Y TECNOLOGÍA - (CTI) Minería de la web - ([Acta Universitaria: Multidisciplinary Scientific Journal. Vol. 15, No.2 (2005)]) Patrones léxicos - ([Acta Universitaria: Multidisciplinary Scientific Journal. Vol. 15, No.2 (2005)]) Wordnet - ([Acta Universitaria: Multidisciplinary Scientific Journal. Vol. 15, No.2 (2005)]) Mining of the web - ([Acta Universitaria: Multidisciplinary Scientific Journal. Vol. 15, No.2 (2005)]) Lexical patterns - ([Acta Universitaria: Multidisciplinary Scientific Journal. Vol. 15, No.2 (2005)])
Resumen o descripción
La Web es sin lugar a dudas el repositorio de información más grande jamás construido por el ser humano. Con más de cuatro mil millones de páginas indexadas por los motores de búsqueda públicos, la Web representa el mayor y más amplio corpus textual disponible en la actualidad. Por su valor lingüístico, dado que contiene información en más de 1 500 lenguajes, este corpus está siendo usado con gran éxito en muchas tareas de procesamiento del lenguaje natural. En particular, varios métodos de minería de datos se han aplicado para extraer de la Web algunos tipos de patrones lingüísticos útiles para tareas como la
traducción automática y búsqueda de respuestas. En este artículo presentamos un método que permite encontrar combinaciones de palabras significativas a los diferentes sentidos atribuibles a una palabra polisémica. Los experimentos realizados, aunque preliminares, muestran el gran potencial del método propuesto para encontrar estas colocaciones por sentido usando la Web como corpus, así como la viabilidad de la incorporación de dichas colocaciones en sistemas de desambiguación del sentido de las palabras, que pueden a su vez ser usados en sistemas de traducción automática y recuperación de información.
There is no doubt that the Web is the biggest information repository ever before constructed by human beings. With more than four billion pages index-linked by the public search engines, the Web represents the biggest and the widest textual corpus available in our days.
Because his high linguistic value, because contains information in more than 1500 different languages, this corpus is being used with great success in many tasks related to the natural language process. In particular, several methods of data mining have been applied to extract from the Web some types of linguistic patterns which are useful for a diversity of tasks, such as automatic translations and answer search systems. In this work we present a method that allows finding significant laying to the different senses attributable to a polysemic word. A collocation is an arbitrary and recurrent combination of words. The
experiment results show a great potential of the proposed method to
find collocations between words by using the Web as linguistic corpus, as well as the feasibility of incorporating the lexical patterns obtained in word sense disambiguation systems that can be used, for example, in translation machines or information recovery systems. by using the Web as a linguistic corpus, as well as the feasibility of incorporation the lexical patterns obtained in word sense disambiguation systems that can be used, for example, in machines translation or information recovery systems.
Editor
Universidad de Guanajuato
Fecha de publicación
9 de febrero de 2012
Tipo de publicación
Artículo
Versión de la publicación
Versión publicada
Recurso de información
Formato
application/pdf
Fuente
Acta Universitaria: Multidisciplinary Scientific Journal. Vol. 15, No.2 (2005)
Idioma
Español
Relación
http://www.actauniversitaria.ugto.mx/index.php/acta/article/view/213/191
Repositorio Orígen
Repositorio Institucional de la Universidad de Guanajuato
Descargas
0