Author: Manuel Montes y Gómez

Expansión fonética de la consulta para la recuperación de información en documentos hablados

Phonetic query expansion for spoken document retrieval

Manuel Alejandro Reyes Barragán Luis Villaseñor Pineda Manuel Montes y Gómez (2011)

El enfoque tradicional para la búsqueda de información en grandes colecciones de documentos hablados consiste en integrar métodos de reconocimiento automático del habla (RAH) y técnicas de recuperación de información (RI) usadas para texto escrito. Una desventaja de este enfoque es su dependencia a la precisión del sistema de RAH, pues los errores generados por éste impactan fuertemente en la máquina de RI. Con el objetivo de reducir el impacto de los errores de transcripción, especialmente los de sustitución, en este trabajo se propone expandir las consultas con palabras fonéticamente similares y con ello ampliar las posibilidades de emparejar las palabras mal transcritas en los documentos. Los resultados alcanzados en dos colecciones de documentos hablados con características muy disímiles demuestran la pertinencia del método propuesto, el cual logró mejorar el MAP respecto a una expansión tradicional hasta en un 3.68%.

The traditional approach for searching information in large collections of spoken documents consists of integrating automatic speech recognition (ASR) methods and traditional text retrieval (IR) techniques. One disadvantage of this approach is its dependence to the precision of the ASR system, since transcription errors strongly affect the IR machine. With the aim of reducing the impact of these errors, especially those concerning substitutions, in this paper we propose expanding the queries by means of phonetically similar words, and by this increasing the possibility of matching incorrectly transcribed words from the documents. Results on two very different spoken-document collections show the relevance of the proposed method, which outperformed the MAP from traditional expansion techniques by up to 3.68%.

Article

Recuperación de Información Documentos hablados Expansión de la consulta Codificación fonética Information Retrieval Spoken Documents Query Expansion Phonetic Codes CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES

Learning to select the correct answer in multi-stream question answering

ALBERTO TELLEZ VALERO Manuel Montes y Gómez Luis Villaseñor Pineda (2011)

Question answering (QA) is the task of automatically answering a question posed in natural language. Currently, there exists several QA approaches, and, according to recent evaluation results, most of them are complementary. That is, different systems are relevant for different kinds of questions. Somehow, this fact indicates that a pertinent combination of various systems should allow to improve the individual results. This paper focuses on this problem, namely, the selection of the correct answer from a given set of responses corresponding to different QA systems. In particular, it proposes a supervised multi-stream approach that decides about the correctness of answers based on a set of features that describe: (i) the compatibility between question and answer types, (ii) the redundancy of answers across streams, as well as (iii) the overlap and non-overlap information between the question–answer pair and the support text. Experimental results are encouraging; evaluated over a set of 190 questions in Spanish and using answers from 17 different QA systems, our multi-stream QA approach could reach an estimated QA performance of 0.74, significantly outperforming the estimated performance from the best individual system (0.53) as well as the result from best traditional multi-stream QA approach (0.60).

Article

Data fusion Multi-stream QA Textual entailment Answer validation CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES

Un método independiente del idioma para responder preguntas de definición

An independent language method for answer definition questions

María Claudia Denicia Carral Luis Villaseñor Pineda Manuel Montes y Gómez (2010)

Este trabajo describe un método para responder preguntas de definición basado exclusivamente en patrones léxicos brindando con ello independencia sobre el idioma. El método aplica dos pasos de minería de texto. El primer paso se enfoca en el descubrimiento de un conjunto de patrones léxicos superficiales a partir de ejemplos de definiciones recuperados de la Web. Posteriormente, se usan los patrones descubiertos para extraer una colección de pares concepto-descripción de una colección de documentos dada. El segundo paso de minería se aplica para determinar la respuesta más adecuada para cierta pregunta específica. Los resultados experimentales se obtuvieron con datos del foro CLEF 2005 y 2006 en tareas monolingües para el español, francés e italiano. Dichos resultados demuestran la pertinencia del método alcanzando altas precisiones para los tres idiomas.

This paper describes a method for answering definition questions that is exclusively based on the use of lexical patterns, and, therefore, that is language independent. This method applies two main text-mining steps. The first step focuses on the discovery of a set of surface lexical patterns from definition examples downloaded from the Web. Subsequently, it uses these patterns to extract a set of concept-description pairs from a given target document collection. The second step applies a text-mining algorithm to determine the most adequate answer to each specific question. Experimental results were obtained using the datasets from the CLEF 2005 and 2006 for the monolingual tasks in Spanish, French and Italian. These results demonstrate the relevance of the method which showed very high precisions for the three languages

Article

H. Sistemas de Información H.3 Almacenamiento y Recuperación de Información H.3.4 Sistemas y Software Sistemas de Búsqueda de Respuestas Preguntas de Definición H. Information Systems H.3 Information Storage and Retrieval H.3.4 Systems and Software Question- Answering Systems Definition Questions CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES

Búsqueda de colocaciones en la Web para sinónimos de Wordnet

RAFAEL GUZMAN CABRERA Manuel Montes y Gómez Paolo Rosso (2012)

La Web es sin lugar a dudas el repositorio de información más grande jamás construido por el ser humano. Con más de cuatro mil millones de páginas indexadas por los motores de búsqueda públicos, la Web representa el mayor y más amplio corpus textual disponible en la actualidad. Por su valor lingüístico, dado que contiene información en más de 1 500 lenguajes, este corpus está siendo usado con gran éxito en muchas tareas de procesamiento del lenguaje natural. En particular, varios métodos de minería de datos se han aplicado para extraer de la Web algunos tipos de patrones lingüísticos útiles para tareas como la

traducción automática y búsqueda de respuestas. En este artículo presentamos un método que permite encontrar combinaciones de palabras significativas a los diferentes sentidos atribuibles a una palabra polisémica. Los experimentos realizados, aunque preliminares, muestran el gran potencial del método propuesto para encontrar estas colocaciones por sentido usando la Web como corpus, así como la viabilidad de la incorporación de dichas colocaciones en sistemas de desambiguación del sentido de las palabras, que pueden a su vez ser usados en sistemas de traducción automática y recuperación de información.

There is no doubt that the Web is the biggest information repository ever before constructed by human beings. With more than four billion pages index-linked by the public search engines, the Web represents the biggest and the widest textual corpus available in our days.

Because his high linguistic value, because contains information in more than 1500 different languages, this corpus is being used with great success in many tasks related to the natural language process. In particular, several methods of data mining have been applied to extract from the Web some types of linguistic patterns which are useful for a diversity of tasks, such as automatic translations and answer search systems. In this work we present a method that allows finding significant laying to the different senses attributable to a polysemic word. A collocation is an arbitrary and recurrent combination of words. The

experiment results show a great potential of the proposed method to

find collocations between words by using the Web as linguistic corpus, as well as the feasibility of incorporating the lexical patterns obtained in word sense disambiguation systems that can be used, for example, in translation machines or information recovery systems. by using the Web as a linguistic corpus, as well as the feasibility of incorporation the lexical patterns obtained in word sense disambiguation systems that can be used, for example, in machines translation or information recovery systems.

Article

INGENIERÍA Y TECNOLOGÍA Minería de la web Patrones léxicos Wordnet Mining of the web Lexical patterns

Hacia la identificación de relaciones de hiponimia/hiperonimia en Internet

Towards the identification of hyponym/hypernym relations in the Internet

Rosa María Ortega Mendoza Luis Villaseñor Pineda Manuel Montes y Gómez Gerardo Sierra (2011)

En este trabajo se presenta un enfoque para la extracción automática de pares hipónimo-hiperónimo. En particular se propone un método de extracción de información léxica, orientado a la relación de hiponimia, que utiliza un conjunto de patrones léxicos propios del español, así como un esquema simétrico de calificación de pares/patrones cuyo objetivo es enriquecer la confiabilidad del método de extracción. La eficacia del método propuesto se evaluó obteniendo hipónimos correspondientes a un vocabulario de hiperónimos dado. Los resultados logrados confirman la utilidad del método propuesto para extraer hipónimos, así como la relevancia del esquema de calificación de pares/patrones.

This paper presents an approach to the automatic extraction of hyponyms and hyperonyms. In particular, it proposes an information extraction method that is specially suited for identifying pairs of hyponym-hyperonym by using a set of Spanish lexical patterns. It also proposes a symmetric weighting scheme of pairs/patterns whose goal is to enhance the confidence of the extraction method. The effectiveness of the proposed approach was evaluated by extracting hyponyms from a given vocabulary of hyperonyms. Results show the usefulness of the proposed extraction method as well as the relevance of the pairs/patterns weighting scheme.

Article

Hipónimo Hiperónimo Patrones léxico-sintácticos Extracción de información Hyponym Hypernym Lexical-syntactic pattern Information extraction CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES

Multimodal indexing based on semantic cohesion for image retrieval

Hugo Jair Escalante Balderas Manuel Montes y Gómez Luis Enrique Sucar Succar (2012)

This paper introduces two novel strategies for representing multimodal images with application to multimedia image retrieval. We consider images that are composed of both text and labels: while text describes the image content at a very high semantic level (e.g., making reference to places, dates or events), labels provide a mid-level description of the image (i.e., in terms of the objects that can be seen in the image). Accordingly, the main assumption of this work is that by combining information from text and labels we can develop very effective retrieval methods. We study standard information fusion techniques for combining both sources of information. However, whereas the performance of such techniques is highly competitive, they cannot capture effectively the content of images. Therefore, we propose two novel representations for multimodal images that attempt to exploit the semantic cohesion among terms from different modalities. Such representations are based on distributional term representations widely used in computational linguistics. Under the considered representations the content of an image is modeled by a distribution of co-occurrences over terms or of occurrences over other images, in such a way that the representation can be considered an expansion of the multimodal terms in the image. We report experimental results using the SAIAPR TC12 benchmark on two sets of topics used in ImageCLEF competitions with manually and automatically generated labels. Experimental results show that the proposed representations outperform significantly both, standard multimodal techniques and unimodal methods. Results on manually assigned labels provide an upper bound in the retrieval performance that can be obtained, whereas results with automatically generated labels are encouraging. The novel representations are able to capture more effectively the content of multimodal images. We emphasize that although we have applied our representations to multimedia image retrieval the same formulation can be adopted for modeling other multimodal documents (e.g., videos).

Article

Multimedia image retrieval Image annotation Distributional term representations Semantic cohesion modeling CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES

Bilingual document clustering using Translation-Independent features

Claudia Denicia Carral Manuel Montes y Gómez Luis Villaseñor Pineda RITA MARIANA ACEVES PEREZ (2010)

This paper focuses on the task of bilingual clustering, which involves dividing a set of documents from two different languages into a set of thematically homogeneous groups. It mainly proposes a translation independent approach specially suited to deal with linguistically related languages. In particular, it proposes representing the documents by pairs of words orthographically or thematically related. The experimental evaluation in three bilingual collections and using two clustering algorithms demonstrated the appropriateness of the proposed representation, which results are comparable to those from other approaches based on complex linguistic resources such as translation machines, part-of-speech taggers, and named entity recognizers.

Article

CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES

Using a Markov random field for image Re-ranking based on visual and textual features

Utilizando un campo aleatorio de Markov para el reordenamiento de imágenes basado en atributos Visuales y textuales

Ricardo Omar Chavez García Manuel Montes y Gómez Luis Enrique Sucar Succar (2011)

We propose a novel method to re-order the list of images returned by an image retrieval system (IRS). The method combines the original order obtained by the IRS, the similarity between images obtained with visual and textual features, and a relevance feedback approach, all of them with the purpose of separating relevant from irrelevant images, and thus, obtaining a more appropriate order. The method is based on a Markov random field (MRF) model, in which each image in the list is represented as a random variable that could be relevant or irrelevant. The energy function proposed for the MRF combines two factors: the similarity between the images in the list (internal similarity); and information obtained from the original order and the similarity of each image with the query (external similarity). Experiments were conducted with resources from the Image CLEF 2008 forum for the photo retrieval track, taking into account textual and visual features. The results show that the proposed method improves, according to the MAP measure, the order of the original list up to 63% (in the textual case) and up to 55% (in the visual case); and suggest future work using a combination of both kind of features.

En este trabajo proponemos un método novedoso para re-ordenar una lista de imágenes recuperadas por un sistema de recuperación de imágenes (SRI). El método combina el orden original obtenido por el SRI, la similitud entre imágenes, obtenida con las características visuales y textuales, y un enfoque de retroalimentación de relevancia, todos ellos con el propósito de separar las imágenes relevantes de las irrelevantes, y así, obtener un orden más apropiado. El método está basado en el modelo de un campo aleatorio de Markov (CAM), en el que cada imagen en la lista fue representada como una variable aleatoria con dos posibles valores: relevante o irrelevante. La función de energía propuesta para el campo aleatorio de Markov combina dos factores: la similitud entre imágenes en la lista (similitud interna); y la información obtenida del orden original y la similitud de cada imagen con la consulta (similitud externa). Los experimentos fueron realizados con los recursos del foro Image CLEF 2008 para la tarea de recuperación de fotografías, tomando en cuenta los atributos textuales y visuales. Los resultados mostraron que el método propuesto mejora, de acuerdo con la medida MAP, el orden de la lista original hasta en un 63% (en el caso textual) y hasta un 55% (en el caso visual); y sugieren como trabajo a futuro el utilizar una combinación de ambos tipos de atributos.

Article

Image Re-ranking Image Retrieval Markov Random Field Relevance Feedback Re-ordenamiento de Imágenes Recuperación de Imágenes Campos Aleatorios de Markov Retroalimentación de Relevancia CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES

Semantic cohesion for image annotation and retrieval

Hugo Jair Escalante Balderas Luis Enrique Sucar Succar Manuel Montes y Gómez (2012)

We present methods for image annotation and retrieval based on semantic cohesion among terms. On the one hand, we propose a region labeling technique that assigns an image the label that maximizes an estimate of semantic cohesion among candidate labels associated to regions in segmented images. On the other hand, we propose document representation techniques based on semantic cohesion among multimodal terms that compose images. We report experimental results that show the effectiveness of the proposed techniques. Additionally, we describe an extension of a benchmark collection for evaluation of the proposed techniques.

Presentamos métodos para la anotación y recuperación de imágenes que se basan en la cohesión semántica entre términos. Por un lado, proponemos una técnica para etiquetar regiones que asigna a cada imagen el conjunto de etiquetas que maximiza un estimado de la cohesión semántica entre estas. Por otro lado, proponemos métodos para representar imágenes anotadas que se basan en la cohesión semántica entre términos multimodales que aparecen en las imágenes. Reportamos resultados experimentales que muestran la efectividad de las técnicas propuestas. Adicionalmente describimos la extensión que realizamos a una colección estándar para la evaluación de los métodos propuestos.

Article

Automatic image annotation Region labeling Multimedia image retrieval Ground truth data creation Anotación automática de imágenes Etiquetado de regiones Recuperación multimodal de imágenes Creación de datos para evaluación CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES

An energy-based model for region-labeling

Hugo Jair Escalante Balderas Manuel Montes y Gómez Luis Enrique Sucar Succar (2011)

This paper introduces an energy-based model (EBM) for region labeling that takes advantage of both context and semantics present in segmented images.The proposed method refines the output of multiclass classification methods that are based on the one-vs-all (OVA) formulation. Intuitively, the EBM maximizes the semantic cohesion among labels assigned to neighboring regions; that is, a tradeoff between label-association information and the predictions from the base classifier. Additionally, we study the suitability of OVA classification for the region labeling task. We report experimental results of our methods in 12 heterogeneous data sets that have been used for the evaluation of different tasks besides region labeling. On the one hand, our results reveal that the OVA approach offers an important potential of improvement in terms of labeling performance that can be exploited by refinement techniques similar to ours. On the other hand, experimental results show that our EBM improves the labeling provided by the base classifier. The EBM is highly efficient and it can be applied without modifications to different data sets. The heterogeneity of the considered databases shows the generality of our approach and its robustness to different scenarios. Our results are superior to other techniques that have been tested in the same collections. Furthermore, results on image retrieval show that the labels generated with our EBM can be helpful for annotation-based image retrieval.

Article

Region labeling Energy-based modeling Random forest Image annotation Object recognition CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES