Title

Cohesión semántica para la anotación y recuperación de imágenes

Author

HUGO JAIR ESCALANTE BALDERAS

Contributor

MANUEL MONTES Y GOMEZ (Thesis Adviser)

LUIS ENRIQUE SUCAR SUCCAR (Thesis Adviser)

Access level

Open Access

Summary or description

This document describes the methods we proposed for image annotation and retrieval

that are based on the semantic cohesion among multimodal terms. The semantic cohesion is

the degree of association among the terms that compose a document according to their meaning

in a certain context. Hence, the proposed techniques aim at exploiting the relationship

among terms from different modalities, but that occur in common documents, to improve the

performance of current techniques for annotation and retrieval of images.

On the one hand, we propose an energy-based model for automatic image annotation that

attempts to maximize an estimate of the semantic cohesion among labels assigned to adjacent

regions in segmented images. The proposed method incorporates visual information extracted

from the images as well as estimates of association among labels. Visual information is

incorporated by means of the outputs of supervised classification techniques; whereas the

association among labels, which is estimated through co-occurrence statistics, is incorporated

directly into the model. Experimental results in several collections give evidence of the

validity of our approach. Our results outperformed those obtained by related works on the

same image collections. Furthermore, the proposed model is very general, which facilitates

its application to heterogeneous collections, is highly efficient and can be extended in several

ways.

On the other hand, we propose methods based on the semantic cohesion among labels

and text to represent documents for the task of multimedia image retrieval. Specifically, we

propose two indexing techniques that take advantage of distributional term representations.

Under our approach the content of images is modeled through occurrence and co-occurrence

statistics among multimodal terms derived from images. In this way, we attempt to represent

each image by patterns that reflect the cohesion of the multimodal terms that occur in it. We

also study standard methods for combining information from labels and text. Experimental

results show that standard techniques are very effective; however, the latter techniques were

significantly outperformed by the representations based on semantic cohesion. Our results

motivate further research in several aspects that we would like to explore as future work.

During our research the need of a data set that allowed us to evaluate our methods (both

on annotation and retrieval) arose.

En este documento se proponen métodos para la anotación y recuperación de imágenes

que se basan en la cohesión semántica entre términos multimodales. La cohesión semántica es

el grado de relación entre los términos de un documento de acuerdo al significado de estos en

cierto contexto. Así, los métodos propuestos intentan explotar la asociación entre términos de

distintas modalidades pero que ocurren en documentos comunes para mejorar la efectividad

de las técnicas para anotación y recuperación existentes.

Por un lado, se propone un modelo basado en energía para anotación automática de imágenes

que intenta maximizar un estimado de la cohesión semántica entre etiquetas asignadas

a regiones adyacentes en imágenes segmentadas. El método propuesto incorpora atributos

visuales extraídos de las imágenes así como información de asociación entre etiquetas. Los

atributos visuales se integran por medio de las predicciones de métodos de clasificación supervisada;

mientras que la asociación entre etiquetas, estimada a través de coocurrencias,

se incorpora directamente al modelo. Resultados experimentales obtenidos en varias colecciones

dan evidencia de la validez del enfoque propuesto, superando a trabajos relacionados

que han usado las mismas colecciones. Además, el método propuesto es muy general, lo que

facilita su aplicación en bases de datos de características heterogéneas, es altamente eficiente

y puede ser extendido de varias maneras.

Por otro lado, se proponen métodos basados en la cohesión semántica entre etiquetas y

texto para representar documentos para la recuperación multimodal de imágenes. Específicamente,

se proponen dos métodos de indexado que modelan el contenido de imágenes por

medio de estadísticas de ocurrencia y coocurrencia entre términos multimodales derivados

de las imágenes. De esta manera, intentamos representar cada documento por patrones que

reflejen la cohesión de los términos multimodales que ocurren en el documento. También, se

estudian métodos estándar para combinar etiquetas y texto. Resultados experimentales muestran

que los métodos estándar son altamente efectivos para buscar imágenes, aunque estos

últimos fueron superados significativamente por las técnicas de indexado que se basan en la

cohesión semántica.

Durante el desarrollo de la investigación surgió la necesidad de considerar una colección

que permitiera la evaluación de los métodos propuestos (tanto en anotación como en recuperación).

Publisher

Instituto Nacional de Astrofísica, Óptica y Electrónica

Publish date

March, 2010

Publication type

Doctoral thesis

Publication version

Accepted Version

Format

application/pdf

Language

Spanish

Audience

Students

Researchers

General public

Citation suggestion

Escalante-Balderas H.J.

Source repository

Repositorio Institucional del INAOE

Downloads

183

Comments



You need to sign in or sign up to comment.