Título

Aprendizaje supervisado por la web basado en información multi-modal de imágenes

Autor

Ricardo Benitez-Jimenez

Colaborador

Hugo Jair Escalante Balderas (Asesor de tesis)

Eduardo F. Morales (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Resumen o descripción

Nowadays, in domestic assistance robotics it is of great interest to find objects as part of a sub-task of a particular activity, such as carrying an object from one place to another. However, sometimes the object to be recognized is not part of the existing models for object recognition. An alternative it is learning to recognize a new object category is by retrieving images of the object via the Internet, this technique is known as Webly-supervised learning (WSL). However, use all the retrieved images to train a classifier produces a low performance in this task due to the amount of irrelevant images retrieved from the Web. Recent approaches use irrelevant images in their initial classifiers in order to filter irrelevant images, furthermore, they do not show evidence that their approaches work to learn unknown object categories. In this thesis we present a new method inspired by meta-learning allowing to take advantage of the information (textual and visual) in the Web to image filtering of unknown object categories in a multi-modal approach. The experimental results show that the proposed method is an alternative that offers a similar performance to the manual selection of relevant images in object recognition task.

Actualmente en robótica de asistencia doméstica es de gran interés encontrar objetos como parte de una subtarea de una actividad en particular, tal es el caso de mover un objeto de un lugar a otro. Sin embargo, en ocasiones el objeto a reconocer no forma parte de los modelos existentes para el reconocimiento de objetos. Una manera de aprender a reconocer un nuevo objeto es recuperando imágenes del objeto por medio de Internet, a esta técnica se le conoce como aprendizaje supervisado por la Web (WSL por sus siglas en inglés). No obstante, utilizar todas las imágenes recuperadas para el entrenamiento de un clasificador produce un bajo rendimiento en esta tarea debido a la cantidad de imágenes irrelevantes recuperadas de la Web. Los enfoques existentes conservan imágenes irrelevantes en sus clasificadores iniciales para el filtrado de imágenes irrelevantes, además de no presentar evidencia de que sus enfoques funcionen adecuadamente en objetos desconocidos. En este trabajo se propone un nuevo método inspirado en el meta-aprendizaje que permite tomar ventaja de la información (textual y visual) presente en la Web para filtrar de manera multi-modal imágenes de categorías desconocidas. Los resultados experimentales muestran que el método propuesto es una alternativa que ofrece un rendimiento similar a la selección manual de imágenes relevantes en la tarea de reconocimientos de objetos.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

agosto de 2019

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Benítez Jiménez, R., (2019), Aprendizaje supervisado por la web basado en información multi-modal de imágenes, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica.

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

501

Comentarios



Necesitas iniciar sesión o registrarte para comentar.