Un método para recuparación de información en documentos orales basado en codificación fonética

MANUEL ALEJANDRO REYES BARRAGAN

Título

Autor

MANUEL ALEJANDRO REYES BARRAGAN

Colaborador

LUIS VILLASEÑOR PINEDA (Asesor de tesis)

MANUEL MONTES Y GOMEZ (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Licencia

http://creativecommons.org/licenses/by-nc-nd/4.0

Materias

Information retrieval - (RECUPERACIÓN DE INFORMACIÓN) Speech processing - (PROCESAMIENTO DE VOZ) Phonetics - (FONÉTICA) INGENIERÍA Y TECNOLOGÍA - (CTI) CIENCIAS TECNOLÓGICAS - (CTI) TECNOLOGÍA DE LOS ORDENADORES - (CTI) BANCOS DE DATOS - (CTI)

Resumen o descripción

The amount of information available thanks to the advances on the

technology has been increased in the last years. The storage media and

formats can be of varied nature. The amount of available multimedia

repositories is increasing; there are collections of text, images, audio and

video. However these collections are not useful if we can’t organize them to

identify the pertinent elements to a necessity of information. It’s exactly this

problem the one that deal the Information Retrieval. Of course, the

information retrieval methods vary depending of the collection. In this thesis

we focus on the task of Spoken Document Retrieval. By the term Spoken

Documents we mean to speech recordings as political speeches,

conferences, news.

The approach of this thesis is to deal with the problem generated by the

automatic transcriptions of speech recordings. Unfortunately, the

transcriptions generated by the automatic speech recognition are not perfect,

so is common to find several transcription errors (such as word substitutions,

insertions and deletions). The result of this situation are documents with own

characteristics, different to those find in text written manually. Therefrom, that

the traditional methods of information retrieval don’t work appropriately, and

become necessary to define methods focused to the treatment of this type of

documents.

In this thesis we propose an original method based on the phonetic

codification of the automatic speech transcriptions. The idea of the method

consists on enriching the representation of the documents to deal with the

errors generated by the automatic speech recognition. Thanks to the phonetic

codification it’s possible represent with the same code words whose

pronunciation is similar. The method was evaluated using the same set of

data proportionate for the evaluation forum CLEF CL-SR. These allow us to

compare the performance of our system objectively. In comparison with the

rest of the teams that participate in the forum, our system was located in the

second place, demonstrating that the method is appropriate for this task.

La cantidad de información disponible gracias a los avances de la tecnología

se ha incrementado enormemente en los últimos años. Los medios y

formatos en que esta información está conservada, puede ser de muy

variada naturaleza. Actualmente existen enormes colecciones de textos, de

imágenes, de audio, de video, etc. Sin embargo, estas colecciones no son

útiles si no llegamos a organizarlas para identificar aquellos elementos

pertinentes a una determinada necesidad de información. Es justamente este

problema el que aborda la Recuperación de Información. Por supuesto, los

métodos de recuperación varían dependiendo de la naturaleza de la

colección. En este trabajo de tesis nos enfocamos a la recuperación de

información en documentos orales. Por documentos orales nos referimos a

grabaciones de habla tales como discursos políticos, conferencias, noticieros

radiofónicos, etc.

El enfoque de esta tesis para abordar el problema parte de las

transcripciones automáticas de esas grabaciones. Desafortunadamente, las

transcripciones generadas por un reconocedor automático del habla no son

perfectas, de tal forma que es común encontrar errores de inserción,

eliminación o substitución de palabras en las transcripciones automáticas.

Esta situación tiene por resultado documentos con características propias,

diferentes a las que se encuentran en texto escrito manualmente. De ahí, que

los métodos tradicionales de recuperación de información no funcionen

adecuadamente y sea necesario definir métodos enfocados al tratamiento de

este tipo de documentos.

En esta tesis se propone un método original basado en la codificación

fonética de las transcripciones automáticas. La idea del método consiste en

enriquecer la representación de los documentos para tratar de abordar los

errores inducidos por el reconocedor. Gracias a la codificación fonética es

posible representar con un mismo código palabras cuya pronunciación es

similar. El método utilizado fue evaluado utilizando el mismo conjunto de

datos proporcionado por el foro de evaluación del CLEF CL-SR, lo cuál nos

permite comparar objetivamente el desempeño de nuestro sistema. En

comparación con los resultados de otros equipos en este foro, nuestro

sistema se ubicó en el segundo lugar, demostrando que el método es

adecuado para esta tarea.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

agosto de 2008

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Recurso de información

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/555

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Reyes-Barragán MA

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

5360

Comentarios

Necesitas iniciar sesión o registrarte para comentar.