Author: Manuel Alejandro Reyes Barragán

Un método para recuparación de información en documentos orales basado en codificación fonética

MANUEL ALEJANDRO REYES BARRAGAN (2008)

The amount of information available thanks to the advances on the

technology has been increased in the last years. The storage media and

formats can be of varied nature. The amount of available multimedia

repositories is increasing; there are collections of text, images, audio and

video. However these collections are not useful if we can’t organize them to

identify the pertinent elements to a necessity of information. It’s exactly this

problem the one that deal the Information Retrieval. Of course, the

information retrieval methods vary depending of the collection. In this thesis

we focus on the task of Spoken Document Retrieval. By the term Spoken

Documents we mean to speech recordings as political speeches,

conferences, news.

The approach of this thesis is to deal with the problem generated by the

automatic transcriptions of speech recordings. Unfortunately, the

transcriptions generated by the automatic speech recognition are not perfect,

so is common to find several transcription errors (such as word substitutions,

insertions and deletions). The result of this situation are documents with own

characteristics, different to those find in text written manually. Therefrom, that

the traditional methods of information retrieval don’t work appropriately, and

become necessary to define methods focused to the treatment of this type of

documents.

In this thesis we propose an original method based on the phonetic

codification of the automatic speech transcriptions. The idea of the method

consists on enriching the representation of the documents to deal with the

errors generated by the automatic speech recognition. Thanks to the phonetic

codification it’s possible represent with the same code words whose

pronunciation is similar. The method was evaluated using the same set of

data proportionate for the evaluation forum CLEF CL-SR. These allow us to

compare the performance of our system objectively. In comparison with the

rest of the teams that participate in the forum, our system was located in the

second place, demonstrating that the method is appropriate for this task.

La cantidad de información disponible gracias a los avances de la tecnología

se ha incrementado enormemente en los últimos años. Los medios y

formatos en que esta información está conservada, puede ser de muy

variada naturaleza. Actualmente existen enormes colecciones de textos, de

imágenes, de audio, de video, etc. Sin embargo, estas colecciones no son

útiles si no llegamos a organizarlas para identificar aquellos elementos

pertinentes a una determinada necesidad de información. Es justamente este

problema el que aborda la Recuperación de Información. Por supuesto, los

métodos de recuperación varían dependiendo de la naturaleza de la

colección. En este trabajo de tesis nos enfocamos a la recuperación de

información en documentos orales. Por documentos orales nos referimos a

grabaciones de habla tales como discursos políticos, conferencias, noticieros

radiofónicos, etc.

El enfoque de esta tesis para abordar el problema parte de las

transcripciones automáticas de esas grabaciones. Desafortunadamente, las

transcripciones generadas por un reconocedor automático del habla no son

perfectas, de tal forma que es común encontrar errores de inserción,

eliminación o substitución de palabras en las transcripciones automáticas.

Esta situación tiene por resultado documentos con características propias,

diferentes a las que se encuentran en texto escrito manualmente. De ahí, que

los métodos tradicionales de recuperación de información no funcionen

adecuadamente y sea necesario definir métodos enfocados al tratamiento de

este tipo de documentos.

En esta tesis se propone un método original basado en la codificación

fonética de las transcripciones automáticas. La idea del método consiste en

enriquecer la representación de los documentos para tratar de abordar los

errores inducidos por el reconocedor. Gracias a la codificación fonética es

posible representar con un mismo código palabras cuya pronunciación es

similar. El método utilizado fue evaluado utilizando el mismo conjunto de

datos proporcionado por el foro de evaluación del CLEF CL-SR, lo cuál nos

permite comparar objetivamente el desempeño de nuestro sistema. En

comparación con los resultados de otros equipos en este foro, nuestro

sistema se ubicó en el segundo lugar, demostrando que el método es

adecuado para esta tarea.

Master thesis

Information retrieval Speech processing Phonetics INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES BANCOS DE DATOS

Expansión fonética de la consulta para la recuperación de información en documentos hablados

Phonetic query expansion for spoken document retrieval

Manuel Alejandro Reyes Barragán Luis Villaseñor Pineda Manuel Montes y Gómez (2011)

El enfoque tradicional para la búsqueda de información en grandes colecciones de documentos hablados consiste en integrar métodos de reconocimiento automático del habla (RAH) y técnicas de recuperación de información (RI) usadas para texto escrito. Una desventaja de este enfoque es su dependencia a la precisión del sistema de RAH, pues los errores generados por éste impactan fuertemente en la máquina de RI. Con el objetivo de reducir el impacto de los errores de transcripción, especialmente los de sustitución, en este trabajo se propone expandir las consultas con palabras fonéticamente similares y con ello ampliar las posibilidades de emparejar las palabras mal transcritas en los documentos. Los resultados alcanzados en dos colecciones de documentos hablados con características muy disímiles demuestran la pertinencia del método propuesto, el cual logró mejorar el MAP respecto a una expansión tradicional hasta en un 3.68%.

The traditional approach for searching information in large collections of spoken documents consists of integrating automatic speech recognition (ASR) methods and traditional text retrieval (IR) techniques. One disadvantage of this approach is its dependence to the precision of the ASR system, since transcription errors strongly affect the IR machine. With the aim of reducing the impact of these errors, especially those concerning substitutions, in this paper we propose expanding the queries by means of phonetically similar words, and by this increasing the possibility of matching incorrectly transcribed words from the documents. Results on two very different spoken-document collections show the relevance of the proposed method, which outperformed the MAP from traditional expansion techniques by up to 3.68%.

Article

Recuperación de Información Documentos hablados Expansión de la consulta Codificación fonética Information Retrieval Spoken Documents Query Expansion Phonetic Codes CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES CIENCIA DE LOS ORDENADORES