Clasificación de textos cortos usando representaciones distribucionales de los términos

JUAN MANUEL CABRERA JIMENEZ

Título

Autor

JUAN MANUEL CABRERA JIMENEZ

Colaborador

MANUEL MONTES Y GOMEZ (Asesor de tesis)

HUGO JAIR ESCALANTE BALDERAS (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Licencia

http://creativecommons.org/licenses/by-nc-nd/4.0

Materias

Text editing - (EDICIÓN DE TEXTO) Classification - (CLASIFICACIÓN) Natural language processing - (PROCESAMIENTO DE LENGUAJE NATURAL) Distributional term representation - (REPRESENTACIÓN DEL TÉRMINO DISTRIBUTIVO) CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA - (CTI) MATEMÁTICAS - (CTI) CIENCIA DE LOS ORDENADORES - (CTI)

Resumen o descripción

The amount of short documents that are available has increased considerably

in recent years due to technological advances. In this context, it has motivated the

development of automatic mechanisms to facilitate their access, organization and

analysis. Due to the tiny length of documents and the extremely sparse document

representations, the direct application of standard text categorization methods is

not an effective solution to the problem. This work describes the use of distributional

representations of terms (DTRs) for the classification of short texts to

overcome, to some extent, the small-length/high-sparsity issues. The DTRs are a

way of representing terms, using contextual information, given by their document

occurrence and term co-occurrence statistical. We combine the DTRs of the terms

appearing in short texts to generate better document representations that can be

used with standard machine learning techniques. Thus, a document is not represented

by the terms that occur in it, but by a contextual weight vector, indicating

the association of terms with documents in the corpus or terms in the vocabulary.

The evaluation was performed in three collections, using a variety of classification

methods and two different scenarios: i) in the classification of short texts, and ii)

in the classification of short texts when there are few labeled documents. The experimental

results show that the use of DTRs improves performance of classifiers

in short text categorization and also when one has a combination of short texts and a small training set. In particular, the document-occurrence representation

outperformed the other representations we evaluated.

La cantidad de documentos cortos que está disponible se ha incrementado

considerablemente en los últimos años gracias a los avances tecnológicos. En este

contexto se ha motivado el desarrollo de mecanismos automáticos que faciliten

su acceso, organización y análisis. Debido a la longitud de los documentos y a

las representaciones tan dispersas de los documentos, la aplicación directa de

los métodos de representación estándar de la categorización de texto no es una

solución viable al problema. En este trabajo se describe el uso de las representaciones

distribucionales de los términos (DTRs, por sus siglas en inglés) para la

clasificación de los textos cortos para superar, en cierta medida, los problemas

longitud/dispersión. Las DTRs son una forma de representar términos, por medio

de la información contextual dada por la ocurrencia en un documento y la

co-ocurrencia estadística entre términos. Combinamos las DTRs de los términos

que aparecen en los textos cortos para generar mejores representaciones de documentos

que se pueden utilizar con las técnicas de aprendizaje automático. De esta

manera, un documento no está representado por los términos que ocurren en él,

sino por un vector de pesos contextuales, que indican la asociación de términos

con los documentos en el corpus o con términos en el vocabulario. La evaluación

se realizó en tres colecciones, utilizando una variedad de métodos de clasificación

y en dos distintos escenarios: i) en la clasificación de textos cortos, y ii) en la clasificación de textos cortos y conjunto de datos reducido. Los resultados experimentales

demostraron que el uso de las DTRs es beneficioso para mejorar el

rendimiento de los clasificadores en la categorización de textos cortos y también

cuando se tiene una combinación de textos cortos y un conjunto de entrenamiento

reducido. En particular, la representación ocurrencia-documento superó a las

otras representaciones evaluadas.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

2012

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Recurso de información

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/742

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Cabrera-Jimenez J.M.

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

831

Comentarios

Necesitas iniciar sesión o registrarte para comentar.