Título
Clasificación de textos cortos usando representaciones distribucionales de los términos
Autor
JUAN MANUEL CABRERA JIMENEZ
Colaborador
MANUEL MONTES Y GOMEZ (Asesor de tesis)
HUGO JAIR ESCALANTE BALDERAS (Asesor de tesis)
Nivel de Acceso
Acceso Abierto
Materias
Text editing - (EDICIÓN DE TEXTO) Classification - (CLASIFICACIÓN) Natural language processing - (PROCESAMIENTO DE LENGUAJE NATURAL) Distributional term representation - (REPRESENTACIÓN DEL TÉRMINO DISTRIBUTIVO) CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA - (CTI) MATEMÁTICAS - (CTI) CIENCIA DE LOS ORDENADORES - (CTI)
Resumen o descripción
The amount of short documents that are available has increased considerably
in recent years due to technological advances. In this context, it has motivated the
development of automatic mechanisms to facilitate their access, organization and
analysis. Due to the tiny length of documents and the extremely sparse document
representations, the direct application of standard text categorization methods is
not an effective solution to the problem. This work describes the use of distributional
representations of terms (DTRs) for the classification of short texts to
overcome, to some extent, the small-length/high-sparsity issues. The DTRs are a
way of representing terms, using contextual information, given by their document
occurrence and term co-occurrence statistical. We combine the DTRs of the terms
appearing in short texts to generate better document representations that can be
used with standard machine learning techniques. Thus, a document is not represented
by the terms that occur in it, but by a contextual weight vector, indicating
the association of terms with documents in the corpus or terms in the vocabulary.
The evaluation was performed in three collections, using a variety of classification
methods and two different scenarios: i) in the classification of short texts, and ii)
in the classification of short texts when there are few labeled documents. The experimental
results show that the use of DTRs improves performance of classifiers
in short text categorization and also when one has a combination of short texts and a small training set. In particular, the document-occurrence representation
outperformed the other representations we evaluated.
La cantidad de documentos cortos que está disponible se ha incrementado
considerablemente en los últimos años gracias a los avances tecnológicos. En este
contexto se ha motivado el desarrollo de mecanismos automáticos que faciliten
su acceso, organización y análisis. Debido a la longitud de los documentos y a
las representaciones tan dispersas de los documentos, la aplicación directa de
los métodos de representación estándar de la categorización de texto no es una
solución viable al problema. En este trabajo se describe el uso de las representaciones
distribucionales de los términos (DTRs, por sus siglas en inglés) para la
clasificación de los textos cortos para superar, en cierta medida, los problemas
longitud/dispersión. Las DTRs son una forma de representar términos, por medio
de la información contextual dada por la ocurrencia en un documento y la
co-ocurrencia estadística entre términos. Combinamos las DTRs de los términos
que aparecen en los textos cortos para generar mejores representaciones de documentos
que se pueden utilizar con las técnicas de aprendizaje automático. De esta
manera, un documento no está representado por los términos que ocurren en él,
sino por un vector de pesos contextuales, que indican la asociación de términos
con los documentos en el corpus o con términos en el vocabulario. La evaluación
se realizó en tres colecciones, utilizando una variedad de métodos de clasificación
y en dos distintos escenarios: i) en la clasificación de textos cortos, y ii) en la clasificación de textos cortos y conjunto de datos reducido. Los resultados experimentales
demostraron que el uso de las DTRs es beneficioso para mejorar el
rendimiento de los clasificadores en la categorización de textos cortos y también
cuando se tiene una combinación de textos cortos y un conjunto de entrenamiento
reducido. En particular, la representación ocurrencia-documento superó a las
otras representaciones evaluadas.
Editor
Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación
2012
Tipo de publicación
Tesis de maestría
Versión de la publicación
Versión aceptada
Recurso de información
Formato
application/pdf
Idioma
Español
Audiencia
Estudiantes
Investigadores
Público en general
Sugerencia de citación
Cabrera-Jimenez J.M.
Repositorio Orígen
Repositorio Institucional del INAOE
Descargas
831