Título
Método semisupervisado para la clasificación automática de textos de opinión
Autor
NADIA PATRICIA ARAUJO ARREDONDO
Colaborador
LUIS VILLASEÑOR PINEDA (Asesor de tesis)
Nivel de Acceso
Acceso Abierto
Materias
Resumen o descripción
Today a large amount of information is available through different electronic
resources, such as digital libraries, collections of documents or Internet. The need to
access this information for its extraction and analysis has led to various forms of
information handling, among which is the classification of texts. However, the constant
growth of information turns the task of classifying documents by hand expensive
and time consuming, requiring to automate the classification process. The
automatic classification of texts involves placing a document within a group of predefined
classes. Most of the work in this area has focused on the classification of
texts by their subject or topic. However, in recent years there has been an increasing
interest in the task of non-thematic classification. Examples of non-thematic classification
are the detection of plagiarism, authorship attribution, gender classification,
and the classification of opinions. This thesis focuses on the task of opinion classification.
Specifically, it considers the problem of determining the polarity of opinion
in sentences by a Machine Learning approach using lexical features. It is worth mentioning
that one of the contributions of this thesis is the characterization of opinions
necessary for automatic classification. In addition, currently, there is no tagged corpus
in Spanish, complicating the learning process. In this work we present the first
steps towards the creation of this corpus. Specifically it proposes an approach for
semi-supervised classification of opinions, reducing the need for a large corpus and
manual tagging.
Hoy en día se encuentra disponible una gran cantidad de información a través
de distintos medios electrónicos, en bibliotecas digitales, en colecciones de documentos
o en Internet. La necesidad de acceder a esta información para su extracción
y análisis, ha llevado a la creación de diversas formas de manipulación de información,
entre las que se encuentra la clasificación de textos. Sin embargo, el crecimiento
constante de información hace que la tarea de clasificar documentos de forma
manual sea costosa y que requiera de mucho tiempo, por lo que ha surgido el interés
por realizar la clasificación de manera automática. Podemos decir entonces que la
clasificación automática de textos consiste en colocar un documento dentro de un
grupo de clases previamente definidas. La mayor parte del trabajo en esta área se ha
enfocado en la clasificación de textos por su tema o tópico. Sin embargo, en los últimos
años se ha puesto gran interés en la tarea de clasificación no temática. Algunos
ejemplos de esta última son la detección de plagio, la atribución de autoría, la
clasificación por género y la clasificación de opiniones. Este trabajo de tesis se enfoca
en la tarea de clasificación de opiniones, específicamente se aborda el problema
de determinar la polaridad de opiniones, es decir, clasificar aquellas opiniones que
expresan algo a favor de aquellas que expresan algo en contra, a nivel de oración,
bajo un enfoque de Aprendizaje Computacional utilizando características léxicas.
Cabe mencionar que una de las contribuciones de este trabajo es la caracterización
de opiniones, necesaria para su clasificación automática. Además, en la actualidad,
no existe un corpus etiquetado en idioma español, lo que dificulta el proceso de
aprendizaje. Es por ello que en este trabajo se dan los primeros pasos para la creación
de este corpus. Específicamente se propone un enfoque de aprendizaje semisupervisado
de clasificación de textos de opinión, disminuyendo la necesidad de un
gran corpus ya etiquetado.
Editor
Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación
febrero de 2009
Tipo de publicación
Tesis de maestría
Versión de la publicación
Versión aceptada
Recurso de información
Formato
application/pdf
Idioma
Español
Audiencia
Estudiantes
Investigadores
Público en general
Sugerencia de citación
Araujo-Arredondo N.P.
Repositorio Orígen
Repositorio Institucional del INAOE
Descargas
4766