Título

Método semisupervisado para la clasificación automática de textos de opinión

Autor

NADIA PATRICIA ARAUJO ARREDONDO

Colaborador

LUIS VILLASEÑOR PINEDA (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Resumen o descripción

Today a large amount of information is available through different electronic

resources, such as digital libraries, collections of documents or Internet. The need to

access this information for its extraction and analysis has led to various forms of

information handling, among which is the classification of texts. However, the constant

growth of information turns the task of classifying documents by hand expensive

and time consuming, requiring to automate the classification process. The

automatic classification of texts involves placing a document within a group of predefined

classes. Most of the work in this area has focused on the classification of

texts by their subject or topic. However, in recent years there has been an increasing

interest in the task of non-thematic classification. Examples of non-thematic classification

are the detection of plagiarism, authorship attribution, gender classification,

and the classification of opinions. This thesis focuses on the task of opinion classification.

Specifically, it considers the problem of determining the polarity of opinion

in sentences by a Machine Learning approach using lexical features. It is worth mentioning

that one of the contributions of this thesis is the characterization of opinions

necessary for automatic classification. In addition, currently, there is no tagged corpus

in Spanish, complicating the learning process. In this work we present the first

steps towards the creation of this corpus. Specifically it proposes an approach for

semi-supervised classification of opinions, reducing the need for a large corpus and

manual tagging.

Hoy en día se encuentra disponible una gran cantidad de información a través

de distintos medios electrónicos, en bibliotecas digitales, en colecciones de documentos

o en Internet. La necesidad de acceder a esta información para su extracción

y análisis, ha llevado a la creación de diversas formas de manipulación de información,

entre las que se encuentra la clasificación de textos. Sin embargo, el crecimiento

constante de información hace que la tarea de clasificar documentos de forma

manual sea costosa y que requiera de mucho tiempo, por lo que ha surgido el interés

por realizar la clasificación de manera automática. Podemos decir entonces que la

clasificación automática de textos consiste en colocar un documento dentro de un

grupo de clases previamente definidas. La mayor parte del trabajo en esta área se ha

enfocado en la clasificación de textos por su tema o tópico. Sin embargo, en los últimos

años se ha puesto gran interés en la tarea de clasificación no temática. Algunos

ejemplos de esta última son la detección de plagio, la atribución de autoría, la

clasificación por género y la clasificación de opiniones. Este trabajo de tesis se enfoca

en la tarea de clasificación de opiniones, específicamente se aborda el problema

de determinar la polaridad de opiniones, es decir, clasificar aquellas opiniones que

expresan algo a favor de aquellas que expresan algo en contra, a nivel de oración,

bajo un enfoque de Aprendizaje Computacional utilizando características léxicas.

Cabe mencionar que una de las contribuciones de este trabajo es la caracterización

de opiniones, necesaria para su clasificación automática. Además, en la actualidad,

no existe un corpus etiquetado en idioma español, lo que dificulta el proceso de

aprendizaje. Es por ello que en este trabajo se dan los primeros pasos para la creación

de este corpus. Específicamente se propone un enfoque de aprendizaje semisupervisado

de clasificación de textos de opinión, disminuyendo la necesidad de un

gran corpus ya etiquetado.

Editor

Instituto Nacional de Astrofísica, Óptica y Electrónica

Fecha de publicación

febrero de 2009

Tipo de publicación

Tesis de maestría

Versión de la publicación

Versión aceptada

Formato

application/pdf

Idioma

Español

Audiencia

Estudiantes

Investigadores

Público en general

Sugerencia de citación

Araujo-Arredondo N.P.

Repositorio Orígen

Repositorio Institucional del INAOE

Descargas

4766

Comentarios



Necesitas iniciar sesión o registrarte para comentar.