Título
Detección de eventos violentos en publicaciones de redes sociales
Detection of violent events in social media publications
Autor
Esteban Ponce León
Colaborador
Irvin Hussen López Nava (Asesor de tesis)
Manuel Montes y Gómez (Asesor de tesis)
Nivel de Acceso
Acceso Abierto
Materias
Detección de Violencia, Redes Sociales, Aumento de Datos, Procesamiento del Lenguaje Natural, BERT, BETO, Descripción de Imágenes - (AUTOR) Violence Detection, Social Networks, Data Augmentation, Natural Language Processing, BERT, BETO, Image Captioning - (AUTOR) INGENIERÍA Y TECNOLOGÍA - (CTI) CIENCIAS TECNOLÓGICAS - (CTI) TECNOLOGÍA DE LOS ORDENADORES - (CTI) MODELOS CAUSALES - (CTI) MODELOS CAUSALES - (CTI)
Resumen o descripción
En los últimos años, ha habido un interés creciente en el monitoreo de redes sociales para recopilar información y, en algunos casos, para examinar la ocurrencia de delitos. Sin embargo, gran parte de las investigaciones hasta ahora solo se han centrado en ciudades de EE. UU. o extranjeras, y por ende, en publicaciones y conjuntos de datos en inglés El objetivo principal de esta tesis es diseñar un método que permita la identificación de publicaciones de eventos violentos en español y en Twitter, utilizando información multimodal y técnicas de aumento de datos que mejoren el rendimiento de los modelos. Para esto, el trabajo de investigación se dividió en dos fases experimentales. La primera orientada a identificar publicaciones a partir de solo texto, explorando diferentes técnicas de aumento de datos para texto y modelos de aprendizaje máquina y profundo. En la segunda fase, se extendió el método propuesto para abordar la identificación en un contexto multimodal, es decir, considerando tanto los textos de los tweets como las imágenes compartidas que los acompañan. En este caso el método propuesto consideró utilizar descripciones textuales de las imágenes y abordar la problemática desde el dominio textual, además se hicieron 2 tipos de aumento de datos para cada tipo de información. La evaluación de los métodos se hizo utilizando las colecciones de la tarea de evaluación DA-VINCIS 2022 y 2023. Los resultados demostraron una mejora en el rendimiento de los modelos al considerar el uso de información multimodal y el uso de aumento de datos.
In recent years, there has been a growing interest in monitoring social networks to gather information and, in some cases, to examine the occurrence of crime. However, much of the research so far has only focused on US or foreign cities, and thus on English-language publications and data sets. The main objective of this thesis is to design a method that allows the identification of publications of violent events in Spanish and on Twitter, using multimodal information and data augmentation techniques that improve the performance of the models. For this, the research work was divided into two experimental phases. The first aimed at identifying publications from only text, exploring different data augmentation techniques for text and machine and deep learning models. In the second phase, the proposed method was extended to address identification in a multimodal context, that is, considering both the texts of the tweets and the shared images that accompany them. In this case, the proposed method considered using textual descriptions of the images and addressing the problem from the textual domain, in addition, 2 types of data augmentation were made for each type of information. The evaluation of the methods was done using the collections of the DA-VINCIS 2022 and 2023 evaluation task. The results demonstrated an improvement in the performance of the models when considering the use of multimodal information and the use of data augmentation.
Editor
CICESE
Fecha de publicación
2023
Tipo de publicación
Tesis de maestría
Recurso de información
Formato
application/pdf
Idioma
Español
Sugerencia de citación
Ponce León, E. 2023. Detección de eventos violentos en publicaciones de redes sociales. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 80 pp.
Repositorio Orígen
Repositorio Institucional CICESE
Descargas
83