Advanced search


Knowledge area




97 results, page 1 of 10

Reconocimiento Automático de Matrículas de Automóviles Particulares Mexicanos

JOSUE ERICK ESPINOZA MORALES (2015)

En este trabajo se presenta una propuesta para la identificación de matrículas de automóviles mexicanos en las etapas de segmentación e identificación. Las técnicas existentes en el estado del arte para la identificación de matrículas de automóviles son efectivas para matrículas cuyo color de fondo es uniforme y no contienen patrones de textura; además, estas matrículas tienen un alto contraste entre los colores de fondo y el de los caracteres. Las técnicas utilizadas funcionan considerando estos supuestos, pero para el caso de las matrículas mexicanas no siempre reconocen exitosamente las matriculas debido a que estas tienen características diferentes a las de la mayoría de los países. Para abordar este problema se emplea información sobre la norma de fabricación de placas mexicanas, establecida por el gobierno federal. Una de las características que deben cubrir las placas es respecto a las dimensiones de los caracteres, en donde sumando las áreas que ocupan todos los caracteres, la proporción de área que ocupa el conjunto de letras respecto al área de la placa es del 20%. En consecuencia, en una imagen digital, el 20% de los pixeles son ocupados por las letras de la matrícula. Por otra parte, la intensidad de los colores de los caracteres es menor al de los colores del fondo de la placa con el fin de crear alto contraste y así facilitar el reconocimiento de la matrícula. En la etapa de segmentación se utiliza un enfoque similar al propuesto por (Zhang & Zhang, 2003), en el cual para segmentar los caracteres se acentúa la intensidad del 20% de los pixeles con las intensidades más bajas, ya que se asume que estos pixeles corresponden a los caracteres. Los pasos propuestos para el reconocimiento de matrículas son: 1) segmentación de caracteres, 2) reconocimiento de los caracteres. Una vez segmentados los caracteres estos se modelan con descriptores de Fourier y Momentos de Hu. Finalmente en la etapa de identificación se realizaron dos tipos de pruebas con un clasificador bayesiano. La primera tomando todas las características extraídas y la segunda reduciendo la dimensionalidad de los vectores de características usando análisis de componentes principales con el fin de reducir el costo computacional.

Master thesis

Reconocimiento de caracteres segmentación placas de automovil CIENCIAS SOCIALES

Reconocimiento automático de escarabajos (Insecta: Coleoptera) usando imágenes digitales

CALEB JIMENEZ HERRERA (2017)

Los escarabajos son insectos que pertenecen al orden Coleoptera, son organismos clave para el funcionamiento de los ecosistemas en los cuales habitan, debido a que se alimentan de animales muertos, estiércol, desechos vegetales, así como de tallos, hojas y ramas, lo que los convierte por un lado en recicladores naturales, ya que degradan e incorporan la materia orgánica al suelo, acelerando así la circulación de la energía almacenada en los desechos orgánicos; y por otro lado son capaces de consumir el follaje con lo que la planta responde con la producción de nuevo follaje y nuevas ramas. Además, debido a su diversidad, abundancia y valor nutritivo, son fuente importante de alimento para murciélagos, aves y otros artrópodos [5]. Es uno de los grupos de insectos más estudiados en el mundo, desde distintas áreas de la Biología, entre las que se encuentra la Sistemática. Los sistemáticos elaboran esquemas de clasicación con el propósito de que sirvan como un esquema general de referencia, es decir, que organicen a los diferentes organismos, con base en sus caracteres heredados, para poder ser estudiados. Actualmente, la diversidad biológica está organizada en categorías (p.e. Reino, Phylum, Clase, Orden, Familia, etc.) dentro de un sistema de clasicación jerárquico.

Benemérita Universidad Autónoma de Puebla

Master thesis

Reconocimiento óptico de caracteres Coleoptera Escarabajos--México INGENIERÍA Y TECNOLOGÍA

Método probabilista para clasificación de polaridad: negación e intensificación en análisis de sentimientos

SAMARA GRETEL VILLALBA OSORNIO (2016)

Sentiment Analysis (SA) is an area that uses Natural Language processing and

Machine Learning techniques to extract subjective information from texts. In SA

area, several problems are still open, one of them is negation handling. Negation is

a linguistic phenomenon presented in all human languages. In written documents,

negation is presented as marks or negative particles. Negative particles invert the

true value of a sentence. In traditional text classification, semantic information is lost

and with that, the capacity to recognize some linguistic phenomena like negation and

intensification is lost too. To correctly understand the meaning of a text it is necessary

to identify and to treat these linguistic phenomena. The aim of this work is to consider

the negation and intensification to improve polarity classification in opinion texts. A

probabilistic approach that suggests some modifications to the Multinomial Naive

Bayes (MNB) that allows the handling of negation and intensification in the texts

improving their classification is proposed. The work proposes a method that is little

dependent of language and kind of text. Experiments in English and Spanish texts

and in some domains like movies, hotels, books, electronics, etc. were performed. The

results were compared with the ones published in related works.

El Análisis de Sentimientos (AS) es un área que utiliza técnicas de procesamiento

de lenguaje natural y de aprendizaje automático para extraer información subjetiva

de los textos. En el AS aún quedan muchos problemas abiertos, uno de ellos es el tratamiento de la negación. La Negación es un fenómeno lingüístico presente en todos los

idiomas humanos. En documentos, la negación está dada por la presencia de señales o

partículas negativas. Las partículas negativas invierten el valor de verdad de una frase.

Para lograr un correcto entendimiento del significado de un texto es necesario identificar

y tratar estos fenómenos lingüísticos. La finalidad de este trabajo es considerar los

fenómenos lingüísticos de negación e intensificación para mejorar la clasificación por

polaridad en textos de opinión. Para ello se utilizará un enfoque de tipo probabilista,

proponiendo algunas modificaciones al método de Naive Bayes Multinomial (NBM),

las cuales permiten añadir información lingüística a los textos mejorando con ello su

clasificación. El método propuesto es poco dependiente del lenguaje y la temática de

los textos. Se realizaron experimentos en Español e Inglés y en varios dominios tales

como cine, hoteles, libros, electrónicos, etc. Los resultados de los experimentos fueron

comparados con métodos del estado del arte.

Master thesis

Opinion Mining Sentiment Analysis Information Transfer Negation Handling INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES SISTEMAS DE RECONOCIMIENTO DE CARACTERES

Generación automática de resúmenes de múltiples documentos

ESAU VILLATORO TELLO (2007)

In this era, where electronic text information is exponentially growing and where

time is a critical resource, it has become virtually impossible for any user to browse

or read large numbers of individual documents. It is therefore important to explore

methods of allowing users to locate and browse information quickly within collections

of documents. Automatic text summarization of multiple documents fulfills such information seeking goals by providing a method for the user to quickly view highlights

and/or relevant portions of document collections. Now days, there has been little

work with multi-document summarization, although single document summarization

has been subject of focus in the last few years.

Multi-document summarization differs from single document summarization in

that the issues of compression levels, management of redundant information and the

method used for the sentence selection are critical in the formation of useful summaries. If multi-document summarization needs to be useful across subject areas and

languages, it must be relatively independent of natural language understanding (i.e.,

scarce use of linguistic resources).

The proposed approach to solve the task of multi-document summarization contains two main modules. The first one, a module based on machine learning techniques

has as a main goal to identify an extract relevant sentences. The main characteristic of

the proposed classifier is that uses word sequences as features to represent sentences.

The second module consists of a clustering process, the main goal of this is to organize

the information extracted by the classifier and find the main sub-themes contained

in the collection, this module also deals with the problem of redundant information

and the compression levels.

The main goal of the proposed approach is to reduce the portability problems of

current multi-document summarization systems. Finally, in order to show the usefulness of the proposed scheme, a comparison between our proposal and two other

systems was made. The evaluations showed that the proposal is useful for the creation

of multi-document summaries of high quality and allows the creation of summaries

that are very similar to those created by humans.

En la era actual en la que vivimos, donde la información en forma textual disponible en medios electronicos crece de manera exponencial y donde el tiempo es un

recurso crítico, se ha vuelto virtualmente imposible para cualquier persona, el navegar

y leer toda esta información disponible. Es por esta razón, que surge la importancia

de desarrollar métodos que permitan a los usuarios buscar y localizar de una manera

rápida, información contenida dentro de grandes colecciones de documentos. La generación automática de resúmenes de múltiples documentos, cumple con estos objetivos

al proporcionar a los usuarios un método que permite observar la información importante y/o porciones de información relevante, contenida dentro de una colección

de documentos. Actualmente los sistemas de generación de resúmenes de múltiples

documentos se encuentran muy poco desarrollados, sin embargo, a la tarea de generar

el resumen de un documento se le ha puesto gran interés en los últimos años.

La tarea de generar resúmenes de múltiples documentos se diferencia de la tarea

de generar el resumen de un documento en: los niveles de compresión que deben

ser manejados, la aparición de información redundante y la forma de seleccionar las

porciones de información relevantes, juega un papel crítico al momento de crear un

resumen de calidad. Si se desea que el sistema de generación de resúmenes sea útil

en diferentes dominios temáticos e incluso diferentes idiomas, es necesario contar con

técnicas que no hagan uso de costosos recursos lingüísticos.

La arquitectura que se propone para solucionar el problema de generar el resumen

de múltiples documentos, se compone de dos grandes módulos. El primero, basado en

técnicas de aprendizaje automático, que tiene por objetivo hacer la adecuada selección

de la información relevante. La característica principal de este módulo es el uso de

secuencias de palabras para representar las oraciones de los documentos. El segundo

módulo, se compone de un algoritmo de agrupamiento, el cual tiene como objetivo

principal organizar la información por sub-temas, eliminar redundancias y controlar

los niveles de compresión.

El propósito de este enfoque es eliminar los problemas de portabilidad que actualmente presentan este tipo de sistemas. Finalmente, para mostrar lo útil de la arquitectura propuesta, se compara el desempeño de ésta contra el obtenido por otros dos

sistemas.

Master thesis

Cluster tools Computational linguistics Text analysis INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES SISTEMAS DE RECONOCIMIENTO DE CARACTERES

Descubrimiento automático de hipónimos a partir de texto no estructurado

ROSA MARIA ORTEGA MENDOZA (2007)

Nowadays, thanks to the Web, we dispose of a huge number of electronic

texts. Given the availability and easy access to these texts, it has emerged an

interest for manipulating them in an automatic way with the aim to extract

prominent information. The extracted information can be used to create or to

enrich lexical resources. In general, this type of resources contains

knowledge about the language’s words. Typically, it proposes methods that

extract semantic relationships from texts for building automatically these

resources.

The present investigation work is located inside the automatic construction of

lexical resources. In particular, this work is focused on the construction of a

hyponyms catalog. Basically, the proposed method is based on the use of

patterns to treat the automatic extraction of hyponyms in non-structured texts

Traditionally, methods that use patterns to solve the problem involve

morphological or syntactic information in the patterns’ definition. In contrast

with these methods, we work without this type of information. Therefore, the

patterns are defined exclusively at a lexical level. This way, the proposed

method achieves language independence and domain independence. In

addition, the use of linguistic tools characteristic of a language is avoided (for

example: taggers, syntactic analyzers, etc.). However, the extraction of

incorrect information is favored. The proposed method confronts this

inconvenience by applying two approaches in order to estimate the

confidence of the extracted hyponym-hypernym couples.

Finally, for showing the utility of the proposed method we evaluated the

precision of the obtained catalog. The achieved results are encouraging and

they show the feasibility of using lexical patterns to extract automatically

hyponyms from non-structured texts.

Hoy en día, gracias a la Web, disponemos de una inmensa cantidad de

textos electrónicos. Dada la disponibilidad y el fácil acceso a estos textos, ha

surgido el interés por manipularlos de manera automática para extraer

información relevante. La información extraída puede ser aprovechada para

crear o enriquecer recursos léxicos. Generalmente, este tipo de recursos

contiene conocimiento acerca de las palabras de un idioma. Típicamente,

para construir automáticamente estos recursos se proponen métodos que

extraen relaciones semánticas a partir del texto.

El presente trabajo de investigación se ubica dentro de la construcción

automática de recursos léxicos. En particular, se centra en la construcción de

un catálogo de hipónimos. Básicamente, el método propuesto se basa en el

uso de patrones para abordar la extracción automática de hipónimos en

textos no estructurados.

Tradicionalmente, los métodos que usan patrones para resolver el problema

tienden a incluir información morfológica o sintáctica en la definición de los

patrones. Sin embargo, en este trabajo se evita el uso de este tipo de

información. Por lo tanto, los patrones se encuentran definidos en un nivel

exclusivamente léxico. Esto propicia que el método sea independiente tanto

del idioma como del dominio, pues se evita el uso de herramientas

lingüísticas propias de un idioma (por ejemplo: etiquetadores, analizadores

sintácticos, etc.); pero se favorece la extracción de información incorrecta

(parejas de palabras que no representan una relación de hiponimia). Para

enfrentar este inconveniente, se proponen dos enfoques que permiten

estimar la confianza de las parejas hipónimo-hiperónimo extraídas.

Finalmente, para mostrar la utilidad del método propuesto se evaluó la

precisión del catálogo de hipónimos resultante. Los resultados obtenidos son

alentadores y muestran la factibilidad de usar patrones léxicos para extraer

automáticamente hipónimos a partir de textos no estructurados.

Master thesis

Natural languages Text analysis Computer applications CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES SISTEMAS DE RECONOCIMIENTO DE CARACTERES

Identificación de plagio parafraseado incorporando estructura, sentido y estilo de los textos

JOSE FERNANDO SANCHEZ VEGA (2016)

El plagio se define como el uso no autorizado de algún contenido original de otro autor. Éste representa un grave problema y especialmente en los últimos años ha empeorado a causa de la facilidad del reuso de la información del Internet, una vasta fuente de documentos que permite a los usuarios copiar y adueñarse de cualquier texto.

Los actuales métodos automáticos de detección de plagio representan un importante progreso en el manejo del problema de la reutilización no autorizada de texto. Sin embargo, la mayoría de estos métodos no logran una detección fiable del plagio con paráfrasis, debido a la gran complejidad que conlleva la tarea, inclusive para la racionalidad humana.

La identificación de plagio parafraseado consiste en el reconocimiento automático de fragmentos de documentos que contienen texto reutilizado y que ha sido intencionalmente ocultado mediante algunas prácticas de reescritura, como cambios discursivos, permutas semánticas y sustituciones léxicas o morfológicas.

Doctoral thesis

Text reused Semantic text similarity Dynamic time wrapping Plagiarism detection CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES SISTEMAS DE RECONOCIMIENTO DE CARACTERES

Reconstrucción de caracteres para mejora de sistemas OCR con RNAs

Daniela Moctezuma Oscar Sánchez Siordia (2015)

Numerosos avances dentro de la Inteligencia Artificial han estado inspirados en las caracter´ısticas de los procesos biolo´gicos de las redes neuronales. Estas caracter´ısticas, por las ventajas que presentan, han intentado ser emuladas dentro de una computadora para imitar las tareas que son capaces de realizar los seres humanos. Siendo el OCR (Optical Character Recognition) una habilidad humana, la intencio´n de utilizar RNAs (Redes Neuronales Artificiales) para un sistema de reconocimiento de caracteres, va en relacio´n de co´mo las RNAs tratan de simular los procesos que ocurren en el cerebro humano. El presente trabajo implementa un sistema OCR mediante RNAs, as´ı como una modificacio´n al mismo, implementando un paradigma para la reconstruccin del patro´n de entrada (con una red Hopfield) antepuesto al paradigma utilizado para el reconocimiento (red Perceptro´n). Las pruebas realizadas comparan los resultados entre el sistema OCR original y el modificado para este trabajo, utilizando tanto nu´meros como letras. Las ventajas de la modificacio´n planteada para este trabajo pueden ser ampliadas a cualquier sistema OCR ya implementado sin importar el m´etodo de reconocimiento utilizado. Los resultados muestran una importante mejora en el porcentaje de reconocimiento con el m´etodo propuesto respecto al m´etodo comparado.

Article

RNA OCR red Hopfield INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES SISTEMAS DE RECONOCIMIENTO DE CARACTERES SISTEMAS DE RECONOCIMIENTO DE CARACTERES

Sistema para la identificación de roedores

JORGE MATEO JUAREZ (2017)

"El uso de roedores de laboratorio en un Bioterio es importante, ya que son empleados para realizar protocolos experimentales y se deben mantener en un estado idóneo para obtener mejores resultados en estos procedimientos. Este sistema será capaz de realizar la identificación del roedor por medio de su huella plantar de la pata posterior izquierda. Se presentan las propuestas para el reconocimiento automático de la región de interés (ROI) y dos métodos para el reconocimiento del ratón mediante su huella dactilar. El primero se emplearon algoritmos para el procesamiento de imágenes, el cual se realiza el mejoramiento de la imagen mediante una ecualización del histograma así como el mejoramiento del contraste, permitiendo normalizar las imágenes y mediante la aplicación del filtrado espacial en función de máscaras gaussianas y bancos de filtros Gabor, nos permite extraer rasgos de la imagen y definir la región de interés (ROI) mediante la delimitación de cinco puntos de referencia (también conocidos como landmakrs) que estos son ubicados sobre los cojinetes de la huella plantar del ratón cuya identificación de estos se realiza mediante Matching y finalmente la alineación de estas imágenes es por la deformación de la imagen (image warping) en función de los cinco landmarks."

Benemérita Universidad Autónoma de Puebla

Master thesis

Ratas como animales de laboratorio Reconocimiento óptico de caracteres INGENIERÍA Y TECNOLOGÍA

Desarrollo de algoritmos para el descubrimiento de patrones secuenciales maximales

RENE ARNULFO GARCIA HERNANDEZ (2007)

Information of a document is described by words in a sequential way. From this point of view,

the knowledge transmitted in a text is sequentially structured by its author. Thus, text it is not

only useful for expressing the author’s ideas, but also it is useful for discovering new knowledge

from the frequent sequential order of the words in the text. The latter aspect has been part of

our motivation, since there are a big amount of electronic documents that could be useful for

discovering sequential patterns, which often cannot be seen at first sight and could be helpful

for text analysis; achieving in this manner a text mining process.

Since the number of frequent sequences can be huge, it is possible considering only those

which are not contained in another frequent sequence, it means, the Maximal Frequent

Sequences (MFS’s) can be considered as a compact representation of all frequent

sequences. When a MFS is found, the words, length and frequency of such MFS are

determined by the text. The last characteristic is very important because the frequency allows

having support for that MFS. Other important feature of the MFS’s is that they can be

extracted independently of the language. Frequent sequences preserve, in some way, the

natural sequential order of the text. Moreover, by its legibility, MFS’s are easy to understand by

humans.

The above mentioned characteristics make MFS’s suitable to be applied in specific text

mining tasks like document clustering and classification; or in tasks like information retrieval,

question answering, text summarization, etc. However, the MFS discovering problem has

received special attention due to the big amount of combinations that have to be reviewed

for discovering such patterns. For example, if a frequent sequence has 100 elements then

2 100 − 1 ≈ 10 30 combinations have to be reviewed for extracting such pattern. This problem

has been classified as NP-hard.

This dissertation deals with the problem of discovering MFS’s in text. It is important to remark,

that the main objective of this dissertation was to propose algorithms for improving the search

of MFS’s from textual information. However, the proposed algorithms can work over any other

kind of sequential information like DNA sequences, WEB logs, etc.; it is, with objects that

describe a sequential behavior through symbols.

La información de un documento de texto la encontramos descrita de manera secuencial

mediante palabras. Desde este punto de vista, el conocimiento transmitido por el autor de

un texto es estructurado de manera secuencial. Así, el texto no sólo sirve para el fin que

determinó el autor originalmente, sino que también es posible descubrir conocimiento nuevo

a partir del orden secuencial de las palabras que frecuentemente se presenta en un texto.

Este último aspecto ha sido precisamente parte de la motivación de esta disertación, pues

existe una gran cantidad de documentos electrónicos disponibles que permitirían descubrir

patrones en el texto que difícilmente pueden determinarse a primera vista y que pueden ser

de gran utilidad para el análisis de texto; realizando de esta manera un proceso de minería

sobre el texto.

Debido a que el número de secuencias frecuentes SF’s encontradas puede ser enorme, es

posible considerar únicamente aquellas SF’s que no están contenidas dentro de otras, es

decir, utilizar las secuencias frecuentes maximales (SFM’s) como la presentación compacta

del conjunto de SF’s. Cuando se descubre una SFM, es el contenido del texto el que

determina las palabras, longitud y frecuencia de la SFM. Esta última característica es muy

importante porque la frecuencia nos permite tener un soporte sobre la existencia de dicha

SFM. Otra de las características importantes de las SFM’s radica en su extracción de manera

independiente del lenguaje, incluso de texto que no esté bien escrito. Las SF’s de texto

preservan, en cierto modo, la naturaleza secuencial del texto. Incluso, por su legibilidad, las

SFM’s son entendibles por el humano.

Por las características mencionadas anteriormente, las SFM’s son potencialmente útiles para

tareas específicas de la minería de texto como la clasificación y agrupamiento de

documentos; en el análisis automático de texto; en la recuperación de información; en la

búsqueda de respuestas; extracción de hipónimos y en la elaboración de resúmenes, entre

otras. Sin embargo, el problema de descubrimiento de SFM’s ha requerido de atención

especial debido al gran número de combinaciones que se tienen que revisar en su

extracción. Por ejemplo, si una SF tiene una longitud de 100 elementos se tendrían que revisar

2 100 − 1 ≈ 10 30 combinaciones antes de poder extraer dicho patrón. Este problema ha sido

clasificado como un problema NP-difícil.

Doctoral thesis

Sequence Pattern recognition Sequential pattern mining INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES SISTEMAS DE RECONOCIMIENTO DE CARACTERES

Pattern-based clustering using unsupervised decision trees

ANDRES EDUARDO GUTIERREZ RODRÍGUEZ (2015)

In clustering, providing an explanation of the results is an important task.

Pattern-based clustering algorithms provide, in addition to the list of objects

belonging to each cluster, an explanation of the results in terms of a set of

patterns that describe the objects grouped in each cluster. It makes these

algorithms very attractive from the practical point of view; however, patternbased

clustering algorithms commonly have a high computational cost in the

clustering stage. Moreover, the most recent algorithms proposed within this

approach, extract patterns from numerical datasets by applying an a priori

discretization process, which may cause information loss. In this thesis, we

propose new algorithms for extracting only a subset of patterns useful for

clustering, from a collection of diverse unsupervised decision trees induced

from a dataset. Additionally, we propose a new clustering algorithm based

on these patterns.

Doctoral thesis

Patter mining Pattern-based clustering Clustering Mixed Datasets CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES SISTEMAS DE RECONOCIMIENTO DE CARACTERES