Author: DULCE MARÍA GARCÍA ORDAZ

Identificación de secuencias reguladoras mediante agrupamiento

DULCE MARÍA GARCÍA ORDAZ (2011)

In recent years the number of organisms, which has been obtained its DNA sequence,

has increased . The large amount of data that exists contrast with the limited knowledge

we have of the functions of DNA. The regulatory sequences are short sequences of DNA

wich turn on or turn off the genes. These sequences are found in regions close to genes.

The regulatory sequences are inexact patterns, and can be found using computational

methods. The currently existing tools for the discovery of regulatory sequences are limited

by several factors. Some of these factors are the number of sequences and the length of the

regulatory sequences that can be discovered. An important point is that so far there isn’t

a method capable of identifying all regulatory sequences that exist in the genome, or in

subset of genes. And it was found that all existing tools tend to find at least one sequence

that others methods do not find [16], what causes discovery methods are complementary

to each other. This paper proposes a method for identifying regulatory sequences. This

method is based on a divisive hierarchical clustering algorithm to identify patterns which

are then evaluated to determine candidates for regulatory sequences. We decided to use a

clustering method due to the size of databases, such as Bacillus subtilis organism, which

was evaluated with this method, has more than 4400 genes. The results show that the

method is able to identify these sequences.

En los últimos años ha aumentado la cantidad de organismos de los que se ha obtenido

su secuencia de ADN. La gran cantidad de datos que existen contrasta con el poco conocimiento

que se tiene de las funciones del ADN. Las secuencias reguladoras son un tipo

de secuencia dentro del ADN que se encarga de activar o desactivar a los genes y se encuentran

en regiones cercanas a ´estos. Las secuencias reguladoras son patrones inexactos,

y pueden ser hallados mediante métodos computacionales. Las herramientas que existen

actualmente para el descubrimiento de secuencias reguladoras se encuentran limitados

por diversos factores. Algunos de estos factores son el número de secuencias de entrada

y la longitud de las secuencias reguladoras que pueden descubrir. Un punto importante

es que hasta ahora no existe algún método capaz de identificar todas las secuencias reguladoras

que existan en el genoma, o en un subconjunto de genes. Se ha encontrado que

todas las herramientas existentes suelen encontrar por lo menos una secuencia que las

demás no [16], lo que provoca que los métodos de descubrimiento sean complementarios

entre si. En este trabajo se propone un método para la identificación de secuencias reguladoras.

Este método está basado en un algoritmo de agrupamiento jerárquico divisivo

para identificar los patrones que posteriormente serán evaluados para determinar si son o

no candidatos a secuencias reguladoras. Se decidió utilizar un método de agrupamiento

debido al tamaño de las bases de datos, por ejemplo, el organismo Bacillus Subtilis, con el

que se evaluó este método, cuenta con más de 4400 genes. Los resultados muestran que

el método es capaz de identificar estas secuencias con una precisión cercana al promedio

de los métodos existentes, con la ventaja de que propone el tamaño de las secuencias.

Master thesis

Pattern clustering Data mining Learning CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA MATEMÁTICAS CIENCIA DE LOS ORDENADORES