Título
Identificación de secuencias reguladoras mediante agrupamiento
Autor
DULCE MARÍA GARCÍA ORDAZ
Colaborador
JESUS ANTONIO GONZALEZ BERNAL (Asesor de tesis)
AURELIO LOPEZ LOPEZ (Asesor de tesis)
Nivel de Acceso
Acceso Abierto
Materias
Resumen o descripción
In recent years the number of organisms, which has been obtained its DNA sequence,
has increased . The large amount of data that exists contrast with the limited knowledge
we have of the functions of DNA. The regulatory sequences are short sequences of DNA
wich turn on or turn off the genes. These sequences are found in regions close to genes.
The regulatory sequences are inexact patterns, and can be found using computational
methods. The currently existing tools for the discovery of regulatory sequences are limited
by several factors. Some of these factors are the number of sequences and the length of the
regulatory sequences that can be discovered. An important point is that so far there isn’t
a method capable of identifying all regulatory sequences that exist in the genome, or in
subset of genes. And it was found that all existing tools tend to find at least one sequence
that others methods do not find [16], what causes discovery methods are complementary
to each other. This paper proposes a method for identifying regulatory sequences. This
method is based on a divisive hierarchical clustering algorithm to identify patterns which
are then evaluated to determine candidates for regulatory sequences. We decided to use a
clustering method due to the size of databases, such as Bacillus subtilis organism, which
was evaluated with this method, has more than 4400 genes. The results show that the
method is able to identify these sequences.
En los últimos años ha aumentado la cantidad de organismos de los que se ha obtenido
su secuencia de ADN. La gran cantidad de datos que existen contrasta con el poco conocimiento
que se tiene de las funciones del ADN. Las secuencias reguladoras son un tipo
de secuencia dentro del ADN que se encarga de activar o desactivar a los genes y se encuentran
en regiones cercanas a ´estos. Las secuencias reguladoras son patrones inexactos,
y pueden ser hallados mediante métodos computacionales. Las herramientas que existen
actualmente para el descubrimiento de secuencias reguladoras se encuentran limitados
por diversos factores. Algunos de estos factores son el número de secuencias de entrada
y la longitud de las secuencias reguladoras que pueden descubrir. Un punto importante
es que hasta ahora no existe algún método capaz de identificar todas las secuencias reguladoras
que existan en el genoma, o en un subconjunto de genes. Se ha encontrado que
todas las herramientas existentes suelen encontrar por lo menos una secuencia que las
demás no [16], lo que provoca que los métodos de descubrimiento sean complementarios
entre si. En este trabajo se propone un método para la identificación de secuencias reguladoras.
Este método está basado en un algoritmo de agrupamiento jerárquico divisivo
para identificar los patrones que posteriormente serán evaluados para determinar si son o
no candidatos a secuencias reguladoras. Se decidió utilizar un método de agrupamiento
debido al tamaño de las bases de datos, por ejemplo, el organismo Bacillus Subtilis, con el
que se evaluó este método, cuenta con más de 4400 genes. Los resultados muestran que
el método es capaz de identificar estas secuencias con una precisión cercana al promedio
de los métodos existentes, con la ventaja de que propone el tamaño de las secuencias.
Editor
Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación
febrero de 2011
Tipo de publicación
Tesis de maestría
Versión de la publicación
Versión aceptada
Recurso de información
Formato
application/pdf
Idioma
Español
Audiencia
Estudiantes
Investigadores
Público en general
Sugerencia de citación
Garcia-Ordaz D.M.
Repositorio Orígen
Repositorio Institucional del INAOE
Descargas
7317