Título
LPS: un algoritmo de ensambles de secuencias cortas de ADN
Autor
FRANCISCO VERA VORONISKY
Colaborador
JESUS ANTONIO GONZALEZ BERNAL (Asesor de tesis)
ANSEL YOAN RODRIGUEZ GONZALEZ (Asesor de tesis)
Nivel de Acceso
Acceso Abierto
Materias
DNA computing - (COMPUTACIÓN DE ADN) Clustering pattern - (PATRÓN DE AGRUPACIÓN) Machine learning - (APRENDIZAJE AUTOMÁTICO) String matching - (COINCIDENCIA DE CADENAS) Biocomputing - (BIOCOMPUTING) CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA - (CTI) MATEMÁTICAS - (CTI) CIENCIA DE LOS ORDENADORES - (CTI)
Resumen o descripción
La obtención de un genoma de un organismo es un proceso complejo el cual es posible realizarlo mezclando fragmentos de secuencias de ADN usando el solape entre pares. Actualmente, la tecnología existente permite obtener fragmentos con una longitud de a lo máximo de cientos de pares de bases. El proceso de dividir el genoma en fragmentos se le conoce como secuenciación. Existen diferentes tecnologías para secuenciar un genoma. Las tecnologías actuales de secuenciación se caracterizan por obtener secuencias de longitudes cortas, las cuales varían en longitud entre 25 y 500 pares de bases. Estos secuenciadores se caracterizan por poder obtener muchos fragmentos a un costo bajo. Sin embargo, las secuencias cortas tienen como deficiencia que un fragmento puede aparecer en varias posiciones en el genoma. Al tratar de realizar el ensamble del genoma, si no consideramos la posibilidad de que este fragmento pueda aparecer repetido en varias posiciones, el genoma reconstruido tendrá varias secuencias con saltos, los cuales son originados debido a que si este fragmento fue usado para unir un par de secuencias, ya no lo volveremos a considerar para unir otros pares de secuencias.
En este trabajo de tesis se presenta el algoritmo LPS para ensamble de secuencias cortas de ADN. LPS propone un mecanismo para construir fragmentos más largos a partir de fragmentos cortos. La obtención de fragmentos largos permite tratar el problema de la posible repetición de los fragmentos cortos que lo componen, ya que al crecer las secuencias, llega un momento en el que se obtendrán pares de bases diferentes, ya sea al principio o al final de la secuencia para las diferentes repeticiones.
LPS es una modificación del algoritmo PadeNA que permite tratar el problema de las repeticiones de secuencias cortas. En la parte experimental evaluaremos la calidad de la reconstrucción de cinco secuencias utilizando fragmentos obtenidos sintéticamente simulando la secuenciación en una computadora. Los ensambles se obtendrán usando PadeNA y LPS+PadeNA y se compararán usando las medidas de ‘número de fragmentos obtenidos o contigs’, ‘suma de las longitudes de los contigs’, ‘N50’, ‘longitud del contig más largo’, ‘promedio de las longitudes de los contigs’ y ‘error’. En estos experimentos se mostrará la ventaja de usar LPS con PadeNA sobre el uso de PadeNA por sí solo.
Editor
Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación
julio de 2014
Tipo de publicación
Tesis de maestría
Versión de la publicación
Versión aceptada
Recurso de información
Formato
application/pdf
Idioma
Español
Audiencia
Estudiantes
Investigadores
Público en general
Sugerencia de citación
Vera-Voronisky F.
Repositorio Orígen
Repositorio Institucional del INAOE
Descargas
3747