Título

Predicción de actividad antimicrobiana usando modelos de escala evolutiva a través de un flujo de trabajo en la plataforma KNIME

Prediction of antimicrobial activity using models of evolutionary scale through a workflow in the KNIME platform

Autor

Karla Lorena MartÍnez Mauricio

Colaborador

CESAR RAUL GARCIA JACAS (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Resumen o descripción

Dentro de las estrategias para combatir la resistencia antimicrobiana, se está llevando a cabo investigación para la creación de nuevos fármacos basados en péptidos antimicrobianos. En los últimos años, se han realizado esfuerzos para incorporar herramientas computacionales que ayuden a acelerar la identificación de péptidos con actividad antimicrobiana. Una de estas herramientas son los modelos QSAR basados en aprendizaje tradicional, que permiten predecir la actividad antimicrobiana en péptidos a partir de información basada en su secuencia. Un componente clave en este proceso es el tipo de características moleculares a utilizar. Recientemente, ha surgido una familia de modelos pre-entrenados llamados ESM-2, los cuales generan incrustaciones (características) que fueron aprendidas a partir de 65 millones de secuencias que abarcan diversidad evolutiva. En este trabajo de tesis, se analiza la contribución de las incrustaciones ESM-2 de diferentes dimensiones de forma individual y en conjunto en el desarrollo de modelos QSAR basados en aprendizaje tradicional para la clasificación de péptidos antimicrobianos, así como sus tipos funcionales, como antibacteriano, antifúngico y antiviral. A partir de este estudio se concluye que aumentar la capacidad de los modelos ESM-2 no implica una mejora en el rendimiento de los modelos para predecir péptidos antimicrobianos. Los modelos ESM-2 t30 y ESM-2 t33 son los más apropiados para extraer características y mejorar la exactitud en las predicciones de péptidos antimicrobianos. Además, fusionar características de diferentes incrustaciones ESM-2 es una estrategia efectiva para construir mejores modelos QSAR que el uso exclusivo de características derivadas de un modelo ESM-2 específico. Se construyeron modelos más simples con un rendimiento comparable o superior a los modelos basados en aprendizaje profundo reportados en la literatura. Para llevar a cabo este estudio se implementó un flujo de trabajo en KNIME que genera de forma automática hasta 1980 modelos de clasificación binaria basados en aprendizaje tradicional. Incorpora diversas técnicas de selección de características, algoritmos de clasificación, métricas de desempeño y una fase de limpieza de datos. Este flujo de trabajo se encuentra disponible en https://github.com/cicese-biocom/classification-QSAR-bioKom.

Molecular features play an important role in different bio-chem-informatics tasks, such as the Quantitative Structure-Activity Relationships (QSAR) modeling. Several pre-trained models have been recently created to be used in downstream tasks either by fine-tuning a specific model or by extracting features to feed traditional classifiers. In this sense, a new family of Evolutionary Scale Modeling models (termed as ESM-2 models) has been recently introduced, demonstrating outstanding results in structure protein prediction benchmarks. Herein, we are devoted to assessing the usefulness of different-dimensional embeddings derived from ESM-2 models in the prediction of antimicrobial peptides, given the great deal of attention received because of their potential to become a plausible option to mainly fight multi-drug resistant bacteria. To this end, we created a KNIME workflow to guarantee using the same modeling methodology, and consequently, carrying out fair comparisons. As a result, it can be drawn that the 640- and 1,280- dimensional embeddings are the most appropriate to be used in modeling because statistically better results were achieved from them. We also combined features from different embeddings, and we can draw that the fusion of features of different embeddings contributes to getting better models than only using a specific model ESM-2. Comparisons regarding state-of-the-art deep learning models confirm that when performing methodologically principled studies in the prediction of AMPs, non-DL based models yield comparable-to-superior results to DL-based models. The implemented KNIME workflow is availablefreely at https://github.com/cicese-biocom/classification-QSAR-bioKom. We consider that this workflow can be valuable to prevent unfair comparisons regarding new computational methods, as well as to propose new non-DL based models.

Editor

CICESE

Fecha de publicación

2023

Tipo de publicación

Tesis de maestría

Formato

application/pdf

Idioma

Español

Sugerencia de citación

Martínez Mauricio, K.L. 2023. Predicción de actividad antimicrobiana usando modelos de escala evolutiva a través de un flujo de trabajo en la plataforma KNIME. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 86 pp.

Repositorio Orígen

Repositorio Institucional CICESE

Descargas

58

Comentarios



Necesitas iniciar sesión o registrarte para comentar.