1. Investigação sobre a capacidade de predição de afinidade de ligação entre moléculas em sistemas hospedeiro-hóspede por meio de métodos de aprendizado de máquina
- Author
-
Carvalho, Ruan Medina, Fonseca, Leonardo Goliatt da, Capriles, Priscila Vanessa Zabala, Borges, Carlos Cristiano Hasenclever, Guedes, Isabella Alvim, and Saporetti, Camila Martins
- Subjects
Molecular affinity ,Machine learning ,Cyclodextrin ,ENGENHARIAS [CNPQ] ,Ciclodextrina ,Aprendizado de máquina ,Afinidade molecular - Abstract
CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior A inserção de experimentações in silico no contexto científico nas últimas décadas permitiram a consolidação de áreas interdisciplinares como a bioinformática, biologia computacional, química computacional entre outras que buscam descrever, entender e prever eventos naturais por meio de equações matemáticas e métodos computacionais. Neste contexto, é comum que pesquisadores tenham interesse em prever medidas de interação entre moléculas, principalmente para viabilizar o estudo racional de fármacos. Realizar triagens de potenciais fármacos de forma computacional visa reduzir o tempo na descoberta de novas drogas, assim como reduzir o elevado número de testes em laboratório que encarece todo o processo. As triagens moleculares computacionais geralmente são realizadas por meio de processos chamados de docking, nos quais define-se graus de liberdade para representações moleculares no interior de uma grid de simulação. O objetivo do processo é evoluir uma otimização nesse espaço que visa encontrar a configuração geométrica de uma possível ligação entre as moléculas e calcular métricas relativas a esse estado de interação. Para isso, a literatura já apresenta diversas propostas para a formulação de funções objetivo para a busca, ora baseados em modelos matemáticos sob a ótica da física clássica, ora em modelos com base na teoria quântica. Mais recentemente, como alternativa, vêm sendo propostos modelos preditivos baseados em dados e ajustados por métodos computacionais de aprendizado de máquina. Alguns desses métodos vêm apresentando resultados superiores aos dos modelos físicos, além de possuírem tempo de predição inferiores, uma vez já treinados. Visto isso, as técnicas de aprendizado de máquina (ML, do inglês Machine Learning) estão se tornando parte integrante do desenho e descoberta racionais de fármacos e o estudo de uma série de moléculas. Nesse contexto, as Ciclodextrinas (CDs) são nano-gaiolas (nanohorns) usadas para melhorar a entrega de drogas insolúveis ou tóxicas para o organismo. Devido à semelhança química entre CDs e proteínas, abordagens ML podem beneficiar vastamente os estudos da área, identificando carreadores promisores para uma dada molécula de interesse. No presente trabalho, são avaliados o desempenho de três métodos de ML bem conhecidos na literatura - Support Vector Regression (ε-SVR), Gaussian Process Regression (GPR) e eXtreme Gradient Boosting (XGB) - para prever a afinidade de ligação da ciclodextrina e ligantes de interesse em um sistema hospedeiro-ligante (host-guest). Os hiperparâmetros dos métodos ML propostos foram ajutados em uma estratégia de busca randomizada (Random Search). Os resultados mostram a consistencia da metodologia utilizada por apresentar resultados médios de erro controlados. O melhor desempenho na predição foi obtido por um modelo GPR otmizado em busca randomizada, se ajustando bem aos dados (R2 = 0, 803) com baixos erros de predição (RMSE = 1, 811kJ/mol e MAE = 1, 201kJ/mol).. The insertion of in silico experiments in the scientific context in recent decades has allowed the consolidation of interdisciplinary areas such as bioinformatics, computational biology, computational chemistry, among others, which seek to describe, understand and predict natural events through mathematical equations and computational methods. In this context, it is frequent that researchers are interested in predicting interaction measures between molecules, mainly to enable the rational study of drugs. Performing screenings of potential drugs computationally aims to reduce time to discover new drugs and reduce the high number of laboratory tests that make the whole process more expensive. Researchers usually perform computational molecular screenings through docking techniques, which define degrees of freedom for molecular representations within a simulation grid. The goal of the process is to evolve an optimization in this space that aims to find the geometric configuration of a possible bond between molecules and calculate metrics relating to this interaction state. To this end, the literature already presents several proposals for the formulation of objective functions for the search, sometimes based on mathematical models from the perspective of classical physics, sometimes based on models based on quantum theory. Recently, as an alternative, predictive models based on data and adjusted by computational machine learning methods have been proposed. Surprisingly, some of these methods have shown better results than the physical models, with lower prediction time once trained. Therefore, Machine Learning (ML) techniques are an integral part of rational drug design and discovery. Cyclodextrins (CDs) are nano-cages (nanohorns) used to enhance the delivery of insoluble or toxic drugs to the body. Due to the chemical similarity between CDs and proteins, ML approaches can vastly benefit studies in the field by identifying promising carriers for a given molecule of interest. In the present work, the performance of three well-known ML methods in the literature - Support Vector Regression (ε-SVR), Gaussian Process Regression (GPR), and eXtreme Gradient Boosting (XGB) - are evaluated to predict the binding affinity of cyclodextrin and ligands of interest in a host-ligand system (host-guest). We have tuned the hyperparameters of the proposed ML methods in a Random Search strategy. The results show the consistency of the methodology used by presenting controlled average error results. The best prediction performance was obtained by a GPR model optimized in random search, fitting the data well (R2 = 0.803) with low prediction errors (RMSE = 1.811kJ/mol and MAE = 1.201kJ/mol).
- Published
- 2021