Back to Search
Start Over
Predicción del valor de concentración letal media, LC50 y del nivel de toxicidad de compuestos orgánicos para Daphnia Magna usando algoritmos de aprendizaje automático supervisado
- Source :
- O2, repositorio institucional de la UOC, Universitat Oberta de Catalunya (UOC)
- Publication Year :
- 2021
- Publisher :
- Universitat Oberta de Catalunya (UOC), 2021.
-
Abstract
- Las pruebas de toxicidad aguda para determinar la concentración letal media (CL50) aplicadas en Daphnia Magna son ampliamente utilizadas para determinar el nivel de toxicidad acuática de diferentes compuestos. Una alternativa a estos ensayos son los estudios de relación cuantitativa estructura-actividad (QSAR). Este trabajo propone la creación de una aplicación web que implemente el mejor modelo de aprendizaje automático resultante del entrenamiento de diferentes algoritmos tanto para la predicción del valor CL50 cuanto para la clasificación por nivel de toxicidad de moléculas orgánicas a través de cuatro descriptores moleculares: superficie polar topológica que considera N, O, P y S (TPSA.Tot), Número de átomo de hidrógeno unidos a heteroátomos (H.050), coeficiente de partición octanol-agua calculado a partir con el modelo de Moriguchi (MLOGP) y el índice topológico que codifica información sobre el tamaño molecular y la ramificación, sin considerar los heteroátomos (RDCHI). Los algoritmos empleados para obtener los modelos de regresión fueron: árbol de regresión cubist, máquinas de soporte vectorial con kernel radial (SVMr), bosque aleatorio (RF), bosque aleatorio tipo ranger y el impulso de gradiente estocástico (gmb). Para generar los modelos de clasificación se usaron: SVMr, RF, RF ranger, gmb y redes neuronales. En ambos casos, el mejor modelo se obtuvo con el SVM con kernel radial. El modelo de predicción del valor LC50 llegó a un Q2 de 0.77 y un R2 de 0.83 en la validación externa y el modelo de clasificación alcanzó un 0.80 de precisión. Acute toxicity tests to determine the median lethal concentration (LC50) in Daphnia Magna are widely applied to determine the level of aquatic toxicity of different compounds. An alternative to these assays is quantitative structure-activity relationship studies (QSAR). This work proposes the creation of a web application that implemented the best machine learning model of the training of different algorithms both for the prediction of the LC50 value and for the classification by level of toxicity of organic molecules through four molecular descriptors: topological polar surface which considers N, O, P and S (TPSA.Tot), number of hydrogen atoms attached to heteroatoms (H.050), octanol-water partition coefficient calculated from the Moriguchi model (MLOGP) and the topological index which encodes information on molecular size and branching, without considering heteroatoms (RDCHI). The algorithms used to obtain the regression models were cubist regression tree, support vector machines with radial kernel (SVMr), random forest (RF), random forest of ranger type, and stochastic gradient impulse (gmb). To generate the classification models, the following will be used: SVM radial, RF, ranger, gmb and neural networks. In both cases, the best model was obtained using SVM with radial kernel. The LC50 prediction model reached a Q2 of 0.77 and an R2 of 0.83 in the external validation and the classification model reached a precision of 0.80. Les proves de toxicitat aguda per determinar la concentració letal mitjana (CL50) aplicades a Daphnia Magna són àmpliament utilitzades per determinar el nivell de toxicitat aquàtica de diferents compostos. Una alternativa a aquests assajos són els estudis de relació quantitativa estructura-activitat (QSAR). Aquest treball proposa la creació d'una aplicació web que implementi el millor model d'aprenentatge automàtic resultant de l'entrenament de diferents algoritmes tant per a la predicció de la valor CL50 que fa per a la classificació per nivell de toxicitat de molècules orgàniques a través de quatre descriptors moleculars: superfície polar topològica que considera N, O, P i S (TPSA.Tot), Nombre d'àtom d'hidrogen units a heteroàtoms (H.050), coeficient de partició octanol-aigua calculat a partir amb el model de Moriguchi (MLOGP) i l'índex topològic que codifica informació sobre la mida molecular i la ramificació, sense considerar els heteroàtoms (RDCHI). Els algoritmes emprats per obtenir els models de regressió van ser: arbre de regressió CUBIST, màquines de suport vectorial amb nucli radial (SVMr), bosc aleatori (RF), bosc aleatori tipus ranger i l'impuls de gradient estocàstic (GMB). Per generar els models de classificació es van usar: SVMr, RF, RF ranger, GMB i xarxes neuronals. En ambdós casos, el millor model es va obtenir amb el SVM amb nucli radial. El model de predicció de la valor LC50 va arribar a un Q2 de 0.77 i un R2 de 0.83 en la validació externa i el model de classificació va aconseguir un 0.80 de precisió.
Details
- Database :
- OpenAIRE
- Journal :
- O2, repositorio institucional de la UOC, Universitat Oberta de Catalunya (UOC)
- Accession number :
- edsair.dedup.wf.001..2034ad60bb5e3a16816cdfecde23f2b6