Back to Search Start Over

Predviđanje samosastavljanja peptida zasnovano na sklonosti agregaciji i sekvencijalnim značajkama

Authors :
Žužić, Lucija
Mauša, Goran
Ljubić, Sandi
Lerga, Jonatan
Publication Year :
2023

Abstract

Predložen je pristup za rješavanje problema heterogenih podataka iz sekvencijalnih svojstava (SP) i ocjene sklonosti agregaciji (AP) za peptide sastavljene od 1, 2 i 3 aminokiseline uporabom povratnih neuronskih mreža koje obrađuju sekvence promjenjive duljine koristeći svoju unutarnju memoriju. Kako bi se postigao jednak broj AP i SP vrijednosti, t-distribuirano stohastičko ugrađivanje susjeda (t-SNE) primijenjeno je na 94 SP vrijednosti i izdvojene su 3 meta-značajke. Pragovi temeljeni na krivuljama ROC (radna karakteristika prijamnika) i PR (preciznost-odziv) testirani su kako bi se unaprijedila binarna klasifikacija. Visoki rezultati geometrijske sredine (0, 704 za SP model i PR prag) koji su vrlo blizu rezultata točnosti (79, 7% za SP model i PR prag) dokazuju da je predviđanje moguće za pozitivnu i negativnu klasu samosastavljajućih peptida. Neklasificirani heksapeptidi korišteni su za testiranje primjenjivosti modela za predviđanje ocjene AP. Najuspješniji među razvijenim modelima, SP model, nadmašuje ljudska predviđanja i predviđanja najsuvremenijeg modela iz literature na temelju točnosti, F1 rezultata i geometrijske sredine. Modeli bi se mogli koristiti kao dopuna ljudskoj intuiciji u stvaranju novih peptidnih sekvenci s velikom sklonošću samosastavljanju.<br />We propose an approach to tackle the issue of heterogeneous data from sequential properties (SP) and aggregation-propensity (AP) scores for peptides composed of 1, 2, and 3 amino acids by using Recurrent Neural Networks that process sequences of variable length using their internal memory. To achieve an equal number of AP and SP values, t-distributed stochastic neighbour embedding (t-SNE) was applied to the 94 SP values, and 3 meta-features were extracted. Thresholds based on ROC (Receiver Operating Characteristic) and PR (Precision-Recall) curves were tested to advance binary classification. High geometric mean scores (0.704 for the SP model and PR threshold) that are very close to accuracy scores (79.7% for the SP model and PR threshold) prove that prediction is possible both for the positive and negative class of peptides based on self-assembly. Unclassified hexapeptides were used to test whether the model was applicable for predicting AP scores. The most successful of the developed models, the SP model, outperforms human predictions and the predictions of the state-of-the-art model from the literature based on accuracy, F1 score, and geometric mean. The models could complement human intuition in generating novel peptide sequences with a high propensity to self-assemble.

Details

Language :
Croatian
Database :
OpenAIRE
Accession number :
edsair.od......4016..5029c1dc7b3093194b0b50fcb4d35e92