1. Δίκτυα έκϕρασης για γονιδιακούς δείκτες καρκίνου
- Author
-
Χαλεπακης-Ντελλης Δημητριος-Αποστολος http://users.isc.tuc.gr/~dchalepakisntellis, Chalepakis-Ntellis Dimitrios-Apostolos http://users.isc.tuc.gr/~dchalepakisntellis, Ζερβακης Μιχαλης, Zervakis Michalis, Μανια Αικατερινη, Mania Aikaterini, Καφετζόπουλος Δημήτριος, Kafetzopoulos Dimitrios, Επιβλέπων: Ζερβακης Μιχαλης, Advisor: Zervakis Michalis, Μέλος επιτροπής: Μανια Αικατερινη, Committee member: Mania Aikaterini, Μέλος επιτροπής: Καφετζόπουλος Δημήτριος, and Committee member: Kafetzopoulos Dimitrios
- Subjects
Bayes' solution,Bayesian analysis,bayesian statistical decision theory,bayes solution,bayesian analysis ,Bayesian networks ,Scale-free networks ,Gene analysis ,Gene markers - Abstract
Μια εργασία που υποβλήθηκε για τη κάλυψη των αναγκών απόκτησης της Διπλώματος στη σχολή ΗΜΜΥ Περίληψη: Τα κύτταρα περιέχουν χιλιάδες βιολογικά μόρια, όπως γονίδια, RNA, πρωτεΐνες και μεταβολίτες, που αλληλεπιδρούν με πολύπλοκους τρόπους. Τα δίκτυα παρουσιάζουν ένα ισχυρό πλαίσιο για να αντιπροσωπεύσουν αυτές τις περίπλοκες σχέσεις και αλληλεπιδράσεις, οι οποίες είναι υπεύθυνες για διάϕορες κυτταρικές λειτουργίες με τις επιδράσεις των μεμονωμένων κόμβων των μορίων. Στην παρούσα διπλωματική εργασία πραγματοποιείται η εκμάθηση δομής Bayesian δικτύων από δεδομένα γονιδιακής έκϕρασης που προέρχονται από δείγματα παθολογίας του καρκίνου του μαστού. Τα Bayesian δίκτυα παρέχουν μια καλή και εύχρηστη αναπαράσταση για την έκϕραση της από κοινού κατανομής πιθανότητας και για τον συμπερασμό. Η αναπαράσταση και η χρήση της θεωρίας πιθανοτήτων κάνουν τα Bayesian δίκτυα κατάλληλα για το συνδυασμό του πεδίου γνώσης και δεδομένων, την έκϕραση αιτιωδών σχέσεων, την αποϕυγή υπερκάλυψης ενός μοντέλου σε δεδομένα εκπαίδευσης, και την εκμάθηση από μη ολοκληρωμένα σύνολα δεδομένων. Συγκεκριμένα, για να γίνει η εκμάθηση μιας τέτοιας δομής, χρησιμοποιήθηκαν οι αλληλεπιδράσεις των 77 γονιδίων που είναι μια γονιδιακή υπογραϕή που σχετίζεται με την παθολογία του καρκίνου του μαστού. Κατασκευάστηκαν δομές ξεχωριστά για τα καρκινικά και τα υγιή δείγματα ενώ η εκμάθηση των δομών έγινε σύμϕωνα με τον αλγόριθμο εκμάθησης δομής Κ2, θεωρώντας τις μεταβλητές διακριτές αλλά και συνεχείς. Οι δομές που προέκυψαν μελετήθηκαν ως προς τις ιδιότητες Μικρού Κόσμου και Ελεύθερης Κλίμακας, που εμϕανίζονται στην πλειονότητα των δικτύων του πραγματικού κόσμου. Επίσης αναζητήθηκαν σημαντικοί κόμβοι, συμπλέγματα (σύμϕωνα με τον αλγόριθμο MCODE) και δομικές ενότητες (σύμϕωνα με τον αλγόριθμο jActiveModules) στις δομές, τα οποία αξιολογήθηκαν στατιστικά και βιολογικά. Η στατιστική ανάλυση των δικτύων έδειξε ότι εμϕανίζουν την ιδιότητα Ελεύθερης Κλίμακας που συνάδει με τη βιολογική τους διάσταση όπως επίσης και ότι υπάρχουν σημαντικοί κόμβοι, συμπλέγματα και δομικές ενότητες στα δίκτυα. Η ανάλυση των Bayesian δικτύων ανέδειξε δυναμικά υποδίκτυα με κεντρικούς κόμβους τα οποία προσϕέρουν νέα γνώση σχετικά με τα βιολογικά μονοπάτια που εμπλέκονται στον καρκίνο του μαστού. Summarization: Cells contain thousands of organic molecules, such as genes, RNA, proteins and metabolites which interact in complex ways. The networks provide a powerful framework to represent these complex relationships and interactions, which are responsible for various cellular functions with the effects of individual nodes of the molecules. In this thesis is curried out the learning of Bayesian network structure from gene expression data from breast cancer pathology samples. The Bayesian networks provide a neat and compact representation for expressing joint probability distribution and for inference. The representation and the use of probability theory makes Bayesian networks suitable for combining domain knowledge and data, expressing causal relationships, avoiding overfitting a model to training data, and learning from incomplete datasets. Specifically, to learn such a structure, have been used interactions of 77 genes, which is a gene signature associated with the pathology of breast cancer. Structures were constructed separately for both cancer and control samples, while learning structures were made according to the structure learning algorithm K2, considering the discrete and continuous variables. The resulting structures studied in properties of Small-World and Scale-Free, shown in most real world networks. Furthermore, important nodes as well as complexes (according to the algorithm MCODE) and modules (according to the algorithm jActive Modules) were searched out in the structures which were statistically and biologically evaluated. Statistical analysis showed that the networks have the property of Scale-Free, which is consistent with their biological dimension and that there are important hubs, clusters and modules in the networks. The Bayesian networks analysis dynamically highlighted subnetworks with central hubs which offer new knowledge of the biological pathways involved in cancer breast.