Return to search

Εξαγωγή δικτύων αλληλεπιδράσεων για την εξομοίωση βιολογικών διεργασιών σε χαμηλό και υψηλό επίπεδο μέσω ευφυών αλγορίθμων / Inference of Interaction Networks for High and Low Level Simulation of Biological Processes using Intelligent Algorithms

Η μελέτη των βιολογικών συστημάτων στα διαφορετικά επίπεδα οργάνωσης του κυττάρου είναι ένας τομέας που αναδύεται ταχύτατα στην περιοχή της υπολογιστικής βιολογίας. Η πλειοψηφία των ερευνών σε αυτό τον τομέα έχει επικεντρωθεί στον διαχωρισμό των γονιδίων σε βιολογικά μονοπάτια ή διεργασίες. Το επόμενο βήμα στην κατανόηση του κυττάρου στο συστημικό του επίπεδο είναι ο καθορισμός του τρόπου με τον οποίο οι συγκεκριμένες κυτταρικές διεργασίες λειτουργούν μαζί για να επιτελέσουν τις κυτταρικές λειτουργίες.
Βασικός σκοπός της παρούσας διπλωματικής εργασίας είναι η πρόβλεψη αλληλεπιδράσεων διαφόρων ειδών οι οποίες λαμβάνουν μέρος στα διαφορετικά επίπεδα του κυττάρου καθώς και η διερεύνηση του τρόπου με τον οποίο αυτές οι αλληλεπιδράσεις συνεργάζονται μεταξύ τους έτσι ώστε να επιτελέσουν τις κυτταρικές λειτουργίες. Στο χαμηλότερο επίπεδο του κυττάρου υπάρχουν οι φυσικές αλληλεπιδράσεις οι οποίες ισοδυναμούν με σύνδεση των πρωτεϊνών (ή μιας πρωτεΐνης και ενός DNA μορίου) στον 3-διάστατο χώρο. Η σύνδεση αυτή μπορεί να έχει διάφορα αποτελέσματα, όπως η μεταφορά ενός βιοσήματος ή η δημιουργία ενός νέου βιομορίου. Σε ένα ανώτερο επίπεδο από τις φυσικές αλληλεπιδράσεις, πραγματοποιούνται οι λειτουργικές αλληλεπιδράσεις οι οποίες μπορούν σε γενικές γραμμές να κατηγοριοποιηθούν σε σειριακές λειτουργικές αλληλεπιδράσεις (δίκτυα ρυθμιστικών αλληλεπιδράσεων), παράλληλες λειτουργικές αλληλεπιδράσεις όπως για παράδειγμα η συνθετική θνησιμότητα (γενετικές αλληλεπιδράσεις) και συνεργατικές λειτουργικές αλληλεπιδράσεις, όπως για παράδειγμα τα πρωτεϊνικά σύμπλοκα. Οι βιολογικές διεργασίες οι οποίες δραστηριοποιούνται στο ανώτατο επίπεδο του κυττάρου είναι στην πραγματικότητα ομάδες πρωτεϊνών και γονιδίων τα οποία λειτουργούν συνεργατικά. Οι αλληλεπιδράσεις μεταξύ των βιολογικών διεργασιών είναι οι υψηλότερου κυτταρικού επιπέδου αλληλεπιδράσεις τις οποίες θα μπορούσαμε να ανιχνεύσουμε. Η ανίχνευση των παραπάνω διαφορετικών ειδών αλληλεπιδράσεων καθώς και η εννοιολογική σύνδεσή τους αποτελεί το αντικείμενο μελέτης της παρούσας διπλωματικής εργασίας.
Η αναγκαία πληροφορία για να οδηγηθούμε στην πρόβλεψη αλληλεπιδράσεων του ανώτερου επιπέδου του κυττάρου είναι οι χαμηλού επιπέδου (physical) πρωτεϊνικές αλληλεπιδράσεις. Πολλές υπολογιστικές μέθοδοι έχουν εφαρμοστεί μέχρι στιγμής στο πρόβλημα της πρόβλεψης πρωτεϊνικών αλληλεπιδράσεων, οι οποίες όμως αποτυγχάνουν στην ταυτόχρονη επίτευξη καλής απόδοσης και ερμηνευσιμότητας. Στα πλαίσια της διπλωματικής εργασίας αναλύεται το πρόβλημα της πρόβλεψης πρωτεϊνικών αλληλεπιδράσεων. Περιγράφονται οι πιο πρόσφατες πειραματικές και υπολογιστικές μέθοδοι για την ανίχνευση τους. Αναλύονται οι διαφορές τους, τα πλεονεκτήματα και τα μειονεκτήματά τους και επιπλέον γίνεται μία προσπάθεια καταγραφής των στοιχείων που τις περιορίζουν και προτείνονται τρόποι για την μελλοντική εξέλιξη και βελτίωσή τους.
Στην συνέχεια μελετάται ο τρόπος με τον οποίο η τοπολογία των δικτύων πρωτεϊνικών αλληλεπιδράσεων επηρεάζει τις λειτουργικές αλληλεπιδράσεις που εμφανίζονται στο εσωτερικό του κυττάρου, όπως για παράδειγμα τις ρυθμιστικές (regulatory) και τις επιστατικές (genetic) αλληλεπιδράσεις. Δημιουργείται ένα σταθμισμένο δίκτυο το οποίο περιέχει πληροφορία για τις αλληλεπιδράσεις μεταξύ των πρωτεϊνών στο φυσικό επίπεδο (physical interactions). Η εκμετάλλευση της τοπολογίας του δικτύου φυσικών αλληλεπιδράσεων γίνεται μέσω τεχνικών διάχυσης πυρήνων (kernel diffusion). Τροποποιώντας τον βαθμό της διάχυσης (degree of diffusion), δημιουργούνται τα προφιλ διάχυσης (diffusion profiles). Στην συνέχεια, αυτά τα προφίλ χρησιμοποιούνται προκειμένου να χαρακτηρίσουν τις τοπολογίες που συνδέουν τις πρωτεΐνες πάνω στο δίκτυο φυσικών αλληλεπιδράσεων. Επίσης τα προφίλ διάχυσης, αποδεικνύονται εξαιρετικά χρήσιμα εργαλεία στην βελτίωση της απόδοσης των αλγορίθμων πρόβλεψης λειτουργικών αλληλεπιδράσεων.
Στην συνέχεια οι πρωτεϊνικές αλληλεπιδράσεις χρησιμοποιούνται εκ νέου προκειμένου να προβλεφθούν εξαρτήσεις σε ένα επίπεδο υψηλότερα των λειτουργικών αλληλεπιδράσεων και συγκεκριμένα μεταξύ βιολογικών διεργασιών όπως αυτές περιγράφονται στην βάση δεδομένων Gene Ontology. Η κλασσική προσέγγιση στην μελέτη πολύπλοκων βιολογικών δικτύων βασίζεται στην ταυτοποίηση αλληλεπιδράσεων μεταξύ εσωτερικών συστατικών μεταβολικών ή σηματιδικών μονοπατιών. Επιπλέον, γνωρίζουμε σήμερα πολύ λίγα πράγματα για τις αλληλεπιδράσεις μεταξύ βιολογικών συστημάτων ανώτερης τάξης, όπως είναι τα βιολογικά μονοπάτια και οι βιολογικές διεργασίες. Στα πλαίσια της διπλωματικής εργασίας προτείνεται μια μεθοδολογία για την εύρεση αλληλεπιδράσεων μεταξύ βιολογικών διεργασιών αναλύοντας σταθμισμένες και μη σταθμισμένες πρωτεϊνικές αλληλεπιδράσεις. Βασική απόρροια της διπλωματικής εργασίας είναι οι αλληλεπιδράσεις μεταξύ βιολογικών διεργασιών που προέκυψαν και μέσω των οποίων δημιουργείται ένα νεο είδος δικτύου, το δίκτυο αλληλεπιδράσεων μεταξύ βιολογικών διεργασιών.
Διάφορες βάσεις δεδομένων έχουν σχεδιαστεί για την αποθήκευση πληροφορίας σχετικής με τις πειραματικά και υπολογιστικά ταυτοποιημένες ανθρώπινες πρωτεϊνικές αλληλεπιδράσεις. Ωστόσο, αυτές οι βάσεις δεδομένων περιέχουν πολλές λανθασμένα θετικές αλληλεπιδράσεις, έχουν χαμηλή κάλυψη και μόνο λίγες από αυτές ενσωματώνουν πληροφορία από διάφορες πηγές. Για την αποφυγή των παραπάνω προβλημάτων, έχει σχεδιαστεί η βάση δεδομένων ΗΙΝΤ-ΚΒ (http://150.140.142.24:84) η οποία είναι μία βάση γνώσης που ενσωματώνει δεδομένα από διάφορες πηγές, παρέχει ένα φιλικό περιβάλλον προς τον χρήστη για την ανάκτησή τους, υπολογίζει ένα σύνολο χαρακτηριστικών και ένα σκορ εμπιστοσύνης για κάθε πιθανή πρωτεϊνική αλληλεπίδραση. Το σκορ εμπιστοσύνης είναι βασικό για το φιλτράρισμα των λανθασμένα θετικών αλληλεπιδράσεων οι οποίες είναι παρούσες σε διάφορες υπάρχουσες βάσεις δεδομένων. Για το σκοπό αυτό δημιουργήθηκε μία νέα υβριδική μεθοδολογία μηχανικής μάθησης, η οποία ονομάζεται Μαθηματική Μοντελοποίηση Εξελικτικού Κάλμαν (ΜΜΕΚ) για την επίτευξη μιας ακριβούς και ερμηνεύσιμης διαδικασίας ανάθεσης βαρών στις πρωτεϊνικές αλληλεπιδράσεις. Τα πειραματικά αποτελέσματα καταδεικνύουν ότι η συγκεκριμένη μέθοδος υπερτερεί σε σχέση με τις πιο γνωστές μεθόδους πρόβλεψης πρωτεϊνικών αλληλεπιδράσεων.
Τα αποτελέσματα της διπλωματικής εργασίας φιλοδοξείται να συμβάλλουν στην πρόβλεψη νέων πιθανών αλληλεπιδράσεων του χαμηλού και του υψηλού κυτταρικού επιπέδου του ανθρώπινου οργανισμού και του οργανισμού του Ζακχαρομήκυτα (S. cerevisiae). Επιπλέον, μπορούν να χρησιμοποιηθούν για την κατανόηση των ανώτερων επιπέδων οργάνωσης του κυττάρου σαν ένα ενιαίο σύστημα. Τέλος, μία ακόμη σημαντική απόρροια που προκύπτει από την ανάλυση που παρέχεται από την διπλωματική εργασία είναι η ανάγκη επανεξέτασης της state-of-the-art προσεγγίσης της βάσης δεδομένων Gene Ontology για την οργάνωση της βιολογικής γνώσης. / The study of biological systems at different levels of organization is a rapidly emerging area of computational biology. The majority of research in this field has focused on partitioning genes into biological pathways or processes. The next hurdle in moving towards the goal of understanding the cell at a systems level is to determine how these partitioned cellular processes work together to achieve the cell’s objectives.
The main goal of the thesis is the prediction of various kinds of interactions that take place in the different levels of the cell and the examination of the way that these interactions cooperate in order to fullfill the cell functions. At the lower level of the cell the physical interactions exist which entail the full range of chemical bonds between proteins DNA molecules. In addition to these physical descriptions, also functional descriptions of the cellular system can be determined. These can be broadly categorized into 1) serial function interactions, such as the regulatory network interactions, 2) parallel function interactions, such as epistatic interactions (e.g. synthetic lethality) and 3) collaborative function interactions, such as protein complexes. The biological processes which exist at the highest level of the cell are groups of proteins and genes that function collaboratively. The interactions between biological processes are the highest cellular level interactions that we can detect. The detection of the aforementioned different kinds of cellular interactions as well as their conceptual linkage is the subject that the current thesis focus on.
The necessary information that leads to the prediction of interactions at the higher level of the cell is the lower level physical protein interactions. Many computational methods have been implemented so far to the problem of predicting protein interactions, without achieving at the same time high performance and interpretability. At the framework of the current thesis the problem of PPI prediction is analyzed. The most contemporary experimental and computational methods for detecting PPIs are described. We will analyze their differences, advantages, disadvantages and restrictions and moreover ways for their future improvement and development are discussed.
Next, we focus on the way that the topology of the physical interaction network effects on the functional interactions that take place inside the cell, such as the regulatory and the genetic interactions. A physical protein interaction network is been constructed. The topology of that network is been exploited by using kernel diffusion techniques. By varying the diffusion degree, the diffusion profiles are been created. Next, the diffusion profiles are used to characterize the topologies that connect the proteins on the physical interaction network. Moreover, the diffusion profiles are proved to be excellent tools in the improvement of the performance of the algorithms that focus on the prediction of functional interactions.
Next, protein interactions are been utilized again to predict interactions at a level above the functional interactions and that is the interactions of the biological processes as they are described in the Gene Ontology database. The classical approach for studying the complex biological networks is based on the identification of interactions between the internal components metabolic or signaling pathways. Moreover, very little is known nowadays about the interactions between higher order biological systems, such as the biological processes and pathways. In the framework of the current thesis, a new methodology for the detection of interactions between biological processes is been proposed. The methodology analyzes weighted or not protein interactions. The major result of the thesis is the network constructed by using the predicted interactions between biological processes, the so called biological processes interaction network.
Various databases have been developed containing information about experimentally and computationally detected human PPIs as well as their corresponding annotation data. However, these databases contain many false positive interactions, are partial and only a few of them incorporate data from various sources. To overcome these limitations, we have developed HINT-KB (http://150.140.142.24:84), a knowledge base that integrates data from various sources, provides a user-friendly interface for their retrieval, calculates a set of features of interest and computes a confidence score for every candidate protein interaction. This confidence score is essential for filtering the false positive interactions which are present in existing databases, predicting new protein interactions and measuring the frequency of each true protein interaction. For this reason, a novel machine learning hybrid methodology, called (Evolutionary Kalman Mathematical Modelling - EvoKalMaModel), was used to achieve an accurate and interpretable scoring methodology. The experimental results indicated that the proposed scoring scheme outperforms existing computational methods for the prediction of PPIs.
The results of the current thesis are expected to contribute in the prediction of new potential interaction of the lower and the higher cell level for the two organisms of Human and S. Cerevisiae. Moreover, they can used for understanding the higher organizational cell levels as a compact system. Finally, the results are expected to enhance the possibility of reconstructing the state-of-the-art approaches for organizing the biological knowledge.

Identiferoai:union.ndltd.org:upatras.gr/oai:nemertes:10889/6532
Date09 December 2013
CreatorsΔημητρακόπουλος, Χρήστος
ContributorsΛυκοθανάσης, Σπυρίδων, Dimitrakopoulos, Christos, Λυκοθανάσης, Σπυρίδων, Τσακαλίδης, Αθανάσιος, Χατζηλυγερούδης, Ιωάννης
Source SetsUniversity of Patras
Languagegr
Detected LanguageGreek
TypeThesis
Rights0
RelationΗ ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της.

Page generated in 0.0038 seconds