Return to search

Χρήση ευφυών αλγοριθμικών τεχνικών για επεξεργασία πρωτεϊνικών δεδομένων

H παρούσα διατριβή εκπονήθηκε στο Εργαστήριο Αναγνώρισης Προτύπων, του Τμήματος Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής του Πανεπιστημίου Πατρών. Αποτελεί μέρος της ευρύτερης ερευνητικής δραστηριότητας του Εργαστηρίου στον τομέα του σχεδιασμού και της εφαρμογής των τεχνολογιών Υπολογιστικής Νοημοσύνης στην ανάλυση βιολογικών δεδομένων. Η διδακτορική αυτή διατριβή χρηματοδοτήθηκε από το πρόγραμμα Ηράκλειτος ΙΙ.
Ο τομέας της πρωτεωμικής είναι ένα σχετικά καινούργιο και γρήγορα αναπτυσσόμενο ερευνητικό πεδίο. Μια από τις μεγαλύτερες προκλήσεις στον τομέα της πρωτεωμικής είναι η αναδόμηση του πλήρους πρωτεϊνικού αλληλεπιδραστικού δικτύου μέσα στα κύτταρα. Εξαιτίας του γεγονότος, ότι οι πρωτεϊνικές αλληλεπιδράσεις παίζουν πολύ σημαντικό ρόλο στις βασικές λειτουργίες ενός κυττάρου, η ανάλυση αυτών των δικτύων μπορεί να αποκαλύψει τον ρόλο αυτών των αλληλεπιδράσεων στις ασθένειες καθώς και τον τρόπο με τον οποίο οι τελευταίες αναπτύσσονται. Παρόλα αυτά, είναι αρκετά δύσκολο να καταγραφούν και να μελετηθούν οι πρωτεϊνικές αλληλεπιδράσεις ενός οργανισμού, καθώς το πρωτέωμα διαφοροποιείται από κύτταρο σε κύτταρο και αλλάζει συνεχώς μέσα από τις βιοχημικές του αλληλεπιδράσεις με το γονιδίωμα και το περιβάλλον. Ένας οργανισμός έχει ριζικά διαφορετική πρωτεϊνική έκφραση στα διάφορα σημεία του σώματός του, σε διαφορετικά στάδια του κύκλου ζωής του και υπό διαφορετικές περιβαλλοντικές συνθήκες. Δημιουργούνται, λοιπόν, δύο πάρα πολύ σημαντικοί τομείς έρευνας, που είναι, πρώτον, η εύρεση των πραγματικών πρωτεϊνικών αλληλεπιδράσεων ενός οργανισμού που θα συνθέσουν το πρωτεϊνικό δίκτυο αλληλεπιδράσεων και, δεύτερον, η περαιτέρω ανάλυση του πρωτεϊνικού δικτύου για εξόρυξη πληροφορίας (εύρεση πρωτεϊνικών συμπλεγμάτων, καθορισμός λειτουργίας πρωτεϊνών κτλ).
Στην παρούσα διδακτορική διατριβή παρουσιάζονται καινοτόμες αλγοριθμικές τεχνικές Υπολογιστικής Νοημοσύνης για την πρόβλεψη πρωτεϊνικών αλληλεπιδράσεων, τον υπολογισμό ενός βαθμού εμπιστοσύνης για κάθε προβλεφθείσα αλληλεπίδραση, την πρόβλεψη πρωτεϊνικών συμπλόκων από δίκτυα πρωτεϊνικών αλληλεπιδράσεων και την πρόβλεψη της λειτουργίας πρωτεϊνών.
Συγκεκριμένα, στο κομμάτι της πρόβλεψης και βαθμολόγησης πρωτεϊνικών αλληλεπιδράσεων αναπτύχθηκε μια πληθώρα καινοτόμων τεχνικών ταξινόμησης. Αυτές κυμαίνονται από υβριδικούς συνδυασμούς μετα-ευρετικών μεθόδων και ταξινομητών μηχανικής μάθησης, μέχρι μεθόδους γενετικού προγραμματισμού και υβριδικές μεθοδολογίες ασαφών συστημάτων. Στο κομμάτι της πρόβλεψης πρωτεϊνικών συμπλόκων υλοποιήθηκαν δύο βασικές καινοτόμες μεθοδολογίες μη επιβλεπόμενης μάθησης, οι οποίες θεωρητικά και πειραματικά ξεπερνούν τα μειονεκτήματα των υπαρχόντων αλγορίθμων. Για τις περισσότερες από αυτές τις υλοποιηθείσες μεθοδολογίες υλοποιήθηκαν φιλικές προς τον χρήστη διεπαφές. Οι περισσότερες από αυτές τις μεθοδολογίες μπορούν να χρησιμοποιηθούν και σε άλλους τομείς. Αυτό πραγματοποιήθηκε με μεγάλη επιτυχία σε προβλήματα βιοπληροφορικής όπως η πρόβλεψη microRNA γονιδίων και mRNA στόχων τους και η μοντελοποίηση - πρόβλεψη οικονομικών χρονοσειρών.
Πειραματικά, η μελέτη αρχικά επικεντρώθηκε στον οργανισμό της ζύμης (Saccharomyces cerevisiae), έτσι ώστε να αξιολογηθούν οι αλγόριθμοι, που υλοποιήθηκαν και να συγκριθούν με τις υπάρχουσες αλγοριθμικές μεθοδολογίες. Στη συνέχεια, δόθηκε ιδιαίτερη έμφαση στις πρωτεΐνες του ανθρώπινου οργανισμού. Συγκεκριμένα, οι καλύτερες αλγοριθμικές τεχνικές για την ανάλυση δεδομένων πρωτεϊνικών αλληλεπιδράσεων εφαρμόστηκαν σε ένα σύνολο δεδομένων που δημιουργήθηκε για τον ανθρώπινο οργανισμό. Αυτό είχε σαν αποτέλεσμα την δημιουργία ενός πλήρους, σταθμισμένου δικτύου πρωτεϊνικών αλληλεπιδράσεων για τον άνθρωπο και την εξαγωγή των πρωτεϊνικών συμπλόκων, που υπάρχουν σε αυτό καθώς και τον λειτουργικό χαρακτηρισμό πολλών αχαρακτήριστων πρωτεϊνών.
Τα αποτελέσματα της ανάλυσης των δεδομένων πρωτεϊνικών αλληλεπιδράσεων για τον άνθρωπο είναι διαθέσιμα μέσω μίας διαδικτυακής βάσης γνώσης HINT-KB (http://hintkb.ceid.upatras.gr), που υλοποιήθηκε στα πλαίσια αυτής της διδακτορικής διατριβής. Σε αυτή την βάση γνώσης ενσωματώνεται, από διάφορες πηγές, ακολουθιακή, δομική και λειτουργική πληροφορία για ένα τεράστιο πλήθος ζευγών πρωτεϊνών του ανθρώπινου οργανισμού. Επίσης, οι χρήστες μπορούν να έχουν προσβαση στις προβλεφθείσες πρωτεϊνικές αλληλεπιδράσεις και στον βαθμό εμπιστοσύνης τους. Τέλος, παρέχονται εργαλεία οπτικοποίησης του δικτύου πρωτεϊνικών αλληλεπιδράσεων, αλλά και εργαλεία ανάκτησης των πρωτεϊνικών συμπλόκων που υπάρχουν σε αυτό και της λειτουργίας πρωτεϊνών και συμπλόκων.
Το προβλήματα με τα οποία καταπιάνεται η παρούσα διδακτορική διατριβή έχουν σημαντικό ερευνητικό ενδιαφέρον, όπως τεκμηριώνεται και από την παρατιθέμενη στη διατριβή εκτενή βιβλιογραφία. Μάλιστα, βασικός στόχος είναι οι παρεχόμενοι αλγόριθμοι και υπολογιστικά εργαλεία να αποτελέσουν ένα οπλοστάσιο στα χέρια των βιοπληροφορικάριων για την επίτευξη της κατανόησης των κυτταρικών λειτουργιών και την χρησιμοποίηση αυτής της γνώσης για γονιδιακή θεραπεία διαφόρων πολύπλοκων πολυπαραγοντικών ασθενειών όπως ο καρκίνος.
Τα σημαντικόταρα επιτεύγματα της παρούσας διατριβής μπορούν να συνοψισθούν στα ακόλουθα σημεία:
• Παροχή ολοκληρωμένης υπολογιστικής διαδικασίας ανάλυσης δεδομένων πρωτεϊνικών αλληλεπιδράσεων
• Σχεδιασμός και υλοποίηση ευφυών τεχνικών πρόβλεψης και βαθμολόγησης πρωτεϊνικών αλληλεπιδράσεων, που θα παρέχουν αποδοτικά και ερμηνεύσιμα μοντέλα πρόβλεψης.
• Σχεδιασμός και υλοποίηση αποδοτικών αλγορίθμων μη επιβλεπόμενης μάθησης για την εξόρυξη πρωτεϊνικών συμπλόκων από δίκτυα πρωτεϊνικών αλληλλεπιδράσεων.
• Δημιουργία μιας βάσης γνώσης που θα παρέχει στην επιστημονική κοινότητα όλα τα ευρήματα της ανάλυσης των δεδομένων πρωτεϊνικών αλληλεπιδράσεων για τον ανθρώπινο οργανισμό. / The present dissertation was conducted in the Pattern Recognition Laboratory, of the Department of Computer Engineering and Informatics at the University of Patras. It is a part of the wide research activity of the Pattern Recognition Laboratory in the domain of designing, implementing and applying Computational Intelligence technologies for the analysis of biological data. The present dissertation was co-financed by the research program Hrakleitos II.
The proteomics domain is a quite new and fast evolving research domain. One of the great challenges in the domain of proteomics is the reconstruction of the complete protein-protein interaction network within the cells. The analysis of these networks is able to uncover the role of protein-protein interactions in diseases as well as their developmental procedure, as protein-protein interactions play very important roles in the basic cellular functions. However, this is very hard to be accomplished as protein-protein interactions and the whole proteome is differentiated among cells and it constantly changes through the biochemical cellular and environment interactions. An organism has radically different protein expression in different tissues, in different phases of his life and under varying environmental conditions. Two very important domains of research are created. First, the identification of the real protein-protein interactions within an organism which will compose its protein interaction network. Second, the analysis of the protein interaction network to extract knowledge (search for protein complexes, uncovering of proteins functionality e.tc.)
In the present dissertation novel algorithmic Computational Intelligent techniques are presented for the prediction of protein-protein interactions, the prediction of a confidence score for each predicted protein-protein interaction, the prediction of protein complexes and the prediction of proteins functionality.
In particular, in the task of predicting and scoring protein-protein interactions, a wide range of novel classification techniques was designed and developed. These techniques range from hybrid combinations of meta-heuristic methods and machine learning classifiers, to genetic programming methods and fuzzy systems. For the task of predicting protein complexes, two novel unsupervised methods were designed and developed which theoretically and experimentally surpassed the limitations of existing methodologies. For most of the designed techniques user friendly interfaces were developed to allow their utilizations by other researchers. Moreover, many of the implemented techniques were successfully applied to other research domaines such as the prediction of microRNAs and their targets and the forecastment of financial time series.
The experimental procedure, initially focused on the well studied organism of Yeast (Saccharomyces cerevisiae) to validate the performance of the proposed algorithms and compare them with existing computational methodologies. Then, it focuses on the analysis of protein-protein interaction data from the Human organism. In specific, the best algorithmic techniques, from the ones proposed in the present dissertation, were applied to a human protein-protein interaction dataset. This resulted to the construction of a weighted protein-protein interaction network of high coverage, to the extraction of human protein complexes and to the functional characterization of Human proteins and complexes.
The results of the analysis of Human protein-protein interaction data are available in the web knowledge base HINT-KB (http://hintkb.ceid.upatras.gr) which was implemented during this dissertation. In this knowledge base, structural, functional and sequential information from various sources were incorporated for every protein pair. Moreover, HINTKB provide access to the predicted and scored protein-protein interactions and to the predicted protein complexes and their functional characterization.
The problems which occupied the present dissertation have very significant research interest as it is proved by the provided wide bibliography. The basic goal is the provided algorithms and tools to contribute in the ultimate goal of systems biology to understand the cellular mechanisms and contribute in the development of genomic therapy of complex diseases such as cancer.
The most important achievements of the present dissertation are summarized in the next points:
• Providing an integrated computational framework for the analysis of protein-protein interaction data.
• Designing and implementing intelligent techniques for predicting and scoring protein-protein interactions in an accurate and interpretable manner.
• Designing and implementing effective unsupervised algorithmic techniques for extracting protein complexes and predicting their functionality.
• Creating a knowledge base which will provide to the scientific community all the findings of the analysis conducted on the Human protein-protein interaction data.

Identiferoai:union.ndltd.org:upatras.gr/oai:nemertes:10889/7778
Date10 June 2014
CreatorsΘεοφιλάτος, Κωνσταντίνος
ContributorsΛυκοθανάσης, Σπυρίδων, Theofilatos, Konstantinos, Γεωργόπουλος, Ευστράτιος, Κοσσίδα, Σοφία, Μαυρουδή, Σεφερίνα, Λυγερού, Ζωή, Τσακαλίδης, Αθανάσιος, Ζαρκάδης, Ιωάννης, Λυκοθανάσης, Σπυρίδων
Source SetsUniversity of Patras
Languagegr
Detected LanguageGreek
TypeThesis
Rights0
RelationΗ ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της.

Page generated in 0.0044 seconds