1 |
Discovery of gene interactions in regulatory networks using genomic data mining and computational intelligence methods / Ανακάλυψη των (αιτιώδων) σχέσεων αλληλεπίδρασης στο δίκτυο ρύθμισης γονιδίων, με χρήση προηγμένων μεθόδων τεχνητής νοημοσύνης, βασιζόμενες στην εξόρυξη πληροφορίας από δεδομένα συνολικής γονιδιωματικής κλίμακοςDragomir, Andrei 16 December 2008 (has links)
The advent of efficient genome sequencing tools and high-throughput experimental biotechnology has lead to an enormous progress in life sciences. Among the most important innovations is the microarray technology. It allows to quantify the expression of thousands of genes simultaneously by measuring the hybridization from a tissue of interest to probes on a small glass or plastic slide. Before launching into microarray research it is important to recall that the characteristics of this data include a fair amount of noise and an atypical dimensionality (which makes difficult the use of classic statistics tools – experimental samples in the order of dozens and measured parameters in thousands or tens of thousands). Therefore, the main goal of this thesis is the development of adequate computational methods and algorithms, capable of extracting valuable biological knowledge from this type of data.
Applications of microarray technology as a tool for gene expression analysis range from the assignment of functional categories for genes of unknown biological function (based on the analysis of genes with already established biological role), to precise and early diagnosis of different tumor malignancies. However, the main goal of computational analysis of gene expression data is the extraction of regulatory knowledge at genetic level that may be used to provide a broader understanding on the functioning of complex cellular systems. In this direction, revealing the structures of regulatory networks based of gene expression data becomes a pivotal task.
The thesis contributes with a framework for the discovery of biological functional category of genes based on the synergy of ICA and a dynamic SOM-based clustering algorithm, that accurately finds groups of co-regulated genes, while identifying interesting regulatory signals within the data with the help of ICA decomposition. We also pursue the task of molecular characterization of different tumor types using gene expression profiling, by providing a novel method for tissue samples classification, based on an ensemble of classifiers sequentially trained on reweighted versions of the data. The algorithm, known as boosting, is adapted to peculiarities of gene expression data and employed in conjunction with SVMs. Additionally, the novel concept of finding predictive genes whose signatures are significant for phenotype discrimination is treated.
Finally, the thesis presents a method developed for reverse-engineering gene regulatory networks based on recurrent neuro-fuzzy networks, which exploits the advantages of fuzzy-based models, in terms of results interpretability, and those of neural systems, in terms of computational power and time series prediction capabilities. / H έλευση ικανών υπολογιστικών εργαλείων για την μελέτη της γενομικής ακολουθίας και της ερευνητικής βιοτεχνολογίας υψηλής ανάλυσης, οδήγησε σε μια τεράστια πρόοδο στις επιστήμες ζωής. Μεταξύ των πιο σημαντικών καινοτομιών είναι η τεχνολογία μικροσυστοιχιών. H τεχνολογία αυτή επιτρέπει την ποσοτικοποίηση της έκφρασης χιλιάδων γονιδίων ταυτόχρονα, μετρώντας τον υβριδισμό από έναν ιστό ενδιαφέροντος έως σε δείγματα σε μικρό γυαλί η σε πλαστικά τσιπ. Πριν ξεκινήσουμε την έρευνα πάνω στις μικροσυστοιχίες είναι σημαντικό να θυμόμαστε ότι τα χαρακτηριστικά των δεδομένων αυτής περιλαμβάνουν αρκετό ποσό θορύβου και ένα μη τυπικό αριθμό διαστάσεων (το οποίο καθιστά δύσκολη την χρήση κλασσικών στατιστικών μεθόδων – μέγεθος δείγματος σε δωδεκάδες και μέγεθος χαρακτηριστικών σε χιλιάδες η δεκάδες η εκατοντάδες). Επομένως, ο κύριος στόχος αυτής της διδακτορικής εργασίας είναι η ανάπτυξη ικανών υπολογιστικών μεθόδων και αλγόριθμων έτσι ώστε να εξάγουν πολύτιμη βιολογική γνώση από τον συγκεκριμένο τύπο δεδομένων.
Εφαρμογές της τεχνολογίας μικροσυστοιχιών σαν ένα εργαλείο για την ανάλυση έκφρασης γονιδίων ξεκινούν από την εύρεση και απόδοση λειτουργικών κατηγοριών για γονίδια άγνωστης βιολογικής λειτουργικότητας (βασισμένη στην ανάλυση των γονιδίων ήδη εδραιωμένου βιολογικού ρόλου) έως την ακριβή και πρώιμη διάγνωση διαφορετικών κακοήθων όγκων. Όμως ο κύριος στόχος της υπολογιστικής ανάλυσης της έκφρασης γονιδίων είναι η εξαγωγή ρυθμιζόμενης γνώσης στο γενετικό επίπεδο το οποίο μπορεί να χρησιμοποιηθεί ώστε να παρέχει μία ευρύτερη κατανόηση της λειτουργίας πολύπλοκων κυτταρικών συστημάτων. Σε αυτή την κατεύθυνση, το να αναδεικνύεις τις δομές ρυθμιστικών δικτύων βασισμένων στην έκφραση γονιδίων γίνεται καίριο έργο.
Η διδακτορική διατριβή συνεισφέρει στο πλαίσιο για την ανακάλυψη βιολογικά λειτουργικών κατηγοριών γονιδίων βασισμένη στην συνεργία της ΙCA και της δυναμικού βασισμένου στη SOM ομαδοποίηση αλγορίθμου η οποία με ακρίβεια βρίσκει ομάδες γονιδίων που συν-ρυθμίζονται ενώ παράλληλα αναγνωρίζει ενδιαφέροντα ρυθμιστικά σήματα μέσα στα δεδομένα με τη βοήθεια της ΙCA αποδόμησης. Eπίσης, προσανατολιζόμαστε στην εύρεση του μοριακού χαρακτηρισμού διαφορετικών τύπων όγκων χρησιμοποιώντας το προφίλ της γονιδιακής έκφρασης, βασισμένο σε ένα σύνολο κατηγοριοποιητών οι οποίοι εκπαιδεύτηκαν σειριακά σε επανασταθμισμένες παραλλαγές των δεδομένων. Ο αλγόριθμος, γνωστός και σαν boosting, έχει προσαρμοστεί στις ιδιαιτερότητες των δεδομένων έκφρασης γονιδίου και εφαρμόζεται σε συνδυασμό με τα SVMs.
Επιπλέον, εξετάζεται η πρωτοποριακή τεχνική της εύρεσης προβλέψιμων τιμών των οποίων οι υπογραφές είναι σημαντικές για τον χαρακτηρισμό φαινότυπου.
Τελικά, η παρούσα διδακτορική διατριβή παρουσιάζει μια μέθοδο που αναπτύχθηκε για αντίστροφα μηχανικά ελεγχόμενα από γονίδια νευρωνικά δίκτυα βασισμένα σε αναδρομικά νευρωνικά δίκτυα τύπου fuzzy, τα οποία αξιοποιούν τα πλεονεκτήματα των μοντέλων τύπου fuzzy σε βάση επεξηγηματικότητας αποτελεσμάτων, και αυτών των νευρωνικών δικτύων σε βάση υπολογιστικής δύναμης και ικανότητας πρόβλεψης χρονοσειρών.
|
Page generated in 0.0185 seconds