• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 15
  • 1
  • Tagged with
  • 16
  • 15
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Ανάπτυξη διαδικτυακής εφαρμογής με σκοπό τη βέλτιστη ταυτοποίηση πεπτιδίων και πρωτεϊνών από δεδομένα πρωτεωμικής ανάλυσης

Αλεξανδρίδου, Αναστασία 08 February 2008 (has links)
Παρουσίαση των μεθόδων και των τεχνικών που χρησιμοποιούνται για την αναζήτηση πρωτεϊνικών και πεπτιδικών ακολουθιών σε βιολογικές βάσεις δεδομένων. Σκοπός της εργασίας είναι η δημιουργία διαδικτυακής εφαρμογής που θα λειτουργήσει ως ελεύθερα διαθέσιμο εργαλείο Βιοπληροφορικής μέσω του οποίου θα ταυτοποιούνται πεπτίδια και πρωτεϊνες από δεδομένα φασματογραφικής ανάλυσης ανεξαρτήτως της επεξεργασίας που έχουν υποστεί τα πρωτογενή δείγματα. / The methods used in searching proteinate and peptide sequences in biological databases are presented. The aim of this study is to create a free distributed Bioinformatics tool, implemented in network enviroment, to verify peptides and proteines traced by spectographic analysis, regerdless of the processing of the original samples.
2

Βιοπληροφορική ανάλυση του γονιδιώματος του μήκυτα Schizosaccharomyces pombe προς εξαγωγή χαρακτηριστικών και πρόβλεψη των αφετηριών αντιγραφής του

Δημόπουλος, Σωτήριος 12 February 2008 (has links)
Η αντιγραφή του DNA αποτελεί μια θεμελιώδη διαδικασία για κάθε μορφή ζωής. Στους ευκαρυωτικούς οργανισμούς, εξαιτίας του μεγάλου μεγέθους του γονιδιώματός τους, η αντιγραφή του DNA εκκινά από πολλαπλά σημεία προκειμένου να ολοκληρωθεί σε εύλογο χρονικό διάστημα. Οι περιοχές αυτές ονομάζονται αφετηρίες αντιγραφής και η μελέτη τους είναι σημαντική αφού είναι άρρηκτα συνδεδεμένες με την ακριβή ολοκλήρωση της αντιγραφής του DNA, διαδικασία ζωτικής σημασίας για το κύτταρο. Ενώ η λειτουργία των αφετηριών αντιγραφής είναι λίγο πολύ γνωστή, οι ακριβείς γονιδιωματικές δομές που συντελούν στο μηχανισμό επιλογής τους παραμένουν άγνωστες. Σκοπός αυτής της διπλωματικής εργασίας είναι η μελέτη, σε επίπεδο ολόκληρου του γονιδιώματος, των γονιδιωματικών περιοχών που αποτελούν αφετηρίες αντιγραφής του DNA και η εξαγωγή των χαρακτηριστικών που καθορίζουν την ιδιότητά τους να λειτουργούν ως αφετηρίες αντιγραφής του DNA. Ο ζυμομύκητας Schizosachharomyces pombe αποτελεί ιδανικό οργανισμό για τη μελέτη της διαδικασίας αντιγραφής του DNA, κυρίως εξαιτίας της ομοιότητας που διαθέτει με τους ανώτερους ευκαρυωτικούς οργανισμούς. Η παρούσα βιοπληροφορική ανάλυση εκτελεί επεξεργασία ολόκληρου του γονιδιώματος του S. pombe. Βασίζεται σε δύο πολύ πρόσφατα, αλλά διαφορετικών ερευνητικών ομάδων, πειράματα μικροσυστοιχειών στα οποία αναγνωρίστηκαν οι αφετηρίες αντιγραφής σε όλο το γονιδίωμα του ζυμομύκητα (Heichinger et al, 2006 και Hayashi et al, 2007). Συνδυάζοντας τα πειράματα αυτά, καταφέραμε να διαχωρίσουμε το σύνολο των διαγονιδιακών περιοχών του S. pombe σε κατηγορίες ανάλογα με την ικανότητα τους να εκκινούν την αντιγραφή του DNA. Έπειτα, ορίσαμε 3 νέα γονιδιωματικά παραμετρικά χαρακτηριστικά και μαζί με τη δημιουργία ενός συστήματος βελτιστοποίησης παραμέτρων, εξετάσαμε πώς πρέπει να διαμορφωθούν οι διάφορες παράμετροί τους ώστε να δημιουργούνται δομές που παρατηρούνται μονάχα στις αφετηρίες αντιγραφής. Για συγκεκριμένους συνδυασμούς παραμέτρων, η ταξινόμηση των διαγονιδιακών περιοχών με βάση τα καινούρια χαρακτηριστικά αγγίζει το 90% σε ευαισθησία, και το 77% σε θετικό προγνωστικό δείκτη. Επομένως, τα νέα γονιδιωματικά χαρακτηριστικά αφορούν δομές που παρατηρούνται σχεδόν εξολοκλήρου στις αφετηρίες αντιγραφής και σπάνια στις υπόλοιπες διαγονιδιακές περιοχές, παρέχοντας έτσι τον κύριο μηχανισμό επιλογής των αφετηριών αντιγραφής του DNA στο γονιδίωμα του S. pombe. / DNA replication constitutes an essential process for every life form. In eukaryotic organisms which are characterized by large genome size, DNA replication initiates from multiple points along the genome, so that it is completed within the allocated time. These genomic sites are called replication origins and their study is important as their selection and timely activation is pivotal for the maintenance of genomic integrity. Despite extensive studies from several laboratories, the features that specify an origin remain elusive, especially in higher eukaryotes. The purpose of this thesis is a genome-wide study of the genomic areas that function as replication origins and the extraction of the genomic features that determine this activity. Schizosachharomyces pombe (S. pombe, fission yeast) is an ideal organism for the study of the DNA replication procedure as it shares several common features with higher eukaryotic organisms. In this bioinformatics study, a genome-wide analysis of the S. pombe genome is performed. It is based on two very recent reports from different teams using microarray experiments, in which genome-wide identification of the S. pombe replication origins took place (Heichinger et al, 2006 and Hayashi et al, 2007). Combining these two experiments we managed to separate the fission yeast inter-genic regions in categories depending on their ability to function as replication origins. We then defined 3 new parametric genomic features, created a framework for solving the parameter estimation problem and analyzed how these parameters should be defined so that the specified structures are solely observed in genomic sites that function as replication origins. We observed that for certain parametric combinations, the classification of the intergenic regions as replication origins and as intergenic regions showing no origin activity reached 90% in sensitivity and 77% in positive predictive value. Therefore, the new genomic features identified through this study represent structures that are almost always and solely observed in intergenic regions showing replication activity, and are likely to provide the main genomic mechanism of origin selection in the fission yeast genome.
3

Μελέτη των μηχανισμών διατάραξης της ομαλής κυτταρικής λειτουργίας μέσω της ανακατασκευής γονιδιακών ρυθμιστικών δικτύων

Μαραζιώτης, Ιωάννης Α. 27 September 2010 (has links)
- / -
4

Εξαγωγή δικτύων αλληλεπιδράσεων για την εξομοίωση βιολογικών διεργασιών σε χαμηλό και υψηλό επίπεδο μέσω ευφυών αλγορίθμων / Inference of Interaction Networks for High and Low Level Simulation of Biological Processes using Intelligent Algorithms

Δημητρακόπουλος, Χρήστος 09 December 2013 (has links)
Η μελέτη των βιολογικών συστημάτων στα διαφορετικά επίπεδα οργάνωσης του κυττάρου είναι ένας τομέας που αναδύεται ταχύτατα στην περιοχή της υπολογιστικής βιολογίας. Η πλειοψηφία των ερευνών σε αυτό τον τομέα έχει επικεντρωθεί στον διαχωρισμό των γονιδίων σε βιολογικά μονοπάτια ή διεργασίες. Το επόμενο βήμα στην κατανόηση του κυττάρου στο συστημικό του επίπεδο είναι ο καθορισμός του τρόπου με τον οποίο οι συγκεκριμένες κυτταρικές διεργασίες λειτουργούν μαζί για να επιτελέσουν τις κυτταρικές λειτουργίες. Βασικός σκοπός της παρούσας διπλωματικής εργασίας είναι η πρόβλεψη αλληλεπιδράσεων διαφόρων ειδών οι οποίες λαμβάνουν μέρος στα διαφορετικά επίπεδα του κυττάρου καθώς και η διερεύνηση του τρόπου με τον οποίο αυτές οι αλληλεπιδράσεις συνεργάζονται μεταξύ τους έτσι ώστε να επιτελέσουν τις κυτταρικές λειτουργίες. Στο χαμηλότερο επίπεδο του κυττάρου υπάρχουν οι φυσικές αλληλεπιδράσεις οι οποίες ισοδυναμούν με σύνδεση των πρωτεϊνών (ή μιας πρωτεΐνης και ενός DNA μορίου) στον 3-διάστατο χώρο. Η σύνδεση αυτή μπορεί να έχει διάφορα αποτελέσματα, όπως η μεταφορά ενός βιοσήματος ή η δημιουργία ενός νέου βιομορίου. Σε ένα ανώτερο επίπεδο από τις φυσικές αλληλεπιδράσεις, πραγματοποιούνται οι λειτουργικές αλληλεπιδράσεις οι οποίες μπορούν σε γενικές γραμμές να κατηγοριοποιηθούν σε σειριακές λειτουργικές αλληλεπιδράσεις (δίκτυα ρυθμιστικών αλληλεπιδράσεων), παράλληλες λειτουργικές αλληλεπιδράσεις όπως για παράδειγμα η συνθετική θνησιμότητα (γενετικές αλληλεπιδράσεις) και συνεργατικές λειτουργικές αλληλεπιδράσεις, όπως για παράδειγμα τα πρωτεϊνικά σύμπλοκα. Οι βιολογικές διεργασίες οι οποίες δραστηριοποιούνται στο ανώτατο επίπεδο του κυττάρου είναι στην πραγματικότητα ομάδες πρωτεϊνών και γονιδίων τα οποία λειτουργούν συνεργατικά. Οι αλληλεπιδράσεις μεταξύ των βιολογικών διεργασιών είναι οι υψηλότερου κυτταρικού επιπέδου αλληλεπιδράσεις τις οποίες θα μπορούσαμε να ανιχνεύσουμε. Η ανίχνευση των παραπάνω διαφορετικών ειδών αλληλεπιδράσεων καθώς και η εννοιολογική σύνδεσή τους αποτελεί το αντικείμενο μελέτης της παρούσας διπλωματικής εργασίας. Η αναγκαία πληροφορία για να οδηγηθούμε στην πρόβλεψη αλληλεπιδράσεων του ανώτερου επιπέδου του κυττάρου είναι οι χαμηλού επιπέδου (physical) πρωτεϊνικές αλληλεπιδράσεις. Πολλές υπολογιστικές μέθοδοι έχουν εφαρμοστεί μέχρι στιγμής στο πρόβλημα της πρόβλεψης πρωτεϊνικών αλληλεπιδράσεων, οι οποίες όμως αποτυγχάνουν στην ταυτόχρονη επίτευξη καλής απόδοσης και ερμηνευσιμότητας. Στα πλαίσια της διπλωματικής εργασίας αναλύεται το πρόβλημα της πρόβλεψης πρωτεϊνικών αλληλεπιδράσεων. Περιγράφονται οι πιο πρόσφατες πειραματικές και υπολογιστικές μέθοδοι για την ανίχνευση τους. Αναλύονται οι διαφορές τους, τα πλεονεκτήματα και τα μειονεκτήματά τους και επιπλέον γίνεται μία προσπάθεια καταγραφής των στοιχείων που τις περιορίζουν και προτείνονται τρόποι για την μελλοντική εξέλιξη και βελτίωσή τους. Στην συνέχεια μελετάται ο τρόπος με τον οποίο η τοπολογία των δικτύων πρωτεϊνικών αλληλεπιδράσεων επηρεάζει τις λειτουργικές αλληλεπιδράσεις που εμφανίζονται στο εσωτερικό του κυττάρου, όπως για παράδειγμα τις ρυθμιστικές (regulatory) και τις επιστατικές (genetic) αλληλεπιδράσεις. Δημιουργείται ένα σταθμισμένο δίκτυο το οποίο περιέχει πληροφορία για τις αλληλεπιδράσεις μεταξύ των πρωτεϊνών στο φυσικό επίπεδο (physical interactions). Η εκμετάλλευση της τοπολογίας του δικτύου φυσικών αλληλεπιδράσεων γίνεται μέσω τεχνικών διάχυσης πυρήνων (kernel diffusion). Τροποποιώντας τον βαθμό της διάχυσης (degree of diffusion), δημιουργούνται τα προφιλ διάχυσης (diffusion profiles). Στην συνέχεια, αυτά τα προφίλ χρησιμοποιούνται προκειμένου να χαρακτηρίσουν τις τοπολογίες που συνδέουν τις πρωτεΐνες πάνω στο δίκτυο φυσικών αλληλεπιδράσεων. Επίσης τα προφίλ διάχυσης, αποδεικνύονται εξαιρετικά χρήσιμα εργαλεία στην βελτίωση της απόδοσης των αλγορίθμων πρόβλεψης λειτουργικών αλληλεπιδράσεων. Στην συνέχεια οι πρωτεϊνικές αλληλεπιδράσεις χρησιμοποιούνται εκ νέου προκειμένου να προβλεφθούν εξαρτήσεις σε ένα επίπεδο υψηλότερα των λειτουργικών αλληλεπιδράσεων και συγκεκριμένα μεταξύ βιολογικών διεργασιών όπως αυτές περιγράφονται στην βάση δεδομένων Gene Ontology. Η κλασσική προσέγγιση στην μελέτη πολύπλοκων βιολογικών δικτύων βασίζεται στην ταυτοποίηση αλληλεπιδράσεων μεταξύ εσωτερικών συστατικών μεταβολικών ή σηματιδικών μονοπατιών. Επιπλέον, γνωρίζουμε σήμερα πολύ λίγα πράγματα για τις αλληλεπιδράσεις μεταξύ βιολογικών συστημάτων ανώτερης τάξης, όπως είναι τα βιολογικά μονοπάτια και οι βιολογικές διεργασίες. Στα πλαίσια της διπλωματικής εργασίας προτείνεται μια μεθοδολογία για την εύρεση αλληλεπιδράσεων μεταξύ βιολογικών διεργασιών αναλύοντας σταθμισμένες και μη σταθμισμένες πρωτεϊνικές αλληλεπιδράσεις. Βασική απόρροια της διπλωματικής εργασίας είναι οι αλληλεπιδράσεις μεταξύ βιολογικών διεργασιών που προέκυψαν και μέσω των οποίων δημιουργείται ένα νεο είδος δικτύου, το δίκτυο αλληλεπιδράσεων μεταξύ βιολογικών διεργασιών. Διάφορες βάσεις δεδομένων έχουν σχεδιαστεί για την αποθήκευση πληροφορίας σχετικής με τις πειραματικά και υπολογιστικά ταυτοποιημένες ανθρώπινες πρωτεϊνικές αλληλεπιδράσεις. Ωστόσο, αυτές οι βάσεις δεδομένων περιέχουν πολλές λανθασμένα θετικές αλληλεπιδράσεις, έχουν χαμηλή κάλυψη και μόνο λίγες από αυτές ενσωματώνουν πληροφορία από διάφορες πηγές. Για την αποφυγή των παραπάνω προβλημάτων, έχει σχεδιαστεί η βάση δεδομένων ΗΙΝΤ-ΚΒ (http://150.140.142.24:84) η οποία είναι μία βάση γνώσης που ενσωματώνει δεδομένα από διάφορες πηγές, παρέχει ένα φιλικό περιβάλλον προς τον χρήστη για την ανάκτησή τους, υπολογίζει ένα σύνολο χαρακτηριστικών και ένα σκορ εμπιστοσύνης για κάθε πιθανή πρωτεϊνική αλληλεπίδραση. Το σκορ εμπιστοσύνης είναι βασικό για το φιλτράρισμα των λανθασμένα θετικών αλληλεπιδράσεων οι οποίες είναι παρούσες σε διάφορες υπάρχουσες βάσεις δεδομένων. Για το σκοπό αυτό δημιουργήθηκε μία νέα υβριδική μεθοδολογία μηχανικής μάθησης, η οποία ονομάζεται Μαθηματική Μοντελοποίηση Εξελικτικού Κάλμαν (ΜΜΕΚ) για την επίτευξη μιας ακριβούς και ερμηνεύσιμης διαδικασίας ανάθεσης βαρών στις πρωτεϊνικές αλληλεπιδράσεις. Τα πειραματικά αποτελέσματα καταδεικνύουν ότι η συγκεκριμένη μέθοδος υπερτερεί σε σχέση με τις πιο γνωστές μεθόδους πρόβλεψης πρωτεϊνικών αλληλεπιδράσεων. Τα αποτελέσματα της διπλωματικής εργασίας φιλοδοξείται να συμβάλλουν στην πρόβλεψη νέων πιθανών αλληλεπιδράσεων του χαμηλού και του υψηλού κυτταρικού επιπέδου του ανθρώπινου οργανισμού και του οργανισμού του Ζακχαρομήκυτα (S. cerevisiae). Επιπλέον, μπορούν να χρησιμοποιηθούν για την κατανόηση των ανώτερων επιπέδων οργάνωσης του κυττάρου σαν ένα ενιαίο σύστημα. Τέλος, μία ακόμη σημαντική απόρροια που προκύπτει από την ανάλυση που παρέχεται από την διπλωματική εργασία είναι η ανάγκη επανεξέτασης της state-of-the-art προσεγγίσης της βάσης δεδομένων Gene Ontology για την οργάνωση της βιολογικής γνώσης. / The study of biological systems at different levels of organization is a rapidly emerging area of computational biology. The majority of research in this field has focused on partitioning genes into biological pathways or processes. The next hurdle in moving towards the goal of understanding the cell at a systems level is to determine how these partitioned cellular processes work together to achieve the cell’s objectives. The main goal of the thesis is the prediction of various kinds of interactions that take place in the different levels of the cell and the examination of the way that these interactions cooperate in order to fullfill the cell functions. At the lower level of the cell the physical interactions exist which entail the full range of chemical bonds between proteins DNA molecules. In addition to these physical descriptions, also functional descriptions of the cellular system can be determined. These can be broadly categorized into 1) serial function interactions, such as the regulatory network interactions, 2) parallel function interactions, such as epistatic interactions (e.g. synthetic lethality) and 3) collaborative function interactions, such as protein complexes. The biological processes which exist at the highest level of the cell are groups of proteins and genes that function collaboratively. The interactions between biological processes are the highest cellular level interactions that we can detect. The detection of the aforementioned different kinds of cellular interactions as well as their conceptual linkage is the subject that the current thesis focus on. The necessary information that leads to the prediction of interactions at the higher level of the cell is the lower level physical protein interactions. Many computational methods have been implemented so far to the problem of predicting protein interactions, without achieving at the same time high performance and interpretability. At the framework of the current thesis the problem of PPI prediction is analyzed. The most contemporary experimental and computational methods for detecting PPIs are described. We will analyze their differences, advantages, disadvantages and restrictions and moreover ways for their future improvement and development are discussed. Next, we focus on the way that the topology of the physical interaction network effects on the functional interactions that take place inside the cell, such as the regulatory and the genetic interactions. A physical protein interaction network is been constructed. The topology of that network is been exploited by using kernel diffusion techniques. By varying the diffusion degree, the diffusion profiles are been created. Next, the diffusion profiles are used to characterize the topologies that connect the proteins on the physical interaction network. Moreover, the diffusion profiles are proved to be excellent tools in the improvement of the performance of the algorithms that focus on the prediction of functional interactions. Next, protein interactions are been utilized again to predict interactions at a level above the functional interactions and that is the interactions of the biological processes as they are described in the Gene Ontology database. The classical approach for studying the complex biological networks is based on the identification of interactions between the internal components metabolic or signaling pathways. Moreover, very little is known nowadays about the interactions between higher order biological systems, such as the biological processes and pathways. In the framework of the current thesis, a new methodology for the detection of interactions between biological processes is been proposed. The methodology analyzes weighted or not protein interactions. The major result of the thesis is the network constructed by using the predicted interactions between biological processes, the so called biological processes interaction network. Various databases have been developed containing information about experimentally and computationally detected human PPIs as well as their corresponding annotation data. However, these databases contain many false positive interactions, are partial and only a few of them incorporate data from various sources. To overcome these limitations, we have developed HINT-KB (http://150.140.142.24:84), a knowledge base that integrates data from various sources, provides a user-friendly interface for their retrieval, calculates a set of features of interest and computes a confidence score for every candidate protein interaction. This confidence score is essential for filtering the false positive interactions which are present in existing databases, predicting new protein interactions and measuring the frequency of each true protein interaction. For this reason, a novel machine learning hybrid methodology, called (Evolutionary Kalman Mathematical Modelling - EvoKalMaModel), was used to achieve an accurate and interpretable scoring methodology. The experimental results indicated that the proposed scoring scheme outperforms existing computational methods for the prediction of PPIs. The results of the current thesis are expected to contribute in the prediction of new potential interaction of the lower and the higher cell level for the two organisms of Human and S. Cerevisiae. Moreover, they can used for understanding the higher organizational cell levels as a compact system. Finally, the results are expected to enhance the possibility of reconstructing the state-of-the-art approaches for organizing the biological knowledge.
5

Μελέτη της εξελικτικής πορείας των γονιδίων του συμπληρώματος που ανήκουν στην οικογένεια "MACPF" με τη χρήση εργαλείων της βιοπληροφορικής

Μυλωνά, Σύλβια-Χριστίνα 20 October 2010 (has links)
Στην παρούσα διπλωματική εργασία, επιχειρήθηκε η μελέτη της εξέλιξης των γονιδίων C6, C7, C8α, C8β και C9 του συστήματος του Συμπληρώματος που ανήκουν στην οικογένεια MACPF. Για την συλλογή των δεδομένων και την ανάλυσή τους, χρησιμοποιήθηκαν εργαλεία της βιοπληροφορικής. Στο τελικό στάδιο επεξεργασίας, οικοδομήθηκαν φυλογενετικά δένδρα που αφορούσαν είτε τις πλήρεις αλληλουχίες των πρωτεϊνών της υπεροικογένειας MACPF, είτε ξεχωριστά κάθε μία περιοχή (domain) που εμφανίζεται στις πρωτεΐνες της οικογένειας MACPF του Συμπληρώματος. Τα συμπεράσματα από τη ανάλυση των φυλογενετικών δένδρων, πιστοποιούν ότι πιθανόν από ένα προγονικό γονίδιο που ομοιάζει με τα γονίδια C6/C7 και έλκει την καταγωγή του στην εμφάνιση των πρώτων σπονδυλωτών και αποδεδειγμένα στο εξελικτικό στάδιο των χονδροιχθύων, μετά από συνεχείς γονιδιακούς διπλασιασμούς και απώλειες δομών, προέκυψαν τα υπόλοιπα γονίδια της οικογένειας MACPF, C8α, C8β και C9. Η μη εύρεση μέχρι σήμερα γονιδίων της οικογένειας αυτής σε ασπόνδυλα, αλλά και στο γονιδίωμα των αγνάθων, καθώς και η μη ταυτοποίηση μέχρι σήμερα των γονιδίων C7 και C9 στους χονδροιχθύες, δεν επιτρέπει απόλυτα και τελικά συμπεράσματα για την εξελικτική τους πορεία. Αν η πρωταρχική εμφάνιση των γονιδίων C6/C7 συνδυαστεί και με την ανεξάρτητη εξέλιξη μιας άλλης οικογένειας γονιδίων C3/C4/C5, στο ίδιο εξελικτικό στάδιο, με τα οποία και αλληλεπιδρά στο πρωτεϊνικό επίπεδο, κατά τον καταρράκτη ενεργοποίησης της λυτικής οδού του Συμπληρώματος, τότε ενισχύεται η άποψη ότι προηγήθηκε κατά την εξέλιξη η εμφάνιση των γονιδίων C6/C7. / The aim of the present thesis is to study the evolution of the genes of the complement of the C6, C7, C8a, C8b and C9 proteins that belong to the MACPF superfamily. Collection and analysis of the data was conducted by means of bioinformatics’ tools. In the final evaluation stage phylogenetic trees were constructed concerning full protein sequences of the MACPF superfamily members, as well as distinct conserved domains isolated within the MACPF proteins of the complement. Conclusions provided from the analysis of the phylogenetic trees, certify the possibility of the presence of an ancestral gene resembling C6/C7 genes, whose origin is located in the era of primitive bony organisms appearance and more precisely, and recently proven, in the evolutionary stage of cartilaginous fishes. This gene after undergoing consecutive genetic duplications and loss of domains generated the rest of the MACPF family genes, C8a, C8b and C9. The fact that genes of this family are not yet isolated in non- bony organisms, nor in the genome of agnatha species, combined with the lack of identification up to now of C7 and C9 genes in the cartilaginous fishes, does not allow definite and certain conclusions concerning their evolutionary development. Nevertheless if the primary appearance of C6/C7 genes would be combined to the simultaneous evolution of a distinct family of C3/C4/C5 genes, in the same evolutionary period, between which interaction takes place in protein level, within the activation cascade of the lytic pathway of the complement, the theory that C6/C7 genes appearance took place fist in the evolution is fortified.
6

Gene expression analysis using self organizing maps

Dragomir, Andrei 01 September 2010 (has links)
- / -
7

Ανάπτυξη και εφαρμογή εργαλείων βιοπληροφορικής για τη φυλογενετική ανάλυση και πρόβλεψη της δομής και ρύθμισης της λειτουργίας των πρωτεϊνών

Παυλοπούλου, Αθανασία 10 August 2011 (has links)
Στο πλαίσιο της παρούσης διατριβής, αξιοποιήθηκαν οι αλληλουχίες γνωστών γονιδιωμάτων, αλλά και γονιδιωμάτων που αποκρυπτογραφήθηκαν πρόσφατα, για να μελετηθεί η εξελικτική ιστορία τριών λειτουργικά σημαντικών πρωτεϊνικών οικογενειών: (α) των φυτικών DNA μεθυλομεταφορασών και (β) των ευκαρυωτικών RNA μεθυλομεταφορασών, οι οποίες είναι ένζυμα που επιφέρουν μεθυλίωση στις νουκλεοτιδικές αλληλουχίες, καθώς και (γ) των πεπτιδασών συγγενών της καλλικρεΐνης (KLKs), οι οποίες είναι γνωστές σερινοπρωτεϊνάσες με δράση τύπου θρυψίνης ή χυμοθρυψίνης. Οι εξελικτικές σχέσεις των χαρακτηρισμένων και καινοφανών πρωτεϊνών των τριών οικογενειών διερευνήθηκαν με κατασκευή φυλογενετικών δένδρων. Επίσης, αναλύθηκε η δευτεροταγής και τριτοταγής δομή των ομόλογων πρωτεϊνών, η δομή των γονιδίων που κωδικοποιούν τις πρωτεΐνες αυτές, και κατασκευάσθηκαν διαγνωστικά πρωτεϊνικά μοτίβα από τις αλληλουχίες των τριών οικογενειών ενζύμων. Τα αποτελέσματα των αναλύσεων οδήγησαν στην εξαγωγή σημαντικών συμπερασμάτων σχετικά με την πιθανή βιολογική λειτουργία των καινοφανών πρωτεϊνών. Συγκεκριμένα, ομόλογες φυτικές DNA μεθυλομεταφοράσες και καινοφανείς ευκαρυωτικές RNA μεθυλομεταφοράσες ταυτοποιήθηκαν σε δημόσιες βάσεις δεδομένων. Λεπτομερής φυλογενετική ανάλυση οδήγησε στην ταυτοποίηση των τεσσάρων ήδη γνωστών οικογενειών φυτικών DNA μεθυλομεταφορασών και μιας καινοφανούς υποοικογένειας (Pavlopoulou and Kossida, 2007). Επίσης, ταυτοποιήθηκαν πέντε υποοικογένειες ευκαρυωτικών RNA μεθυλομεταφορασών. Πέραν των τριών ήδη γνωστών υποοικογενειών (NOP2, NCL1 και YNL022C), ταυτοποιήθηκε μια καινοφανής υποοικογένεια (RCMT9), και μια υποοικογένεια, FMU, η οποία εθεωρείτο ότι απαντάται αποκλειστικά σε προκαρυωτικούς οργανισμούς (Pavlopoulou and Kossida, 2009). Επιπλέον, κατασκευάσθηκαν πρωτεϊνικά αποτυπώματα της οικογένειας (και των επιμέρους υποοικογενειών) των RNA μεθυλομεταφορασών, τα οποία καταχωρήθηκαν στη δευτερογενή πρωτεϊνική βάση δεδομένων PRINTS (http://www.bioinf.man.ac.uk/dbbrowser/PRINTS). Στα πλαίσια της διατριβής, αναπτύχθηκε το υπολογιστικό πρόγραμμα RCMTHMM, με σκοπό τη διάκριση/ταυτοποίηση των ευκαρυωτικών RNA μεθυλομεταφορασών, το οποίο διατέθηκε για δημόσια χρήση στη διεύθυνση URL: http://www.bioacademy.gr/bioinformatics/RCMTHMM. Σημαντική συνεισφορά της παρούσας μελέτης είναι η αναδιατύπωση της εξελικτικής ιστορίας των καλλικρεϊνών (Pavlopoulou et al., 2010). Οι καλλικρεΐνες είναι σημαντικά πρωτεολυτικά ένζυμα που δρουν ατομικά ή σε πρωτεολυτικούς καταρράκτες και ρυθμίζουν σημαντικές φυσιολογικές λειτουργίες, ενώ η απορρυθμισμένη δράση τους έχει συνδεθεί με σοβαρές ασθένειες (καρδιοαγγειακές, νευροεκφυλιστικές, φλεγμονώδεις, δερματικές, διάφορους τύπους καρκίνου). Για την απομόνωση νέων καλλικρεϊνών αξιοποιήθηκε το γεγονός ότι τα KLK γονίδια συνεντοπίζονται στο ίδιο χρωμόσωμα υπό μορφή μη διακοπτόμενης συστάδας γονιδίων. Σε προηγούμενες μελέτες είχε προταθεί ότι οι καλλικρεΐνες απαντώνται μόνον στα θηλαστικά και ότι εμφανίσθηκαν πριν από περίπου 150 εκατομμύρια χρόνια. Στην παρούσα μελέτη, ομόλογες καινοφανείς ακολουθίες καλλικρεϊνών ανιχνεύθηκαν in silico στα γονιδιώματα διάφορων οργανισμών. Ορθόλογα των καλλικρεϊνών ταυτοποιήθηκαν για πρώτη φορά στα ερπετά, στα πτηνά και στα αμφίβια, υποδεικνύοντας την εξελικτική καταγωγή των καλλικρεϊνών πριν από 330 εκατομμύρια χρόνια. Επιπροσθέτως, πέραν των 15 γνωστών KLKs (KLΚ1-15), ταυτοποιήθηκαν τρία καινοφανή μέλη (ορφανές Klks) και με σύγκριση των προβλεπόμενων δομών δείχθηκε ότι τα δομικά χαρακτηριστικά που σχετίζονται με την καταλυτική δράση είναι συντηρημένα στις καινοφανείς πρωτεϊνικές αλληλουχίες KLK. Σημειωτέον, δείχθηκε ότι στα γονιδιώματα όλων των υπό εξέταση οργανισμών, τα ορθόλογα γονίδια KLK χαρτογραφούνται στην ίδια χρωμοσωμική περιοχή, διευθετημένα εν σειρά με τον ίδιο προσανατολισμό και χωρίς παρεμβολή μη καλλικρεϊνικών γονιδίωνΠροτείναμε ότι η οικογένεια των καλλικρεϊνών προέκυψε από μια σειρά γονιδιακών διπλασιασμών και μεταλλάξεων, και ότι οι καλλικρεΐνες έχουν συνεξελιχθεί με τα ειδικά υποστρώματά τους (Pavlopoulou et al., 2010). / In the present thesis, the availability of an increasing number of complete or almost complete genomes, including those that were completed recently, enabled the study of the evolutionary history of three functionally important protein families: (a) the plant DNA methyltransferases and (b) the eukaryotic RNA methyltransferases, which are enzymes that catalyze the transfer of a methyl group to nucleotide sequences, as well as (c) the kallikrein-related peptidases or KLKs, which are trypsin- or chymotrypsin-like serine proteases. The evolutionary relationships of the already known and the novel proteins of the three families that were identified here were investigated using phylogenetic trees. Moreover, the secondary and tertiary structures of the homologous proteins were analyzed, as well as the structure of the protein-encoding genes, and diagnostic protein motifs were constructed based on the sequences of the three enzyme families. Our results led to suggestions pertaining to the biological function of the identified novel proteins. In particular, homologous plant DNA methyltransferases and novel eukaryotic RNA methyltransferases were identified in publicly accessible sequence databases. Detailed phylogenetic analysis of plant DNA methyltransferases identified four already known families and a novel subfamily in addition (Pavlopoulou and Kossida, 2007). Moreover, five distinct eukaryotic RNA methyltransferase subfamilies were identified; apart from the three already known subfamilies (NOP2, NCL1 and YNL022C), one novel subfamily (RCMT9) and the FMU which hitherto was considered to exist exclusively in prokaryotes were also identified (Pavlopoulou and Kossida, 2009). Furthermore, protein fingerprints were constructed from the generic family of RNA methyltransferases (and the individual subfamilies), which were deposited in the PRINTS database (http://www.bioinf.man.ac.uk/dbbrowser/PRINTS). We developed the computational program RCMTHMM, in order to discriminate/identify eukaryotic RNA methyltransferases from other proteins. The RCMTHMM program has been made publicly available in the URL: http://www.bioacademy.gr/bioinformatics/RCMTHMM. Finally, the evolutionary history of KLKs was reconstructed. Kallikreins are important proteolytic enzymes which are involved in proteolytic cascade pathways and their dysregulated expression has been associated with major human pathologies (cardiovascular diseases, neurodegenerative disorders, inflammatory diseases, skin diseases, different cancer types). The prominent feature of the kallikrein family is that it consists of tandemly and uninterruptedly arrayed genes on a single locus at human chromosome 19q13.3-13.4. This unique feature was used in order to identify novel KLKs and KLK-like genes/proteins. Previous studies on the evolution of kallikreins were restricted to mammals and the emergence of the kallikrein genes was suggested approximately 150 million years ago. In the present study, homologous novel kallikrein protein sequences were detected in silico in the genomes of various species. For the first time, novel KLK orthologues were identified in reptiles, aves and amphibia, which allowed us to trace the evolutionary origin of kallikreins 330 million years ago. In addition, apart from the 15 already known KLK genes (KLK1-15), three novel members were identified (orphan Klks). All the defining structural features which are related to the catalytic activity of KLKs were found to be conserved in the novel KLK protein sequences. Of particular interest, the synteny of the KLK-encoding genes was analyzed and it was shown that these genes are co-localized in contiguous, uninterrupted clusters maintaining the same orientation in all species under investigation. We suggest that a series of gene duplication and mutation events gave rise to the family of KLK enzymes and KLKs have co-evolved with their specific substrates (Pavlopoulou et al., 2010).
8

Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό

Ιωάννου, Ζαφειρία - Μαρίνα 23 January 2012 (has links)
Τα τελευταία χρόνια, υπάρχει ένα αυξανόμενο ενδιαφέρον για την αυτόματη εξόρυξη κειμένων (Text Mining) με βιοϊατρικό περιεχόμενο, λόγω της ραγδαίας αύξησης των δημοσιεύσεων που είναι αποθηκευμένες σε ηλεκτρονική μορφή σε Βάσεις Δεδομένων του Παγκόσμιου Ιστού, όπως το PubMed και το Springerlink. Το βασικό πρόβλημα που κάνει αυτό τον στόχο περισσότερο προκλητικό και δύσκολο είναι η αδυναμία της επεξεργασίας της διαθέσιμης αυτής πληροφορίας και της εξαγωγής χρήσιμων συνδέσεων και συμπερασμάτων. Κρίνεται, επομένως, επιτακτική η ανάπτυξη νέων εργαλείων που θα διευκολύνουν την εξόρυξη γνώσης από κείμενα βιολογικού περιεχομένου. Σκοπός της παρούσας διπλωματικής εργασίας είναι αρχικά η παρουσίαση γνωστών μεθόδων εξόρυξης δεδομένων από κείμενα αλλά και η ανάπτυξη ενός εργαλείου για την αποδοτική και αξιόπιστη ανακάλυψη γνώσεων από βιοϊατρική βιβλιογραφία που να βασίζεται σε προηγμένες τεχνικές εξόρυξης γνώσης από κείμενα. Πιο συγκεκριμένα, η προσπάθειά μας επικεντρώνεται στην ανάπτυξη ενός αποδοτικού αλγόριθμου συσταδοποίησης και τη χρήση αποδοτικών τεχνικών που αξιολογούν τα αποτελέσματα της συσταδοποίησης, έτσι ώστε να παρέχεται βοήθεια στον χρήστη στην προσπάθεια αναζήτησης του για πληροφορία βιολογικού περιεχομένου. Ο προτεινόμενος αλγόριθμος βασίζεται σε διαφορετικές τεχνικές συσταδοποίησης, όπως ο Ιεραρχικός Αλγόριθμος και ο Spherical K-means Αλγόριθμος και εφαρμόζει μια τελική ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν. Τα βασικά βήματα που περιλαμβάνει ο αλγόριθμος είναι: η προεπεξεργασία των κειμένων, η αναπαράσταση των κειμένων σε διανυσματική μορφή με χρήση του Διανυσματικού Μοντέλου (Vector Space Model), η εφαρμογή της Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing), η Ασαφής Συσταδοποίηση (Fuzzy Clustering), ο Ιεραρχικός Αλγόριθμος (Hierarchical Algorithm), o Spherical K-means Αλγόριθμος, η επιλογή της καλύτερης συστάδας και τέλος η ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν. Η εφαρμογή που υλοποιούμε βασίζεται στον παραπάνω αλγόριθμο και προσφέρει δύο τρόπους αναζήτησης: 1) σε τρέχοντα ερωτήματα του χρήστη, τα οποία αποθηκεύονται στη βάση δεδομένων και επομένως λειτουργεί ως μέσο συμπιεσμένης αποθήκευσης των προηγούμενων ερωτημάτων του χρήστη, 2) αναζήτηση μέσα από μία λίστα προκαθορισμένων Topic βιολογικού περιεχομένου και επομένως παρέχει στο χρήστη μια επιπλέον βοήθεια σε ένα ευρύ φάσμα ερωτημάτων. Επιπλέον, η εφαρμογή εξάγει χρήσιμες συσχετίσεις όρων χρησιμοποιώντας τις τελικές συστάδες. / There is an increasing interest in automatic text mining in biomedical texts due to the increasing number of electronically available publications stored in databases such as PubMed and SpringerLink. The main problem that makes this goal more challenging and difficult is the inability of processing the available information and extracting useful connections and assumptions. Therefore, there is an urgent need for new text-mining tools to facilitate the process of text mining from biomedical documents. The goal of the present diploma thesis is to present known methods of text mining, and to develop an application that provides reliable knowledge from biomedical literature based on efficient text mining techniques. In particular, our attempt is mainly focused on developing an efficient clustering algorithm and using techniques for evaluating the results of clustering, in order to assist the users in their biological information seeking activities. The proposed algorithm involves different clustering techniques, such as Hierarchical Algorithm, Spherical K-means Algorithm and employs a final ranking according to Impact Factor of retrieved documents. The basic steps of our algorithm are: preprocessing of text’s content, representation with the vector space model, applying Latent Semantic Indexing (LSI), fuzzy clustering, hierarchical clustering, spherical k-means clustering, selection of the best cluster and ranking of biomedical documents according to their impact factor. The application that we implement is based on the above algorithm and provides two search methods: 1) search with user’s queries, which are saved in the database and thus playing the role of a compacted storage of his past search activities, 2) search through a list of pre-specified biological Topics, and thus providing the user with an extra assistance in his various queries. Moreover the whole scheme can mine useful associations between terms by exploiting the nature of the formed clusters.
9

Εφαρμογές και τεχνικές εξόρυξης και οπτικοποίησης γνώσης σε βιοϊατρικά δεδομένα

Μερίδου, Δέσποινα 08 May 2013 (has links)
Η οπτικοποίηση των δεδομένων (data visualization) αποτελεί τη διαδικασία αναπαράστασης αφαιρετικών ή επιστημονικών δεδομένων με τη μορφή εικόνας, η οποία μπορεί να συμβάλει στην καλύτερη και βαθύτερη κατανόηση της σημασίας των δεδομένων και των μεταβλητών ή των μονάδων που συνιστούν τα δεδομένα αυτά. Λόγω των τεράστιων και συνεχώς αυξανόμενων ποσοτήτων και πηγών πληροφορίας, η ανάγκη για οπτικοποίηση είναι μεγάλη. Εφαρμόζοντας διάφορα μέσα οπτικοποίησης, η μελέτη των δεδομένων γίνεται πιο αποδοτική: τα δεδομένα εξετάζονται μαζικά και γρήγορα. Επίσης, η οπτικοποίηση των δεδομένων συμβάλλει στην ουσιαστική κατανόηση ενός ορισμένου προβλήματος και μπορεί να οδηγήσει στην ανακάλυψη νέων εννοιών και λύσεων. Η τεχνική της οπτικοποίησης δεδομένων βρίσκει ιδιαίτερη εφαρμογή στον τομέα της Βιοπληροφορικής. Συγκεκριμένα, η οπτικοποίηση εφαρμόζεται σε δεδομένα αλληλουχιών, γονιδιωμάτων, μακρομοριακών δομών, συστημικής βιολογίας, μαγνητικής τομογραφίας, κλπ. Η πρόσφατη και ολοένα μεγαλύτερη πρόοδος στη διαθεσιμότητα δεδομένων και στις μεθόδους ανάλυσης έχει δημιουργήσει νέες ευκαιρίες για τους ερευνητές, έτσι ώστε αυτοί να είναι σε θέση να βελτιώσουν τις μεθόδους καταγραφής νόσων σε εθνικό ή τοπικό επίπεδο. Η HELPIDA (HELlenic ePIdemiological DAtabase) αποτελεί την πρώτη προσπάθει καταγραφής ενός μεγάλου αριθμού επιδημιολογικών μελετών από τον χώρο της ελλάδας, συνδυασμού αυτών με γεωγραφικές και στατιστικές παραμέτρους και οπτικοποίησης των αποτελεσμάτων με σκοπό την εξόρυξη πολύτιμης πληροφορίας. Σε ό,τι αφορά την πρώτη έκδοσή της, η HELPIDA αναπτύχθηκε με τη χρήστη των γλωσσών προγραμματισμού ASP.NET και Visual C#. Στην εργασία αυτή, παρουσιάζεται η δεύτερη έκδοση της HELPIDA, η οποία σχεδιάστηκε με τη βοήθεια του εργαλείου Microsoft Lightswitch και εμπλουτίστηκε με γραφήματα και οπτικοποιήσεις δεδομένων. Εφαρμόζοντας ορισμένα εργαλεία οπτικοποίησης, στοχεύουμε στον χαρακτηρισμό της HELPIDA ως ένα πολύτιμο εργαλείο στον τομέα της Δημόσιας Υγείας και ελπίζουμε ότι θα χρησιμοποιηθεί από ερευνητές σε ακαδημαϊκό επίπεδο αλλά και σε άλλους τομείς. / Data visualization is the study of the visual representation of data, meaning "information that has been abstracted in some schematic form, including attributes or variables for the units of information". The ability to visualize the implications of data is as old as humanity itself. Yet due to the vast quantities, sources, and sinks of data being pumped around our global economy at an ever increasing rate, the need for superior visualization is great and growing. Data visualization is efficient: vast quantities of data are processed in a simple and quick manner. Furthermore, visualizations can help an analyst or a group achieve more insight into the nature of a problem and discover new understanding. Data Visualization is often applied in the field of Bioinformatics. Specifically, software tools are used for the visualization of sequences, genomes, alignments, phylogenies, macromolecular structures, systems biology, microscopy, and magnetic resonance imaging data. HELPIDA (HELlenic ePIdemiological DAtabase) is the first attempt to register a large number of epidemiological studies from Greece, to combine them with geographical and statistical parameters and to visualize the results in order to mine valuable information. As fas as the first version of the application is concerned, HELPIDA was developed using the programming languages ASP.NET and Visual C#. In this thesis, the second version of HELPIDA, which was designed using the tool Microsoft Lightswitch and was enhanced with charts and data visualizations, is presented. Being enhanced with certain data visualization tools, HELPIDA is aiming at being used as an invaluable tool for Public Health decisions and we hope that it will be exploited by decision makers in academic and political level.
10

Πρόβλημα αναγνώρισης της αναδίπλωσης μιας πρωτεΐνης : μία πρόταση επίλυσης σε λογικό προγραμματισμό με διαχείριση περιορισμών

Διαμαντόπουλος, Νικόλαος 05 February 2015 (has links)
Η κατανόηση των μοριακών μηχανισμών της ζωής απαιτεί την αποκωδικοποίηση των λειτουργιών που εκτελούν οι πρωτεΐνες σε έναν οργανισμό. Δεκάδες χιλιάδες πρωτεΐνες έχουν μελετηθεί τα τελευταία χρόνια σε στόχο την εύρεση της τρισδιάστατης δομής τους που στην ουσία καθορίζει και την λειτουργία τους. Παρ’ όλα αυτά οι πειραματικές μέθοδοι που χρησιμοποιούνται παρότι είναι ακριβείς μέθοδοι είναι ακόμα ιδιαιτέρως δύσκολες και απαιτητικές σε χρόνο και οικονομικό κόστος. Για το λόγο αυτό επιχειρείται, με υπολογιστικές μεθόδους, να μειωθεί το κόστος της πρόβλεψης της 3D δομής μιας πρωτεΐνης όταν η γραμμική ακολουθία των αμινοξέων που την αποτελούν είναι γνωστή. Η παρούσα διπλωματική εργασία προσεγγίζει το πρόβλημα αυτό ως πρόβλημα βελτιστοποίησης για τη λύση του οποίου εφαρμόζεται μία δηλωτική προσέγγιση σε Λογικό Προγραμματισμό με Διαχείριση Περιορισμών. Η πρόταση βασίζεται σε ένα προσωποκεντρικό κυβικό πλέγμα ως τοπολογικό μοντέλο για την χωροθέτηση της πρωτεΐνης. Χρησιμοποιούνται επίσης πληροφορίες που αφορούν τυχόν δευτερεύουσες δομές που υπάρχουν στην πρωτεΐνη καθώς και άλλα heuristics για να περιοριστεί σημαντικά ο χώρος αναζήτησης. Τα πρώτα αποτελέσματα σε πραγματικές πρωτεΐνες είναι ενθαρρυντικά τόσο όσο αφορά την ακρίβεια και την χρονική επίδοση αλλά και όσον αφορά την κλιμάκωση του προβλήματος. / Understanding the molecular mechanisms of life requires decoding functions performed by proteins in an organism. Tens of thousands of proteins have been studied in recent years in order to recruit the three-dimensional structure, which essentially determines their function. Nevertheless, the test methods used although accurate methods are still very difficult and demanding time and financial cost. For this reason computational methods are used to reduce the cost of the provision of 3D structure of a protein when its linear sequence of amino acids is known. This thesis approaches the problem as an optimization problem for the solution of which is applied a declarative approach to Logic Programming with Constraint Management. The proposal is based on a face centered cubic lattice as a topological model for the location of the protein. Also used information concerning possible secondary structures present in the protein and other heuristics to significantly reduce the search space. First results on real proteins are promising both in terms of accuracy and time performance, but also regarding the escalation of the problem.

Page generated in 0.0335 seconds