11 |
Εφαρμογές και τεχνικές εξόρυξης και οπτικοποίησης γνώσης σε βιοϊατρικά δεδομέναΜερίδου, Δέσποινα 08 May 2013 (has links)
Η οπτικοποίηση των δεδομένων (data visualization) αποτελεί τη διαδικασία αναπαράστασης αφαιρετικών ή επιστημονικών δεδομένων με τη μορφή εικόνας, η οποία μπορεί να συμβάλει στην καλύτερη και βαθύτερη κατανόηση της σημασίας των δεδομένων και των μεταβλητών ή των μονάδων που συνιστούν τα δεδομένα αυτά. Λόγω των τεράστιων και συνεχώς αυξανόμενων ποσοτήτων και πηγών πληροφορίας, η ανάγκη για οπτικοποίηση είναι μεγάλη. Εφαρμόζοντας διάφορα μέσα οπτικοποίησης, η μελέτη των δεδομένων γίνεται πιο αποδοτική: τα δεδομένα εξετάζονται μαζικά και γρήγορα. Επίσης, η οπτικοποίηση των δεδομένων συμβάλλει στην ουσιαστική κατανόηση ενός ορισμένου προβλήματος και μπορεί να οδηγήσει στην ανακάλυψη νέων εννοιών και λύσεων.
Η τεχνική της οπτικοποίησης δεδομένων βρίσκει ιδιαίτερη εφαρμογή στον τομέα της Βιοπληροφορικής. Συγκεκριμένα, η οπτικοποίηση εφαρμόζεται σε δεδομένα αλληλουχιών, γονιδιωμάτων, μακρομοριακών δομών, συστημικής βιολογίας, μαγνητικής τομογραφίας, κλπ. Η πρόσφατη και ολοένα μεγαλύτερη πρόοδος στη διαθεσιμότητα δεδομένων και στις μεθόδους ανάλυσης έχει δημιουργήσει νέες ευκαιρίες για τους ερευνητές, έτσι ώστε αυτοί να είναι σε θέση να βελτιώσουν τις μεθόδους καταγραφής νόσων σε εθνικό ή τοπικό επίπεδο.
Η HELPIDA (HELlenic ePIdemiological DAtabase) αποτελεί την πρώτη προσπάθει καταγραφής ενός μεγάλου αριθμού επιδημιολογικών μελετών από τον χώρο της ελλάδας, συνδυασμού αυτών με γεωγραφικές και στατιστικές παραμέτρους και οπτικοποίησης των αποτελεσμάτων με σκοπό την εξόρυξη πολύτιμης πληροφορίας. Σε ό,τι αφορά την πρώτη έκδοσή της, η HELPIDA αναπτύχθηκε με τη χρήστη των γλωσσών προγραμματισμού ASP.NET και Visual C#. Στην εργασία αυτή, παρουσιάζεται η δεύτερη έκδοση της HELPIDA, η οποία σχεδιάστηκε με τη βοήθεια του εργαλείου Microsoft Lightswitch και εμπλουτίστηκε με γραφήματα και οπτικοποιήσεις δεδομένων.
Εφαρμόζοντας ορισμένα εργαλεία οπτικοποίησης, στοχεύουμε στον χαρακτηρισμό της HELPIDA ως ένα πολύτιμο εργαλείο στον τομέα της Δημόσιας Υγείας και ελπίζουμε ότι θα χρησιμοποιηθεί από ερευνητές σε ακαδημαϊκό επίπεδο αλλά και σε άλλους τομείς. / Data visualization is the study of the visual representation of data, meaning "information that has been abstracted in some schematic form, including attributes or variables for the units of information". The ability to visualize the implications of data is as old as humanity itself. Yet due to the vast quantities, sources, and sinks of data being pumped around our global economy at an ever increasing rate, the need for superior visualization is great and growing. Data visualization is efficient: vast quantities of data are processed in a simple and quick manner. Furthermore, visualizations can help an analyst or a group achieve more insight into the nature of a problem and discover new understanding.
Data Visualization is often applied in the field of Bioinformatics. Specifically, software tools are used for the visualization of sequences, genomes, alignments, phylogenies, macromolecular structures, systems biology, microscopy, and magnetic resonance imaging data.
HELPIDA (HELlenic ePIdemiological DAtabase) is the first attempt to register a large number of epidemiological studies from Greece, to combine them with geographical and statistical parameters and to visualize the results in order to mine valuable information. As fas as the first version of the application is concerned, HELPIDA was developed using the programming languages ASP.NET and Visual C#. In this thesis, the second version of HELPIDA, which was designed using the tool Microsoft Lightswitch and was enhanced with charts and data visualizations, is presented.
Being enhanced with certain data visualization tools, HELPIDA is aiming at being used as an invaluable tool for Public Health decisions and we hope that it will be exploited by decision makers in academic and political level.
|
12 |
Νέοι αλγόριθμοι υπολογιστικής νοημοσύνης και ομαδοποίησης για την εξόρυξη πληροφορίαςΤασουλής, Δημήτρης 10 August 2007 (has links)
Αυτή η Διδακτορική Διατριβή πραγματεύεται το θέμα της ομαδοποίησης δεδομένων (clustering), καθώς και εφαρμογές των τεχνικών αυτών σε πραγματικά προβλήματα. Η παρουσίαση των επιμέρους θεμάτων και αποτελεσμάτων της διατριβής αυτής οργανώνεται ως εξής:
Στο Κεφάλαιο 1 παρέχουμε τον ορισμό της Υπολογιστικής Νοημοσύνης σαν τομέας ερευνάς, και αναλύουμε τα ξεχωριστά τμήματα που τον αποτελούν. Για κάθε ένα από αυτά παρουσιάζεται μια σύντομη περιγραφή.
Το Κεφάλαιο 2, ασχολείται με την ανάλυση του ερευνητικού πεδίου της ομαδοποίησης. Κάθε ένα από τα χαρακτηριστικά της αναλύεται ξεχωριστά και γίνεται μια επισκόπηση των σημαντικότερων αλγόριθμων ομαδοποίησης.
Το Κεφάλαιο 3, αφιερώνεται στη παρουσίαση του αλγορίθμου UKW, που κατά την εκτέλεση του έχει την ικανότητα να προσεγγίζει το πλήθος των ομάδων σε ένα σύνολο δεδομένων. Επίσης παρουσιάζονται πειραματικά αποτελέσματα με σκοπό τη μελέτη της απόδοσης του αλγορίθμου.
Στο Κεφάλαιο 4, προτείνεται μια επέκταση του αλγορίθμου UKW, σε μετρικούς χώρους. Η προτεινόμενη επέκταση διατηρεί όλα τα πλεονεκτήματα του αλγορίθμου UKW. Τα πειραματικά αποτελέσματα που παρουσιάζονται επίσης σε αυτό το κεφάλαιο, συγκρίνουν την προτεινόμενη επέκταση με άλλους αλγορίθμους.
Στο επόμενο κεφάλαιο παρουσιάζουμε τροποποιήσεις του αλγορίθμου με στόχο την βελτίωση των αποτελεσμάτων του. Οι προτεινόμενες τροποποιήσεις αξιοποιούν πληροφορία από τα τοπικά χαρακτηριστικά των δεδομένων, ώστε να κατευθύνουν όσο το δυνατόν καλύτερα την αλγοριθμική διαδικασία.
Το Κεφάλαιο 6, πραγματεύεται επεκτάσεις του αλγορίθμου σε κατανεμημένες Βάσεις δεδομένων. Για τις διάφορες υποθέσεις που μπορούν να γίνουν όσον αφορά τη φύση του περιβάλλοντος επικοινωνίας, παρουσιάζονται κατάλληλοι αλγόριθμοι.
Στο Κεφάλαιο 7, εξετάζουμε την περίπτωση δυναμικών βάσεων δεδομένων. Σε ένα τέτοιο μη στατικό περιβάλλον αναπτύσσεται μια επέκταση του αλγορίθμου UKW, που ενσωματώνει τη δυναμική δομή δεικτοδότησης Bkd-tree. Επιπλέον παρουσιάζονται θεωρητικά αποτελέσματα για την πολυπλοκότητα χειρότερης περίπτωσης του αλγορίθμου.
Το Κεφάλαιο 8, μελετά την εφαρμογή αλγορίθμων ομαδοποίησης σε δεδομένα γονιδιακών εκφράσεων. Επίσης προτείνεται και αξιολογείται ένα υβριδικό σχήμα που καταφέρνει να αυτοματοποιήσει την όλη διαδικασία επιλογής γονιδίων και ομαδοποίησης.
Τέλος, η παρουσίαση του ερευνητικού έργου αυτής της διατριβής ολοκληρώνεται στο Κεφάλαιο 9 που ασχολείται με την ανάπτυξη υβριδικών τεχνικών που συνδυάζουν την ομαδοποίηση και τα Τεχνητά Νευρωνικά Δίκτυα, και αναδεικνύει τις δυνατότητες τους σε δύο πραγματικά προβλήματα. / This Doctoral Dissertation appoints the issue of data Clustering, as well as the applications of these kind of methods in real world problems. The presentation of the individual results of this dissertation is organised as follows:
In Chapter 1, the definition of Computational Intelligence is provided as a research area. For each distinct part of this area a short description is supplied.
Chapter 2, deals with the analysis of the research area of Clustering per se, and its characteristics are analysed separably. Moreover, we provide a review of the most representative clustering algorithms.
Chapter 3, is devoted to the presentation of the UKW algorithm, that is able to endogenously provide approximations for the number of clusters in a dataset, during its execution. Furthermore, the included experimental results demonstrate the algorithm's efficiency.
In Chapter 4, an extension of the UKW algorithm to metric spaces is proposed. This extension preserves all the advantages of the original algorithm. The included experimental results compare the proposed extension to other approaches.
In the next chapter we present modifications of the UKW algorithm that scope to improve its efficiency. This is performed through the utilisation of information from the local characteristics of the data, so as to direct more efficiently the whole clustering procedure.
Chapter 6, deals with extensions of the algorithm in distributed data bases. For the various assumptions that can be postulated for the nature of the communication environment different algorithms are proposed.
In Chapter 7, we consider the case of dynamic databases. In such a non-static environment, an algorithm is developed that draws form the principles of the UKW algorithm, and embodies the dynamic indexing Bkd-tree data structure. Moreover, theoretical results are presented regarding the worst case complexity of the algorithm.
Chapter 8, studies the application of clustering algorithms in gene expression data. Besides, it is proposed and evaluated, a hybrid algorithmic scheme that manages to automate the whole procedure of gene selection and clustering.
Finally, the presentation of the research work of this dissertation is fulfilled in Chapter 9. This Chapter is devoted to the development of hybrid techniques that combine clustering methods and Artificial Neural Networks, and demonstrate their abilities in two real world problems.
|
13 |
Data mining system for tree and network structures in medical images / Σύστημα εξόρυξης δεδομένων από τοπολογίες δένδρων και πλεγμάτων αναπαριστώμενων σε ιατρικές εικόνεςΣκούρα, Αγγελική 24 November 2014 (has links)
Ανατομικές δομές με δενδρική τοπολογία απαντώνται συχνά στο ανθρώπινο σώμα και οπτικοποιούνται σε ιατρικές εικόνες χρησιμοποιώντας απεικονιστικές τεχνικές με ακτίνες-χ και τη χρήση σκιαγραφικού υλικού. Χαρακτηριστικά παραδείγματα τέτοιων δομών είναι το βρογχικό δένδρο εντός των πνευμόνων το οποίο οπτικοποιείται με εικόνες αξονικής τομογραφίας και τα γαλακτοφόρα δένδρα εσωτερικά του μαστού τα οποία οπτικοποιούνται με γαλακτογραφίες. Σκοπός της παρούσας διδακτορικής διατριβής αποτελεί η ανάπτυξη ενός συνόλου αλγοριθμικών μεθόδων για την αυτοματοποίηση της ανάλυσης των ανατομικών δομών του ανθρωπίνου σώματος που έχουν τοπολογία δένδρου ή τοπολογία δικτύου. Πιο συγκεκριμένα, οι δύο βασικοί στόχοι της διατριβής είναι η ανάπτυξη μεθόδων ειδικά σχεδιασμένων για τη ψηφιακή επεξεργασία των ιατρικών εικόνων που απεικονίζουν δομές με διακλαδώσεις και η ανάπτυξη μεθοδολογικών πλαισίων για τη διερεύνηση της σχέσης μεταξύ τοπολογίας και παθοφυσιολογίας αυτού του τύπου ανατομικών δομών.
Το πρώτο κεφάλαιο της διατριβής παρουσιάζει μια βιβλιογραφική ανασκόπηση σχετικά με τις ανατομικές δομές του ανθρωπίνου σώματος με τοπολογία διακλαδώσεων καθώς και το κίνητρο για την παρούσα έρευνα. Οι επιμέρους ερευνητικοί στόχοι, οι κύριες συνεισφορές και η γενικότερη απήχηση της διατριβής αναφέρονται επίσης.
Το δεύτερο κεφάλαιο εστιάζει στην κατάτμηση εικόνας. Η κατάτμηση εικόνας αποτελεί το πρώτο βήμα στη διαδικασία ανάλυσης ιατρικών εικόνων και στα συστήματα αναγνώρισης προτύπων και οι αλγόριθμοι κατάτμησης αποτελούν κρίσιμα τμήματα των σύγχρονων ιατρικών διαγνωστικών συστημάτων. Παρά την πλούσια βιβλιογραφία στην περιοχή, η ανάγκη για αποδοτικές μεθοδολογίες κατάτμησης εφαρμόσιμες σε μεγάλο εύρος απεικονιστικών τεχνικών παραμένει. Προσπαθώντας να αντιμετωπιστεί αυτή η ερευνητική πρόκληση, μια καινοτόμα και πλήρως αυτοματοποιημένη μεθοδολογία για την κατάτμηση των δενδρικών ανατομικών δομών παρουσιάζεται. Η βασική ιδέα είναι ο συνδυασμός τεχνικών ανίχνευσης ακμών με μεθόδους ανάπτυξης περιοχών για να επιτευχθεί αποδοτική κατάτμηση. Η υβριδική αυτή προσέγγιση εφαρμόστηκε και αξιολογήθηκε σε δύο σύνολα δεδομένων ιατρικών εικόνων από διαφορετικές απεικονιστικές τεχνικές (γαλακτογραφίες και αγγειογραφίες) και η απόδοσή της συγκρίθηκε με τεχνικές κατάτμησης της υπάρχουσας τεχνολογικής στάθμης.
Το τρίτο κεφάλαιο επικεντρώνεται στην ανίχνευση των κόμβων διακλάδωσης το οποίο συνιστά ένα σημαντικό υπολογιστικό στάδιο στα πλαίσια της επεξεργασίας των ιατρικών εικόνων που απεικονίζουν δομές δενδρικής τοπολογίας. Οι κόμβοι διακλάδωσης αποτελούν σημεία-κλειδιά για τον προσδιορισμό της θέσης του δένδρου και η σωστή ανίχνευσή τους είναι ένα σημαντική για την αυτοματοποίηση διαδικασιών επεξεργασίας εικόνας όπως ευθυγράμμιση εικόνας, κατάτμηση εικόνας και ανάλυση των προτύπων διακλάδωσης. Ωστόσο, η ανάπτυξη αυτοματοποιημένων τεχνικών για την ανίχνευση των κόμβων διακλάδωσης δυσχεραίνεται από τα διαφορετικά επίπεδα θορύβου που υπάρχουν κατά μήκος της δενδρικής δομής. Η προτεινόμενη μεθοδολογία ανίχνευσης απαρτίζεται από δύο κύρια στάδια: ανίχνευση γωνιακών σημείων σε διάφορες κλίμακες και προσδιορισμό της θέσης της διακλάδωσης. Η βασική συνεισφορά της νέας μεθοδολογίας είναι η χρήση ενός τοπικά προσαρμοζόμενου κατωφλιού κατά τη φάση της ανίχνευσης προκειμένου να αντιμετωπιστεί αποδοτικά η ανίχνευση των σημείων διακλάδωσης που βρίσκονται στα χαμηλά δενδρικά επίπεδα. Η αξιολόγηση της μεθόδου πραγματοποιήθηκε χρησιμοποιώντας ένα σύνολο δεδομένων από κλινικές γαλακτογραφίες και η απόδοσης της συγκρίνεται με αντίστοιχες τεχνικές της υπάρχουσας τεχνολογικής στάθμης.
Στο τέταρτο κεφάλαιο παρουσιάζονται καινοτόμες μεθοδολογίες για τον χαρακτηρισμό και την κατηγοριοποίηση των ανατομικών δενδρικών δομών στοχεύοντας στη διερεύνηση της συσχέτισης μεταξύ τοπολογίας και παθολογίας των αντίστοιχων οργάνων. Οι μέθοδοι περιλαμβάνουν κατηγοριοποίηση χρησιμοποιώντας περιγραφικά χαρακτηριστικά της τοπολογίας όπως η δενδρική ασυμμετρία, η χωρική κατανομή των σημείων διακλάδωσης, η στρεβλότητα των κλάδων και άλλα γεωμετρικά χαρακτηριστικά του δένδρου. Επιπρόσθετα σε αυτό το κεφάλαιο, ένα νέο μεθοδολογικό πλαίσιο προτείνεται για την ανάλυση δενδρικών τοπολογιών χρησιμοποιώντας διανύσματα που κωδικοποιούν τις σχέσεις παιδιού-γονέα των κόμβων και ελαστικό ταίριασμα μεταξύ των ακολουθιών. Η υπεροχή της νέας αυτής μεθόδου έναντι των μεθόδων της υπάρχουσας τεχνολογικής στάθμης για την κατηγοριοποίηση δένδρων αξιολογήθηκε πειραματικά ως προς ευαισθησία, ειδικότητα και ακρίβεια.
Στο πέμπτο κεφάλαιο μελετώνται τεχνικές συλλογικής μάθησης. Η ενοποίηση πολλαπλών αλγορίθμων μηχανικής μάθησης συνιστά σημαντική πρόοδο για τις μεθοδολογίες κατηγοριοποίησης και βασίζεται στην ιδέα του συνδυασμού των προβλέψεων ενός πλήθους κατηγοριοποιητών με σκοπό τη μεγιστοποίηση της ακρίβειας κατηγοριοποίησης. Τρεις τεχνικές συνδυαστικής μάθησης βασισμένες στην τεχνική της ενδυνάμωσης (boosting) και η χρήση ενός συνδυαστικού κανόνα που ονομάζεται Πρότυπο Απόφασης (Decision Template) χρησιμοποιούνται για τη βελτιστοποίηση της ακρίβειας που επιτυγχάνουν οι κατηγοριοποιητές βάσης. Τα πειραματικά αποτελέσματα επιβεβαιώνουν την υπεροχή των μεθόδων συλλογικής μάθησης.
Κλείνοντας, τα συμπεράσματα της διατριβής παρουσιάζονται στο έκτο κεφάλαιο. Οι περιορισμοί των προτεινόμενων τεχνικών καθώς και οι προοπτικές για επιπρόσθετη ερευνητική εργασία αναλύονται. / Anatomical structures of branching topology are frequently met in the human body and are visualized in medical images using various image acquisition modalities. Examples of such structures include the bronchial tree in chest computed tomography images, the blood vessels in retinal images and the breast ductal network in x-ray galactograms. The current thesis aims at the development of a set of automated methods for the analysis of anatomical structures of tree and network topology. More specifically, the two main objectives include (i) the development of image processing methods for optimized visualization of anatomical branching structures, and (ii) the development of analysis frameworks sin order to explore the association between topology and pathophysiology of anatomical branching structures.
The first chapter of the thesis presents a literature review regarding anatomical structures of the human body with branching topology and the motivation for this thesis. The specific research objectives, the main contributions and the impact of the thesis are also demonstrated.
The second chapter focuses on image segmentation. Image segmentation is the first step of medical image analysis and pattern recognition systems and segmentation algorithms are critical components of today radiological diagnostic systems. Despite the large number of existing segmentation algorithms, the need for effective methodologies applicable to a range of imaging modalities still remains. Towards this challenge a novel and fully automated methodology for segmenting anatomical branching structures is presented. The main idea is the integration of edge detection techniques with region growing methods to achieve robust segmentation. The hybrid approach is applied and evaluated in two datasets of branching structures from different imaging modalities (x-ray galactograms and vasculature angiograms) and is compared to state-of-the-art segmentation techniques.
The third chapter presents the image processing stage of detecting branching nodes of anatomical structures in medical images. The branching nodes are the key components for tree localization as well as topology modelling and node detection is a very important first step towards the automated processing of these structures including image registration, segmentation and analysis of branching patterns. Developing automated techniques for node detection is a very challenging task due to different levels of noise fluctuations throughout across tree levels. The proposed methodology of node detection consists of two main steps; multi-scale corner detection and branching localization. The main contribution of this work is the use of locally adaptive thresholding in the corner detection phase in order to facilitate node detection at lower tree levels. The evaluation of the methodology using a dataset of clinical galactograms and its comparison with state-of-the-art methods is also presented.
In the forth chapter, novel methodologies for the classification of anatomical tree-shape structures are presented aiming at providing new insights into the association between topology and underlying pathology. The methods include classification using descriptive features of the branching topology such as the tree asymmetry index, the spatial distribution of branching nodes, the branch tortuosity and other geometry-based tree features. Additionally, in this chapter a novel framework is presented to analyze tree topologies using representative encodings of parent-child node relationships and elastic sequence matching techniques. The superiority of the new methods over state-of-the-art techniques in terms of sensitivity, specificity and accuracy is evaluated experimentally.
In the fifth chapter the potential of ensemble learning schemes is explored. Ensemble schemes are important developments in classification methodology and are based on the idea to combine the predictions of multiple classifiers in order to maximize the classification accuracy. Three ensemble learning techniques based on the boosting technique and an effective combination rule named Decision Template are employed to optimize the accuracy of base classifiers. The experimental results confirm the superiority of ensemble techniques.
Finally the conclusions of the thesis are presented in the sixth chapter. The limitations of the proposed approach and the perspectives for further work are discussed.
|
14 |
Ανάπτυξη βάσης δεδομένων ασθενών από την ακτινοθεραπεία με σκοπό την εφαρμογή ακτινοβιολογικών μελετών για το προσδιορισμό και εκτέλεση αυτών στην κλινική πράξηΧαλίμος, Γεώργιος 02 March 2015 (has links)
Σκοπός της παρούσας διπλωματικής εργασίας είναι η Ανάπτυξη βάσης δεδομένων για ασθενείς που προέρχονται από τη θεραπεία της ακτινοθεραπεία, προκειμένου να εκτελέσει ακτινοβιολογικές μελέτες για τον προσδιορισμό και την εφαρμογή των ακτινοβιολογικών παραμέτρων στην κλινική πράξη.
Στη συγκεκριμένη Διπλωματική εργασία θα πρέπει να εξεταστούν τα χαρακτηριστικά των κλινικών δεδομένων που έχουν συλλεχθεί στο πλαίσιο των γυναικολογικών καρκίνων του τμήματος Επιδημιολογίας του Ινστιτούτου Καρολίνσκα.
Να δημιουργηθεί μια βάση δεδομένων ασθενών, η οποία θα είναι σε θέση να ομαδοποιεί τα στοιχεία των ασθενών που, και να εξάγει τα απαραίτητα στοιχεία (στην κατάλληλη μορφή) για την εκτέλεση ακτινοβιολογικών μελέτών.
Να ληφθεί υπόψη για την ανάγκη ότι αυτή η βάση δεδομένων θα ενημερώνεται συνεχώς με νέα στοιχεία, προκειμένου να βελτιωθεί η κλινική πληροφορία που χρησιμοποιούνται σήμερα και να αξιολογήσει τον αντίκτυπο των νεότερων τεχνικών ακτινοβολίας κατά τις τρέχουσες τεχνικές που εφαρμόζονται.
Το τελικό αποτέλεσμα της εργασίας θα είναι μια έκθεση η οποία περιγράφει την ανάπτυξη και το σχεδιασμό μιας βάσης δεδομένων και θα συνοψίζει τα αποτελέσματα.
Για την κατασκευή της Βάσης δεδομένων, θα χρησιμοποιηθεί ανοιχτού κώδικα λογισμικό όπως PHP και MySQL καθώς και άλλα προγράμματα στο περιβάλλον των windows. / The purpose of this thesis is to Development of a patient database from radiotherapy treatment in order to perform radiobiological studies for the determination and implementation of radiobiological parameters in the clinical practice.
In this thesis should the characteristics of the clinical data that have been collected in the framework of the gynecological cancers of the Epidemiology department of Karolinska Institutet.
To create a patient database, which will be able to group the patients based on different criteria, and export the necessary data (in the proper format) for performing radiobiological studies.
To account for the need that this database will be continuously updated with new data in order to improve the clinical information currently used and test the impact of newer irradiation techniques against the current techniques applied.
The final outcome of the thesis will be a report that describes the development and design of a database and summarize the results.
For the development of database, we used open source software like PHP and MySQL and other programs in the environment of windows.
|
15 |
Ανίχνευση παρασίτων σε ροές δεδομένων και αποκατάσταση σήματος με χρήση πλειογραμμικής άλγεβραςΤριανταφυλλόπουλος, Δημήτριος 07 May 2015 (has links)
Στόχος της παρούσας διπλωματικής είναι η παρουσίαση ενός συστήματος ανίχνευσης και διαχείρισης παρασίτων σε δεδομένα εγκεφαλογραφήματος (EEG).
Το σύστημα αυτό σε πραγματικό χρόνο ανιχνεύει της ύπαρξη παρασίτων κατά
την διάρκεια της καταγραφής, αξιοποιώντας ένα προ-εκπαιδευμένο μοντέλο. Τα
παράσιτα που ανιχνεύτηκαν μπορούν να διαχειριστούν με αρκετές τεχνοτροπίες
ανάλογα με τις ανάγκες της εκάστοτε εφαρμογής. Στην παρούσα διπλωματική
παρουσιάζεται μια τεχνοτροπία η οποία αφαιρεί ένα οφθαλμικό παράσιτο με
αξιοποίηση τανυστών.
Συγκεκριμένα, στην διπλωματική αυτή παρουσιάζονται οι ανάγκες διαχείρισης ροών δεδομένων και πως αυτές αντιμετωπίζονται στην περίπτωση των δεδομένων εγκεφαλογραφήματος. Ο όγκος των δεδομένων καθώς και ο ρυθμός μετά-
δοσής τους είναι καθοριστικοί για την διαχείριση και ανάλυση της εισερχόμενης
στο σύστημα ροής. Στην διπλωματική αυτή παρουσιάζονται οι γενικές στρατηγικές που έχουν σχεδιαστεί για την διαχείριση χρονοσειρών μεγάλου όγκου και
παρουσιάζεται η εφαρμογή τους σε δεδομένα εγκεφαλογραφήματος.
Το προτεινόμενο λοιπόν σύστημα μπορεί σε πραγματικό χρόνο να διαχειριστεί ροές δεδομένων εγκεφαλογραφήματος και να διαχωρίσει σε πραγματικό
χρόνο περιόδους που υπάρχει κάποιο παράσιτο στο ληφθέν σήμα. Επίσης προ-
τείνεται μια μέθοδος που σε offline ανάλυση μπορεί να αφαιρέσει έναν τύπο παρασίτου και συγκεκριμένα το οφθαλμικό παράσιτο. / This diploma thesis presents a system able to detect and manage artifacts in EEG data streams.
|
16 |
Σχεδιασμός και υλοποίηση ενός διαδικτυακού σκληρού δίσκουΖαγκλής, Νικόλας 01 July 2015 (has links)
Σκοπός αυτής της διπλωματικής εργασίας είναι η δημιουργία ενός διαδικτυακού
σκληρού δίσκου, ο οποίος θα βασίζεται στο ενσωματωμένο επικοινωνιακό σύστήμα
Zedboard και το λειτουργικό σύστημα Linux. Χρησιμοποιώντας λοιπόν τον
Microsoft iSCSI client θα διαβάζονται και θα γράφονται δεδομένα πάνω στο board,
το οποίο θα παίζει ρόλο server. Για την υλοποίηση αυτή θα πρέπει να
προγραμματιστεί το board κατάλληλα σύμφωνα με το διαδικτυακό πρωτόκολλο
αποθήκευσης iSCSI, έτσι ώστε να μπορεί να ανταλλάσει δεδομένα με τον client.
Τελικός στόχος λοιπόν, θα είναι η διαδικτυακή εγγραφή και ανάγνωση δεδομένων
από την DRAM του Zedboard, η οποία θα πραγματοποιείται έχοντας σαν βάση το
TCP/IP και το διαδικτυακό πρωτόκολλο αποθήκευσης δεδομένων. / --
|
17 |
Ανάλυση οικονομικών δεδομένων με χρήση τεχνικών εξόρυξηςΖαβουδάκης, Γεώργιος 19 May 2015 (has links)
Μετά την μεγάλη έξαρση της τεχνολογικής ανάπτυξης ο όγκος των δεδομένων-πληροφοριών σήμερα είναι τεράστιος και όσο περνάνε τα χρόνια θα μεγαλώνει ακόμα περισσότερο. Είναι βέβαιο λοιπόν ότι ζούμε στην κοινωνία της πληροφορίας, όπου η μετατροπή των δεδομένων σε πληροφορία απαιτείται να οδηγεί στη μετατροπή της πληροφορίας σε γνώση. Έτσι δημιουργήθηκε η ανάγκη επεξεργασίας αυτών των δεδομένων και η μετατροπή τους σε χρήσιμες πληροφορίες που θα βοηθήσουν στην λήψη αποφάσεων. Οι τεχνικές εξόρυξης αποτελούν ένα σημαντικό εργαλείο που μας βοηθά να αντλήσουμε γνώση από μεγάλους όγκους δεδομένων και αν σκεφτούμε ότι όλα αυτά μπορούν να συνδυαστούν με στατιστικές μεθόδους τότε εύκολα μπορούμε να κάνουμε ανάκτηση πληροφορίας. Η συνύπαρξη ετερόκλητων επιστημονικών πεδίων όπως της στατιστικής, της μηχανικής εκμάθησης, της θεωρίας της πληροφορίας και των υπολογιστικών διαδικασιών, έχει δημιουργήσει μια νέα επιστήμη με δυναμικά εργαλεία.
Η επιστήμη αυτή καλείται «Εξόρυξη Δεδομένων (ΕΔ)» (Data Mining) και είναι μέρος της διαδικασίας «Ανακάλυψης Γνώσης από Βάσεις Δεδομένων» (Knowledge Discovery in Databases - KDD). Τα εργαλεία της ΕΔ είναι οι αλγόριθμοί της, οι οποίοι επιχειρούν να βρουν χρήσιμα και κατανοητά πρότυπα στα δεδομένα.
Κύριος στόχος της παρούσας Διπλωματικής Εργασίας είναι η συγκέντρωση βασικών αλγορίθμων και μεθόδων που επιλέγουν και καθαρίζουν δεδομένα, αναγνωρίζουν πρότυπα, βελτιστοποιούν ένα σύστημα διαχείρισης και συσταδοποιούν δεδομένα. Θα δώσουμε έμφαση σε αλγορίθμους που είναι κατάλληλοι για χρονικά οικονομικά δεδομένα.
Εκτός από την καταγραφή των μεθόδων και εφαρμογών της Εξόρυξης δεδομένων και της KDD, θα εφαρμόσουμε τεχνικές συσταδοποίησης σε ένα σύνολο δεδομένων, το οποίο περιλαμβάνει οικονομικά δεδομένα από τρεις διαφορετικές κατηγορίες: τιμές των μετοχών υψηλής κεφαλαιοποίησης του δείκτη Nasdaq , η διαχρονική ισοτιμία Ευρώ/δολλαρίου και η διαχρονική διαμόρφωση των τιμών του πετρελαίου/ανα βαρέλι στις διεθνείς αγορές.Η εργασία αυτή χωρίζεται σε πέντε κεφάλαια: Εισαγωγή, θεωρητικό υπόβαθρο, μεθοδολογία, υλοποίηση πρακτικής εφαρμογής και συμπεράσματα. Στο κεφάλαιο 1 κάνουμε μια πρώτη γνωριμία με την Εξόρυξη γνώσης από Δεδομένα ,στο κεφάλαιο 2 γίνεται η βιβλιογραφική ανασκόπηση και παρουσιάζεται αναλυτικά όλο το θεωρητικό υπόβαθρο των μεθόδων που θα χρησιμοποιηθούν. Στο κεφάλαιο 3 παρουσιάζονται οι μεθοδολογίες (μέθοδοι εξόρυξης για συσταδοποίηση, κατηγοριοποίηση και πρόβλεψη) που χρησιμοποιήθηκαν για τη μελέτη, ενώ στο επόμενο κεφάλαιο παρουσιάζεται μια πρακτική εφαρμογή των παραπάνω ως αποτελέσματα των μεθοδολογιών αυτών. Και τέλος, στο κεφάλαιο 5 παρουσιάζονται κάποια συμπεράσματα που μπορούμε να εξάγουμε από την υλοποίηση της πρακτικής εφαρμογής.
Η εργασία αυτή έχει ως στόχο να αναδείξει την σχέση που μπορεί να υπάρξει ανάμεσα στην Οικονομική επιστήμη και σε αυτήν της Τεχνητής Νοημοσύνης, εστιάζοντας κυρίως στο κατά πόσο η δεύτερη μπορεί να δώσει λύσεις σε καίρια ζητήματα, προβλήματα αλλά και προκλήσεις που παρουσιάζονται στο σύγχρονο οικονομικό περιβάλλον. Το μέσο για την εκπλήρωση αυτού του στόχου είναι οι τεχνικές Data Mining, που στα ελληνικά σαν όρος, αποδίδονται ως Τεχνικές Εξόρυξης Δεδομένων. Για την υλοποίηση της εργασίας αυτής, σαν πηγές χρησιμοποιήθηκαν πολλά επιστημονικά βιβλία που σχετίζονται με την Οικονομία, τα Χρηματοοικονομικά, την Τεχνητή Νοημοσύνη και τις μεθόδους Data Mining, τις Πολυκριτήριες Τεχνικές Ταξινόμησης αλλά και την Στατιστική. Το αποτέλεσμα από τον συνδυασμό των παραπάνω θα παρουσιαστεί στις σελίδες που θα ακολουθήσουν. / After the great upsurge of technological development the volume of currently-information data is huge and as the years pass will grow even more. It is certain, therefore, that we live in the information society, where the transformation of data into information needed to drive the conversion of information into knowledge. This created the need to process this data and turn them into useful information that will help in decision making. The mining techniques are an important tool that helps us to draw knowledge from large volumes of data and if we think that all this can be combined with statistical methods then we can easily retrieve information. The disparate disciplines such as statistics, machine learning, information theory and computational procedures, has created a new science with powerful tools.
This science is called "Data Mining (DM)» and is part of the 'Knowledge Discovery from Databases ». The tools of DM are the algorithms that are trying to find useful and understandable patterns in data.
The main objective of this thesis is the concentration of basic algorithms and methods chosen and cleanse data, recognize patterns, optimize a management system and clustering data. Will emphasize algorithms that are suitable for time economic data.
Besides recording the methods and applications of data mining and KDD, we apply clustering techniques to a data set, which includes financial data from three different categories: price-cap stock index Nasdaq, the timeless rate Euro / dollar and the configuration of oil prices / per barrel in international markets.
This paper is divided into five chapters: Introduction, theoretical background, methodology, implementation of practical application and conclusions. In Chapter 1, we make a first acquaintance with the Mining Data, in Chapter 2 is the literature review and presented in detail all the theoretical background of the methods used. Methodologies presented in Chapter 3 (mining methods for clustering, classification and prediction) used for the study, while the next chapter presents a practical application of the above as a result of these methodologies. Finally, Chapter 5 presents some conclusions can be drawn from the implementation of the practice.This paper aims to highlight the relationship that can exist between economic science and that of Artificial Intelligence, focusing mainly on whether the latter can provide solutions to key issues, problems and challenges presented in today's economic environment . The means to achieve this objective are the technical Data Mining, which in Greek as term, rendered as Technical Data Mining. For the realization of this work, as sources used many scientific books related to the Economy, Finance, Artificial Intelligence and methods Data Mining, the Multicriteria Classification Techniques and Statistics. The result from the combination of the above will be presented in the pages that follow.
|
18 |
Σύγχρονοι αλγόριθμοι ομαδοποίησης για ροές δεδομένωνΧατζημιχαήλ, Σπύρος 03 August 2009 (has links)
Σε αυτή την πτυχιακή εργασία γίνεται μελέτη του προβλήματος της ομαδοποίησης δεδομένων και πιο συγκεκριμένα οnline ομαδοποίηση σε ροές δεδομένων.
Στην αρχή παρουσιάζεται η απλή offline εκδοχή του προβλήματος, όπου όλα τα δεδομένα προς ομαδοποίηση είναι γνωστά εκ των προτέρων. Παρουσιάζονται οι πιο βασικοί αλγόριθμοι και στοιχειώδεις εφαρμογές που καταδεικνύουν ότι η εύρεση αποδοτικών αλγορίθμων μπορεί να δώσει ώθηση σε νέα περιβάλλοντα που η ομαδοποίηση αποτελεί υπολογιστικό πυρήνα.
Στη συνέχεια γίνεται εισαγωγή στο μοντέλο ροών δεδομένων, όπου εκεί η γνώση του αλγορίθμου για τη φύση των δεδομένων αποκτάται σταδιακά, όσο παρουσιάζονται νέα στοιχεία. Ο περιορισμός της διαθέσιμης μνήμης και η ανάγκη μας για αποδοτικούς αλγορίθμους μας οδηγεί σε κατασκευή προσεγγιστικών ευρετικών. Παρουσιάζονται ανοιχτά προβλήματα που έχουν τεθεί στη βιβλιογραφία καθώς και διάφορες εφαρμογές που προκύπτουν από δεδομένα που σχηματίζουν ροές.
Συνεχίζοντας γίνεται μια εκτενής μελέτη της σύγχρονης βιβλιογραφίας και παρουσιάζονται οι πιο αντιπροσωπευτικοί αλγόριθμοι από κάθε βασική τεχνική προσέγγισης, όπως η ομαδοποίηση με βάση την πυκνότητα, ομαδοποίηση με γραμμική παλινδρόμηση, ομαδοποίηση δύο σταδίων κα. Παρουσιάζεται επίσης και ένας νέος αλγόριθμος που συνδυάζει προεπεξεργασία των δεδομένων της ροής με έναν online αλγόριθμο ομαδοποίησης και παραγωγή της τελικής ομαδοποίησης με μία παραλλαγή του LocalSearch.
Τέλος ακολουθούν διάφορα πειραματικά αποτελέσματα που πραγματοποιήθηκαν επί αυτών των αντιπροσωπευτικών αλγορίθμων και γίνεται σύγκριση μεταξύ τους. Παρατηρούμε ότι τα νέα σχήματα που που προκύπτουν με βάση τον αλγόριθμο Localsearch πετυχαίνουν πολύ καλύτερα τελικά αποτελέσματα σε σχέση με τον αλγόριθμο Birch. / -
|
19 |
Ανάπτυξη βάσης δεδομένων αρχέγονων αιμοποιητικών κυττάρων και στατιστική ανάλυση βασικών παραμέτρωνΜατσάγγος, Σπύρος 03 August 2009 (has links)
Οι βάσεις δεδομένων αποτελούν πλέον επιτακτική ανάγκη στην οργάνωση, αποθήκευση, γρήγορη ανάκτηση δεδομένων, αλλά και στην εξαγωγή συμπερασμάτων μέσα από διαδικασίες στατιστικής επεξεργασίας, στα πλαίσια της αξιοποίησης και επεξεργασίας του τεράστιου όγκου πληροφορίας που ήδη υπάρχει αλλά και εξακολουθεί να παράγεται με εξαιρετικά γρήγορους ρυθμούς, μεταξύ άλλων στην ιατροβιολογική έρευνα και εν προκειμένω στο πεδίο των λήψεων και των μεταμοσχεύσεων αρχέγονων αιμοποιητικών κυττάρων. Στη βάση δεδομένων που σχεδιάστηκε και αναπτύχθηκε σύμφωνα με το σχεσιακό μοντέλο βάσεων, χρησιμοποιήθηκε λειτουργικό σύστημα Ubuntu 8.04 LTS Server Edition, ο MySQL server 5.0.51b ως το Σύστημα Διαχείρισης της Βάσης (RDBMS), Apache HTTP server edition 2.2.9 ως εξυπηρετητής φιλοξενίας της βάσης για τις ανάγκες πρόσβασης της από το δίκτυο και η εφαρμογή phpMyAdmin και συγκεκριμένα η έκδοση 2.11.7.1, ως το τελικό εργαλείο διαχείρισης της βάσης. Η γλώσσα προγραμματισμού Python επίσης αποτέλεσε σημαντικό εργαλείο για την κατασκευή scripts που χρειάστηκαν, προκειμένου να καταστούν συμβατά και να εισαχθούν στη βάση, τα αρχεία που υπήρχαν καταγεγραμμένα από τις μονάδες λήψεων και μεταμοσχεύσεων αρχέγονων αιμοποιητικών κυττάρων του Πανεπιστημιακού Νοσοκομείου του Ρίου Πατρών, αρχεία που αποτέλεσαν το πρωτογενές υλικό δοκιμών της σωστής λειτουργίας της βάσης αλλά και τα δεδομένα για την εξαγωγή στατιστικών συμπερασμάτων με απώτερο σκοπό την βελτιστοποίηση των διαδικασιών φαρμακευτικής κινητοποίησης για την συλλογή των κυττάρων, συλλογής, επεξεργασίας του προϊόντος και μεταμόσχευσης. / The databases constitute nowadays imperative tool for the organization, storage, rapid data recovery and statistical analysis in the field of the modern managing and exploitation of the huge volume of information that already exists and continues to be produced extremely fast. The databases are extremely useful in the management of bioinformation of medicine and biology both in daily diagnostics as well as research. The present study is concentrated in the application of databases in the blood stem cells collections and transplantations.
The database was designed and developed according to the relational model databases, the Ubuntu 8.04 LTS Server Edition used as operating system, the MySQL server 5.0.51b as the DataBase Management System (RDBMS), Apache HTTP server edition 2.2.9 as server, hosting the basic access needs through the network and phpMyAdmin version 2.11.7.1, as the final windowed environment, database management tool. The Python programming language was also an important tool for the construction of scripts needed to convert, optimize and import in the database the files that were recorded by blood stem cells collection and transplantation units of the University Hospital of Patras in Rio, records that firstly constituted the raw material for testing the proper functioning of the database and on the other hand, the data for statistical conclusions with a view to the optimization of donor’s pharmaceutical mobilization, the cell collection procedure and the process of the transplantation.
|
20 |
Διερεύνηση της βάσης βιολογικών δεδομένων COGENT για την πρόσθεση πληροφοριών βιβλιογραφικής ύλης και πληροφοριών νουκλεοτιδικής αλληλουχίας (DNA)Χριστοπούλου, Δέσποινα 09 October 2009 (has links)
Σήμερα υπάρχει ελεύθερη πρόσβαση μέσω του internet σε εκατοντάδες δημόσιες βάσεις βιολογικών δεδομένων. Παραταύτα, η προσπάθεια του να εκμεταλλευτεί κάποιος τα αποθηκευμένα δεδομένα ανομοιογενών βάσεων δεδομένων, καταλήγει να αποτελεί μια διαδικασία ιδιαίτερα δύσκολη και χρονοβόρα λόγω ποικίλων αιτιάσεων. Στις αιτίες αυτές συμπεριλαμβάνονται ο χαοτικός όγκος των βιολογικών δεδομένων, ο ολοένα αυξανόμενος αριθμός βιολογικών βάσεων δεδομένων, η υπεραφθονία τύπων και μορφών δεδομένων (format), η ποικιλομορφία βιοπληροφορικών τεχνικών πρόσβασης στα δεδομένα και βέβαια η διαφορετικότητα των βάσεων βιολογικών δεδομένων.
Χάρη στις διεθνείς προσπάθειες ολοκλήρωσης αλληλουχιών (sequencing), οι ομάδες γονιδιακών δεδομένων έχουν αυξηθεί γεωμετρικά την τελευταία δεκαετία. Το έτος 2003 για παράδειγμα, η βάση βιολογικών δεδομένων Genbank διπλασιάστηκε σε μέγεθος μέσα σε 15 μήνες. Με τόσο γρήγορη ανάπτυξη, τα γενωμικά δεδομένα και οι συνδεόμενες με αυτά δομές έχουν αποκτήσει τεράστιο μέγεθος για να χωρέσουν στην κεντρική μνήμη ενός υπολογιστή. Το σημαντικότερο πρόβλημα που ανακύπτει έγκειται στο ότι μεγάλο μέρος της πληροφορίας που αναζητείται μέσα στο τεράστιο και ολοένα αυξανόμενο σε μέγεθος ορυχείο των δεδομένων εν τέλει χάνεται.
Η ανάγκη κατασκευής των κατάλληλων εργαλείων εξ’ όρυξης της ζητούμενης πληροφορίας από το ορυχείο αυτό είναι μονόδρομος.
Η παρούσα διπλωματική εργασία επικεντρώνεται στην διεύρυνση μιας υπάρχουσας βάσης βιολογικών δεδομένων ολοκληρωμένων γονιδιωμάτων, της COGENT. Η COGENT αναπτύχθηκε το 2003 από την Ομάδα Υπολογιστικής Γενωμικής (Computational Genomics Group – CGG), στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute – EBI), και τελικός τεχνικός στόχος της διπλωματικής εργασίας αποτελεί η προσθήκη βιβλιογραφικών δεδομένων καθώς και νουκλεοτιδικών πληροφοριών αλληλουχίας (DNA) στην βάση COGENT. / Today, hundreds of public biological databases are accessible via the Internet
However taking advantage of data stored in heterogeneous biological databases can be
a difficult, time consuming task for a multitude of reasons. These reasons include the
vast volume of biological data, the growing number of biological databases, the rapid
rate in the growth of data, the overabundance of data types and formats, the wide
Variety of bioinformatics data access techniques, and database heterogeneity.
Thanks to international sequencing efforts, genome data sets have been
growing exponentially in the past few years. The GenBank database, for example, has
doubled every 15 months. With such a rapid growth, genome data and the associated
access structures have become too large to fit in the main memory of a computer,
leading to a large number of disk accesses (and therefore, slow response times) for
homology searches and other queries. Much of the important information in this
enormous and exponentially growing gold mine will be wasted if we do not develop
proper tools to access and mine them efficiently.
The focus of this thesis was to extend an existing biological database for the
complete tracking of genomes, the COGENT database, which the Computational
Genomics Group at the European Bioinformatics Institute in Cambridge produced in
2003, so that it can incorporate literature and DNA sequence information.
|
Page generated in 0.0758 seconds