71 |
DatAssist : the development of a portable multi-purpose medical data acquisition system / DatAssist : η ανάπτυξη ενός φορητού, πολύ-χρηστικού [sic] συστήματος ανάκτησης ιατρικών δεδομένωνΝικολαΐδης, Νικόλαος 20 October 2010 (has links)
Κατά τη διάρκεια τόσο των ιατρικών διεργασιών μέσα στο νοσοκομείο – όπως των απλών τεστ που διενεργούνται στους ασθενείς, αλλά και των πιο περίπλοκων διεργασιών των μεταμοσχεύσεων και των χειρουργείων, όσο και των in vitro τεστ, διάφορες παράμετροι πρέπει συνεχώς να μετρούνται και να απεικονίζονται, για παράδειγμα η πίεση, η ροή και η θερμοκρασία του αίματος και των ειδικών διαλυμάτων διατήρησης των οργάνων που χρησιμοποιούνται κατά τη διάρκεια των μεταμοσχεύσεων. Η πίεση και η ροή του αίματος καθώς και η θερμοκρασία του σώματος, ως πολύ σημαντικές φυσιολογικές παράμετροι που είναι, πρέπει να μετρούνται με τη μέγιστη δυνατή ακρίβεια έτσι ώστε να δίνεται συνεχώς μια σαφής εικόνα της λειτουργίας του ανθρωπίνου σώματος. Μέχρι τώρα, οι μετρήσεις αυτών των παραμέτρων διενεργούνταν από ξεχωριστές μονάδες μέτρησης και επιπλέον από ξεχωριστά συστήματα ανάκτησης δεδομένων (Data Acquisition Systems), με αποτέλεσμα το αυξημένο κόστος λειτουργίας και την αύξηση της περιπλοκότητας των μετρήσεων για τον χρήστη.
Το DatAssist δημιουργήθηκε επάνω στην ιδέα ανάπτυξης ενός φορητού συστήματος μετρήσεων με ενσωματωμένη επεξεργασία των δεδομένων μέτρησης, το οποίο θα έχει τη δυνατότητα απεικόνισης όλων των φυσιολογικών παραμέτρων που αναλύθηκαν παραπάνω. Επιπλέον, θα έχει τη δυνατότητα αποθήκευσης όλων των δεδομένων για περαιτέρω ανάλυση. Το DatAssist σκοπεύει να παρέχει ακριβείς μετρήσεις, ευκολία στη χρήση και καθαρή πληροφόρηση για τις μετρούμενες παραμέτρους στην οθόνη. Επιπρόσθετα ο σχεδιασμός του έγινε έτσι ώστε να έχει το λιγότερο δυνατό βάρος για να μπορεί να μετακινείται εύκολα κατά την διάρκεια ιατρικών εφαρμογών. Το DatAssist σχεδιάστηκε με βάση το πρότυπο IEC 60601-1:2005 και σκοπεύει να αποτελέσει ένα πολυκάναλο σύστημα με ευκολία εισαγωγής επιπρόσθετων στοιχείων στο εσωτερικό του, το οποίο θα χρησιμοποιηθεί από την Organ Assist B.V. Netherlands, spin-off εταιρίας του University Medical Centre Groningen, για λογαριασμό της οποίας σχεδιάστηκε στα πλαίσια της παρούσας εργασίας.
Η επιδιωκόμενη χρήση της μονάδας είναι αρχικά η χρήση της για εργαστηριακά πειράματα σε ζώα, στα πλαίσια των τεστ λειτουργίας που διενεργεί η Organ Assist B.V. Netherlands στις δικές της συσκευές. Στο μέλλον, θα χρησιμοποιηθεί σε κλινικές έρευνες και κατά τη διάρκεια μεταμοσχεύσεων και χειρουργείων. Η πίεση και η ροή του αίματος, καθώς και η θερμοκρασία του σώματος και των οργάνων θα μετριέται με τη χρήση αναλώσιμων ή εύκολα αποστειρώσιμων αισθητήρων, ειδικών για ιατρικές μετρήσεις.
Πιο αναλυτικά, το σύστημα παρέχει συνδέσεις με δύο αισθητήρες πίεσης, δύο αισθητήρες θερμοκρασίας (ένα Θερμοζεύγος και έναν τύπου NTC), έναν αισθητήρα ροής και επίσης έχει μια υποδοχή BNC για μέτρηση και απεικόνιση εξωτερικών σημάτων από άλλες ιατρικές συσκευές. Υπάρχει επίσης η δυνατότητα σύνδεσης περισσότερων αισθητήρων ανάλογα με τις ανάγκες του εκάστοτε χρήστη. Το σύστημα τροφοδοτείται από μια χαμηλή DC τάση μέσω ενός AC/DC Adapter, και με αυτόν τον τρόπο παρέχει τόσο ασφάλεια στον χρήστη από ηλεκτροπληξία η οποία προκαλείται από την υψηλή AC τάση, όσο και αποφυγή καταστροφής των ηλεκτρικών εξαρτημάτων της συσκευής.
Ο σχεδιασμός του DatAssist βασίστηκε στις απαιτήσεις της Organ Assist B.V. με βάση την κάλυψη των αναγκών των βασικών χρηστών της συσκευής, όπως των χειρούργων και των χειριστών ιατρικών μηχανημάτων. Οι απαιτήσεις των τελευταίων συνοψίστηκαν σε εφτά γενικές προϋποθέσεις (σε μια Λίστα Προϋποθέσεων η οποία αναλύεται εκτενώς στο 2ο κεφάλαιο της παρούσας εργασίας) που αποτέλεσαν και τις προϋποθέσεις που το μηχάνημα καλούταν να καλύπτει: εγκυρότητα, ποιότητα, ασφάλεια, ευκολία χρήσης, ευκολία μετακίνησης, χαμηλό κόστος κατασκευής και χρήση εξαρτημάτων πιστοποιημένων κατά CE. Επιπλέον, τρεις ακόμη προϋποθέσεις λήφθηκαν υπόψη για τον σχεδιασμό των διαφόρων εξαρτημάτων της συσκευής: ευκολία αποστείρωσης, ευκολία εισαγωγής επιπρόσθετων εξαρτημάτων και δυνατότητα χρήσης των τελευταίων τόσο στο αίμα όσο και μέσα σε διαλύματα.
Οι πιο σημαντικές λειτουργίες που καλείται να επιτελέσει το DatAssist είναι: η ανίχνευση των φυσικών παραμέτρων (πίεσης, θερμοκρασίας και ροής) από τους αισθητήρες, η ενίσχυση των αναλογικών σημάτων εισόδου των αισθητήρων, η επεξεργασία και η ψηφιοποίηση των ενισχυμένων σημάτων, η τελική επεξεργασία των ψηφιακών σημάτων από έναν υπολογιστή και τελικά η συνεχής απεικόνιση των σημάτων σε μια οθόνη monitor με την βοήθεια ενός προγράμματος Software (LabView 8.5).
Για καθεμία από τις παραπάνω λειτουργίες ακολουθήθηκε μια συγκεκριμένη διαδικασία για να ορίσει τον σχεδιασμό της υλοποίησής της. Αυτή η διαδικασία είχε ως αποτέλεσμα την επιλογή των εξαρτημάτων που θα χρησιμοποιηθούν στην τελική συσκευή, έπειτα από μια αξιολόγηση των υποψήφιων εξαρτημάτων, για κάθε λειτουργία βασισμένη στην εκπλήρωση των προαναφερθέντων προϋποθέσεων, με τη χρήση της κλίμακας 1-10 (1-μη εκπλήρωση, 10-πλήρης εκπλήρωση).
Επιπρόσθετα, για κάθε στάδιο του σχεδιασμού που ορίζεται από τις προαναφερ-θείσες λειτουργίες, αναπτύχθηκε ένα λειτουργικό μοντέλο (functional model) το οποίο περιείχε τον τελικό σχεδιασμό του κάθε σταδίου, καθώς και ένα τεστ που μετράει την λειτουργικότητα του κάθε σταδίου, την εγκυρότητα, το σφάλμα και μια εκτίμηση της ακρίβειας των μετρήσεων.
Τελικά, η εργασία είχε ως αποτέλεσμα την κατασκευή ενός πρωτοτύπου του DatAssist βασισμένο στον σχεδιασμό που αποφασίστηκε και εγκρίθηκε από την Organ Assist B.V., το οποίο ικανοποιεί τις προϋποθέσεις που αναλύονται στην Λίστα των Προϋποθέσεων (List of Requirements). Το πρωτότυπο αυτό στη συνέχεια ελέγχεται όσον αφορά την ακρίβεια των μετρήσεων και την ικανοποίηση της Λίστας των Προϋποθέσεων .
Έτσι, αυτή η εργασία είχε ως τελικό αποτέλεσμα την σχεδίαση ενός εγκύρου, εύκολα αποστειρώσιμου, φορητού, εύκολου στη χρήση, ασφαλούς για τον χρήστη πολυχρηστικού συστήματος μέτρησης ιατρικών δεδομένων με κόστος δημιουργίας και μετέπειτα πώλησης λιγότερο από 3000 €. / During both inside the hospital medical procedures-from simple patient tests to more sophisticated procedures such as transplantations and surgeries, and laboratory or animal testing, several parameters have to be measured and monitored i.e. pressure, flow and temperature of blood and of the perfusion solution during transplantations. Since blood pressure, blood flow and body temperature have shown to be important physiological parameters, they have to be measured and registered accurately in order to monitor the functioning of the human body. Up to now, these measurements had to be performed with separate measuring units and separate data acquisition systems and thus with increased cost and resulting to a complicated measuring procedure for the user.
The idea of the DatAssist project is to develop a portable measuring system with integrated data acquisition that is able to monitor and display all these physiological parameters and save them for later analysis for Organ Assist -a spin-off company of the University Medical Centre Groningen. DatAssist will provide accurate measurements, it will be easy to use and give clear information about the measured parameters in the monitor. It will also be as much light-weighted as it can in order to be easy to move during medical applications. DatAssist intends to be a modular multi-channel system and is going to be designed according to IEC 60601-1:2005 regulations.
The intended use of the unit is primary for animal and laboratory experiments. In the future the unit will be used for clinical studies in the hospital and while transplantations or surgeries. Blood flow and pressure and body temperature will be measured non-invasively or using disposable transducers.
More analytically the system will provide connections with a pressure sensor, two temperature sensors (Thermocouple and NTC), a flow sensor and moreover it will have a BNC Connector for measuring external signals from other medical devices. These are the basic connections but there will be a possibility of having more connectors and sensors according to the needs of the several customers. It will be powered by a low DC voltage through an AC/DC Adapter, and in that way it will provide electrical safety to the user against the hazards that can be caused by the high AC Voltages, as long as safety against damage of the electrical components of the device.
The design of DatAssist will be based on the stakeholders such as surgeons, perfusionists and Organ Assist. Their preferences have been summarized in seven general requirements: reliability, quality, safety, ease of use, portability, purchase costs and CE Certified components. Moreover three more requirements were taken into account for the design of the several components: sterility (easy to sterilize components), modularity and ability of components to be used both inside blood and inside solutions.
A function analysis demonstrated the most important functions of the DatAssist: sensing of the physical parameters (Pressure, Temperature, Flow), amplification of the analog input signal of the sensors, signal conditioning of the amplified signal, integration and processing of the digital signals with the help of a computer and display of the signal values in a monitor with the use of a Software program and a User interface.
For each function, a certain procedure have been developed for defining its planning of implementation. This has resulted in the decision for which components to use in the final device after a scoring evaluation of the candidate components for each function based in their fulfillment to the mentioned above requirements.
Additionally for each stage of the design defined by the functions, a functional model has been developed containing the final design of each stage and a test measuring its functionality and the reliability of measurements, as well as error measurements and an accuracy of the measurements estimation.
Finally, a prototype of the DatAssist was engineered based on a design decided by the stakeholders having in mind to comply with the List of Requirements. This prototype is going to be tested for its accuracy of the measurements and evaluated according to its fulfillment of the list of requirements.
With this study a proven reliable, sterile, portable, easy to use, safe for the user multi purpose medical Data Acquisition System is designed which can be purchased for less than €3000.
|
72 |
Μελέτη και ανάπτυξη μεθόδων μηχανικής μάθησης με εφαρμογή στην πρόβλεψη ατμοσφαιρικής ρύπανσηςΚαλαπανίδας, Ηλίας 24 June 2010 (has links)
- / -
|
73 |
Εφαρμογές αλγορίθμων και έλεγχοι αξιοπιστίας ομαδοποίησης στην αναγνώριση προτύπων και στον καθαρισμό δεδομένωνΑντζουλάτος, Γεράσιμος 25 August 2010 (has links)
- / -
|
74 |
Αυτόματη κατηγοριοποίηση ελληνικών κειμένωνΚαγιά, Αγγελική Δ. 24 September 2010 (has links)
- / -
|
75 |
Εφαρμογή μεθόδων εξόρυξης δεδομένων σε βαρομετρικούς χάρτεςΒαρσάμη, Ευθυμία 27 December 2010 (has links)
Η παρούσα Διπλωματική εργασία ασχολείται με τον τομέα της Eξόρυξης Δεδομένων (Data Mining) από Βαρομετρικούς Χάρτες. Οι τεχνικές του Data Mining έχουν εφαρμογές σε πλήθος δεδομένων, όπως αυτά που προκύπτουν κάθε στιγμή από το διαδίκτυο, τις συναλλαγές και άλλες πηγές. Η εφαρμογή των μεθόδων του Data Mining έχει ως σκοπό την εξόρυξη χρήσιμης και εύχρηστης "κρυφής" γνώσης από διαφορετικά μη αξιοποιήσιμες πηγές.
Η εργασία είναι διαρθρωμένη σε τρία κεφάλαια. Το πρώτο κεφάλαιο εισάγει τον αναγνώστη στην γλώσσα του Data Mining, αναλύει τους τομείς εφαρμογής του, καθώς και τα είδη των δεδομένων στα οποία είναι εφαρμόσιμο. Έπειτα γίνεται μια εκτενής αναφορά στις τρεις κυριότερες τεχνικές Data Mining, την κατηγοριοποίηση, τους κανόνες συσχέτισης και την ομαδοποίηση.
Το δεύτερο κεφάλαιο αναφέρεται στην ομαδοποίηση, που είναι η τεχνική που θα εφαρμοστεί στην παρούσα εργασία. Αναλύονται οι κυριότεροι τύποι δεδομένων καθώς και τα διάφορα είδη αλγορίθμων που εφαρμόζονται. Επιπλέον, παρουσιάζονται οι βασικοί ορισμοί του πεδίου και αναλύεται η σπουδαιότητα λήψης συγκεκριμένων αποφάσεων όπως η επιλογή του αλγορίθμου, του μέτρου ομοιότητας και της αναπαράστασης των δεδομένων.
Το τρίτο και τελευταίο κεφάλαιο αναφέρεται στην προτεινόμενη μεθοδολογία. Στην συγκεκριμένη εργασία χρησιμοποιούνται μέθοδοι μη επιβλεπόμενου Data Mining για την επεξεργασία βαρομετρικών δεδομένων τού ευρύτερου Μεσόγειου χώρου, με σκοπό να εντοπιστούν περιοχές κυκλογενέσεων. Έτσι στο κεφάλαιο αυτό αναλύεται το προς εξέταση πρόβλημα, και αναφέρονται οι στόχοι της εργασίας. Γίνεται αναφορά στο χρησιμοποιούμενο λογισμικό (WEKA) και έπειτα αναλύεται διεξοδικά όλη η προτεινόμενη μεθοδολογία και παρουσιάζονται οι χάρτες των αποτελεσμάτων, ενώ γίνεται σύγκριση αυτών με τα πραγματικούς βαρομετρικούς χάρτες. Τέλος, στα συμπεράσματα διαπιστώνεται η πρακτική αξία της μεθόδου και παρουσιάζονται κάποιες προτάσεις για περαιτέρω εξέλιξή της. / The present project deals with Data Mining to Barometric Maps Data. Data Mining techniques apply on several types of data, as those that emerge daily from internet, transactions and many other sources. Data Mining methods aim at finding useful, handy "hidden" knowledge in otherwise non-reclaimable sources.
The project is structured in three chapters. The first chapter familiarizes the reader with the Data Mining language, analyzes the fields to which it is applicable and the kind of data that can be used. Afterwards the three most important Data Mining Techniques (Association Rules, Categorization, and Clustering) are deeply analyzed.
The second chapter refers to Clustering, the technique in use here. The most important types of algorithms are mentioned and explained. Furthermore there is a brief reference to the most important field definitions and the importance of certain decision making issues (as the algorithm choice) is analyzed
The last chapter presents the proposed method in this project. Non – supervised Data Mining methods are used to process barometric data of the wider Mediterranean space in order to detect cyclogenetic regions. So, here, the problem under examination is analyzed and the goals of this project are presented. After a brief reference to the software used (WEKA), the whole proposed methodology is deeply analyzed, the result maps are presented while at the same time are compared to the real maps. Finally, the practical value of this method is noted and are given a few proposals for future work.
|
76 |
Ανάλυση και πειραματική αξιολόγηση του μηχανισμού εισαγωγής λαθών σε μνήμες τεχνολογίας MLC NANDΓεωργακοπούλου, Κωνσταντίνα 19 January 2011 (has links)
Οι μνήμες τεχνολογίας NAND Flash χρησιμοποιούνται ευρέως για αποθήκευση δεδομένων λόγω της χαρακτηριστικής πυκνότητας, της χαμηλής απαιτούμενης ισχύος, του χαμηλού κόστους, της υψηλής διεκπεραιωτικής ικανότητας και της αξιοπιστίας τους. Η ανάπτυξη της πολυεπίπεδης τεχνολογίας (MLC) έχει καταστήσει δυνατή την αντικατάσταση των σκληρών δίσκων οδήγησης (HDDs) στις φορητές συσκευές και ορισμένους υπολογιστές με NAND μνήμες. Βεβαίως, οι NAND μνήμες δεν διακρίνονται για την απουσία λαθών κατά την αποθήκευση, αλλά στηρίζονται σε τεχνικές διορθώσεις λαθών (ECC) για να επιτύχουν την κατάλληλη αξιοπιστία.
Διάφορα φαινόμενα οδηγούν σε λάθη αποθήκευσης στις Flash μνήμες. Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση αυτών των μηχανισμών εισαγωγής λαθών και η μελέτη από φυσικής πλευράς της τεχνολογίας των MLC NAND Flash μνημών. καθώς και η πειραματική αξιολόγηση τους και η εξαγωγή των αναγκαίων συμπερασμάτων. / --
|
77 |
Ανάπτυξη παραθυρικής εφαρμογής εισαγωγής στοιχείων και διαχείρισης βάσης δεδομένων αρχέγονων αιμοποιητικών κυττάρωνΤσολάκος, Σταύρος 02 February 2011 (has links)
Οι βάσεις δεδομένων αποτελούν, πλέον, επιτακτική ανάγκη για την οργάνωση, αποθήκευση και γρήγορη ανάκτηση δεδομένων, αλλά και την εξαγωγή συμπερασμάτων μέσα από διαδικασίες στατιστικής επεξεργασίας, στα πλαίσια της αξιοποίησης του τεράστιου όγκου πληροφορίας που ήδη υπάρχει αλλά και εξακολουθεί να παράγεται με εξαιρετικά γρήγορους ρυθμούς στην ιατροβιολογική έρευνα και εν προκειμένω στο πεδίο των λήψεων και των μεταμοσχεύσεων αρχέγονων αιμοποιητικών κυττάρων. Ωστόσο, για την εύκολη πρόσβαση στις πληροφορίες αυτές, απαιτούνται εξειδικευμένες εφαρμογές οι οποίες κρατούν μακρυά την πολυπλοκότητα των βάσεων δεδομένων από τον τελικό χρήστη, προσφέροντας ένα απλό και φιλικό περιβάλλον διαχείρισης.
Το θέμα της εργασίας αυτής είναι η ανάπτυξη μιας τέτοιας εφαρμογής, με το όνομα “AutoStem”. Η εφαρμογή αναπτύχθηκε με τη γλώσσα προγραμματισμού Python, με τη βοήθεια των βιβλιοθηκών wxPython για την δημιουργία του διαδραστικού γραφικού περιβάλλοντος, storm για την επικοινωνία με τη βάση δεδομένων και matplotlib για τη δημιουργία υψηλής ποιότητας γραφημάτων. / Databases constitute nowadays imperative tool for the organization, storage, rapid data recovery and statistical analysis in the field of the modern managing and exploitation of the huge volume of information that already exists and continues to be produced extremely fast. The databases are extremely useful in the management of bioinformation of medicine and biology both in daily diagnostics as well as research. The present study is concentrated in the application of databases in the blood stem cells collections and transplantations. However, sophisticated and specialized applications are required in order to for them be easily accessed. Applications that hide their native complexity, offering an easy to use, intuitive and friendly management environment.
The subject of the present thesis is the development of such an application, named “AutoStem”. The application was developed using the Python programming language, using the wxPython GUI library, the storm library for communicating with the database and the matplotlib for creating high quality graphs.
|
78 |
Αποτελεσματικοί αλγόριθμοι και δομές δεδομένων με εφαρμογές στην ανάκτηση πληροφορίας και στις τεχνολογίες διαδικτύουΑντωνίου, Δημήτρης 23 May 2011 (has links)
Αντικείμενο της παρούσας διδακτορικής διατριβής είναι η μελέτη και τροποποίηση βασικών δομών δεδομένων με σκοπό τη δημιουργία νέων και την τροποποίηση υπαρχουσών λύσεων, με εφαρμογές στην Ανάκτηση Πληροφορίας, τη Βιοπληροφορική και το Διαδίκτυο.
Αρχικά, δίνεται έμφαση στην ανάπτυξη και πειραματική επιβεβαίωση αλγοριθμικών τεχνικών για τη σχεδίαση αυτοοργανώμενων δομών δεδομένων (self-organizing data structures). Μέχρι σήμερα, ο μόνος πιθανός υποψήφιος αλγόριθμος αναζήτησης σε δένδρο που μπορεί να είναι Ο(1)-ανταγωνιστικός είναι το splay δένδρο (splay tree) που παρουσιάστηκε από τους Sleator και Tarjan [1]. Επιπρόσθετα, μελετώνται διάφορες εναλλακτικές τεχνικές αυτοοργάνωσης ([2],[3],[4],[5],[6]) και γίνεται επιβεβαίωση των πάνω ορίων που ισχύουν για την απόδοση των splay trees και για αυτές. Η ανάπτυξη των διάφορων αλγοριθμικών αυτών τεχνικών βρίσκει εφαρμογές πάνω στη συμπίεση δεδομένων. Οι αλγόριθμοι συμπίεσης δεδομένων μπορούν να βελτιώσουν την αποδοτικότητα με την οποία τα δεδομένα αποθηκεύονται ή μεταφέρονται, μέσω της μείωσης του ποσού της πλεονάζουσας πληροφορίας. Η χρήση αυτών των αλγορίθμων τόσο στην κρυπτογράφηση όσο και στην επεξεργασία εικόνας είναι αποδοτική και έχει μεγάλο ερευνητικό ενδιαφέρον. Γενικότερα, οι αυτοοργανώμενες δομές δεδομένων χρίζουν ιδιαίτερης προσοχής στους on-line αλγόριθμους. Αναλυτικότερα, στην παρούσα διατριβή, εφαρμόζεται συμπίεση σε βιολογικά δεδομένα αλλά και σε κείμενα τόσο με χρήση του κλασσικού splay δέντρου [10] αλλά και της log log n ανταγωνιστικής παραλλαγής του. Επιπλέον, παρουσιάζονται τυχαιοποιημένες εκδόσεις των παραπάνω δομών και εφαρμόζονται και αυτές στη συμπίεση δεδομένων. Οι log log n ανταγωνιστικές δομές έχουν καλύτερη απόδοση όσον αφορά την πολυπλοκότητά τους σε σχέση με την κλασσική splay δομή. Το γεγονός αυτό επιβεβαιώνεται πειραματικά, όπου η επιτυγχανόμενη συμπίεση είναι στις περισσότερες των περιπτώσεων καλύτερη από την αντίστοιχη της κλασικής δομής .
Επιπλέον, ιδιαίτερο ερευνητικό ενδιαφέρον βρίσκει η εφαρμογή βασικών δομών δεδομένων στο διαδίκτυο. Επιδιώκουμε την ανάπτυξη και θεωρητική επιβεβαίωση αλγορίθμων για προβλήματα όπως η ανάθεση «καυτών συνδέσμων» (hot links [7]), η αναδιοργάνωση ιστοσελίδων και η ανάκτηση πληροφορίας ([8],[9]). Σε πρώτο στάδιο, προτείνονται ευριστικοί αλγόριθμοι με σκοπό την ανάθεση «καυτών συνδέσμων» (hotlinks) και τη βελτίωση της τοπολογίας ενός ιστότοπου ([12],[13],[14]). Σκοπός του αλγορίθμου είναι η προώθηση των δημοφιλών ιστοσελίδων ενός ιστότοπου, μέσω της ανάθεσης συνδέσμων προς αυτές, από ιστοσελίδες οι οποίες είναι σχετικές με αυτές ως προς το περιεχόμενο αλλά και ταυτόχρονα συντελούν στη μείωση της απόστασής τους από την αρχική σελίδα. Παρουσιάζεται το μοντέλο του αλγορίθμου, καθώς και μετρικές οι οποίες χρησιμοποιούνται για την ποσοτική αξιολόγηση της αποδοτικότητας του αλγορίθμου σε σχέση με ειδικά χαρακτηριστικά ενός ιστότοπου, όπως η εντροπία του.
Σε δεύτερο στάδιο, γίνεται μελέτη τεχνικών προσωποποίησης ιστοσελίδων [11]. Συγκεκριμένα, σκοπός είναι η υλοποίηση ενός αλγορίθμου, ο οποίος θα ανακαλύπτει την αυξημένη ζήτηση μίας κατηγορίας ιστοσελίδων Α από έναν χρήστη και αξιοποιώντας την καταγεγραμμένη συμπεριφορά άλλων χρηστών, θα προτείνει κατηγορίες σελίδων οι οποίες προτιμήθηκαν από χρήστες οι οποίοι ομοίως παρουσίασαν αυξημένο ενδιαφέρον προς την κατηγορία αυτή. Αναλύεται το φαινόμενο της έξαρσης επισκεψιμότητας (burst) και η αξιοποίηση του στο πεδίο της εξατομίκευσης ιστοσελίδων. Ο αλγόριθμος υλοποιείται με τη χρήση δύο δομών δεδομένων, των Binary heaps και των Splay δέντρων, και αναλύεται η χρονική και χωρική πολυπλοκότητά του. Επιπρόσθετα, γίνεται πειραματική επιβεβαίωση της ορθής και αποδοτικής εκτέλεσης του αλγορίθμου. Αξίζει να σημειωθεί πως ο προτεινόμενος αλγόριθμος λόγω της φύσης του, χρησιμοποιεί χώρο, ο οποίος επιτρέπει τη χρησιμοποίηση του στη RAM. Τέλος, ο προτεινόμενος αλγόριθμος δύναται να βρει εφαρμογή σε εξατομίκευση σελίδων με βάση το σημασιολογικό τους περιεχόμενο σε αντιστοιχία με το διαχωρισμό τους σε κατηγορίες.
Σε τρίτο στάδιο, γίνεται παρουσίαση πρωτότυπης τεχνικής σύστασης ιστοσελίδων [15] με χρήση Splay δέντρων. Σε αυτή την περίπτωση, δίνεται ιδιαίτερο βάρος στην εύρεση των σελίδων που παρουσιάζουν έξαρση επισκεψιμότητας και στη σύστασή τους στους χρήστες ενός ιστότοπου. Αρχικά, τεκμηριώνεται η αξία της εύρεσης μιας σελίδας, η οποία δέχεται ένα burst επισκέψεων. H έξαρση επισκεψιμότητας (burst) ορίζεται σε σχέση τόσο με τον αριθμό των επισκέψεων, όσο και με το χρονικό διάστημα επιτέλεσής τους. Η εύρεση των σελίδων επιτυγχάνεται με τη μοντελοποίηση ενός ιστότοπου μέσω ενός splay δέντρου. Με την τροποποίηση του δέντρου μέσω της χρήσης χρονοσφραγίδων (timestamps), ο αλγόριθμος είναι σε θέση να επιστρέφει σε κάθε χρονική στιγμή την ιστοσελίδα που έχει δεχθεί το πιο πρόσφατο burst επισκέψεων. Ο αλγόριθμος αναλύεται όσον αφορά τη χωρική και χρονική του πολυπλοκότητα και συγκρίνεται με εναλλακτικές λύσεις. Μείζονος σημασίας είναι η δυνατότητα εφαρμογής του αλγορίθμου και σε άλλα φαινόμενα της καθημερινότητας μέσω της ανάλογης μοντελοποίησης. Παραδείγματος χάρη, στην περίπτωση της απεικόνισης ενός συγκοινωνιακού δικτύου μέσω ενός γράφου, ο αλγόριθμος σύστασης δύναται να επιστρέφει σε κάθε περίπτωση τον κυκλοφοριακό κόμβο ο οποίος παρουσιάζει την πιο πρόσφατη συμφόρηση.
Τέλος, όσον αφορά το πεδίο της ανάκτησης πληροφορίας, η διατριβή επικεντρώνεται σε μία πρωτότυπη και ολοκληρωμένη μεθοδολογία με σκοπό την αξιολόγηση της ποιότητας ενός συστήματος λογισμικού βάσει του Προτύπου Ποιότητας ISO/IEC-9126.
Το κύριο χαρακτηριστικό της είναι ότι ολοκληρώνει την αξιολόγηση ενός συστήματος λογισμικού ενσωματώνοντας την αποτίμηση όχι μόνο των χαρακτηριστικών που είναι προσανατολισμένα στο χρήστη, αλλά και εκείνων που είναι πιο τεχνικά και αφορούν τους μηχανικούς λογισμικού ενός συστήματος. Σε αυτή τη διατριβή δίνεται βάρος στην εφαρμογή μεθόδων εξόρυξης δεδομένων πάνω στα αποτελέσματα της μέτρησης μετρικών οι οποίες συνθέτουν τα χαρακτηριστικά του πηγαίου κώδικα, όπως αυτά ορίζονται από το Προτύπο Ποιότητας ISO/IEC-9126 [16][17]. Ειδικότερα εφαρμόζονται αλγόριθμοι συσταδοποίησης με σκοπό την εύρεση τμημάτων κώδικα με ιδιαίτερα χαρακτηριστικά, που χρήζουν προσοχής. / In this dissertation we take an in-depth look at the use of effective and efficient data structures and algorithms in the fields of data mining and web technologies. The main goal is to develop algorithms based on appropriate data structures, in order to improve the performance at all levels of web applications.
In the first chapter the reader is introduced to the main issues studied dissertation. In the second chapter, we propose novel randomized versions of the splay trees. We have evaluated the practical performance of these structures in comparison with the original version of splay trees and with their log log n-competitive variations, in the application field of compression. Moreover, we show that the Chain Splay tree achieves O(logn) worst-case cost per query. In order to evaluate performance, we utilize plain splay trees, the log log n-competitive variations, the proposed randomized version with the Chain Splay technique to compress data. It is observed experimentally that the compression achieved in the case of the log log n-competitive technique is, as expected, more efficient than the one of the plain splay trees.
The third chapter focuses on hotlinks assignment techniques. Enhancing web browsing experience is an open issue frequently dealt using hotlinks assignment between webpages, shortcuts from one node to another. Our aim is to provide a novel, more efficient approach to minimize the expected number of steps needed to reach expected pages when browsing a website. We present a randomized algorithm, which combines the popularity of the webpages, the website structure, and for the first time to the best authors’ knowledge, the similarity of context between pages in order to suggest the placement of suitable hotlinks. We verify experimentally that users need less page transitions to reach expected information pages when browsing a website, enhanced using the proposed algorithm.
In the fourth chapter we investigate the problem of web personalization. The explosive growth in the size and use of the World Wide Web continuously creates new great challenges and needs. The need for predicting the users’ preferences in order to expedite and improve the browsing though a site can be achieved through personalizing of the Websites. Recommendation and personalization algorithms aim at suggesting WebPages to users based on their current visit and past users’ navigational patterns. The problem that we address is the case where few WebPages become very popular for short periods of time and are accessed very frequently in a limited temporal space. Our aim is to deal with these bursts of visits and suggest these highly accessed pages to the future users that have common interests. Hence, in this paper, we propose a new web personalization technique, based on advanced data structures. The data structures that are used are the Splay tree (1) and Binary heaps (2). We describe the architecture of the technique, analyze the time and space complexity and prove its performance. In addition, we compare both theoretically and experimentally the proposed technique to another approach to verify its efficiency. Our solution achieves O(P2) space complexity and runs in k log P time, where k is the number of pages and P the number of categories of WebPages.
Extending this algorithm, we propose an algorithm which efficiently detects bursts of visits to webpages. As an increasing number of Web sites consist of multiple pages, it is more difficult for the visitors to rapidly reach their own target. This results in an urgent need for intelligent systems that effectively support the users’ navigation to high demand Web content. In many cases, due to specific conditions, web pages become very popular and receive excessively large number of hits. Therefore, there is a high probability that these web pages will be of interest to the majority of the visitors at a given time. The data structure that is used for the purposes of the recommendation algorithm is the Splay tree. We describe the architecture of the technique, analyze the time and space complexity and show its performance.
The dissertation’s last chapter elaborates on how to use clustering for the evaluation of a software system’s maintainability according to the ISO/IEC-9126 quality standard. More specifically it proposes a methodology that combines clustering and multicriteria decision aid techniques for knowledge acquisition by integrating groups of data from source code with the expertise of a software system’s evaluators. A process for the extraction of elements from source code and Analytical Hierarchical Processing for assigning weights to these data are provided; k-Attractors clustering algorithm is then applied on these data, in order to produce system overviews and deductions. The methodology is evaluated on Apache Geronimo, a large Open Source Application Server, results are discussed and conclusions are presented together with directions for future work.
|
79 |
Χρήση μεθόδων εξόρυξης δεδομένων στη δημιουργία νευρωκανόνωνΑγγελόπουλος, Νικόλαος 03 November 2011 (has links)
Στην εργασία αυτή παρουσιάζεται μια εναλλακτική διαδικασία διάσπασης ενός μη διαχωρίσιμου συνόλου εκπαίδευσης για την παραγωγή νευρωκανόνων. Η υπάρχουσα διαδικασία παρήγαγε νευρωκανόνες από μη γραμμικά σύνολα διασπώντας τα σε δύο υποσύνολα με βάση την «απόσταση» των προτύπων καταλήγοντας συχνά σε πολλαπλή αναπαράσταση της ίδιας γνώσης. Με την παρούσα εργασία διερευνάται η δυνατότητα της διάσπασης ενός μη διαχωρίσιμου συνόλου σε k υποσύνολα με χρήση μεθόδων συσταδοποίησης. Το k μπορεί είτε να αποτελεί είσοδο της διαδικασίας είτε να υπολογίζεται δυναμικά από ένα συγκεκριμένο εύρος τιμών. Η δεύτερη στρατηγική διάσπασης (δυναμικός k-modes) φαίνεται να έχει τα καλύτερα αποτελέσματα, ενώ η πρώτη (τροποποιημένος k-modes) παρουσιάζει συγκρίσιμα αποτελέσματα με την υπάρχουσα μέθοδο για μικρά k. Και οι δύο στρατηγικές διάσπασης μπορούν να συνδυαστούν με μία μέθοδο εύρεσης εκτόπων που αφαιρεί από το αρχικό σύνολο εκπαίδευσης μεμονωμένα παραδείγματα που αποκλίνουν «περισσότερο» από τα υπόλοιπα. / In this thesis we present an alternative splitting policy of a non separable training set used for the production of neurules. The existing method produced neurules from non linear training sets by “breaking” them into two subsets based on “distance” between patterns often leading to multiple representations of the same knowledge. The present thesis looks into the possibility of splitting a non separable training set into k subsets using clustering methods. The number k can be treated as an input to the process or it can be calculated dynamically from a specific range of values. The second splitting strategy (dynamic k-modes) appears to have the best results, while the first one (modified k-modes) gives similar results to the existing method for small values of k. Moreover, both splitting strategies can be combined with an outlier detection process which removes from the initial training set remote examples that deviate more from the rest, thus improving their performance.
|
80 |
Φιλτράρισμα και εξόρυξη δεδομένων σε αντικείμενα πληροφορίας / Filtering and data mining techniques in information objectsΑντωνέλλης, Παναγιώτης 06 October 2011 (has links)
Καθώς ο κόσμος της πληροφορίας γίνεται κοινός τόπος για όλο και μεγαλύτερο μέρος του πληθυσμου παγκοσμίως, η ανάγκη για αποδοτική διαχείριση μεγάλου όγκου ετερογενών δεδομένων γίνεται επιτακτική. Τα δεδομένα που διακινούνται καθημερινά μέσω του διαδικτύου απαιτούν φιλτράρισμα ώστε στους τελικούς χρήστες να φθάσουν μόνο όσα είναι απαραίτητα, ενώ ταυτόχρονα κρίνεται αναγκαίος ο σχεδιασμός τεχνικών και μεθόδων που θα επιτρέψουν τη βέλτιστη αποθήκευση, διαχείριση, αναζήτηση και ανάκτηση των δεδομένων αυτών, με απώτερο σκοπό την εξόρυξη χρήσιμης πληροφορίας και γνώσης από αυτά.
Οι τεχνικές Εξόρυξης Δεδομένων, με την ευρεία εφαρμογή τους σε διαφόρων ειδών δεδομένα, παρουσιάζουν ως μια ιδανική λύση στα προβλήματα που αναφέρθηκαν προηγουμένως. Τα τελευταία χρόνια, αρκετή έρευνα έχει διεξαχθεί στο πως μπορούν να εφαρμοσθούν σε δεδομένα χρήσης του παγκοσμίου ιστού, καθώς και σε XML δεδομένα. Επίσης ενδιαφέρον υπάρχει και κατά την αξιολόγηση λογισμικού όπου η πηγή δεδομένων είναι τα αρχεία πηγαίου κώδικα ενός συστήματος λογισμικού, ώστε να αναγνωρισθούν και να επιλυθούν έγκαιρα τυχόν προβλήματα.
Η eXtensible Markup Language (XML) είναι το πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Η ραγδαία αύξηση του όγκου των δεδομένων που αναπαρίστανται σε XML δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια. Για να μπορέσουν να ανταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια πρέπει να έχουν τη δυνατότητα να μεταβάλλονται δυναμικά. Επίσης, λόγω της απαίτησης για αναζήτηση συγκεκριμένης πληροφορίας είναι απαραίτητο το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες. Ταυτόχρονα, η ανάγκη συσταδοποίησης ενός μεγάλου όγκου XML δεδομένων για περαιτέρω επεξεργασία, κάνει απαιτητική την ανάγκη εφαρμογής έξυπνων και αποδοτικών αλγορίθμων και τεχνικών, οι οποίοι θα είναι προσαρμοσμένοι τόσο στην ημι-δομημένη φύση της XML όσο και στο πραγματικό περιεχόμενο το οποίο αναπαριστά. Τέλος, λόγω του μεγάλου όγκου δεδομένων που πρέπει να επεξεργαστούν, η κατανεμημένη διαχείριση σε δίκτυα ομότιμων κόμβων (P2P) γίνεται ολοένα και πιο ελκυστική καθώς προσφέρει πολλά πλεονεκτήματα όπως επιμερισμό του φόρτου εργασίας καθώς και κατανομή του αποθηκευτικού χώρου.
Επιπλέον, η ραγδαία εξάπλωση του διαδικτύου οδήγησε και σε μια προσπάθεια αναβάθμισης των υπηρεσιών που παρέχουν οι διάφοροι ιστότοποι, με στόχο την καλύτερη εξυπηρέτηση των χρηστών που τους επισκέπτονται. Η πρόσπαθεια εξατομίκευσης του προβαλλόμενου περιεχομένου προϋποθέτει μια ενδελεχή μελέτη της συμπεριφοράς των χρηστών, όπως αυτή αποτυπώνεται από τα δεδομένα χρήσης (clickstreams) του δικτυακού ιστοτόπου. Η εύρεση κοινών προτύπων συμπεριφοράς μεταξύ των χρηστών μπορεί μόνο να επιτευχθεί με την εφαρμογή κατάλληλων αλγόρίθμων εξόρυξης δεδομένων.
Τέλος οι διαστάσεις της εσωτερικής, της εξωτερικής και της ποιότητας στη χρήση ενός προϊόντος λογισμικού αλλάζουν κατά τη διάρκεια ζωής του. Για παράδειγμα η ποιότητα όπως ορίζεται στην αρχή του κύκλου ζωής του λογισμικού δίνει πιο πολλή έμφαση στην εξωτερική και σε αυτή του χρήστη και διαφέρει από την εσωτερική ποιότητα, όπως η ποιότητα της σχεδίασης η οποία είναι εσωτερική και αφορά τους μηχανικούς λογισμικού. Οι τεχνικές εξόρυξης δεδομένων που μπορούν να χρησιμοποιηθούν για την επίτευξη του απαραίτητου επιπέδου ποιότητας, όπως είναι η αξιολόγηση της ποιότητας πρέπει να λαμβάνουν υπόψιν τους τις διαφορετικές αυτές διαστάσεις σε κάθε στάδιο του κύκλου ζωής του προϊόντος.
Στα πλαίσια αυτής της διδακτορικής διατριβής η έρευνα επικεντρώθηκε στην αναγνώριση των ιδιαιτέρων προβλημάτων και προκλήσεων που εισάγουν τα XML δεδομένα ώστε να σχεδιαστούν αποδοτικοί αλγόριθμοι φιλταρίσματος, συσταδοποίησης και διαχείρισης XML δεδομένων σε δίκτυα ομότιμων κόμβων. Επιπλέον μελετήθηκε το πρόβλημα της εφαρμογής τεχνικών εξόρυξης δεδομένων σε μετρικές πηγαίου κώδικα ενός συστήματος λογισμικού ώστε να γίνει δυνατή η αξιολόγηση της ποιότητάς τους και η έγκαιρη αναγνώριση τυχόν προβλημάτων. Η έρευνα στον τομέα αυτό επικεντρώθηκε στην σχεδίαση ενός αλγορίθμου συσταδοποίησης για μετρικές πηγαίου κώδικα, ώστε τα συστατικά στοιχεία του πηγαίου κώδικα (πακέτα, κλάσεις, συναρτήσεις) να μπορούν να ομαδοποιηθούν ανάλογα με την ποιότητά τους. Τέλος, μελετήθηκε το πρόβλημα της επεξεργασίας και εξόρυξης γνώσης από δεδομένα χρήσης του παγκοσμίου ιστού ώστε να γίνει εφικτή η παροχή προσωποποιημένων πληροφοριών στον χρήστη. Η έρευνα στον τομέα αυτό επικεντρώθηκε στο πως μπορεί να γίνει αποδοτική συσταδοποίηση των χρηστών με βάση το ιστορικό τους σε ένα δικτυακό τόπο καθώς και στο πως μπορεί να οριστεί μια μετρική ομοιότητας μεταξύ δύο χρηστών κάνοντας χρήση του ιστορικού τους. / The increasing usage of World Wide Web for storing and exchanging information internationally has lead to huge growth of the different types of stored data. The useful information stored in these data is usually hidden and needs special processing to be unveiled. The area of data mining has arisen over the last decade to address this problem. It has become not only an important research area, but also one with large potential in the real world. Data mining has many directives and can handle various types of data.
The wide acceptance of XML (eXtensive Markup Language) as the standard for storing and exchanging information through internet, combined with the growth of native XML databases has designated the problem of efficient data mining techniques on semi structured data. Traditional approaches have proven inefficient as they are mainly oriented to well- structured data, like relational databases, while Web data and XML databases are based on semi structured format. The XML language permits the description of new structures, the nesting of structures in arbitrary depth and the optional description of its grammar, which allows the modeling of an XML document as a labeled treed: elements and attributes are mapped to nodes in the tree and direct nesting relationships are mapped to edges in the tree. Together with the problem of searching through a set of XML documents, a new problem has arisen: that of filtering an XML document through a predefined set of patterns and rules. This problem comes from publish/subscribe systems where the users define their interests and preferences and the system undertakes to filter incoming information through the stored user profiles. In addition, data management and processing issues, such as storage, mining and retrieval of the large number of XML documents, have also arisen. Clustering of XML documents improves the process of management and retrieval as it organizes the massive amounts of XML data into groups without prior knowledge. This grouping may boost the process of querying by applying the user queries only to related groups of XML documents as well the process of storing and processing XML documents in peer-to-peer networks.
The next part of the thesis deals with mining source code quality metrics to assist the comprehension and the analysis of a software system’s maintainability. Due to the special nature of source code quality metrics (numerical and categorical), traditional data mining techniques can not be applied as it is. This thesis investigates a new clustering algorithm, based on frequent itemset mining, which helps produce general overviews of the system’s various source code entities (packages, classes, methods) or to identify specific parts that need further attention or handling (outliers).
The final part of the thesis deals with data mining techniques on web usage data in order to identify common trends and patterns in the user navigational behavior. Clustering is a useful and ubiquitous tool in such a data analysis, allowing the website owners to group their users into different groups based on their interaction with the website, find usability issues related to the website’s content and its structure and obtain knowledge by learning the user preferences and interests. This thesis investigates the application of clustering techniques in web usage data and proposes a new model for analyzing click-stream data in the World Wide Web based on multiple levels of clustering.
|
Page generated in 0.042 seconds