Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9iΝτεϊμεντέ, Σοφία 09 October 2007 (has links)
Ως σώμα κειμένου (corpus) μπορούμε να ορίσουμε ένα δομημένο σύνολο οπό κείμενα. Το σώμα κειμένων μπορεί να περιλαμβάνει αντιπροσωπευτικά κείμενα μιας γλώσσας ή ορισμένου υποσυνόλου της. Μπορεί ακόμα να περιλαμβάνει κείμενα από μια γλώσσα (μονόγλωσσα) ή από περισσότερες γλώσσες (πολύγλωσσα). Τα σώματα κειμένων μπορούν να διακριθούν ως προς το περιεχόμενο τους σε ειδικευμένα και γενικά. Διαφόρων τύπων διάλεκτοι όπως γεωγραφικές ή κοινωνικές καθώς και ιδιωματισμοί δεν θα πρέπει να συμπεριλαμβάνονται σε αυτά γιατί αποκλίνουν από τη γενική χρήση της γλώσσας. Η χρήση των σωμάτων κειμένων γίνεται σε διάφορους τομείς της Γλωσσολογίας όπως η Βασική έρευνα, η Λεξικογραφία, η Επεξεργασία της φυσικής γλώσσας, η επεξεργασία φωνής και προφορικού λόγου και σκοπός της είναι να προσφέρει στον ερευνητή ή στον οποιοδήποτε ενδιαφερόμενο την πληροφορία που χρειάζεται για τη γλωσσολογική του έρευνα. Εκτός από θεωρητική έρευνα όμως τα σώματα κειμένων μπορούν να αποτελέσουν τη βάση για τη δημιουργία λεξικών και για την υλοποίηση τυπικών γραμματικών.
Στη σημερινή εποχή που αποτελεί γενική διαπίστωση ότι η τεχνολογία δίνει τεράστιες δυνατότητες όσον αφορά την αποθήκευση μεγάλου όγκου πληροφορίας και την γρήγορη ανάκτηση δεδομένων, καθώς και η εκθετική αύξηση της χρήσης του Διαδικτύου, έχουν κάνει δυνατή τη δημιουργία ηλεκτρονικών σωμάτων κειμένων που εκμεταλλεύονται τις προαναφερθείσες δυνατότητες,
Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η υλοποίηση μιας δομής αποθήκευσης σωμάτων κειμένων στην σχεσιακή βάση δεδομένων Oracle 9i, χρησιμοποιώντας την τεχνολογία Oracle Text. Η τεχνολογία αυτή προσφέρει δυνατότητα αναζήτησης σε όλους τους τύπους δεδομένων, υψηλή απόδοση, γρήγορες ταχύτητες και ανώτερη ποιότητα αναζήτησης και συνδυάζεται με όλες τις δυνατότητες και τα πλεονεκτήματα που μας παρέχει η βάση δεδομένων Oracle 9ί.
Το παρόν σώμα κειμένων βασίζεται στο αντίστοιχο ευρωπαϊκό σώμα κειμένων με την ονομασία Tractor Corpus (TELRI Research Archive of Computational Tools and Resource) το οποίο καλύπτει την πλειοψηφία των ευρωπαϊκών γλωσσών, ανάμεσα σ' αυτές και την ελληνική και έχει εμπλουτιστεί και με σύγχρονα κείμενα, τα οποία έχουν προέλθει από ποικίλες πηγές (βιβλία, εφημερίδες, περιοδικά, διαδίκτυο κα) και καλύπτουν αρκετά θέματα της τρέχουσας ειδησεογραφία και όχι μόνο.
Η σχεσιακή βάση δεδομένων περιέχει όλο τα κείμενα τα οποία είναι αποθηκευμένα στους πίνακες της και αποτέλεσμα αυτού είναι να μην υπάρχει υλικό σε εξωτερικά αρχεία. Αυτό συμβαίνει γιατί οι σύγχρονες 8Δ δίνουν την δυνατότητα αποθήκευσης μεγάλου όγκου δεδομένων χωρίς να επηρεαστεί η ταχύτητα απόκρισης τους.
Στα πλαίσια της διπλωματικής έχει υλοποιηθεί διαχειριστική εφαρμογή, μέσω της οποίας ο διαχειριστής του συστήματος μπορεί να αποθηκεύσει τα αρχεία κειμένου στη βάση και να προχωρήσει στην λεκτική ανάλυση των κειμένων, την ανεύρεση δηλαδή των δομικών τους μονάδων-προτάσεων. Επιπλέον, μπορεί μέσω της εφαρμογής εξαγωγής λέξεων κλειδιών να παράγει για κάθε κείμενο τις λέξεις κλειδιά ώστε να τις εμφανίσει αργότερα στη διαδικτυακή εφαρμογή σαν επιπρόσθετη πληροφορία.
Ακόμα έχουν υλοποιηθεί οι απαραίτητες ιστοσελίδες που αποτελούν τη διεπαφή χρήστη, για την αναζήτηση όρων στο σώμα κειμένων και την άντληση του υλικού ανάλογα με τις ανάγκες του. Όσον αφορά στην αναζήτηση το σύστημα επιτρέπει στον χρήστη απλές αναζητήσεις όπως το να αναζητήσει από μια έως τρεις λέξεις με τους τελεστές ΟΚ (διάζευξη) ή ΑΝD (σύζευξη) ανάμεσα τους αλλά και σύνθετες αναζητήσεις όπου ο χρήστης μπορεί να επιλέξει τη μέγιστη απόσταση μέσα σε κάθε πρόταση κειμένου μεταξύ των λέξεων που αναζητά. Το σύστημα εκτελεί το εκάστοτε ερώτημα κάθε φορά και επιστρέφει τα αποτελέσματα, επιστρέφει δηλαδή προτάσεις από τα κείμενα στις οποίες εμπεριέχονται οι λέξεις αναζήτησης και ικανοποιούνται τα κριτήρια αναζήτησης που έχουν τεθεί. Τέλος, ο χρήστης μπορεί ακόμα να δει επιπλέον πληροφορίες σχετικές με το κείμενο από το οποίο προήλθε ο όρος ή οι όροι που αναζήτησε όπως τον συγγραφέα, τον εκδότη, τις λέξεις κλειδιά, το μέσο δημοσίευσης, την ημερομηνία έκδοσης κ.α. / -
A temporal database model using nested relationsGarani, Georgia January 2004 (has links)
No description available.
A performance analysis of a hybrid relational-XML approach to store partially-structured dataAbdel Kader, Yasser January 2007 (has links)
Nowadays, huge amounts of data are stored outside the rigid boundary of highly- structured and traditional database management systems, such as World Wide Web, application data that deals with non-standard data formats, legacy systems and structured documents. On the one hand, this data does not conform to a pre-defined structure and yet it is not completely un-structured. This data is classified as semi- structured data. There is a need to store and manage the large existing collections of semi-structured data and to query it efficiently in a way similar to traditional databases. But as yet, a mature technology for doing so does not exist. However, eXtensible Markup Language (XML) has emerged as the lingua franca of the web. XML has the ability to represent all form of structured data (highly-, semi- and un-structured). This research aims to enhance the performance of storing, querying and retrieving XML data that contain a combination of highly-structured and semi-structured data (this hybrid structuring can be described as partially-structured data), so as to better support classes of application where there is a fixed formal framework for data, but also an ad hoc component. One way to manage XML data is by using relational database management systems. This is based on the robust, well established and optimised performance relational database management systems can offer. The research presented in this thesis is concerned with seeking ways of further exploiting the latter advantages in adapting relational technology to store XML data. To this end, the research has proposed a hybrid relational-XML storage model to store partially-structured XML encoded data, in which a combination of structure mapping and XML types are used within a relational database management system, so as to exploit pre-knowledge of the highly-structured part in query processing while allowing flexibility to store the semi-structured part. A set of experiments were designed to evaluate the query performance for partially-structured data using structure mapping to relational tables, XML types and the hybrid model. These experiments were evaluated using a standard benchmark set of queries. The analyses of the experiments' results establish the impact on query performance as structuredness, volume and query characteristics change. The results of the experiments showed that there was no one storage model that outperforms all other models in all cases. In most of the cases, this hybrid model performed better than both the relational and XML data type models. The research proposed a method, by which the results of the performance analysis can be utilised by the database designer to seek optimal relational storage models for XML-encoded partially-structured data.
An early intervention model for quality assurance of the schema development processYoussef Azz El Din, Asser Hassan January 2011 (has links)
During the last few years there have been increasing calls for higher standards regarding the quality of various attributes and aspects of information services. Databases are extremely important within information systems since they are the basic nucleus in most cases. This thesis is going to cover the topic of database quality, by investigating the relationship between database quality as a dependant variable and information quality, data quality, service quality, software quality, infrastructure quality and administrative quality as independent variables. It is critical that databases be properly designed and managed, as the costs associated with database developing quality from design to implementation are much lower than the costs of correcting problems occur later due to poor design, this raise the need to an early intervention model. Therefore, the aim of the thesis is to develop an early intervention model for quality assurance for the schema development process. This can be achieved by using the proposed model which consists of four main components: the task path, the proposed form, the schema checklist and the quality checklist. This research follows two distinctive methodologies. From one aspect, it is of an exploratory nature, as it aims to explore the validity of the proposed model in the database design, while from another aspect, it is of an empirical nature as it tests the impact of using the proposed model on the schema produced. The scope of this study is the small-size relational database systems. Relational has been selected because RDBMS control the database market and they are most widespread these days. To test the hypothesis, an experiment has been designed by the researcher to prove the correctness of this hypothesis. The proposed model has been examined and compared to the traditional model to see the effect of the proposed model on the schema quality. From the experiment results, it has been found that using the proposed model can achieve some quality factors which are accuracy, completeness, consistency, relevancy, meanwhile obtaining user satisfaction.
Συμπίεση βάσης δεδομένων σκακιστικών φινάλε με μεθόδους data miningΘάνου, Αναστάσιος 16 April 2013 (has links)
Η συγκεκριμένη διπλωματική εργασία διαπραγματεύεται τη συμπίεση των βάσεων του Nalimov με μεθόδους data mining. Είναι βάσεις σκακιστικών φινάλε, οι οποίες παρέχουν πληροφορίες, ανάλογα με την τοποθέτηση των κομματιών για το ποιος νικάει κάθε φορά σε ένα φινάλε τριών ή περισσοτέρων κομματιών συμπεριλαμβανομένων και των δύο βασιλιάδων. Η προσπάθεια γίνεται με το έτοιμο πρόγραμμα Weka, το οποίο διατίθεται δωρεάν στο internet και προσφέρεται για εφαρμογές του data mining.
Η συμπίεση προσφέρει ευελιξία στην αποθήκευση, ίσως και κατανόηση από τον άνθρωπο, όπως πάντα γίνεται στο data mining. Αρχικά, μελετήθηκε το φινάλε με βασιλιά και ένα πιόνι εναντίον του μαύρου βασιλιά. Έγινε μελέτη από διάφορες πλευρές και με διαφορετικά χαρακτηριστικά (attributes) που ορίζονται από το χρήστη και αποσκοπούν στην καλή εκπαίδευση ενός ταξινομητή, ο οποίος λέει ποιος νικάει ή αν έχουμε ισοπαλία. Ενδιαφέρουσα ήταν και η προσπάθεια για αύξηση της απόδοσης ώστε να πλησιάσει κατά το δυνατόν το 100% στο συγκεκριμένο φινάλε, άλλοτε με ανάθεση μεγαλύτερης προσπάθειας στον υπολογιστή και άλλοτε καθαρά από τον ανθρώπινο παράγοντα, με διόρθωση λαθών και επανεπισκόπηση των χαρακτηριστικών για τη δημιουργία καταλληλοτέρων δεδομένων. Ακολούθως, μελετήθηκαν τα φινάλε με βασίλισσα ή πύργο αντί για πιόνι και γίνονταν σχόλια σε καίρια σημεία.
Τέλος, η μελέτη επεκτάθηκε και σε φινάλε τεσσάρων κομματιών, όπου είχαμε την ευκαιρία να δούμε τα φινάλε KBBK και KRKN, τα οποία παρουσιάζουν ενδιαφέρον, καθώς αυξάνονται οι υπολογιστικές απαιτήσεις. / This diploma dissertation deals with the compression of the Nalimov bases using methods of data mining. They are chess endgame databases, which provide information, depending on the placement of the men, about who wins in an endgame of three or more pieces, including the two kings. The work was made by means of the open-software program Weka, which is available free on the internet and is ideal for applications of data mining.
This compression aims to provide flexibility in storage and perhaps understanding by the users, as is always the case in data mining. At first, the endgame with one king and a pawn vs the black king was studied. A study was done from different perspectives and with quite different characteristics (attributes), which are specified by the user and designed in order that a good classifier should be trained, a classifier that should finally say who wins or if it is a tie. Also, something interesting that was done was an attempt to increase efficiency to close as possible to 100% in this endgame, sometimes shifting the whole work to the computer and sometimes mainly by the human factor. Of course, the latter was managed by correcting errors and reconsidering the attributes for creating the most appropriate data possible. Then, we studied the endgames with a queen and then, with a rook instead of a pawn, with comments made at key points.
Finally, the study was expanded to endgames with four men, where we had the opportunity to see the endgames KBBK and KRKN, which are interesting as the computational requirements increase.
XML και σχεσιακές βάσεις δεδομένων: πλαίσιο αναφοράς και αξιολόγησης / XML and relational databases: a frame of report and evaluationΠαλιανόπουλος, Ιωάννης 16 May 2007 (has links)
Η eXtensible Markup Language (XML) είναι εμφανώς το επικρατέστερο πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Αποτελεί μια γλώσσα περιγραφής δεδομένων, κατανοητή τόσο από τον άνθρωπο, όσο και από τη μηχανή. Η χρήση της σε αρχικό στάδιο περιορίστηκε στην ανταλλαγή δεδομένων, αλλά λόγω της εκφραστικότητάς της (σε αντίθεση με το σχεσιακό μοντέλο) μπορεί να αποτελέσει ένα αποτελεσματικό \"όχημα\" μεταφοράς και αποθήκευσης πληροφορίας. Οι σύγχρονες εφαρμογές κάνουν χρήση της τεχνολογίας XML εξυπηρετώντας ανάγκες διαλειτουργικότητας και επικοινωνίας. Ωστόσο, θεωρείται βέβαιο ότι η χρήση της σε επίπεδο υποδομής θα ενδυναμώσει περαιτέρω τις σύγχρονες εφαρμογές. Σε επίπεδο υποδομής, μια βάση δεδομένων που διαχειρίζεται την γλώσσα XML είναι σε θέση να πολλαπλασιάσει την αποδοτικότητά της, εφόσον η βάση δεδομένων μετατρέπεται σε βάση πληροφορίας. Έτσι, όσο οι εφαρμογές γίνονται πιο σύνθετες και απαιτητικές, η ενδυνάμωση των βάσεων δεδομένων με τεχνολογίες που φέρουν/εξυπηρετούν τη σημασιολογία των προβλημάτων υπόσχεται αποτελεσματικότερη αντιμετώπιση στο παραπάνω μέτωπο. Αλλά ποιος είναι ο καλύτερος τρόπος αποδοτικού χειρισμού των XML εγγράφων (XML documents); Με μια πρώτη ματιά η απάντηση είναι προφανής. Εφόσον ένα XML έγγραφο αποτελεί παράδειγμα μιας σχετικά νέας τεχνολογίας, γιατί να μη χρησιμοποιηθούν ειδικά συστήματα για το χειρισμό της; Αυτό είναι πράγματι μια βιώσιμη προσέγγιση και υπάρχει σημαντική δραστηριότητα στην κοινότητα των βάσεων δεδομένων που εστιάζει στην εκμετάλλευση αυτής της προσέγγισης. Μάλιστα, για το σκοπό αυτό, έχουν δημιουργηθεί ειδικά συστήματα βάσεων δεδομένων, οι επονομαζόμενες \"Εγγενείς XML Βάσεις Δεδομένων\" (Native XML Databases). Όμως, το μειονέκτημα της χρήσης τέτοιων συστημάτων είναι ότι αυτή η προσέγγιση δεν αξιοποιεί την πολυετή ερευνητική δραστηριότητα που επενδύθηκε για την τεχνολογία των σχεσιακών βάσεων δεδομένων. Είναι πράγματι γεγονός ότι δεν αρκεί η σχεσιακή τεχνολογία και επιβάλλεται η ανάγκη για νέες τεχνικές; Ή μήπως με την κατάλληλη αξιοποίηση των υπαρχόντων συστημάτων μπορεί να επιτευχθεί ποιοτική ενσωμάτωση της XML; Σε αυτήν την εργασία γίνεται μια μελέτη που αφορά στην πιθανή χρησιμοποίηση των σχεσιακών συστημάτων βάσεων δεδομένων για το χειρισμό των XML εγγράφων. Αφού αναλυθούν θεωρητικά οι τρόποι με τους οποίους γίνεται αυτό, στη συνέχεια εκτιμάται πειραματικά η απόδοση σε δύο από τα πιο δημοφιλή σχεσιακά συστήματα βάσεων δεδομένων. Σκοπός είναι η χάραξη ενός πλαισίου αναφοράς για την αποτίμηση και την αξιολόγηση των σχεσιακών βάσεων δεδομένων που υποστηρίζουν XML (XML-enabled RDBMSs). / The eXtensible Markup Language (XML) is obviously the prevailing model for data representation in the World Wide Web (WWW). It is a data description language comprehensible by both humans and computers. Its usage in an initial stage was limited to the exchange of data, but it can constitute an effective \"vehicle\" for transporting, handling and storing of information, due to its expressiveness (contrary to the relational model). Contemporary applications make heavy use of the XML technology in order to support communication and interoperability . However, supporting XML at the infrastructure level would reduce application development time, would make applications almost automatically complient to standards and would make them less error prone. In terms of infrastructure, a database able to handle XML properly would be beneficial to a wide range of applications thus multiplying its efficiency. In this way, as long as the applications become more complex and demanding, the strengthening of databases with technologies that serve the nature of problems, promises more effective confrontation with this topic. But how can XML documents be supported at the infrastructure level? At a first glance, the question is rhetorical. Since XML constitutes a relatively new technology, new XML-aware infrastructures can be built from scratch. This is indeed a viable approach and there is a considerable activity in the research community of databases, which focuses on the exploitation of this approach. In particular, this is the reason why special database systems have been created, called \"Native XML Databases\". However, the disadvantage of using such systems is that this approach does not build on existing knowledge currently present in the relational database field. The research question would be whether relational technology is able to support correctly XML data. In this thesis, we present a study concerned with the question whether relational database management systems (RDBMSs) provide suitable ground for handling XML documents. Having theoretically analyzed the ways with which RDBMSs handle XML, the performance in two of the most popular relational database management systems is then experimentally assessed. The aim is to draw a frame of report on the assessment and the evaluation of relational database management systems that support XML (XML-enabled RDBMSs).
An evaluation of non-relational database management systems as suitable storage for user generated text-based content in a distributed environmentDu Toit, Petrus 07 October 2016 (has links)
Non-relational database management systems address some of the limitations relational database management systems have when storing large volumes of unstructured, user generated text-based data in distributed environments. They follow different approaches through the data model they use, their ability to scale data storage over distributed servers and the programming interface they provide.
An experimental approach was followed to measure the capabilities these alternative database management systems present in their approach to address the limitations of relational databases in terms of their capability to store unstructured text-based data, data warehousing capabilities, ability to scale data storage across distributed servers and the level of programming abstraction they provide.
The results of the research highlighted the limitations of relational database management systems. The different database management systems do address certain limitations, but not all. Document-oriented databases provide the best results and successfully address the need to store large volumes of user generated text-based data in a distributed environment / School of Computing / M. Sc. (Computer Science)
The design of a database of resources for rational therapySteyn, Genevieve Lee 06 1900 (has links)
The purpose of this study is to design a database of resources for rational therapy. An investigation of the current health situation and reorientation towards primary health care (PHC) in South Africa evidenced the need for a database of resources which would meet the demand for rational therapy information made on the Helderberg College Library by various user groups as well as make a contribution to the national health information infrastructure. Rational therapy is viewed as an approach within PHC that is rational, common-sense, wholistic and credible, focusing on the prevention and maintenance of health. A model of the steps in database design was developed. A user study identified users' requirements for design and the conceptual schema was developed. The entities, attributes, relationships and policies were presented and graphically summarised in an Entity-Relationship (E-R) diagram. The conceptual schema is the blueprint for further design and implementation of the database. / Information Science / M.Inf.
The design of a database of resources for rational therapySteyn, Genevieve Lee 06 1900 (has links)
The purpose of this study is to design a database of resources for rational therapy. An investigation of the current health situation and reorientation towards primary health care (PHC) in South Africa evidenced the need for a database of resources which would meet the demand for rational therapy information made on the Helderberg College Library by various user groups as well as make a contribution to the national health information infrastructure. Rational therapy is viewed as an approach within PHC that is rational, common-sense, wholistic and credible, focusing on the prevention and maintenance of health. A model of the steps in database design was developed. A user study identified users' requirements for design and the conceptual schema was developed. The entities, attributes, relationships and policies were presented and graphically summarised in an Entity-Relationship (E-R) diagram. The conceptual schema is the blueprint for further design and implementation of the database. / Information Science / M.Inf.
Extraction de connaissances pour la modélisation tri-dimensionnelle de l'interactome structural / Knowledge-based approaches for modelling the 3D structural interactomeGhoorah, Anisah W. 22 November 2012 (has links)
L'étude structurale de l'interactome cellulaire peut conduire à des découvertes intéressantes sur les bases moléculaires de certaines pathologies. La modélisation par homologie et l'amarrage de protéines ("protein docking") sont deux approches informatiques pour modéliser la structure tri-dimensionnelle (3D) d'une interaction protéine-protéine (PPI). Des études précédentes ont montré que ces deux approches donnent de meilleurs résultats quand des données expérimentales sur les PPIs sont prises en compte. Cependant, les données PPI ne sont souvent pas disponibles sous une forme facilement accessible, et donc ne peuvent pas être re-utilisées par les algorithmes de prédiction. Cette thèse présente une approche systématique fondée sur l'extraction de connaissances pour représenter et manipuler les données PPI disponibles afin de faciliter l'analyse structurale de l'interactome et d'améliorer les algorithmes de prédiction par la prise en compte des données PPI. Les contributions majeures de cette thèse sont de : (1) décrire la conception et la mise en oeuvre d'une base de données intégrée KBDOCK qui regroupe toutes les interactions structurales domaine-domaine (DDI); (2) présenter une nouvelle méthode de classification des DDIs par rapport à leur site de liaison dans l'espace 3D et introduit la notion de site de liaison de famille de domaines protéiques ("domain family binding sites" ou DFBS); (3) proposer une classification structurale (inspirée du système CATH) des DFBSs et présenter une étude étendue sur les régularités d'appariement entre DFBSs en terme de structure secondaire; (4) introduire une approche systématique basée sur le raisonnement à partir de cas pour modéliser les structures 3D des complexes protéiques à partir des DDIs connus. Une interface web (http://kbdock.loria.fr) a été développée pour rendre accessible le système KBDOCK / Understanding how the protein interactome works at a structural level could provide useful insights into the mechanisms of diseases. Comparative homology modelling and ab initio protein docking are two computational methods for modelling the three-dimensional (3D) structures of protein-protein interactions (PPIs). Previous studies have shown that both methods give significantly better predictions when they incorporate experimental PPI information. However, in general, PPI information is often not available in an easily accessible way, and cannot be re-used by 3D PPI modelling algorithms. Hence, there is currently a need to develop a reliable framework to facilitate the reuse of PPI data. This thesis presents a systematic knowledge-based approach for representing, describing and manipulating 3D interactions to study PPIs on a large scale and to facilitate knowledge-based modelling of protein-protein complexes. The main contributions of this thesis are: (1) it describes an integrated database of non-redundant 3D hetero domain interactions; (2) it presents a novel method of describing and clustering DDIs according to the spatial orientations of the binding partners, thus introducing the notion of "domain family-level binding sites" (DFBS); (3) it proposes a structural classification of DFBSs similar to the CATH classification of protein folds, and it presents a study of secondary structure propensities of DFBSs and interaction preferences; (4) it introduces a systematic case-base reasoning approach to model on a large scale the 3D structures of protein complexes from existing structural DDIs. All these contributions have been made publicly available through a web server (http://kbdock.loria.fr)
