• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 30
  • 9
  • 8
  • Tagged with
  • 84
  • 32
  • 25
  • 18
  • 14
  • 9
  • 8
  • 7
  • 7
  • 7
  • 6
  • 6
  • 6
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Εξόρυξη γνώσης απο μέσα κοινωνικής δικτύωσης: Μελέτη περίπτωσης στο Twitter

Νεράντζης, Δημήτριος 12 April 2013 (has links)
Σε αυτήν την εργασία χρησιμοποιούμε το μέσο κοινωνικής δικτύωσης "twitter" (https://twitter.com/) για την συλλογή μηνυμάτων που αφορούν τις εξελίξεις στην ευρωζώνη και την εφαρμογή μεθόδων επιβλεπόμενης μηχανικής μάθησης για την "εκπαίδευση" ενός κατηγοριοποιητή ο οποίος θα διαχωρίζει τα μηνύματα σε "θετικά" και "αρνητικά" ανάλογα με την είδηση ή την άποψη που περιέχουν. Οι μέθοδοι κατηγοριοποίησης που εφαρμόστηκαν ήταν οι k πλησιέστεροι γείτονες, μηχανές διανυσμάτων υποστήριξης και αφελής Μπεϊζιανός κατηγοριοποιητής. Ο ταξινομητής θα μπορούσε να χρησιμοποιηθεί σε ένα απλό πρόγραμμα το οποίο ημερησίως θα συλλέγει και θα ταξινομεί, αυτομάτως, σχετικά μηνύματα. Μία μακρυπρόθεσμη χρήση ενός τέτοιου προγράμματος θα μας έδινε σαν αποτέλεσμα δεδομένα σε μορφή χρονοσειράς τα οποία στην συνέχεια θα μπορούσαν να αναλυθούν για την εξαγωγή, πιθανώς, χρήσιμων συμπερασμάτων. / --
42

An investigation in efficient spatial patterns mining

Wang, Lizhen January 2008 (has links)
The technical progress in computerized spatial data acquisition and storage results in the growth of vast spatial databases. Faced with large amounts of increasing spatial data, a terminal user has more difficulty in understanding them without the helpful knowledge from spatial databases. Thus, spatial data mining has been brought under the umbrella of data mining and is attracting more attention. Spatial data mining presents challenges. Differing from usual data, spatial data includes not only positional data and attribute data, but also spatial relationships among spatial events. Further, the instances of spatial events are embedded in a continuous space and share a variety of spatial relationships, so the mining of spatial patterns demands new techniques. In this thesis, several contributions were made. Some new techniques were proposed, i.e., fuzzy co-location mining, CPI-tree (Co-location Pattern Instance Tree), maximal co-location patterns mining, AOI-ags (Attribute-Oriented Induction based on Attributes’ Generalization Sequences), and fuzzy association prediction. Three algorithms were put forward on co-location patterns mining: the fuzzy co-location mining algorithm, the CPI-tree based co-location mining algorithm (CPI-tree algorithm) and the orderclique- based maximal prevalence co-location mining algorithm (order-clique-based algorithm). An attribute-oriented induction algorithm based on attributes’ generalization sequences (AOI-ags algorithm) is further given, which unified the attribute thresholds and the tuple thresholds. On the two real-world databases with time-series data, a fuzzy association prediction algorithm is designed. Also a cell-based spatial object fusion algorithm is proposed. Two fuzzy clustering methods using domain knowledge were proposed: Natural Method and Graph-Based Method, both of which were controlled by a threshold. The threshold was confirmed by polynomial regression. Finally, a prototype system on spatial co-location patterns’ mining was developed, and shows the relative efficiencies of the co-location techniques proposed The techniques presented in the thesis focus on improving the feasibility, usefulness, effectiveness, and scalability of related algorithm. In the design of fuzzy co-location Abstract mining algorithm, a new data structure, the binary partition tree, used to improve the process of fuzzy equivalence partitioning, was proposed. A prefix-based approach to partition the prevalent event set search space into subsets, where each sub-problem can be solved in main-memory, was also presented. The scalability of CPI-tree algorithm is guaranteed since it does not require expensive spatial joins or instance joins for identifying co-location table instances. In the order-clique-based algorithm, the co-location table instances do not need be stored after computing the Pi value of corresponding colocation, which dramatically reduces the executive time and space of mining maximal colocations. Some technologies, for example, partitions, equivalence partition trees, prune optimization strategies and interestingness, were used to improve the efficiency of the AOI-ags algorithm. To implement the fuzzy association prediction algorithm, the “growing window” and the proximity computation pruning were introduced to reduce both I/O and CPU costs in computing the fuzzy semantic proximity between time-series. For new techniques and algorithms, theoretical analysis and experimental results on synthetic data sets and real-world datasets were presented and discussed in the thesis.
43

Εφαρμογή αλγορίθμων εξόρυξης δεδομένων σε εικόνες / Application of data mining algorithm in images

Ζαχαρία, Ελισάβετ 26 July 2013 (has links)
H παρούσα εργασία ασχολείται με τεχνικές εξόρυξης δεδομένων από εικόνες. Παρουσιάζει κάποια βασικά θεωρητικά στοιχεία σχετικά με τις διάφορες μεθόδους, και στη συνέχεια εστιάζει στην υλοποίηση της τεχνικής dynamic recursive partitioning (DRP), που αναφέρεται ειδικά σε εξόρυξη δεδομένων σε σχέση με εικόνες. Η συγκεκριμένη τεχνική μελετήθηκε έτσι ώστε να καθοριστούν και να χαρακτηριστούν συγκεκριμένα μορφομετρικά χαρακτηριστικά ανάμεσα σε ανατομικές δομές / εικόνες εγκεφάλων, για ιατρικές εφαρμογές. Στόχος είναι να αποδειχτεί ότι η μέθοδος αυτή μειώνει τον απαιτούμενο αριθμό στατιστικών τεστ σε σχέση με άλλες αντίστοιχες μεθόδους, όπως για παράδειγμα σε σχέση με τη μέθοδο ανάλυσης κατά pixel. Όπως φάνηκε η μέθοδος DRP αποδίδει έχοντας εξίσου καλά και ικανοποιητικά αποτελέσματα με την μέθοδο ανάλυσης κατά pixel. Ταυτόχρονα όμως, η χρήση της DRP έχει ως αποτέλεσμα να χρησιμοποιείται σαφώς μικρότερος αριθμός στατιστικών τεστ, για την εξόρυξη των δεδομένων από τις εικόνες και την καταγραφή των περιοχών των εικόνων με τις σημαντικότερες μορφολογικές διαφοροποιήσεις, με την μείωση αυτή να φτάνει ως και το 50%. / This dissertation deals with methods of data mining from images. It presents a basic theoretical background regarding the several different methods, and then it focuses on a specific technique called dynamic recursive partitioning (DRP). The specific technique was examined in order to define some basic morphological characteristics between anatomical structures / images of brains for medical applications. The main target was to prove that this method reduces the necessary number of statistical tests with respect to other similar methods. As it was shown, DRP indeed performs at least the same as other methods. At the same time, its usage results in a significantly lower number of statistical tests, in order to perform data mining from the images and extract the areas of images with the most important morphological differences. This reduction of statistical tests reaches almost 50%.
44

Principled design of evolutionary learning sytems for large scale data mining

Franco Gaviria, María Auxiliadora January 2013 (has links)
Currently, the data mining and machine learning fields are facing new challenges because of the amount of information that is collected and needs processing. Many sophisticated learning approaches cannot simply cope with large and complex domains, because of the unmanageable execution times or the loss of prediction and generality capacities that occurs when the domains become more complex. Therefore, to cope with the volumes of information of the current realworld problems there is a need to push forward the boundaries of sophisticated data mining techniques. This thesis is focused on improving the efficiency of Evolutionary Learning systems in large scale domains. Specifically the objective of this thesis is improving the efficiency of the Bioinformatic Hierarchical Evolutionary Learning (BioHEL) system, a system designed with the purpose of handling large domains. This is a classifier system that uses an Iterative Rule Learning approach to generate a set of rules one by one using consecutive Genetic Algorithms. This system have shown to be very competitive so far in large and complex domains. In particular, BioHEL has obtained very important results when solving protein structure prediction problems and has won related merits, such as being placed among the best algorithms for this purpose at the Critical Assessment of Techniques for Protein Structure Prediction (CASP) in 2008 and 2010, and winning the bronze medal at the HUMIES Awards for Human-competitive results in 2007. However, there is still a need to analyse this system in a principled way to determine how the current mechanisms work together to solve larger domains and determine the aspects of the system that can be improved towards this aim. To fulfil the objective of this thesis, the work is divided in two parts. In the first part of the thesis exhaustive experimentation was carried out to determine ways in which the system could be improved. From this exhaustive analysis three main weaknesses are pointed out: a) the problem-dependancy of parameters in BioHEL's fitness function, which results in having a system difficult to set up and which requires an extensive preliminary experimentation to determine the adequate values for these parameters; b) the execution time of the learning process, which at the moment does not use any parallelisation techniques and depends on the size of the training sets; and c) the lack of global supervision over the generated solutions which comes from the usage of the Iterative Rule Learning paradigm and produces larger rule sets in which there is no guarantee of minimality or maximal generality. The second part of the thesis is focused on tackling each one of the weaknesses abovementioned to have a system capable of handling larger domains. First a heuristic approach to set parameters within BioHEL's fitness function is developed. Second a new parallel evaluation process that runs on General Purpose Graphic Processing Units was developed. Finally, post-processing operators to tackle the generality and cardinality of the generated solutions are proposed. By means of these enhancements we managed to improve the BioHEL system to reduce both the learning and the preliminary experimentation time, increase the generality of the final solutions and make the system more accessible for end-users. Moreover, as the techniques discussed in this thesis can be easily extended to other Evolutionary Learning systems we consider them important additions to the research in this field towards tackling large scale domains.
45

Techniques d'optimisation non convexe basée sur la programmation DC et DCA et méthodes évolutives pour la classification non supervisée / Non convex optimization techniques based on DC programming and DCA and evolution methods for clustering

Ta, Minh Thuy 04 July 2014 (has links)
Nous nous intéressons particulièrement, dans cette thèse, à quatre problèmes en apprentissage et fouille de données : clustering pour les données évolutives, clustering pour les données massives, clustering avec pondération de variables et enfin le clustering sans connaissance a priori du nombre de clusters avec initialisation optimale des centres de clusters. Les méthodes que nous décrivons se basent sur des approches d’optimisation déterministe, à savoir la programmation DC (Difference of Convex functions) et DCA (Difference of Convex Algorithms), pour la résolution de problèmes de clustering cités précédemment, ainsi que des approches évolutionnaires élitistes. Nous adaptons l’algorithme de clustering DCA–MSSC pour le traitement de données évolutives par fenêtres, en appréhendant les données évolutives avec deux modèles : fenêtres fixes et fenêtres glissantes. Pour le problème du clustering de données massives, nous utilisons l’algorithme DCA en deux phases. Dans la première phase, les données massives sont divisées en plusieurs sous-ensembles, sur lesquelles nous appliquons l’algorithme DCA–MSSC pour effectuer un clustering. Dans la deuxième phase, nous proposons un algorithme DCA-Weight pour effectuer un clustering pondéré sur l’ensemble des centres obtenues à la première phase. Concernant le clustering avec pondération de variables, nous proposons également deux approches: clustering dur avec pondération de variables et clustering floue avec pondération de variables. Nous testons notre approche sur un problème de segmentation d’image. Le dernier problème abordé dans cette thèse est le clustering sans connaissance a priori du nombre des clusters. Nous proposons pour cela une approche évolutionnaire élitiste. Le principe consiste à utiliser plusieurs algorithmes évolutionnaires (EAs) en même temps, de les faire concourir afin d’obtenir la meilleure combinaison de centres initiaux pour le clustering et par la même occasion le nombre optimal de clusters. Les différents tests réalisés sur plusieurs ensembles de données de grande taille sont très prometteurs et montrent l’efficacité des approches proposées / This thesis focus on four problems in data mining and machine learning: clustering data streams, clustering massive data sets, weighted hard and fuzzy clustering and finally the clustering without a prior knowledge of the clusters number. Our methods are based on deterministic optimization approaches, namely the DC (Difference of Convex functions) programming and DCA (Difference of Convex Algorithm) for solving some classes of clustering problems cited before. Our methods are also, based on elitist evolutionary approaches. We adapt the clustering algorithm DCA–MSSC to deal with data streams using two windows models: sub–windows and sliding windows. For the problem of clustering massive data sets, we propose to use the DCA algorithm with two phases. In the first phase, massive data is divided into several subsets, on which the algorithm DCA–MSSC performs clustering. In the second phase, we propose a DCA–Weight algorithm to perform a weighted clustering on the obtained centers in the first phase. For the weighted clustering, we also propose two approaches: weighted hard clustering and weighted fuzzy clustering. We test our approach on image segmentation application. The final issue addressed in this thesis is the clustering without a prior knowledge of the clusters number. We propose an elitist evolutionary approach, where we apply several evolutionary algorithms (EAs) at the same time, to find the optimal combination of initial clusters seed and in the same time the optimal clusters number. The various tests performed on several sets of large data are very promising and demonstrate the effectiveness of the proposed approaches.
46

Analyse formelle de concepts et structures de patrons pour la fouille de données structurées / Formal Concept Analysis and Pattern Structures for Mining Structured Data

Buzmakov, Aleksey 06 October 2015 (has links)
Aujourd'hui de plus en plus de données de différents types sont accessibles. L’Analyse Formelle de Concepts (AFC) et les pattern structures sont des systèmes formels qui permettent de traiter les données ayant une structure complexe. Mais le nombre de concepts trouvé par l’AFC est fréquemment très grand. Pour faire face à ce problème, on peut simplifier la représentation des données, soit par projection de pattern structures, soit par introduction de contraintes pour sélectionner les concepts les plus pertinents. Le manuscrit commence avec l'application de l’AFC à l’exploration de structures moléculaires et la recherche de structures particulières. Avec l’augmentation de la taille des ensembles de données, de bonnes contraintes deviennent essentielles. Pour cela on explore la stabilité d'un concept et on l'applique à l’exploration d'un ensemble de données de substances chimiques mutagènes. La recherche de concepts stables dans cet ensemble de données nous a permis de trouver de nouveaux candidats mutagènes potentiels qui peuvent être interprétés par les chimistes. Cependant, pour les cas plus complexes, la représentation simple par des attributs binaires ne suffit pas. En conséquence, on se tourne vers des pattern structures qui peuvent traiter différents types de données complexes. On étend le formalisme original des projections pour avoir plus de liberté dans la manipulation de données. On montre que cette extension est essentielle pour analyser les trajectoires de patients décrivant l’historique de l’hospitalisation des patients. Finalement, le manuscrit se termine par une approche originale et très efficace qui permet de trouver directement des motifs stables. / Nowadays, more and more data of different kinds is becoming available. Formal concept analysis (FCA) and pattern structures are theoretical frameworks that allow dealing with an arbitrary structured data. But the number of concepts extracted by FCA is typically huge. To deal with this problem one can either simplify the data representation, which can be done by projections of pattern structures, or by introducing constraints to select the most relevant concepts. The manuscript starts with application of FCA to mining important pieces of information from molecular structures. With the growth of dataset size good constraints begin to be essential. For that we explore stability of a concept, a well-founded formal constraint. Finding stable concepts in this dataset allows us finding new possible mutagenetic candidates that can be further interpreted by chemists. However for more complex cases, the simple attribute representation of data is not enough. Correspondingly, we turn to pattern structures that can deal with many different kinds of descriptions. We extend the original formalism of projections to have more freedom in data simplification. We show that this extension is essential for analyzing patient trajectories, describing patients hospitalization histories. Finally, the manuscript ends by an original and very efficient approach that enables to mine stable patterns directly.
47

Factorisation de matrices et analyse de contraste pour la recommandation / Matrix Factorization and Contrast Analysis Techniques for Recommendation

Aleksandrova, Marharyta 07 July 2017 (has links)
Dans de nombreux domaines, les données peuvent être de grande dimension. Ça pose le problème de la réduction de dimension. Les techniques de réduction de dimension peuvent être classées en fonction de leur but : techniques pour la représentation optimale et techniques pour la classification, ainsi qu'en fonction de leur stratégie : la sélection et l'extraction des caractéristiques. L'ensemble des caractéristiques résultant des méthodes d'extraction est non interprétable. Ainsi, la première problématique scientifique de la thèse est comment extraire des caractéristiques latentes interprétables? La réduction de dimension pour la classification vise à améliorer la puissance de classification du sous-ensemble sélectionné. Nous voyons le développement de la tâche de classification comme la tâche d'identification des facteurs déclencheurs, c'est-à-dire des facteurs qui peuvent influencer le transfert d'éléments de données d'une classe à l'autre. La deuxième problématique scientifique de cette thèse est comment identifier automatiquement ces facteurs déclencheurs? Nous visons à résoudre les deux problématiques scientifiques dans le domaine d'application des systèmes de recommandation. Nous proposons d'interpréter les caractéristiques latentes de systèmes de recommandation basés sur la factorisation de matrices comme des utilisateurs réels. Nous concevons un algorithme d'identification automatique des facteurs déclencheurs basé sur les concepts d'analyse par contraste. Au travers d'expérimentations, nous montrons que les motifs définis peuvent être considérés comme des facteurs déclencheurs / In many application areas, data elements can be high-dimensional. This raises the problem of dimensionality reduction. The dimensionality reduction techniques can be classified based on their aim: dimensionality reduction for optimal data representation and dimensionality reduction for classification, as well as based on the adopted strategy: feature selection and feature extraction. The set of features resulting from feature extraction methods is usually uninterpretable. Thereby, the first scientific problematic of the thesis is how to extract interpretable latent features? The dimensionality reduction for classification aims to enhance the classification power of the selected subset of features. We see the development of the task of classification as the task of trigger factors identification that is identification of those factors that can influence the transfer of data elements from one class to another. The second scientific problematic of this thesis is how to automatically identify these trigger factors? We aim at solving both scientific problematics within the recommender systems application domain. We propose to interpret latent features for the matrix factorization-based recommender systems as real users. We design an algorithm for automatic identification of trigger factors based on the concepts of contrast analysis. Through experimental results, we show that the defined patterns indeed can be considered as trigger factors
48

Τεχνικές εξόρυξης χώρο-χρονικών δεδομένων και εφαρμογές τους στην ανάλυση ηλεκτροεγκεφαλογραφήματος

Κορβέσης, Παναγιώτης 16 May 2014 (has links)
Η εξόρυξη χώρο-χρονικών δεδομένων αποτελεί πλέον μία από τις σημαντικότερες κατευθύνσεις του κλάδου της εξόρυξης γνώσης. Κάποια από τα βασικά προβλήματα που καλείται να αντιμετωπίσει είναι η ανακάλυψη περιοχών που εμφανίζουν ομοιότητες στην χρονική τους εξέλιξη, η αναγνώριση προτύπων που εμφανίζονται τόσο στην χωρική όσο και στη χρονική πληροφορία, η πρόβλεψη μελλοντικών τιμών και η αποθήκευση σε εξειδικευμένες βάσεις δεδομένων με σκοπό την αποδοτική απάντηση χωροχρονικών ερωτημάτων. Οι μέθοδοι που προσεγγίζουν τα παραπάνω προβλήματα καθώς και οι βασικές εργασίες της εξόρυξης γνώσης, όπως η κατηγοριοποίηση και η ομαδοποίηση, εμφανίζονται στον πυρήνα της πλειονότητας των εργαλείων ανάλυσης και επεξεργασίας χώρο-χρονικών δεδομένων. Βασικός στόχος της παρούσας εργασίας είναι η εφαρμογή μεθόδων εξόρυξης χώρο-χρονικών δεδομένων στο Ηλεκτροεγκεφαλογράφημα (ΗΕΓ), το οποίο αποτελεί μία από τις πιο διαδεδομένες τεχνικές ανάλυσης της εγκεφαλικής λειτουργίας. Τα δεδομένα που προκύπτουν από το ΗΕΓ περιέχουν τόσο χωρική όσο και χρονική πληροφορία καθώς αποτελούνται από ηλεκτρικά σήματα που προέρχονται από ηλεκτρόδια τοποθετημένα σε συγκεκριμένες θέσεις στο κρανίο. Τα βασικά προβλήματα που μελετήθηκαν στην επεξεργασία του ΗΕΓ είναι η μοντελοποίηση και η συσταδοποίηση χώρο-χρονικών δεδομένων, τα οποία οδήγησαν στην ανάπτυξη των αντίστοιχων μεθόδων. Στα πλαίσια της παρούσας εργασίας μελετήθηκε επίσης το πρόβλημα της διαχείρισης των δεδομένων ΗΕΓ και τη ανάλυσης ροών δεδομένων σε πραγματικό χρόνο. Η ενασχόληση με τα συγκεκριμένα προβλήματα οδήγησε α) στη δημιουργία καινοτόμων μεθόδων μοντελοποίησης και συσταδοποίησης χωρο-χρονικών δεδομένων, β) στον σχεδιασμό μιας βάσης δεδομένων, γ) στην μελέτη της βιβλιογραφίας στο θέμα της εξόρυξης και της διαχείρισης ροών δεδομένων και δ) στην δημιουργία μιας εφαρμογής για την ανάλυση δεδομένων σε πραγματικό χρόνο πάνω σε ένα σύστημα διαχείρισης ροών δεδομένων. Η παρούσα εργασία περιλαμβάνει ένα ένα σύνολο μεθόδων και εργαλείων ανάλυσης και διαχείρισης δεδομένων που εξετάστηκαν και χρησιμοποιήθηκαν προκειμένου να μελετηθεί η καταλληλότητά της εφαρμογής τους στις καταγραφές ΗΕΓ. Με τον τρόπο αυτό επιτυγχάνεται ο πρωταρχικός στόχος της εργασίας: η προώθηση υπαρχόντων και η δημιουργία καινοτόμων μεθόδων ανάλυσης από τον κλάδο της εξόρυξης γνώσης στα δεδομένα του ηλεκτροεγκεφαλογραφήματος. / Mining spatiotemporal data is one of the most significant topics in the field of data mining and knowledge discovery. Detecting locations that exhibit similarities in their temporal evolution, recognizing patterns that appear in both spatial and temporal information and storing spatiotemporal data in specialized databases are some of the fundamental problems tackled by researchers in this specific area. Methods and algorithms that address such problems along with the common data mining tasks (e.g. classification and clustering) are critical in the development of applications for analyzing spatiotemporal data, fact that highlights the necessity of continuous advancements of these algorithms in terms of usability, accuracy and performance. The most significant objective of the work performed during this thesis is the application of spatiotemporal data mining methods on the analysis of EEG, in order to exploit the both the spatial and the temporal nature of these data (i.e. electrodes placed on specific locations on the scalp that continuously record the electrical activity of the brain). Towards this direction the problems of modeling and clustering spatiotemporal data were extensively studied and the major outcome was the development of two corresponding methods. Furthermore, during this work the problem of managing EEG data was investigated both in the offline and the online scenario and within the latter, the state of the art in mining data streams was studied. The outcomes of this thesis related to the aforementioned problems include a) the development of a graph-based method for modeling spatiotemporal data, b) a method for clustering spatiotemporal data based on this model, c) the design of a database schema for storing eeg recording data and meta-data and d) the development of an application for online spindle detection over a data stream management system. Finally, this work aims towards the development of new and the adaptation of existing data mining methods in the context of spatiotemporal EEG analysis.
49

Ανάπτυξη μεθόδων αυτόματης αναγνώρισης του φύλου χρηστών σε κείμενα του Παγκοσμίου ιστού

Μαλαγκονιάρη, Διονυσία 15 December 2014 (has links)
Είναι γεγονός ότι ολοένα και περισσότεροι άνθρωποι επιλέγουν καθημερινά να χρησιμοποιήσουν τον Παγκόσμιο Ιστό προκειμένου να εκτελέσουν ένα ευρύ φάσμα δραστηριοτήτων το οποίο προσφέρεται μέσα από αυτόν. Ο αριθμός των χρηστών του διαδικτύου αυξάνεται συνεχώς, καθώς επίσης και το σύνολο των ποικίλων δραστηριοτήτων που μπορούν να εκτελεστούν μέσω των ιστοσελίδων. Όμως, έχει παρατηρηθεί ότι τα τελευταία χρόνια πέρα από πηγή πληροφόρησης, ο Παγκόσμιος Ιστός αποτελεί και ένα σημαντικότατο μέσο έκφρασης για τους ανθρώπους αλλά και επικοινωνίας μεταξύ τους. Εκατομμύρια χρηστών του Παγκόσμιου Ιστού χρησιμοποιούν καθημερινά εφαρμογές του διαδικτύου μέσω των οποίων αλληλεπιδρούν. Κάθε ένας λοιπόν από αυτούς τους χρήστες μπορεί ελεύθερα να εκφράσει την άποψή του πάνω σε διάφορα ζητήματα που τον απασχολούν, να σχολιάσει της απόψεις των άλλων χρηστών αλλά και να επικοινωνήσει με αυτούς. Σύμφωνα με τα παραπάνω λοιπόν, οι χρήστες του διαδικτύου μπορούν να επιλέξουν ανάμεσα σε πολλά μέσα που είναι διαθέσιμα όπως ιστολόγια, φόρουμ, ιστότοπους και μέσα κοινωνικής δικτύωσης προκειμένου να επικοινωνούν. Αρκετό ερευνητικό ενδιαφέρον παρουσιάζει η συλλογή, ανάλυση και αξιολόγηση δεδομένων από τον Παγκόσμιο Ιστό που έχουν παραχθεί από χρήστες. Επίσης ιδιαίτερο ενδιαφέρον παρουσιάζει ο συσχετισμός του χρήστη με το κείμενο που έχει παράξει, και η αναγνώριση κάποιων κοινωνικών χαρακτηριστικών του, όπως για παράδειγμα, αν ο χρήστης του κειμένου χ είναι άνδρας ή γυναίκα. Μια τέτοια αναγνώριση είναι δυνατή με τον εντοπισμό αντιπροσωπευτικών γνωρισμάτων ανδρικής ή γυναικείας γραφής και λόγου σε κειμενικά δεδομένα χρηστών. Η μελέτη λοιπόν των χαρακτηριστικών του περιεχομένου το οποίο έχει παραχθεί από χρήστες είναι κομβικό σημείο σε μια σειρά ερευνητικών πεδίων. Χαρακτηριστικό παράδειγμα αποτελούν οι μελέτες στα πλαίσια του πεδίου της εξόρυξης πληροφορίας (text mining), οι οποίες βασίζονται στο περιεχόμενο των χρηστών για να αλιεύσουν τις απόψεις για ένα θέμα ή για ένα προϊόν. Ως αποτέλεσμα λοιπόν, της συνεχώς αυξανόμενης δραστηριοποίησης των χρηστών είναι η συνεχής αύξηση του όγκου δεδομένων που έχουν παραχθεί από χρήστες (User Generated Content - UGC) στις ιστοσελίδες του Παγκόσμιου Ιστού. Συγκεκριμένα, το πεδίο UGC ([1],[2]) ασχολείται με την αναγνώριση και εξόρυξη web περιεχομένου που έχει παραχθεί από τους χρήστες. Σε αυτό το σημείο είναι σημαντικό να αναφέρουμε ότι οι παραπάνω μελέτες που αναφέραμε είναι αρκετά χρήσιμες στην ανάπτυξη ερευνητικών αλλά και εμπορικών εφαρμογών. Στόχος της προτεινόμενης διπλωματικής εργασίας είναι η μελέτη δεδομένων κειμένου τα οποία θα αντλήσουμε από τον Παγκόσμιο Ιστό, εστιάζοντας στα διαφοροποιητικά χαρακτηριστικά που θα εντοπιστούν τα οποία στη συνέχεια θα βοηθήσουν στην υλοποίηση του συστήματος το οποίο θα μπορεί με όσο το δυνατόν μεγαλύτερο ποσοστό ακρίβειας να εντοπίζει το φύλο του χρήστη που έχει δημιουργήσει κείμενο στον Παγκόσμιο Ιστό. Μια τέτοια προσπάθεια είναι ιδιαίτερα ενδιαφέρουσα και σημαντική, καθώς καλείται να συμβάλλει στην ερευνητική δραστηριότητα σε αυτό το σχετικά νέο πεδίο ([3], [4]). Η αναγνώριση του φύλου ενός χρήστη, χωρίς σε καμία περίπτωση να θίγεται η ανωνυμία του και τα προσωπικά του δεδομένα, βασίζεται μόνο σε κειμενικά του δεδομένα μπορεί να αποτελέσει ένα ιδιαίτερο εργαλείο με πολλές εφαρμογές. Μια σημαντική εφαρμογή αυτού εργαλείου μπορεί να αποτελέσει και η στοχευμένη διαφήμιση. Στα πλαίσια της προτεινόμενης διπλωματικής θα ακολουθηθούν τα παρακάτω βήματα. Αρχικά θα μελετηθεί η απαραίτητη βιβλιογραφία, η οποία θα μας παρέχει την απαραίτητη θεωρητική γνώση των επιστημονικών πεδίων που αφορούν στην έρευνά μας, αλλά και τις υπάρχουσες μεθοδολογίες και τεχνικές. Στη συνέχεια θα προχωρήσουμε με τη συλλογή των δεδομένων που θα χρησιμοποιήσουμε κατά τη διάρκεια της εργασίας μας. Από τα κειμενικά δεδομένα που θα συλλέξουμε αλλά και τη βιβλιογραφική επισκόπηση θα προκύψει και η αναγνώριση και η εξαγωγή των χαρακτηριστικών που θα μας βοηθήσουν στην ανίχνευση του γυναικείου/ανδρικού λόγου σε ένα δοκιμαστικό σύνολο δεδομένων. Το επόμενο βήμα θα αποτελεί η ανάπτυξη μετρικών κατηγοριοποίησης κειμένων χρήστη ανάλογα με το φύλο του. Τελειώνοντας, θα αξιολογηθεί αυτή η προσπάθεια κατηγοριοποίησης, ώστε να υλοποιηθεί κατάλληλο σύστημα αναγνώρισης του φύλου χρηστών σε κείμενα του Παγκόσμιου Ιστού. / It is a fact that more and more people choose daily to use the World Wide Web to perform a wide range of activities which are offered through it. The number of internet users is increasing, as well as all the various activities that can be performed through the WebPages. However, it has been observed recently that apart from an information source, the Web is a very important expression tool for people and communication between them. Millions of web users use daily internet applications through which they interact. Each of these users can freely express his opinion on various issues that concern him, to comment on the opinions of other users and communicate with them. According to the above, Internet users can choose among many available means to communicate such as blogs , forums , websites and social media. The collection, analysis and evaluation of data from the Web produced by users, is interesting in terms of research. Also of particular interest is the correlation between the user and the text that has produced, and the recognition of some social features, such as if the user of the text x is a man or woman. Such recognition is possible by identifying representative features of male or female writing and speech in user’s text data. Therefore the study of content characteristics that have been produced by users is a key point in a number of research fields. An example are the studies within the field of data mining (text mining), which are based on the users content in order to fish their opinions on a topic or product. As a result, the growing user activity is constantly increasing the volume of data generated by users (User Generated Content - UGC) sites on the Web. Specifically, the scope UGC ([1], [2]) deals with the recognition and extraction of web content produced by users. At this point it is important to mention that the above studies are quite useful in developing research and commercial applications. The purpose of this project is to analyze the text data that we took from the Web, focusing on distinctive features that will be identified, which will later help to be implemented into the system resulting in the gender of the user who created the text on the Web. Such effort is particularly interesting and important, as contributes to research in this relatively new field ( [3 ] , [4 ] ) . Recognizing the gender of a user, without in any way affecting the anonymous and personal data, based only on text data can be a special tool with many applications. A major application of this tool can also be targeted advertising. This thesis will follow the steps below. Initially we will study the necessary literature, which will provide us with the necessary theoretical knowledge in scientific fields related to our research, but also the existing methodologies and techniques. Then we will proceed with the collection of data that will be used during our work. From the text data we collected and literature review, the recognition and extraction of features will occur that will help us to detect the female / male ratio in a test dataset. The next step is to develop categorizing text metrics according to user’s gender. Finally, we evaluate this categorization effort in order to implement an appropriate system that identifies the sex of users in texts of the Web.
50

Φιλτράρισμα και εξόρυξη δεδομένων σε αντικείμενα πληροφορίας / Filtering and data mining techniques in information objects

Αντωνέλλης, Παναγιώτης 06 October 2011 (has links)
Καθώς ο κόσμος της πληροφορίας γίνεται κοινός τόπος για όλο και μεγαλύτερο μέρος του πληθυσμου παγκοσμίως, η ανάγκη για αποδοτική διαχείριση μεγάλου όγκου ετερογενών δεδομένων γίνεται επιτακτική. Τα δεδομένα που διακινούνται καθημερινά μέσω του διαδικτύου απαιτούν φιλτράρισμα ώστε στους τελικούς χρήστες να φθάσουν μόνο όσα είναι απαραίτητα, ενώ ταυτόχρονα κρίνεται αναγκαίος ο σχεδιασμός τεχνικών και μεθόδων που θα επιτρέψουν τη βέλτιστη αποθήκευση, διαχείριση, αναζήτηση και ανάκτηση των δεδομένων αυτών, με απώτερο σκοπό την εξόρυξη χρήσιμης πληροφορίας και γνώσης από αυτά. Οι τεχνικές Εξόρυξης Δεδομένων, με την ευρεία εφαρμογή τους σε διαφόρων ειδών δεδομένα, παρουσιάζουν ως μια ιδανική λύση στα προβλήματα που αναφέρθηκαν προηγουμένως. Τα τελευταία χρόνια, αρκετή έρευνα έχει διεξαχθεί στο πως μπορούν να εφαρμοσθούν σε δεδομένα χρήσης του παγκοσμίου ιστού, καθώς και σε XML δεδομένα. Επίσης ενδιαφέρον υπάρχει και κατά την αξιολόγηση λογισμικού όπου η πηγή δεδομένων είναι τα αρχεία πηγαίου κώδικα ενός συστήματος λογισμικού, ώστε να αναγνωρισθούν και να επιλυθούν έγκαιρα τυχόν προβλήματα. Η eXtensible Markup Language (XML) είναι το πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Η ραγδαία αύξηση του όγκου των δεδομένων που αναπαρίστανται σε XML δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια. Για να μπορέσουν να ανταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια πρέπει να έχουν τη δυνατότητα να μεταβάλλονται δυναμικά. Επίσης, λόγω της απαίτησης για αναζήτηση συγκεκριμένης πληροφορίας είναι απαραίτητο το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες. Ταυτόχρονα, η ανάγκη συσταδοποίησης ενός μεγάλου όγκου XML δεδομένων για περαιτέρω επεξεργασία, κάνει απαιτητική την ανάγκη εφαρμογής έξυπνων και αποδοτικών αλγορίθμων και τεχνικών, οι οποίοι θα είναι προσαρμοσμένοι τόσο στην ημι-δομημένη φύση της XML όσο και στο πραγματικό περιεχόμενο το οποίο αναπαριστά. Τέλος, λόγω του μεγάλου όγκου δεδομένων που πρέπει να επεξεργαστούν, η κατανεμημένη διαχείριση σε δίκτυα ομότιμων κόμβων (P2P) γίνεται ολοένα και πιο ελκυστική καθώς προσφέρει πολλά πλεονεκτήματα όπως επιμερισμό του φόρτου εργασίας καθώς και κατανομή του αποθηκευτικού χώρου. Επιπλέον, η ραγδαία εξάπλωση του διαδικτύου οδήγησε και σε μια προσπάθεια αναβάθμισης των υπηρεσιών που παρέχουν οι διάφοροι ιστότοποι, με στόχο την καλύτερη εξυπηρέτηση των χρηστών που τους επισκέπτονται. Η πρόσπαθεια εξατομίκευσης του προβαλλόμενου περιεχομένου προϋποθέτει μια ενδελεχή μελέτη της συμπεριφοράς των χρηστών, όπως αυτή αποτυπώνεται από τα δεδομένα χρήσης (clickstreams) του δικτυακού ιστοτόπου. Η εύρεση κοινών προτύπων συμπεριφοράς μεταξύ των χρηστών μπορεί μόνο να επιτευχθεί με την εφαρμογή κατάλληλων αλγόρίθμων εξόρυξης δεδομένων. Τέλος οι διαστάσεις της εσωτερικής, της εξωτερικής και της ποιότητας στη χρήση ενός προϊόντος λογισμικού αλλάζουν κατά τη διάρκεια ζωής του. Για παράδειγμα η ποιότητα όπως ορίζεται στην αρχή του κύκλου ζωής του λογισμικού δίνει πιο πολλή έμφαση στην εξωτερική και σε αυτή του χρήστη και διαφέρει από την εσωτερική ποιότητα, όπως η ποιότητα της σχεδίασης η οποία είναι εσωτερική και αφορά τους μηχανικούς λογισμικού. Οι τεχνικές εξόρυξης δεδομένων που μπορούν να χρησιμοποιηθούν για την επίτευξη του απαραίτητου επιπέδου ποιότητας, όπως είναι η αξιολόγηση της ποιότητας πρέπει να λαμβάνουν υπόψιν τους τις διαφορετικές αυτές διαστάσεις σε κάθε στάδιο του κύκλου ζωής του προϊόντος. Στα πλαίσια αυτής της διδακτορικής διατριβής η έρευνα επικεντρώθηκε στην αναγνώριση των ιδιαιτέρων προβλημάτων και προκλήσεων που εισάγουν τα XML δεδομένα ώστε να σχεδιαστούν αποδοτικοί αλγόριθμοι φιλταρίσματος, συσταδοποίησης και διαχείρισης XML δεδομένων σε δίκτυα ομότιμων κόμβων. Επιπλέον μελετήθηκε το πρόβλημα της εφαρμογής τεχνικών εξόρυξης δεδομένων σε μετρικές πηγαίου κώδικα ενός συστήματος λογισμικού ώστε να γίνει δυνατή η αξιολόγηση της ποιότητάς τους και η έγκαιρη αναγνώριση τυχόν προβλημάτων. Η έρευνα στον τομέα αυτό επικεντρώθηκε στην σχεδίαση ενός αλγορίθμου συσταδοποίησης για μετρικές πηγαίου κώδικα, ώστε τα συστατικά στοιχεία του πηγαίου κώδικα (πακέτα, κλάσεις, συναρτήσεις) να μπορούν να ομαδοποιηθούν ανάλογα με την ποιότητά τους. Τέλος, μελετήθηκε το πρόβλημα της επεξεργασίας και εξόρυξης γνώσης από δεδομένα χρήσης του παγκοσμίου ιστού ώστε να γίνει εφικτή η παροχή προσωποποιημένων πληροφοριών στον χρήστη. Η έρευνα στον τομέα αυτό επικεντρώθηκε στο πως μπορεί να γίνει αποδοτική συσταδοποίηση των χρηστών με βάση το ιστορικό τους σε ένα δικτυακό τόπο καθώς και στο πως μπορεί να οριστεί μια μετρική ομοιότητας μεταξύ δύο χρηστών κάνοντας χρήση του ιστορικού τους. / The increasing usage of World Wide Web for storing and exchanging information internationally has lead to huge growth of the different types of stored data. The useful information stored in these data is usually hidden and needs special processing to be unveiled. The area of data mining has arisen over the last decade to address this problem. It has become not only an important research area, but also one with large potential in the real world. Data mining has many directives and can handle various types of data. The wide acceptance of XML (eXtensive Markup Language) as the standard for storing and exchanging information through internet, combined with the growth of native XML databases has designated the problem of efficient data mining techniques on semi structured data. Traditional approaches have proven inefficient as they are mainly oriented to well- structured data, like relational databases, while Web data and XML databases are based on semi structured format. The XML language permits the description of new structures, the nesting of structures in arbitrary depth and the optional description of its grammar, which allows the modeling of an XML document as a labeled treed: elements and attributes are mapped to nodes in the tree and direct nesting relationships are mapped to edges in the tree. Together with the problem of searching through a set of XML documents, a new problem has arisen: that of filtering an XML document through a predefined set of patterns and rules. This problem comes from publish/subscribe systems where the users define their interests and preferences and the system undertakes to filter incoming information through the stored user profiles. In addition, data management and processing issues, such as storage, mining and retrieval of the large number of XML documents, have also arisen. Clustering of XML documents improves the process of management and retrieval as it organizes the massive amounts of XML data into groups without prior knowledge. This grouping may boost the process of querying by applying the user queries only to related groups of XML documents as well the process of storing and processing XML documents in peer-to-peer networks. The next part of the thesis deals with mining source code quality metrics to assist the comprehension and the analysis of a software system’s maintainability. Due to the special nature of source code quality metrics (numerical and categorical), traditional data mining techniques can not be applied as it is. This thesis investigates a new clustering algorithm, based on frequent itemset mining, which helps produce general overviews of the system’s various source code entities (packages, classes, methods) or to identify specific parts that need further attention or handling (outliers). The final part of the thesis deals with data mining techniques on web usage data in order to identify common trends and patterns in the user navigational behavior. Clustering is a useful and ubiquitous tool in such a data analysis, allowing the website owners to group their users into different groups based on their interaction with the website, find usability issues related to the website’s content and its structure and obtain knowledge by learning the user preferences and interests. This thesis investigates the application of clustering techniques in web usage data and proposes a new model for analyzing click-stream data in the World Wide Web based on multiple levels of clustering.

Page generated in 0.405 seconds