Spelling suggestions: "subject:"clustering dde documents"" "subject:"clustering dee documents""
1 |
Intégration de la sémantique dans la représentation de documents par les arbres de dépendances syntaxiquesAu, Émilie January 2011 (has links)
De nombreuses applications dans le domaine de la recherche d'information voient leur performance influencée par le modèle de représentation de documents. En effet, théoriquement, meilleure est la modélisation, meilleure sera la performance de l'application qui exploite la modélisation. Or la modélisation"parfaite" d'un document est celle qui utilise l'intégralité des théories linguistiques. Cependant, en pratique, celles-ci sont difficiles à traduire sous forme de traitements informatiques. Néanmoins, il existe des modèles qui s'appuient partiellement sur ces théories comme les modèles vectoriels classiques, les modèles par séquences de mots ou encore les chaînes lexicales. Ces précédents modèles exploitent, soit l'information syntaxique, soit l'information sémantique. D'autres modèles plus raffinés exploitent à la fois l'information syntaxique et sémantique mais sont appliqués dans un contexte spécifique. Dans cette étude, nous proposons une nouvelle modélisation de documents dans un contexte général qui considère simultanément l'information syntaxique et sémantique. Notre modèle est une combinaison de deux composantes, l'une syntaxique représentée par les arbres de dépendances syntaxiques obtenus à l'aide d'un analyseur de dépendances syntaxiques, l'autre sémantique représentée par le sens des mots dans leur contexte obtenu grâce à une méthode de désambiguïsation du sens. Dans ce modèle, chaque document est représenté par un ensemble de concepts fréquents formé de sous-arbres ayant les mêmes dépendances syntaxiques et étant sémantiquement proches. L'extraction de tels concepts est réalisée à l'aide d'un algorithme de forage d'arbres FREQT. Notre modèle sera évalué sur une application de clustering de documents des collections Reuters, 20 newsgroups et Ohsumed. La mesure du cosinus valable pour un modèle vectoriel a été utilisée pour définir la mesure de similarité entre les documents. Contrairement au modèle vectoriel, l'espace vectoriel considéré n'est pas engendré par l'ensemble des mots fréquents mais par l'ensemble des concepts fréquents. Les résultats expérimentaux obtenus montrent que l'intégration de l'information sémantique dans le modèle basé sur les arbres de dépendances syntaxiques contribue à améliorer la qualité des clusters.
|
2 |
Εξαγωγή γνώσης από αποθήκες υπηρεσιών Παγκόσμιου Ιστού / Knowledge extraction from Web services repositoriesΚιούφτης, Βασίλειος 16 May 2014 (has links)
Με την αυξανόμενη χρήση του Παγκόσμιου Ιστού και των Συστημάτων Προσανατολισμένων στις Υπηρεσίες , οι υπηρεσίες παγκόσμιου ιστού έχουν γίνει μίας ευρέως διαδεδομένη ως προς τη χρήση τεχνολογία. Οι αποθήκες υπηρεσιών παγκόσμιου ιστού αναπτύσσονται με ραγδαίους ρυθμούς , δημιουργώντας την ανάγκη ανάπτυξης προηγμένων εργαλείων για την οργάνωση και δεικτοδότησή τους. Η ομαδοποίηση των υπηρεσιών παγκόσμιου ιστού, οι οποίες συνήθως αναπαρίστανται από έγγραφα Γλώσσας Περιγραφής Υπηρεσιών Παγκόσμιου Ιστού (Web Service Description Language - WSDL) , καθιστά τις μηχανές αναζήτησης υπηρεσιών παγκόσμιου ιστού αλλά και τους χρήστες ικανούς να οργανώνουν και να επεξεργάζονται μεγάλες αποθήκες υπηρεσιών σε ομάδες με παρόμοια λειτουργικότητα και χαρακτηριστικά. Σε αυτή την εργασία προτείνουμε μια νέα τεχνική για την ομαδοποίηση των WSDL εγγράφων. Η προτεινόμενη μέθοδος θεωρεί τις υπηρεσίες παγκόσμιου ιστού ως κατηγορικά δεδομένα όπου κάθε υπηρεσία περιγράφεται από ένα σύνολο τιμών που εξάγονται από το περιεχόμενο και τη δομή του αντίστοιχου αρχείου περιγραφής και ως μέτρο ποιότητας της ομαδοποίησης ορίζεται η αμοιβαία πληροφορία μεταξύ των ομάδων και των τιμών τους. Περιγράφουμε τον τρόπο με τον οποίο οι υπηρεσίες παγκόσμιου ιστού αναπαρίστανται ως κατηγορικά δεδομένα και ομαδοποιούνται, χρησιμοποιώντας τον αλγόριθμο ομαδοποίησης κατηγορικών δεδομένων LIMBO , ελαχιστοποιώντας συγχρόνως την απώλεια πληροφορίας στις τιμές που εξάγονται από τα γνωρίσματα. Κατά την πειραματική αξιολόγηση , η δική μας προσέγγιση υπερέχει σε απόδοση F-Measure τις τεχνικές που χρησιμοποιούν εναλλακτικές μετρικές ομοιότητας και μεθόδους για την ομαδοποίηση WSDL εγγράφων. / With the increasing use of web and Service Oriented Systems, web-services have become a widely adopted technology. Web services repositories are growing fast, creating the need for advanced tools for organizing and indexing them. Clustering web services, usually represented by Web Service Description Language (WSDL) documents, enables the web service search engines and users to organize and process large web service repositories in groups with similar functionality and characteristics. In this paper, we propose a novel technique of clustering WSDL documents. The proposed method considers web services as categorical data and each service is described by a set of values extracted from the content and structure of its description file and as quality measure of clustering is defined the mutual information of the clusters and their values. We describe the way to represent web services as categorical data and how to cluster them by using LIMBO algorithm, minimizing at the same time the information loss in features values. In experimental evaluation, our approach outperforms in terms of F-Measure the approaches which use alternative similarity measures and methods for clustering WSDL documents.
|
3 |
Pretopology and Topic Modeling for Complex Systems Analysis : Application on Document Classification and Complex Network Analysis / Prétopologie et modélisation de sujets pour l'analyse de systèmes complexes : application à la classification de documents et à l'analyse de réseaux complexesBui, Quang Vu 27 September 2018 (has links)
Les travaux de cette thèse présentent le développement d'algorithmes de classification de documents d'une part, ou d'analyse de réseaux complexes d'autre part, en s'appuyant sur la prétopologie, une théorie qui modélise le concept de proximité. Le premier travail développe un cadre pour la classification de documents en combinant une approche de topicmodeling et la prétopologie. Notre contribution propose d'utiliser des distributions de sujets extraites à partir d'un traitement topic-modeling comme entrées pour des méthodes de classification. Dans cette approche, nous avons étudié deux aspects : déterminer une distance adaptée entre documents en étudiant la pertinence des mesures probabilistes et des mesures vectorielles, et effet réaliser des regroupements selon plusieurs critères en utilisant une pseudo-distance définie à partir de la prétopologie. Le deuxième travail introduit un cadre général de modélisation des Réseaux Complexes en développant une reformulation de la prétopologie stochastique, il propose également un modèle prétopologique de cascade d'informations comme modèle général de diffusion. De plus, nous avons proposé un modèle agent, Textual-ABM, pour analyser des réseaux complexes dynamiques associés à des informations textuelles en utilisant un modèle auteur-sujet et nous avons introduit le Textual-Homo-IC, un modèle de cascade indépendant de la ressemblance, dans lequel l'homophilie est fondée sur du contenu textuel obtenu par un topic-model. / The work of this thesis presents the development of algorithms for document classification on the one hand, or complex network analysis on the other hand, based on pretopology, a theory that models the concept of proximity. The first work develops a framework for document clustering by combining Topic Modeling and Pretopology. Our contribution proposes using topic distributions extracted from topic modeling treatment as input for classification methods. In this approach, we investigated two aspects: determine an appropriate distance between documents by studying the relevance of Probabilistic-Based and Vector-Based Measurements and effect groupings according to several criteria using a pseudo-distance defined from pretopology. The second work introduces a general framework for modeling Complex Networks by developing a reformulation of stochastic pretopology and proposes Pretopology Cascade Model as a general model for information diffusion. In addition, we proposed an agent-based model, Textual-ABM, to analyze complex dynamic networks associated with textual information using author-topic model and introduced Textual-Homo-IC, an independent cascade model of the resemblance, in which homophily is measured based on textual content obtained by utilizing Topic Modeling.
|
Page generated in 0.128 seconds