71 |
Transforming user data into user value by novel mining techniques for extraction of web content, structure and usage patterns : the development and evaluation of new Web mining methods that enhance information retrieval and improve the understanding of users' Web behavior in websites and social blogsAmmari, Ahmad N. January 2010 (has links)
The rapid growth of the World Wide Web in the last decade makes it the largest publicly accessible data source in the world, which has become one of the most significant and influential information revolution of modern times. The influence of the Web has impacted almost every aspect of humans' life, activities and fields, causing paradigm shifts and transformational changes in business, governance, and education. Moreover, the rapid evolution of Web 2.0 and the Social Web in the past few years, such as social blogs and friendship networking sites, has dramatically transformed the Web from a raw environment for information consumption to a dynamic and rich platform for information production and sharing worldwide. However, this growth and transformation of the Web has resulted in an uncontrollable explosion and abundance of the textual contents, creating a serious challenge for any user to find and retrieve the relevant information that he truly seeks to find on the Web. The process of finding a relevant Web page in a website easily and efficiently has become very difficult to achieve. This has created many challenges for researchers to develop new mining techniques in order to improve the user experience on the Web, as well as for organizations to understand the true informational interests and needs of their customers in order to improve their targeted services accordingly by providing the products, services and information that truly match the requirements of every online customer. With these challenges in mind, Web mining aims to extract hidden patterns and discover useful knowledge from Web page contents, Web hyperlinks, and Web usage logs. Based on the primary kinds of Web data used in the mining process, Web mining tasks can be categorized into three main types: Web content mining, which extracts knowledge from Web page contents using text mining techniques, Web structure mining, which extracts patterns from the hyperlinks that represent the structure of the website, and Web usage mining, which mines user's Web navigational patterns from Web server logs that record the Web page access made by every user, representing the interactional activities between the users and the Web pages in a website. The main goal of this thesis is to contribute toward addressing the challenges that have been resulted from the information explosion and overload on the Web, by proposing and developing novel Web mining-based approaches. Toward achieving this goal, the thesis presents, analyzes, and evaluates three major contributions. First, the development of an integrated Web structure and usage mining approach that recommends a collection of hyperlinks for the surfers of a website to be placed at the homepage of that website. Second, the development of an integrated Web content and usage mining approach to improve the understanding of the user's Web behavior and discover the user group interests in a website. Third, the development of a supervised classification model based on recent Social Web concepts, such as Tag Clouds, in order to improve the retrieval of relevant articles and posts from Web social blogs.
|
72 |
A treatise on Web 2.0 with a case study from the financial marketsSykora, Martin D. January 2012 (has links)
There has been much hype in vocational and academic circles surrounding the emergence of web 2.0 or social media; however, relatively little work was dedicated to substantiating the actual concept of web 2.0. Many have dismissed it as not deserving of this new title, since the term web 2.0 assumes a certain interpretation of web history, including enough progress in certain direction to trigger a succession [i.e. web 1.0 → web 2.0]. Others provided arguments in support of this development, and there has been a considerable amount of enthusiasm in the literature. Much research has been busy evaluating current use of web 2.0, and analysis of the user generated content, but an objective and thorough assessment of what web 2.0 really stands for has been to a large extent overlooked. More recently the idea of collective intelligence facilitated via web 2.0, and its potential applications have raised interest with researchers, yet a more unified approach and work in the area of collective intelligence is needed. This thesis identifies and critically evaluates a wider context for the web 2.0 environment, and what caused it to emerge; providing a rich literature review on the topic, a review of existing taxonomies, a quantitative and qualitative evaluation of the concept itself, an investigation of the collective intelligence potential that emerges from application usage. Finally, a framework for harnessing collective intelligence in a more systematic manner is proposed. In addition to the presented results, novel methodologies are also introduced throughout this work. In order to provide interesting insight but also to illustrate analysis, a case study of the recent financial crisis is considered. Some interesting results relating to the crisis are revealed within user generated content data, and relevant issues are discussed where appropriate.
|
73 |
Finding, extracting and exploiting structure in text and hypertext / Att finna, extrahera och utnyttja strukturer i text och hypertextÅgren, Ola January 2009 (has links)
Data mining is a fast-developing field of study, using computations to either predict or describe large amounts of data. The increase in data produced each year goes hand in hand with this, requiring algorithms that are more and more efficient in order to find interesting information within a given time. In this thesis, we study methods for extracting information from semi-structured data, for finding structure within large sets of discrete data, and to efficiently rank web pages in a topic-sensitive way. The information extraction research focuses on support for keeping both documentation and source code up to date at the same time. Our approach to this problem is to embed parts of the documentation within strategic comments of the source code and then extracting them by using a specific tool. The structures that our structure mining algorithms are able to find among crisp data (such as keywords) is in the form of subsumptions, i.e. one keyword is a more general form of the other. We can use these subsumptions to build larger structures in the form of hierarchies or lattices, since subsumptions are transitive. Our tool has been used mainly as input to data mining systems and for visualisation of data-sets. The main part of the research has been on ranking web pages in a such a way that both the link structure between pages and also the content of each page matters. We have created a number of algorithms and compared them to other algorithms in use today. Our focus in these comparisons have been on convergence rate, algorithm stability and how relevant the answer sets from the algorithms are according to real-world users. The research has focused on the development of efficient algorithms for gathering and handling large data-sets of discrete and textual data. A proposed system of tools is described, all operating on a common database containing "fingerprints" and meta-data about items. This data could be searched by various algorithms to increase its usefulness or to find the real data more efficiently. All of the methods described handle data in a crisp manner, i.e. a word or a hyper-link either is or is not a part of a record or web page. This means that we can model their existence in a very efficient way. The methods and algorithms that we describe all make use of this fact. / Informationsutvinning (som ofta kallas data mining även på svenska) är ett forskningsområde som hela tiden utvecklas. Det handlar om att använda datorer för att hitta mönster i stora mängder data, alternativt förutsäga framtida data utifrån redan tillgänglig data. Eftersom det samtidigt produceras mer och mer data varje år ställer detta högre och högre krav på effektiviteten hos de algoritmer som används för att hitta eller använda informationen inom rimlig tid. Denna avhandling handlar om att extrahera information från semi-strukturerad data, att hitta strukturer i stora diskreta datamängder och att på ett effektivt sätt rangordna webbsidor utifrån ett ämnesbaserat perspektiv. Den informationsextraktion som beskrivs handlar om stöd för att hålla både dokumentationen och källkoden uppdaterad samtidigt. Vår lösning på detta problem är att låta delar av dokumentationen (främst algoritmbeskrivningen) ligga som blockkommentarer i källkoden och extrahera dessa automatiskt med ett verktyg. De strukturer som hittas av våra algoritmer för strukturextraktion är i form av underordnanden, exempelvis att ett visst nyckelord är mer generellt än ett annat. Dessa samband kan utnyttjas för att skapa större strukturer i form av hierarkier eller riktade grafer, eftersom underordnandena är transitiva. Det verktyg som vi har tagit fram har främst använts för att skapa indata till ett informationsutvinningssystem samt för att kunna visualisera indatan. Huvuddelen av den forskning som beskrivs i denna avhandling har dock handlat om att kunna rangordna webbsidor utifrån både deras innehåll och länkarna som finns mellan dem. Vi har skapat ett antal algoritmer och visat hur de beter sig i jämförelse med andra algoritmer som används idag. Dessa jämförelser har huvudsakligen handlat om konvergenshastighet, algoritmernas stabilitet givet osäker data och slutligen hur relevant algoritmernas svarsmängder har ansetts vara utifrån användarnas perspektiv. Forskningen har varit inriktad på effektiva algoritmer för att hämta in och hantera stora datamängder med diskreta eller textbaserade data. I avhandlingen presenterar vi även ett förslag till ett system av verktyg som arbetar tillsammans på en databas bestående av “fingeravtryck” och annan meta-data om de saker som indexerats i databasen. Denna data kan sedan användas av diverse algoritmer för att utöka värdet hos det som finns i databasen eller för att effektivt kunna hitta rätt information. / AlgExt, CHiC, ProT
|
74 |
Syntactic and Semantic Analysis and Visualization of Unstructured English TextsKarmakar, Saurav 14 December 2011 (has links)
People have complex thoughts, and they often express their thoughts with complex sentences using natural languages. This complexity may facilitate efficient communications among the audience with the same knowledge base. But on the other hand, for a different or new audience this composition becomes cumbersome to understand and analyze. Analysis of such compositions using syntactic or semantic measures is a challenging job and defines the base step for natural language processing.
In this dissertation I explore and propose a number of new techniques to analyze and visualize the syntactic and semantic patterns of unstructured English texts.
The syntactic analysis is done through a proposed visualization technique which categorizes and compares different English compositions based on their different reading complexity metrics. For the semantic analysis I use Latent Semantic Analysis (LSA) to analyze the hidden patterns in complex compositions. I have used this technique to analyze comments from a social visualization web site for detecting the irrelevant ones (e.g., spam). The patterns of collaborations are also studied through statistical analysis.
Word sense disambiguation is used to figure out the correct sense of a word in a sentence or composition. Using textual similarity measure, based on the different word similarity measures and word sense disambiguation on collaborative text snippets from social collaborative environment, reveals a direction to untie the knots of complex hidden patterns of collaboration.
|
75 |
Classification Ascendante 2-3 Hiérarchique : étude théorique et applicativeChelcea, Sergiu 23 March 2007 (has links) (PDF)
La classification est un des nombreux domaines de la Fouille de Données qui vise à extraire l'information à partir de grands volumes de données en utilisant différentes techniques computationnelles de l'apprentissage, des statistiques et de la reconnaissance des formes. Une des deux approches fondamentales de la classification non supervisé (ou clustering) est la classification hiérarchique. Son but est de produire un arbre dans lequel les nœuds représentent des classes des objets analysés. Un des inconvénients principaux de la méthode ascendante hiérarchique la plus connue et la plus utilisée, la Classification Ascendante Hiérarchique (CAH), est le fait qu'on ne peut pas mettre en évidence des classes d'objets ayant des caractéristiques communes. Cette propriété se trouve par exemple dans les classes qui se recouvrent et qui ont été introduites et étudies dans les extensions de la CAH.<br /><br />Cette thèse porte sur une extension récente de la Classification Ascendante Hiérarchique, appelée Classification Ascendante 2-3 Hiérarchique et proposé par P. Bertrand en 2002, avec en vue son application au domaine de la Fouille de Données.<br />Les trois contributions majeures de cette thèse résident dans l'étude théorique des 2-3 hiérarchies (appelées aussi paired hierarchies), dans le nouvel algorithme de 2-3 CAH avec son implémentation et dans la première étude applicative de cette méthode dans deux domaines de la Fouille de Données.<br /><br />Notre étude théorique inclut la découverte de quatre nouvelles propriétés théoriques des 2-3 hiérarchies et les définitions des liens d'agrégation entre les classes pour ce type de structure. Ceci nous a aussi permis de mettre en évidence un cas spécial de fusion des classes et d'introduire une étape intermédiaire dans la construction des 2-3 hiérarchies. L'étude exhaustive et systématique des cas possibles nous a permis de formuler les meilleurs choix concernant le lien d'agrégation et l'indexation de la structure, avec en vue l'amélioration de la qualité des 2-3 hiérarchies.<br /><br />Dans un deuxième temps, basé sur notre étude et contributions théoriques, nous proposons un nouvel algorithme général de Classification Ascendante 2-3 Hiérarchique. Ceci représente la concrétisation de notre travail précédent, aboutissant à un algorithme performant, qui explore plusieurs possibilités du modèle 2-3 hiérarchique. Une analyse théorique de la complexité de notre algorithme a montré que la complexité a été réduite de O(n3) dans l'algorithme initial de 2-3 CAH à O(n2 log n) pour notre algorithme. Les comparaisons des 2-3 hiérarchies avec les hiérarchies classiques obtenues sur différents ensembles de données (réels et simulés), ont validé l'analyse de complexité par les temps d'exécution. En plus, des résultats très satisfaisants ont été obtenus en analysant la "qualité" des 2-3 hiérarchies comparées aux hiérarchies classiques : jusqu'au 50% de classes en plus et un gain maximum de 84% en utilisant l'indice de Stress.<br />Nous avons ensuite proposé un modèle orienté-objet de notre algorithme de 2-3 CAH, qui a été intégré dans une boite à outils ``Hierarchical Clustering Toolbox'' (HCT) que nous avons développée pour la visualisation des méthodes ascendantes hiérarchiques de classification. Ce modèle a été également intégré comme méthode d'indexation des cas dans la plateforme de Raisonnement à Partir de Cas (RàPC), CBR*Tools, développé à l'INRIA Sophia Antipolis, et utilisé pour la conception des systèmes de recommandations. <br /><br />Notre dernière contribution concerne une toute première étude de l'utilisation de notre algorithme de 2-3 CAH sur des données réelles relevant de deux domaines de la Fouille des Données : le Web Mining et la Classification de Documents XML. Celle-ci a donné lieu à des résultats intéressants et portait sur la comparaison de la classification 2-3 hiérarchique des équipes de recherche de l'INRIA en utilisant soit le comportement des utilisateurs sur leur sites Web, soit leur rapport annuel d'activité écrit en XML, par rapport à la structure organisationnelle existante en thèmes de recherche.<br /><br />Pour conclure, nous montrons que ce sujet est loin d'être épuisé et nous proposons plusieurs pistes de recherche future relatives à la Classification Ascendante 2-3 Hiérarchique ainsi qu'à notre boite à outils HCT, développée pendant cette thèse.
|
76 |
Τεχνικές και συστήματα διαχείρισης γνώσης στο διαδίκτυο / Techniques and systems for knowledge management on the WebΜαρκέλλου, Πηνελόπη 25 June 2007 (has links)
Ο Παγκόσμιος Ιστός Πληροφοριών (Web) χαρακτηρίζεται σαν ένα περιβάλλον αχανές, ετερογενές, κατανεμημένο και πολύπλοκο με αποτέλεσμα να είναι δύσκολος ο αποδοτικός χειρισμός των δεδομένων των e-εφαρμογών με βάση παραδοσιακές μεθόδους και τεχνικές. Αυτό με τη σειρά του οδηγεί στην απαίτηση για σχεδιασμό, ανάπτυξη και υιοθέτηση «ευφυών» εργαλείων που θα επιλέξουν και θα εμφανίσουν στο χρήστη την κατάλληλη πληροφορία, στον κατάλληλο χρόνο και με την κατάλληλη μορφή. Η παρούσα διδακτορική διατριβή ασχολείται με το πρόβλημα της εξόρυξης «κρυμμένης» γνώσης από συστήματα και εφαρμογές ηλεκτρονικής μάθησης (e-learning), ηλεκτρονικού εμπορίου (e-commerce) και επιχειρηματικής ευφυΐας (business intelligence) με κύριο στόχο τη βελτίωση της ποιότητας και της απόδοσης των παρεχόμενων υπηρεσιών προς τους τελικούς χρήστες. Συγκεκριμένα, τα ερευνητικά αποτελέσματα επικεντρώνονται στα ακόλουθα: α) Μεθοδολογίες, τεχνικές και προτεινόμενοι αλγόριθμοι εξόρυξης «κρυμμένης» γνώσης από e-εφαρμογές λαμβάνοντας υπόψη τη σημασιολογία των δεδομένων, β) Παραγωγή εξατομικευμένων εκπαιδευτικών εμπειριών, γ) Παραγωγή αποδοτικών συστάσεων για την αγορά online προϊόντων, δ) Παραγωγή επιστημονικών και τεχνολογικών δεικτών από διπλώματα ευρεσιτεχνίας για την ανάδειξη του επιπέδου καινοτόμου δραστηριότητας μιας αγοράς, ε) Προτάσεις για μελλοντικές ερευνητικές κατευθύνσεις που επεκτείνουν τις τεχνικές εξόρυξης γνώσης σε πιο σύνθετους τύπους εφαρμογών και αναδεικνύουν νέες ερευνητικές ευκαιρίες. Στο πρώτο κεφάλαιο παρουσιάζεται μια προσέγγιση για την υποστήριξη εξατομικευμένου e-learning όπου η δομή και η σχέση των δεδομένων και των πληροφοριών παίζουν ουσιαστικό ρόλο. Ο προτεινόμενος αλγόριθμος βασίζεται σε μια οντολογία (ontology) η οποία βοηθά στη δόμηση και στη διαχείριση του περιεχομένου που σχετίζεται με μια δεδομένη σειρά μαθημάτων, ένα μάθημα ή ένα θεματικό. Η διαδικασία χωρίζεται σε δύο στάδια: στις offline ενέργειες προετοιμασίας των δεδομένων, δημιουργίας της οντολογίας και εξόρυξης από δεδομένα χρήσης (usage mining) και στην online παροχή της εξατομίκευσης. Το σύστημα βρίσκει σε πρώτη φάση ένα αρχικό σύνολο συστάσεων βασισμένο στην οντολογία του πεδίου και στη συνέχεια χρησιμοποιεί τα frequent itemsets (συχνά εμφανιζόμενα σύνολα στοιχείων) για να το εμπλουτίσει, λαμβάνοντας υπόψη την πλοήγηση άλλων παρόμοιων χρηστών (similar users). Με τον τρόπο αυτό, μειώνουμε το χρόνο που απαιτείται για την ανάλυση όλων των frequent itemsets και των κανόνων συσχέτισης. Εστιάζουμε μόνο σε εκείνα τα σύνολα που προέρχονται από το συνδυασμό της ενεργούς συνόδου (current session) του χρήστη και των συστάσεων της οντολογίας. Επιπλέον, αυτή η προσέγγιση ανακουφίζει και το πρόβλημα των μεγάλων χρόνων απόκρισης, το οποίο μπορεί στη συνέχεια να οδηγήσει στην εγκατάλειψη του e-learning συστήματος. Αν και η εξατομίκευση απαιτεί αρκετά βήματα επεξεργασίας και ανάλυσης, το εμπόδιο αυτό αποφεύγεται με την εκτέλεση σημαντικού μέρους της διαδικασίας offline. Στο δεύτερο κεφάλαιο μελετάται το πρόβλημα της παραγωγής προτάσεων σε μια εφαρμογή e-commerce. Τα συστήματα συστάσεων (recommendations systems ή RSs) αποτελούν ίσως την πιο δημοφιλή μορφή εξατομίκευσης και τείνουν να μετατραπούν στις μέρες μας σε σημαντικά επιχειρησιακά εργαλεία. Η προτεινόμενη υβριδική προσέγγιση στοχεύει στην παραγωγή αποτελεσματικών συστάσεων για τους πελάτες ενός online καταστήματος που νοικιάζει κινηματογραφικές ταινίες. Η γνώση για τους πελάτες και τα προϊόντα προκύπτει από δεδομένα χρήσης και τη δομή της οντολογίας σε συνδυασμό με τις εκτιμήσεις-βαθμολογίες των πελατών για τις ταινίες καθώς και την εφαρμογή τεχνικών ταιριάσματος «όμοιων» πελατών. Όταν ένα ή περισσότερα κριτήρια ταιριάσματος ικανοποιούνται, τότε άλλες ταινίες μπορούν να προσδιοριστούν σύμφωνα με το οντολογικό σχήμα που έχουν παρόμοια χαρακτηριστικά με αυτές που ο πελάτης έχει ήδη νοικιάσει. Στην περίπτωση ενός νέου πελάτη όπου το ιστορικό του είναι κενό, πληροφορίες από την αίτηση εγγραφής του αναλύονται ώστε να ταξινομηθεί σε μια συγκεκριμένη κλάση πελατών και να παραχθούν προτάσεις με βάση το οντολογικό σχήμα. Αυτή η ολοκλήρωση παρέχει πρόσθετη γνώση για τις προτιμήσεις των πελατών και επιτρέπει την παραγωγή επιτυχημένων συστάσεων. Ακόμη και στην περίπτωση του «cold-start problem» όπου δεν είναι διαθέσιμη αρχική πληροφορία για τη συμπεριφορά του πελάτη, η προσέγγιση μπορεί να προβεί σε σχετικές συστάσεις. Τέλος, στο τρίτο κεφάλαιο μελετάται το πρόβλημα της εξόρυξης γνώσης από καταχωρήσεις διπλωμάτων ευρεσιτεχνίας που καταδεικνύουν το επίπεδο της καινοτόμου δραστηριότητας μιας αγοράς. Η προτεινόμενη προσέγγιση αφορά στην εφαρμογή τεχνικών Text Mining σε διπλώματα ευρεσιτεχνίας που βρίσκονται καταχωρημένα σε βάσεις δεδομένων διαφόρων διεθνών οργανισμών διαχείρισής τους, με στόχο την παραγωγή επιστημονικών και τεχνολογικών δεικτών για την ανάδειξη του επιπέδου καινοτομίας μιας αγοράς και συνεπώς την επιχειρηματική ευφυΐα. Αρχικά τα δεδομένα καθαρίζονται προκειμένου να βελτιωθεί η ποιότητά τους πριν την επεξεργασία. Στη συνέχεια εφαρμόζονται δύο τύποι επεξεργασίας η απλή ανάλυση (simple analysis) και η στατιστική ανάλυση (statistical analysis). Στην πρώτη περίπτωση παράγονται γραφήματα που συσχετίζουν τις πληροφορίες π.χ. κύριοι τομείς ανάπτυξης σε μια χώρα. Στη δεύτερη περίπτωση αναλύονται γλωσσολογικά τα πεδία title και abstract των διπλωμάτων ευρεσιτεχνίας και ομαδοποιούνται τα λήμματα των λέξεων. Στη συνέχεια πάνω στα δεδομένα εφαρμόζονται τεχνικές correspondence και clustering analysis έτσι ώστε αυτά να ομαδοποιηθούν σύμφωνα με τις τεχνολογίες στις οποίες αναφέρονται. Τα clusters πλέον αυτά προβάλλονται όπως και στην απλή ανάλυση παρέχοντας στο χρήστη μια πιο λεπτομερή απεικόνιση της πληροφορίας των διπλωμάτων ευρεσιτεχνίας. Ο συνδυασμός των αναλύσεων που εφαρμόζονται με βάση την προτεινόμενη μεθοδολογία επιτρέπει την αποτύπωση των τεχνολογικών εξελίξεων και καινοτομιών. Οι δείκτες που παράγονται είναι πολύ σημαντικοί αφού μπορούν να ποσοτικοποιήσουν τις πληροφορίες που αφορούν σε συγκεκριμένες τεχνολογίες. Με αυτό τον τρόπο μπορούμε να παράγουμε δείκτες για τη δραστηριότητα συγκεκριμένων φορέων, εφευρετών, χωρών, κλπ. Τέλος, τεχνολογικοί δείκτες που υποδεικνύουν μελλοντικές ελπιδοφόρες τεχνολογίες καθώς και ποιοι φορείς θα είναι πρωτοπόροι σε αυτές μπορούν να εξαχθούν. / The World Wide Web (Web) has been characterized as a vast, heterogeneous, distributed and complicated environment resulting in difficulties for the efficient handling of e-applications’ data with traditional methods and techniques. This leads to the requirement for designing, implementing and adopting “intelligent” tools, able to select and present to the user the suitable information, at the suitable time and in the suitable form. The present dissertation deals with the problem of mining “hidden” knowledge from systems and applications of electronic learning (e-learning), electronic commerce (e-commerce) and business intelligence (BI), aiming mainly at the improvement of quality and performance of the services provided to the end-users. Specifically, the results are focused on the following: a) Methodologies, techniques and proposed algorithms of mining hidden knowledge from e-applications taking into consideration the semantics of data, b) Production of personalized educational experiences, c) Generation of efficient recommendations for the online purchase of products, d) Discovery of scientific and technological indicators in patents that indicate the level of innovation activity of a market, e) Proposals for future research directions that extend the techniques of knowledge mining to more complex types of applications and indicate new research opportunities. The first chapter presents an approach for the support of personalized e-learning in the cases where the structure and the relation of data and information play essential role. The proposed algorithm is based on an ontology which helps in structuring and managing the content that is related with a given course, a lesson or a topic. The process is decomposed into two stages: the offline phase of data preparation, ontology creation and data usage mining and the online phase of producing personalization. The system finds a initial set of recommendations based on the ontology of the domain and then identifies a set of frequent itemsets (sets of items observed often) in order to enrich the initial recommendations, taking into consideration the navigation of other similar users. In this way, we decrease the time required for the analysis of all the frequent itemsets and association rules, by focusing only on those sets that derive from the combination of the current active session of the user and the ontology recommendations. Moreover, this approach also alleviates the problem of long response times that can lead to the abandonment of the system. Even if the personalization requires considerable steps of preparation and analysis, this obstacle is avoided with the implementation of important part of the process offline. The second chapter studies the problem of recommendations’ production in an e-commerce application. Recommendation systems or RSs constitute perhaps the most popular form of personalization and they tend to become in our days an important business tool. The proposed hybrid approach aims in the production of effective recommendations for the customers of an online shop that rents movies. The knowledge for the customers and the movies results from usage data and the structure of an ontology in combination with customer rates about the movies, as well as with the application of matching techniques for discovering similar customers. When one or more matching criteria are satisfied, then other movies can be specified according to the ontological schema that has similar characteristics with those that the customer already has rented. In the case of a new customer with no history information, data from his registration form are analyzed so that he is categorized in a specific group of customers and the recommendations are based on the ontology. This integration provides additional knowledge for the preferences of customers and allows the production of successful recommendations. Even in the case of cold-start problem where initial information on the customer’s behavior is not available, the approach can produce qualitative and relatively precise recommendations. Finally, the third chapter describes the problem of mining knowledge from patent registrations which indicate the level of innovation activity of a market. The proposed approach concerns the application of Text Mining techniques in patents retrieved from the databases of various national and international Patent Offices, aiming at the production of scientific and technological indicators of the innovation level of a market activity and consequently business intelligence. Initially, the data are cleaned in order to improve their quality before the analysis steps. Then two types of analysis are applied on the data: simple analysis and statistical analysis. In the first case, several charts are produced that connect the information e.g. main sectors of development in a country. In the second case, the title and abstract fields of the patents are linguistically analyzed and the lemmas of words are grouped. Then correspondence and clustering analysis are applied. The produced clusters are depicted as in the simple analysis providing the user with a detailed representation of patent information. The combination of analyses that are applied based on the proposed methodology allows the identification of technological evolutions and innovations. The produced indicators are very important since they can quantify the information that concerns specific technologies. In this way, we can produce indicators for the activity of specific institutions, inventors, countries, etc. Finally, technological indicators about the potential emerging technologies as well as the institutions that will be pioneers can be exported.
|
77 |
Using information technology to support the discovery of novel knowledge in organizationsJenkin, Tracy A. 27 August 2008 (has links)
In this dissertation, I examine how IT can support individuals, and in turn their organizations, in learning about and knowing their external environment on the Web. Specifically, I examine novel-knowledge discovery in the context of the multi-level organizational learning process, focusing on cognitive developments and changes to mental models. Novel knowledge is defined as knowledge that is potentially strategically important to the organization, not currently known to the organization, indirectly relevant and therefore difficult to find. Novel knowledge is proposed to be one of three different types of knowledge that organizations seek to discover in their environment. A theoretical framework is developed to identify the sets of tool characteristics, collectively referred to as levels, which are proposed to support the discovery of different types of knowledge, as well as different modes of learning and learning processes. In addition, extensions to the 4I organizational learning process model are proposed, specific to searching and learning on the Web: 1) adding a fifth process – information foraging and search-term development, and 2) adding a fourth level to the learning process – the machine-level. A competing theories approach is used to develop a rich understanding of knowledge discovery and learning on the Web. Understanding which types of tools are useful in different learning contexts has implications for learning effectiveness and may help firms understand how to “manage” their learning. Tools for the discovery of highly novel knowledge are less prevalent than tools to support the other levels of knowledge discovery. Accordingly, a design theory for novel-knowledge discovery tools is proposed based on organizational learning theories. An instantiation of the design theory, a novel-knowledge discovery tool, is developed and tested within the organizational learning process and compared to tools at the other two levels of knowledge discovery. In addition, different processes involved in using a novel-knowledge discovery tool at the group level are examined. Three separate studies were conducted, including a lab and field experiment, and case study. The results are proposed to demonstrate how novel-knowledge discovery tools can support organizational learning. / Thesis (Ph.D, Management) -- Queen's University, 2008-08-26 09:25:31.367
|
78 |
Προδιαγραφές μιας καινοτόμας πλατφόρμας ηλεκτρονικής μάθησης που ενσωματώνει τεχνικές επεξεργασίας φυσικής γλώσσαςΦερφυρή, Ναυσικά 04 September 2013 (has links)
Ζούμε σε μια κοινωνία στην οποία η χρήση της τεχνολογίας έχει εισβάλει δυναμικά στην καθημερινότητα.Η εκπαίδευση δεν θα μπορούσε να μην επηρεαστεί απο τις Νέες Τεχνολογίες.Ήδη,όροι όπως “Ηλεκτρονική Μάθηση” και ”Ασύγχρονη Τηλε-εκπαίδευση” έχουν δημιουργήσει νέα δεδομένα στην κλασική Εκπαίδευση. Με τον όρο ασύγχρονη τηλε-εκπαίδευση εννοούμε μια διαδικασία ανταλλαγής μάθησης μεταξύ εκπαιδευτή - εκπαιδευομένων,που πραγματοποιείται ανεξάρτητα χρόνου και τόπου. Ηλεκτρονική Μάθηση είναι η χρήση των νέων πολυμεσικών τεχνολογιών και του διαδικτύου για τη βελτίωση της ποιότητας της μάθησης,διευκολύνοντας την πρόσβαση σε πηγές πληροφοριών και σε υπηρεσίες καθώς και σε ανταλλαγές και εξ'αποστάσεως συνεργασίες.Ο όρος καλύπτει ένα ευρύ φάσμα εφαρμογών και διαδικασιών,όπως ηλεκτρονικές τάξεις και ψηφιακές συνεργασίες, μάθηση βασιζόμενη στους ηλεκτρονικούς υπολογιστές και στις τεχνολογίες του παγκόσμιου ιστού. Κάποιες απο τις βασικές απαιτήσεις που θα πρέπει να πληρούνται για την δημιουργία μιας πλατφόρμας ηλεκτρονικής μάθησης είναι: Να υποστηρίζει τη δημιουργία βημάτων συζήτησης (discussion forums) και “δωματίων συζήτησης”(chat rooms),να υλοποιεί ηλεκτρονικό ταχυδρομείο,να έχει φιλικό περιβάλλον τόσο για το χρήστη/μαθητή όσο και για το χρήστη/καθηγητή,να υποστηρίζει προσωποποίηση(customization)του περιβάλλοντος ανάλογα με το χρήστη.Επίσης να κρατάει πληροφορίες(δημιουργία profiles)για το χρήστη για να τον “βοηθάει”κατά την πλοήγηση,να υποστηρίζει την εύκολη δημιουργία διαγωνισμάτων(online tests), να υποστηρίζει την παρουσίαση πολυμεσικών υλικών. Ως επεξεργασία φυσικής γλώσσας (NLP) ορίζουμε την υπολογιστική ανάλυση αδόμητων δεδομένων σε κείμενα, με σκοπό την επίτευξη μηχανικής κατανόησης του κειμένου αυτού.Είναι η επεξεργασία προτάσεων που εισάγονται ή διαβάζονται από το σύστημα,το οποίο απαντά επίσης με προτάσεις με τρόπο τέτοιο που να θυμίζει απαντήσεις μορφωμένου ανθρώπου. Βασικό ρόλο παίζει η γραμματική,το συντακτικό,η ανάλυση των εννοιολογικών στοιχείων και γενικά της γνώσης, για να γίνει κατανοητή η ανθρώπινη γλώσσα από τη μηχανή. Οι βασικές τεχνικές επεξεργασίας φυσικού κειμένου βασίζονται στις γενικές γνώσεις σχετικά με τη φυσική γλώσσα.Χρησιμοποιούν ορισμένους απλούς ευρετικούς κανόνες οι οποίοι στηρίζονται στη συντακτική και σημασιολογική προσέγγιση και ανάλυση του κειμένου.Ορισμένες τεχνικές που αφορούν σε όλα τα πεδία εφαρμογής είναι: ο διαμερισμός στα συστατικά στοιχεία του κειμένου (tokenization), η χρήση της διάταξης του κειμένου (structural data mining), η απαλοιφή λέξεων που δεν φέρουν ουσιαστική πληροφορία (elimination of insignificant words),η γραμματική δεικτοδότηση (PoS tagging), η μορφολογική ανάλυση και η συντακτική ανάλυση. Στόχος της παρούσας διπλωματικής είναι να περιγράψει και να αξιολογήσει πως οι τεχνικές επεξεργασίας της φυσικής γλώσσας (NLP), θα μπορούσαν να αξιοποιηθούν για την ενσωμάτωση τους σε πλατφόρμες ηλεκτρονικής μάθησης.Ο μεγάλος όγκος δεδομένων που παρέχεται μέσω μιας ηλεκτρονικής πλατφόρμας μάθησης, θα πρέπει να μπορεί να διαχειριστεί , να διανεμηθεί και να ανακτηθεί σωστά.Κάνοντας χρήση των τεχνικών NLP θα παρουσιαστεί μια καινοτόμα πλατφόρμα ηλεκτρονικής μάθησης,εκμεταλεύοντας τις υψηλού επιπέδου τεχνικές εξατομίκευσης, την δυνατότητα εξαγωγής συμπερασμάτων επεξεργάζοντας την φυσική γλώσσα των χρηστών προσαρμόζοντας το προσφερόμενο εκπαιδευτικό υλικό στις ανάγκες του κάθε χρήστη. / We live in a society in which the use of technology has entered dynamically in our life,the education could not be influenced by new Technologies. Terms such as "e-Learning" and "Asynchronous e-learning" have created new standards in the classical Education.
By the term “asynchronous e-learning” we mean a process of exchange of learning between teacher & student, performed regardless of time and place.
E-learning is the use of new multimedia technologies and the Internet to improve the quality of learning by facilitating access to information resources and services as well as remote exchanges .The term covers a wide range of applications and processes, such electronic classrooms, and digital collaboration, learning based on computers and Web technologies.
Some of the basic requirements that must be met to establish a platform for e-learning are: To support the creation of forums and chat rooms, to deliver email, has friendly environment for both user / student and user / teacher, support personalization depending to the user . Holding information (creating profiles) for the user in order to provide help in the navigation, to support easy creating exams (online tests), to support multimedia presentation materials.
As natural language processing (NLP) define the computational analysis of unstructured data in text, to achieve mechanical understanding of the text. To elaborate proposals that imported or read by the system, which also responds by proposals in a manner that reminds answers of educated man. A key role is played by the grammar, syntax, semantic analysis of data and general knowledge to understand the human language of the machine.
The main natural text processing techniques based on general knowledge about natural language .This techniques use some simple heuristic rules based on syntactic and semantic analysis of the text. Some of the techniques pertaining to all fields of application are: tokenization, structural data mining, elimination of insignificant words, PoS tagging, analyzing the morphological and syntactic analysis.
The aim of this study is to describe and evaluate how the techniques of natural language processing (NLP), could be used for incorporation into e-learning platforms. The large growth of data delivered through an online learning platform, should be able to manage, distributed and retrieved. By the use of NLP techniques will be presented an innovative e-learning platform, using the high level personalization techniques, the ability to extract conclusions digesting the user's natural language by customizing the offered educational materials to the needs of each user .
|
79 |
VISTREE: uma linguagem visual para análise de padrões arborescentes e para especificação de restrições em um ambiente de mineração de árvoresFelício, Crícia Zilda 25 March 2008 (has links)
The frequent pattern mining in data represented by more complex structures like trees and
graphs are growing lately. Among the reasons for this improvement is the fact that the tree and
graph patterns has more information than sequential patterns, besides there is the possibility of
usage of this type of mining in several areas like XML Mining,Web Mining and Bioinformatic.
A problem that occurs in mining patterns in general is the great amount of patterns generated.
Being some of them not interesting for users. The decrease in the quantity of patterns generated
can be done restricting the patterns types produced through the user constraint. Even incorporating
constraints in the mining process, the quantity of tree pattern mined is large, what make
necessary one tool for pattern analysis, possibiliting the user specify queries to extract in the
mass of mined patterns that satisfy the criteria of the selection in the query.
The pattern mining with constraint, aim to obtain as a result of the process of mining only
the patterns with the real interest for the user. The constraint about patterns will be represented
related to the structure of them. One form to represent the sequential pattern mining would be
through regular expressions, for the tree pattern mining, the tree automata. The use of constraints
solve the problem to generate a large amout of patterns, but the mechanism used to
represent the constraint is still constituted in another problem that would be the difficult for a
user do the input of constraint using this mechanism.
The queries about frequent patterns are made according to the characteristics of the data.
One way to extract specific patterns in data structured like trees is to store the specific patterns
in a XML file and make queries using one of the query languages for XML files. Among the
XML query languages, the XQuery language is very used, mainly by the fact that it s similar
in semantic to SQL, the query language for databases. The frequently patterns queries could be
made using this language, but, for this the user would have to know and be capable to express
queries through it.
In this research it will be presented the visual language VisTree that consists of visual
tool to be used in a phase of preprocess for specification the user preferences that involves the format of the tree pattern that are interested to him, as in a phase of postprocess to analyze
the mined patterns. The VisTree sintaxe is based on in a fragment of the Tree Pattern
language[Chen et al. 2003, Che and Liu 2005], the core of XPath 1.0 [Clark and Derose 1999,
Olteanu et al. 2002]. However, the semantic of VisTree differs from the semantic of these languages
in the sense that VisTree queries return the sets of tree patterns. VisTree uses a XQuery
language [Chamberlin 2003, Katz et al. 2003] like query process mechanism: the visual queries
specified in VisTree are mapped in XQuery queries and theirs responses are adapted to fit the
format returned by VisTree. VisTree works like a XQuery front-end.
A complete system of mining tree pattern was developed to test and validate the use of
VisTree language in specific contexts of applications. The system was made in a modular form,
in a way to allow that new applications could be incorporated in a simple way. This research
show the application of tree mining with constraint in the areas of XML Mining andWeb Mining
through study case. In both applications, the system use the VisTree language in the preprocess
modules (constraint input) and analysis of patterns (query input). / A mineração de padrões freqüentes em dados representados por estruturas mais complexas
como árvores e grafos vêm crescendo muito nos últimos tempos. Entre as razões para esse
crescimento está o fato do padrão arborescente ou em forma de grafo possuir mais informações
do que os padrões seqüenciais, e na possibilidade de aplicação desse tipo de mineração em
várias áreas como XML Mining, Web Mining e Bioinformática. Um problema que ocorre na
mineração de padrões em geral é a grande quantidade de padrões gerados; sendo que muitos
deles nem são do interesse do usuário. A diminuição da quantidade de padrões gerados pode
ser feita restringido o tipo de padrão produzido através de especificações do usuário. Mesmo
incorporando restrições no processo de mineração, a quantidade de padrões arborescentes minerados
é grande, o que torna necessário uma ferramenta de análise dos padrões, possibilitando
ao usuário especificar consultas para extrair da massa de padrões minerados aqueles que satisfazem
os critérios de seleção da consulta.
A mineração de padrões com restrição, visa obter como resultado de um processo de mineração
apenas os padrões de real interesse do usuário. Uma restrição sobre padrões será representada
de acordo com a estrutura dos mesmos. Para a mineração de padrões seqüencias uma
forma de representá-la seria através de expressões regulares, para a mineração de padrões arborescentes,
os autômatos de árvore. O uso de restrições resolve o problema da geração de uma
grande quantidade de padrões, mas o mecanismo usado para representar a restrição ainda se
constitui em um outro problema que seria a dificuldade de um usuário em fazer a entrada da
restrição utilizando esse mecanismo.
As consultas sobre padrões freqüentes são feitas de acordo com as características dos dados.
Uma forma de extrair padrões específicos em dados estruturados como árvores é armazenar os
padrões freqüentes em um documento XML e efetuar uma consulta usando uma das linguagens
de consulta a documentos XML. Dentre as linguagens de consulta XML, a linguagem XQuery é
muito utilizada, principalmente pelo fato de ser similar semanticamente a SQL (linguaguem de
consulta a banco de dados). A consulta aos padrões freqüentes poderia então ser feita utilizando essa linguagem, mas para isso o usuário teria que conhecer e ser capaz de expressar sua consulta
através dela.
Nesse trabalho é apresentada a linguagem visual VisTree, que consiste em uma ferramenta
visual a ser utilizada tanto numa fase de Pré-processamento para a especificação das preferências
do usuário no que se refere ao formato dos padrões arborescentes que lhe interessa, quanto
numa fase de pós-processamento para a análise dos padrões minerados. A sintaxe da VisTree se
baseia na sintaxe de um fragmento simples da linguagem Tree Pattern [Miklau and Suciu 2004,
Chen et al. 2003], na qual a linguagem XPath 1.0 [Clark and Derose 1999, Olteanu et al. 2002]
também se baseou. Entretanto, a semântica de VisTree difere da semântica destas linguagens no
sentido de que consultas de VisTree retornam conjuntos de padrões arborescentes. A VisTree
utiliza a linguagem XQuery [Chamberlin 2003, Katz et al. 2003] como mecanismo de processamento
de consultas: as consultas visuais especificadas em VisTree são mapeadas em consultas
da XQuery e suas respostas adaptadas para se adequarem ao formato retornado por VisTree.
Um sistema completo de mineração de padrões arborescentes foi desenvolvido para testar
e validar o uso da linguagem VisTree em contextos específicos de aplicações. O sistema foi
construído de forma modular para que novas aplicações possam ser incorporadas de maneira
simples. A aplicação de mineração de árvores com restrição nas áreas de XML Mining e Web
Mining foi feita através de um estudo de caso. Nas duas aplicações, o sistema utiliza a linguagem
VisTree nos módulos que fazem a tarefa de Pré-Processamento (entrada da restrição) e
de Análise de Padrões (entrada da consulta). / Mestre em Ciência da Computação
|
80 |
Algoritmy pro toky v sítích a jejich softwarová podpora / Network flows and their software supportZdražil, Jan January 2011 (has links)
This thesis deals with the maximum flow problem in network. First part describes and explains basic terms of graph theory, which gives theoretical base for following text. Next part is dedicated to algorithms that may be used to solve a maximum flow problem. Each described algorithm contains a brief history, general notation and a practical example. The next very important part of the thesis is in specific computer science applications such as computer vision and web mining. As an essential part of the thesis is developed software in programming language Java, which allows user to compare the implemented algorithms and to solve large network flows problems.
|
Page generated in 0.0892 seconds