• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 20
  • 12
  • 10
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 51
  • 51
  • 19
  • 16
  • 12
  • 11
  • 10
  • 9
  • 9
  • 9
  • 9
  • 8
  • 8
  • 8
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Une approche de personnalisation de la recherche d'information basée sur le Web sémantique / An approach of personalization of information retrieval based on the semantic Web

Essayeh, Aroua 09 February 2018 (has links)
Le travail de cette thèse s’inscrit dans le cadre de la recherche d’information (RI) et plus précisément la recherche d’information personnalisée. En effet, avec la prolifération des données de différentes sources et malgré la diversité de méthodes et d’approches de la recherche d’information classique, cette dernière n’est plus considérée aujourd’hui comme un moyen efficace pour répondre aux exigences de l’utilisateur considéré comme l’acteur principal de tout système de recherche d’information (SRI). Dans ce travail de thèse, nous adressons deux principaux problèmes liés à la RI personnalisée : (1) la formalisation et la mise en œuvre d’un modèle utilisateur et (2) la formulation de la requête de recherche dans le but d’améliorer les résultats retournés à l'utilisateur en fonction de sa perception et de ses préférences. Pour atteindre ces objectifs, nous avons proposé une approche de recherche d’information guidée par les ontologies et basée sur l’utilisation sémantique des informations. En effet, notre contribution se décline en trois principaux points : (1) la modélisation et la construction de profil utilisateur suivant une approche ontologique modulaire. Ce modèle permet de capturer les informations relatives à l’utilisateur, de les modéliser suivant l’approche sémantique dans le but de les réutiliser pour des tâches de raisonnement et d’inférence ; (2) la reformulation sémantique de la requête de recherche en exploitant les concepts, les relations syntaxiques et non syntaxiques entre les concepts et les propriétés ; et finalement, (3) la recommandation des résultats qui consiste à proposer des résultats de recherche en se basant sur l’ensemble des communautés utilisateurs construites par l’approche de classification non supervisée « Fuzzy K-mode » améliorée. Ces communautés sont aussi modélisées sémantiquement dans l’ontologie modulaire de profil. Ensuite, afin de valider l’approche proposée, nous avons mis en œuvre un système pour la recherche des itinéraires dans le transport public. Enfin, cette thèse propose des perspectives de recherche sur la base des limites rencontrées. / This PhD thesis reports on a recent study in the field of information retrieval (IR), more specifically personalized IR. Traditional IR uses various methods and approaches. However, given the proliferation of data from different sources, traditional IR is no longer considered to be an effective means of meeting users’ requirements. (‘Users’ here refers to the main actor in an IR system.) In this thesis, we address two main problems related to personalized IR: (1) the development and implementation of a user model; and (2) the formulation of a search query to improve the results returned to users according to their perceptions and preferences. To achieve these goals, we propose a semantic information search approach, based on the use of semantic information and guided by ontologies. The contribution of our work is threefold. First, it models and constructs user profiles following a modular ontological approach; this model allows the capture of information related to the user, and models the data according to the semantic approach so that the data can be re-used for reasoning and inference tasks. Second, it provides evidence for reformulating a query by exploiting concepts, hierarchical and non-hierarchical relationships between concepts and properties. Third, based on our findings, we recommend search results that are informed by the user’s communities, built by the improved unsupervised classification approach called the ‘Fuzzy K-mode’. These communities are also semantically modeled with modular profile ontology. To validate our proposed approach, we implemented a system for searching the itineraries for public transport. Finally, this thesis proposes research perspectives based on the limitations we encountered.
32

Une approche de détection des communautés d'intérêt dans les réseaux sociaux : application à la génération d'IHM personnalisées / An approach to detect communities of interest in social networks : application to the generation of customized HCI

Chouchani, Nadia 07 December 2018 (has links)
De nos jours, les Réseaux Sociaux sont omniprésents dans tous les aspects de la vie. Une fonctionnalité fondamentale de ces réseaux est la connexion entre les utilisateurs. Ces derniers sont engagés progressivement à contribuer en ajoutant leurs propres contenus. Donc, les Réseaux Sociaux intègrent également les créations des utilisateurs ; ce qui incite à revisiter les méthodes de leur analyse. Ce domaine a conduit désormais à de nombreux travaux de recherche ces dernières années. L’un des problèmes principaux est la détection des communautés. Les travaux de recherche présentés dans ce mémoire se positionnent dans les thématiques de l’analyse sémantique des Réseaux Sociaux et de la génération des applications interactives personnalisées. Cette thèse propose une approche pour la détection des communautés d’intérêt dans les Réseaux Sociaux. Cette approche modélise les données sociales sous forme d’un profil utilisateur social représenté par un ontologie. Elle met en oeuvre une méthode pour l’Analyse des Sentiments basées sur les phénomènes de l’influence sociale et d’Homophilie. Les communautés détectées sont exploitées dans la génération d’applications interactives personnalisées. Cette génération est basée sur une approche de type MDA, indépendante du domaine d’application. De surcroît, cet ouvrage fait état d’une évaluation de nos propositions sur des données issues de Réseaux Sociaux réels. / Nowadays, Social Networks are ubiquitous in all aspects of life. A fundamental feature of these networks is the connection between users. These are gradually engaged to contribute by adding their own content. So Social Networks also integrate user creations ; which encourages researchers to revisit the methods of their analysis. This field has now led to a great deal of research in recent years. One of the main problems is the detection of communities. The research presented in this thesis is positioned in the themes of the semantic analysis of Social Networks and the generation of personalized interactive applications. This thesis proposes an approach for the detection of communities of interest in Social Networks. This approach models social data in the form of a social user profile represented by an ontology. It implements a method for the Sentiment Analysis based on the phenomena of social influence and homophily. The detected communities are exploited in the generation of personalized interactive applications. This generation is based on an approach of type MDA, independent of the application domain. In addition, this manuscript reports an evaluation of our proposals on data from Real Social Networks.
33

Roaming User Profiles : En undersökning av olika versioner och dess kompatibilitet

Carlsson, Anders, Johansson, Simon, Svedlund, Jacob January 2010 (has links)
<p>När Windows Vista introducerades förändrades mappstrukturen för hur användarprofilen sparas jämfört med tidigare Windowsversioner såsom Windows XP. Denna rapport undersöker kompatibilitetsproblem med Roaming User Profiles mellan äldre och nyare versioner av operativsystemet. Syftet med rapporten var att utreda vilka problem som kan uppstå, vad det gäller Roaming User Profiles, vid en övergång från Windows XP till Windows Vista eller 7. Undersökningen genomfördes med hjälp av laborationer, litteratur och tester för att hitta problemen såväl som lösningar till dem. Resultatet visar att profiler skapade med Windows XP inte följer med till Windows Vista eller 7 utan det skapas sammanlagt två olika profiler, en för det äldre och en för det nyare operativsystemet. Ett skript som kopierar en användares filer från Windows XP till Vista/7 utformades därför. Slutligen presenterades en handlingsplan med olika alternativ vid en övergång från Windows XP till den nyare generationen av operativsystemen i Windowsfamiljen. Folder Redirection är en väl fungerande lösning dock går funktionaliteten som Roaming User Profiles erbjuder förlorad eftersom man endast får en uppmappning av bl.a. ”Mina Dokument” och ”Start Menu”.</p>
34

Exploitation d'un entrepôt de données guidée par des ontologies : application au management hospitalier / An ontology-driven approach for a personalized data warehouse exploitation : case study, healthcare management.

El Sarraj, Lama 10 July 2014 (has links)
Cette recherche s'inscrit dans le domaine de la personnalisation d'Entrepôt de Données (ED) et concerne l'aide à l'exploitation d'un ED. Nous intéressons à l'assistance à apporter à un utilisateur lors d'une analyse en ligne, dans son utilisation de ressources d'exploitation existantes. Le domaine d'application concerné est la gestion hospitalière, dans le cadre de la nouvelle gouvernance, et en se limitant au périmètre du Programme de Médicalisation des Systèmes d'Information (PMSI). Cette recherche a été supportée par l'Assistance Publique des Hôpitaux de Marseille (APHM). L'approche retenue pour développer une telle assistance à l'utilisateur d'ED est sémantique et guidée par l'usage d'ontologies. Le système d'assistance mettant en oeuvre cette approche, nommé Ontologies-based Personalization System (OPS), s'appuie sur une Base de Connaissances (BC) exploitée par un moteur de personnalisation. La BC est composée des trois ontologies : de domaine, de l'ED et des ressources. Le moteur de personnalisation permet d'une part une recherche personnalisée de ressources d'exploitation de l'ED en s'appuyant sur le profil de l'utilisateur, et d'autre part pour une ressource particulière, une recommandation de ressources complémentaires selon trois stratégies possibles. Afin de valider nos propositions, un prototype du système OPS a été développé avec un moteur de personnalisation a été implémenté en Java et exploitant une base de connaissance constituée des trois ontologies en OWL interconnectées. Nous illustrons le fonctionnement de notre système sur trois scenarii d'expérimentation liés au PMSI et définis avec des experts métiers de l'APHM. / This research is situated in the domain of Data Warehouses (DW) personalization and concerns DW assistance. Specifically, we are interested in assisting a user during an online analysis processes to use existing operational resources. The application of this research concerns hospital management, for hospitals governance, and is limited to the scope of the Program of Medicalization of Information Systems (PMSI). This research was supported by the Public Hospitals of Marseille (APHM). Our proposal is a semantic approach based on ontologies. The support system implementing this approach, called Ontology-based Personalization System (OPS), is based on a knowledge base operated by a personalization engine. The knowledge base is composed of three ontologies: a domain ontology, an ontology of the DW structure, and an ontology of resources. The personalization engine allows firstly, a personalized search of resources of the DW based on users profile, and secondly for a particular resource, an expansion of the research by recommending new resources based on the context of the resource. To recommend new resources, we have proposed three possible strategies. To validate our proposal, a prototype of the OPS system was developed, a personalization engine has been implemented in Java. This engine exploit an OWL knowledge composed of three interconnected OWL ontologies. We illustrate three experimental scenarios related to PMSI and defined with APHM domain experts.
35

Usage-driven unified model for user profile and data source profile extraction / Model unifié dérigé par l'usage pour l'extraction du profile de l'utilisateur et de la source de donnée

Limam, Lyes 24 June 2014 (has links)
La problématique traitée dans la thèse s’inscrit dans le cadre de l’analyse d’usage dans les systèmes de recherche d’information. En effet, nous nous intéressons à l’utilisateur à travers l’historique de ses requêtes, utilisées comme support d’analyse pour l’extraction d'un profil d’usage. L’objectif est de caractériser l’utilisateur et les sources de données qui interagissent dans un réseau afin de permettre des comparaisons utilisateur-utilisateur, source-source et source-utilisateur. Selon une étude que nous avons menée sur les travaux existants sur les modèles de profilage, nous avons conclu que la grande majorité des contributions sont fortement liés aux applications dans lesquelles ils étaient proposés. En conséquence, les modèles de profils proposés ne sont pas réutilisables et présentent plusieurs faiblesses. Par exemple, ces modèles ne tiennent pas compte de la source de données, ils ne sont pas dotés de mécanismes de traitement sémantique et ils ne tiennent pas compte du passage à l’échelle (en termes de complexité). C'est pourquoi, nous proposons dans cette thèse un modèle d’utilisateur et de source de données basé sur l’analyse d’usage. Les caractéristiques de ce modèle sont les suivantes. Premièrement, il est générique, permettant de représenter à la fois un utilisateur et une source de données. Deuxièmement, il permet de construire le profil de manière implicite à partir de l’historique de requêtes de recherche. Troisièmement, il définit le profil comme un ensemble de centres d’intérêts, chaque intérêt correspondant à un cluster sémantique de mots-clés déterminé par un algorithme de clustering spécifique. Et enfin, dans ce modèle le profil est représenté dans un espace vectoriel. Les différents composants du modèle sont organisés sous la forme d’un Framework, la complexité de chaque composant y est évaluée. Le Framework propose : - une méthode pour la désambigüisation de requêtes; - une méthode pour la représentation sémantique des logs sous la forme d’une taxonomie ; - un algorithme de clustering qui permet l’identification rapide et efficace des centres d’intérêt représentés par des clusters sémantiques de mots clés ; - une méthode pour le calcul du profil de l’utilisateur et du profil de la source de données à partir du modèle générique. Le Framework proposé permet d'effectuer différentes tâches liées à la structuration d’un environnement distribué d’un point de vue usage. Comme exemples d’application, le Framework est utilisé pour la découverte de communautés d’utilisateurs et la catégorisation de sources de données. Pour la validation du Framework, une série d’expérimentations est menée en utilisant des logs du moteur de recherche AOL-search, qui ont démontrées l’efficacité de la désambigüisation sur des requêtes courtes, et qui ont permis d’identification de la relation entre le clustering basé sur une fonction de qualité et le clustering basé sur la structure. / This thesis addresses a problem related to usage analysis in information retrieval systems. Indeed, we exploit the history of search queries as support of analysis to extract a profile model. The objective is to characterize the user and the data source that interact in a system to allow different types of comparison (user-to-user, source-to-source, user-to-source). According to the study we conducted on the work done on profile model, we concluded that the large majority of the contributions are strongly related to the applications within they are proposed. As a result, the proposed profile models are not reusable and suffer from several weaknesses. For instance, these models do not consider the data source, they lack of semantic mechanisms and they do not deal with scalability (in terms of complexity). Therefore, we propose a generic model of user and data source profiles. The characteristics of this model are the following. First, it is generic, being able to represent both the user and the data source. Second, it enables to construct the profiles in an implicit way based on histories of search queries. Third, it defines the profile as a set of topics of interest, each topic corresponding to a semantic cluster of keywords extracted by a specific clustering algorithm. Finally, the profile is represented according to the vector space model. The model is composed of several components organized in the form of a framework, in which we assessed the complexity of each component. The main components of the framework are: - a method for keyword queries disambiguation; - a method for semantically representing search query logs in the form of a taxonomy; - a clustering algorithm that allows fast and efficient identification of topics of interest as semantic clusters of keywords; - a method to identify user and data source profiles according to the generic model. This framework enables in particular to perform various tasks related to usage-based structuration of a distributed environment. As an example of application, the framework is used to the discovery of user communities, and the categorization of data sources. To validate the proposed framework, we conduct a series of experiments on real logs from the search engine AOL search, which demonstrate the efficiency of the disambiguation method in short queries, and show the relation between the quality based clustering and the structure based clustering.
36

Hefestos: um modelo para suporte à acessibilidade ubíqua

Tavares, João Elison da Rosa 19 December 2011 (has links)
Submitted by Mariana Dornelles Vargas (marianadv) on 2015-05-13T18:00:17Z No. of bitstreams: 1 hefestos.pdf: 4234333 bytes, checksum: ee8934fcf3cb7b70d89bfda934f923d0 (MD5) / Made available in DSpace on 2015-05-13T18:00:17Z (GMT). No. of bitstreams: 1 hefestos.pdf: 4234333 bytes, checksum: ee8934fcf3cb7b70d89bfda934f923d0 (MD5) Previous issue date: 2011-12-19 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / FAPERGS - Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul / Atualmente, com a ampla diversidade de dispositivos móveis disponíveis, de diversos tipos, capacidades e tecnologias, associando-se à profusão das redes de comunicação sem fio, possibilita-se a oferta de serviços em qualquer lugar e a qualquer momento. Embora, algumas áreas de pesquisa como as de educação, comércio, medicina, jogos e entretenimento tenham se desenvolvido com a adoção dessas tecnologias, a da acessibilidade ainda carece de estudos semelhantes. Por isso, esta dissertação propõe um modelo para suporte à acessibilidade chamado Hefestos que utiliza computação ubíqua para o gerenciamento de recursos para acessibilidade de Pessoas com Deficiência (PCDs) e idosos. Também são descritos nesta dissertação diversos cenários do cotidiano, onde o modelo Hefestos pode ser aplicado, e o protótipo de cadeira de rodas inteligente, chamado Hefestos Wheelchair, que foi implementado para avaliar um cenário voltado para PCDs cadeirantes. Por fim, são apresentados os resultados obtidos em experimentos práticos, com a participação de cadeirantes com diversos graus de deficiência, cujos principais objetivos foram o de avaliar a usabilidade e funcionalidade do protótipo e aceitação do modelo proposto. / Nowadays, the wide range of available mobile devices, from various types, capabilities and technologies, associated with the profusion of wireless communication networks, allows the services offer anywhere and anytime. Although some research areas such as education, business, medicine, games and entertainment have been developed with the adoption of these technologies, the accessibility area still lacks of similar studies. Therefore, this dissertation proposes a model for accessibility support called Hefestos which uses ubiquitous computing to manage resources for elderly and People with Disabilities? (PWDs) accessibility. Various scenarios of everyday life are also described in this dissertation, where the Hefestos model can be applied, and the prototype of the smart wheelchair, called Hefestos Wheelchair, which was implemented to evaluate a scenario related to wheelchair users. Ultimately, the results obtained in the practical experiment are presented, with the participation of wheelchair users with a range of disability degrees, whose main goals were to evaluate the usability and functionality of the prototype and the acceptance to the proposed model.
37

Diagnostic des déficits et des besoins liés au vieillissement : apports pour la conception de gérontotechnologies / Diagnosis of deficits and needs related to ageing : contributions for the design of gerontotechnologies

Aissaoui, Djamel 30 October 2018 (has links)
Le vieillissement observé dans la population est souvent responsable de déficits amenant une perte d’autonomie, et une situation de handicap plus ou moins importante. Ces difficultés n’ont pas toujours de possibilités thérapeutiques (i.e. médicamenteuses ou chirurgicales). En revanche, il faut pouvoir soigner, diminuer ou neutraliser ces symptômes. Les technologies numériques semblent pouvoir jouer un rôle sur certaines manifestations du vieillissement en aidant, en assistant, en stimulant, en rééduquant, et, in fine, fournir davantage de qualité de vie et d’autonomie.Cependant, cette nouvelle opportunité a du mal à trouver sa place auprès des seniors, pour des raisons aussi diverses que complexes. En effet, la mise en place, l’organisation, l’évaluation, l’acceptation, le diagnostic, etc. sont autant d’obstacles à l’intégration des technologies. Toutefois, on remarque que le frein le plus important semble être la conception de ces technologies elles-mêmes. Effectivement, pour concevoir, les professionnels doivent avoir de multiples compétences et savoir analyser les besoins, poser des diagnostics compliqués avec des tableaux cliniques et environnementaux multiples (i.e. polypathologie, polyhandicap, évaluation de l’environnement, etc.), pour fournir l’ensemble des solutions ergonomiques, techniques et technologiques possibles. Pour autant, les profils orientés conception (i.e. informaticiens, ingénieurs, architectes, etc.) auxquels appartiennent, au final, la conception et la fabrication des technologies, ont peu de compétences d’évaluation globale et multidimensionnelle d’un sujet en perte d’autonomie et de son environnement.Cette thèse a pour objectif d’apporter un outil informatique capable d’être une aide concrète pour les professionnels de la santé, de la réinsertion et de la conception, en leur proposant une méthodologie d’analyse des déficits sous forme d’un profil précis des potentiels, des freins, et de l’environnement. Pour cela, notre travail tient compte de la pluridisciplinarité des professionnels, et de la complexité de l’évaluation gériatrique.Notre démarche est basée sur un outil informatique ayant plusieurs avantages : d’une part, donner une check-list afin d’être au maximum exhaustif dans l’évaluation des déficits liés à l’âge et ainsi éviter les erreurs ou les oublis lors de l’évaluation. D’autre part, permettre une standardisation par l’administration de tests précis, et ainsi donner un profil à la fois quantitatif et qualitatif de la personne et de son environnement. Enfin, notre méthodologie fournit également une évaluation des systèmes technologiques destinés aux seniors. Notre système, baptisé DAD « Design for Adapted Device » est conçu selon un modèle de conception centré utilisateurs. Nous avons consulté en préconception nos utilisateurs primaires (i.e. sujets âgés), et nous avons relevé dans notre état de l’art les tests d’évaluation de références. Ensuite, nous avons mis au point plusieurs prototypes que nous avons testés auprès de nos utilisateurs secondaires (i.e. professionnels du diagnostic). Enfin, nous avons conçu notre logiciel dans sa version finale, et nous avons soumis des professionnels de la gérontologie (i.e. des professionnels médico-sociaux et des profils orienté conception) à des tests face à des patients. Les résultats issus de nos tests sont très encourageants et suggèrent que notre outil est fidèle et valide.L’outil devrait sensibiliser, inciter et guider les différents producteurs de technologies (i.e. industriel, designer, informaticien ingénieur, etc.), ainsi que les acteurs de santé (i.e. médecin, infirmier, kinésithérapeute, ergothérapeute, psychologue, etc.) à intégrer les personnes âgées dans leur prise en charge, dans leurs décisions, ou dans les différents projets qu’ils envisagent de mettre en place (e.g. conception, prescription, suivi, etc.). / The observed aging of the population is often responsible of deficits causing a loss of autonomy & handicap situation which turns to be more and more important. The encountered difficulties do not always have therapeutic alternatives (i.e. neither through drugs nor surgery). However, having the symptoms treated, reduced or neutralized is a must. The digital technologies seem capable to play a role on aging consequences, on quality of life & autonomy helping, assisting, stimulating, reeducating elderly population.Nevertheless, the digital opportunity does not seem to have success among elderly people for many different & complex reasons. Fair to underline that challenges are faced while trying to integrate these technologies : set up, organization, assessment, acceptance, diagnosis etc. The biggest challenge though remains the design of the technology itself. In fact, professionals need to have multiple competences and know how to analyze requirements, diagnose through multiple clinical & environment situations (multiple pathologies, multiple disabilities, environment assessment, etc.) in order to propose exhaustive ergonomic, technical & technological solutions. Having this said, the profiles who are design oriented (e.g. IT, engineers, architects, etc.) and who own the design & build of the technologies have limited capacities in global, multidimensional assessment on autonomy loss & its environment.Our thesis aims at proposing a digital device able to help concretely professionals specialized in healthcare, reintegration, and design while providing a methodology to analyze deficits through precise profiling of environment, potentials and constraints. That is the reason why, our work considers professionals’ multidisciplinary, geriatrics complex assessment.Our approach consists on an IT device with has multiple advantages: a check list in order to evaluate deficiencies linked to aging and prevent mistakes or omissions during the assessment ;a standardization through precise testing ;a definition of a qualitative & quantitative profile of the person and the environment ;a strong assessment of the digital technologies focusing on elderly population.Our tool, named DAD « Design for Adapted Device » was designed according to a model focusing on users. At the very first step of the design, primary users (i.e. elderly patients) were consulted and in the conceptual framework, we picked the gold standards. Then, we launched several prototypes which were subjects to testing by our secondary users (i.e. diagnosis professionals). Last but not least, we designed the final version of our tool and we had gerontology professionals (medico-social professionals & design oriented profiles) going through tests in front of patients. Our testing results looked encouraging and suggest that our tool is reliable and valid.The tool should sensitive, encourage and guide the digital actors (such as industrials, designers, IT engineers, etc.) as well as health professionals (such as doctors, nurses, physiotherapists, ergotherapists, psychologists, etc.) to strongly consider elderly patients in their therapeutic approaches, in their decision making or in their different to-be projects (e.g. design, prescription and follow up, etc.).
38

Openmore: A Content-based Movie Recommendation System

Kirmemis, Oznur 01 May 2008 (has links) (PDF)
The tremendous growth of Web has made information overload problem increasingly serious. Users are often confused by huge amount of information available on the internet and they are faced with the problem of finding the most relevant information that meets their needs. Recommender systems have proven to be an important solution approach to this problem. This thesis will present OPENMORE, a movie recommendation system, which is primarily based on content-based filtering technique. The distinctive point of this study lies in the methodology used to construct and update user and item profiles and the optimizations used to fine-tune the constructed user models. The proposed system arranges movie content data as features of a set of dimension slots, where each feature is assigned a stable feature weight regardless of individual movies. These feature weights and the explicit feedbacks provided by the user are then used to construct the user profile, which is fine-tuned through a set of optimization mechanisms. Users are enabled to view their profile, update them and create multiple contexts where they can provide negative and positive feedback for the movies on the feature level.
39

Προσωποποιημένη προβολή περιεχομένου του Διαδικτύου με τεχνικές προ-επεξεργασίας, αυτόματης κατηγοριοποίησης και αυτόματης εξαγωγής περίληψης

Πουλόπουλος, Βασίλειος 22 November 2007 (has links)
Σκοπός της Μεταπτυχιακής Εργασίας είναι η επέκταση και αναβάθμιση του μηχανισμού που είχε δημιουργηθεί στα πλαίσια της Διπλωματικής Εργασίας που εκπόνησα με τίτλο «Δημιουργία Πύλης Προσωποποιημένης Πρόσβασης σε Περιεχόμενο του WWW». Η παραπάνω Διπλωματική εργασία περιλάμβανε τη δημιουργία ενός μηχανισμού που ξεκινούσε με ανάκτηση πληροφορίας από το Διαδίκτυο (HTML σελίδες από news portals), εξαγωγή χρήσιμου κειμένου και προεπεξεργασία της πληροφορίας, αυτόματη κατηγοριοποίηση της πληροφορίας και τέλος παρουσίαση στον τελικό χρήστη με προσωποποίηση με στοιχεία που εντοπίζονταν στις επιλογές του χρήστη. Στην παραπάνω εργασία εξετάστηκαν διεξοδικά θέματα που είχαν να κάνουν με τον τρόπο προεπεξεργασίας της πληροφορίας καθώς και με τον τρόπο αυτόματης κατηγοριοποίησης ενώ υλοποιήθηκαν αλγόριθμοι προεπεξεργασίας πληροφορίας τεσσάρων σταδίων και αλγόριθμος αυτόματης κατηγοριοποίησης βασισμένος σε πρότυπες κατηγορίες. Τέλος υλοποιήθηκε portal το οποίο εκμεταλλευόμενο την επεξεργασία που έχει πραγματοποιηθεί στην πληροφορία παρουσιάζει το περιεχόμενο στους χρήστες προσωποποιημένο βάσει των επιλογών που αυτοί πραγματοποιούν. Σκοπός της μεταπτυχιακής εργασίας είναι η εξέταση περισσοτέρων αλγορίθμων για την πραγματοποίηση της παραπάνω διαδικασίας αλλά και η υλοποίησή τους προκειμένου να γίνει σύγκριση αλγορίθμων και παραγωγή ποιοτικότερου αποτελέσματος. Πιο συγκεκριμένα αναβαθμίζονται όλα τα στάδια λειτουργίας του μηχανισμού. Έτσι, το στάδιο λήψης πληροφορίας βασίζεται σε έναν απλό crawler λήψης HTML σελίδων από αγγλόφωνα news portals. Η διαδικασία βασίζεται στο γεγονός πως για κάθε σελίδα υπάρχουν RSS feeds. Διαβάζοντας τα τελευταία νέα που προκύπτουν από τις εγγραφές στα RSS feeds μπορούμε να εντοπίσουμε όλα τα URL που περιέχουν HTML σελίδες με τα άρθρα. Οι HTML σελίδες φιλτράρονται προκειμένου από αυτές να γίνει εξαγωγή μόνο του κειμένου και πιο αναλυτικά του χρήσιμου κειμένου ούτως ώστε το κείμενο που εξάγεται να αφορά αποκλειστικά άρθρα. Η τεχνική εξαγωγής χρήσιμου κειμένου βασίζεται στην τεχνική web clipping. Ένας parser, ελέγχει την HTML δομή προκειμένου να εντοπίσει τους κόμβους που περιέχουν μεγάλη ποσότητα κειμένου και βρίσκονται κοντά σε άλλους κόμβους που επίσης περιέχουν μεγάλες ποσότητες κειμένου. Στα εξαγόμενα άρθρα πραγματοποιείται προεπεξεργασία πέντε σταδίων με σκοπό να προκύψουν οι λέξεις κλειδιά που είναι αντιπροσωπευτικές του άρθρου. Πιο αναλυτικά, αφαιρούνται όλα τα σημεία στίξης, όλοι οι αριθμοί, μετατρέπονται όλα τα γράμματα σε πεζά, αφαιρούνται όλες οι λέξεις που έχουν λιγότερους από 4 χαρακτήρες, αφαιρούνται όλες οι κοινότυπες λέξεις και τέλος εφαρμόζονται αλγόριθμοι εύρεσης της ρίζας μίας λέξεις. Οι λέξεις κλειδιά που απομένουν είναι stemmed το οποίο σημαίνει πως από τις λέξεις διατηρείται μόνο η ρίζα. Από τις λέξεις κλειδιά ο μηχανισμός οδηγείται σε δύο διαφορετικά στάδια ανάλυσης. Στο πρώτο στάδιο υπάρχει μηχανισμός ο οποίος αναλαμβάνει να δημιουργήσει μία αντιπροσωπευτική περίληψη του κειμένου ενώ στο δεύτερο στάδιο πραγματοποιείται αυτόματη κατηγοριοποίηση του κειμένου βασισμένη σε πρότυπες κατηγορίες που έχουν δημιουργηθεί από επιλεγμένα άρθρα που συλλέγονται καθ’ όλη τη διάρκεια υλοποίησης του μηχανισμού. Η εξαγωγή περίληψης βασίζεται σε ευρεστικούς αλγορίθμους. Πιο συγκεκριμένα προσπαθούμε χρησιμοποιώντας λεξικολογική ανάλυση του κειμένου αλλά και γεγονότα για τις λέξεις του κειμένου αν δημιουργήσουμε βάρη για τις προτάσεις του κειμένου. Οι προτάσεις με τα μεγαλύτερη βάρη μετά το πέρας της διαδικασίας είναι αυτές που επιλέγονται για να διαμορφώσουν την περίληψη. Όπως θα δούμε και στη συνέχεια για κάθε άρθρο υπάρχει μία γενική περίληψη αλλά το σύστημα είναι σε θέση να δημιουργήσει προσωποποιημένες περιλήψεις για κάθε χρήστη. Η διαδικασία κατηγοριοποίησης βασίζεται στη συσχέτιση συνημίτονου συγκριτικά με τις πρότυπες κατηγορίες. Η κατηγοριοποίηση δεν τοποθετεί μία ταμπέλα σε κάθε άρθρο αλλά μας δίνει τα αποτελέσματα συσχέτισης του άρθρου με κάθε κατηγορία. Ο συνδυασμός των δύο παραπάνω σταδίων δίνει την πληροφορία που εμφανίζεται σε πρώτη φάση στο χρήστη που επισκέπτεται το προσωποποιημένο portal. Η προσωποποίηση στο portal βασίζεται στις επιλογές που κάνουν οι χρήστες, στο χρόνο που παραμένουν σε μία σελίδα αλλά και στις επιλογές που δεν πραγματοποιούν προκειμένου να δημιουργηθεί προφίλ χρήστη και να είναι εφικτό με την πάροδο του χρόνου να παρουσιάζεται στους χρήστες μόνο πληροφορία που μπορεί να τους ενδιαφέρει. / The scope of this MsC thesis is the extension and upgrade of the mechanism that was constructed during my undergraduate studies under my undergraduate thesis entitled “Construction of a Web Portal with Personalized Access to WWW content”. The aforementioned thesis included the construction of a mechanism that would begin with information retrieval from the WWW and would conclude to representation of information through a portal after applying useful text extraction, text pre-processing and text categorization techniques. The scope of the MsC thesis is to locate the problematic parts of the system and correct them with better algorithms and also include more modules on the complete mechanism. More precisely, all the modules are upgraded while more of them are constructed in every aspect of the mechanism. The information retrieval module is based on a simple crawler. The procedure is based on the fact that all the major news portals include RSS feeds. By locating the latest articles that are added to the RSS feeds we are able to locate all the URLs of the HTML pages that include articles. The crawler then visits every simple URL and downloads the HTML page. These pages are filtered by the useful text extraction mechanism in order to extract only the body of the article from the HTML page. This procedure is based on the web-clipping technique. An HTML parser analyzes the DOM model of HTML and locates the nodes (leafs) that include large amounts of text and are close to nodes with large amounts of text. These nodes are considered to include the useful text. In the extracted useful text we apply a 5 level preprocessing technique in order to extract the keywords of the article. More analytically, we remove the punctuation, the numbers, the words that are smaller than 4 letters, the stopwords and finally we apply a stemming algorithm in order to produce the root of the word. The keywords are utilized into two different interconnected levels. The first is the categorization subsystem and the second is the summarization subsystem. During the summarization stage the system constructs a summary of the article while the second stage tries to label the article. The labeling is not unique but the categorization applies multi-labeling techniques in order to detect the relation with each of the standard categories of the system. The summarization technique is based on heuristics. More specifically, we try, by utilizing language processing and facts that concern the keywords, to create a score for each of the sentences of the article. The more the score of a sentence, the more the probability of it to be included to the summary which consists of sentences of the text. The combination of the categorization and summarization provides the information that is shown to our web portal called perssonal. The personalization issue of the portal is based on the selections of the user, on the non-selections of the user, on the time that the user remains on an article, on the time that spends reading similar or identical articles. After a short period of time, the system is able to adopt on the user’s needs and is able to present articles that match the preferences of the user only.
40

Information sources selection methodology for recommender systems based on intrinsic characteristics and trust measure

Aciar, Silvana Vanesa 18 June 2007 (has links)
El treball desenvolupat en aquesta tesi presenta un profund estudi i proveïx solucions innovadores en el camp dels sistemes recomanadors. Els mètodes que usen aquests sistemes per a realitzar les recomanacions, mètodes com el Filtrat Basat en Continguts (FBC), el Filtrat Col·laboratiu (FC) i el Filtrat Basat en Coneixement (FBC), requereixen informació dels usuaris per a predir les preferències per certs productes. Aquesta informació pot ser demogràfica (Gènere, edat, adreça, etc), o avaluacions donades sobre algun producte que van comprar en el passat o informació sobre els seus interessos. Existeixen dues formes d'obtenir aquesta informació: els usuaris ofereixen explícitament aquesta informació o el sistema pot adquirir la informació implícita disponible en les transaccions o historial de recerca dels usuaris. Per exemple, el sistema recomanador de pel·lícules MovieLens (http://movielens.umn.edu/login) demana als usuaris que avaluïn almenys 15 pel·lícules dintre d'una escala de * a * * * * * (horrible, ...., ha de ser vista). El sistema genera recomanacions sobre la base d'aquestes avaluacions. Quan els usuaris no estan registrat en el sistema i aquest no té informació d'ells, alguns sistemes realitzen les recomanacions tenint en compte l'historial de navegació. Amazon.com (http://www.amazon.com) realitza les recomanacions tenint en compte les recerques que un usuari a fet o recomana el producte més venut. No obstant això, aquests sistemes pateixen de certa falta d'informació. Aquest problema és generalment resolt amb l'adquisició d'informació addicional, se li pregunta als usuaris sobre els seus interessos o es cerca aquesta informació en fonts addicionals. La solució proposada en aquesta tesi és buscar aquesta informació en diverses fonts, específicament aquelles que contenen informació implícita sobre les preferències dels usuaris. Aquestes fonts poden ser estructurades com les bases de dades amb informació de compres o poden ser no estructurades com les pàgines web on els usuaris deixen la seva opinió sobre algun producte que van comprar o posseïxen.Nosaltres trobem tres problemes fonamentals per a aconseguir aquest objectiu: 1 . La identificació de fonts amb informació idònia per als sistemes recomanadors.2 . La definició de criteris que permetin la comparança i selecció de les fonts més idònies. 3 . La recuperació d'informació de fonts no estructurades. En aquest sentit, en la tesi proposada s'ha desenvolupat: 1 . Una metodologia que permet la identificació i selecció de les fonts més idònies. Criteris basats en les característiques de les fonts i una mesura de confiança han estat utilitzats per a resoldre el problema de la identificació i selecció de les fonts. 2 . Un mecanisme per a recuperar la informació no estructurada dels usuaris disponible en la web. Tècniques de Text Mining i ontologies s'han utilitzat per a extreure informació i estructurar-la apropiadament perquè la utilitzin els recomanadors. Les contribucions del treball desenvolupat en aquesta tesi doctoral són: 1. Definició d'un conjunt de característiques per a classificar fonts rellevants per als sistemes recomanadors2. Desenvolupament d'una mesura de rellevància de les fonts calculada sobre la base de les característiques definides3. Aplicació d'una mesura de confiança per a obtenir les fonts més fiables. La confiança es definida des de la perspectiva de millora de la recomanació, una font fiable és aquella que permet millorar les recomanacions. 4. Desenvolupament d'un algorisme per a seleccionar, des d'un conjunt de fonts possibles, les més rellevants i fiable utilitzant les mitjanes esmentades en els punts previs. 5. Definició d'una ontologia per a estructurar la informació sobre les preferències dels usuaris que estan disponibles en Internet. 6. Creació d'un procés de mapatge que extreu automàticament informació de les preferències dels usuaris disponibles en la web i posa aquesta informació dintre de l'ontologia. Aquestes contribucions permeten aconseguir dos objectius importants: 1 . Millorament de les recomanacions usant fonts d'informació alternatives que sigui rellevants i fiables.2 . Obtenir informació implícita dels usuaris disponible en Internet. / The work developed in this thesis presents an in-depth study and provides innovative solutions in the field of recommender systems. The methods used by these systems to carry out recommendations, such as Content-Based Filtering (CBF), Collaborative Filtering (CF) and Knowledge-Based Filtering (KBF), require information from users to predict preferences for certain products. This may be demographic information (genre, age and address), evaluations given to certain products in the past or information about their interests. There are two ways of obtaining this information: users offer it explicitly or the system can retrieve the implicit information available in the purchase and search history. For example, the movie recommender system MovieLens (http://movielens.umn.edu/login) asks users to rate at least 15 movies on a scale of * to * * * * * (awful, ... , must be seen). The system generates recommendations based on these evaluations. When users are not registered into the site and it has no information about them, recommender systems make recommendations according to the site search history. Amazon.com (http://www.amazon.com) make recommendations according to the site search history or recommend the best selling products. Nevertheless, these systems suffer from a certain lack of information. This problem is generally solved with the acquisition of additional information; users are asked about their interests or that information is searched for in additional available sources. The solution proposed in this thesis is to look for that information in various sources, specifically those that contain implicit information about user preferences. These sources can be structured like databases with purchasing information or they can be unstructured sources like review pages where users write their experiences and opinions about a product they buy or possess.We have found three fundamental problems to achieve this objective: 1. The identification of sources with suitable information for recommender systems.2. The definition of criteria that allows the comparison and selection of the most suitable sources.3. Retrieving the information from unstructured sources.In this sense, the proposed thesis has developed:1. A methodology that allows the identification and selection of the most suitable sources. Criteria based on the characteristics of sources and a trust measure have been used to solve the problem of identifying and selecting sources.2. A mechanism to retrieve unstructured information from users available on the Web. Text mining techniques and ontologies have been used to extract information and structure it appropriately for use by the recommenders.The contributions of the work developed in this doctoral thesis are:1. Definition of a set of characteristics to classify relevant sources of information for recommender systems.2. Development of a measure of relevance of sources according to characteristics defined in previous point.3. Application of a trust measure to obtain the most reliable sources. Confidence is measured from the perspective of improving the recommendation; a reliable source is one that leads to improved recommendations.4. Development of an algorithm to select, from a set of possible sources, the most relevant and reliable ones according to measures defined in previous points.5. Definition of an ontology to structure information about user preferences that are available on the Internet.6. The creation of a mapping process that automatically extracts information about user preferences available on the web and put in the ontology.These contributions allow us the achievement of two important objectives:1. Improving recommendations using alternative sources of information that are relevant and trustworthy.2. Obtaining implicit information about user available on the Internet.

Page generated in 0.2283 seconds