Global ETD Search

51	Identification du profil des utilisateurs d’un hypermédia encyclopédique à l’aide de classifieurs basés sur des dissimilarités : création d’un composant d’un système expert pour Hypergéo / Identification of hypermedia encyclopedic user's profile using classifiers based on dissimilarities : creating a component of an expert system for Hypergeo Abou Latif, Firas 08 July 2011 (has links) L’objectif de cette thèse est d’identifier le profil d’utilisateur d’un hypermédia afin de l’adapter. Ceprofil est déterminé en utilisant des algorithmes d’apprentissage supervisé comme le SVM.Le modèle d’utilisateur est l’un des composants essentiels des hypermédias adaptatifs. Une des façons de caractériser ce modèle est d’associer l’utilisateur à un profil. Le Web Usage Mining (WUM)identifie ce profil à l’aide des traces de navigation. Toutefois, ces techniques ne fonctionnent généralement que sur de gros volumes de données. Dans le cadre de volumes de données réduits, nous proposons d’utiliser la structure et le contenu de l’hypermédia. Pour cela, nous avons utilisé des algorithmes d’apprentissage à noyau pour lesquels nous avons défini l’élément clé qu’est la mesure de similarité entre traces basée sur une « distance » entre documents du site. Notre approche a été validée à l’aide de données synthétiques puis à l’aide de données issues des traces des utilisateurs du site Hypergéo (site webencyclopédique spécialisé dans la géographie). Nos résultats ont été comparés à ceux obtenus à l’aide d’une des techniques du WUM (l’algorithme des motifs caractéristiques). Finalement, nos propositions pour identifier les profils a posteriori ont permis de mettre en évidence cinq profils. En appliquant une« distance sémantique » entre documents, les utilisateurs d’Hypergéo ont été classés correctement selon leurs centres d’intérêt. / This thesis is devoted to identify the profile of hypermedia user, then to adapt it according to user’s profile. This profile is found by using supervised learning algorithm like SVM. The user model is one of the essential components of adaptive hypermedia. One way to characterize this model is to associate a user to a profile. Web Usage Mining (WUM) identifies this profile from traces. However, these techniques usually operate on large mass of data. In the case when not enough data are available, we propose to use the structure and the content of the hypermedia. Hence, we used supervised kernel learning algorithms for which we have defined the measure of similarity between traces based on a “distance” between documents of the site. Our approach was validated using synthetic data and then using real data from the traces of Hypergéo users, Hypergéo is an encyclopedic website specialized in geography. Our results were compared with those obtained using a techniques of WUM(the algorithm of characteristic patterns). Finally, our proposals to identify the profiles a posteriori led usto highlight five profiles. Hypergéo users are classified according to their interests when the “semantic distance” between documents is applied. Fouille de données d’usage du Web Algorithmes de projection Distance et dissimilarité Hypermédia adaptatif Web usage mining Supervised and unsupervised learning Visualization Dimensionality reduction Distance and dissimilarity Adaptive hypermedia.
52	Une approche générique pour l'analyse croisant contenu et usage des sites Web par des méthodes de bipartitionnement / A generic approach to combining web content and usage analysis using biclustering algorithms Charrad, Malika 22 March 2010 (has links) Dans cette thèse, nous proposons une nouvelle approche WCUM (Web Content and Usage Mining based approach) permettant de relier l'analyse du contenu à l'analyse de l'usage d'un site Web afin de mieux comprendre le comportement général des visiteurs du site. Ce travail repose sur l'utilisation de l'algorithme CROKI2 de classification croisée implémenté selon deux stratégies d'optimisation différentes que nous comparons à travers des expérimentations sur des données générées artificiellement. Afin de pallier le problème de détermination du nombre de classes sur les lignes et les colonnes, nous proposons de généraliser certains indices proposés initialement pour évaluer les partitions obtenues par des algorithmes de classification simple, aux algorithmes de classification simultanée. Pour évaluer la performance de ces indices nous proposons un algorithme de génération de biclasses artificielles pour effectuer des simulations et valider les résultats. Des expérimentations sur des données artificielles ainsi qu'une application sur des données réelles ont été réalisées pour évaluer l'efficacité de l'approche proposée. / In this thesis, we propose a new approach WCUM (Web Content and Usage Mining based approach) for linking content analysis to usage analysis of a website to better understand the general behavior of the web site visitors. This work is based on the use of the block clustering algorithm CROKI2 implemented by two different strategies of optimization that we compared through experiments on artificially generated data. To mitigate the problem of determination of the number of clusters on rows and columns, we suggest to generalize the use of some indices originally proposed to evaluate the partitions obtained by clustering algorithms to evaluate bipartitions obtained by simultaneous clustering algorithms. To evaluate the performance of these indices on data with biclusters structure, we proposed an algorithm for generating artificial data to perform simulations and validate the results. Experiments on artificial data as well as on real data were realized to estimate the efficiency of the proposed approach. Classification simultanée Algorithme Croki2 Biclustering Fouille du web Classification croisée Fouille de l'usage du web Block clustering Nombre de biclasses Fouille du contenu du web Web Usage Mining Web Content Mining Text mining
53	Text mining of online book reviews for non-trivial clustering of books and users Lin, Eric 14 August 2013 (has links) Indiana University-Purdue University Indianapolis (IUPUI) / The classification of consumable media by mining relevant text for their identifying features is a subjective process. Previous attempts to perform this type of feature mining have generally been limited in scope due having limited access to user data. Many of these studies used human domain knowledge to evaluate the accuracy of features extracted using these methods. In this thesis, we mine book review text to identify nontrivial features of a set of similar books. We make comparisons between books by looking for books that share characteristics, ultimately performing clustering on the books in our data set. We use the same mining process to identify a corresponding set of characteristics in users. Finally, we evaluate the quality of our methods by examining the correlation between our similarity metric, and user ratings. mining data analysis recommendation sentiment End-user computing Web usage mining Knowledge management Information behavior -- Research Cluster analysis -- Data processing System analysis -- Data processing Information retrieval -- Book reviews
54	考慮網站結構之使用者網站漫遊行為的研究 / Efficient Mining of Web Traversal Walks with Site Topology 李華富, Lee, Hua-Fu Unknown Date (has links) 隨著全球資訊網的發展，網站吸引了大量的使用者．分析網站中大部分使用者共同的網站瀏覽行為，不但有助於網站結構的設計與更新，也可以對具有相同瀏覽行為的使用者，做有效的個人化服務。目前有關使用者網站瀏覽行為的研究，所探勘出來的結果多為路徑瀏覽式樣或是網頁循序式樣。因此，我們提出一種新的網站瀏覽式樣：網站漫游，並且提出了兩個演算法AM與PM，來探勘出頻繁使用者網站漫遊行為式樣。演算法AM是針對要處理的資料量非常龐大，而無法將全部資料存放入主記憶體中的情形所設計的。AM是利用演算法Apriori的精神，來探勘出頻繁使用者網站漫游行為。而演算法PM是針對資料經過轉換後可存放入主記憶體的情形而設計的。PM主要是利用在主記憶體中建立一個樹狀結構，以進一步來壓縮原有資料庫內的大量資料，並利用這個樹狀資料結構來逐步探勘出所有的使用者頻繁網站漫游。在實驗的假設條件下，演算法AM與PM皆展現了線性的執行效率與延展性。 / With progressive expansion in the size and complexity of web site on the World Wide Web, much research has been done on the discovery of useful and interesting Web traversal patterns. 　Most existing approaches focus on mining of path traversal patterns or sequential patterns. In this paper, we present a new pattern, Web traversal walks, for mining of Web traversal pattern. A Web traversal walk is the complete trail of a user traversal behavior in a single Web site. Web traversal walk mining is more helpful to understand and predict the behavior of the Web site access patterns. Two efficient algorithms (i.e., AM and PM) are proposed to discover the Web traversal walks. The algorithm PM is used when the size of database is fit in main memory while AM is not. AM is developed based on the Apriori property to discover all the frequent Web traversal walks from Web logs. In the algorithm PM, a tree structure is constructed in memory from Web logs and the frequent Web traversal walks are generated from the tree structure. Experimental results show that the proposed methods perform well in efficiency and scalability. 網際探勘使用者網站瀏覽行為探勘網站漫遊行為 Web Mining Web Usage Mining Web Traversal Walk
55	UM FRAMEWORK MULTIAGENTE PARA A PERSONALIZAÇÃO DA WEB BASEADO NA MODELAGEM DE USUÁRIOS E NA MINERAÇÃO DE USO / AN MULTIAGENT FRAMEWORK FOR PERSONALIZATION OF THE WEB BASED ON MODELING OF USERS AND IN THE MINING OF USE Marinho, Leandro Balby 11 March 2005 (has links) Made available in DSpace on 2016-08-17T14:52:57Z (GMT). No. of bitstreams: 1 Leandro Balby Marinho.pdf: 1280354 bytes, checksum: 9dd7494777864e76ff13f7880d7faa7b (MD5) Previous issue date: 2005-03-11 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / With the continuous migration of a great diversity of services to the Web, the need for characterizing the users in this environment increases. For that, components that can continually perceive their environment and rapidly adapt to its changes are required, thus reflecting the changes in the user behaviors. Among the existent approaches for modeling Web users, Web usage mining appears as one of the most interesting. Through Web usage mining a user can be implicitly and automatically modeled through his/her usage data, generated from his/her interaction with the Web. This work proposes ONTOWUM, a user modeling and usage mining-based multi-agent framework for Web personalization. The framework comprises two layers, where four agents are distributed according to their responsibilities: Interface agent, responsible for both capturing the user browsing information and performing the adaptation effects; User Modeling agent, responsible for creating and updating both user models and adaptation models; Acquirer agent, responsible for creating and updating an usage data repository containing past user models; and finally, Miner agent, responsible for both discovering group of users with similar browsing behavior and classifying the current user in these groups. The Interface and User modeling agents belong to the user information-processing layer, and the Acquirer and Miner agents belong to the pattern-discovering layer. The methodology and tool used to guide the analyses and design phases were MADEM ( Multi-Agent Domain Engineering Methodology ) and ONTOMADEM, respectively. For the implementation of ONTOWUM it was used the JADE framework. / Com a incessante migração das mais diversas categorias de serviços ao ambiente Web, a necessidade de caracterizar os usuários nesse ambiente nunca foi tão presente. Para isso, são necessários componentes que tenham a habilidade de continuamente perceber o ambiente e rapidamente se adaptarem a ele, refletindo assim as próprias mudanças no comportamento do usuário. Dentre as abordagens existentes para a modelagem de usuários da Web, a mineração de uso da Web figura entre as mais interessantes, pois através dessa abordagem pode-se modelar o usuário implicitamente através dos dados de uso gerados através da sua interação com a Web. Este trabalho propõe ONTOMUW", um framework multiagente para a personalização da Web baseado na modelagem de usuários e na mineração de uso. O framework é composto por duas camadas onde se distribuem quatro agentes de acordo com suas responsabilidades: agente Interfaceador, responsável tanto pela captura das informações provenientes da navegação do usuário quanto pela execução da adaptação; agente Modelador, responsável por criar e atualizar tanto modelos de usuários quanto modelos de adaptação; agente Aquisitor, responsável pela criação e manutenção de um repositório de dados de uso contendo os modelos de usuários passados; e, finalmente, agente Minerador, responsável tanto pela descoberta de grupos de usuários com comportamento de navegação similar quanto pela classificação do usuário corrente nos grupos descobertos. Os agentes Interfaceador e Modelador compõem a camada de processamento de informações do usuário, enquanto que os agentes Aquisitor e Minerador compõem a camada de descoberta de padrões. A metodologia e ferramenta utilizadas para guiar o processo de análise e projeto de domínio do ONTOMUW foram a MADEM ( Multi-Agent Domain Engineering Methodology ) e a ONTOMADEM respectivamente. Para a implementação do framework utilizou-se o ambiente JADE. Modelagem de usuários Sistemas hipermídia adaptativos Mineração de uso da Web Engenharia de domínio multiagente User modeling Hypermedia adaptive systems Web usage mining Multi-agent domain engineering
56	Fouille de données d'usage du Web : Contributions au prétraitement de logs Web Intersites et à l'extraction des motifs séquentiels avec un faible support Tanasa, Doru 03 June 2005 (has links) (PDF) Les quinze dernières années ont été marquées par une croissance exponentielle du domaine du Web tant dans le nombre de sites Web disponibles que dans le nombre d'utilisateurs de ces sites. Cette croissance a généré de très grandes masses de données relatives aux traces d'usage duWeb par les internautes, celles-ci enregistrées dans des fichiers logs Web. De plus, les propriétaires de ces sites ont exprimé le besoin de mieux comprendre leurs visiteurs afin de mieux répondre à leurs attentes. Le Web Usage Mining (WUM), domaine de recherche assez récent, correspond justement au processus d'extraction des connaissances à partir des données (ECD) appliqué aux données d'usage sur le Web. Il comporte trois étapes principales : le prétraitement des données, la découverte des schémas et l'analyse (ou l'interprétation) des résultats. Un processus WUM extrait des patrons de comportement à partir des données d'usage et, éventuellement, à partir d'informations sur le site (structure et contenu) et sur les utilisateurs du site (profils). La quantité des données d'usage à analyser ainsi que leur faible qualité (en particulier l'absence de structuration) sont les principaux problèmes en WUM. Les algorithmes classiques de fouille de données appliqués sur ces données donnent généralement des résultats décevants en termes de pratiques des internautes (par exemple des patrons séquentiels évidents, dénués d'intérêt). Dans cette thèse, nous apportons deux contributions importantes pour un processus WUM, implémentées dans notre bo^³te à outils AxisLogMiner. Nous proposons une méthodologie générale de prétraitement des logs Web et une méthodologie générale divisive avec trois approches (ainsi que des méthodes concrètes associées) pour la découverte des motifs séquentiels ayant un faible support. Notre première contribution concerne le prétraitement des données d'usage Web, domaine encore très peu abordé dans la littérature. L'originalité de la méthodologie de prétraitement proposée consiste dans le fait qu'elle prend en compte l'aspect multi-sites du WUM, indispensable pour appréhender les pratiques des internautes qui naviguent de fa»con transparente, par exemple, sur plusieurs sites Web d'une même organisation. Outre l'intégration des principaux travaux existants sur ce thème, nous proposons dans notre méthodologie quatre étapes distinctes : la fusion des fichiers logs, le nettoyage, la structuration et l'agrégation des données. En particulier, nous proposons plusieurs heuristiques pour le nettoyage des robots Web, des variables agrégées décrivant les sessions et les visites, ainsi que l'enregistrement de ces données dans un modèle relationnel. Plusieurs expérimentations ont été réalisées, montrant que notre méthodologie permet une forte réduction (jusqu'à 10 fois) du nombre des requêtes initiales et offre des logs structurés plus riches pour l'étape suivante de fouille de données. Notre deuxième contribution vise la découverte à partir d'un fichier log prétraité de grande taille, des comportements minoritaires correspondant à des motifs séquentiels de très faible support. Pour cela, nous proposons une méthodologie générale visant à diviser le fichier log prétraité en sous-logs, se déclinant selon trois approches d'extraction de motifs séquentiels au support faible (Séquentielle, Itérative et Hiérarchique). Celles-ci ont été implémentées dans des méthodes concrètes hybrides mettant en jeu des algorithmes de classification et d'extraction de motifs séquentiels. Plusieurs expérimentations, réalisées sur des logs issus de sites académiques, nous ont permis de découvrir des motifs séquentiels intéressants ayant un support très faible, dont la découverte par un algorithme classique de type Apriori était impossible. Enfin, nous proposons une boite à outils appelée AxisLogMiner, qui supporte notre méthodologie de prétraitement et, actuellement, deux méthodes concrètes hybrides pour la découverte des motifs séquentiels en WUM. Cette boite à outils a donné lieu à de nombreux prétraitements de fichiers logs et aussi à des expérimentations avec nos méthodes implémentées. Web usage mining (WUM) journaux d'accµes Web méthodologie WUM prétraitement WUM WUM multi-sites fouille de données Web fouille de données extraction des motifs séquentiels support faible classi¯cation non-supervisée méthodologie divisive boîte à outils WUM Apriori-GST AxisLogMiner

Page generated in 0.1026 seconds