Spelling suggestions: "subject:"fouille"" "subject:"rouille""
141 |
Méthodologie d’extraction de connaissances spatio-temporelles par fouille de données pour l’analyse de comportements à risques : application à la surveillance maritime / Methodology of spatio-temporal knowledge discovery through data mining for risk behavior analysis : application to maritime traffic monitoringIdiri, Bilal 17 December 2013 (has links)
Les progrès technologiques en systèmes de localisation (AIS, radar, GPS, RFID, etc.), de télétransmission (VHF, satellite, GSM, etc.), en systèmes embarqués et leur faible coût de production a permis leur déploiement à une large échelle. Énormément de données sur les déplacements d'objets sont produites par le biais de ces technologies et utilisées dans diverses applications de surveillance temps-réel comme la surveillance du trafic maritime. L'analyse a posteriori des données de déplacement de navires et d'événements à risques peut présenter des perspectives intéressantes pour la compréhension et l'aide à la modélisation des comportements à risques. Dans ce travail de thèse une méthodologie basée sur la fouille de données spatio-temporelle est proposée pour l'extraction de connaissances sur les comportements potentiellement à risques de navires. Un atelier d'aide à l'analyse de comportements de navires fondé sur cette méthodologie est aussi proposé. / The advent of positioning system technologies (AIS, radar, GPS, RFID, etc.), remote transmission (VHF, satellite, GSM, etc.), technological advances in embedded systems and low cost production, has enabled their deployment on a large scale. A huge amount of moving objects data are collected through these technologies and used in various applications such as real time monitoring surveillance of maritime traffic. The post-hoc analysis of data from moving ships and risk events may present interesting opportunities for the understanding and modeling support of risky behaviors. In this work, we propose a methodology based on Spatio-Temporal Data Mining for the knowledge discovery about potentially risky behaviors of ships. Based on this methodology, a workshop to support the analysis of behavior of ships is also proposed.
|
142 |
Contributions à l'étude des réseaux sociaux : propagation, fouille, collecte de données / Contributions to the study of social networks : propagation,mining,data collectionStattner, Erick 10 December 2012 (has links)
Le concept de réseau offre un modèle de représentation pour une grande variété d'objets et de systèmes, aussi bien naturels que sociaux, dans lesquels un ensemble d'entités homogènes ou hétérogènes interagissent entre elles. Il est aujourd'hui employé couramment pour désigner divers types de structures relationnelles. Pourtant, si chacun a une idée plus ou moins précise de ce qu'est un réseau, nous ignorons encore souvent les implications qu'ont ces structures dans de nombreux phénomènes du monde qui nous entoure. C'est par exemple le cas de processus tels que la diffusion d'une rumeur, la transmission d'une maladie, ou même l'émergence de sujets d'intérêt commun à un groupe d'individus, dans lesquels les relations que maintiennent les individus entre eux et leur nature s'avèrent souvent être les principaux facteurs déterminants l'évolution du phénomène. C'est ainsi que l'étude des réseaux est devenue l'un des domaines émergents du 21e siècle appelé la "Science des réseaux". Dans ce mémoire, nous abordons trois problèmes de la science des réseaux: le problème de la diffusion dans les réseaux sociaux, où nous nous sommes intéressés plus particulièrement à l'impact de la dynamique du réseau sur le processus de diffusion, le problème de l'analyse des réseaux sociaux, dans lequel nous avons proposé une solution pour tirer parti de l'ensemble des informations disponibles en combinant les informations sur la structure du réseau et les attributs des noeuds et le problème central de la collecte de données sociales, où nous nous sommes intéressés au cas particulier de la collecte de données en milieux sauvages / The concept of network provides a model for representing a wide variety of objects and systems, both natural and social, in which a set of homogeneous or heterogeneous entities interact. It is now widely used to describe various kinds of relational structures. However, if everyone has an idea of the concept of network, we often ignore the implications that these structures have in real world phenomena. This is for example the case of processes such as the spread of a rumor, the disease transmission, or even the emergence of subjects of common interest for a group of individuals, in which the relations maintained between individuals, and their nature, often prove to be the main factors determining the evolution of the phenomenon. This is the reason why the study of networks has become one of the emerging areas in the 21st century called the "Science of networks." ln this thesis, we address three issues of the domain of the science of networks: the problem of diffusion in social networks, where we have addressed more particularly the impact of the network dynamics on the diffusion process, the problem of the analysis of social networks, in which we have proposed a solution to take full advantage of all information available on the network by combining information on both structure and node attributes and the central problem of the social data collection, for which we have focused on the particular case of the data collection in a wild environment.
|
143 |
Inférence de la grammaire structurelle d’une émission TV récurrente à partir du contenu / Content-based inference of structural grammar for recurrent TV programs from a collection of episodesQu, Bingqing 03 December 2015 (has links)
Dans cette thèse, on aborde le problème de structuration des programmes télévisés de manière non supervisée à partir du point de vue de l'inférence grammaticale, focalisant sur la découverte de la structure des programmes récurrents à partir une collection homogène. On vise à découvrir les éléments structuraux qui sont pertinents à la structure du programme, et à l’inférence grammaticale de la structure des programmes. Des expérimentations montrent que l'inférence grammaticale permet de utiliser minimum des connaissances de domaine a priori pour atteindre la découverte de la structure des programmes. / TV program structuring raises as a major theme in last decade for the task of high quality indexing. In this thesis, we address the problem of unsupervised TV program structuring from the point of view of grammatical inference, i.e., discovering a common structural model shared by a collection of episodes of a recurrent program. Using grammatical inference makes it possible to rely on only minimal domain knowledge. In particular, we assume no prior knowledge on the structural elements that might be present in a recurrent program and very limited knowledge on the program type, e.g., to name structural elements, apart from the recurrence. With this assumption, we propose an unsupervised framework operating in two stages. The first stage aims at determining the structural elements that are relevant to the structure of a program. We address this issue making use of the property of element repetitiveness in recurrent programs, leveraging temporal density analysis to filter out irrelevant events and determine valid elements. Having discovered structural elements, the second stage is to infer a grammar of the program. We explore two inference techniques based either on multiple sequence alignment or on uniform resampling. A model of the structure is derived from the grammars and used to predict the structure of new episodes. Evaluations are performed on a selection of four different types of recurrent programs. Focusing on structural element determination, we analyze the effect on the number of determined structural elements, fixing the threshold applied on the density function as well as the size of collection of episodes. For structural grammar inference, we discuss the quality of the grammars obtained and show that they accurately reflect the structure of the program. We also demonstrate that the models obtained by grammatical inference can accurately predict the structure of unseen episodes, conducting a quantitative and comparative evaluation of the two methods by segmenting the new episodes into their structural components. Finally, considering the limitations of our work, we discuss a number of open issues in structure discovery and propose three new research directions to address in future work.
|
144 |
Théorie des fonctions de croyance : application des outils de data mining pour le traitement des données imparfaites / Belief function theory : application of data mining tools for imperfect data treatmentSamet, Ahmed 03 December 2014 (has links)
Notre travail s'inscrit dans l'intersection de deux disciplines qui sont la Théorie des Fonctions de Croyance (TFC) et la fouille de données. L'interaction pouvant exister entre la TFC et la fouille de données est étudiée sous deux volets.La première interaction souligne l'apport des règles associatives génériques au sein de la TFC. Nous nous sommes intéressés au problème de fusion de sources non fiables dont la principale conséquence est l'apparition de conflit lors de la combinaison. Une approche de gestion de conflit reposant sur les règles d'association génériques appelé ACM a été proposée.La deuxième interaction s'intéresse aux bases de données imparfaites en particulier les bases de données évidentielles. Les informations, représentées par des fonctions de masse, sont étudiées afin d'extraire des connaissances cachées par le biais des outils de fouille de données. L'extraction des informations pertinentes et cachées de la base se fait grâce à la redéfinition de la mesure du support et de la confiance. Ces mesures introduites ont été les fondements d'un nouveau classifieur associatif que nous avons appelé EDMA. / This thesis explores the relation between two domains which are the Belief Function Theory (BFT) and data mining. Two main interactions between those domain have been pointed out.The first interaction studies the contribution of the generic associative rules in the BFT. We were interested in managing conflict in case of fusing conflictual information sources. A new approach for conflict management based on generic association rules has been proposed called ACM.The second interation studies imperfect databases such as evidential databases. Those kind of databases, where information is represented by belief functions, are studied in order to extract hidden knowledges using data mining tools. The extraction of those knowledges was possible thanks to a new definition to the support and the confidence measures. Those measures were integrated into a new evidential associative classifier called EDMA.
|
145 |
Problématique des entrepôts de données textuelles : dr Warehouse et la recherche translationnelle sur les maladies rares / Textual data Warehouse challenge : Dr. Warehouse and translational research on rare diseasesGarcelon, Nicolas 29 November 2017 (has links)
La réutilisation des données de soins pour la recherche s’est largement répandue avec le développement d’entrepôts de données cliniques. Ces entrepôts de données sont modélisés pour intégrer et explorer des données structurées liées à des thesaurus. Ces données proviennent principalement d’automates (biologie, génétique, cardiologie, etc) mais aussi de formulaires de données structurées saisies manuellement. La production de soins est aussi largement pourvoyeuse de données textuelles provenant des comptes rendus hospitaliers (hospitalisation, opératoire, imagerie, anatomopathologie etc.), des zones de texte libre dans les formulaires électroniques. Cette masse de données, peu ou pas utilisée par les entrepôts classiques, est une source d’information indispensable dans le contexte des maladies rares. En effet, le texte libre permet de décrire le tableau clinique d’un patient avec davantage de précisions et en exprimant l’absence de signes et l’incertitude. Particulièrement pour les patients encore non diagnostiqués, le médecin décrit l’histoire médicale du patient en dehors de tout cadre nosologique. Cette richesse d’information fait du texte clinique une source précieuse pour la recherche translationnelle. Cela nécessite toutefois des algorithmes et des outils adaptés pour en permettre une réutilisation optimisée par les médecins et les chercheurs. Nous présentons dans cette thèse l'entrepôt de données centré sur le document clinique, que nous avons modélisé, implémenté et évalué. À travers trois cas d’usage pour la recherche translationnelle dans le contexte des maladies rares, nous avons tenté d’adresser les problématiques inhérentes aux données textuelles: (i) le recrutement de patients à travers un moteur de recherche adapté aux données textuelles (traitement de la négation et des antécédents familiaux), (ii) le phénotypage automatisé à partir des données textuelles et (iii) l’aide au diagnostic par similarité entre patients basés sur le phénotypage. Nous avons pu évaluer ces méthodes sur l’entrepôt de données de Necker-Enfants Malades créé et alimenté pendant cette thèse, intégrant environ 490 000 patients et 4 millions de comptes rendus. Ces méthodes et algorithmes ont été intégrés dans le logiciel Dr Warehouse développé pendant la thèse et diffusé en Open source depuis septembre 2017. / The repurposing of clinical data for research has become widespread with the development of clinical data warehouses. These data warehouses are modeled to integrate and explore structured data related to thesauri. These data come mainly from machine (biology, genetics, cardiology, etc.) but also from manual data input forms. The production of care is also largely providing textual data from hospital reports (hospitalization, surgery, imaging, anatomopathologic etc.), free text areas in electronic forms. This mass of data, little used by conventional warehouses, is an indispensable source of information in the context of rare diseases. Indeed, the free text makes it possible to describe the clinical picture of a patient with more precision and expressing the absence of signs and uncertainty. Particularly for patients still undiagnosed, the doctor describes the patient's medical history outside any nosological framework. This wealth of information makes clinical text a valuable source for translational research. However, this requires appropriate algorithms and tools to enable optimized re-use by doctors and researchers. We present in this thesis the data warehouse centered on the clinical document, which we have modeled, implemented and evaluated. In three cases of use for translational research in the context of rare diseases, we attempted to address the problems inherent in textual data: (i) recruitment of patients through a search engine adapted to textual (data negation and family history detection), (ii) automated phenotyping from textual data, and (iii) diagnosis by similarity between patients based on phenotyping. We were able to evaluate these methods on the data warehouse of Necker-Enfants Malades created and fed during this thesis, integrating about 490,000 patients and 4 million reports. These methods and algorithms were integrated into the software Dr Warehouse developed during the thesis and distributed in Open source since September 2017.
|
146 |
Élaboration d'une méthode semi-automatique pour l'identification et le traitement des signaux d'émergence pour la veille internationale sur les maladies animales infectieuses / Elaboration of a Semi-Automatic Method for Identification and Analysis of Signals of Emergence of Animal Infectious Diseases at International LevelArsevska, Elena 31 January 2017 (has links)
La veille en santé animale, notamment la détection précoce de l'émergence d'agents pathogènes exotiques et émergents à l'échelle mondiale, est l'un des moyens de lutte contre l'introduction de ces agents pathogènes en France.Récemment, il y a eu une réelle prise de conscience par les autorités sanitaires de l'utilité de l'information non-structurée concernant les maladies infectieuses publiée sur le Web.C'est dans ce contexte que nous proposons un outil de veille basé sur une méthode de fouille de textes pour la détection, collecte, catégorisation et extraction de l'information sanitaire à partir des donnés textuelles non structurées (articles médias) publiées sur le Web.Notre méthode est générique. Toutefois, pour l'élaborer, nous l'appliquons à cinq maladies animales infectieuses exotiques : la peste porcine africaine, la fièvre aphteuse, la fièvre catarrhale ovine, la maladie du virus Schmallenberg et l'influenza aviaire.Nous démontrons que des techniques de fouille de textes, complétées par les connaissances d'experts du domaine, sont la fondation d'une veille sanitaire du Web à la fois efficace et réactive pour détecter des émergences de maladies exotiques au niveau international.Notre outil sera utilisé par le dispositif de veille sanitaire internationale en France, et facilitera la détection précoce de signaux de dangers sanitaires émergents dans les articles médias du Web. / Monitoring animal health worldwide, especially the early detection of outbreaks of emerging and exotic pathogens, is one of the means of preventing the introduction of infectious diseases in France.Recently, there is an increasing awareness among health authorities for the use of unstructured information published on the Web for epidemic intelligence purposes.In this manuscript we present a semi-automatic text mining approach, which detects, collects, classifies and extracts information from non-structured textual data available in the media reports on the Web. Our approach is generic; however, it was elaborated using five exotic animal infectious diseases: african swine fever, foot-and-mouth disease, bluetongue, Schmallenberg, and avian influenza.We show that the text mining techniques, supplemented by the knowledge of domain experts, are the foundation of an efficient and reactive system for monitoring animal health emergence on the Web.Our tool will be used by the French epidemic intelligence team for international monitoring of animal health, and will facilitate the early detection of events related to emerging health hazards identified from media reports on the Web.
|
147 |
Routine activity extraction from local alignments in mobile phone context data / Une approche d'alignement à la problématique de la détection des activités habituellesMoritz, Rick Patrick Constantin 05 February 2014 (has links)
L'homme, de manière générale apprécie ses habitudes. Nous proposons une méthodologie d'identification des activités de routine depuis des régularités extraites des données de contexte, acquises sur téléphone portable. Notre choix algorithmique se base sur l'algorithme d'alignement proposé par Lecroq et al. L'algorithme cherche à aligner des séquences de n-uplets de données du contexte. Les séquences algorithmiques correspondent aux traces d'utilisation régulières. Notre contribution technique consiste à l'amélioration de l'algorithme afin qu'il puisse exploiter la nature séquentielle des données se basant sur une approche d'optimisation locale. Les deux apports rendent la solution adaptée aux données dont la volumétrie compatibles avec les données de contexte.Afin d'évaluer notre approche, nous présentons un générateur de données simulées et une campagne d'acquisition de données réelles. Ces données sont utilisées pour valider notre approche. / Humans are creatures of habit, often developing a routine for their day-to-day life. We propose a way to identify routine as regularities extracted from the context data of mobile phones. We choose Lecroq et al.'s existing state of the art algorithm as basis for a set of modifications that render it suitable for the task. Our approach searches alignments in sequences of n-tuples of context data, which correspond to the user traces of routine activity. Our key enhancements to this algorithm are exploiting the sequential nature of the data an early maximisation approach. We develop a generator of context-like data to allow us to evaluate our approach. Additionally, we collect and manually annotate a mobile phone context dataset to facilitate the evaluation of our algorithm. The results allow us to validate the concept of our approach.
|
148 |
Système d'information décisionnel sur les interactions environnement-santé : cas de la Fièvre de la Vallée du Rift au Ferlo (Sénégal) / Decision-making system on environment and health interactions : case of the Rift Valley Fever in Ferlo (Senegal)Bouba, Fanta 25 September 2015 (has links)
Notre recherche se situe dans le cadre du projet QWECI (Quantifying Weather and Climate Impacts on Health in Developing Countries, UE FP7) en partenariat avec l’UCAD, le CSE et l’IPD, autour de la thématique environnement-santé avec comme cas pratique les maladies à vecteurs au Sénégal et plus particulièrement la Fièvre de la Vallée du Rift (FVR). La santé des populations humaines et animales est souvent fortement influencée par l’environnement. D’ailleurs, la recherche sur les facteurs de propagation des maladies à transmission vectorielle, telle que la FVR, prend en compte cette problématique dans sa dimension aussi bien physique que socio-économique. Apparue en 1912-1913 au Kenya, la FVR est une anthropo-zoonose virale répandue dans les régions tropicales qui concerne principalement les animaux mais dont les hommes peuvent aussi être touchés. Au Sénégal, la zone à risque concerne en majorité la vallée du fleuve Sénégal et la zone sylvo-pastorale du Ferlo. Bien que de climat sahélien, le Ferlo regorge de nombreuses mares qui sont des sources d’approvisionnement en eau pour les hommes et le bétail mais également les gîtes larvaires pour les vecteurs potentiels de la FVR. La maîtrise de la FVR, carrefour de trois (03) grands systèmes (agro-écologique, pathogène, économique/sanitaire/social), implique nécessairement la prise en compte de plusieurs paramètres si l’on veut d’abord comprendre les mécanismes d’émergence mais aussi envisager le travail de modélisation du risque. Notre travail porte sur le processus décisionnel pour quantifier l’utilisation de données sanitaires et environnementales dans l’évaluation de leur impact pour le suivi de la FVR. Les équipes de recherche impliquées produisent des données lors de leurs enquêtes de terrains et des analyses de laboratoire. Ce flot de données croissant devrait être stocké et préparé à des études corrélées grâce aux nouvelles techniques de stockage que sont les entrepôts de données. A propos de l’analyse des données, il ne suffit pas de s’appuyer seulement sur les techniques classiques telles que les statistiques. En effet, la valeur ajoutée de contribution sur la question s’oriente vers une analyse prédictive combinant à la fois les techniques agrégées de stockage et des outils de traitement. Ainsi, pour la découverte d’informations, nouvelles et pertinentes à priori non évidentes, il est nécessaire de s’orienter vers la fouille de données. Par ailleurs, l’évolution de la maladie étant fortement liée à la dynamique spatio-temporelle environnementale des différents acteurs (vecteurs, virus et hôtes), cause pour laquelle nous nous appuyons sur les motifs spatio-temporels pour identifier et mesurer certaines interactions entre les paramètres environnementaux et les acteurs impliqués. Grâce au processus décisionnel, les résultats qui en découlent sont multiples :i. suivant la formalisation de la modélisation multidimensionnelle, nous avons construit un entrepôt de données intégré qui regroupe l’ensemble des objets qui participent à la gestion du risque sanitaire – ce modèle peut être généralisé aux maladies à vecteurs ;ii. malgré une très grande variété de moustiques, les Culex de type neavei et les Aedes de type ochraceus et vexans sont les vecteurs potentiels de la FVR les plus présents dans la zone d’étude et ce, durant la saison des pluies, période la plus sujette à des cas suspects ; la période à risque reste quand même le mois d’octobre ;iii. les mares analysées ont quasiment le même comportement, mais des variations significatives subsistent par endroits.Ce travail de recherche démontre une fois de plus l’intérêt pour la mise en évidence des relations entre les données environnementales et la FVR à partir de méthodes de fouille de données, pour la surveillance spatio-temporelle du risque d’émergence. / Our research is in part of the QWeCI european project (Quantifying Weather and Climate Impacts on Health in Developing Countries, EU FP7) in partnership with UCAD, the CSE and the IPD, around the theme of environmental health with the practical case on vector-borne diseases in Senegal and particularly the Valley Fever (RVF). The health of human and animal populations is often strongly influenced by the environment. Moreover, research on spread factors of vector-borne diseases such as RVF, considers this issue in its dimension both physical and socio-economic. Appeared in 1912-1913 in Kenya, RVF is a widespread viral anthropo-zoonosis in tropical regions which concerns animals but men can also be affected. In Senegal, the risk area concerns mainly the Senegal River Valley and the forestry-pastoral areas Ferlo. With a Sahelian climate, the Ferlo has several ponds that are sources of water supply for humans and livestock but also breeding sites for potential vectors of RVF. The controlling of the RVF, which is crossroads of three (03) large systems (agro-ecological, pathogen, economic/health/social), necessarily entails consideration of several parameters if one wants to first understand the mechanisms emergence but also consider the work on risk modeling. Our work focuses on the decision making process for quantify the use of health data and environmental data in the impact assessment for the monitoring of RVF. Research teams involved produce data during their investigations periods and laboratory analyzes. The growing flood of data should be stored and prepared for correlated studies with new storage techniques such as datawarehouses. About the data analysis, it is not enough to rely only on conventional techniques such as statistics. Indeed, the contribution on the issue is moving towards a predictive analysis combining both aggregate storage techniques and processing tools. Thus, to discover information, it is necessary to move towards datamining. Furthermore, the evolution of the disease is strongly linked to environmental spatio-temporal dynamics of different actors (vectors, viruses, and hosts), cause for which we rely on spatio-temporal patterns to identify and measure interactions between environmental parameters and the actors involved. With the decision-making process, we have obtained many results :i. following the formalization of multidimensional modeling, we have built an integrated datawarehouse that includes all the objects that are involved in managing the health risk - this model can be generalized to others vector-borne diseases;ii. despite a very wide variety of mosquitoes, Culex neavei, Aedes ochraceus and Aedes vexans are potential vectors of FVR. They are most present in the study area and, during the rainy season period which is most prone to suspected cases; the risk period still remains the month of October;iii. the analyzed ponds have almost the same behavior, but significant variations exist in some points.This research shows once again the interest in the discovery of relationships between environmental data and the FVR with datamining methods for the spatio-temporal monitoring of the risk of emergence.
|
149 |
Fouille de données textuelles et systèmes de recommandation appliqués aux offres d'emploi diffusées sur le web / Text mining and recommender systems applied to job postingsSéguéla, Julie 03 May 2012 (has links)
L'expansion du média Internet pour le recrutement a entraîné ces dernières années la multiplication des canaux dédiés à la diffusion des offres d'emploi. Dans un contexte économique où le contrôle des coûts est primordial, évaluer et comparer les performances des différents canaux de recrutement est devenu un besoin pour les entreprises. Cette thèse a pour objectif le développement d'un outil d'aide à la décision destiné à accompagner les recruteurs durant le processus de diffusion d'une annonce. Il fournit au recruteur la performance attendue sur les sites d'emploi pour un poste à pourvoir donné. Après avoir identifié les facteurs explicatifs potentiels de la performance d'une campagne de recrutement, nous appliquons aux annonces des techniques de fouille de textes afin de les structurer et d'en extraire de l'information pertinente pour enrichir leur description au sein d'un modèle explicatif. Nous proposons dans un second temps un algorithme prédictif de la performance des offres d'emploi, basé sur un système hybride de recommandation, adapté à la problématique de démarrage à froid. Ce système, basé sur une mesure de similarité supervisée, montre des résultats supérieurs à ceux obtenus avec des approches classiques de modélisation multivariée. Nos expérimentations sont menées sur un jeu de données réelles, issues d'une base de données d'annonces publiées sur des sites d'emploi. / Last years, e-recruitment expansion has led to the multiplication of web channels dedicated to job postings. In an economic context where cost control is fundamental, assessment and comparison of recruitment channel performances have become necessary. The purpose of this work is to develop a decision-making tool intended to guide recruiters while they are posting a job on the Internet. This tool provides to recruiters the expected performance on job boards for a given job offer. First, we identify the potential predictors of a recruiting campaign performance. Then, we apply text mining techniques to the job offer texts in order to structure postings and to extract information relevant to improve their description in a predictive model. The job offer performance predictive algorithm is based on a hybrid recommender system, suitable to the cold-start problem. The hybrid system, based on a supervised similarity measure, outperforms standard multivariate models. Our experiments are led on a real dataset, coming from a job posting database.
|
150 |
Mining user similarity in online social networks : analysis,modeling and applications / Fouille de similarité de l'utilisateur dans les réseaux sociaux : analyse, modélisation et applicationsHan, Xiao 21 May 2015 (has links)
Réseaux sociaux (RS) (par exemple, Facebook, Twitter et LinkedIn) ont gagné en popularité écrasante et accumulé des données numériques massives sur la société humaine. Ces données massives, représentant de l’information personnelle et sociale des individus, nous offrent des possibilités sans précédent pour étudier, analyser et modéliser la structure de réseau complexe, les relations humaines, les gens similitude, etc. Pendant ce temps, les RS ont déclenché un grand nombre d’applications et de services qui rentables chercher à maintenir des liens de vibrer et l’expérience des utilisateurs d’avance. Dans ce contexte, comment concevoir ces applications et les services, en particulier comment extraire et d’exploiter des fonctionnalités sociales efficaces à partir des données massives disponibles pour améliorer les applications et les services, a reçu beaucoup d’attention. Cette thèse, visant à améliorer les applications et les services sociaux, étudie trois questions essentielles et pratiques RS: (1) Comment pouvons-nous explorer les amis potentiels pour un utilisateur d’établir et d’élargir ses liens sociaux? (2) comment pouvons-nous découvrir un contenu intéressant pour un utilisateur pour satisfaire ses goûts personnels? (3) comment pouvons-nous informer un utilisateur du risque d’exposition de son information privée pour préserver sa vie privée? S’appuyant sur les idées sur la similarité de personnes dans les sciences sociales, cette thèse étudie les effets et les applications de l’utilisateur similitude dans les RS pour résoudre les problèmes mentionnés ci-dessus. Plus précisément, les sociologues suggèrent que la similitude engendre connexion et induit principe homophilie que les gens similaires (par exemple, même âge, l’éducation ou la profession) sont plus susceptibles de communiquer, de confiance et de partager l’information avec l’autre que ceux dissemblables. Inspiré par ces résultats, cette thèse étudie le principe de similitude répandue dans RS en termes de savoir si les utilisateurs similaires seraient proches dans leurs relations sociales, similaire dans leurs intérêts, ou approximative dans leur géo distance, en se appuyant sur 500K profils d’utilisateurs recueillies auprès de Facebook; il explore en outre des solutions pour exploiter efficacement le principe de similitude observée pour concevoir les quatre applications et des services sociaux suivantes: • Effets de Similarité de L’utilisateur sur Lien Prévision pour les Nouveaux Utilisateurs : nous analysons la prédiction de liaison pour les nouveaux utilisateurs qui n’ont pas créé de lien. Basé sur l’information limitée obtenu lors de votre inscription la procédure de nouveaux utilisateurs, ainsi que les attributs et les liens des utilisateurs existants dans un RS, nous étudions la façon dont beaucoup de similitude entre deux utilisateurs affecterait la probabilité qu’ils se lient d’amitié. En conséquence, nous proposons un modèle de prédiction de liaison efficace pour les nouveaux utilisateurs. • Similarité Minière de L’utilisateur pour la Découverte de Contenu en Réseaux P2P Sociale : nous examinons comment similarité et connaissances des participants dans RS pourraient bénéficier leur découverte de contenu dans les réseaux P2P. Nous construisons un modèle de réseau P2P sociale où chaque pair attribue plus de poids à ses amis dans RS qui ont similarité supérieur et plus de connaissances. Utilisation de marche aléatoire avec la méthode de redémarrage, nous présentons un nouveau contenu algorithme de découverte le dessus du modèle de réseau P2P sociale proposé. • Inspection intérêt similarité - Prédiction et Application : nous présentons des études empiriques détaillées sur les intérêts similitude et de révéler que les gens sont susceptibles de présenter des goûts similaires s’ils ont des informations démographiques similaires (par exemple, âge, lieu), ou s’elles sont amis. Par conséquent, étant donné un nouvel utilisateur dont les intérêts (...) / Online Social Networks (OSNs) (e.g., Facebook, Twitter and LinkedIn) have gained overwhelming popularity and accumulated massive digital data about human society. These massive data, representing individuals' personal and social information, provide us with unprecedented opportunities to study, analyze and model the complex network structure, human connections, people similarity, etc. Meanwhile, OSNs have triggered a large number of profitable applications and services which seek to maintain vibrate connections and advance users' experience. In this context, how to devise such applications and services, especially how to extract and exploit effective social features from the massive available data to enhance the applications and services, has received much attention. This dissertation, aiming to enhance the social applications and services, investigates three critical and practical issues in OSNs: (1) How can we explore potential friends for a user to establish and enlarge her social connections? (2) How can we discover interesting content for a user to satisfy her personal tastes? (3) How can we inform a user the exposure risk of her private information to preserve her privacy? Drawing on the insights about people's similarity in social science, this dissertation studies the widespread similarity principle in OSN in terms of whether similar users would be close in their social relationships, similar in their interests, or approximate in their geo-distance, relying on 500K user profiles collected from Facebook; it further explores solutions to effectively leverage the observed similarity principle to address the aforementioned practical issues
|
Page generated in 0.0449 seconds