Global ETD Search

121	Classification de bases de données déséquilibrées par des règles de décomposition D'ambrosio, Roberto 07 March 2014 (has links) (PDF) Le déséquilibre entre la distribution des a priori est rencontré dans un nombre très large de domaines. Les algorithmes d'apprentissage conventionnels sont moins efficaces dans la prévision d'échantillons appartenant aux classes minoritaires. Notre but est de développer une règle de reconstruction adaptée aux catégories de données biaisées. Nous proposons une nouvelle règle, la Reconstruction Rule par sélection, qui, dans le schéma 'One-per-Class', utilise la fiabilité, des étiquettes et des distributions a priori pour permettre de calculer une décision finale. Les tests démontrent que la performance du système s'améliore en utilisant cette règle plutôt que des règles classiques. Nous étudions également les règles dans l' 'Error Correcting Output Code' (ECOC) décomposition. Inspiré par une règle de reconstitution de données statistiques conçue pour le 'One-per-Class' et 'Pair-Wise Coupling' des approches sur la décomposition, nous avons développé une règle qui s'applique à la régression 'softmax' sur la fiabilité afin d'évaluer la classification finale. Les résultats montrent que ce choix améliore les performances avec respect de la règle statistique existante et des règles de reconstructions classiques. Sur ce thème d'estimation fiable nous remarquons que peu de travaux ont porté sur l'efficacité de l'estimation postérieure dans le cadre de boosting. Suivant ce raisonnement, nous développons une estimation postérieure efficace en boosting Nearest Neighbors. Utilisant Universal Nearest Neighbours classification nous prouvons qu'il existe une sous-catégorie de fonctions, dont la minimisation apporte statistiquement de simples et efficaces estimateurs de Bayes postérieurs. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Apprentissage automatique Données déséquilibrées Fiabilité Estimation postérieure
122	Apprentissage de grammaires catégorielles : transducteurs d'arbres et clustering pour induction de grammaires catégorielles Sandillon Rezer, Noémie Fleur 09 December 2013 (has links) (PDF) De nos jours, il n'est pas rare d'utiliser des logiciels capables d'avoir une conversation, d'interagir avec nous (systèmes questions/réponses pour les SAV, gestion d'interface ou simplement Intelligence Artificielle - IA - de discussion). Ceux-ci doivent comprendre le contexte ou réagir par mot-clefs, mais générer ensuite des réponses cohérentes, aussi bien au niveau du sens de la phrase (sémantique) que de la forme (syntaxe). Si les premières IA se contentaient de phrases toutes faites et réagissaient en fonction de mots-clefs, le processus s'est complexifié avec le temps. Pour améliorer celui-ci, il faut comprendre et étudier la construction des phrases. Nous nous focalisons sur la syntaxe et sa modélisation avec des grammaires catégorielles. L'idée est de pouvoir aussi bien générer des squelettes de phrases syntaxiquement correctes que vérifier l'appartenance d'une phrase à un langage, ici le français (il manque l'aspect sémantique). On note que les grammaires AB peuvent, à l'exception de certains phénomènes comme la quantification et l'extraction, servir de base pour la sémantique en extrayant des λ-termes. Nous couvrons aussi bien l'aspect d'extraction de grammaire à partir de corpus arborés que l'analyse de phrases. Pour ce faire, nous présentons deux méthodes d'extraction et une méthode d'analyse de phrases permettant de tester nos grammaires. La première méthode consiste en la création d'un transducteur d'arbres généralisé, qui transforme les arbres syntaxiques en arbres de dérivation d'une grammaire AB. Appliqué sur les corpus français que nous avons à notre disposition, il permet d'avoir une grammaire assez complète de la langue française, ainsi qu'un vaste lexique. Le transducteur, même s'il s'éloigne peu de la définition usuelle d'un transducteur descendant, a pour particularité d'offrir une nouvelle méthode d'écriture des règles de transduction, permettant une définition compacte de celles-ci. Nous transformons actuellement 92,5% des corpus en arbres de dérivation. Pour notre seconde méthode, nous utilisons un algorithme d'unification en guidant celui-ci avec une étape préliminaire de clustering, qui rassemble les mots en fonction de leur contexte dans la phrase. La comparaison avec les arbres extraits du transducteur donne des résultats encourageants avec 91,3% de similarité. Enfin, nous mettons en place une version probabiliste de l'algorithme CYK pour tester l'efficacité de nos grammaires en analyse de phrases. La couverture obtenue est entre 84,6% et 92,6%, en fonction de l'ensemble de phrases pris en entrée. Les probabilités, appliquées aussi bien sur le type des mots lorsque ceux-ci en ont plusieurs que sur les règles, permettent de sélectionner uniquement le "meilleur" arbre de dérivation.Tous nos logiciels sont disponibles au téléchargement sous licence GNU GPL. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Grammaires AB Inférence grammaticale Clustering Transducteur d'arbres Apprentissage automatique
123	Meta-learning strategies, implementations, and evaluations for algorithm selection / Köpf, Christian Rudolf. January 1900 (has links) Thesis (doctorat)--Universität Ulm, 2005. / Includes bibliographical references (p. 227-248).
124	Behavior based malware classification using online machine learning / Classification des logiciels malveillants basée sur le comportement à l'aide de l'apprentissage automatique en ligne Pektaş, Abdurrahman 10 December 2015 (has links) Les malwares, autrement dit programmes malicieux ont grandement évolué ces derniers temps et sont devenus une menace majeure pour les utilisateurs grand public, les entreprises et même le gouvernement. Malgré la présence et l'utilisation intensive de divers outils anti-malwares comme les anti-virus, systèmes de détection d'intrusions, pare-feux etc ; les concepteurs de malwares peuvent significativement contourner ses protections en utilisant les techniques d'offuscation. Afin de limiter ces problèmes, les chercheurs spécialisés dans les malwares ont proposé différentes approches comme l'exploration des données (data mining) ou bien l'apprentissage automatique (machine learning) pour détecter et classifier les échantillons de malwares en fonction de leur propriétés statiques et dynamiques. De plus les méthodes proposées sont efficaces sur un petit ensemble de malwares, le passage à l'échelle de ses méthodes pour des grands ensembles est toujours en recherche et n'a pas été encore résolu.Il est évident aussi que la majorité des malwares sont une variante des précédentes versions. Par conséquent, le volume des nouvelles variantes créées dépasse grandement la capacité d'analyse actuelle. C'est pourquoi développer la classification des malwares est essentiel pour lutter contre cette augmentation pour la communauté informatique spécialisée en sécurité. Le challenge principal dans l'identification des familles de malware est de réussir à trouver un équilibre entre le nombre d'échantillons augmentant et la précision de la classification. Pour surmonter cette limitation, contrairement aux systèmes de classification existants qui appliquent des algorithmes d'apprentissage automatique pour sauvegarder les données ; ce sont des algorithmes hors-lignes ; nous proposons une nouvelle classification de malwares en ligne utilisant des algorithmes d'apprentissage automatique qui peuvent fournir une mise à jour instantanée d'un nouvel échantillon de malwares en suivant son introduction dans le système de classification.Pour atteindre notre objectif, premièrement nous avons développé une version portable, évolutive et transparente d'analyse de malware appelée VirMon pour analyse dynamique de malware visant les OS windows. VirMon collecte le comportement des échantillons analysés au niveau bas du noyau à travers son pilote mini-filtre développé spécifiquement. Deuxièmement, nous avons mis en place un cluster de 5 machines pour notre module d'apprentissage en ligne ( Jubatus);qui permet de traiter une quantité importante de données. Cette configuration permet à chaque machine d'exécuter ses tâches et de délivrer les résultats obtenus au gestionnaire du cluster.Notre outil proposé consiste essentiellement en trois niveaux majeures. Le premier niveau permet l'extraction des comportements des échantillons surveillés et observe leurs interactions avec les ressources de l'OS. Durant cette étape, le fichier exemple est exécuté dans un environnement « sandbox ». Notre outil supporte deux « sandbox »:VirMon et Cuckoo. Durant le second niveau, nous appliquons des fonctionnalités d'extraction aux rapports d'analyses. Le label de chaque échantillon est déterminé Virustotal, un outil regroupant plusieurs anti-virus permettant de scanner en ligne constitués de 46 moteurs de recherches. Enfin au troisième niveau, la base de données de malware est partitionnée en ensemble de test et d'apprentissage. L'ensemble d'apprentissage est utilisé pour obtenir un modèle de classification et l'ensemble de test est utilisé pour l'évaluation.Afin de valider l'efficacité et l'évolutivité de notre méthode, nous l'avons évalué en se basant sur une base de 18 000 fichiers malicieux récents incluant des virus, trojans, backdoors, vers etc, obtenue depuis VirusShare. Nos résultats expérimentaux montrent que permet la classification de malware avec une précision de 92 %. / Recently, malware, short for malicious software has greatly evolved and became a major threat to the home users, enterprises, and even to the governments. Despite the extensive use and availability of various anti-malware tools such as anti-viruses, intrusion detection systems, firewalls etc., malware authors can readily evade these precautions by using obfuscation techniques. To mitigate this problem, malware researchers have proposed various data mining and machine learning approaches for detecting and classifying malware samples according to the their static or dynamic feature set. Although the proposed methods are effective over small sample set, the scalability of these methods for large data-set are in question.Moreover, it is well-known fact that the majority of the malware is the variant of the previously known samples. Consequently, the volume of new variant created far outpaces the current capacity of malware analysis. Thus developing malware classification to cope with increasing number of malware is essential for security community. The key challenge in identifying the family of malware is to achieve a balance between increasing number of samples and classification accuracy. To overcome this limitation, unlike existing classification schemes which apply machine learning algorithm to stored data, i.e., they are off-line, we proposed a new malware classification system employing online machine learning algorithms that can provide instantaneous update about the new malware sample by following its introduction to the classification scheme.To achieve our goal, firstly we developed a portable, scalable and transparent malware analysis system called VirMon for dynamic analysis of malware targeting Windows OS. VirMon collects the behavioral activities of analyzed samples in low kernel level through its developed mini-filter driver. Secondly we set up a cluster of five machines for our online learning framework module (i.e. Jubatus), which allows to handle large scale of data. This configuration allows each analysis machine to perform its tasks and delivers the obtained results to the cluster manager.Essentially, the proposed framework consists of three major stages. The first stage consists in extracting the behavior of the sample file under scrutiny and observing its interactions with the OS resources. At this stage, the sample file is run in a sandboxed environment. Our framework supports two sandbox environments: VirMon and Cuckoo. During the second stage, we apply feature extraction to the analysis report. The label of each sample is determined by using Virustotal, an online multiple anti-virus scanner framework consisting of 46 engines. Then at the final stage, the malware dataset is partitioned into training and testing sets. The training set is used to obtain a classification model and the testing set is used for evaluation purposes .To validate the effectiveness and scalability of our method, we have evaluated our method on 18,000 recent malicious files including viruses, trojans, backdoors, worms, etc., obtained from VirusShare, and our experimental results show that our method performs malware classification with 92% of accuracy. Logiciel malveillant Analyse comportemental Classification Apprentissage automatique en ligne Malware Behavioral analysis Classification Automated 004
125	Estimation de l'occupation dans le bâtiment / Estimating occupancy in building Amayri, Manar 03 October 2017 (has links) Il a été développé 3 approches pour l'estimation d'occupation (nombre d'occupants et potentiellement leur activité) à base de techniques de machine learning :- une technique d'apprentissage supervisé exploitant différentes typologies de capteurs,- une technique à base de connaissance sans capteurs- et une technique interactive sollicitant lorsque c'est opportun les occupants via des questions. / Building energy management and monitoring systems (EMMS) should not only consider building physics and HVAC systems but also human behavior. These systems may provide information and advice to occupants about the relevance of their behavior regarding the current state of a dwelling and its connected grids. Therefore, advanced EMMS need to estimate the relevance of occupant activities. Additionally, innovative end-user services such as replay past situations, anticipate the future or mirror the current state are under development and require models together with building state estimations including the human part of the state. However, to define the state of a zone, non-measured values should be known in both physical (i.e. heat flows) and human part (i.e. occupancy and activities).The problem is to identify and calculate data processed from sensors, calendars, etc… that could be used in a classification model to estimate the number of occupants and various activities happening in offices/homes. The sensor data must provide a rich context for a classifier to have a broad separation plane and represent the office situation closely. Since the use of video cameras is a problem in many areas, the solution must respect privacy issues and relies largely on non-intrusive sensors.The thesis identifies the most relevant calculation from the sensor data in order to classify the number of people in a zone and their activities in offices/homes at a given time period. The proposed approach is inspired from machine learning and interactive learning to avoid using the camera and build a general estimation method.Three approaches are proposed for occupancy and activities estimation:- supervised learning approach. It starts to determine the common sensors that shall be used to estimate and classify the approximate number of people (within a range) in a room and their activities. Means to estimate occupancy include motion detection, power consumption, CO2 concentration sensors, microphone or door/window positions. It starts by determining the most useful measurements in calculating the information gains. Then, estimation algorithms are proposed: they rely on decision tree learning algorithms because it yields decision rules readable by humans, which correspond to nested if-then-else rules, where thresholds can be adjusted depending on the considered living areas. An office has been used for testing.- knowledge base approach using sensor data and knowledge coming respectively from observation and questionnaire. It relies on hidden Markov model and Bayesian network algorithms to model a human behavior with probabilistic cause-effect relations and states based on knowledge and questionnaire. Different applications have been studied for validation: an office, an apartment and a house.- an interactive learning approach is proposed. It estimates the number of occupants in a room by questioning occupants when relevant, meaning limiting the number of interactions and maximizing the information gains, about the actual occupancy. Occupancy and activities estimation algorithms use information collected from occupants together with common sensors. A real-time application has been done in an office case study. Bâtiments Apprentissage automatique Gestion énergétique Buildings Machine learning Energy management 620
126	Contributions to Hyperspectral Unmixing / Contribution au démélange hyperspectral Nakhostin, Sina 13 December 2017 (has links) Le démelangeage spectral est un domaine de recherche actif qui trouve des applications dans des domaines variés comme la télédétection, le traitement des signaux audio ou la chimie. Dans le contexte des capteurs hyper spectraux, les images acquises sont souvent de faible résolution spatiale, principalement à cause des limites technologiques liées aux capteurs. Ainsi, les pixels sont constitués des mélanges des différentes signatures spectrales des matériaux présents dans la scène observée. Le démélangeage hyperspectral correspond à la procédure inverse permettant d'identifier la présence de ces matériaux ainsi que leur abondance par pixel. Déterminer le nombre total de matériaux dans l'image et par pixel est un problème difficile. Des approches à base de modèle de mélange linéaire ont été développées mais l’hypothèse sous-jacente de linéarité est parfois mise à mal dans des scénarios réels. Le problème est amplifié lorsqu'un même matériel présente une forte variabilité de signatures spectrales. De plus, la présence de nombreuses signatures parasites (ou anomalies) rend l'estimation plus difficile. Ces différents problèmes sont abordés dans cette thèse au travers de solutions théoriques et algorithmiques. La première contribution porte sur un démélangeage non-linéaire parcimonieux basé sur des approches à noyaux (SAGA+), qui estime et enlevé de l'analyse simultanément les anomalies. La deuxième contribution majeure porte sur une méthode de démélangeage supervisée basée sur la théorie du transport optimal (OT-unmixing) et permet d'intégrer la variabilité potentielle des matériaux observés. Un cas d'étude réel, dans le contexte du projet CATUT, et visant l'estimation des températures de surface par imagerie aéroportée, est finalement décrit dans la dernière partie de ce travail. / Spectral Unmixing has been an active area of research during the last years and found its application in domains including but not limited to remote sensing, audio signal processing and chemistry. Despite their very high spectral resolution, hyperspectral images (HSI) are known to be of low spatial resolution. This low resolution is a relative notion and is due to technological limitations of the HSI captors. As a consequence the values of HSI pixels are likely to be mixtures Of diferent materials in the scene. hyperspectral Unmixing then can be dened as an inverse procedure that consists in identifying in each pixel the amount of pure elements contributing to the pixels mixture. The total number of pure elements (also called endmembers) and the number of them included in one pixel are two informations tricky to retrieve. The simplest situation is when both the total number and type of endmembers within the scene are known and associated with a linear mixing process assumption. Though efficient in some situations, this linearity assumption does not generally hold in real world scenarios. Also in most cases the knowledge regarding the endmember signature of a specic material is not exact, raising the need to account for variations among different representations of the same material. Last but not least existence of anomalies and noise is a ubiquitous issue affecting the accuracy of the estimations. In this thesis, the three aforementioned issues were mainly brought into light and by introducing two original algorithms, defined within different mathematical frameworks, solutions to these open problems has provided. The first contribution using the applications of kernel theory proposes a new unsupervised algorithm (SAGA+) for representation of the non-linear manifold embedding the data while through a simultaneous anomaly detection procedure makes sure that the representation of the manifold hall is not being distorted at the presence of anomalies. The second major contribution of this PhD focuses mainly on the issue of endmember variability and by exploiting the notion of overcomplete dictionary tries to address this problem. This supervised algorithm (OT-unmixing) which is based on the optimal transport theory is comparable to the second step of SAGA+, as it solves an inversion problem and calculates the sparse representation of the original pixels through generation of the abundance maps. A case study in the context of CATUT project for land surface temperature estimation is described in the last part of this work where the two algorithms used for unmixing of airborne hyperspectral remote sensing. Démélange hyperspectral Détection d'une anomalie Apprentissage automatique Hyperspectral images Hyperspectral Unmixing 621.367
127	Utilisation de données cliniques pour la construction de modèles en oncologie / Clinical data used to build models in oncology Kritter, Thibaut 01 October 2018 (has links) Cette thèse présente des travaux en lien avec l’utilisation de données cliniques dans la construction de modèles appliqués à l’oncologie. Les modèles actuels visant à intégrer plusieurs mécanismes biologiques liés à la croissance tumorale comportent trop de paramètres et ne sont pas calibrables sur des cas cliniques. A l’inverse, les modèles plus simples ne parviennent pas à prédire précisément l’évolution tumorale pour chaque patient. La multitude et la variété des données acquises par les médecins sont de nouvelles sources d’information qui peuvent permettre de rendre les estimations des modèles plus précises. A travers deux projets différents, nous avons intégré des données dans le processus de modélisation afin d’en tirer le maximum d’information. Dans la première partie, des données d’imagerie et de génétique de patients atteints de gliomes sont combinées à l’aide de méthodes d’apprentissage automatique. L’objectif est de différencier les patients qui rechutent rapidement au traitement de ceux qui ont une rechute plus lente. Les résultats montrent que la stratification obtenue est plus efficace que celles utilisées actuellement par les cliniciens. Cela permettrait donc d’adapter le traitement de manière plus spécifique pour chaque patient. Dans la seconde partie, l’utilisation des données est cette fois destinée à corriger un modèle simple de croissance tumorale. Même si ce modèle est efficace pour prédire le volume d’une tumeur, sa simplicité ne permet pas de rendre compte de l’évolution de forme. Or pouvoir anticiper la future forme d’une tumeur peut permettre au clinicien de mieux planifier une éventuelle chirurgie. Les techniques d’assimilation de données permettent d’adapter le modèle et de reconstruire l’environnement de la tumeur qui engendre ces changements de forme. La prédiction sur des cas de métastases cérébrales est alors plus précise. / This thesis deals with the use of clinical data in the construction of models applied to oncology. Existing models which take into account many biological mechanisms of tumor growth have too many parameters and cannot be calibrated on clinical cases. On the contrary, too simple models are not able to precisely predict tumor evolution for each patient. The diversity of data acquired by clinicians is a source of information that can make model estimations more precise. Through two different projets, we integrated data in the modeling process in order to extract more information from it. In the first part, clinical imaging and biopsy data are combined with machine learning methods. Our aim is to distinguish fast recurrent patients from slow ones. Results show that the obtained stratification is more efficient than the stratification used by cliniciens. It could help physicians to adapt treatment in a patient-specific way. In the second part, data is used to correct a simple tumor growth model. Even though this model is efficient to predict the volume of a tumor, its simplicity prevents it from accounting for shape evolution. Yet, an estimation of the tumor shape enables clinician to better plan surgery. Data assimilation methods aim at adapting the model and rebuilding the tumor environment which is responsible for these shape changes. The prediction of the growth of brain metastases is then more accurate. Modélisation Assimilation de données Apprentissage automatique Gliomes Modeling Data assimilation Machine learning Glioma
128	Détection d'attaques sur les équipements d'accès à Internet / Attack detection on network access devicest Roudiere, Gilles 07 September 2018 (has links) Les anomalies réseaux, et en particulier les attaques par déni de service distribuées, restent une menace considérable pour les acteurs de l'Internet. La détection de ces anomalies requiert des outils adaptés, capables non seulement d'opérer une détection correcte, mais aussi de répondre aux nombreuses contraintes liées à un fonctionnement dans un contexte industriel. Entre autres, la capacité d'un détecteur à opérer de manière autonome, ainsi qu'à fonctionner sur du trafic échantillonné sont des critères importants. Au contraire des approches supervisées ou par signatures, la détection non-supervisée des attaques ne requiert aucune forme de connaissance préalable sur les propriétés du trafic ou des anomalies. Cette approche repose sur une caractérisation autonome du trafic en production, et ne nécessite l'intervention de l'administrateur qu'à postériori, lorsqu’une déviation du trafic habituel est détectée. Le problème avec de telle approches reste que construire une telle caractérisation est algorithmiquement complexe, et peut donc nécessiter des ressources de calculs conséquentes. Cette exigence, notamment lorsque la détection doit fonctionner sur des équipements réseaux aux charges fonctionnelles déjà lourdes, est dissuasive quant à l'adoption de telles approches. Ce constat nous amène à proposer un nouvel algorithme de détection non-supervisé plus économe en ressources de calcul, visant en priorité les attaques par déni de service distribuées. Sa détection repose sur la création à intervalles réguliers d'instantanés du trafic, et produit des résultats simples à interpréter, aidant le diagnostic de l'administrateur. Nous évaluons les performances de notre algorithme sur deux jeux de données pour vérifier à la fois sa capacité à détecter correctement les anomalies sans lever de faux-positifs et sa capacité à fonctionner en temps réel avec des ressources de calcul limitées, ainsi que sur du trafic échantillonné. Les résultats obtenus sont comparés à ceux de deux autres détecteurs, FastNetMon et UNADA. / Network anomalies, and specifically distributed denial of services attacks, are still an important threat to the Internet stakeholders. Detecting such anomalies requires dedicated tools, not only able to perform an accurate detection but also to meet the several constraints due to an industrial operation. Such constraints include, amongst others, the ability to run autonomously or to operate on sampled traffic. Unlike supervised or signature-based approaches, unsupervised detection do not require any kind of knowledge database on the monitored traffic. Such approaches rely on an autonomous characterization of the traffic in production. They require the intervention of the network administrator a posteriori, when it detects a deviation from the usual shape of the traffic. The main problem with unsupervised detection relies on the fact that building such characterization is complex, which might require significant amounts of computing resources. This requirement might be deterrent, especially when the detection should run on network devices that already have a significant workload. As a consequence, we propose a new unsupervised detection algorithm that aims at reducing the computing power required to run the detection. Its detection focuses on distributed denial of service attacks. Its processing is based upon the creation, at a regular interval, of traffic snapshots, which helps the diagnosis of detected anomalies. We evaluate the performances of the detector over two datasets to check its ability to accurately detect anomalies and to operate, in real time, with limited computing power resources. We also evaluate its performances over sampled traffic. The results we obtained are compared with those obtained with FastNetMon and UNADA. Réseaux Sécurité Data mining Apprentissage automatique Networks Security Data mining Machine learning 004.65 005.8 006.3
129	Diffusion de l'information dans les réseaux sociaux / Information diffusion in social networks Lagnier, Cédric 03 October 2013 (has links) Prédire la diffusion de l'information dans les réseaux sociaux est une tâche difficile qui peut cependant permettre de répondre à des problèmes intéressants : recommandation d'information, choix des meilleurs points d'entrée pour une diffusion, etc. La plupart des modèles proposés récemment sont des extensions des modèles à cascades et de seuil. Dans ces modèles, le processus de diffusion est basé sur les interactions entre les utilisateurs du réseau (la pression sociale), et ignore des caractéristiques importantes comme le contenu de l'information diffusé ou le rôle actif/passif des utilisateurs. Nous proposons une nouvelle famille de modèles pour prédire la façon dont le contenu se diffuse dans un réseau en prenant en compte ces nouvelles caractéristiques : le contenu diffusé, le profil des utilisateurs et leur tendance à diffuser. Nous montrons comment combiner ces caractéristiques et proposons une modélisation probabiliste pour résoudre le problème de la diffusion. Ces modèles sont illustrés et comparés avec d'autres approches sur deux jeux de données de blogs. Les résultats obtenus sur ces jeux de données montrent que prendre en compte ces caractéristiques est important pour modéliser le processus de diffusion. Enfin, nous étudions le problème de maximisation de l'influence avec ces modèles et prouvons qu'il est NP-difficile, avant de proposer une adaptation d'un algorithme glouton pour approcher la solution optimale. / Predicting the diffusion of information in social networks is a key problem for applications like Opinion Leader Detection, Buzz Detection or Viral Marketing. Many recent diffusion models are direct extensions of the Cascade and Threshold models, initially proposed for epidemiology and social studies. In such models, the diffusion process is based on the dynamics of interactions between neighbor nodes in the network (the social pressure), and largely ignores important dimensions as the content diffused and the active/passive role users tend to have in social networks. We propose here a new family of models that aims at predicting how a content diffuses in a network by making use of additional dimensions : the content diffused, user's profile and willingness to diffuse. In particular, we show how to integrate these dimensions into simple feature functions, and propose a probabilistic modeling to account for the diffusion process. These models are then illustrated and compared with other approaches on two blog datasets. The experimental results obtained on these datasets show that taking into account these dimensions are important to accurately model the diffusion process. Lastly, we study the influence maximization problem with these models and prove that it is NP-hard, prior to propose an adaptation of the greedy algorithm to approximate the optimal solution. Apprentissage automatique Graphes d'interaction Aide à la décision Machine learning Social networks Decision making 004
130	Apprentissage de co-similarités pour la classification automatique de données monovues et multivues / Clustering of monoview and multiview data via co-similarity learning Grimal, Clément 11 October 2012 (has links) L'apprentissage automatique consiste à concevoir des programmes informatiques capables d'apprendre à partir de leurs environnement, ou bien à partir de données. Il existe différents types d'apprentissage, selon que l'on cherche à faire apprendre au programme, et également selon le cadre dans lequel il doit apprendre, ce qui constitue différentes tâches. Les mesures de similarité jouent un rôle prépondérant dans la plupart de ces tâches, c'est pourquoi les travaux de cette thèse se concentrent sur leur étude. Plus particulièrement, nous nous intéressons à la classification de données, qui est une tâche d'apprentissage dit non supervisé, dans lequel le programme doit organiser un ensemble d'objets en plusieurs classes distinctes, de façon à regrouper les objets similaires ensemble. Dans de nombreuses applications, ces objets (des documents par exemple) sont décrits à l'aide de leurs liens à d'autres types d'objets (des mots par exemple), qui peuvent eux-même être classifiés. On parle alors de co-classification, et nous étudions et proposons dans cette thèse des améliorations de l'algorithme de calcul de co-similarités XSim. Nous montrons que ces améliorations permettent d'obtenir de meilleurs résultats que les méthodes de l'état de l'art. De plus, il est fréquent que ces objets soient liés à plus d'un autre type d'objets, les données qui décrivent ces multiples relations entre différents types d'objets sont dites multivues. Les méthodes classiques ne sont généralement pas capables de prendre en compte toutes les informations contenues dans ces données. C'est pourquoi nous présentons dans cette thèse l'algorithme de calcul multivue de similarités MVSim, qui peut être vu comme une extension aux données multivues de l'algorithme XSim. Nous montrons que cette méthode obtient de meilleures performances que les méthodes multivues de l'état de l'art, ainsi que les méthodes monovues, validant ainsi l'apport de l'aspect multivue. Finalement, nous proposons également d'utiliser l'algorithme MVSim pour classifier des données classiques monovues de grandes tailles, en les découpant en différents ensembles. Nous montrons que cette approche permet de gagner en temps de calcul ainsi qu'en taille mémoire nécessaire, tout en dégradant relativement peu la classification par rapport à une approche directe sans découpage. / Machine learning consists in conceiving computer programs capable of learning from their environment, or from data. Different kind of learning exist, depending on what the program is learning, or in which context it learns, which naturally forms different tasks. Similarity measures play a predominant role in most of these tasks, which is the reason why this thesis focus on their study. More specifically, we are focusing on data clustering, a so called non supervised learning task, in which the goal of the program is to organize a set of objects into several clusters, in such a way that similar objects are grouped together. In many applications, these objects (documents for instance) are described by their links to other types of objects (words for instance), that can be clustered as well. This case is referred to as co-clustering, and in this thesis we study and improve the co-similarity algorithm XSim. We demonstrate that these improvements enable the algorithm to outperform the state of the art methods. Additionally, it is frequent that these objects are linked to more than one other type of objects, the data that describe these multiple relations between these various types of objects are called multiview. Classical methods are generally not able to consider and use all the information contained in these data. For this reason, we present in this thesis a new multiview similarity algorithm called MVSim, that can be considered as a multiview extension of the XSim algorithm. We demonstrate that this method outperforms state of the art multiview methods, as well as classical approaches, thus validating the interest of the multiview aspect. Finally, we also describe how to use the MVSim algorithm to cluster large-scale single-view data, by first splitting it in multiple subsets. We demonstrate that this approach allows to significantly reduce the running time and the memory footprint of the method, while slightly lowering the quality of the obtained clustering compared to a straightforward approach with no splitting. Apprentissage automatique Classification Similarité Données multivue Machine learning Clustering Similarity Multiview data

Search results