• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 252
  • 244
  • 44
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 559
  • 559
  • 365
  • 353
  • 109
  • 106
  • 105
  • 105
  • 93
  • 90
  • 90
  • 89
  • 88
  • 71
  • 68
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
121

Contributions to Hyperspectral Unmixing / Contribution au démélange hyperspectral

Nakhostin, Sina 13 December 2017 (has links)
Le démelangeage spectral est un domaine de recherche actif qui trouve des applications dans des domaines variés comme la télédétection, le traitement des signaux audio ou la chimie. Dans le contexte des capteurs hyper spectraux, les images acquises sont souvent de faible résolution spatiale, principalement à cause des limites technologiques liées aux capteurs. Ainsi, les pixels sont constitués des mélanges des différentes signatures spectrales des matériaux présents dans la scène observée. Le démélangeage hyperspectral correspond à la procédure inverse permettant d'identifier la présence de ces matériaux ainsi que leur abondance par pixel. Déterminer le nombre total de matériaux dans l'image et par pixel est un problème difficile. Des approches à base de modèle de mélange linéaire ont été développées mais l’hypothèse sous-jacente de linéarité est parfois mise à mal dans des scénarios réels. Le problème est amplifié lorsqu'un même matériel présente une forte variabilité de signatures spectrales. De plus, la présence de nombreuses signatures parasites (ou anomalies) rend l'estimation plus difficile. Ces différents problèmes sont abordés dans cette thèse au travers de solutions théoriques et algorithmiques. La première contribution porte sur un démélangeage non-linéaire parcimonieux basé sur des approches à noyaux (SAGA+), qui estime et enlevé de l'analyse simultanément les anomalies. La deuxième contribution majeure porte sur une méthode de démélangeage supervisée basée sur la théorie du transport optimal (OT-unmixing) et permet d'intégrer la variabilité potentielle des matériaux observés. Un cas d'étude réel, dans le contexte du projet CATUT, et visant l'estimation des températures de surface par imagerie aéroportée, est finalement décrit dans la dernière partie de ce travail. / Spectral Unmixing has been an active area of research during the last years and found its application in domains including but not limited to remote sensing, audio signal processing and chemistry. Despite their very high spectral resolution, hyperspectral images (HSI) are known to be of low spatial resolution. This low resolution is a relative notion and is due to technological limitations of the HSI captors. As a consequence the values of HSI pixels are likely to be mixtures Of diferent materials in the scene. hyperspectral Unmixing then can be dened as an inverse procedure that consists in identifying in each pixel the amount of pure elements contributing to the pixels mixture. The total number of pure elements (also called endmembers) and the number of them included in one pixel are two informations tricky to retrieve. The simplest situation is when both the total number and type of endmembers within the scene are known and associated with a linear mixing process assumption. Though efficient in some situations, this linearity assumption does not generally hold in real world scenarios. Also in most cases the knowledge regarding the endmember signature of a specic material is not exact, raising the need to account for variations among different representations of the same material. Last but not least existence of anomalies and noise is a ubiquitous issue affecting the accuracy of the estimations. In this thesis, the three aforementioned issues were mainly brought into light and by introducing two original algorithms, defined within different mathematical frameworks, solutions to these open problems has provided. The first contribution using the applications of kernel theory proposes a new unsupervised algorithm (SAGA+) for representation of the non-linear manifold embedding the data while through a simultaneous anomaly detection procedure makes sure that the representation of the manifold hall is not being distorted at the presence of anomalies. The second major contribution of this PhD focuses mainly on the issue of endmember variability and by exploiting the notion of overcomplete dictionary tries to address this problem. This supervised algorithm (OT-unmixing) which is based on the optimal transport theory is comparable to the second step of SAGA+, as it solves an inversion problem and calculates the sparse representation of the original pixels through generation of the abundance maps. A case study in the context of CATUT project for land surface temperature estimation is described in the last part of this work where the two algorithms used for unmixing of airborne hyperspectral remote sensing.
122

Utilisation de données cliniques pour la construction de modèles en oncologie / Clinical data used to build models in oncology

Kritter, Thibaut 01 October 2018 (has links)
Cette thèse présente des travaux en lien avec l’utilisation de données cliniques dans la construction de modèles appliqués à l’oncologie. Les modèles actuels visant à intégrer plusieurs mécanismes biologiques liés à la croissance tumorale comportent trop de paramètres et ne sont pas calibrables sur des cas cliniques. A l’inverse, les modèles plus simples ne parviennent pas à prédire précisément l’évolution tumorale pour chaque patient. La multitude et la variété des données acquises par les médecins sont de nouvelles sources d’information qui peuvent permettre de rendre les estimations des modèles plus précises. A travers deux projets différents, nous avons intégré des données dans le processus de modélisation afin d’en tirer le maximum d’information. Dans la première partie, des données d’imagerie et de génétique de patients atteints de gliomes sont combinées à l’aide de méthodes d’apprentissage automatique. L’objectif est de différencier les patients qui rechutent rapidement au traitement de ceux qui ont une rechute plus lente. Les résultats montrent que la stratification obtenue est plus efficace que celles utilisées actuellement par les cliniciens. Cela permettrait donc d’adapter le traitement de manière plus spécifique pour chaque patient. Dans la seconde partie, l’utilisation des données est cette fois destinée à corriger un modèle simple de croissance tumorale. Même si ce modèle est efficace pour prédire le volume d’une tumeur, sa simplicité ne permet pas de rendre compte de l’évolution de forme. Or pouvoir anticiper la future forme d’une tumeur peut permettre au clinicien de mieux planifier une éventuelle chirurgie. Les techniques d’assimilation de données permettent d’adapter le modèle et de reconstruire l’environnement de la tumeur qui engendre ces changements de forme. La prédiction sur des cas de métastases cérébrales est alors plus précise. / This thesis deals with the use of clinical data in the construction of models applied to oncology. Existing models which take into account many biological mechanisms of tumor growth have too many parameters and cannot be calibrated on clinical cases. On the contrary, too simple models are not able to precisely predict tumor evolution for each patient. The diversity of data acquired by clinicians is a source of information that can make model estimations more precise. Through two different projets, we integrated data in the modeling process in order to extract more information from it. In the first part, clinical imaging and biopsy data are combined with machine learning methods. Our aim is to distinguish fast recurrent patients from slow ones. Results show that the obtained stratification is more efficient than the stratification used by cliniciens. It could help physicians to adapt treatment in a patient-specific way. In the second part, data is used to correct a simple tumor growth model. Even though this model is efficient to predict the volume of a tumor, its simplicity prevents it from accounting for shape evolution. Yet, an estimation of the tumor shape enables clinician to better plan surgery. Data assimilation methods aim at adapting the model and rebuilding the tumor environment which is responsible for these shape changes. The prediction of the growth of brain metastases is then more accurate.
123

Détection d'attaques sur les équipements d'accès à Internet / Attack detection on network access devicest

Roudiere, Gilles 07 September 2018 (has links)
Les anomalies réseaux, et en particulier les attaques par déni de service distribuées, restent une menace considérable pour les acteurs de l'Internet. La détection de ces anomalies requiert des outils adaptés, capables non seulement d'opérer une détection correcte, mais aussi de répondre aux nombreuses contraintes liées à un fonctionnement dans un contexte industriel. Entre autres, la capacité d'un détecteur à opérer de manière autonome, ainsi qu'à fonctionner sur du trafic échantillonné sont des critères importants. Au contraire des approches supervisées ou par signatures, la détection non-supervisée des attaques ne requiert aucune forme de connaissance préalable sur les propriétés du trafic ou des anomalies. Cette approche repose sur une caractérisation autonome du trafic en production, et ne nécessite l'intervention de l'administrateur qu'à postériori, lorsqu’une déviation du trafic habituel est détectée. Le problème avec de telle approches reste que construire une telle caractérisation est algorithmiquement complexe, et peut donc nécessiter des ressources de calculs conséquentes. Cette exigence, notamment lorsque la détection doit fonctionner sur des équipements réseaux aux charges fonctionnelles déjà lourdes, est dissuasive quant à l'adoption de telles approches. Ce constat nous amène à proposer un nouvel algorithme de détection non-supervisé plus économe en ressources de calcul, visant en priorité les attaques par déni de service distribuées. Sa détection repose sur la création à intervalles réguliers d'instantanés du trafic, et produit des résultats simples à interpréter, aidant le diagnostic de l'administrateur. Nous évaluons les performances de notre algorithme sur deux jeux de données pour vérifier à la fois sa capacité à détecter correctement les anomalies sans lever de faux-positifs et sa capacité à fonctionner en temps réel avec des ressources de calcul limitées, ainsi que sur du trafic échantillonné. Les résultats obtenus sont comparés à ceux de deux autres détecteurs, FastNetMon et UNADA. / Network anomalies, and specifically distributed denial of services attacks, are still an important threat to the Internet stakeholders. Detecting such anomalies requires dedicated tools, not only able to perform an accurate detection but also to meet the several constraints due to an industrial operation. Such constraints include, amongst others, the ability to run autonomously or to operate on sampled traffic. Unlike supervised or signature-based approaches, unsupervised detection do not require any kind of knowledge database on the monitored traffic. Such approaches rely on an autonomous characterization of the traffic in production. They require the intervention of the network administrator a posteriori, when it detects a deviation from the usual shape of the traffic. The main problem with unsupervised detection relies on the fact that building such characterization is complex, which might require significant amounts of computing resources. This requirement might be deterrent, especially when the detection should run on network devices that already have a significant workload. As a consequence, we propose a new unsupervised detection algorithm that aims at reducing the computing power required to run the detection. Its detection focuses on distributed denial of service attacks. Its processing is based upon the creation, at a regular interval, of traffic snapshots, which helps the diagnosis of detected anomalies. We evaluate the performances of the detector over two datasets to check its ability to accurately detect anomalies and to operate, in real time, with limited computing power resources. We also evaluate its performances over sampled traffic. The results we obtained are compared with those obtained with FastNetMon and UNADA.
124

Diffusion de l'information dans les réseaux sociaux / Information diffusion in social networks

Lagnier, Cédric 03 October 2013 (has links)
Prédire la diffusion de l'information dans les réseaux sociaux est une tâche difficile qui peut cependant permettre de répondre à des problèmes intéressants : recommandation d'information, choix des meilleurs points d'entrée pour une diffusion, etc. La plupart des modèles proposés récemment sont des extensions des modèles à cascades et de seuil. Dans ces modèles, le processus de diffusion est basé sur les interactions entre les utilisateurs du réseau (la pression sociale), et ignore des caractéristiques importantes comme le contenu de l'information diffusé ou le rôle actif/passif des utilisateurs. Nous proposons une nouvelle famille de modèles pour prédire la façon dont le contenu se diffuse dans un réseau en prenant en compte ces nouvelles caractéristiques : le contenu diffusé, le profil des utilisateurs et leur tendance à diffuser. Nous montrons comment combiner ces caractéristiques et proposons une modélisation probabiliste pour résoudre le problème de la diffusion. Ces modèles sont illustrés et comparés avec d'autres approches sur deux jeux de données de blogs. Les résultats obtenus sur ces jeux de données montrent que prendre en compte ces caractéristiques est important pour modéliser le processus de diffusion. Enfin, nous étudions le problème de maximisation de l'influence avec ces modèles et prouvons qu'il est NP-difficile, avant de proposer une adaptation d'un algorithme glouton pour approcher la solution optimale. / Predicting the diffusion of information in social networks is a key problem for applications like Opinion Leader Detection, Buzz Detection or Viral Marketing. Many recent diffusion models are direct extensions of the Cascade and Threshold models, initially proposed for epidemiology and social studies. In such models, the diffusion process is based on the dynamics of interactions between neighbor nodes in the network (the social pressure), and largely ignores important dimensions as the content diffused and the active/passive role users tend to have in social networks. We propose here a new family of models that aims at predicting how a content diffuses in a network by making use of additional dimensions : the content diffused, user's profile and willingness to diffuse. In particular, we show how to integrate these dimensions into simple feature functions, and propose a probabilistic modeling to account for the diffusion process. These models are then illustrated and compared with other approaches on two blog datasets. The experimental results obtained on these datasets show that taking into account these dimensions are important to accurately model the diffusion process. Lastly, we study the influence maximization problem with these models and prove that it is NP-hard, prior to propose an adaptation of the greedy algorithm to approximate the optimal solution.
125

Apprentissage de co-similarités pour la classification automatique de données monovues et multivues / Clustering of monoview and multiview data via co-similarity learning

Grimal, Clément 11 October 2012 (has links)
L'apprentissage automatique consiste à concevoir des programmes informatiques capables d'apprendre à partir de leurs environnement, ou bien à partir de données. Il existe différents types d'apprentissage, selon que l'on cherche à faire apprendre au programme, et également selon le cadre dans lequel il doit apprendre, ce qui constitue différentes tâches. Les mesures de similarité jouent un rôle prépondérant dans la plupart de ces tâches, c'est pourquoi les travaux de cette thèse se concentrent sur leur étude. Plus particulièrement, nous nous intéressons à la classification de données, qui est une tâche d'apprentissage dit non supervisé, dans lequel le programme doit organiser un ensemble d'objets en plusieurs classes distinctes, de façon à regrouper les objets similaires ensemble. Dans de nombreuses applications, ces objets (des documents par exemple) sont décrits à l'aide de leurs liens à d'autres types d'objets (des mots par exemple), qui peuvent eux-même être classifiés. On parle alors de co-classification, et nous étudions et proposons dans cette thèse des améliorations de l'algorithme de calcul de co-similarités XSim. Nous montrons que ces améliorations permettent d'obtenir de meilleurs résultats que les méthodes de l'état de l'art. De plus, il est fréquent que ces objets soient liés à plus d'un autre type d'objets, les données qui décrivent ces multiples relations entre différents types d'objets sont dites multivues. Les méthodes classiques ne sont généralement pas capables de prendre en compte toutes les informations contenues dans ces données. C'est pourquoi nous présentons dans cette thèse l'algorithme de calcul multivue de similarités MVSim, qui peut être vu comme une extension aux données multivues de l'algorithme XSim. Nous montrons que cette méthode obtient de meilleures performances que les méthodes multivues de l'état de l'art, ainsi que les méthodes monovues, validant ainsi l'apport de l'aspect multivue. Finalement, nous proposons également d'utiliser l'algorithme MVSim pour classifier des données classiques monovues de grandes tailles, en les découpant en différents ensembles. Nous montrons que cette approche permet de gagner en temps de calcul ainsi qu'en taille mémoire nécessaire, tout en dégradant relativement peu la classification par rapport à une approche directe sans découpage. / Machine learning consists in conceiving computer programs capable of learning from their environment, or from data. Different kind of learning exist, depending on what the program is learning, or in which context it learns, which naturally forms different tasks. Similarity measures play a predominant role in most of these tasks, which is the reason why this thesis focus on their study. More specifically, we are focusing on data clustering, a so called non supervised learning task, in which the goal of the program is to organize a set of objects into several clusters, in such a way that similar objects are grouped together. In many applications, these objects (documents for instance) are described by their links to other types of objects (words for instance), that can be clustered as well. This case is referred to as co-clustering, and in this thesis we study and improve the co-similarity algorithm XSim. We demonstrate that these improvements enable the algorithm to outperform the state of the art methods. Additionally, it is frequent that these objects are linked to more than one other type of objects, the data that describe these multiple relations between these various types of objects are called multiview. Classical methods are generally not able to consider and use all the information contained in these data. For this reason, we present in this thesis a new multiview similarity algorithm called MVSim, that can be considered as a multiview extension of the XSim algorithm. We demonstrate that this method outperforms state of the art multiview methods, as well as classical approaches, thus validating the interest of the multiview aspect. Finally, we also describe how to use the MVSim algorithm to cluster large-scale single-view data, by first splitting it in multiple subsets. We demonstrate that this approach allows to significantly reduce the running time and the memory footprint of the method, while slightly lowering the quality of the obtained clustering compared to a straightforward approach with no splitting.
126

Machine Learning Strategies for Large-scale Taxonomies / Strategies d'apprentissage pour la classification dans les grandes taxonomies

Babbar, Rohit 17 October 2014 (has links)
À l'ère de Big Data, le développement de modèles d'apprentissage machine efficaces et évolutifs opérant sur des Tera-Octets de données est une nécessité. Dans cette thèse, nous étudions un cadre d'apprentissage machine pour la classification hiérarchique à large échelle. Cette analyse comprend l'étude des défis comme la complexité d'entraînement des modèles ainsi que leur temps de prédiction. Dans la première partie de la thèse, nous étudions la distribution des lois de puissance sous-jacente à la création des taxonomies à grande échelle. Cette étude permet de dériver des bornes sur la complexité spatiale des classifieurs hiérarchiques. L'exploitation de ce résultat permet alors le développement des modèles efficaces pour les classes distribuées selon une loi de puissance. Nous proposons également une méthode efficace pour la sélection de modèles pour des classifieurs multi-classes de type séparateurs à vaste marge ou de la régression logistique. Dans une deuxième partie, nous étudions le problème de la classification hiérarichique contre la classification plate d'un point de vue théorique. Nous dérivons une borne sur l'erreur de généralisation qui permet de définir les cas où la classification hiérarchique serait plus avantageux que la classification plate. Nous exploitons en outre les bornes développées pour proposer deux méthodes permettant adapter une taxonomie donnée de catégories à une taxonomies de sorties qui permet d'atteindre une meilleure performance de test. / In the era of Big Data, we need efficient and scalable machine learning algorithms which can perform automatic classification of Tera-Bytes of data. In this thesis, we study the machine learning challenges for classification in large-scale taxonomies. These challenges include computational complexity of training and prediction and the performance on unseen data. In the first part of the thesis, we study the underlying power-law distribution in large-scale taxonomies. This analysis then motivates the derivation of bounds on space complexity of hierarchical classifiers. Exploiting the study of this distribution further, we then design classification scheme which leads to better accuracy on large-scale power-law distributed categories. We also propose an efficient method for model-selection when training multi-class version of classifiers such as Support Vector Machine and Logistic Regression. Finally, we address another key model selection problem in large scale classification concerning the choice between flat versus hierarchical classification from a learning theoretic aspect. The presented generalization error analysis provides an explanation to empirical findings in many recent studies in large-scale hierarchical classification. We further exploit the developed bounds to propose two methods for adapting the given taxonomy of categories to output taxonomies which yield better test accuracy when used in a top-down setup.
127

Optimisation de la performance des applications de mémoire transactionnelle sur des plates-formes multicoeurs : une approche basée sur l'apprentissage automatique / Improving the Performance of Transactional Memory Applications on Multicores : A Machine Learning-based Approach

Castro, Márcio 03 December 2012 (has links)
Le concept de processeur multicœurs constitue le facteur dominant pour offrir des hautes performances aux applications parallèles. Afin de développer des applications parallèles capable de tirer profit de ces plate-formes, les développeurs doivent prendre en compte plusieurs aspects, allant de l'architecture aux caractéristiques propres à l'application. Dans ce contexte, la Mémoire Transactionnelle (Transactional Memory – TM) apparaît comme une alternative intéressante à la synchronisation basée sur les verrous pour ces plates-formes. Elle permet aux programmeurs d'écrire du code parallèle encapsulé dans des transactions, offrant des garanties comme l'atomicité et l'isolement. Lors de l'exécution, les opérations sont exécutées spéculativement et les conflits sont résolus par ré-exécution des transactions en conflit. Bien que le modèle de TM ait pour but de simplifier la programmation concurrente, les meilleures performances ne pourront être obtenues que si l'exécutif est capable de s'adapter aux caractéristiques des applications et de la plate-forme. Les contributions de cette thèse concernent l'analyse et l'amélioration des performances des applications basées sur la Mémoire Transactionnelle Logicielle (Software Transactional Memory – STM) pour des plates-formes multicœurs. Dans un premier temps, nous montrons que le modèle de TM et ses performances sont difficiles à analyser. Pour s'attaquer à ce problème, nous proposons un mécanisme de traçage générique et portable qui permet de récupérer des événements spécifiques à la TM afin de mieux analyser les performances des applications. Par exemple, les données tracées peuvent être utilisées pour détecter si l'application présente des points de contention ou si cette contention est répartie sur toute l'exécution. Notre approche peut être utilisée sur différentes applications et systèmes STM sans modifier leurs codes sources. Ensuite, nous abordons l'amélioration des performances des applications sur des plate-formes multicœurs. Nous soulignons que le placement des threads (thread mapping) est très important et peut améliorer considérablement les performances globales obtenues. Pour faire face à la grande diversité des applications, des systèmes STM et des plates-formes, nous proposons une approche basée sur l'Apprentissage Automatique (Machine Learning) pour prédire automatiquement les stratégies de placement de threads appropriées pour les applications de TM. Au cours d'une phase d'apprentissage préliminaire, nous construisons les profiles des applications s'exécutant sur différents systèmes STM pour obtenir un prédicteur. Nous utilisons ensuite ce prédicteur pour placer les threads de façon statique ou dynamique dans un système STM récent. Finalement, nous effectuons une évaluation expérimentale et nous montrons que l'approche statique est suffisamment précise et améliore les performances d'un ensemble d'applications d'un maximum de 18%. En ce qui concerne l'approche dynamique, nous montrons que l'on peut détecter des changements de phase d'exécution des applications composées des diverses charges de travail, en prévoyant une stratégie de placement appropriée pour chaque phase. Sur ces applications, nous avons obtenu des améliorations de performances d'un maximum de 31% par rapport à la meilleure stratégie statique. / Multicore processors are now a mainstream approach to deliver higher performance to parallel applications. In order to develop efficient parallel applications for those platforms, developers must take care of several aspects, ranging from the architectural to the application level. In this context, Transactional Memory (TM) appears as a programmer friendly alternative to traditional lock-based concurrency for those platforms. It allows programmers to write parallel code as transactions, which are guaranteed to execute atomically and in isolation regardless of eventual data races. At runtime, transactions are executed speculatively and conflicts are solved by re-executing conflicting transactions. Although TM intends to simplify concurrent programming, the best performance can only be obtained if the underlying runtime system matches the application and platform characteristics. The contributions of this thesis concern the analysis and improvement of the performance of TM applications based on Software Transactional Memory (STM) on multicore platforms. Firstly, we show that the TM model makes the performance analysis of TM applications a daunting task. To tackle this problem, we propose a generic and portable tracing mechanism that gathers specific TM events, allowing us to better understand the performances obtained. The traced data can be used, for instance, to discover if the TM application presents points of contention or if the contention is spread out over the whole execution. Our tracing mechanism can be used with different TM applications and STM systems without any changes in their original source codes. Secondly, we address the performance improvement of TM applications on multicores. We point out that thread mapping is very important for TM applications and it can considerably improve the global performances achieved. To deal with the large diversity of TM applications, STM systems and multicore platforms, we propose an approach based on Machine Learning to automatically predict suitable thread mapping strategies for TM applications. During a prior learning phase, we profile several TM applications running on different STM systems to construct a predictor. We then use the predictor to perform static or dynamic thread mapping in a state-of-the-art STM system, making it transparent to the users. Finally, we perform an experimental evaluation and we show that the static approach is fairly accurate and can improve the performance of a set of TM applications by up to 18%. Concerning the dynamic approach, we show that it can detect different phase changes during the execution of TM applications composed of diverse workloads, predicting thread mappings adapted for each phase. On those applications, we achieve performance improvements of up to 31% in comparison to the best static strategy.
128

Prédiction de l'activité dans les réseaux sociaux / Activity prediction in social-networks

Kawala, François 12 October 2015 (has links)
Cette étude est dédiée à un problème d’exploration de données dans les médias sociaux: la prédiction d’activité. Dans ce problème nous essayons de prédire l’activité associée à une thématique pour un horizon temporel restreint. Dans ce problème des contenus générés par différents utilisateurs, n’ayant pas de lien entre eux, contribuent à l’activité d’une même thématique.Afin de pouvoir définir et étudier la prédiction d’activité sans référence explicite à un réseau social existant, nous définissons un cadre d’analyse générique qui permet de décrire de nombreux médias sociaux. Trois définitions de la prédiction d’activité sont proposées. Premièrement la prédiction de la magnitude d’activité, un problème de régression qui vise à prédire l’activité exacte d’une thématique. Secondement, la prédiction de Buzz, un problème de classification binaire qui vise à prédire quelles thématiques subiront une augmentation soudaine d’activité. Enfin la prédiction du rang d’activité, un problème de learning-to-rank qui vise à prédire l’importance relative de chacune des thématiques. Ces trois problèmes sont étudiés avec les méthodes de l’état de l’art en apprentissage automatique. Les descripteurs proposés pour ces études sont définis en utilisant le cadre d’analyse générique. Ainsi il est facile d’adapter ces descripteurs à différent média sociaux.Notre capacité à prédire l’activité des thématiques est testée à l’aide d’un ensemble de données multilingue: Français, Anglais et Allemand. Les données ont été collecté durant 51 semaines sur Twitter et un forum de discussion. Plus de 500 millions de contenus générés par les utilisateurs ont été capturé. Une méthode de validation croisée est proposée afin de ne pas introduire de biais expérimental lié au temps. De plus, une méthode d’extraction non-supervisée des candidats au buzz est proposée. En effet, les changements abrupts de popularité sont rares et l’ensemble d’entraˆınement est très déséquilibré. Les problèmes de prédiction de l’activité sont étudiés dans deux configurations expérimentales différentes. La première configuration expérimentale porte sur l’ensemble des données collectées dans les deux médias sociaux, et sur les trois langues observées. La seconde configuration expérimentale porte exclusivement sur Twitter. Cette seconde configuration expérimentale vise à améliorer la reproductibilité de nos expériences. Pour ce faire, nous nous concentrons sur un sous-ensemble des thématiques non ambigu¨es en Anglais. En outre, nous limitons la durée des observations à dix semaines consécutives afin de limiter les risques de changement structurel dans les données observées. / This dissertation is devoted to a social-media-mining problem named the activity-prediction problem. In this problem one aims to predict the number of user-generated-contents that will be created about a topic in the near future. The user-generated-contents that belong to a topic are not necessary related to each other.In order to study the activity-prediction problem without referring directly to a particular social-media, a generic framework is proposed. This generic framework allows to describe various social-media in a unified way. With this generic framework the activityprediction problem is defined independently of an actual social-media. Three examples are provided to illustrate how this generic framework describes social-media. Three defi- nitions of the activity-prediction problem are proposed. Firstly the magnitude prediction problem defines the activity-prediction as a regression problem. With this definition one aims to predict the exact activity of a topic. Secondly, the buzz classification problem defines the activity-prediction as a binary classification problem. With this definition one aims to predict if a topic will have an activity burst of a predefined amplitude. Thirdly the rank prediction problem defines the activity-prediction as a learning-to-rank problem. With this definition one aims to rank the topics accordingly to theirs future activity-levels. These three definitions of the activity prediction problem are tackled with state-of-the-art machine learning approaches applied to generic features. Indeed, these features are defined with the help of the generic framework. Therefore these features are easily adaptable to various social-media. There are two types of features. Firstly the features which describe a single topic. Secondly the features which describe the interplay between two topics.Our ability to predict the activity is tested against an industrial-size multilingual dataset. The data has been collected during 51 weeks. Two sources of data were used: Twitter and a bulletin-board-system. The collected data contains three languages: English, French and German. More than five hundred millions user-generated-contents were captured. Most of these user-generated-contents are related to computer hardware, video games, and mobile telephony. The data collection necessitated the implementation of a daily routine. The data was prepared so that commercial-contents and technical failure are not sources of noise. A cross-validation method that takes into account the time of observations is used. In addition an unsupervised method to extract buzz candidates is proposed. Indeed the training-sets are very ill-balanced for the buzz classification problem, and it is necessary to preselect buzz candidates. The activity-prediction problems are studied within two different experimental settings. The first experimental setting includes data from Twitter and the bulletin-board-system, on a long time-scale, and with three different languages. The second experimental setting is dedicated specifically to Twitter. This second experiment aims to increase the reproducibility of experiments as much as possible. Hence, this experimental setting includes user-generated-contents collected with respect to a list of unambiguous English terms. In addition the observation are restricted to ten consecutive weeks. Hence the risk of unannounced change in the public API of Twitter is minimized.
129

De la segmentation au moyen de graphes d’images de muscles striés squelettiques acquises par RMN / Graph- based segmentation of skeletal striated muscles in NMR images

Baudin, Pierre-Yves 23 May 2013 (has links)
La segmentation d’images anatomiques de muscles striés squelettiques acquises par résonance magnétique nucléaire (IRM) présente un grand intérêt pour l’étude des myopathies. Elle est souvent un préalable nécessaire pour l’étude les mécanismes d’une maladie, ou pour le suivi thérapeutique des patients. Cependant, le détourage manuel des muscles est un travail long et fastidieux, au point de freiner les recherches cliniques qui en dépendent. Il est donc nécessaire d’automatiser cette étape. Les méthodes de segmentation automatique se basent en général sur les différences d’aspect visuel des objets à séparer et sur une détection précise des contours ou de points de repère anatomiques pertinents. L’IRM du muscle ne permettant aucune de ces approches, la segmentation automatique représente un défi de taille pour les chercheurs. Dans ce rapport de thèse, nous présentons plusieurs méthodes de segmentation d’images de muscles, toutes en rapport avec l’algorithme dit du marcheur aléatoire (MA). L’algorithme du MA, qui utilise une représentation en graphe de l’image, est connu pour être robuste dans les cas où les contours des objets sont manquants ou incomplets et pour son optimisation numérique rapide et globale. Dans sa version initiale, l’utilisateur doit d’abord segmenter de petites portions de chaque région de l’image, appelées graines, avant de lancer l’algorithme pour compléter la segmentation. Notre première contribution au domaine est un algorithme permettant de générer et d’étiqueter automatiquement toutes les graines nécessaires à la segmentation. Cette approche utilise une formulation en champs aléatoires de Markov, intégrant une connaissance à priori de l’anatomie et une détection préalable des contours entre des paires de graines. Une deuxième contribution vise à incorporer directement la connaissance à priori de la forme des muscles à la méthode du MA. Cette approche conserve l’interprétation probabiliste de l’algorithme original, ce qui permet de générer une segmentation en résolvant numériquement un grand système linéaire creux. Nous proposons comme dernière contribution un cadre d’apprentissage pour l’estimation du jeu de paramètres optimaux régulant l’influence du terme de contraste de l’algorithme du MA ainsi que des différents modèles de connaissance à priori. La principale difficulté est que les données d’apprentissage ne sont pas entièrement supervisées. En effet, l’utilisateur ne peut fournir qu’une segmentation déterministe de l’image, et non une segmentation probabiliste comme en produit l’algorithme du MA. Cela nous amène à faire de la segmentation probabiliste optimale une variable latente, et ainsi à formuler le problème d’estimation sous forme d’une machine à vecteurs de support latents (latent SVM). Toutes les méthodes proposées sont testées et validées sur des volumes de muscles squelettiques acquis par IRM dans un cadre clinique. / Segmentation of magnetic resonance images (MRI) of skeletal striated muscles is of crucial interest when studying myopathies. Diseases understanding, therapeutic followups of patients, etc. rely on discriminating the muscles in MRI anatomical images. However, delineating the muscle contours manually is an extremely long and tedious task, and thus often a bottleneck in clinical research. Typical automatic segmentation methods rely on finding discriminative visual properties between objects of interest, accurate contour detection or clinically interesting anatomical points. Skeletal muscles show none of these features in MRI, making automatic segmentation a challenging problem. In spite of recent advances on segmentation methods, their application in clinical settings is difficult, and most of the times, manual segmentation and correction is still the only option. In this thesis, we propose several approaches for segmenting skeletal muscles automatically in MRI, all related to the popular graph-based Random Walker (RW) segmentation algorithm. The strength of the RW method relies on its robustness in the case of weak contours and its fast and global optimization. Originally, the RW algorithm was developed for interactive segmentation: the user had to pre-segment small regions of the image – called seeds – before running the algorithm which would then complete the segmentation. Our first contribution is a method for automatically generating and labeling all the appropriate seeds, based on a Markov Random Fields formulation integrating prior knowledge of the relative positions, and prior detection of contours between pairs of seeds. A second contribution amounts to incorporating prior knowledge of the shape directly into the RW framework. Such formulation retains the probabilistic interpretation of the RW algorithm and thus allows to compute the segmentation by solving a large but simple sparse linear system, like in the original method. In a third contribution, we propose to develop a learning framework to estimate the optimal set of parameters for balancing the contrast term of the RW algorithm and the different existing prior models. The main challenge we face is that the training samples are not fully supervised. Specifically, they provide a hard segmentation of the medical images, instead of the optimal probabilistic segmentation, which corresponds to the desired output of the RW algorithm. We overcome this challenge by treating the optimal probabilistic segmentation as a latent variable. This allows us to employ the latent Support Vector Machine (latent SVM) formulation for parameter estimation. All proposed methods are tested and validated on real clinical datasets of MRI volumes of lower limbs.
130

On Metric and Statistical Properties of Topological Descriptors for geometric Data / Sur les propriétés métriques et statistiques des descripteurs topologiques pour les données géométriques

Carriere, Mathieu 21 November 2017 (has links)
Dans le cadre de l'apprentissage automatique, l'utilisation de représentations alternatives, ou descripteurs, pour les données est un problème fondamental permettant d'améliorer sensiblement les résultats des algorithmes. Parmi eux, les descripteurs topologiques calculent et encodent l'information de nature topologique contenue dans les données géométriques. Ils ont pour avantage de bénéficier de nombreuses bonnes propriétés issues de la topologie, et désirables en pratique, comme par exemple leur invariance aux déformations continues des données. En revanche, la structure et les opérations nécessaires à de nombreuses méthodes d'apprentissage, comme les moyennes ou les produits scalaires, sont souvent absents de l'espace de ces descripteurs. Dans cette thèse, nous étudions en détail les propriétés métriques et statistiques des descripteurs topologiques les plus fréquents, à savoir les diagrammes de persistance et Mapper. En particulier, nous montrons que le Mapper, qui est empiriquement un descripteur instable, peut être stabilisé avec une métrique appropriée, que l'on utilise ensuite pour calculer des régions de confiance et pour régler automatiquement ses paramètres. En ce qui concerne les diagrammes de persistance, nous montrons que des produits scalaires peuvent être utilisés via des méthodes à noyaux, en définissant deux noyaux, ou plongements, dans des espaces de Hilbert en dimension finie et infinie. / In the context of supervised Machine Learning, finding alternate representations, or descriptors, for data is of primary interest since it can greatly enhance the performance of algorithms. Among them, topological descriptors focus on and encode the topological information contained in geometric data. One advantage of using these descriptors is that they enjoy many good and desireable properties, due to their topological nature. For instance, they are invariant to continuous deformations of data. However, the main drawback of these descriptors is that they often lack the structure and operations required by most Machine Learning algorithms, such as a means or scalar products. In this thesis, we study the metric and statistical properties of the most common topological descriptors, the persistence diagrams and the Mappers. In particular, we show that the Mapper, which is empirically instable, can be stabilized with an appropriate metric, that we use later on to conpute confidence regions and automatic tuning of its parameters. Concerning persistence diagrams, we show that scalar products can be defined with kernel methods by defining two kernels, or embeddings, into finite and infinite dimensional Hilbert spaces.

Page generated in 0.0968 seconds