Global ETD Search

131	Machine Learning Strategies for Large-scale Taxonomies / Strategies d'apprentissage pour la classification dans les grandes taxonomies Babbar, Rohit 17 October 2014 (has links) À l'ère de Big Data, le développement de modèles d'apprentissage machine efficaces et évolutifs opérant sur des Tera-Octets de données est une nécessité. Dans cette thèse, nous étudions un cadre d'apprentissage machine pour la classification hiérarchique à large échelle. Cette analyse comprend l'étude des défis comme la complexité d'entraînement des modèles ainsi que leur temps de prédiction. Dans la première partie de la thèse, nous étudions la distribution des lois de puissance sous-jacente à la création des taxonomies à grande échelle. Cette étude permet de dériver des bornes sur la complexité spatiale des classifieurs hiérarchiques. L'exploitation de ce résultat permet alors le développement des modèles efficaces pour les classes distribuées selon une loi de puissance. Nous proposons également une méthode efficace pour la sélection de modèles pour des classifieurs multi-classes de type séparateurs à vaste marge ou de la régression logistique. Dans une deuxième partie, nous étudions le problème de la classification hiérarichique contre la classification plate d'un point de vue théorique. Nous dérivons une borne sur l'erreur de généralisation qui permet de définir les cas où la classification hiérarchique serait plus avantageux que la classification plate. Nous exploitons en outre les bornes développées pour proposer deux méthodes permettant adapter une taxonomie donnée de catégories à une taxonomies de sorties qui permet d'atteindre une meilleure performance de test. / In the era of Big Data, we need efficient and scalable machine learning algorithms which can perform automatic classification of Tera-Bytes of data. In this thesis, we study the machine learning challenges for classification in large-scale taxonomies. These challenges include computational complexity of training and prediction and the performance on unseen data. In the first part of the thesis, we study the underlying power-law distribution in large-scale taxonomies. This analysis then motivates the derivation of bounds on space complexity of hierarchical classifiers. Exploiting the study of this distribution further, we then design classification scheme which leads to better accuracy on large-scale power-law distributed categories. We also propose an efficient method for model-selection when training multi-class version of classifiers such as Support Vector Machine and Logistic Regression. Finally, we address another key model selection problem in large scale classification concerning the choice between flat versus hierarchical classification from a learning theoretic aspect. The presented generalization error analysis provides an explanation to empirical findings in many recent studies in large-scale hierarchical classification. We further exploit the developed bounds to propose two methods for adapting the given taxonomy of categories to output taxonomies which yield better test accuracy when used in a top-down setup. Apprentissage automatique Classification à large échelle Classification hiérarchique Automatic Learning Large-scale Classification Hierarchical classification 004
132	Optimisation de la performance des applications de mémoire transactionnelle sur des plates-formes multicoeurs : une approche basée sur l'apprentissage automatique / Improving the Performance of Transactional Memory Applications on Multicores : A Machine Learning-based Approach Castro, Márcio 03 December 2012 (has links) Le concept de processeur multicœurs constitue le facteur dominant pour offrir des hautes performances aux applications parallèles. Afin de développer des applications parallèles capable de tirer profit de ces plate-formes, les développeurs doivent prendre en compte plusieurs aspects, allant de l'architecture aux caractéristiques propres à l'application. Dans ce contexte, la Mémoire Transactionnelle (Transactional Memory – TM) apparaît comme une alternative intéressante à la synchronisation basée sur les verrous pour ces plates-formes. Elle permet aux programmeurs d'écrire du code parallèle encapsulé dans des transactions, offrant des garanties comme l'atomicité et l'isolement. Lors de l'exécution, les opérations sont exécutées spéculativement et les conflits sont résolus par ré-exécution des transactions en conflit. Bien que le modèle de TM ait pour but de simplifier la programmation concurrente, les meilleures performances ne pourront être obtenues que si l'exécutif est capable de s'adapter aux caractéristiques des applications et de la plate-forme. Les contributions de cette thèse concernent l'analyse et l'amélioration des performances des applications basées sur la Mémoire Transactionnelle Logicielle (Software Transactional Memory – STM) pour des plates-formes multicœurs. Dans un premier temps, nous montrons que le modèle de TM et ses performances sont difficiles à analyser. Pour s'attaquer à ce problème, nous proposons un mécanisme de traçage générique et portable qui permet de récupérer des événements spécifiques à la TM afin de mieux analyser les performances des applications. Par exemple, les données tracées peuvent être utilisées pour détecter si l'application présente des points de contention ou si cette contention est répartie sur toute l'exécution. Notre approche peut être utilisée sur différentes applications et systèmes STM sans modifier leurs codes sources. Ensuite, nous abordons l'amélioration des performances des applications sur des plate-formes multicœurs. Nous soulignons que le placement des threads (thread mapping) est très important et peut améliorer considérablement les performances globales obtenues. Pour faire face à la grande diversité des applications, des systèmes STM et des plates-formes, nous proposons une approche basée sur l'Apprentissage Automatique (Machine Learning) pour prédire automatiquement les stratégies de placement de threads appropriées pour les applications de TM. Au cours d'une phase d'apprentissage préliminaire, nous construisons les profiles des applications s'exécutant sur différents systèmes STM pour obtenir un prédicteur. Nous utilisons ensuite ce prédicteur pour placer les threads de façon statique ou dynamique dans un système STM récent. Finalement, nous effectuons une évaluation expérimentale et nous montrons que l'approche statique est suffisamment précise et améliore les performances d'un ensemble d'applications d'un maximum de 18%. En ce qui concerne l'approche dynamique, nous montrons que l'on peut détecter des changements de phase d'exécution des applications composées des diverses charges de travail, en prévoyant une stratégie de placement appropriée pour chaque phase. Sur ces applications, nous avons obtenu des améliorations de performances d'un maximum de 31% par rapport à la meilleure stratégie statique. / Multicore processors are now a mainstream approach to deliver higher performance to parallel applications. In order to develop efficient parallel applications for those platforms, developers must take care of several aspects, ranging from the architectural to the application level. In this context, Transactional Memory (TM) appears as a programmer friendly alternative to traditional lock-based concurrency for those platforms. It allows programmers to write parallel code as transactions, which are guaranteed to execute atomically and in isolation regardless of eventual data races. At runtime, transactions are executed speculatively and conflicts are solved by re-executing conflicting transactions. Although TM intends to simplify concurrent programming, the best performance can only be obtained if the underlying runtime system matches the application and platform characteristics. The contributions of this thesis concern the analysis and improvement of the performance of TM applications based on Software Transactional Memory (STM) on multicore platforms. Firstly, we show that the TM model makes the performance analysis of TM applications a daunting task. To tackle this problem, we propose a generic and portable tracing mechanism that gathers specific TM events, allowing us to better understand the performances obtained. The traced data can be used, for instance, to discover if the TM application presents points of contention or if the contention is spread out over the whole execution. Our tracing mechanism can be used with different TM applications and STM systems without any changes in their original source codes. Secondly, we address the performance improvement of TM applications on multicores. We point out that thread mapping is very important for TM applications and it can considerably improve the global performances achieved. To deal with the large diversity of TM applications, STM systems and multicore platforms, we propose an approach based on Machine Learning to automatically predict suitable thread mapping strategies for TM applications. During a prior learning phase, we profile several TM applications running on different STM systems to construct a predictor. We then use the predictor to perform static or dynamic thread mapping in a state-of-the-art STM system, making it transparent to the users. Finally, we perform an experimental evaluation and we show that the static approach is fairly accurate and can improve the performance of a set of TM applications by up to 18%. Concerning the dynamic approach, we show that it can detect different phase changes during the execution of TM applications composed of diverse workloads, predicting thread mappings adapted for each phase. On those applications, we achieve performance improvements of up to 31% in comparison to the best static strategy. Mémoire Transactionnelle Logicielle Apprentissage Automatique Traçage Placement de Threads Software Transactional Memory Machine Learning Tracing Thread Mapping
133	Prédiction de l'activité dans les réseaux sociaux / Activity prediction in social-networks Kawala, François 12 October 2015 (has links) Cette étude est dédiée à un problème d’exploration de données dans les médias sociaux: la prédiction d’activité. Dans ce problème nous essayons de prédire l’activité associée à une thématique pour un horizon temporel restreint. Dans ce problème des contenus générés par différents utilisateurs, n’ayant pas de lien entre eux, contribuent à l’activité d’une même thématique.Afin de pouvoir définir et étudier la prédiction d’activité sans référence explicite à un réseau social existant, nous définissons un cadre d’analyse générique qui permet de décrire de nombreux médias sociaux. Trois définitions de la prédiction d’activité sont proposées. Premièrement la prédiction de la magnitude d’activité, un problème de régression qui vise à prédire l’activité exacte d’une thématique. Secondement, la prédiction de Buzz, un problème de classification binaire qui vise à prédire quelles thématiques subiront une augmentation soudaine d’activité. Enfin la prédiction du rang d’activité, un problème de learning-to-rank qui vise à prédire l’importance relative de chacune des thématiques. Ces trois problèmes sont étudiés avec les méthodes de l’état de l’art en apprentissage automatique. Les descripteurs proposés pour ces études sont définis en utilisant le cadre d’analyse générique. Ainsi il est facile d’adapter ces descripteurs à différent média sociaux.Notre capacité à prédire l’activité des thématiques est testée à l’aide d’un ensemble de données multilingue: Français, Anglais et Allemand. Les données ont été collecté durant 51 semaines sur Twitter et un forum de discussion. Plus de 500 millions de contenus générés par les utilisateurs ont été capturé. Une méthode de validation croisée est proposée afin de ne pas introduire de biais expérimental lié au temps. De plus, une méthode d’extraction non-supervisée des candidats au buzz est proposée. En effet, les changements abrupts de popularité sont rares et l’ensemble d’entraˆınement est très déséquilibré. Les problèmes de prédiction de l’activité sont étudiés dans deux configurations expérimentales différentes. La première configuration expérimentale porte sur l’ensemble des données collectées dans les deux médias sociaux, et sur les trois langues observées. La seconde configuration expérimentale porte exclusivement sur Twitter. Cette seconde configuration expérimentale vise à améliorer la reproductibilité de nos expériences. Pour ce faire, nous nous concentrons sur un sous-ensemble des thématiques non ambigu¨es en Anglais. En outre, nous limitons la durée des observations à dix semaines consécutives afin de limiter les risques de changement structurel dans les données observées. / This dissertation is devoted to a social-media-mining problem named the activity-prediction problem. In this problem one aims to predict the number of user-generated-contents that will be created about a topic in the near future. The user-generated-contents that belong to a topic are not necessary related to each other.In order to study the activity-prediction problem without referring directly to a particular social-media, a generic framework is proposed. This generic framework allows to describe various social-media in a unified way. With this generic framework the activityprediction problem is defined independently of an actual social-media. Three examples are provided to illustrate how this generic framework describes social-media. Three defi- nitions of the activity-prediction problem are proposed. Firstly the magnitude prediction problem defines the activity-prediction as a regression problem. With this definition one aims to predict the exact activity of a topic. Secondly, the buzz classification problem defines the activity-prediction as a binary classification problem. With this definition one aims to predict if a topic will have an activity burst of a predefined amplitude. Thirdly the rank prediction problem defines the activity-prediction as a learning-to-rank problem. With this definition one aims to rank the topics accordingly to theirs future activity-levels. These three definitions of the activity prediction problem are tackled with state-of-the-art machine learning approaches applied to generic features. Indeed, these features are defined with the help of the generic framework. Therefore these features are easily adaptable to various social-media. There are two types of features. Firstly the features which describe a single topic. Secondly the features which describe the interplay between two topics.Our ability to predict the activity is tested against an industrial-size multilingual dataset. The data has been collected during 51 weeks. Two sources of data were used: Twitter and a bulletin-board-system. The collected data contains three languages: English, French and German. More than five hundred millions user-generated-contents were captured. Most of these user-generated-contents are related to computer hardware, video games, and mobile telephony. The data collection necessitated the implementation of a daily routine. The data was prepared so that commercial-contents and technical failure are not sources of noise. A cross-validation method that takes into account the time of observations is used. In addition an unsupervised method to extract buzz candidates is proposed. Indeed the training-sets are very ill-balanced for the buzz classification problem, and it is necessary to preselect buzz candidates. The activity-prediction problems are studied within two different experimental settings. The first experimental setting includes data from Twitter and the bulletin-board-system, on a long time-scale, and with three different languages. The second experimental setting is dedicated specifically to Twitter. This second experiment aims to increase the reproducibility of experiments as much as possible. Hence, this experimental setting includes user-generated-contents collected with respect to a list of unambiguous English terms. In addition the observation are restricted to ten consecutive weeks. Hence the risk of unannounced change in the public API of Twitter is minimized. Réseaux sociaux Apprentissage automatique Prédiction de tendances Social networks Machine Learning Trends prediction 004
134	De la segmentation au moyen de graphes d’images de muscles striés squelettiques acquises par RMN / Graph- based segmentation of skeletal striated muscles in NMR images Baudin, Pierre-Yves 23 May 2013 (has links) La segmentation d’images anatomiques de muscles striés squelettiques acquises par résonance magnétique nucléaire (IRM) présente un grand intérêt pour l’étude des myopathies. Elle est souvent un préalable nécessaire pour l’étude les mécanismes d’une maladie, ou pour le suivi thérapeutique des patients. Cependant, le détourage manuel des muscles est un travail long et fastidieux, au point de freiner les recherches cliniques qui en dépendent. Il est donc nécessaire d’automatiser cette étape. Les méthodes de segmentation automatique se basent en général sur les différences d’aspect visuel des objets à séparer et sur une détection précise des contours ou de points de repère anatomiques pertinents. L’IRM du muscle ne permettant aucune de ces approches, la segmentation automatique représente un défi de taille pour les chercheurs. Dans ce rapport de thèse, nous présentons plusieurs méthodes de segmentation d’images de muscles, toutes en rapport avec l’algorithme dit du marcheur aléatoire (MA). L’algorithme du MA, qui utilise une représentation en graphe de l’image, est connu pour être robuste dans les cas où les contours des objets sont manquants ou incomplets et pour son optimisation numérique rapide et globale. Dans sa version initiale, l’utilisateur doit d’abord segmenter de petites portions de chaque région de l’image, appelées graines, avant de lancer l’algorithme pour compléter la segmentation. Notre première contribution au domaine est un algorithme permettant de générer et d’étiqueter automatiquement toutes les graines nécessaires à la segmentation. Cette approche utilise une formulation en champs aléatoires de Markov, intégrant une connaissance à priori de l’anatomie et une détection préalable des contours entre des paires de graines. Une deuxième contribution vise à incorporer directement la connaissance à priori de la forme des muscles à la méthode du MA. Cette approche conserve l’interprétation probabiliste de l’algorithme original, ce qui permet de générer une segmentation en résolvant numériquement un grand système linéaire creux. Nous proposons comme dernière contribution un cadre d’apprentissage pour l’estimation du jeu de paramètres optimaux régulant l’influence du terme de contraste de l’algorithme du MA ainsi que des différents modèles de connaissance à priori. La principale difficulté est que les données d’apprentissage ne sont pas entièrement supervisées. En effet, l’utilisateur ne peut fournir qu’une segmentation déterministe de l’image, et non une segmentation probabiliste comme en produit l’algorithme du MA. Cela nous amène à faire de la segmentation probabiliste optimale une variable latente, et ainsi à formuler le problème d’estimation sous forme d’une machine à vecteurs de support latents (latent SVM). Toutes les méthodes proposées sont testées et validées sur des volumes de muscles squelettiques acquis par IRM dans un cadre clinique. / Segmentation of magnetic resonance images (MRI) of skeletal striated muscles is of crucial interest when studying myopathies. Diseases understanding, therapeutic followups of patients, etc. rely on discriminating the muscles in MRI anatomical images. However, delineating the muscle contours manually is an extremely long and tedious task, and thus often a bottleneck in clinical research. Typical automatic segmentation methods rely on finding discriminative visual properties between objects of interest, accurate contour detection or clinically interesting anatomical points. Skeletal muscles show none of these features in MRI, making automatic segmentation a challenging problem. In spite of recent advances on segmentation methods, their application in clinical settings is difficult, and most of the times, manual segmentation and correction is still the only option. In this thesis, we propose several approaches for segmenting skeletal muscles automatically in MRI, all related to the popular graph-based Random Walker (RW) segmentation algorithm. The strength of the RW method relies on its robustness in the case of weak contours and its fast and global optimization. Originally, the RW algorithm was developed for interactive segmentation: the user had to pre-segment small regions of the image – called seeds – before running the algorithm which would then complete the segmentation. Our first contribution is a method for automatically generating and labeling all the appropriate seeds, based on a Markov Random Fields formulation integrating prior knowledge of the relative positions, and prior detection of contours between pairs of seeds. A second contribution amounts to incorporating prior knowledge of the shape directly into the RW framework. Such formulation retains the probabilistic interpretation of the RW algorithm and thus allows to compute the segmentation by solving a large but simple sparse linear system, like in the original method. In a third contribution, we propose to develop a learning framework to estimate the optimal set of parameters for balancing the contrast term of the RW algorithm and the different existing prior models. The main challenge we face is that the training samples are not fully supervised. Specifically, they provide a hard segmentation of the medical images, instead of the optimal probabilistic segmentation, which corresponds to the desired output of the RW algorithm. We overcome this challenge by treating the optimal probabilistic segmentation as a latent variable. This allows us to employ the latent Support Vector Machine (latent SVM) formulation for parameter estimation. All proposed methods are tested and validated on real clinical datasets of MRI volumes of lower limbs. Vision par ordinateur Apprentissage automatique Traitement des images médicales Computer vision Machine learning Medical image analysis
135	On Metric and Statistical Properties of Topological Descriptors for geometric Data / Sur les propriétés métriques et statistiques des descripteurs topologiques pour les données géométriques Carriere, Mathieu 21 November 2017 (has links) Dans le cadre de l'apprentissage automatique, l'utilisation de représentations alternatives, ou descripteurs, pour les données est un problème fondamental permettant d'améliorer sensiblement les résultats des algorithmes. Parmi eux, les descripteurs topologiques calculent et encodent l'information de nature topologique contenue dans les données géométriques. Ils ont pour avantage de bénéficier de nombreuses bonnes propriétés issues de la topologie, et désirables en pratique, comme par exemple leur invariance aux déformations continues des données. En revanche, la structure et les opérations nécessaires à de nombreuses méthodes d'apprentissage, comme les moyennes ou les produits scalaires, sont souvent absents de l'espace de ces descripteurs. Dans cette thèse, nous étudions en détail les propriétés métriques et statistiques des descripteurs topologiques les plus fréquents, à savoir les diagrammes de persistance et Mapper. En particulier, nous montrons que le Mapper, qui est empiriquement un descripteur instable, peut être stabilisé avec une métrique appropriée, que l'on utilise ensuite pour calculer des régions de confiance et pour régler automatiquement ses paramètres. En ce qui concerne les diagrammes de persistance, nous montrons que des produits scalaires peuvent être utilisés via des méthodes à noyaux, en définissant deux noyaux, ou plongements, dans des espaces de Hilbert en dimension finie et infinie. / In the context of supervised Machine Learning, finding alternate representations, or descriptors, for data is of primary interest since it can greatly enhance the performance of algorithms. Among them, topological descriptors focus on and encode the topological information contained in geometric data. One advantage of using these descriptors is that they enjoy many good and desireable properties, due to their topological nature. For instance, they are invariant to continuous deformations of data. However, the main drawback of these descriptors is that they often lack the structure and operations required by most Machine Learning algorithms, such as a means or scalar products. In this thesis, we study the metric and statistical properties of the most common topological descriptors, the persistence diagrams and the Mappers. In particular, we show that the Mapper, which is empirically instable, can be stabilized with an appropriate metric, that we use later on to conpute confidence regions and automatic tuning of its parameters. Concerning persistence diagrams, we show that scalar products can be defined with kernel methods by defining two kernels, or embeddings, into finite and infinite dimensional Hilbert spaces. Analyse des données topologiques Méthodes à noyaux Apprentissage automatique Statistiques Topological data analysis Kernel methods Machine learning Statistics
136	Synthèse incrémentale de la parole à partir du texte / Incremental text-to-speech synthesis Pouget, Maël 23 June 2017 (has links) Ce travail de thèse porte sur un nouveau paradigme pour la synthèse de la parole à partir du texte, à savoir la synthèse incrémentale. L'objectif est de délivrer la parole de synthèse au fur et à mesure de la saisie du texte par l'utilisateur, contrairement aux systèmes classiques pour lesquels la synthèse est déclenchée après la saisie d'une ou plusieurs phrases. L'application principale visée est l'aide aux personnes présentant un trouble sévère de la communication orale, et communiquant principalement à l'aide d'un synthétiseur vocal. Un synthétiseur vocal incrémental permettrait de fluidifier une conversation en limitant le temps que passe l'interlocuteur à attendre la fin de la saisie de la phrase à synthétiser. Un des défi que pose ce paradigme est la synthèse d'un mot ou d'un groupe de mot avec une qualité segmentale et prosodique acceptable alors que la phrase qui le contient n'est que partiellement connue au moment de la synthèse. Pour ce faire, nous proposons différentes adaptations des deux principaux modules d'un système de synthèse de parole à partir du texte : le module de traitement automatique de la langue naturelle (TAL) et le module de synthèse sonore. Pour le TAL en synthèse incrémentale, nous nous sommes intéressé à l'analyse morpho-syntaxique, qui est une étape décisive pour la phonétisation et la détermination de la prosodie cible. Nous décrivons un algorithme d'analyse morpho-syntaxique dit "à latence adaptative". Ce dernier estime en ligne si une classe lexicale (estimée à l'aide d'un analyseur morpho-syntaxique standard basé sur l'approche n-gram), est susceptible de changer après l'ajout par l'utilisateur d'un ou plusieurs mots. Si la classe est jugée instable, alors la synthèse sonore est retardée, dans le cas contraire, elle peut s'effectuer sans risque a priori de dégrader de la qualité segmentale et suprasegmentale. Cet algorithme exploite une ensemble d'arbre de décisions binaires dont les paramètres sont estimés par apprentissage automatique sur un large corpus de texte. Cette méthode nous permet de réaliser un étiquetage morpho-syntaxique en contexte incrémental avec une précision de 92,5% pour une latence moyenne de 1,4 mots. Pour la synthèse sonore, nous nous plaçons dans le cadre de la synthèse paramétrique statistique, basée sur les modèles de Markov cachés (Hidden Markov Models, HMM). Nous proposons une méthode de construction de la voix de synthèse (estimation des paramètres de modèles HMM) prenant en compte une éventuelle incertitude sur la valeur de certains descripteurs contextuels qui ne peuvent pas être calculés en synthèse incrémentale (c'est-à-dire ceux qui portent sur les mots qui ne sont pas encore saisis au moment de la synthèse).Nous comparons la méthode proposée à deux autres stratégies décrites dans la littérature. Les résultats des évaluations objectives et perceptives montrent l’intérêt de la méthode proposée pour la langue française. Enfin, nous décrivons un prototype complet qui combine les deux méthodes proposées pour le TAL et la synthèse par HMM incrémentale. Une évaluation perceptive de la pertinence et de la qualité des groupes de mots synthétisés au fur et à mesure de la saisie montre que notre système réalise un compromis acceptable entre réactivité (minimisation du temps entre la saisie d'un mot et sa synthèse) et qualité (segmentale et prosodique) de la parole de synthèse. / In this thesis, we investigate a new paradigm for text-to-speech synthesis (TTS) allowing to deliver synthetic speech while the text is being inputted : incremental text-to-speech synthesis. Contrary to conventional TTS systems, that trigger the synthesis after a whole sentence has been typed down, incremental TTS devices deliver speech in a ``piece-meal'' fashion (i.e. word after word) while aiming at preserving the speech quality achievable by conventional TTS systems.By reducing the waiting time between two speech outputs while maintaining a good speech quality, such a system should improve the quality of the interaction for speech-impaired people using TTS devices to express themselves.The main challenge brought by incremental TTS is the synthesis of a word, or of a group of words, with the same segmental and supra-segmental quality as conventional TTS, but without knowing the end of the sentence to be synthesized. In this thesis, we propose to adapt the two main modules (natural language processing and speech synthesis) of a TTS system to the incremental paradigm.For the natural language processing module, we focused on part-of-speech tagging, which is a key step for phonetization and prosody generation. We propose an ``adaptive latency algorithm'' for part-of-speech tagging, that estimates if the inferred part-of-speech for a given word (based on the n-gram approach) is likely to change when adding one or several words. If the Part-of-speech is considered as likely to change, the synthesis of the word is delayed. In the other case, the word may be synthesized without risking to alter the segmental or supra-segmental quality of the synthetic speech. The proposed method is based on a set of binary decision trees trained over a large corpus of text. We achieve 92.5% precision for the incremental part-of-speech tagging task and a mean delay of 1.4 words.For the speech synthesis module, in the context of HMM-based speech synthesis, we propose a training method that takes into account the uncertainty about contextual features that cannot be computed at synthesis time (namely, contextual features related to the following words). We compare the proposed method to other strategies (baselines) described in the literature. Objective and subjective evaluation show that the proposed method outperforms the baselines for French.Finally, we describe a prototype developed during this thesis implementing the proposed solution for incremental part-of-speech tagging and speech synthesis. A perceptive evaluation of the word grouping derived from the proposed adaptive latency algorithm as well as the segmental quality of the synthetic speech tends to show that our system reaches a good trade-off between reactivity (minimizing the waiting time between the input and the synthesis of a word) and speech quality (both at segmental and supra-segmental levels). Parole Apprentissage automatique Temps-Réel Synthèse Prosodie Speech Machine learning Real-Time Synthesis (TTS) Prosody 620
137	Algorithmique et applications pour les flottes hétérogènes multiniveaux de matériels mobiles communicants autonomes / Algorithms and applications for mobile communicating multi-level heterogeneous unmanned systems Bindel, Sébastien 03 October 2016 (has links) Les véhicules autonomes sont des engins mobiles caractérisés par l’absence de pilote à leur bord et font partie d’un système plus global comprenant des éléments tels qu’une station de contrôle. Ils présentent la particularité d’avoir une conception spécifique liée à la mission assignée et peuvent être déployés dans des milieux divers et hétérogènes, incluant le milieu spatial, aérien,terrestre, marin de surface et sous-marin.Certaines missions requièrent la coopération de véhicules hétérogènes, où chaque type de véhicule réalise une mission locale pour permettre la réalisation d’une mission globale. La coopération entre les véhicules nécessite l’interopérabilité des communications. Même si des efforts ont été entrepris dans ce sens en normalisant les couches applicatives, ces travaux restent insuffisants.En effet, il n’existe pas de protocole qui assure l’acheminement des données entre différents types de véhicules qui possèdent une mobilité propre et utilisent parfois des médias de communication différents, comme les engins sous-marins et terrestres. L’objectif principal de cette thèse est de permettre à tous les engins de communiquer entre eux et de rendre cette interconnexion transparente. Pour cela, nous adoptons une approche multicouche qui nous permet de diffuser et d’acheminer des données vers n’importe quel engin. Il devient alors possible pour chaque véhicule de transmettre des données de manière transparente à un autre véhicule de nature différente sans connaître la topologie globale du réseau. Pour cela nous avons conçu un protocole de routage qui adapte sa politique en fonction du contexte et de l’environnement.Nous exploitons également un mode de diffusion qui permet de transmettre des données vers un engin faisant partie d’un groupe cible en nous basant sur leurs caractéristiques afin d’acheminer les données de manière optimale. / Unmanned vehicles are defined as autonomous entities with no operator on board. They are a part of a global system called Unmanned System which also includes elements such as a control station. These vehicles are designed to fulfil the requirements of assigned missions and can be deployed in spatial, aerial, terrestrial and maritime environments. Since a mission cannot be accomplished with a single vehicle, vehicles have to cooperate in order to achieve a global mission. However, cooperation requires communication interoperability between all vehicles. Even if previous works have standardized application protocols, it is not sufficient to ensure data delivery between all vehicles, since they have a specific mobility pattern and sometimes different network interfaces. The main goal of this thesis is to offer a seamless network, including all kinds of unmanned systems. We propose a cross layer approach in order to route and deliver data to any vehicle. In this context, each vehicle is able to transmit data to another without information on the global topology. We have developed a routing protocol, which adapts its strategy, according to the contextand to the network environment. In addition, we exploit the any cast diffusion technique based on vehicles features in order to adopt an optimal routing scheme. Systèmes autonomes Mobilité Routage Apprentissage automatique Unmanned systems Mobility Routing Machine learning
138	Fusion d'images multimodales pour la caractérisation du cancer de la prostate / Multimodal image fusion for prostate cancer characterization Commandeur, Frédéric 19 May 2016 (has links) Cette thèse s'inscrit dans le contexte de la caractérisation du cancer de la prostate à partir de données d'imagerie multimodale. L'objectif est d'identifier et de caractériser les tumeurs prostatiques à partir d'observation in-vivo, incluant imagerie par résonance magnétique multiparamétrique (IRMm), tomodensitométrie (TDM) et tomographie par émission de positons (TEP), avec une référence biologique sous forme de lames histologiques fournies par l'analyse anatomopathologique de la prostate après prostatectomie radicale. Nous proposons dans un premier temps deux méthodes de recalage afin de réaliser la mise en correspondance des données multimodales dans un référentiel spatial commun défini par l'IRM. Le premier algorithme s'attache à l'alignement des images TDM/TEP et IRM, en combinant information de contour et probabilité de présence de la prostate. Le second a pour objectif de recaler les images histologiques et IRM. En suivant le protocole de Stanford, la pièce de prostatectomie est découpée plus finement fournissant ainsi plus de lames histologiques qu'en routine clinique. Leur correspondance avec les coupes IRM est alors estimée à l'aide de l'information à priori de la découpe et de points saillants (SURF) extraits dans les deux modalités. Cette initialisation sert de base à un recalage affine puis non-rigide basé sur l'information mutuelle et des cartes de distance obtenues à partir des structures intraprostatiques. Dans un second temps, des caractéristiques structurelles (Haar, Gabor, etc) et fonctionnelles (Ktrans, Kep, SUV, TLG, etc) sont extraites en chaque voxel de la prostate à partir des images IRM et TEP. À ces vecteurs de caractéristiques sont associés les labels biologiques correspondant obtenus lors de l'analyse anatomopathologique. Parmi ces labels, nous disposons d'un score d'agressivité appelé score de Gleason et de scores immunohistochimiques quantifiant certains aspects biologiques des tissus, tels que l'hypoxie et la prolifération cellulaire. Finalement, ces couples (vecteurs de caractéristiques/informations biologiques) servent de données d'apprentissage à l’entraînement de classifieurs RF et SVM, utilisés par la suite pour caractériser les tumeurs à partir de nouvelles observations in-vivo. Dans ces travaux, nous réalisons une étude de faisabilité sur neuf patients. / This thesis concerns the prostate cancer characterization based on multimodal imaging data. The purpose is to identify and characterize the tumors using in-vivo observations including mMRI and PET/CT, with a biological reference obtained from anatomopathological analysis of radical prostatectomy specimen providing histological slices. Firstly, we propose two registration methods to match the multimodal images in the the spatial reference defined by MRI. The first algorithm aims at aligning PET/CT images with MRI by combining contours information and presence probability of the prostate. The objective of the second is to register the histological slices with the MRI. Based on the Stanford protocol, a thinner cutting of the radical prostatectomy specimen is done providing more slices compared to clinical routine. The correspondance between histological and MRI slices is then estimated using a combination of the prior information of the slicing and salient points (SURF) extracted in both modalities. This initialization step allows for an affine and non-rigid registration based on mutual information and intraprostatic structures distance map. Secondly, structural (Haar, Garbor, etc) and functional (Ktrans, Kep, SUV, TLG, etc) descriptors are extracted for each prostate voxel over MRI and PET images. Corresponding biological labels obtained from the anatomopathological analysis are associated to the features vectors. The biological labels are composed by the Gleason score providing an information of aggressiveness and immunohistochemistry grades providing a quantification of biological process such as hypoxia and cell growth. Finally, these pairs (features vectors/biological information) are used as training data to build RF and SVM classifiers to characterize tumors from new in-vivo observations. In this work, we perform a feasibility study with nine patients. Recalage multimodal Apprentissage automatique Extraction de caractéristiques Prostate cancer characterization Multimodal image Machine learning
139	Enhanced representation & learning of magnetic resonance signatures in multiple sclerosis / Améliorer la représentation et l'apprentissage des signatures d'images par résonance magnétique dans la sclérose en plaques Karpate, Yogesh 14 September 2015 (has links) La sclérose en plaques (SEP) est une maladie auto-immune inflammatoire du jeune adulte causant des handicaps variables et progressifs irréversibles. Cette maladie est présente de manière prépondérante dans l’hémisphère nord. Cette thèse s’attache à la caractérisation et à la modélisation de signatures IRM multimodales des lésions de sclérose en plaques. L’objectif est d’améliorer les modèles de représentation de l’image et d’adapter les méthodes d’apprentissage pour la reconnaissance visuelle, dans le cas où des informations de haut niveau telles que les lésions SEP incluses dans l’IRM sont extraites. Nous proposons dans cette thèse un nouvel algorithme de normalisation d’intensité en IRM, particulièrement centré sur la normalisation d’images longitudinales multimodales, afin de produire des détections d’évolution de lésion robustes. Cette normalisation est centrée sur la modélisation de l’histogramme de l’image par un modèle de mixture de Gaussiennes robuste à la présence de lésions. Faisant suite à cet algorithme, nous proposons également deux nouvelles méthodes de détection de lésions SEP basées sur (1) une comparaison statistique du patient vis à vis d’une population de sujets contrôle et (2) un cadre probabiliste de détection basé sur un apprentissage d’une classe (tissus sains). Nous avons évalué les algorithmes proposés sur plusieurs jeux de données multi-centriques et vérifié leur efficacité dans la détection de lésions. / Multiple Sclerosis (MS) is an acquired inflammatory disease, which causes disabilities in young adults and it is common in northern hemisphere. This PhD work focuses on characterization and modeling of multidimensional MRI signatures in MS Lesions (MSL). The objective is to improve image representation and learning for visual recognition, where high level information such as MSL contained in MRI are automatically extracted. We propose a new longitudinal intensity normalization algorithm for multichannel MRI in the presence of MS lesions, which provides consistent and reliable longitudinal detections. This is primarily based on learning the tissue intensities from multichannel MRI using robust Gaussian Mixture Modeling. Further, we proposed two MSL detection methods based on a statistical patient to population comparison framework and probabilistic one class learning. We evaluated our proposed algorithms on multi-center databases to verify its efficacy. IRM Sclérose en plaques Normalisation d’intensités Statistiques Apprentissage automatique MRI Multiple Sclerosis Intensity-Normalization Statistics Machine Learning
140	De l'indexation d'évènements dans des films : application à la détection de violence / On events indexing in movies : application to violence detection Penet, Cédric 10 October 2013 (has links) Dans cette thèse, nous nous intéressons à la détection de concepts sémantiques dans des films "Hollywoodiens" à l'aide de concepts audio et vidéos, dans le cadre applicatif de la détection de violence. Nos travaux se portent sur deux axes : la détection de concepts audio violents, tels que les coups de feu et les explosions, puis la détection de violence, dans un premier temps uniquement fondée sur l'audio, et dans un deuxième temps fondée sur l'audio et la vidéo. Dans le cadre de la détection de concepts audio, nous mettons tout d'abord un problème de généralisation en lumière, et nous montrons que ce problème est probablement dû à une divergence statistique entre les attributs audio extraits des films. Nous proposons pour résoudre ce problème d'utiliser le concept des mots audio, de façon à réduire cette variabilité en groupant les échantillons par similarité, associé à des réseaux Bayésiens contextuels. Les résultats obtenus sont très encourageants, et une comparaison avec un état de l'art obtenu sur les même données montre que les résultats sont équivalents. Le système obtenu peut être soit très robuste vis-à-vis du seuil appliqué en utilisant la fusion précoce des attributs, soit proposer une grande variété de points de fonctionnement. Nous proposons enfin une adaptation de l'analyse factorielle développée dans le cadre de la reconnaissance du locuteur, et montrons que son intégration dans notre système améliore les résultats obtenus. Dans le cadre de la détection de violence, nous présentons la campagne d'évaluation MediaEval Affect Task 2012, dont l'objectif est de regrouper les équipes travaillant sur le sujet de la détection de violence. Nous proposons ensuite trois systèmes pour détecter la violence, deux fondés uniquement sur l'audio, le premier utilisant une description TF-IDF, et le second étant une intégration du système de détection de concepts audio dans le cadre de la détection violence, et un système multimodal utilisant l'apprentissage de structures de graphe dans des réseaux bayésiens. Les performances obtenues dans le cadre des différents systèmes, et une comparaison avec les systèmes développés dans le cadre de MediaEval, montrent que nous sommes au niveau de l'état de l'art, et révèlent la complexité de tels systèmes. / In this thesis, we focus on the detection of semantic concepts in "Hollywood" movies using audio and video concepts for the detection of violence. We present experiments in two main areas : the detection of violent audio concepts such as gunshots and explosions, and the detection of violence, initially based only on audio, then based on both audio and video. In the context of audio concepts detection, we first show a generalisation arising between movies. We show that this problem is probably due to a statistical divergence between the audio features extracted from the movies. In order to solve it, we propose to use the concept of audio words, so as to reduce the variability by grouping samples by similarity, combined with contextual Bayesian networks. The results are very encouraging, and a comparison with the state of the art obtained on the same data shows that the results we obtain are equivalent. The resulting system can be either robust against the threshold applied by using early fusion of features, or provides a wide variety of operating points. We finally propose an adaptation of the factor analysis scheme developed in the context of speaker recognition, and show that its integration into our system improves the results. In the context of the detection of violence, we present the Mediaeval Affect Task 2012 evaluation campaign, which aims at bringing together teams working on the topic of violence detection. We then propose three systems for detecting the violence. The first two are based only on audio, the first using a TF-IDF description, and the second being the integration of the previous system for the detection violence. The last system we present is a multimodal system based on Bayesian networks that allows us to explore structure learning algorithms for graphs. The performance obtained in the different systems, and a comparison to the systems developed within Mediaeval, show that we are comparable to the state of the art, and show the complexity of such systems. Apprentissage automatique Traitement du signal Informatique Automatic learning Signal processing Computer science

Search results