Global ETD Search

381	Sélection séquentielle en environnement aléatoire appliquée à l'apprentissage supervisé Caelen, Olivier 25 September 2009 (has links) Cette thèse se penche sur les problèmes de décisions devant être prises de manière séquentielle au sein d'un environnement aléatoire. Lors de chaque étape d'un tel problème décisionnel, une alternative doit être sélectionnée parmi un ensemble d'alternatives. Chaque alternative possède un gain moyen qui lui est propre et lorsque l'une d'elles est sélectionnée, celle-ci engendre un gain aléatoire. La sélection opérée peut suivre deux types d'objectifs.<p>Dans un premier cas, les tests viseront à maximiser la somme des gains collectés. Un juste compromis doit alors être trouvé entre l'exploitation et l'exploration. Ce problème est couramment dénommé dans la littérature scientifique "multi-armed bandit problem".<p>Dans un second cas, un nombre de sélections maximal est imposé et l'objectif consistera à répartir ces sélections de façon à augmenter les chances de trouver l'alternative présentant le gain moyen le plus élevé. Ce deuxième problème est couramment repris dans la littérature scientifique sous l'appellation "selecting the best".<p>La sélection de type gloutonne joue un rôle important dans la résolution de ces problèmes de décision et opère en choisissant l'alternative qui s'est jusqu'ici montrée optimale. Or, la nature généralement aléatoire de l'environnement rend incertains les résultats d'une telle sélection. <p>Dans cette thèse, nous introduisons une nouvelle quantité, appelée le "gain espéré d'une action gloutonne". Sur base de quelques propriétés de cette quantité, de nouveaux algorithmes permettant de résoudre les deux problèmes décisionnels précités seront proposés.<p>Une attention particulière sera ici prêtée à l'application des techniques présentées au domaine de la sélection de modèles en l'apprentissage artificiel supervisé. <p>La collaboration avec le service d'anesthésie de l'Hôpital Erasme nous a permis d'appliquer les algorithmes proposés à des données réelles, provenant du milieu médical. Nous avons également développé un système d'aide à la décision dont un prototype a déjà été testé en conditions réelles sur un échantillon restreint de patients. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished Informatique générale Sciences exactes et naturelles Decision making -- Data processing Supervised learning (Machine learning) Prise de décision -- Informatique multi-armed bandit problem Selecting the Best greedy
382	Multi color space LBP-based feature selection for texture classification / Sélection d'attributs multi-espace à partir de motifs binaires locaux pour la classification de textures couleur Truong Hoang, Vinh 15 February 2018 (has links) L'analyse de texture a été largement étudiée dans la littérature et une grande variété de descripteurs de texture ont été proposés. Parmi ceux-ci, les motifs binaires locaux (LBP) occupent une part importante dans la plupart des applications d'imagerie couleur ou de reconnaissance de formes et sont particulièrement exploités dans les problèmes d'analyse de texture. Généralement, les images couleurs acquises sont représentées dans l'espace colorimétrique RGB. Cependant, il existe de nombreux espaces couleur pour la classification des textures, chacun ayant des propriétés spécifiques qui impactent les performances. Afin d'éviter la difficulté de choisir un espace pertinent, la stratégie multi-espace couleur permet d'utiliser simultanémentles propriétés de plusieurs espaces. Toutefois, cette stratégie conduit à augmenter le nombre d'attributs, notamment lorsqu'ils sont extraits de LBP appliqués aux images couleur. Ce travail de recherche est donc axé sur la réduction de la dimension de l'espace d'attributs générés à partir de motifs binaires locaux par des méthodes de sélection d'attributs. Dans ce cadre, nous considérons l'histogramme des LBP pour la représentation des textures couleur et proposons des approches conjointes de sélection de bins et d'histogrammes multi-espace pour la classification supervisée de textures. Les nombreuses expériences menées sur des bases de référence de texture couleur, démontrent que les approches proposées peuvent améliorer les performances en classification comparées à l'état de l'art. / Texture analysis has been extensively studied and a wide variety of description approaches have been proposed. Among them, Local Binary Pattern (LBP) takes an essential part of most of color image analysis and pattern recognition applications. Usually, devices acquire images and code them in the RBG color space. However, there are many color spaces for texture classification, each one having specific properties. In order to avoid the difficulty of choosing a relevant space, the multi color space strategy allows using the properties of several spaces simultaneously. However, this strategy leads to increase the number of features extracted from LBP applied to color images. This work is focused on the dimensionality reduction of LBP-based feature selection methods. In this framework, we consider the LBP histogram and bin selection approaches for supervised texture classification. Extensive experiments are conducted on several benchmark color texture databases. They demonstrate that the proposed approaches can improve the state-of-the-art results. Classification de textures Espaces couleur Opérateur LBP Sélection d'attributs Sélection d'histogramme Sélection de bins Apprentissage supervisé Texture classification Color spaces LBP operator Feature selection Histogram selection Bin selection Supervised learning
383	Approche bioinspirée pour le contrôle des mains mécaniques / Bioinspired approach to control mechanical hands Touvet, François 22 October 2012 (has links) Les travaux exposés dans cette thèse sont de natures multiples mais visent tous à une meilleure compréhension du geste de saisie chez l'homme, que ce soit d'un point de vue comportemental, cinématique ou de contrôle. Lorsqu'il doit saisir un objet, l'homme s'appuie sur une structure de contrôle multi-niveaux ainsi que son expérience, ce qui lui permet d'estimer les mouvements à effectuer de manière très efficace avant même d'avoir commencé à bouger. Nous pensons que ce mode de commande peut apporter une solution innovante au double problème de l'atteinte et de la saisie par une main artificielle. Nous avons donc développé une architecture de commande distribuée reproduisant en partie ces mécanismes et capable de contrôler ce genre d'artefacts de manière efficace, déclinée en plusieurs versions en fonction du niveau de contrôle souhaité. Elle est constituée d'un ensemble d'unités d'appariement s'inspirant des structures présentes dans le Système Nerveux Central : chacune a en charge une partie du problème global à résoudre, elles intègrent des informations en provenance de la consigne et/ou d'autres unités à travers des échanges parfois redondants, et elles s'appuient sur un algorithme d'apprentissage supervisé. Afin de mieux comprendre les principes qui sous-tendent le mouvement humain nous nous sommes aussi intéressés à la modélisation de la main et du geste de saisie, que ce soit à travers un protocole d'expérimentation chez l'homme ou l'analyse de données médicales et vidéos chez le singe / Works presented in this thesis are of multiple kinds but all aim at a better understanding of the human grasping movements, may it be from a behavioural, kinematics or control point of view. When one wants to grasp an object he relies on a multilayer control structure and its personal experience, the two of which allow him to estimate the appropriate move in a very efficient way, even before he actually started to move. We think that this type of command can bring forth an innovative solution to the double reach and grasp problem that face an artificial hand. We developed a distributed command architecture that reproduce in part these mechanisms and is able to control this type of artefacts in an efficient way, several versions of which were implemented regarding the desired control level. It consists of a group of matching units that takes inspiration in the Central Nervous System: each of them is in charge of a part of the global problem to be solved; they integrate data from the system inputs and/or from other units in partly redundant ways; and they rely on a supervised learning algorithm. In order to better understand the underlying principles of human movement we also took interest in hand and grasping movement models, may it be through an experimental protocol on human or monkey medical and video data analysis Atteinte Saisie Unités d’appariement Architecture distribuée Apprentissage supervisé Homme Singe Mains artificielles Reach Grasp Matching units Distributed architecture Supervised learning Human Monkey Artificial hands
384	Towards less supervision in dependency parsing Mirroshandel, Seyedabolghasem 10 December 2015 (has links) Analyse probabiliste est l'un des domaines de recherche les plus attractives en langage naturel En traitement. Analyseurs probabilistes succès actuels nécessitent de grandes treebanks qui Il est difficile, prend du temps et coûteux à produire. Par conséquent, nous avons concentré notre l'attention sur des approches moins supervisés. Nous avons proposé deux catégories de solution: l'apprentissage actif et l'algorithme semi-supervisé. Stratégies d'apprentissage actives permettent de sélectionner les échantillons les plus informatives pour annotation. La plupart des stratégies d'apprentissage actives existantes pour l'analyse reposent sur la sélection phrases incertaines pour l'annotation. Nous montrons dans notre recherche, sur quatre différents langues (français, anglais, persan, arabe), que la sélection des phrases complètes ne sont pas une solution optimale et de proposer un moyen de sélectionner uniquement les sous-parties de phrases. Comme nos expériences ont montré, certaines parties des phrases ne contiennent aucune utiles information pour la formation d'un analyseur, et en se concentrant sur les sous-parties incertains des phrases est une solution plus efficace dans l'apprentissage actif. / Probabilistic parsing is one of the most attractive research areas in natural language processing. Current successful probabilistic parsers require large treebanks which are difficult, time consuming, and expensive to produce. Therefore, we focused our attention on less-supervised approaches. We suggested two categories of solution: active learning and semi-supervised algorithm. Active learning strategies allow one to select the most informative samples for annotation. Most existing active learning strategies for parsing rely on selecting uncertain sentences for annotation. We show in our research, on four different languages (French, English, Persian, and Arabic), that selecting full sentences is not an optimal solution and propose a way to select only subparts of sentences. As our experiments have shown, some parts of the sentences do not contain any useful information for training a parser, and focusing on uncertain subparts of the sentences is a more effective solution in active learning. Apprentissage semi-Supervisé Apprentissage actif La dépendance liée au traitement Cadres SUBCAT Contraintes sélectionnelles Parsing Semi-Supervised Learning Active Learning Dependency Parsing Subcat frames Selectional Constraints 004
385	Identification et analyse d'éléments cis-régulateurs impliqués dans les mécanismes de régulation transcriptionnelle des gènes au cours de la cardiogénèse chez la drosophile / Identification and analysis of actives cis-regulatory modules in the cardiac tube during embryogenesis in Drosophila melanogaster Seyres, Denis 06 November 2015 (has links) Comprendre comment l’expression des gènes est régulée spécifiquement dans chaque tissu et de manière dynamique au cours du temps demeure une étape centrale de notre compréhension de l’organogénèse. L’identification des éléments cis-régulateurs de la transcription de manière tissu-spécifique peut permettre de comprendre les règles logiques d’organisation du réseau de gènes régulateur et aussi d’identifier de nouveaux acteurs (facteurs de transcription notamment). L’analyse de marques de chromatine (H3K27ac et H3K4me3) spécifiquement dans les cardioblastes (104 cellules) au cours de la différentiation a permis l’identification en masse de régions cis-régulatrices de la transcription. Via une approche d’apprentissage, de nouvelles régions régulatrices spécifiques des cardiomyocytes ainsi que 2 nouveaux facteurs de transcription (bagpipe, hamlet) ont été identifiées. L’alignement multiple des régions régulatrices suggère que les régions associées à H3K27ac dans les cellules cardiaques durant ces étapes de l’organogénèse partagent une séquence consensus. Ces nouveaux éléments régulateurs viennent compléter le réseau de gène régulateur au cours des étapes tardives de la cardiogénèse. / Understanding how gene expression is spatio-temporally regulated remains a crucial step in our understanding of organogenesis. Identification of transciptional cis-regulatory elements in a tissu-specific manner could allow to understand logical rules leading regulatory network organisation and to identify new actors (in particular transcription factors). Analysis of chromatin marks (H3K27ac and H3K4me3) specifically in cardiac cells (104 cells) during differentiation allowed the identification of transcriptional cis-regulatory regions. Via a machine learning approach, new cardiac specific regulatory regions and two transcription factors (bagpipe and hamlet) have been identified. Multiple sequence alignment of regulatory regions suggests that regions associated to H3K27ac in cardiac cells during these steps of organogenesis share a consensus sequence. These new regulatory elements integrate and complete the gene regulatory network underlying late steps of cardiogenesis. Bio-Informatique Génomique Chromatine Réseau de gènes régulateur Transcription factor Coeur Drosophile Chipseq Apprentissage supervisé Bioinformatics Genomics Chromatine Gene regulatory network Transcription factor Supervised learning Heart Drosophila Chipseq 572
386	機器學習分類方法DCG 與其他方法比較(以紅酒為例) / A supervised learning study of comparison between DCG tree and other machine learning methods in a wine quality dataset 楊俊隆, Yang, Jiun Lung Unknown Date (has links) 隨著大數據時代來臨，機器學習方法已然成為熱門學習的主題，主要分為監督式學習與非監督式學習，亦即分類與分群。本研究以羅吉斯迴歸配適結果加權距離矩陣，以資料雲幾何樹分群法為主，在含有類別變數的紅酒資料中，透過先分群再分類的方式，判斷是否可以得到更佳的預測結果。並比較監督式學習下各種機器學習方法預測表現，及非監督式學習下後再透過分類器方法的預測表現。在內容的排序上，首先介紹常見的分類與分群演算方法，並分析其優缺點與假設限制，接著將介紹資料雲幾何樹演算法，並詳述執行步驟。最後再引入加權資料雲幾何樹演算法，將權重的觀點應用在資料雲幾何樹演算法中，透過紅酒資料，比較各種分類與分群方法的預測準確率。 / Machine learning has become a popular topic since the coming of big data era. Machine learning algorithms are often categorized as being supervised or unsupervised, namely classification or clustering methods. In this study, first, we introduced the advantages, disadvantages, and limits of traditional classification and clustering algorithms. Next, we introduced DCG-tree and WDCG algorithms. We extended the idea of WDCG to the cases with label size=3. The distance matrix was modified by the fitted results of logistic regression. Lastly, by using a real wine dataset, we then compared the performance of WDCG with the performance of traditional classification methodologies. The study showed that using unsupervised learning algorithm with logistic regression as a classifier performs better than using only the traditional classification methods. 監督式學習非監督式學習加權資料雲幾何樹 Supervised learning Unsupervised learning WDCG
387	Applying Supervised Learning Algorithms and a New Feature Selection Method to Predict Coronary Artery Disease Duan, Haoyang January 2014 (has links) From a fresh data science perspective, this thesis discusses the prediction of coronary artery disease based on Single-Nucleotide Polymorphisms (SNPs) from the Ontario Heart Genomics Study (OHGS). First, the thesis explains the k-Nearest Neighbour (k-NN) and Random Forest learning algorithms, and includes a complete proof that k-NN is universally consistent in finite dimensional normed vector spaces. Second, the thesis introduces two dimensionality reduction techniques: Random Projections and a new method termed Mass Transportation Distance (MTD) Feature Selection. Then, this thesis compares the performance of Random Projections with k-NN against MTD Feature Selection and Random Forest for predicting artery disease. Results demonstrate that MTD Feature Selection with Random Forest is superior to Random Projections and k-NN. Random Forest is able to obtain an accuracy of 0.6660 and an area under the ROC curve of 0.8562 on the OHGS dataset, when 3335 SNPs are selected by MTD Feature Selection for classification. This area is considerably better than the previous high score of 0.608 obtained by Davies et al. in 2010 on the same dataset. SNPs GWAS Data Science Mass Transportation Distance Dimensionality Reduction Random Projections Supervised Learning Theory Coronary Artery Disease K-Nearest Neighbour Classifier Universal Consistency
388	Apprentissage supervisé à partir des multiples annotateurs incertains / Supervised Learning from Multiple Uncertain Annotators Wolley, Chirine 01 December 2014 (has links) En apprentissage supervisé, obtenir les réels labels pour un ensemble de données peut être très fastidieux et long. Aujourd'hui, les récentes avancées d'Internet ont permis le développement de services d'annotations en ligne, faisant appel au crowdsourcing pour collecter facilement des labels. Néanmoins, le principal inconvénient de ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d'expertise très hétérogènes. De telles données ne sont alors pas forcément fiables. Par conséquent, la gestion de l'incertitude des annotateurs est un élément clé pour l'apprentissage à partir de multiples annotateurs non experts. Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l'incertitude des annotateurs et la qualité des données durant la phase d'apprentissage. Trois modèles sont proposés: IGNORE permet de classer de nouvelles instances tout en évaluant les annotateurs en terme de performance d'annotation qui dépend de leur incertitude. X-IGNORE intègre la qualité des données en plus de l'incertitude des juges. En effet, X-IGNORE suppose que la performance des annotateurs dépend non seulement de leur incertitude mais aussi de la qualité des données qu'ils annotent. Enfin, ExpertS répond au problème de sélection d'annotateurs durant l'apprentissage. ExpertS élimine les annotateurs les moins performants, et se base ainsi uniquement sur les labels des bons annotateurs (experts) lors de l'étape d'apprentissage. De nombreuses expérimentations effectuées sur des données synthétiques et réelles montrent la performance et la stabilité de nos modèles par rapport à différents algorithmes de la littérature. / In supervised learning tasks, obtaining the ground truth label for each instance of the training dataset can be difficult, time-consuming and/or expensive. With the advent of infrastructures such as the Internet, an increasing number of web services propose crowdsourcing as a way to collect a large enough set of labels from internet users. The use of these services provides an exceptional facility to collect labels from anonymous annotators, and thus, it considerably simplifies the process of building labels datasets. Nonetheless, the main drawback of crowdsourcing services is their lack of control over the annotators and their inability to verify and control the accuracy of the labels and the level of expertise for each labeler. Hence, managing the annotators' uncertainty is a clue for learning from imperfect annotations. This thesis provides three algorithms when learning from multiple uncertain annotators. IGNORE generates a classifier that predict the label of a new instance and evaluate the performance of each annotator according to their level of uncertainty. X-Ignore, considers that the performance of the annotators both depends on their uncertainty and on the quality of the initial dataset to be annotated. Finally, ExpertS deals with the problem of annotators' selection when generating the classifier. It identifies experts annotators, and learn the classifier based only on their labels. We conducted in this thesis a large set of experiments in order to evaluate our models, both using experimental and real world medical data. The results prove the performance and accuracy of our models compared to previous state of the art solutions in this context. Apprentissage supervisé Incertitude Multiple annotateurs Expertise Qualité des données Analyse bayésienne Algorithme EM Supervised learning Uncertainty Multiple annotators Properties of labelers Data quality Bayesian analysis EM algorithm 004
389	Relações entre ranking, análise ROC e calibração em aprendizado de máquina / Relations among rankings, ROC analysis and calibration applied to machine learning Edson Takashi Matsubara 21 October 2008 (has links) Aprendizado supervisionado tem sido principalmente utilizado para classificação. Neste trabalho são mostrados os benefícios do uso de rankings ao invés de classificação de exemplos isolados. Um rankeador é um algoritmo que ordena um conjunto de exemplos de tal modo que eles são apresentados do exemplo de maior para o exemplo de menor expectativa de ser positivo. Um ranking é o resultado dessa ordenação. Normalmente, um ranking é obtido pela ordenação do valor de confiança de classificação dado por um classificador. Este trabalho tem como objetivo procurar por novas abordagens para promover o uso de rankings. Desse modo, inicialmente são apresentados as diferenças e semelhanças entre ranking e classificação, bem como um novo algoritmo de ranking que os obtém diretamente sem a necessidade de obter os valores de confiança de classificação, esse algoritmo é denominado de LEXRANK. Uma área de pesquisa bastante importante em rankings é a análise ROC. O estudo de árvores de decisão e análise ROC é bastante sugestivo para o desenvolvimento de uma visualização da construção da árvore em gráficos ROC. Para mostrar passo a passo essa visualização foi desenvolvido uma sistema denominado PROGROC. Ainda do estudo de análise ROC, foi observado que a inclinação (coeficiente angular) dos segmentos que compõem o fecho convexo de curvas ROC é equivalente a razão de verossimilhança que pode ser convertida para probabilidades. Essa conversão é denominada de calibração por fecho convexo de curvas ROC que coincidentemente é equivalente ao algoritmo PAV que implementa regressão isotônica. Esse método de calibração otimiza Brier Score. Ao explorar essa medida foi encontrada uma relação bastante interessante entre Brier Score e curvas ROC. Finalmente, também foram explorados os rankings construídos durante o método de seleção de exemplos do algoritmo de aprendizado semi-supervisionado multi-descrição CO-TRAINING / Supervised learning has been used mostly for classification. In this work we show the benefits of a welcome shift in attention from classification to ranking. A ranker is an algorithm that sorts a set of instances from highest to lowest expectation that the instance is positive, and a ranking is the outcome of this sorting. Usually a ranking is obtained by sorting scores given by classifiers. In this work, we are concerned about novel approaches to promote the use of ranking. Therefore, we present the differences and relations between ranking and classification followed by a proposal of a novel ranking algorithm called LEXRANK, whose rankings are derived not from scores, but from a simple ranking of attribute values obtained from the training data. One very important field which uses rankings as its main input is ROC analysis. The study of decision trees and ROC analysis suggested an interesting way to visualize the tree construction in ROC graphs, which has been implemented in a system called PROGROC. Focusing on ROC analysis, we observed that the slope of segments obtained from the ROC convex hull is equivalent to the likelihood ratio, which can be converted into probabilities. Interestingly, this ROC convex hull calibration method is equivalent to Pool Adjacent Violators (PAV). Furthermore, the ROC convex hull calibration method optimizes Brier Score, and the exploration of this measure leads us to find an interesting connection between the Brier Score and ROC Curves. Finally, we also investigate rankings build in the selection method which increments the labelled set of CO-TRAINING, a semi-supervised multi-view learning algorithm Análise ROC Aprendizado de máquina Inteligência artificial Rankings Artificial intelligence Calibration and semi-supervised learning Machine learning Rankings ROC analysis
390	Complex network component unfolding using a particle competition technique / Desdobramento de componentes de redes complexas utilizando uma técnica de competição de partículas Paulo Roberto Urio 12 June 2017 (has links) This work applies complex network theory to the problem of semi-supervised and unsupervised learning in networks that are representations of multivariate datasets. Complex networks allow the use of nonlinear dynamical systems to represent behaviors according to the connectivity patterns of networks. Inspired by behavior observed in nature, such as competition for limited resources, dynamical system models can be employed to uncover the organizational structure of a network. In this dissertation, we develop a technique for classifying data represented as interaction networks. As part of the technique, we model a dynamical system inspired by the biological dynamics of resource competition. So far, similar methods have focused on vertices as the resource of competition. We introduce edges as the resource of competition. In doing so, the connectivity pattern of a network might be used not only in the dynamical system simulation but in the learning task as well. / Este trabalho aplica a teoria de redes complexas para o estudo de uma técnica aplicada ao problema de aprendizado semissupervisionado e não-supervisionado em redes, especificamente, aquelas que representam conjuntos de dados multivariados. Redes complexas permitem o emprego de sistemas dinâmicos não-lineares que podem apresentar comportamentos de acordo com os padrões de conectividade de redes. Inspirado pelos comportamentos observados na natureza, tais como a competição por recursos limitados, sistema dinâmicos podem ser utilizados para revelar a estrutura da organização de uma rede. Nesta dissertação, desenvolve-se uma técnica aplicada ao problema de classificação de dados representados por redes de interação. Como parte da técnica, um sistema dinâmico inspirado na competição por recursos foi modelado. Métodos similares concentraram-se em vértices como o recurso da concorrência. Neste trabalho, introduziu-se arestas como o recurso-alvo da competição. Ao fazê-lo, utilizar-se-á o padrão de conectividade de uma rede tanto na simulação do sistema dinâmico, quanto na tarefa de aprendizado. Agrupamento de dados Aprendizado de máquina Aprendizado semissupervisionado Detecção de comunidades Redes complexas Community detection Complex networks Data clustering Machine learning Semi-supervised learning

Search results