• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 55
  • 33
  • 7
  • Tagged with
  • 101
  • 101
  • 66
  • 61
  • 25
  • 23
  • 22
  • 22
  • 22
  • 21
  • 20
  • 19
  • 18
  • 18
  • 17
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Approche bioinspirée pour le contrôle des mains mécaniques

Touvet, François 22 October 2012 (has links) (PDF)
Les travaux exposés dans cette thèse sont de natures multiples mais visent tous à une meilleure compréhension du geste de saisie chez l'homme, que ce soit d'un point de vue comportemental, cinématique ou de contrôle. Lorsqu'il doit saisir un objet, l'homme s'appuie sur une structure de contrôle multi-niveaux ainsi que son expérience, ce qui lui permet d'estimer les mouvements à effectuer de manière très efficace avant même d'avoir commencé à bouger. Nous pensons que ce mode de commande peut apporter une solution innovante au double problème de l'atteinte et de la saisie par une main artificielle. Nous avons donc développé une architecture de commande distribuée reproduisant en partie ces mécanismes et capable de contrôler ce genre d'artefacts de manière efficace, déclinée en plusieurs versions en fonction du niveau de contrôle souhaité. Elle est constituée d'un ensemble d'unités d'appariement s'inspirant des structures présentes dans le Système Nerveux Central : chacune a en charge une partie du problème global à résoudre, elles intègrent des informations en provenance de la consigne et/ou d'autres unités à travers des échanges parfois redondants, et elles s'appuient sur un algorithme d'apprentissage supervisé. Afin de mieux comprendre les principes qui sous-tendent le mouvement humain nous nous sommes aussi intéressés à la modélisation de la main et du geste de saisie, que ce soit à travers un protocole d'expérimentation chez l'homme ou l'analyse de données médicales et vidéos chez le singe
12

Préparation non paramétrique des données pour la fouille de données multi-tables

Lahbib, Dhafer 06 December 2012 (has links) (PDF)
Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Afin de prendre en compte les variables explicatives secondaires (appartenant aux tables secondaires), la plupart des approches existantes opèrent par mise à plat, obtenant ainsi une représentation attribut-valeur classique. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d'introduire des biais statistiques. Dans cette thèse, nous nous intéressons à évaluer directement les variables secondaires vis-à-vis de la variable cible, dans un contexte de classification supervisée. Notre méthode consiste à proposer une famille de modèles non paramétriques pour l'estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte les variables secondaires dans un classifieur de type Bayésien Naïf. L'approche repose sur un prétraitement supervisé des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Dans un premier temps, ce prétraitement est effectué de façon univariée, c'est-à-dire, en considérant une seule variable secondaire à la fois. Dans un second temps, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre variables secondaires. Des modèles en grilles de données sont utilisés pour obtenir des critères Bayésiens permettant d'évaluer les prétraitements considérés. Des algorithmes combinatoires sont proposés pour optimiser efficacement ces critères et obtenir les meilleurs modèles.Nous avons évalué notre approche sur des bases de données multi-tables synthétiques et réelles. Les résultats montrent que les critères d'évaluation ainsi que les algorithmes d'optimisation permettent de découvrir des variables secondaires pertinentes. De plus, le classifieur Bayésien Naïf exploitant les prétraitements effectués permet d'obtenir des taux de prédiction importants.
13

Minimisation de fonctions de perte calibrée pour la classification des images

Bel Haj Ali, Wafa 11 October 2013 (has links) (PDF)
La classification des images est aujourd'hui un défi d'une grande ampleur puisque ça concerne d'un côté les millions voir des milliards d'images qui se trouvent partout sur le web et d'autre part des images pour des applications temps réel critiques. Cette classification fait appel en général à des méthodes d'apprentissage et à des classifieurs qui doivent répondre à la fois à la précision ainsi qu'à la rapidité. Ces problèmes d'apprentissage touchent aujourd'hui un grand nombre de domaines d'applications: à savoir, le web (profiling, ciblage, réseaux sociaux, moteurs de recherche), les "Big Data" et bien évidemment la vision par ordinateur tel que la reconnaissance d'objets et la classification des images. La présente thèse se situe dans cette dernière catégorie et présente des algorithmes d'apprentissage supervisé basés sur la minimisation de fonctions de perte (erreur) dites "calibrées" pour deux types de classifieurs: k-Plus Proches voisins (kNN) et classifieurs linéaires. Ces méthodes d'apprentissage ont été testées sur de grandes bases d'images et appliquées par la suite à des images biomédicales. Ainsi, cette thèse reformule dans une première étape un algorithme de Boosting des kNN et présente ensuite une deuxième méthode d'apprentissage de ces classifieurs NN mais avec une approche de descente de Newton pour une convergence plus rapide. Dans une seconde partie, cette thèse introduit un nouvel algorithme d'apprentissage par descente stochastique de Newton pour les classifieurs linéaires connus pour leur simplicité et leur rapidité de calcul. Enfin, ces trois méthodes ont été utilisées dans une application médicale qui concerne la classification de cellules en biologie et en pathologie.
14

Convex optimization for cosegmentation

Joulin, Armand 17 December 2012 (has links) (PDF)
La simplicité apparente avec laquelle un humain perçoit ce qui l'entoure suggère que le processus impliqué est en partie mécanique, donc ne nécessite pas un haut degré de réflexion. Cette observation suggère que notre perception visuelle du monde peut être simulée sur un ordinateur. La vision par ordinateur est le domaine de recherche consacré au problème de la création d'une forme de perception visuelle pour des ordinateurs. La puissance de calcul des ordinateurs des années 50 ne permettait pas de traiter et d'analyser les données visuelles nécessaires à l'élaboration d'une perception visuelle virtuelle. Depuis peu, la puissance de calcul et la capacité de stockage ont permis à ce domaine de vraiment émerger. En deux décennies, la vision par ordinateur a permis de répondre à problèmes pratiques ou industrielles comme la détection des visages, de personnes au comportement suspect dans une foule ou de défauts de fabrication dans des chaînes de production. En revanche, en ce qui concerne l'émergence d'une perception visuelle virtuelle non spécifique à une tâche donnée, peu de progrès ont été réalisés et la communauté est toujours confrontée à des problèmes fondamentaux. Un de ces problèmes est de segmenter un stimuli optique ou une image en régions porteuses de sens, en objets ou actions. La segmentation de scène est naturelle pour les humains, mais aussi essentielle pour comprendre pleinement son environnement. Malheureusement elle est aussi extrêmement difficile à reproduire sur un ordinateur car il n'existe pas de définition claire de la région "significative''. En effet, en fonction de la scène ou de la situation, une région peut avoir des interprétations différentes. Etant donnée une scène se passant dans la rue, on peut considérer que distinguer un piéton est important dans cette situation, par contre ses vêtements ne le semblent pas nécessairement. Si maintenant nous considérons une scène ayant lieu pendant un défilé de mode, un vêtement devient un élément important, donc une région significative. Ici, nous nous concentrons sur ce problème de segmentation et nous l'abordons sous un angle particulier pour éviter cette difficulté fondamentale. Nous considérerons la segmentation comme un problème d'apprentissage faiblement supervisé, c'est-à-dire qu'au lieu de segmenter des images selon une certaine définition prédéfinie de régions "significatives'', nous développons des méthodes permettant de segmenter simultanément un ensemble d'images en régions qui apparaissent régulièrement. Nous définissons donc une région "significative'' d'un point de vue statistique: Ce sont les régions qui apparaissent régulièrement dans l'ensemble des images données. Pour cela nous concevons des modèles ayant une portée qui va au-delà de l'application à la vision. Notre approche prend ses racines dans l'apprentissage statistique, dont l'objectif est de concevoir des méthodes efficaces pour extraire et/ou apprendre des motifs récurrents dans des jeux de données. Ce domaine a récemment connu une forte popularité en raison de l'augmentation du nombre et de la taille des bases de données disponibles. Nous nous concentrons ici sur des méthodes conçues pour découvrir l'information "cachée'' dans une base à partir d'annotations incomplètes ou inexistantes. Enfin, nos travaux prennent racine dans le domaine de l'optimisation numérique afin d'élaborer des algorithmes efficaces et adaptés à nos problèmes. En particulier, nous utilisons et adaptons des outils récemment développés afin de relaxer des problèmes combinatoires complexes en des problèmes convexes pour lesquels il est garanti de trouver la solution optimale. Nous illustrons la qualité de nos formulations et algorithmes aussi sur des problèmes tirés de domaines autres que la vision par ordinateur. En particulier, nous montrons que nos travaux peuvent être utilisés dans la classification de texte et en biologie cellulaire.
15

Apprentissage de données génomiques multiples pour le diagnostic et le pronostic du cancer / Learning from multiple genomic information in cancer for diagnosis and prognosis

Moarii, Matahi 26 June 2015 (has links)
De nombreuses initiatives ont été mises en places pour caractériser d'un point de vue moléculaire de grandes cohortes de cancers à partir de diverses sources biologiques dans l'espoir de comprendre les altérations majeures impliquées durant la tumorogénèse. Les données mesurées incluent l'expression des gènes, les mutations et variations de copy-number, ainsi que des signaux épigénétiques tel que la méthylation de l'ADN. De grands consortium tels que “The Cancer Genome Atlas” (TCGA) ont déjà permis de rassembler plusieurs milliers d'échantillons cancéreux mis à la disposition du public. Nous contribuons dans cette thèse à analyser d'un point de vue mathématique les relations existant entre les différentes sources biologiques, valider et/ou généraliser des phénomènes biologiques à grande échelle par une analyse intégrative de données épigénétiques et génétiques.En effet, nous avons montré dans un premier temps que la méthylation de l'ADN était un marqueur substitutif intéressant pour jauger du caractère clonal entre deux cellules et permettait ainsi de mettre en place un outil clinique des récurrences de cancer du sein plus précis et plus stable que les outils actuels, afin de permettre une meilleure prise en charge des patients.D'autre part, nous avons dans un second temps permis de quantifier d'un point de vue statistique l'impact de la méthylation sur la transcription. Nous montrons l'importance d'incorporer des hypothèses biologiques afin de pallier au faible nombre d'échantillons par rapport aux nombre de variables.Enfin, nous montrons l'existence d'un phénomène biologique lié à l'apparition d'un phénotype d'hyperméthylation dans plusieurs cancers. Pour cela, nous adaptons des méthodes de régression en utilisant la similarité entre les différentes tâches de prédictions afin d'obtenir des signatures génétiques communes prédictives du phénotypes plus précises.En conclusion, nous montrons l'importance d'une collaboration biologique et statistique afin d'établir des méthodes adaptées aux problématiques actuelles en bioinformatique. / Several initiatives have been launched recently to investigate the molecular characterisation of large cohorts of human cancers with various high-throughput technologies in order to understanding the major biological alterations related to tumorogenesis. The information measured include gene expression, mutations, copy-number variations, as well as epigenetic signals such as DNA methylation. Large consortiums such as “The Cancer Genome Atlas” (TCGA) have already gathered publicly thousands of cancerous and non-cancerous samples. We contribute in this thesis in the statistical analysis of the relationship between the different biological sources, the validation and/or large scale generalisation of biological phenomenon using an integrative analysis of genetic and epigenetic data.Firstly, we show the role of DNA methylation as a surrogate biomarker of clonality between cells which would allow for a powerful clinical tool for to elaborate appropriate treatments for specific patients with breast cancer relapses.In addition, we developed systematic statistical analyses to assess the significance of DNA methylation variations on gene expression regulation. We highlight the importance of adding prior knowledge to tackle the small number of samples in comparison with the number of variables. In return, we show the potential of bioinformatics to infer new interesting biological hypotheses.Finally, we tackle the existence of the universal biological phenomenon related to the hypermethylator phenotype. Here, we adapt regression techniques using the similarity between the different prediction tasks to obtain robust genetic predictive signatures common to all cancers and that allow for a better prediction accuracy.In conclusion, we highlight the importance of a biological and computational collaboration in order to establish appropriate methods to the current issues in bioinformatics that will in turn provide new biological insights.
16

Feature extraction and supervised learning on fMRI : from practice to theory / Estimation de variables et apprentissage supervisé en IRMf : de la pratique à la théorie

Pedregosa-Izquierdo, Fabian 20 February 2015 (has links)
Jusqu'à l'avènement de méthodes de neuroimagerie non invasives les connaissances du cerveau sont acquis par l'étude de ses lésions, des analyses post-mortem et expérimentations invasives. De nos jours, les techniques modernes d'imagerie telles que l'IRMf sont capables de révéler plusieurs aspects du cerveau humain à une résolution spatio-temporelle progressivement élevé. Cependant, afin de pouvoir répondre à des questions neuroscientifiques de plus en plus complexes, les améliorations techniques dans l'acquisition doivent être jumelés à de nouvelles méthodes d'analyse des données. Dans cette thèse, je propose différentes applications de l'apprentissage statistique au traitement des données d'IRMf. Souvent, les données acquises par le scanner IRMf suivent une étape de sélection de variables dans lequel les cartes d'activation sont extraites du signal IRMf. La première contribution de cette thèse est l'introduction d'un modèle nommé Rank-1 GLM (R1-GLM) pour l'estimation jointe des cartes d'activation et de la fonction de réponse hémodynamique (HRF). Nous quantifions l'amélioration de cette approche par rapport aux procédures existantes sur différents jeux de données IRMf. La deuxième partie de cette thèse est consacrée au problème de décodage en IRMf, ce est à dire, la tâche de prédire quelques informations sur les stimuli à partir des cartes d'activation du cerveau. D'un point de vue statistique, ce problème est difficile due à la haute dimensionnalité des données, souvent des milliers de variables, tandis que le nombre d'images disponibles pour la formation est faible, typiquement quelques centaines. Nous examinons le cas où la variable cible est composé à partir de valeurs discrets et ordonnées. La deuxième contribution de cette thèse est de proposer les deux mesures suivantes pour évaluer la performance d'un modèle de décodage: l'erreur absolue et de désaccord par paires. Nous présentons plusieurs modèles qui optimisent une approximation convexe de ces fonctions de perte et examinent leur performance sur des ensembles de données IRMf. Motivé par le succès de certains modèles de régression ordinales pour la tâche du décodage basé IRMf, nous nous tournons vers l'étude de certaines propriétés théoriques de ces méthodes. La propriété que nous étudions est connu comme la cohérence de Fisher. La troisième, et la plus théorique, la contribution de cette thèse est d'examiner les propriétés de cohérence d'une riche famille de fonctions de perte qui sont utilisés dans les modèles de régression ordinales. / Until the advent of non-invasive neuroimaging modalities the knowledge of the human brain came from the study of its lesions, post-mortem analyses and invasive experimentations. Nowadays, modern imaging techniques such as fMRI are revealing several aspects of the human brain with progressively high spatio-temporal resolution. However, in order to answer increasingly complex neuroscientific questions the technical improvements in acquisition must be matched with novel data analysis methods. In this thesis we examine different applications of machine learning to the processing of fMRI data. We propose novel extensions and investigate the theoretical properties of different models. % The goal of an fMRI experiments is to answer a neuroscientific question. However, it is usually not possible to perform hypothesis testing directly on the data output by the fMRI scanner. Instead, fMRI data enters a processing pipeline in which it suffers several transformations before conclusions are drawn. Often the data acquired through the fMRI scanner follows a feature extraction step in which time-independent activation coefficients are extracted from the fMRI signal. The first contribution of this thesis is the introduction a model named Rank-1 GLM (R1-GLM) for the joint estimation of time-independent activation coefficients and the hemodynamic response function (HRF). We quantify the improvement of this approach with respect to existing procedures on different fMRI datasets. The second part of this thesis is devoted to the problem of fMRI-based decoding, i.e., the task of predicting some information about the stimuli from brain activation maps. From a statistical standpoint, this problem is challenging due to the high dimensionality of the data, often thousands of variables, while the number of images available for training is small, typically a few hundreds. We examine the case in which the target variable consist of discretely ordered values. The second contribution of this thesis is to propose the following two metrics to assess the performance of a decoding model: the absolute error and pairwise disagreement. We describe several models that optimize a convex surrogate of these loss functions and examine their performance on different fMRI datasets. Motivated by the success of some ordinal regression models for the task of fMRI-based decoding, we turn to study some theoretical properties of these methods. The property that we investigate is known as consistency or Fisher consistency and relates the minimization of a loss to the minimization of its surrogate. The third, and most theoretical, contribution of this thesis is to examine the consistency properties of a rich family of surrogate loss functions that are used in the context of ordinal regression. We give sufficient conditions for the consistency of the surrogate loss functions considered. This allows us to give theoretical reasons for some empirically observed differences in performance between surrogates.
17

Géodétection des réseaux enterrés par imagerie radar / Geodection of buried utilities from radar imagery

Terrasse, Guillaume 28 March 2017 (has links)
L’objectif de la thèse est d’améliorer les différents traitements et de proposer une visualisation claire et intuitive à l’opérateur des données en sortie d’un géoradar (radargramme) afin de pouvoir localiser de manière précise les réseaux de canalisations enfouis. Notamment, nous souhaitons mettre en évidence les hyperboles présentes dans les radargrammes car celles-ci sont caractéristiques de la présence d'une canalisation. Dans un premier temps nous nous sommes intéressés à la suppression de l’information inutile (clutter) pouvant gêner la détection des hyperboles. Nous avons ainsi proposé une méthode de filtrage du clutter et du bruit des radargrammes. Ensuite, nous avons travaillé sur l’élaboration d’une méthode permettant de détecter automatiquement les hyperboles dans un radargramme ainsi qu’une estimation de sa fonction mathématique dans des conditions quasi-temps réel. Et enfin nous avons également proposé une méthode de séparation de source permettant de distinguer le clutter et le signal utile du radargramme tout en ayant un impact minimal sur les hyperboles. Ces derniers travaux ouvrent d’autres possibilités pour le filtrage, le rehaussement ou la détection automatique d’hyperboles. / The thesis objective is to improve the different processing in order to make the data acquired by ground penetrating radar (B-scan) more understandable for the operators. Consequently, it will facilitate the pipe localisation. More particularly, we wish to highlight the hyperbolas in the B-scan because they point out the presence of a pipe. First of all, we are interested in removing all the useless information which might hide the hyperbolas. We proposed a filtering method removing unwanted reflections and noise. Then, we worked on an automatic hyperbola detection method and an estimation of their mathematical functions in quasi real time. Finally, we proposed a source separation method to distinguish the unwanted reflections from the hyperbolas with a minimal impact on them. This last work opens interesting perspectives in filtering, hyperbolas enhancement and hyperbola detection.
18

Recommandation de paramètres de soudures basées sur l'apprentissage automatique dans un contexte d'industrie 4.0

Picherit, Tom 25 March 2024 (has links)
Titre de l'écran-titre (visionné le 1er novembre 2023) / Les performances du procédé de soudage à l'arc sous gaz métallique dépendent de nombreux paramètres et choisir les bons peut être complexe, même pour un expert. Généralement un ensemble de paramètres valide se trouve par essais et erreurs. Cette méthode nécessite donc beaucoup de temps et de matériel. Nous proposons ici d'utiliser des techniques d'apprentissage supervisé, pour aider les experts dans leur prise de décision. C'est dans cet objectif que nous avons d'abord créé un jeu de données à partir d'un historique de fiches de procédures de soudure numérisées. Ensuite, nous proposons un système de recommandation en deux parties. La première étape est dédiée à l'identification, par classification, du nombre de passes de soudure. La seconde indique les sept valeurs de paramètres restantes pour chaque passe : couche, ampérage, tension, vitesse de fil, fréquence, coupure et vitesse de soudage. Le système de recommandation est capable de fournir de bons résultats pour tous les différents paramètres mentionnés ci-dessus, même si les données sont bruitées en raison de la nature heuristique du processus des experts. Parmi les 11 algorithmes testés pour chaque partie, le meilleur modèle de classification est CatBoost avec 81,94% en score F1 pondéré. Les meilleurs modèles de régression sont, quant à eux, Extra Trees ou un algorithme de boosting, avec un pourcentage d'erreur absolu moyen dans les normes attendues. Ce système de recommandation est donc, pour les experts soudeurs, un outil de soutien leur permettant de gagner du temps et des ressources lors de l'étape de recherche des paramètres. Nous nous sommes appuyés sur différentes études, à la fois pour mettre en forme ce système de recommandation, mais aussi pour en analyser les limites. Premièrement, nous exposons les résultats obtenus sur la recommandation du nombre de passes en considérant ce sous-problème comme un problème de régression. Deuxièmement, en considérant des sous-ensembles de données, la conclusion suivante s'impose : regrouper les soudures par nombre total de passes ou par type de joint, ne permet pas de développer un système plus performant. En effet, le débalancement des observations, pour chaque passe, limite la phase d'apprentissage de nos modèles sur celles les plus élevées. De même, l'augmentation de la taille du jeu de données ne garantit pas l'amélioration des prédictions du nombre de passes. Cependant, elle suggère des perspectives intéressantes pour l'ampérage, le voltage, la vitesse de fil, la fréquence, la coupure et la vitesse de soudure. Troisièmement, notre modèle est comparé avec deux autres solutions de recommandations alternatives et nous introduisons la notion de chaleur transmise. Nous montrons qu'une suite de régressions en chaîne et que le calcul de la vitesse de soudure, à partir de la prédiction de la chaleur transmise, ne permet pas d'augmenter les performances du système. Pour terminer, une méthodologie est mise au point, afin de tester en contexte industriel notre système de recommandation. Nous échangeons des éléments à prendre en compte pour insérer cette expérience dans l'entreprise, sans entraver le travail des experts, et en récoltant des informations précises pour faire avancer la recherche. Dans ce but et pour compléter, nous proposons un prototype d'interface graphique qui intègre notre système de recommandations. / In gas metal arc welding, a weld quality and performance depends on many parameters. Selecting the right ones can be complex, even for an expert. One generally proceeds through trial and error to find a good set of parameters. Therefore, the current experts' method is not optimized and can require a lot of time and materials. We propose using supervised learning techniques to help experts in their decision-making. To that extent, we first created a dataset from a history of digitized welding procedure sheets. Then, a two-part recommendation system is proposed. The first step is dedicated to identify, through classification, the number of weld passes. The second one suggests the seven remaining parameter values for each pass: layer, amperage, voltage, wire feed rate, frequency offset, trimming and welding speed. After extracting data from historical Welding Procedure Specification forms, we tested 11 different supervised learning algorithms. The recommendation system is able to provide good results for all the different settings mentioned above even if the data is noisy due to the heuristic nature of the experts' process. The best classification model is CatBoost with an 81.94% F1-Weighted-Score and the best regression models are Extra Trees or a boosting algorithm with a reduced mean absolute percentage error compared to our baseline. This recommendation system is therefore, for expert welders, a support tool allowing them to save time and resources during the parameter research stage. We relied on various studies, both to shape this recommendation system, but also to analyze its limits. Firstly, we expose results obtained for the number of passes' recommendation considering this step as a regression problem. Secondly, by working on subsets of data, the following conclusion is obvious: grouping the welds by total number of passes or by type of joint does not make it possible to develop a more efficient system. Indeed, the imbalance of the observations of passes per weld limits the learning phase of our models on the highest ones. Similarly, increasing the dataset size does not guarantee improved pass count predictions but does suggest interesting insights for amperage, voltage, wire speed, frequency, trimming and welding speed. Thirdly, our model is compared with two other alternative solutions and we introduce the notion of heat input. We show that a series of chained regressors and the calculation of the welding speed, from the prediction of the heat input, does not make it possible to increase the performance of the system. Finally, a methodology is developed in order to test our recommendation system in an industrial context. We detail the aspects to be considered to insert this experience into the company without hindering the work of the experts while collecting precise information for further work. For this purpose, we also propose a graphical interface prototype that integrates the recommendation system.
19

Perceptron sous forme duale tronquée et variantes

Rouleau, Christian 12 April 2018 (has links)
L’apprentissage automatique fait parti d’une branche de l’intelligence artificielle et est utilisé dans de nombreux domaines en science. Il se divise en trois catégories principales : supervisé, non-supervisé et par renforcement. Ce mémoire de maîtrise portera uniquement sur l’apprentissage supervisé et plus précisément sur la classification de données. Un des premiers algorithmes en classification, le perceptron, fut proposé dans les années soixante. Nous proposons une variante de cet algorithme, que nous appelons le perceptron dual tronqué, qui permet l’arrêt de l’algorithme selon un nouveau critère. Nous comparerons cette nouvelle variante à d’autres variantes du perceptron. De plus, nous utiliserons le perceptron dual tronqué pour construire des classificateurs plus complexes comme les «Bayes Point Machines». / Machine Learning is a part of the artificial intelligence and is used in many fields in science. It is divided into three categories : supervised, not supervised and by reinforcement. This master’s paper will relate only the supervised learning and more precisely the classification of datas. One of the first algorithms in classification, the perceptron, was proposed in the Sixties. We propose an alternative of this algorithm, which we call the truncated dual perceptron, which allows the stop of the algorithm according to a new criterion. We will compare this new alternative with other alternatives of the perceptron. Moreover, we will use the truncated dual perceptron to build more complex classifiers like the «Bayes Point Machines».
20

Multi-view Machine Learning And Its Applications To Multi-Omic Tasks

Bauvin, Baptiste 16 January 2024 (has links)
Titre de l'écran-titre (visionné le 10 janvier 2024) / Cette thèse se situe à l'intersection de plusieurs domaines d'études. Elle traite principalement d'apprentissage automatique, un champ d'études de l'intelligence artificielle. Plus particulièrement, elle se focalise sur la classification supervisée, un cas particulier où l'objectif est de séparer des exemples dans des classes, pour lequel on utilise des exemples étiquetés sur lesquels on apprend un classifieur. Plus précisément, nous nous concentrons sur l'apprentissage multi-vues, pour lequel les classifieurs ont accès à plusieurs types de données. De plus, cette thèse traite de l'application de l'apprentissage multivue à des données biologiques. Les données dites -omiques, qui regroupent plusieurs analyses d'un échantillon sanguin, décrivant une grande variété de processus naturels sont notre axe principal. Ces données présentent plusieurs défis, que nous explorons tout au long de cette thèse. Pour ce faire, nous présentons également plusieurs outils spécifiquement conçus pour comparer des algorithmes d'apprentissage automatique sur des données multivues. En effet, si le domaine monovue peut se reposer sur un grand nombre d'outils robustes, ils ne sont pas utilisables dans le paradigme multivues. Ainsi une partie de ce doctorat a été dédiée au développement d'outils de qualité pour l'apprentissage multivues. En outre, nos analyses expérimentales sur les données réelles nous ont suggéré que le développement d'algorithmes spécifiques pour le multivues était moins une priorité que la conception d'approches relevant les défis des données -omiques. Ainsi, la seconde partie de cette thèse est consacrée à l'étude des méthodes d'ensembles monovues. Ce domaine regroupe tous les algorithmes construits par l'agrégation de plusieurs sous-méthodes tels que les votes de majorité, particulièrement intéressants pour l'application sur les données -omiques. De ce fait, nous proposons deux nouveaux algorithmes basés sur la méthode gloutonne pour apprendre sur des données en grande dimension. Le premier, CB-Boost, se repose sur l'optimisation efficace d'une quantité théorique, la C-borne, permettant de construire des votes de majorité performants et robustes. Le second, SamBA, est une généralisation du boosting permettant de prendre en compte des expertises locales dans son modèle pour se reposer sur une fonction de décision particulièrement parcimonieuse et interprétable. / This thesis lies at the intersection of multiple fields of study. It mainly focuses on machine learning, a domain of artificial intelligence. More specifically, we study supervised classification, which goal is to separate samples in several classes, relying on labelled samples on which a classifier is fitted. More precisely, we focus on multi-view machine learning, for which the classifiers can access multiple data types. In addition, this thesis studies the application of multi-view machine learning on biological data. More particularly, we focus on -omics data, a set of biological data that regroups several analyses derived from a biological sample, covering a large range of natural processes. This type of data is characterized by multiple challenges that we explore in this thesis. To do so, we present several tools designed specifically to allow the comparison of machine learning algorithms on multi-view data. Indeed, if the mono-view case can rely on a large number of robust libraries, they are not compatible with multi-view learning. As a consequence, a section of this thesis is dedicated to present python tools for multi-view learning. Furthermore, our experimental studies on real-life -omic data suggested that the design of multi-view specific algorithms was less of a priority than the conception of approaches specifically designed to tackle the challenges of -omic data. As a consequence, the second part of this thesis is dedicated to the study of mono-view ensemble methods. This domain regroups all the algorithms built from the aggregation of several sub-methods, such as majority votes. It is particularly interesting and useful for applications on -omic data. Consequently, we propose two algorithms based on greedy optimization, designed to learn on large dimension data. The first one, CB-Boost relies on the efficient optimization of a theoretical quantity, the C-bound, to build accurate and robust majority votes. The second one, SamBA, is a generalization of the boosting framework allowing local expertise in its model, with the objective of outputting particularly sparse and interpretable decision functions.

Page generated in 0.0814 seconds