Spelling suggestions: "subject:"apprentissage automatique"" "subject:"dapprentissage automatique""
161 |
Co-manipulation with a library of virtual guides / Co-manipulation avec une bibliothèque de Guides VirtuelsRaiola, Gennaro 02 February 2017 (has links)
Les robots ont un rôle fondamental dans la fabrication industrielle. Non seulement ils augmentent l'efficacité et la qualité des lignes de production, mais aussi diminuent considérablement la charge de travail des humains.Cependant, en raison des limites des robots industriels en termes de flexibilité, de perception et de sécurité,Leur utilisation est limitée à un environnement structuré bien connu. En outre, il n'est pas toujours rentable d'utiliser des robots autonomes industriels dans de petites usines à faibles volumes de production.Cela signifie que des travailleurs humains sont encore nécessaires dans de nombreuses chaînes d'assemblage pour exécuter des tâches spécifiques.Par conséquent, ces dernières années, une grande impulsion a été donnée à la co-manipulation homme-robot.En permettant aux humains et aux robots de travailler ensemble, il est possible de combiner les avantages des deux; La compréhension des tâches abstraites et la perception robuste typique d'un être humain avec la précision et la force d'un robot industriel.Une approche réussie pour faciliter la co-manipulation homme-robot, est l'approche de guides virtuels qui contraint le mouvement du robot sur seulement certaines trajectoires pertinentes. Le guide virtuel ainsi réalisé agit comme un outil passif qui améliore les performances de l'utilisateur en termes de temps de tâche, de charge de travail mentale et d'erreurs.L'aspect innovant de notre travail est de présenter une bibliothèque de guides virtuels qui permet à l'utilisateur de facilement sélectionner, générer et modifier les guides grâce à une interaction intuitive haptique avec le robot.Nous avons démontré, dans deux tâches industrielles, que ces innovations fournissent une interface novatrice et intuitive pour l'accomplissement des tâches par les humains et les robots. / Robots have a fundamental role in industrial manufacturing. They not only increase the efficiency and the quality of production lines, but also drastically decrease the work load carried out by humans.However, due to the limitations of industrial robots in terms of flexibility, perception and safety, their use is limited to well-known structured environment. Moreover, it is not always cost-effective to use industrial autonomous robots in small factories with low production volumes.This means that human workers are still needed in many assembly lines to carry out specific tasks.Therefore, in recent years, a big impulse has been given to human-robot co-manipulation.By allowing humans and robots to work together, it is possible to combine the advantages of both; abstract task understanding and robust perception typical of human beings with the accuracy and the strength of industrial robots.One successful method to facilitate human-robot co-manipulation, is the Virtual Guides approach which constrains the motion of the robot along only certain task-relevant trajectories. The so realized virtual guide acts as a passive tool that improves the performances of the user in terms of task time, mental workload and errors.The innovative aspect of our work is to present a library of virtual guides that allows the user to easily select, generate and modify the guides through an intuitive haptic interaction with the robot.We demonstrated in two industrial tasks that these innovations provide a novel and intuitive interface for joint human-robot completion of tasks.
|
162 |
Méthodes informatiques pour l'identification des locutions verbales / Computational methods for the identifying of verbal lphraseological unitsPriego Sanchez, Angeles Belém 10 September 2016 (has links)
Etudiées par la phraséologie, les locutions verbales sont des composantes de la structure du langage naturel qui expriment une idée ou un concept. Ces structures linguistiques sont des unités lexicales composées par plusieurs mots. Elles sont formées par un verbe et une ou plusieurs variables, dont le signifié global n'est pas nécessairement déduit du signifié de chacun de ses composants.Dans ce travail de recherche, nous proposons une méthodologie informatique permettant l’identification semi-automatique des locutions verbales de l’espagnol mexicain. Cette méthodologie contribue tant au domaine de la linguistique qu’à celui de l’informatique. Nous introduisons des méthodes informatiques supervisées et non supervisées pour l’identification et la validation des “locutions verbales candidates” en corpus des différents domaines.Les contributions de cette thèse sont principalement de quatre ordres : a) des corpus manuellement annotés pour les locutions verbales, en incluant leurs contextes, b) un lexique qui estime la probabilité d’occurrence de ces structures linguistiques dans le corpus du genre journalistique, c) diverses hypothèses pour la validation et/ou identification des locutions verbales en textes bruts, et d) l’analyse de la polarité de celles-ci.Les résultats obtenus, en incluant les hypothèses envisagées dans cette thèse, auront un impact futur sur des différentes tâches, tels que la traduction automatique, la construction des dictionnaires et l’apprentissage d’une langue étrangère, pour ne citer que quelques exemples. / Verbal phraseological units are components of the natural language structure, studied by phraseology, which express a concept or an idea. These linguistic structures are multi-word lexical units, made up of one verb and one or more variables, having a meaning which cannot be predicted from the sum of the expression component meanings. In this PhD thesis we proposed a computational methodology for the semi-automatic identification of verbal phraseological units written in Mexican Spanish that aims to contribute in both, the linguistic and computational fields. We introduce unsupervised and supervised computational methods in order to identify and validate “candidate verbal phraseological units” in corpora of different genre.The contributions of this research work are mainly four: a) corpora manually annotated for verbal phraseological units and contexts associated, b) a lexicon in which it is estimated the probability of occurrence of such linguistic structures in a corpus of news genre, c) a number of hypotheses for the automatic validation and/or identification of verbal phraseological units in raw texts, and d) analysis of their polarity.The obtained results, including the hypotheses proposed in the PhD document, will have a future impact in different tasks such as machine translation, dictionaries construction, foreign language learning, among others.
|
163 |
Accounting for variance and hyperparameter optimization in machine learning benchmarksBouthillier, Xavier 06 1900 (has links)
La récente révolution de l'apprentissage automatique s'est fortement appuyée sur l'utilisation de bancs de test standardisés. Ces derniers sont au centre de la méthodologie scientifique en apprentissage automatique, fournissant des cibles et mesures indéniables des améliorations des algorithmes d'apprentissage. Ils ne garantissent cependant pas la validité des résultats ce qui implique que certaines conclusions scientifiques sur les avancées en intelligence artificielle peuvent s'avérer erronées.
Nous abordons cette question dans cette thèse en soulevant d'abord la problématique (Chapitre 5), que nous étudions ensuite plus en profondeur pour apporter des solutions (Chapitre 6) et finalement developpons un nouvel outil afin d'amélioration la méthodologie des chercheurs (Chapitre 7).
Dans le premier article, chapitre 5, nous démontrons la problématique de la reproductibilité pour des bancs de test stables et consensuels, impliquant que ces problèmes sont endémiques aussi à de grands ensembles d'applications en apprentissage automatique possiblement moins stable et moins consensuels. Dans cet article, nous mettons en évidence l'impact important de la stochasticité des bancs de test, et ce même pour les plus stables tels que la classification d'images. Nous soutenons d'après ces résultats que les solutions doivent tenir compte de cette stochasticité pour améliorer la reproductibilité des bancs de test.
Dans le deuxième article, chapitre 6, nous étudions les différentes sources de variation typiques aux bancs de test en apprentissage automatique, mesurons l'effet de ces variations sur les méthodes de comparaison d'algorithmes et fournissons des recommandations sur la base de nos résultats. Une contribution importante de ce travail est la mesure de la fiabilité d'estimateurs peu coûteux à calculer mais biaisés servant à estimer la performance moyenne des algorithmes. Tel qu'expliqué dans l'article, un estimateur idéal implique plusieurs exécution d'optimisation
d'hyperparamètres ce qui le rend trop coûteux à calculer. La plupart des chercheurs doivent donc recourir à l'alternative biaisée, mais nous ne savions pas jusqu'à présent la magnitude de la dégradation de cet estimateur. Sur la base de nos résultats, nous fournissons des recommandations pour la comparison d'algorithmes sur des bancs de test avec des budgets de calculs limités. Premièrement, les sources de variations devraient être randomisé autant que possible. Deuxièmement, la randomization devrait inclure le partitionnement aléatoire des données pour les ensembles d'entraînement, de validation et de test, qui s'avère être la plus importante des sources de variance. Troisièmement, des tests statistiques tel que la version du Mann-Withney U-test présenté dans notre article devrait être utilisé plutôt que des comparisons sur la simple base de moyennes afin de prendre en considération l'incertitude des mesures de performance.
Dans le chapitre 7, nous présentons un cadriciel d'optimisation d'hyperparamètres développé avec principal objectif de favoriser les bonnes pratiques d'optimisation des hyperparamètres. Le cadriciel est conçu de façon à privilégier une interface simple et intuitive adaptée aux habitudes de travail des chercheurs en apprentissage automatique. Il inclut un nouveau système de versionnage d'expériences afin d'aider les chercheurs à organiser leurs itérations expérimentales et tirer profit des résultats antérieurs pour augmenter l'efficacité de l'optimisation des hyperparamètres. L'optimisation des hyperparamètres joue un rôle important dans les bancs de test, les hyperparamètres étant un facteur confondant significatif. Fournir aux chercheurs un instrument afin de bien contrôler ces facteurs confondants est complémentaire aux recommandations pour tenir compte des sources de variation dans le chapitre 6.
Nos recommendations et l'outil pour l'optimisation d'hyperparametre offre une base solide pour une méthodologie robuste et fiable. / The recent revolution in machine learning has been strongly based on the use of standardized benchmarks. Providing clear target metrics and undeniable measures of improvements of learning algorithms, they are at the center of the scientific methodology in machine learning. They do not ensure validity of results however, therefore some scientific conclusions based on flawed methodology may prove to be wrong.
In this thesis we address this question by first raising the issue (Chapter 5), then we study it to find solutions and recommendations (Chapter 6) and build tools to help improve the methodology of researchers (Chapter 7).
In first article, Chapter 5, we demonstrate the issue of reproducibility in stable and consensual benchmarks, implying that these issues are endemic to a large ensemble of machine learning applications that are possibly less stable or less consensual. We raise awareness of the important impact of stochasticity even in stable image classification tasks and contend that solutions for reproducible benchmarks should account for this stochasticity.
In second article, Chapter 6, we study the different sources of variation that are typical in machine learning benchmarks, measure their effect on comparison methods to benchmark algorithms and provide recommendations based on our results. One important contribution of this work is that we measure the reliability of a cheaper but biased estimator for the average performance of algorithms. As explained in the article, an ideal estimator involving multiple rounds of hyperparameter optimization is too computationally expensive. Most researchers must resort to use the biased alternative, but it has been unknown until now how serious a degradation of the quality of estimation this leads to. Our investigations provides guidelines for benchmarks on practical budgets. First, as many sources of variations as possible should be randomized. Second, the partitioning of data in training, validation and test sets should be randomized as well, since this is the most important source of
variation. Finally, statistical tests should be used instead of ad-hoc average comparisons so that the uncertainty of performance estimation can be accounted for when comparing machine learning algorithms.
In Chapter 7, we present a framework for hyperparameter optimization that has been developed with the main goal of encouraging best practices for hyperparameter optimization. The framework is designed to favor a simple and intuitive interface adapted to the workflow of machine learning researchers. It includes a new version control system for experiments to help researchers organize their rounds of experimentations and leverage prior results for more efficient hyperparameter optimization. Hyperparameter optimization plays an important role in benchmarking, with the effect of hyperparameters being a serious confounding factor. Providing an instrument for researchers to properly control this confounding factor is complementary to our
guidelines to account for sources of variation in Chapter 7.
Our recommendations together with our tool for hyperparameter optimization provides a solid basis for a reliable methodology in machine learning benchmarks.
|
164 |
Deep learning algorithms for database-driven peptide searchZumer, Jeremie 09 1900 (has links)
Modern proteomics – the large-scale analysis of proteins (Graves and Haystead, 2002) – relies heavily on the analysis of complex raw experimental, time series-like data. In a typical shotgun mass spectrometry workflow where the goal is to identify proteins in solution, a complex protein mixture is prepared, digested, fractionated for example by mass range, ionized and injected into a mass spectrometer, resulting in a so-called mass spectrum which, in tandem mass spectrometry, achieves obtain amino acid-resolution signals for the detected peptides. The spectrum must be cleaned up to become suitable for further analysis, then the peaks defined by the m/z to intensity values in the spectrum can be matched to some expected peak sequence from a set of candidate peptides (which are often simply in silico digests from the source specie’s proteome), which is the process of peptide identification proper. In this work, we select and solve some current limitations in the computational side of peptide identification research. We first introduce a new, research-oriented search engine. A major question at the boundary of current proteomics research is the integration and viability of new deep learning-driven algorithms for identification. Very little work has been done on this topic so far, with Prosit (Gessulat et al., 2019) being the only such software to see integration in an existing search engine, as far as we are aware (although rescoring algorithms like Percolator (Käll et al., 2007), which typically use more classical machine learning algorithms, have been in routine use for a while by now, they are merely applied as a postprocessing step and not integrated in the engine per se). To investigate this, we develop and present a new deep learning algorithm that performs peptide length prediction from a spectrum (a first, as far as we are aware). We compute metrics based on this prediction that we use during rescoring, and demonstrate consistently improved peptide identifications. Moreover, we propose a new full spectrum prediction algorithm (in line with PredFull (Liu et al., 2020) rather than Prosit) and a novel, random forest-based rescoring algorithm and paradigm, which we integrate within our search engine. Altogether, the deep learning tools we propose show an increase of over 20% in peptide identification rates at a 1% false discovery rate (FDR) threshold. These results provide strong evidence that deep learning-based tools proposed for proteomics can greatly improve peptide identifications. / La protéomique moderne – l’analyse à grande échelle des protéines (Graves and Haystead,
2002) - dépend fortement de l’analyse de données expérimentales de série chronologique
complexes. Dans un flux de travail typique de spectrométrie de masse en shotgun, où l’objectif
est d’identifier les protéines en solution, un mélange complexe de protéines est préparé, digéré,
fractionné par exemple par catégorie de masse ou par hydrophobicité, ionisé et injecté dans
un spectromètre de masse, ce qui donne ce que l’on appel un spectre de masse. Dans le
mode de spectrométrie de masse en tandem, il représente des signaux à la résolution des
acides aminés sur les peptides présentes. Le spectre doit être nettoyé pour se prêter à une
analyse plus approfondie, puis les pics définis par les couples de valeurs m/z et d’intensité
dans le spectre peuvent être mis en correspondance avec une séquence de pics attendue selon
la séquence hypothétique du peptide présent dans le spectre (qui sont souvent obtenus par
digestions in-silico du protéome de l’espèce source) ; il s’agit du processus d’identification des
peptides proprement dit.
Dans ce travail, nous sélectionnons et résolvons certaines limitations actuelles spécifiques
au côté informatique de la recherche sur l’identification des peptides. Nous introduisons
d’abord un nouveau moteur d’identification axé sur la recherche. Une question majeure à
la frontière actuelle en protéomique est l’intégration et la viabilité de nouveaux algorithmes
basés sur l’apprentissage profond dans un contexte d’identification. Très peu de travail a été
effectué sur ce sujet jusqu’à présent, Prosit (Gessulat et al., 2019) étant le seul logiciel de
ce type à voir l’intégration dans un moteur de recherche préexistant, au meilleures de nos
connaissances (bien que des algorithmes de rescoring comme Percolator (Käll et al., 2007) ,
qui utilisent généralement des algorithmes d’apprentissage automatique plus classiques, sont
habituellement utilisés depuis un certain temps maintenant, ils sont simplement appliqués
comme étape de post-traitement et non intégrés dans le moteur). Pour étudier ce problème,
nous développons et présentons un nouvel algorithme d’apprentissage en profondeur qui effectue
la prédiction de la longueur des peptides à partir d’un spectre (le premier algorithme
de ce type), et calculons des métriques basées sur cette prédiction. Nous utilisons l’algorithme
résultant pour démontrer des identifications de peptides constamment améliorées après intégration
dans notre engin. De plus, nous proposons un nouvel algorithme de prédiction de
5
spectres complets (conforme à PredFull (Liu et al., 2020) plutôt qu’à Prosit) ainsi qu’un
nouvel algorithme et paradigme de rescoring basé sur la forêt aléatoire, que nous intégrons
encore à notre moteur de recherche. En somme, les outils d’apprentissage en profondeur
que nous proposons démontrent une amélioration de plus de 20% des taux d’identification
de peptides à un seuil de taux de fausse découverte (FDR) de 1%. Ces résultats suggèrent
pour la première fois que les algorithmes d’apprentissage profonds proposés en protéomique
peuvent en effet largement améliorer les identifications.
|
165 |
Amplification d'arbres de régression compatibles avec l'encodage de la sortie, application à la reconnaissance des images de chiffres manuscritsBen Fadhel, Khalil 24 September 2024 (has links)
Le boosting est une approche largement utilisée pour résoudre les problèmes de classification et de régression. Sa force réside dans sa capacité à améliorer les performances de classificateurs individuels faibles pour en construire un puissant. La théorie du boosting est bien établie en tant que descente de gradient dans un espace de fonctions. Cependant, la conception d’un apprenant faible qui peut s’amplifier par boosting reste une question ouverte. Inspirés par les algorithmes Adaboost-MH et XGBoost, nous proposons une nouvelle famille d’apprenants faibles appelée Arbres de Hamming multi-classes à niveaux de confiance, où un arbre prenden charge l’encodage de la sortie, effectue un seul partitionnement disjoint de l’espace des instances, et prédit un vecteur de coefficients à valeurs réelles afin de mieux approximer le gradient fonctionnel négatif de la fonction objective. Nous proposons également un algorithme de boosting appelé QuadBoost-MHCR pour la minimisation de la perte quadratique multi-calsses avec encodage multi-classes de Hamming et avec des prédictions à niveaux de confiance. L’algorithme minimise une fonction de perte L2 multi-classes et il est facile de le généraliser, de manière analogue à XGBoost, pour minimiser toute fonction objective deux fois différentiable. / Boosting is a widely used approach for solving classification and regression problems. Its strength lies in its ability to improve the performance of individual weak classifiers to construct a strong one. The theory of boosting is well established as a gradient descent in functional space. However, the design of a boostable weak learner is still an open issue. Inspired by the algorithms Adaboost-MH and XGBoost, we propose a new family of weak learners called confidence rated multi-class Hamming trees where a tree supports output coding, performs a single disjoint partitioning of the input space, and outputs a real valued vector in order to better approximate the negative functional gradient of the cost function. We also propose ajoint boosting algorithm, called QuadBoost-MHCR for Quadratic Loss Boosting with Multi-class Hamming output encoding, and Confidence Rated predictions. The algorithm minimizes a multi-class L2-loss function, and it is easy to extend it, in an XGBoost fashion, to minimize any twice differentiable loss function.
|
166 |
Réutilisation d'entités nommées pour la réponse au courrielDanet, Laurent 12 April 2018 (has links)
La réponse automatique aux courriels est une solution envisagée pour faciliter le travail de certains services d’entreprises, tels que les services à la clientèle ou les relations avec des investisseurs, services confrontés à un grand nombre de courriels souvent répétitifs. Nous avons décidé d’adapter une approche de raisonnement à base de cas (CBR - Case-Based Reasoning) pour confronter ce problème. Cette approche vise à réutiliser des messages antérieurs pour répondre à de nouveaux courriels, en sélectionnant une réponse adéquate parmi les messages archivés et en l’adaptant pour la rendre pertinent par rapport au contexte de la nouvelle requête. L’objectif de nos travaux est de définir une démarche pour aider l’usager d’un système de réponse au courriel à réutiliser les entités nommées de courriels antécédents. Cependant, les entités nommées nécessitent une adaptation avant d’être réutilisées. Pour ce faire, nous effectuons deux tâches qui sont d’abord l’identification des portions modifiables du message antécédent et ensuite la sélection des portions qui seront adaptées pour construire la réponse à la requête. Les deux tâches nécessitent l’utilisation de connaissances. Notre problématique consiste à déterminer si les approches adaptatives, basées sur des techniques d’apprentissage automatique permettent d’acquérir des connaissances pour réutiliser efficacement des entités nommées. La première tâche d’identification des portions modifiables s’apparente à l’extraction d’information. Toutefois nous nous intéressons uniquement aux entités nommées et à leurs spécialisations. La seconde tâche, la sélection de portions à adapter, correspond à une catégorisation de textes dans laquelle nous utilisons la requête pour attribuer une classe à la réponse que nous devons construire. La classe nous indique quelles entités doivent être adaptées. ii Nous avons étudiés et comparées différentes approches pour les deux tâches. Ainsi, nous avons testés pour l’extraction, les approches manuelle et automatiques, de haut en bas (top-down) et de bas vers le haut (bottom-up) sur un corpus de courriels. Les résultats obtenus par l’approche manuelle sont excellents. Toutefois nous observons une dégradation pour les approches automatiques. Pour la catégorisation, Nous avons évalué différentes représentations des textes et des mots, l’utilisation de poids pour ces derniers, et l’impact d’une compression obtenue par l’utilisation de règles d’association. Les résultats obtenus sont généralement satisfaisants et nous indique que notre approche, composée des deux tâches décrites précédemment, pourrait s’appliquer à notre problème de réponse automatique aux courriels. / An automatic e-mail response system is a solution for improving the operations of certain business services, like customers’ services or investor relations. Those services are dealing with a large volume requests coming through e-mail messages, most of them being repetitive. We have decided to explore a CBR approach (Case-Based Reasoning) for this problem. Such an approach makes use of antecedent messages to respond to new incoming e-mails. Requests coming from customers or investors are often redundant; we could select an adequate answer among the archived messages, and then adapt it to make it coherent with the actual context of the new message request. In this project, we address the re-use problem, but more specifically the identification of named entity and their specialized roles. These entities are portions of text strongly depend on the context of the antecedent message, and hence need some adaptation to be re-used. We divide the reuse process in two tasks which are: a) the identification of modifiable portions of an antecedent message; b) the selection of portions to be adapted to build the answer of the request. For first task, we make use of information extraction techniques. But we will concentrate our efforts uniquely on the extraction of named entities and their specializations. For second task we make use of text classification techniques to decide which portions are subject to adaptation. This decision is based on the context of the request, words which compose it. We used different approaches for the two tasks. We tested manual and automatics top-down and bottom-up extraction techniques on an e-mail corpus for the identification of iv modifiable portions extraction task. Manual approach gives us excellent results. But, we notice a degradation of performance for automatic extraction techniques. For the selection of portions to be adapted, we compared made use of association rules and various word representation. Association rules use permits to compress data without degrades results a lot. Globally, results are good and indicate that our approach, desrcibes before, could be applied to our problem.
|
167 |
Détection précoce de ravageurs sur les plantes de cannabis par imagerie multispectrale : intelligence artificielle et apprentissage automatiqueSi Ahmed, Ahmed 30 April 2024 (has links)
Ce mémoire porte sur l'étude de nouvelles méthodes de détection précoce des maladies sur les plantes du cannabis avec de l'imagerie par tests non-destructifs. Ces méthodes permettent la détection des ravageurs sur les plantes du cannabis à l'état précoce à partir d'images multispectrales et ainsi facilitent l'automatisation de l'inspection et la surveillance des cultures. Le travail se sépare en trois parties. Premièrement, les différentes techniques utilisées dans ce domaine pour la détection des plantes malades ainsi que la surveillance de celle-ci seront détaillées. Ensuite, il sera question d'un article publié dans le cadre de la conférence SPIE Defense + Commercial Sensing (Ahmed, et al., 2023). Cet article propose une nouvelle méthode pour la détection précoce des maladies sur les plants de cannabis en utilisant l'intelligence artificielle et l'imagerie multispectrale. À ce jour, il s'agit du premier article disponible avec cette méthode testée sur des plants du cannabis. Il permet d'introduire le reste de ce mémoire puisque le travail fait dans le cadre de cet article a directement contribué au reste de la recherche. Il sera ensuite question du travail effectué pour obtenir des images multispectrales avec la caméra multispectrale Micasense Red-Edge. Nous parlerons de la nouvelle méthode qui a été appliquée pour réussir la détection. Pour terminer, nous montrerons les résultats de ce projet sous la forme de graphes et de tableaux des différentes prédictions
|
168 |
Calage robuste et accéléré de nuages de points en environnements naturels via l'apprentissage automatiqueLatulippe, Maxime 19 April 2018 (has links)
En robotique mobile, un élément crucial dans la réalisation de la navigation autonome est la localisation du robot. En utilisant des scanners laser, ceci peut être réalisé en calant les nuages de points consécutifs. Pour ce faire, l’utilisation de points de repères appelés descripteurs sont généralement efficaces, car ils permettent d’établir des correspondances entre les nuages de points. Cependant, nous démontrons que dans certains environnements naturels, une proportion importante d’entre eux peut ne pas être fiable, dégradant ainsi les performances de l’alignement. Par conséquent, nous proposons de filtrer les descripteurs au préalable afin d’éliminer les nuisibles. Notre approche consiste à utiliser un algorithme d’apprentissage rapide, entraîné à la volée sous le paradigme positive and unlabeled learning sans aucune intervention humaine nécessaire. Les résultats obtenus montrent que notre approche permet de réduire significativement le nombre de descripteurs utilisés tout en augmentant la proportion de descripteurs fiables, accélérant et augmentant ainsi la robustesse de l’alignement. / Localization of a mobile robot is crucial for autonomous navigation. Using laser scanners, this can be facilitated by the pairwise alignment of consecutive scans. For this purpose, landmarks called descriptors are generally effective as they facilitate point matching. However, we show that in some natural environments, many of them are likely to be unreliable. The presence of these unreliable descriptors adversely affects the performances of the alignment process. Therefore, we propose to filter unreliable descriptors as a prior step to alignment. Our approach uses a fast machine learning algorithm, trained on-the-fly under the positive and unlabeled learning paradigm without the need for human intervention. Our results show that the number of descriptors can be significantly reduced, while increasing the proportion of reliable ones, thus speeding up and improving the robustness of the scan alignment process.
|
169 |
Multi-view Machine Learning And Its Applications To Multi-Omic TasksBauvin, Baptiste 16 January 2024 (has links)
Titre de l'écran-titre (visionné le 10 janvier 2024) / Cette thèse se situe à l'intersection de plusieurs domaines d'études. Elle traite principalement d'apprentissage automatique, un champ d'études de l'intelligence artificielle. Plus particulièrement, elle se focalise sur la classification supervisée, un cas particulier où l'objectif est de séparer des exemples dans des classes, pour lequel on utilise des exemples étiquetés sur lesquels on apprend un classifieur. Plus précisément, nous nous concentrons sur l'apprentissage multi-vues, pour lequel les classifieurs ont accès à plusieurs types de données. De plus, cette thèse traite de l'application de l'apprentissage multivue à des données biologiques. Les données dites -omiques, qui regroupent plusieurs analyses d'un échantillon sanguin, décrivant une grande variété de processus naturels sont notre axe principal. Ces données présentent plusieurs défis, que nous explorons tout au long de cette thèse. Pour ce faire, nous présentons également plusieurs outils spécifiquement conçus pour comparer des algorithmes d'apprentissage automatique sur des données multivues. En effet, si le domaine monovue peut se reposer sur un grand nombre d'outils robustes, ils ne sont pas utilisables dans le paradigme multivues. Ainsi une partie de ce doctorat a été dédiée au développement d'outils de qualité pour l'apprentissage multivues. En outre, nos analyses expérimentales sur les données réelles nous ont suggéré que le développement d'algorithmes spécifiques pour le multivues était moins une priorité que la conception d'approches relevant les défis des données -omiques. Ainsi, la seconde partie de cette thèse est consacrée à l'étude des méthodes d'ensembles monovues. Ce domaine regroupe tous les algorithmes construits par l'agrégation de plusieurs sous-méthodes tels que les votes de majorité, particulièrement intéressants pour l'application sur les données -omiques. De ce fait, nous proposons deux nouveaux algorithmes basés sur la méthode gloutonne pour apprendre sur des données en grande dimension. Le premier, CB-Boost, se repose sur l'optimisation efficace d'une quantité théorique, la C-borne, permettant de construire des votes de majorité performants et robustes. Le second, SamBA, est une généralisation du boosting permettant de prendre en compte des expertises locales dans son modèle pour se reposer sur une fonction de décision particulièrement parcimonieuse et interprétable. / This thesis lies at the intersection of multiple fields of study. It mainly focuses on machine learning, a domain of artificial intelligence. More specifically, we study supervised classification, which goal is to separate samples in several classes, relying on labelled samples on which a classifier is fitted. More precisely, we focus on multi-view machine learning, for which the classifiers can access multiple data types. In addition, this thesis studies the application of multi-view machine learning on biological data. More particularly, we focus on -omics data, a set of biological data that regroups several analyses derived from a biological sample, covering a large range of natural processes. This type of data is characterized by multiple challenges that we explore in this thesis. To do so, we present several tools designed specifically to allow the comparison of machine learning algorithms on multi-view data. Indeed, if the mono-view case can rely on a large number of robust libraries, they are not compatible with multi-view learning. As a consequence, a section of this thesis is dedicated to present python tools for multi-view learning. Furthermore, our experimental studies on real-life -omic data suggested that the design of multi-view specific algorithms was less of a priority than the conception of approaches specifically designed to tackle the challenges of -omic data. As a consequence, the second part of this thesis is dedicated to the study of mono-view ensemble methods. This domain regroups all the algorithms built from the aggregation of several sub-methods, such as majority votes. It is particularly interesting and useful for applications on -omic data. Consequently, we propose two algorithms based on greedy optimization, designed to learn on large dimension data. The first one, CB-Boost relies on the efficient optimization of a theoretical quantity, the C-bound, to build accurate and robust majority votes. The second one, SamBA, is a generalization of the boosting framework allowing local expertise in its model, with the objective of outputting particularly sparse and interpretable decision functions.
|
170 |
Applications de méthodes de classification non supervisées à la détection d'anomaliesJabiri, Fouad 27 January 2024 (has links)
Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux. / In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms.
|
Page generated in 0.0776 seconds