• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 255
  • 252
  • 50
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 576
  • 576
  • 377
  • 364
  • 118
  • 117
  • 115
  • 105
  • 98
  • 94
  • 90
  • 89
  • 89
  • 72
  • 70
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
181

Statistical learning applied to cardiology : discriminative clustering and aortic stenosis phenogroups

Ohl, Louis 28 June 2024 (has links)
La sténose de la valve aortique (SA) est une maladie chronique progressive dont la prévalence risque de tripler dans les décennies à venir en Amérique du Nord et par conséquent ses impacts en santé et économie. À l'heure actuelle, aucun médicament contre la SA n'est disponible. La nécessité de pharmacothérapies adaptées pousse donc à l'exploration des différentes causes de la progression de la SA chez les patients. Bien qu'il existe déjà certaines sous-catégories de la SA, ces dernières sont difficiles à identifier et par conséquent à cibler par une thérapie. Afin de découvrir et identifier des causes potentielles de la SA, nous formulons la recherche de ces phénogroupes en tant que problème de partitionement. Le partitionnement est un problème issu du domaine d'apprentissage automatique consistant à répartir de multiples observations en groupes nommés clusters selon leurs similarités. Afin d'accompagner ce problème d'apprentissage automatique, nous utilisons l'étude sur le progression des déterminants métaboliques de la SA (étude PROGRESSA). L'étude PROGRESSA comprend trois modalités : clinicopathologique, protéomique et radiomique pour 351 patients avec suivi annuel. La structure de PROGRESSA est complexe : elle est de grande dimension avec des variables de natures différentes. De plus, les différentes modalités ne se recouvrent pas nécessairement. Dans ce contexte, nous formulons le problème de partitionnement à travers un prisme discriminatif, ce qui permet d'intégrer avec facilité des modèles d'apprentissage profond, notamment pour manipuler des données grande dimensions. Ces dernières années ont été marquées par l'arrivée de méthodes de partitionnement profonds, souvent basés sur la maximisation de l'information mutuellee. Cependant, les récents succès de ces méthodes sont souvent spécifique à un type unique de données et ne permettent donc pas d'anticiper leur applicabilité à un problème multi-source. Afin de construire une solution pour le problème de partitionnement multi-source, cette thèse s'orchestre autour du développement d'un ensemble de méthodes de clustering nommé information mutuelle généralisée (GEMINI) à partir du Chapitre 2. Cet ensemble de méthodes permet d'utiliser n'importe quelle architecture de réseau de neurones profonds sur des données de natures variées. Nous montrons également comment cette méthode peut être améliorée pour incorporer des méchanismes de sélections de vaiables afin de faciliter l'interprétation des clusters au Chapitre 3 : Sparse GEMINI. Puis nous complètons le spectre des modèles entraînables par GEMINI avec l'introduction d'arbres non supervisés donnant un clustering avec explication intégrée dans le chapitre 4. Enfin, nous terminons cette thèse avec un pipeline intégrant divers variants de GEMINI pour la découverte de phénogroupes de la SA dans l'étude PROGRESSA au Chapitre 5. Certains de ces phénogroupes montrent une mortalité accentuée et sont caractérisés par des marqueurs spécifiques, par exemple liés aux lipoprotéines, au diabète ou à la bicuspidie des valves aortiques. Ces phénogroupes peuvent ainsi être ciblés par des thérapies spécifiques afin de réduire le risque de progression de la maladie. / Aortic valve stenosis (AS) is a chronic progressive disease whose prevalence is likely to triple in the coming decades in North America, with a consequent impact on health and the economy. However, efficient drug therapies for this disease are not available. The need for appropriate medication is therefore driving the exploration of the various causes of AS progression in patients. There exist a few sub-categories of the disease that could be differently targeted by drugs, but they are hard to define and identify. To alleviate the finding of different possible causes of AS, we formulate the search of phenogroup (i.e. disease subtypes) as a clustering problem. Clustering is a family of approaches from machine learning that consists in gathering multiple observations deemed similar in categories called clusters. To support this machine learning problem instance, we employ the metabolic determinants of the progression of AS study (PROGRESSA study). The PROGRESSA dataset comprises 3 modalities: clinicopathological, proteomics and radiomics data for 351 patients with yearly follow-ups. The structure of the PROGRESSA study is challenging for current clustering algorithms: it is high-dimensional with mixed data types. Moreover, the different modalities of the data do not necessarily overlap, making it to a multi-source clustering problem. In this context, we formulate the clustering problem through the lens of discriminative clustering: a point of view that leverages the easy integration of deep learning models for handling and concatenating high-dimensional data. Within this framework, the last decade witnessed the impressive rise of deep clustering methods that often involves the maximisation of mutual information. However, the recent success of deep clustering models are often over-specified for one type of data and therefore hardly account for multi-modal data. To pave the way for a multi-source discriminative clustering algorithm, we developed a set of discriminative clustering methods called generalised mutual information (GEMINI) in Chapter 2. Thanks to its discriminative construction, this set of methods can be used with any deep neural network architecture on data of various types. We also show how this method can be improved to incorporate variable selection mechanisms to facilitate the interpretation of clusters in Chapter 3: Sparse GEMINI. Then, we complete the spectrum of models trainable by GEMINI in Chapter 4 with the introduction of unsupervised trees giving a clustering with integrated explanation. Finally, we conclude this thesis in Chapter 5 with a pipeline integrating various GEMINI variants for the discovery of AS phenogroups in the PROGRESSA study. Some of these phenogroups show increased mortality and are characterised by specific markers, for example linked to lipoproteins, diabetes or bicuspid aortic valves. These phenogroups can therefore be targeted by specific therapies to reduce the risk of disease progression.
182

Détection précoce de ravageurs sur les plantes de cannabis par imagerie multispectrale : intelligence artificielle et apprentissage automatique

Si Ahmed, Ahmed 30 April 2024 (has links)
Ce mémoire porte sur l'étude de nouvelles méthodes de détection précoce des maladies sur les plantes du cannabis avec de l'imagerie par tests non-destructifs. Ces méthodes permettent la détection des ravageurs sur les plantes du cannabis à l'état précoce à partir d'images multispectrales et ainsi facilitent l'automatisation de l'inspection et la surveillance des cultures. Le travail se sépare en trois parties. Premièrement, les différentes techniques utilisées dans ce domaine pour la détection des plantes malades ainsi que la surveillance de celle-ci seront détaillées. Ensuite, il sera question d'un article publié dans le cadre de la conférence SPIE Defense + Commercial Sensing (Ahmed, et al., 2023). Cet article propose une nouvelle méthode pour la détection précoce des maladies sur les plants de cannabis en utilisant l'intelligence artificielle et l'imagerie multispectrale. À ce jour, il s'agit du premier article disponible avec cette méthode testée sur des plants du cannabis. Il permet d'introduire le reste de ce mémoire puisque le travail fait dans le cadre de cet article a directement contribué au reste de la recherche. Il sera ensuite question du travail effectué pour obtenir des images multispectrales avec la caméra multispectrale Micasense Red-Edge. Nous parlerons de la nouvelle méthode qui a été appliquée pour réussir la détection. Pour terminer, nous montrerons les résultats de ce projet sous la forme de graphes et de tableaux des différentes prédictions
183

Détection de menaces internes par apprentissage automatique non supervisé

Bertrand, Simon 26 November 2023 (has links)
Titre de l'écran-titre (visionné le 5 juin 2023) / Les menaces internes, ou en anglais Insider Threat, surviennent lorsqu'un individu ayant des accès privilégiés au sein d'une organisation les utilise d'une façon causant du tort à l'organisation. L'employé peut réaliser ces actions dangereuses de façon intentionnelle ou non intentionnelle. Les menaces internes sont très variées ce qui les rend particulièrement complexes à détecter. La confidentialité, l'intégrité et la disponibilité des données sont des préoccupations croissantes pour les organisations d'aujourd'hui. Malgré tout, l'étendue de l'impact des menaces internes est souvent sous-estimée. En effet, même si les menaces internes ne représentent qu'une fraction de toutes les cyberattaques, les dangers en lien avec les menaces internes sont réels. Dans un premier lieu, les attaques internes peuvent causer plus de dommages aux organisations que les attaques traditionnelles. Ceci s'explique en partie par la grande connaissance de l'organisation, ainsi que les accès privilégiés, qu'ont les employés réalisant ces attaques. Ces derniers sont donc en mesure de facilement perpétrer des actions dangereuses sans éveiller de soupçons. De plus, dans les dernières années, plusieurs études suggèrent que la majorité des organisations souffrent de menaces internes chaque année [2]. La détection de menaces internes est ainsi un problème pertinent qui attire beaucoup de chercheurs. Une des stratégies couramment utilisée pour faire la détection de menaces internes est de modéliser les comportements des employés d'une organisation et d'identifier toute divergence significative comme une menace potentielle. Pour ce faire, les journaux d'audit, décrivant tous les évènements réalisés par les membres d'une organisation dans le réseau informatique, sont des sources d'informations privilégiées dans le domaine pour apprendre les comportements typiques des utilisateurs. Dans ce mémoire, nous présentons deux solutions originales de détection de menaces internes utilisant des journaux d'audit et des techniques d'apprentissage automatique non supervisé afin d'apprendre les comportements utilisateur et détecter les comportements malicieux. Les deux solutions présentent des résultats compétitifs par rapport à l'état de l'art, et ce en offrant des caractéristiques qui facilitent leur implémentation dans de vraies organisations. / Insider threats occur when a privileged member of an organization wrong fully uses his access in a way that causes harm to his organization. Those damaging actions can be intentional, as in the case of theft or sabotage, however, un intentional dangerous actions are also to be considered, which adds to the complexity of the insider threat. The insider threat is a broad type of cyber menace, making its detection particularly difficult. For organizations, the confidentiality, integrity, and availability of their information are an increasing concern. Yet many under estimate the magnitude of the insider threats against the maintenance of those ideals. Indeed, even though insider threats are only a fraction of all existing cyber threats, this type of menace presents a real and unique danger for organizations. Firstly, an insider threat can be more damaging to an organization than a traditional cyberattack. This is mainly explicable by the privileged accesses and great domain knowledge that the insider possesses over an outsider. The insider has then a better opportunity to use his access and domain knowledge to carry out efficiently and quietly the attack. Moreover, over the last few years, some reports suggest that most institutions yearly suffer from that kind of cyber threat [2]. Insider threat detection is therefore a relevant problem that attracted many researchers to deploy their efforts in the last decades. One common strategy to detect malicious insiders is by modeling the behaviors of the users and identifying any significant divergence as a potential threat. In that matter, audit data, describing the activity of every member of an organization in the network, are regularly chosen to learn user behaviors using statistical or machine learning models. In the present work, we propose two insider threat detection systems that leverage audit data to learn user behaviors and detect divergent conduct in an unsupervised fashion. Both solutions are competitive with state-of-the-art techniques, and were developed considering many challenges in the field, like being easy to implement in a real-world scenario and considering events dependencies.
184

VENCE : un modèle performant d'extraction de résumés basé sur une approche d'apprentissage automatique renforcée par de la connaissance ontologique

Motta, Jesus Antonio 23 April 2018 (has links)
De nombreuses méthodes et techniques d’intelligence artificielle pour l’extraction d'information, la reconnaissance des formes et l’exploration de données sont utilisées pour extraire des résumés automatiquement. En particulier, de nouveaux modèles d'apprentissage automatique semi supervisé avec ajout de connaissance ontologique permettent de choisir des phrases d’un corpus en fonction de leur contenu d'information. Le corpus est considéré comme un ensemble de phrases sur lequel des méthodes d'optimisation sont appliquées pour identifier les attributs les plus importants. Ceux-ci formeront l’ensemble d’entrainement, à partir duquel un algorithme d’apprentissage pourra abduire une fonction de classification capable de discriminer les phrases de nouveaux corpus en fonction de leur contenu d’information. Actuellement, même si les résultats sont intéressants, l’efficacité des modèles basés sur cette approche est encore faible notamment en ce qui concerne le pouvoir discriminant des fonctions de classification. Dans cette thèse, un nouveau modèle basé sur l’apprentissage automatique est proposé et dont l’efficacité est améliorée par un ajout de connaissance ontologique à l’ensemble d’entrainement. L’originalité de ce modèle est décrite à travers trois articles de revues. Le premier article a pour but de montrer comment des techniques linéaires peuvent être appliquées de manière originale pour optimiser un espace de travail dans le contexte du résumé extractif. Le deuxième article explique comment insérer de la connaissance ontologique pour améliorer considérablement la performance des fonctions de classification. Cette insertion se fait par l’ajout, à l'ensemble d’entraînement, de chaines lexicales extraites de bases de connaissances ontologiques. Le troisième article décrit VENCE , le nouveau modèle d’apprentissage automatique permettant d’extraire les phrases les plus porteuses d’information en vue de produire des résumés. Une évaluation des performances de VENCE a été réalisée en comparant les résultats obtenus avec ceux produits par des logiciels actuels commerciaux et publics, ainsi que ceux publiés dans des articles scientifiques très récents. L’utilisation des métriques habituelles de rappel, précision et F_measure ainsi que l’outil ROUGE a permis de constater la supériorité de VENCE. Ce modèle pourrait être profitable pour d’autres contextes d’extraction d’information comme pour définir des modèles d’analyse de sentiments. / Several methods and techniques of artificial intelligence for information extraction, pattern recognition and data mining are used for extraction of summaries. More particularly, new machine learning models with the introduction of ontological knowledge allow the extraction of the sentences containing the greatest amount of information from a corpus. This corpus is considered as a set of sentences on which different optimization methods are applied to identify the most important attributes. They will provide a training set from which a machine learning algorithm will can abduce a classification function able to discriminate the sentences of new corpus according their information content. Currently, even though the results are interesting, the effectiveness of models based on this approach is still low, especially in the discriminating power of classification functions. In this thesis, a new model based on this approach is proposed and its effectiveness is improved by inserting ontological knowledge to the training set. The originality of this model is described through three papers. The first paper aims to show how linear techniques could be applied in an original way to optimize workspace in the context of extractive summary. The second article explains how to insert ontological knowledge to significantly improve the performance of classification functions. This introduction is performed by inserting lexical chains of ontological knowledge based in the training set. The third article describes VENCE , the new machine learning model to extract sentences with the most information content in order to produce summaries. An assessment of the VENCE performance is achieved comparing the results with those produced by current commercial and public software as well as those published in very recent scientific articles. The use of usual metrics recall, precision and F_measure and the ROUGE toolkit showed the superiority of VENCE. This model could benefit other contexts of information extraction as for instance to define models for sentiment analysis.
185

Adaptive Dynamics Learning and Q-initialization in the context of multiagent learning

Burkov, Andriy 12 April 2018 (has links)
L’apprentissage multiagent est une direction prometteuse de la recherche récente et à venir dans le contexte des systèmes intelligents. Si le cas mono-agent a été beaucoup étudié pendant les deux dernières décennies, le cas multiagent a été peu étudié vu sa complexité. Lorsque plusieurs agents autonomes apprennent et agissent simultanément, l’environnement devient strictement imprévisible et toutes les suppositions qui sont faites dans le cas mono-agent, telles que la stationnarité et la propriété markovienne, s’avèrent souvent inapplicables dans le contexte multiagent. Dans ce travail de maîtrise nous étudions ce qui a été fait dans ce domaine de recherches jusqu’ici, et proposons une approche originale à l’apprentissage multiagent en présence d’agents adaptatifs. Nous expliquons pourquoi une telle approche donne les résultats prometteurs lorsqu’on la compare aux différentes autres approches existantes. Il convient de noter que l’un des problèmes les plus ardus des algorithmes modernes d’apprentissage multiagent réside dans leur complexité computationnelle qui est fort élevée. Ceci est dû au fait que la taille de l’espace d’états du problème multiagent est exponentiel en le nombre d’agents qui agissent dans cet environnement. Dans ce travail, nous proposons une nouvelle approche de la réduction de la complexité de l’apprentissage par renforcement multiagent. Une telle approche permet de réduire de manière significative la partie de l’espace d’états visitée par les agents pour apprendre une solution efficace. Nous évaluons ensuite nos algorithmes sur un ensemble d’essais empiriques et présentons des résultats théoriques préliminaires qui ne sont qu’une première étape pour former une base de la validité de nos approches de l’apprentissage multiagent. / Multiagent learning is a promising direction of the modern and future research in the context of intelligent systems. While the single-agent case has been well studied in the last two decades, the multiagent case has not been broadly studied due to its complex- ity. When several autonomous agents learn and act simultaneously, the environment becomes strictly unpredictable and all assumptions that are made in single-agent case, such as stationarity and the Markovian property, often do not hold in the multiagent context. In this Master’s work we study what has been done in this research field, and propose an original approach to multiagent learning in presence of adaptive agents. We explain why such an approach gives promising results by comparing it with other different existing approaches. It is important to note that one of the most challenging problems of all multiagent learning algorithms is their high computational complexity. This is due to the fact that the state space size of multiagent problem is exponential in the number of agents acting in the environment. In this work we propose a novel approach to the complexity reduction of the multiagent reinforcement learning. Such an approach permits to significantly reduce the part of the state space needed to be visited by the agents to learn an efficient solution. Then we evaluate our algorithms on a set of empirical tests and give a preliminary theoretical result, which is first step in forming the basis of validity of our approaches to multiagent learning.
186

Calage robuste et accéléré de nuages de points en environnements naturels via l'apprentissage automatique

Latulippe, Maxime 19 April 2018 (has links)
En robotique mobile, un élément crucial dans la réalisation de la navigation autonome est la localisation du robot. En utilisant des scanners laser, ceci peut être réalisé en calant les nuages de points consécutifs. Pour ce faire, l’utilisation de points de repères appelés descripteurs sont généralement efficaces, car ils permettent d’établir des correspondances entre les nuages de points. Cependant, nous démontrons que dans certains environnements naturels, une proportion importante d’entre eux peut ne pas être fiable, dégradant ainsi les performances de l’alignement. Par conséquent, nous proposons de filtrer les descripteurs au préalable afin d’éliminer les nuisibles. Notre approche consiste à utiliser un algorithme d’apprentissage rapide, entraîné à la volée sous le paradigme positive and unlabeled learning sans aucune intervention humaine nécessaire. Les résultats obtenus montrent que notre approche permet de réduire significativement le nombre de descripteurs utilisés tout en augmentant la proportion de descripteurs fiables, accélérant et augmentant ainsi la robustesse de l’alignement. / Localization of a mobile robot is crucial for autonomous navigation. Using laser scanners, this can be facilitated by the pairwise alignment of consecutive scans. For this purpose, landmarks called descriptors are generally effective as they facilitate point matching. However, we show that in some natural environments, many of them are likely to be unreliable. The presence of these unreliable descriptors adversely affects the performances of the alignment process. Therefore, we propose to filter unreliable descriptors as a prior step to alignment. Our approach uses a fast machine learning algorithm, trained on-the-fly under the positive and unlabeled learning paradigm without the need for human intervention. Our results show that the number of descriptors can be significantly reduced, while increasing the proportion of reliable ones, thus speeding up and improving the robustness of the scan alignment process.
187

Multi-view Machine Learning And Its Applications To Multi-Omic Tasks

Bauvin, Baptiste 16 January 2024 (has links)
Titre de l'écran-titre (visionné le 10 janvier 2024) / Cette thèse se situe à l'intersection de plusieurs domaines d'études. Elle traite principalement d'apprentissage automatique, un champ d'études de l'intelligence artificielle. Plus particulièrement, elle se focalise sur la classification supervisée, un cas particulier où l'objectif est de séparer des exemples dans des classes, pour lequel on utilise des exemples étiquetés sur lesquels on apprend un classifieur. Plus précisément, nous nous concentrons sur l'apprentissage multi-vues, pour lequel les classifieurs ont accès à plusieurs types de données. De plus, cette thèse traite de l'application de l'apprentissage multivue à des données biologiques. Les données dites -omiques, qui regroupent plusieurs analyses d'un échantillon sanguin, décrivant une grande variété de processus naturels sont notre axe principal. Ces données présentent plusieurs défis, que nous explorons tout au long de cette thèse. Pour ce faire, nous présentons également plusieurs outils spécifiquement conçus pour comparer des algorithmes d'apprentissage automatique sur des données multivues. En effet, si le domaine monovue peut se reposer sur un grand nombre d'outils robustes, ils ne sont pas utilisables dans le paradigme multivues. Ainsi une partie de ce doctorat a été dédiée au développement d'outils de qualité pour l'apprentissage multivues. En outre, nos analyses expérimentales sur les données réelles nous ont suggéré que le développement d'algorithmes spécifiques pour le multivues était moins une priorité que la conception d'approches relevant les défis des données -omiques. Ainsi, la seconde partie de cette thèse est consacrée à l'étude des méthodes d'ensembles monovues. Ce domaine regroupe tous les algorithmes construits par l'agrégation de plusieurs sous-méthodes tels que les votes de majorité, particulièrement intéressants pour l'application sur les données -omiques. De ce fait, nous proposons deux nouveaux algorithmes basés sur la méthode gloutonne pour apprendre sur des données en grande dimension. Le premier, CB-Boost, se repose sur l'optimisation efficace d'une quantité théorique, la C-borne, permettant de construire des votes de majorité performants et robustes. Le second, SamBA, est une généralisation du boosting permettant de prendre en compte des expertises locales dans son modèle pour se reposer sur une fonction de décision particulièrement parcimonieuse et interprétable. / This thesis lies at the intersection of multiple fields of study. It mainly focuses on machine learning, a domain of artificial intelligence. More specifically, we study supervised classification, which goal is to separate samples in several classes, relying on labelled samples on which a classifier is fitted. More precisely, we focus on multi-view machine learning, for which the classifiers can access multiple data types. In addition, this thesis studies the application of multi-view machine learning on biological data. More particularly, we focus on -omics data, a set of biological data that regroups several analyses derived from a biological sample, covering a large range of natural processes. This type of data is characterized by multiple challenges that we explore in this thesis. To do so, we present several tools designed specifically to allow the comparison of machine learning algorithms on multi-view data. Indeed, if the mono-view case can rely on a large number of robust libraries, they are not compatible with multi-view learning. As a consequence, a section of this thesis is dedicated to present python tools for multi-view learning. Furthermore, our experimental studies on real-life -omic data suggested that the design of multi-view specific algorithms was less of a priority than the conception of approaches specifically designed to tackle the challenges of -omic data. As a consequence, the second part of this thesis is dedicated to the study of mono-view ensemble methods. This domain regroups all the algorithms built from the aggregation of several sub-methods, such as majority votes. It is particularly interesting and useful for applications on -omic data. Consequently, we propose two algorithms based on greedy optimization, designed to learn on large dimension data. The first one, CB-Boost relies on the efficient optimization of a theoretical quantity, the C-bound, to build accurate and robust majority votes. The second one, SamBA, is a generalization of the boosting framework allowing local expertise in its model, with the objective of outputting particularly sparse and interpretable decision functions.
188

Applications de méthodes de classification non supervisées à la détection d'anomalies

Jabiri, Fouad 27 January 2024 (has links)
Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux. / In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms.
189

Hydroinformatics and diversity in hydrological ensemble prediction systems

Brochero, Darwin 19 April 2018 (has links)
Nous abordons la prévision probabiliste des débits à partir de deux perspectives basées sur la complémentarité de multiples modèles hydrologiques (diversité). La première exploite une méthodologie hybride basée sur l’évaluation de plusieurs modèles hydrologiques globaux et d’outils d’apprentissage automatique pour la sélection optimale des prédicteurs, alors que la seconde fait recourt à la construction d’ensembles de réseaux de neurones en forçant la diversité. Cette thèse repose sur le concept de la diversité pour développer des méthodologies différentes autour de deux problèmes pouvant être considérés comme complémentaires. La première approche a pour objet la simplification d’un système complexe de prévisions hydrologiques d’ensemble (dont l’acronyme anglais est HEPS) qui dispose de 800 scénarios quotidiens, correspondant à la combinaison d’un modèle de 50 prédictions météorologiques probabilistes et de 16 modèles hydrologiques globaux. Pour la simplification, nous avons exploré quatre techniques: la Linear Correlation Elimination, la Mutual Information, la Backward Greedy Selection et le Nondominated Sorting Genetic Algorithm II (NSGA-II). Nous avons plus particulièrement développé la notion de participation optimale des modèles hydrologiques qui nous renseigne sur le nombre de membres météorologiques représentatifs à utiliser pour chacun des modèles hydrologiques. La seconde approche consiste principalement en la sélection stratifiée des données qui sont à la base de l’élaboration d’un ensemble de réseaux de neurones qui agissent comme autant de prédicteurs. Ainsi, chacun d’entre eux est entraîné avec des entrées tirées de l’application d’une sélection de variables pour différents échantillons stratifiés. Pour cela, nous utilisons la base de données du deuxième et troisième ateliers du projet international MOdel Parameter Estimation eXperiment (MOPEX). En résumé, nous démontrons par ces deux approches que la diversité implicite est efficace dans la configuration d’un HEPS de haute performance. / In this thesis, we tackle the problem of streamflow probabilistic forecasting from two different perspectives based on multiple hydrological models collaboration (diversity). The first one favours a hybrid approach for the evaluation of multiple global hydrological models and tools of machine learning for predictors selection, while the second one constructs Artificial Neural Network (ANN) ensembles, forcing diversity within. This thesis is based on the concept of diversity for developing different methodologies around two complementary problems. The first one focused on simplifying, via members selection, a complex Hydrological Ensemble Prediction System (HEPS) that has 800 daily forecast scenarios originating from the combination of 50 meteorological precipitation members and 16 global hydrological models. We explore in depth four techniques: Linear Correlation Elimination, Mutual Information, Backward Greedy Selection, and Nondominated Sorting Genetic Algorithm II (NSGA-II). We propose the optimal hydrological model participation concept that identifies the number of meteorological representative members to propagate into each hydrological model in the simplified HEPS scheme. The second problem consists in the stratified selection of data patterns that are used for training an ANN ensemble or stack. For instance, taken from the database of the second and third MOdel Parameter Estimation eXperiment (MOPEX) workshops, we promoted an ANN prediction stack in which each predictor is trained on input spaces defined by the Input Variable Selection application on different stratified sub-samples. In summary, we demonstrated that implicit diversity in the configuration of a HEPS is efficient in the search for a HEPS of high performance.
190

A Machine Learning Approach for the Smart Charging of Electric Vehicles

Lopez, Karol Lina 07 May 2019 (has links)
Avec l’adoption croissante des véhicules électriques, il y a un intérêt pour utiliser des tarifs dynamiques dont le prix dépend de la demande actuelle, pour encourager les utilisateurs à recharger leurs véhicules en période de faible demande évitant les pics d’électricité pouvant dépasser la capacité installée. Le problème que devaient affronter les utilisateurs de véhicules électriques est qu’ils doivent s’assurer que l’énergie électrique présente dans les batteries est suffisante pour les déplacements et que les périodes de recharge correspondent à des périodes où le prix de l’électricité est bas. La plupart des approches actuelles de planification de recharge supposent une connaissance parfaite des futurs prix de l’électricité et de l’utilisation du véhicule, ce qui nuit à leur applicabilité dans la pratique. Cette thèse considère la modélisation de la recharge intelligente des véhicules électriques pour déterminer, lors des sessions de connexion, les moments où le véhicule doit se recharger afin de minimiser le coût payé pour l’énergie de ses déplacements. La thèse comporte quatre principales contributions: 1) Modèle de recharge optimale des véhicules électriques pour générer une série de décisions en utilisant la connaissance a priori du prix de l’électricité et de l’énergie utilisée, en utilisant la programmation dynamique comme méthode d’optimisation. 2) Création d’un modèle de système d’information incluant des variables connexes au modèle de recharge des véhicules électriques dans un cadre guidé par des données. 3) Méthode de sélection des données pertinentes utilisant la stratification de données pouvant réduire significativement le temps requis pour entraîner les modèles de prévision avec des résultats proches de ceux obtenus en utilisant l’ensemble de données complet. 4) Modèle de classification en ligne qui permet de déterminer s’il faut charger ou non le véhicule à l’aide de modèles d’apprentissage automatique qui peuvent générer, en temps réel, une décision de recharge quasi-optimale sans tenir compte d’une connaissance de l’information future. Nous démontrons comment la combinaison d’une méthode d’optimisation hors ligne, telle que la programmation dynamique, avec des modèles d’apprentissage automatique et un système d’information adéquat peut fournir une solution très proche de l’optimum global, sans perte d’applicabilité dans le monde réel. De plus, la polyvalence de l’approche proposée permet d’envisager l’intégration d’un plus grand nombre de variables à l’entrée du modèle, ainsi que d’autres actions comme par exemple fournir d’énergie au réseau électrique pour aider à réduire les pics de demande ce qui pourrait être utile dans un contexte de vehicle-to-grid (V2G). / With the increasing adoption of electric vehicles, there is an interest to use dynamic tariffs where the price depends on the current demand, encouraging users to charge their vehicles in periods of low demand, avoiding electricity peaks that may exceed the installed capacity. The issue an electric vehicle user must tackle is that it should ensure that its electric power is sufficient for its trips and that the recharge periods correspond to periods where the price of electricity is low. Most current charge scheduling approaches assume a perfect knowledge of the future prices and car usage, which hinders their applicability in practice. This thesis considers the modelling of the intelligent recharge of electric vehicles to determine, during the connection sessions, the times when the vehicle may be charged in order to minimize the overall energy cost. The thesis has four main contributions: 1) Optimum electric vehicle recharge model to generate a series of decisions using full knowledge of the price of electricity and energy used using dynamic programming as a method of optimization. 2) Creation of an information system model which includes variables relevant to the recharging model of electric vehicles in a framework data-driven. 3) Method of selecting relevant data using the stratification by clusters which can significantly decrease the time required to train forecasting models with results close to those obtained using the complete dataset. 4) Classification model which allows the determination of whether or not to charge the vehicle using machine learning models that can generate, in real time, a near-optimal recharge decision without considering perfect knowledge of the future information. We demonstrated how combining an offline optimization method, such as dynamic programming with machine learning models and a coherent information system can provide a solution very close to the global optimum without loss of applicability in real-world. Moreover, the versatility of the proposed approach allows the consideration of the integration of a larger set of variables at the input of the model, as well as other actions such as for example supplying energy to the network to further help reducing demand peaks which could be useful in a vehicle-to-grid context (V2G).

Page generated in 0.2584 seconds