Global ETD Search

171	Calage robuste et accéléré de nuages de points en environnements naturels via l'apprentissage automatique Latulippe, Maxime 19 April 2018 (has links) En robotique mobile, un élément crucial dans la réalisation de la navigation autonome est la localisation du robot. En utilisant des scanners laser, ceci peut être réalisé en calant les nuages de points consécutifs. Pour ce faire, l’utilisation de points de repères appelés descripteurs sont généralement efficaces, car ils permettent d’établir des correspondances entre les nuages de points. Cependant, nous démontrons que dans certains environnements naturels, une proportion importante d’entre eux peut ne pas être fiable, dégradant ainsi les performances de l’alignement. Par conséquent, nous proposons de filtrer les descripteurs au préalable afin d’éliminer les nuisibles. Notre approche consiste à utiliser un algorithme d’apprentissage rapide, entraîné à la volée sous le paradigme positive and unlabeled learning sans aucune intervention humaine nécessaire. Les résultats obtenus montrent que notre approche permet de réduire significativement le nombre de descripteurs utilisés tout en augmentant la proportion de descripteurs fiables, accélérant et augmentant ainsi la robustesse de l’alignement. / Localization of a mobile robot is crucial for autonomous navigation. Using laser scanners, this can be facilitated by the pairwise alignment of consecutive scans. For this purpose, landmarks called descriptors are generally effective as they facilitate point matching. However, we show that in some natural environments, many of them are likely to be unreliable. The presence of these unreliable descriptors adversely affects the performances of the alignment process. Therefore, we propose to filter unreliable descriptors as a prior step to alignment. Our approach uses a fast machine learning algorithm, trained on-the-fly under the positive and unlabeled learning paradigm without the need for human intervention. Our results show that the number of descriptors can be significantly reduced, while increasing the proportion of reliable ones, thus speeding up and improving the robustness of the scan alignment process. QA 76.05 UL 2013 Apprentissage automatique Robots autonomes Algorithmes Navigation -- Informatique
172	Multi-view Machine Learning And Its Applications To Multi-Omic Tasks Bauvin, Baptiste 16 January 2024 (has links) Titre de l'écran-titre (visionné le 10 janvier 2024) / Cette thèse se situe à l'intersection de plusieurs domaines d'études. Elle traite principalement d'apprentissage automatique, un champ d'études de l'intelligence artificielle. Plus particulièrement, elle se focalise sur la classification supervisée, un cas particulier où l'objectif est de séparer des exemples dans des classes, pour lequel on utilise des exemples étiquetés sur lesquels on apprend un classifieur. Plus précisément, nous nous concentrons sur l'apprentissage multi-vues, pour lequel les classifieurs ont accès à plusieurs types de données. De plus, cette thèse traite de l'application de l'apprentissage multivue à des données biologiques. Les données dites -omiques, qui regroupent plusieurs analyses d'un échantillon sanguin, décrivant une grande variété de processus naturels sont notre axe principal. Ces données présentent plusieurs défis, que nous explorons tout au long de cette thèse. Pour ce faire, nous présentons également plusieurs outils spécifiquement conçus pour comparer des algorithmes d'apprentissage automatique sur des données multivues. En effet, si le domaine monovue peut se reposer sur un grand nombre d'outils robustes, ils ne sont pas utilisables dans le paradigme multivues. Ainsi une partie de ce doctorat a été dédiée au développement d'outils de qualité pour l'apprentissage multivues. En outre, nos analyses expérimentales sur les données réelles nous ont suggéré que le développement d'algorithmes spécifiques pour le multivues était moins une priorité que la conception d'approches relevant les défis des données -omiques. Ainsi, la seconde partie de cette thèse est consacrée à l'étude des méthodes d'ensembles monovues. Ce domaine regroupe tous les algorithmes construits par l'agrégation de plusieurs sous-méthodes tels que les votes de majorité, particulièrement intéressants pour l'application sur les données -omiques. De ce fait, nous proposons deux nouveaux algorithmes basés sur la méthode gloutonne pour apprendre sur des données en grande dimension. Le premier, CB-Boost, se repose sur l'optimisation efficace d'une quantité théorique, la C-borne, permettant de construire des votes de majorité performants et robustes. Le second, SamBA, est une généralisation du boosting permettant de prendre en compte des expertises locales dans son modèle pour se reposer sur une fonction de décision particulièrement parcimonieuse et interprétable. / This thesis lies at the intersection of multiple fields of study. It mainly focuses on machine learning, a domain of artificial intelligence. More specifically, we study supervised classification, which goal is to separate samples in several classes, relying on labelled samples on which a classifier is fitted. More precisely, we focus on multi-view machine learning, for which the classifiers can access multiple data types. In addition, this thesis studies the application of multi-view machine learning on biological data. More particularly, we focus on -omics data, a set of biological data that regroups several analyses derived from a biological sample, covering a large range of natural processes. This type of data is characterized by multiple challenges that we explore in this thesis. To do so, we present several tools designed specifically to allow the comparison of machine learning algorithms on multi-view data. Indeed, if the mono-view case can rely on a large number of robust libraries, they are not compatible with multi-view learning. As a consequence, a section of this thesis is dedicated to present python tools for multi-view learning. Furthermore, our experimental studies on real-life -omic data suggested that the design of multi-view specific algorithms was less of a priority than the conception of approaches specifically designed to tackle the challenges of -omic data. As a consequence, the second part of this thesis is dedicated to the study of mono-view ensemble methods. This domain regroups all the algorithms built from the aggregation of several sub-methods, such as majority votes. It is particularly interesting and useful for applications on -omic data. Consequently, we propose two algorithms based on greedy optimization, designed to learn on large dimension data. The first one, CB-Boost relies on the efficient optimization of a theoretical quantity, the C-bound, to build accurate and robust majority votes. The second one, SamBA, is a generalization of the boosting framework allowing local expertise in its model, with the objective of outputting particularly sparse and interpretable decision functions. Apprentissage automatique. Sang -- Analyse.
173	Applications de méthodes de classification non supervisées à la détection d'anomalies Jabiri, Fouad 11 February 2021 (has links) Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux. / In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms. Apprentissage automatique. Structures de données (Informatique) Arbres de décision. Systèmes de classeurs. Forêts d'arbres décisionnels.
174	Hydroinformatics and diversity in hydrological ensemble prediction systems Brochero, Darwin 19 April 2018 (has links) Nous abordons la prévision probabiliste des débits à partir de deux perspectives basées sur la complémentarité de multiples modèles hydrologiques (diversité). La première exploite une méthodologie hybride basée sur l’évaluation de plusieurs modèles hydrologiques globaux et d’outils d’apprentissage automatique pour la sélection optimale des prédicteurs, alors que la seconde fait recourt à la construction d’ensembles de réseaux de neurones en forçant la diversité. Cette thèse repose sur le concept de la diversité pour développer des méthodologies différentes autour de deux problèmes pouvant être considérés comme complémentaires. La première approche a pour objet la simplification d’un système complexe de prévisions hydrologiques d’ensemble (dont l’acronyme anglais est HEPS) qui dispose de 800 scénarios quotidiens, correspondant à la combinaison d’un modèle de 50 prédictions météorologiques probabilistes et de 16 modèles hydrologiques globaux. Pour la simplification, nous avons exploré quatre techniques: la Linear Correlation Elimination, la Mutual Information, la Backward Greedy Selection et le Nondominated Sorting Genetic Algorithm II (NSGA-II). Nous avons plus particulièrement développé la notion de participation optimale des modèles hydrologiques qui nous renseigne sur le nombre de membres météorologiques représentatifs à utiliser pour chacun des modèles hydrologiques. La seconde approche consiste principalement en la sélection stratifiée des données qui sont à la base de l’élaboration d’un ensemble de réseaux de neurones qui agissent comme autant de prédicteurs. Ainsi, chacun d’entre eux est entraîné avec des entrées tirées de l’application d’une sélection de variables pour différents échantillons stratifiés. Pour cela, nous utilisons la base de données du deuxième et troisième ateliers du projet international MOdel Parameter Estimation eXperiment (MOPEX). En résumé, nous démontrons par ces deux approches que la diversité implicite est efficace dans la configuration d’un HEPS de haute performance. / In this thesis, we tackle the problem of streamflow probabilistic forecasting from two different perspectives based on multiple hydrological models collaboration (diversity). The first one favours a hybrid approach for the evaluation of multiple global hydrological models and tools of machine learning for predictors selection, while the second one constructs Artificial Neural Network (ANN) ensembles, forcing diversity within. This thesis is based on the concept of diversity for developing different methodologies around two complementary problems. The first one focused on simplifying, via members selection, a complex Hydrological Ensemble Prediction System (HEPS) that has 800 daily forecast scenarios originating from the combination of 50 meteorological precipitation members and 16 global hydrological models. We explore in depth four techniques: Linear Correlation Elimination, Mutual Information, Backward Greedy Selection, and Nondominated Sorting Genetic Algorithm II (NSGA-II). We propose the optimal hydrological model participation concept that identifies the number of meteorological representative members to propagate into each hydrological model in the simplified HEPS scheme. The second problem consists in the stratified selection of data patterns that are used for training an ANN ensemble or stack. For instance, taken from the database of the second and third MOdel Parameter Estimation eXperiment (MOPEX) workshops, we promoted an ANN prediction stack in which each predictor is trained on input spaces defined by the Input Variable Selection application on different stratified sub-samples. In summary, we demonstrated that implicit diversity in the configuration of a HEPS is efficient in the search for a HEPS of high performance. TA 7.5 UL 2013 Modèles hydrologiques Apprentissage automatique Réseaux neuronaux (Informatique)
175	Est-ce que l'apprentissage automatique permet de prédire un comportement en nutrition? Côté, Melina 28 March 2022 (has links) L'apprentissage automatique (AA) a permis des progrès inégalés en nutrition, notamment dans les domaines de l'évaluation alimentaire, du traitement de données massives associées aux sciences « omiques », de l'analyse des médias sociaux et de la prédiction du risque de maladie. Toutefois, l'AA n'est pas encore exploité dans le domaine de la prédiction de comportements associés à la saine alimentation. Les interventions et politiques de santé publique en nutrition mises sur pied jusqu'à ce jour ne semblent pas porter fruit puisque les choix et comportements alimentaires au niveau populationnel restent sous-optimaux. Afin de contrer l'épidémie de maladies chroniques qui découle d'une alimentation sous-optimale au Québec, il est essentiel d'identifier les facteurs individuels, sociaux et environnementaux qui déterminent les choix alimentaires de la population. Plusieurs études soutiennent l'idée que les algorithmes d'AA ont une meilleure capacité de prédiction que des modèles statistiques traditionnels, et pourraient donc permettre de mieux documenter les facteurs qui influencent les choix alimentaires de la population. Cependant, d'autres études n'ont rapporté aucune valeur ajoutée de l'utilisation d'algorithmes d'AA pour la prédiction du risque de maladies par rapport à des approches prédictives plus traditionnelles. L'objectif de ce projet de maîtrise était donc de comparer la performance de neuf algorithmes d'AA à celle de deux modèles statistiques traditionnels pour prédire un comportement en nutrition, soit une consommation adéquate de légumes et fruits, à partir de 525 variables individuelles, sociales et environnementales reliées aux habitudes alimentaires. Les résultats de ce mémoire démontrent que les algorithmes d'AA ne prédisent pas mieux la consommation adéquate de légumes et fruits que les modèles statistiques traditionnels. Cependant, étant une des premières études à comparer les algorithmes d'AA à des modèles statistiques traditionnels pour prédire un comportement en nutrition, davantage d'études comparant les deux approches doivent être menées afin d'identifier celles qui nous permettront de mieux documenter les déterminants de la saine alimentation. / Machine learning (ML) has offered unparalleled opportunities of progress in nutrition, including in the fields of dietary assessment, omics data analysis, social media data analysis and diet-related health outcome prediction. However, ML has not yet been explored for the prediction of dietary behaviours. Despite several public health interventions and policies in nutrition, adhering to heathy eating remains a challenge. In order to address the epidemic of chronic disease caused by unhealthy eating habits, it is necessary to better identify the individual, social and environmental determinants of healthy eating in the Quebec population. Many studies demonstrate that ML algorithms predict health outcomes with higher accuracy than traditional statistical models, and thus, could allow better identifying the factors that influence food choices in the Quebec population. However, other studies have reported no added value of using ML algorithms for disease risk prediction compared to traditional approaches. The aim of this master's project was to compare the accuracy of nine ML algorithms and two traditional statistical models to predict adequate vegetable and fruit consumption using a large array of individual, social and environmental variables. The results of this study demonstrate that ML algorithms do not predict adequate vegetable and fruit consumption with higher accuracy than traditional statistical models. However, being one of the first studies to compare ML algorithms and traditional statistical models to predict dietary behaviours, more studies comparing both approaches are needed to determine which models will allow better identifying the determinants of healthy eating. Statistique -- Méthodologie. Apprentissage automatique. Algorithmes d'apprentissage.
176	A Machine Learning Approach for the Smart Charging of Electric Vehicles Lopez, Karol Lina 07 May 2019 (has links) Avec l’adoption croissante des véhicules électriques, il y a un intérêt pour utiliser des tarifs dynamiques dont le prix dépend de la demande actuelle, pour encourager les utilisateurs à recharger leurs véhicules en période de faible demande évitant les pics d’électricité pouvant dépasser la capacité installée. Le problème que devaient affronter les utilisateurs de véhicules électriques est qu’ils doivent s’assurer que l’énergie électrique présente dans les batteries est suffisante pour les déplacements et que les périodes de recharge correspondent à des périodes où le prix de l’électricité est bas. La plupart des approches actuelles de planification de recharge supposent une connaissance parfaite des futurs prix de l’électricité et de l’utilisation du véhicule, ce qui nuit à leur applicabilité dans la pratique. Cette thèse considère la modélisation de la recharge intelligente des véhicules électriques pour déterminer, lors des sessions de connexion, les moments où le véhicule doit se recharger afin de minimiser le coût payé pour l’énergie de ses déplacements. La thèse comporte quatre principales contributions: 1) Modèle de recharge optimale des véhicules électriques pour générer une série de décisions en utilisant la connaissance a priori du prix de l’électricité et de l’énergie utilisée, en utilisant la programmation dynamique comme méthode d’optimisation. 2) Création d’un modèle de système d’information incluant des variables connexes au modèle de recharge des véhicules électriques dans un cadre guidé par des données. 3) Méthode de sélection des données pertinentes utilisant la stratification de données pouvant réduire significativement le temps requis pour entraîner les modèles de prévision avec des résultats proches de ceux obtenus en utilisant l’ensemble de données complet. 4) Modèle de classification en ligne qui permet de déterminer s’il faut charger ou non le véhicule à l’aide de modèles d’apprentissage automatique qui peuvent générer, en temps réel, une décision de recharge quasi-optimale sans tenir compte d’une connaissance de l’information future. Nous démontrons comment la combinaison d’une méthode d’optimisation hors ligne, telle que la programmation dynamique, avec des modèles d’apprentissage automatique et un système d’information adéquat peut fournir une solution très proche de l’optimum global, sans perte d’applicabilité dans le monde réel. De plus, la polyvalence de l’approche proposée permet d’envisager l’intégration d’un plus grand nombre de variables à l’entrée du modèle, ainsi que d’autres actions comme par exemple fournir d’énergie au réseau électrique pour aider à réduire les pics de demande ce qui pourrait être utile dans un contexte de vehicle-to-grid (V2G). / With the increasing adoption of electric vehicles, there is an interest to use dynamic tariffs where the price depends on the current demand, encouraging users to charge their vehicles in periods of low demand, avoiding electricity peaks that may exceed the installed capacity. The issue an electric vehicle user must tackle is that it should ensure that its electric power is sufficient for its trips and that the recharge periods correspond to periods where the price of electricity is low. Most current charge scheduling approaches assume a perfect knowledge of the future prices and car usage, which hinders their applicability in practice. This thesis considers the modelling of the intelligent recharge of electric vehicles to determine, during the connection sessions, the times when the vehicle may be charged in order to minimize the overall energy cost. The thesis has four main contributions: 1) Optimum electric vehicle recharge model to generate a series of decisions using full knowledge of the price of electricity and energy used using dynamic programming as a method of optimization. 2) Creation of an information system model which includes variables relevant to the recharging model of electric vehicles in a framework data-driven. 3) Method of selecting relevant data using the stratification by clusters which can significantly decrease the time required to train forecasting models with results close to those obtained using the complete dataset. 4) Classification model which allows the determination of whether or not to charge the vehicle using machine learning models that can generate, in real time, a near-optimal recharge decision without considering perfect knowledge of the future information. We demonstrated how combining an offline optimization method, such as dynamic programming with machine learning models and a coherent information system can provide a solution very close to the global optimum without loss of applicability in real-world. Moreover, the versatility of the proposed approach allows the consideration of the integration of a larger set of variables at the input of the model, as well as other actions such as for example supplying energy to the network to further help reducing demand peaks which could be useful in a vehicle-to-grid context (V2G). TK 7.5 UL 2019 Apprentissage automatique Chargeurs (Génie électrique)
177	Détection de menaces internes par apprentissage automatique non supervisé Bertrand, Simon 14 June 2023 (has links) Titre de l'écran-titre (visionné le 5 juin 2023) / Les menaces internes, ou en anglais Insider Threat, surviennent lorsqu'un individu ayant des accès privilégiés au sein d'une organisation les utilise d'une façon causant du tort à l'organisation. L'employé peut réaliser ces actions dangereuses de façon intentionnelle ou non intentionnelle. Les menaces internes sont très variées ce qui les rend particulièrement complexes à détecter. La confidentialité, l'intégrité et la disponibilité des données sont des préoccupations croissantes pour les organisations d'aujourd'hui. Malgré tout, l'étendue de l'impact des menaces internes est souvent sous-estimée. En effet, même si les menaces internes ne représentent qu'une fraction de toutes les cyberattaques, les dangers en lien avec les menaces internes sont réels. Dans un premier lieu, les attaques internes peuvent causer plus de dommages aux organisations que les attaques traditionnelles. Ceci s'explique en partie par la grande connaissance de l'organisation, ainsi que les accès privilégiés, qu'ont les employés réalisant ces attaques. Ces derniers sont donc en mesure de facilement perpétrer des actions dangereuses sans éveiller de soupçons. De plus, dans les dernières années, plusieurs études suggèrent que la majorité des organisations souffrent de menaces internes chaque année [2]. La détection de menaces internes est ainsi un problème pertinent qui attire beaucoup de chercheurs. Une des stratégies couramment utilisée pour faire la détection de menaces internes est de modéliser les comportements des employés d'une organisation et d'identifier toute divergence significative comme une menace potentielle. Pour ce faire, les journaux d'audit, décrivant tous les évènements réalisés par les membres d'une organisation dans le réseau informatique, sont des sources d'informations privilégiées dans le domaine pour apprendre les comportements typiques des utilisateurs. Dans ce mémoire, nous présentons deux solutions originales de détection de menaces internes utilisant des journaux d'audit et des techniques d'apprentissage automatique non supervisé afin d'apprendre les comportements utilisateur et détecter les comportements malicieux. Les deux solutions présentent des résultats compétitifs par rapport à l'état de l'art, et ce en offrant des caractéristiques qui facilitent leur implémentation dans de vraies organisations. / Insider threats occur when a privileged member of an organization wrong fully uses his access in a way that causes harm to his organization. Those damaging actions can be intentional, as in the case of theft or sabotage, however, un intentional dangerous actions are also to be considered, which adds to the complexity of the insider threat. The insider threat is a broad type of cyber menace, making its detection particularly difficult. For organizations, the confidentiality, integrity, and availability of their information are an increasing concern. Yet many under estimate the magnitude of the insider threats against the maintenance of those ideals. Indeed, even though insider threats are only a fraction of all existing cyber threats, this type of menace presents a real and unique danger for organizations. Firstly, an insider threat can be more damaging to an organization than a traditional cyberattack. This is mainly explicable by the privileged accesses and great domain knowledge that the insider possesses over an outsider. The insider has then a better opportunity to use his access and domain knowledge to carry out efficiently and quietly the attack. Moreover, over the last few years, some reports suggest that most institutions yearly suffer from that kind of cyber threat [2]. Insider threat detection is therefore a relevant problem that attracted many researchers to deploy their efforts in the last decades. One common strategy to detect malicious insiders is by modeling the behaviors of the users and identifying any significant divergence as a potential threat. In that matter, audit data, describing the activity of every member of an organization in the network, are regularly chosen to learn user behaviors using statistical or machine learning models. In the present work, we propose two insider threat detection systems that leverage audit data to learn user behaviors and detect divergent conduct in an unsupervised fashion. Both solutions are competitive with state-of-the-art techniques, and were developed considering many challenges in the field, like being easy to implement in a real-world scenario and considering events dependencies. Surveillance des menaces informatiques. Sécurité informatique -- Audit. Apprentissage automatique. Traitement d'événements (Informatique)
178	VENCE : un modèle performant d'extraction de résumés basé sur une approche d'apprentissage automatique renforcée par de la connaissance ontologique Motta, Jesus Antonio 23 April 2018 (has links) De nombreuses méthodes et techniques d’intelligence artificielle pour l’extraction d'information, la reconnaissance des formes et l’exploration de données sont utilisées pour extraire des résumés automatiquement. En particulier, de nouveaux modèles d'apprentissage automatique semi supervisé avec ajout de connaissance ontologique permettent de choisir des phrases d’un corpus en fonction de leur contenu d'information. Le corpus est considéré comme un ensemble de phrases sur lequel des méthodes d'optimisation sont appliquées pour identifier les attributs les plus importants. Ceux-ci formeront l’ensemble d’entrainement, à partir duquel un algorithme d’apprentissage pourra abduire une fonction de classification capable de discriminer les phrases de nouveaux corpus en fonction de leur contenu d’information. Actuellement, même si les résultats sont intéressants, l’efficacité des modèles basés sur cette approche est encore faible notamment en ce qui concerne le pouvoir discriminant des fonctions de classification. Dans cette thèse, un nouveau modèle basé sur l’apprentissage automatique est proposé et dont l’efficacité est améliorée par un ajout de connaissance ontologique à l’ensemble d’entrainement. L’originalité de ce modèle est décrite à travers trois articles de revues. Le premier article a pour but de montrer comment des techniques linéaires peuvent être appliquées de manière originale pour optimiser un espace de travail dans le contexte du résumé extractif. Le deuxième article explique comment insérer de la connaissance ontologique pour améliorer considérablement la performance des fonctions de classification. Cette insertion se fait par l’ajout, à l'ensemble d’entraînement, de chaines lexicales extraites de bases de connaissances ontologiques. Le troisième article décrit VENCE , le nouveau modèle d’apprentissage automatique permettant d’extraire les phrases les plus porteuses d’information en vue de produire des résumés. Une évaluation des performances de VENCE a été réalisée en comparant les résultats obtenus avec ceux produits par des logiciels actuels commerciaux et publics, ainsi que ceux publiés dans des articles scientifiques très récents. L’utilisation des métriques habituelles de rappel, précision et F_measure ainsi que l’outil ROUGE a permis de constater la supériorité de VENCE. Ce modèle pourrait être profitable pour d’autres contextes d’extraction d’information comme pour définir des modèles d’analyse de sentiments. / Several methods and techniques of artificial intelligence for information extraction, pattern recognition and data mining are used for extraction of summaries. More particularly, new machine learning models with the introduction of ontological knowledge allow the extraction of the sentences containing the greatest amount of information from a corpus. This corpus is considered as a set of sentences on which different optimization methods are applied to identify the most important attributes. They will provide a training set from which a machine learning algorithm will can abduce a classification function able to discriminate the sentences of new corpus according their information content. Currently, even though the results are interesting, the effectiveness of models based on this approach is still low, especially in the discriminating power of classification functions. In this thesis, a new model based on this approach is proposed and its effectiveness is improved by inserting ontological knowledge to the training set. The originality of this model is described through three papers. The first paper aims to show how linear techniques could be applied in an original way to optimize workspace in the context of extractive summary. The second article explains how to insert ontological knowledge to significantly improve the performance of classification functions. This introduction is performed by inserting lexical chains of ontological knowledge based in the training set. The third article describes VENCE , the new machine learning model to extract sentences with the most information content in order to produce summaries. An assessment of the VENCE performance is achieved comparing the results with those produced by current commercial and public software as well as those published in very recent scientific articles. The use of usual metrics recall, precision and F_measure and the ROUGE toolkit showed the superiority of VENCE. This model could benefit other contexts of information extraction as for instance to define models for sentiment analysis. QA 76.05 UL 2014 Résumés automatiques Apprentissage automatique Ontologies (Recherche de l'information)
179	Adaptive Dynamics Learning and Q-initialization in the context of multiagent learning Burkov, Andriy 12 April 2018 (has links) L’apprentissage multiagent est une direction prometteuse de la recherche récente et à venir dans le contexte des systèmes intelligents. Si le cas mono-agent a été beaucoup étudié pendant les deux dernières décennies, le cas multiagent a été peu étudié vu sa complexité. Lorsque plusieurs agents autonomes apprennent et agissent simultanément, l’environnement devient strictement imprévisible et toutes les suppositions qui sont faites dans le cas mono-agent, telles que la stationnarité et la propriété markovienne, s’avèrent souvent inapplicables dans le contexte multiagent. Dans ce travail de maîtrise nous étudions ce qui a été fait dans ce domaine de recherches jusqu’ici, et proposons une approche originale à l’apprentissage multiagent en présence d’agents adaptatifs. Nous expliquons pourquoi une telle approche donne les résultats prometteurs lorsqu’on la compare aux différentes autres approches existantes. Il convient de noter que l’un des problèmes les plus ardus des algorithmes modernes d’apprentissage multiagent réside dans leur complexité computationnelle qui est fort élevée. Ceci est dû au fait que la taille de l’espace d’états du problème multiagent est exponentiel en le nombre d’agents qui agissent dans cet environnement. Dans ce travail, nous proposons une nouvelle approche de la réduction de la complexité de l’apprentissage par renforcement multiagent. Une telle approche permet de réduire de manière significative la partie de l’espace d’états visitée par les agents pour apprendre une solution efficace. Nous évaluons ensuite nos algorithmes sur un ensemble d’essais empiriques et présentons des résultats théoriques préliminaires qui ne sont qu’une première étape pour former une base de la validité de nos approches de l’apprentissage multiagent. / Multiagent learning is a promising direction of the modern and future research in the context of intelligent systems. While the single-agent case has been well studied in the last two decades, the multiagent case has not been broadly studied due to its complex- ity. When several autonomous agents learn and act simultaneously, the environment becomes strictly unpredictable and all assumptions that are made in single-agent case, such as stationarity and the Markovian property, often do not hold in the multiagent context. In this Master’s work we study what has been done in this research field, and propose an original approach to multiagent learning in presence of adaptive agents. We explain why such an approach gives promising results by comparing it with other different existing approaches. It is important to note that one of the most challenging problems of all multiagent learning algorithms is their high computational complexity. This is due to the fact that the state space size of multiagent problem is exponential in the number of agents acting in the environment. In this work we propose a novel approach to the complexity reduction of the multiagent reinforcement learning. Such an approach permits to significantly reduce the part of the state space needed to be visited by the agents to learn an efficient solution. Then we evaluate our algorithms on a set of empirical tests and give a preliminary theoretical result, which is first step in forming the basis of validity of our approaches to multiagent learning. QA 76.05 UL 2007 Apprentissage automatique Intelligence artificielle répartie Agents intelligents (Logiciels) Systèmes adaptatifs (Informatique)
180	Fingerprint-based localization in massive MIMO systems using machine learning and deep learning methods Moosavi, Seyedeh Samira 20 July 2021 (has links) À mesure que les réseaux de communication sans fil se développent vers la 5G, une énorme quantité de données sera produite et partagée sur la nouvelle plate-forme qui pourra être utilisée pour promouvoir de nouveaux services. Parmis ceux-ci, les informations de localisation des terminaux mobiles (MT) sont remarquablement utiles. Par exemple, les informations de localisation peuvent être utilisées dans différents cas de services d'enquête et d'information, de services communautaires, de suivi personnel, ainsi que de communications sensibles à la localisation. De nos jours, bien que le système de positionnement global (GPS) des MT offre la possibilité de localiser les MT, ses performances sont médiocres dans les zones urbaines où une ligne de vue directe (LoS) aux satellites est bloqué avec de nombreux immeubles de grande hauteur. En outre, le GPS a une consommation d'énergie élevée. Par conséquent, les techniques de localisation utilisant la télémétrie, qui sont basées sur les informations de signal radio reçues des MT tels que le temps d'arrivée (ToA), l'angle d'arrivée (AoA) et la réception de la force du signal (RSS), ne sont pas en mesure de fournir une localisation de précision satisfaisante. Par conséquent, il est particulièrement difficile de fournir des informations de localisation fiables des MT dans des environnements complexes avec diffusion et propagation par trajets multiples. Les méthodes d'apprentissage automatique basées sur les empreintes digitales (FP) sont largement utilisées pour la localisation dans des zones complexes en raison de leur haute fiabilité, rentabilité et précision et elles sont flexibles pour être utilisées dans de nombreux systèmes. Dans les réseaux 5G, en plus d'accueillir plus d'utilisateurs à des débits de données plus élevés avec une meilleure fiabilité tout en consommant moins d'énergie, une localisation de haute précision est également requise. Pour relever un tel défi, des systèmes massifs à entrées multiples et sorties multiples (MIMO) ont été introduits dans la 5G en tant que technologie puissante et potentielle pour non seulement améliorer l'efficacité spectrale et énergétique à l'aide d'un traitement relativement simple, mais également pour fournir les emplacements précis des MT à l'aide d'un très grand nombre d'antennes associées à des fréquences porteuses élevées. Il existe deux types de MIMO massifs (M-MIMO), soit distribué et colocalisé. Ici, nous visons à utiliser la méthode basée sur les FP dans les systèmes M-MIMO pour fournir un système de localisation précis et fiable dans un réseau sans fil 5G. Nous nous concentrons principalement sur les deux extrêmes du paradigme M-MIMO. Un grand réseau d'antennes colocalisé (c'est-à-dire un MIMO massif colocalisé) et un grand réseau d'antennes géographiquement distribué (c'est-à-dire un MIMO massif distribué). Ensuite, nous ex trayons les caractéristiques du signal et du canal à partir du signal reçu dans les systèmes M-MIMO sous forme d'empreintes digitales et proposons des modèles utilisant les FP basés sur le regroupement et la régression pour estimer l'emplacement des MT. Grâce à cette procédure, nous sommes en mesure d'améliorer les performances de localisation de manière significative et de réduire la complexité de calcul de la méthode basée sur les FP. / As wireless communication networks are growing into 5G, an enormous amount of data will be produced and shared on the new platform, which can be employed in promoting new services. Location information of mobile terminals (MTs) is remarkably useful among them, which can be used in different use cases of inquiry and information services, community services, personal tracking, as well as location-aware communications. Nowadays, although the Global Positioning System (GPS) offers the possibility to localize MTs, it has poor performance in urban areas where a direct line-of-sight (LoS) to the satellites is blocked by many tall buildings. Besides, GPS has a high power consumption. Consequently, the ranging based localization techniques, which are based on radio signal information received from MTs such as time-of-arrival (ToA), angle-of-arrival (AoA), and received signal strength (RSS), are not able to provide satisfactory localization accuracy. Therefore, it is a notably challenging problem to provide precise and reliable location information of MTs in complex environments with rich scattering and multipath propagation. Fingerprinting (FP)-based machine learning methods are widely used for localization in complex areas due to their high reliability, cost-efficiency, and accuracy and they are flexible to be used in many systems. In 5G networks, besides accommodating more users at higher data rates with better reliability while consuming less power, high accuracy localization is also required in 5G networks. To meet such a challenge, massive multiple-input multiple-output (MIMO) systems have been introduced in 5G as a powerful and potential technology to not only improve spectral and energy efficiency using relatively simple processing but also provide an accurate locations of MTs using a very large number of antennas combined with high carrier frequencies. There are two types of massive MIMO (M-MIMO), distributed and collocated. Here, we aim to use the FP-based method in M-MIMO systems to provide an accurate and reliable localization system in a 5G wireless network. We mainly focus on the two extremes of the M-MIMO paradigm. A large collocated antenna array (i.e., collocated M-MIMO ) and a large geographically distributed antenna array (i.e., distributed M-MIMO). Then, we extract signal and channel features from the received signal in M-MIMO systems as fingerprints and propose FP-based models using clustering and regression to estimate MT's location. Through this procedure, we are able to improve localization performance significantly and reduce the computational complexity of the FP-based method. Empreintes digitales. Apprentissage automatique. Apprentissage profond.

Search results