Global ETD Search

151	Machine à vecteurs de support hyperbolique et ingénierie du noyau / Hyperbolic Support Vector Machine and Kernel design El Dakdouki, Aya 11 September 2019 (has links) La théorie statistique de l’apprentissage est un domaine de la statistique inférentielle dont les fondements ont été posés par Vapnik à la fin des années 60. Il est considéré comme un sous-domaine de l’intelligence artificielle. Dans l’apprentissage automatique, les machines à vecteurs de support (SVM) sont un ensemble de techniques d’apprentissage supervisé destinées à résoudre des problèmes de discrimination et de régression. Dans cette thèse, notre objectif est de proposer deux nouveaux problèmes d’aprentissagestatistique: Un portant sur la conception et l’évaluation d’une extension des SVM multiclasses et un autre sur la conception d’un nouveau noyau pour les machines à vecteurs de support. Dans un premier temps, nous avons introduit une nouvelle machine à noyau pour la reconnaissance de modèle multi-classe: la machine à vecteur de support hyperbolique. Géometriquement, il est caractérisé par le fait que ses surfaces de décision dans l’espace de redescription sont définies par des fonctions hyperboliques. Nous avons ensuite établi ses principales propriétés statistiques. Parmi ces propriétés nous avons montré que les classes de fonctions composantes sont des classes de Glivenko-Cantelli uniforme, ceci en établissant un majorant de la complexité de Rademacher. Enfin, nous établissons un risque garanti pour notre classifieur.Dans un second temps, nous avons créer un nouveau noyau s’appuyant sur la transformation de Fourier d’un modèle de mélange gaussien. Nous procédons de la manière suivante: d’abord, chaque classe est fragmentée en un nombre de sous-classes pertinentes, ensuite on considère les directions données par les vecteurs obtenus en prenant toutes les paires de centres de sous-classes d’une même classe. Parmi celles-ci, sont exclues celles permettant de connecter deux sous-classes de deux classes différentes. On peut aussi voir cela comme la recherche d’invariance par translation dans chaque classe. Nous l’avons appliqué avec succès sur plusieurs jeux de données dans le contexte d’un apprentissage automatique utilisant des machines à vecteurs support multi-classes. / Statistical learning theory is a field of inferential statistics whose foundations were laid by Vapnik at the end of the 1960s. It is considered a subdomain of artificial intelligence. In machine learning, support vector machines (SVM) are supervised learning models with associated learning algorithms that analyze data used for classification and regression analysis. In this thesis, our aim is to propose two new statistical learning problems : one on the conception and evaluation of a multi-class SVM extension and another on the design of a new kernel for support vectors machines. First, we introduced a new kernel machine for multi-class pattern recognition : the hyperbolic support vector machine. Geometrically, it is characterized by the fact that its decision boundaries in the feature space are defined by hyperbolic functions. We then established its main statistical properties. Among these properties we showed that the classes of component functions are uniform Glivenko-Cantelli, this by establishing an upper bound of the Rademacher complexity. Finally, we establish a guaranteed risk for our classifier. Second, we constructed a new kernel based on the Fourier transform of a Gaussian mixture model. We proceed in the following way: first, each class is fragmented into a number of relevant subclasses, then we consider the directions given by the vectors obtained by taking all pairs of subclass centers of the same class. Among these are excluded those allowing to connect two subclasses of two different classes. We can also see this as the search for translation invariance in each class. It successfully on several datasets in the context of machine learning using multiclass support vector machines. Classe de Glivenko-Cantelli Classifieur multi-Classe Complexité de Rademacher 519.52
152	Functional encryption applied to privacy-preserving classification : practical use, performances and security / Chiffrement fonctionnel appliqué à la classification respectant la confidentialité des données : utilisation pratique, performances et sécurité Ligier, Damien 15 October 2018 (has links) L'apprentissage automatique (en anglais machine learning) ou apprentissage statistique, a prouvé être un ensemble de techniques très puissantes. La classification automatique en particulier, permettant d'identifier efficacement des informations contenues dans des gros ensembles de données. Cependant, cela lève le souci de la confidentialité des données. C'est pour cela que le besoin de créer des algorithmes d'apprentissage automatique capable de garantir la confidentialité a été mis en avant. Cette thèse propose une façon de combiner certains systèmes cryptographiques avec des algorithmes de classification afin d'obtenir un classifieur que veille à la confidentialité. Les systèmes cryptographiques en question sont la famille des chiffrements fonctionnels. Il s'agit d'une généralisation de la cryptographie à clef publique traditionnelle dans laquelle les clefs de déchiffrement sont associées à des fonctions. Nous avons mené des expérimentations sur cette construction avec un scénario réaliste se servant de la base de données du MNIST composée d'images de digits écrits à la main. Notre système est capable dans ce cas d'utilisation de savoir quel digit est écrit sur une image en ayant seulement un chiffre de l'image. Nous avons aussi étudié la sécurité de cette construction dans un contexte réaliste. Ceci a révélé des risques quant à l'utilisation des chiffrements fonctionnels en général et pas seulement dans notre cas d'utilisation. Nous avons ensuite proposé une méthode pour négocier (dans notre construction) entre les performances de classification et les risques encourus. / Machine Learning (ML) algorithms have proven themselves very powerful. Especially classification, enabling to efficiently identify information in large datasets. However, it raises concerns about the privacy of this data. Therefore, it brought to the forefront the challenge of designing machine learning algorithms able to preserve confidentiality.This thesis proposes a way to combine some cryptographic systems with classification algorithms to achieve privacy preserving classifier. The cryptographic system family in question is the functional encryption one. It is a generalization of the traditional public key encryption in which decryption keys are associated with a function. We did some experimentations on that combination on realistic scenario using the MNIST dataset of handwritten digit images. Our system is able in this use case to know which digit is written in an encrypted digit image. We also study its security in this real life scenario. It raises concerns about uses of functional encryption schemes in general and not just in our use case. We then introduce a way to balance in our construction efficiency of the classification and the risks. Sécurité Apprentissage automatique Chiffrement fonctionnel Classification Confidentialité Security Privacy Functional encryption Classification Machine learning 004
153	Localisation en intérieur basée sur l'apprentissage automatique : exploitation des informations sur l'état des canaux Wi-Fi Bencharif, Lotfi January 2020 (has links) (PDF) No description available. UQTR Génie électrique Géolocalisation en intérieur Technologies sans fil Apprentissage automatique Hyperparamètre
154	Time series representation for classification : a motif-based approach / Représentation de séries temporelles pour la classification : une approche basée sur la découverte automatique de motifs Renard, Xavier 15 September 2017 (has links) Nos travaux décrits dans cette thèse portent sur l’apprentissage d’une représentation pour la classification automatique basée sur la découverte de motifs à partir de séries temporelles. L’information pertinente contenue dans une série temporelle peut être encodée temporellement sous forme de tendances, de formes ou de sous-séquences contenant habituellement des distorsions. Des approches ont été développées pour résoudre ces problèmes souvent au prix d’une importante complexité calculatoire. Parmi ces techniques nous pouvons citer les mesures de distance et les représentations de l’information contenue dans les séries temporelles. Nous nous concentrons sur la représentation de l’information contenue dans les séries temporelles. Nous proposons un cadre (framework) pour générer une nouvelle représentation de séries temporelles basée sur la découverte automatique d’ensembles discriminants de sous-séquences. Cette représentation est adaptée à l’utilisation d’algorithmes de classification classiques basés sur des attributs. Le framework proposé transforme un ensemble de séries temporelles en un espace d’attributs (feature space) à partir de sous-séquences énumérées des séries temporelles, de mesures de distance et de fonctions d’agrégation. Un cas particulier de ce framework est la méthode notoire des « shapelets ». L’inconvénient potentiel d’une telle approache est le nombre très important de sous-séquences à énumérer en ce qu’il induit un très grand feature space, accompagné d’une très grande complexité calculatoire. Nous montrons que la plupart des sous-séquences présentes dans un jeu de données composé de séries temporelles sont redondantes. De ce fait, un sous-échantillonnage aléatoire peut être utilisé pour générer un petit sous-ensemble de sous-séquences parmi l’ensemble exhaustif, en préservant l’information nécessaire pour la classification et tout en produisant un feature space de taille compatible avec l’utilisation d’algorithmes d’apprentissage automatique de l’état de l’art avec des temps de calculs raisonnable. On démontre également que le nombre de sous-séquences à tirer n’est pas lié avec le nombre de séries temporelles présent dans l’ensemble d’apprentissage, ce qui garantit le passage à l’échelle de notre approche. La combinaison de cette découverte dans le contexte de notre framework nous permet de profiter de techniques avancées (telles que des méthodes de sélection d’attributs multivariées) pour découvrir une représentation de séries temporelles plus riche, en prenant par exemple en considération les relations entre sous-séquences. Ces résultats théoriques ont été largement testés expérimentalement sur une centaine de jeux de données classiques de la littérature, composés de séries temporelles univariées et multivariées. De plus, nos recherches s’inscrivant dans le cadre d’une convention de recherche industrielle (CIFRE) avec Arcelormittal, nos travaux ont été appliqués à la détection de produits d’acier défectueux à partir des mesures effectuées par les capteurs sur des lignes de production. / Our research described in this thesis is about the learning of a motif-based representation from time series to perform automatic classification. Meaningful information in time series can be encoded across time through trends, shapes or subsequences usually with distortions. Approaches have been developed to overcome these issues often paying the price of high computational complexity. Among these techniques, it is worth pointing out distance measures and time series representations. We focus on the representation of the information contained in the time series. We propose a framework to generate a new time series representation to perform classical feature-based classification based on the discovery of discriminant sets of time series subsequences (motifs). This framework proposes to transform a set of time series into a feature space, using subsequences enumerated from the time series, distance measures and aggregation functions. One particular instance of this framework is the well-known shapelet approach. The potential drawback of such an approach is the large number of subsequences to enumerate, inducing a very large feature space and a very high computational complexity. We show that most subsequences in a time series dataset are redundant. Therefore, a random sampling can be used to generate a very small fraction of the exhaustive set of subsequences, preserving the necessary information for classification and thus generating a much smaller feature space compatible with common machine learning algorithms with tractable computations. We also demonstrate that the number of subsequences to draw is not linked to the number of instances in the training set, which guarantees the scalability of the approach. The combination of the latter in the context of our framework enables us to take advantage of advanced techniques (such as multivariate feature selection techniques) to discover richer motif-based time series representations for classification, for example by taking into account the relationships between the subsequences. These theoretical results have been extensively tested on more than one hundred classical benchmarks of the literature with univariate and multivariate time series. Moreover, since this research has been conducted in the context of an industrial research agreement (CIFRE) with Arcelormittal, our work has been applied to the detection of defective steel products based on production line's sensor measurements. Apprentissage automatique Classification automatique Série temporelle Représentation Sous-séquence Shapelet Classification Time series Shapelet 005.1
155	Développements en radiomique pour une meilleure caractérisation du gliome infiltrant du tronc cérébral à partir d'imagerie par résonance magnétique / Developments in radiomics for improving diffuse intrinsic pontine glioma characterization using magnetic resonance imaging Goya Outi, Jessica 25 September 2019 (has links) La radiomique suppose que des informations pertinentes non repérables visuellement peuvent être trouvées en calculant une grande quantité d’indices quantitatifs à partir des images médicales. En cancérologie, ces informations pourraient caractériser le phénotype de la tumeur et définir le pronostic du patient. Le GITC est une tumeur pédiatrique rare diagnostiquée d'après des signes cliniques et son apparence en IRM. Cette thèse présente les premières études radiomiques pour des patients atteints de GITC. Comme les intensités en IRM clinique sont exprimées en unités arbitraires, la première étape de l’étude a été la standardisation des images. Une méthode de normalisation basée sur l'estimation de l'intensité dans la matière blanche d'apparence normale s’est avérée efficace sur plus de 1500 volumes d'images. Des études méthodologiques sur le calcul des indices de texture ont abouti aux recommandations suivantes : (a) discrétiser les niveaux de gris avec une largeur constante pour tous les patients, (b) utiliser un volume d'intérêt constant ou faire attention au biais introduit par des volumes de taille et forme différentes. En s’appuyant sur ces recommandations, les indices radiomiques issus de 4 modalités d'IRM ont été systématiquement analysés en vue de prédire les principales mutations génétiques associées aux GITC et la survie globale des patients au moment du diagnostic. Un pipeline de sélection d’indices a été proposé et différentes méthodes d’apprentissage automatique avec validation croisée ont été mises en oeuvre pour les deux tâches de prédiction. La combinaison des indices cliniques avec les indices d’imagerie est plus efficace que les indices cliniques ou d’imagerie seuls pour la prédiction des deux principales mutations de l’histone H3 (H3.1 versus H3.3) associées au GITC. Comme certaines modalités d'imagerie étaient manquantes, une méthodologie adaptée à l’analyse des bases de données d’imagerie multi-modales avec données manquantes a été proposée pour pallier les limites de recueil des données d'imagerie. Cette approche permet d'intégrer de nouveaux patients. Les résultats du test externe de prédiction des deux principales mutations de l’histone H3 sont encourageants. Concernant la survie, certains indices radiomiques semblent informatifs. Toutefois, le faible nombre de patients n'a pas permis d'établir les performances des prédicteurs proposés. Enfin, ces premières études radiomiques suggèrent la pertinence des indices radiomiques pour la prise en charge des patients atteints de GITC en absence de biopsie mais l’augmentation de la base de données est nécessaire pour confirmer ces résultats. La méthodologie proposée dans cette thèse peut être appliquée à d'autres études cliniques. / Radiomics is based on the assumption that relevant, non-visually identifiable information can be found by calculating a large amount of quantitative indices from medical images. In oncology, this information could characterize the phenotype of the tumor and define the prognosis of the patient. DIPG is a rare pediatric tumor diagnosed by clinical signs and MRI appearance. This work presents the first radiomic studies for patients with DIPG. Since clinical MRI intensities are expressed in arbitrary units, the first step in the study was image standardization. A normalization method based on intensity estimation of the normal-appearing white matter has been shown to be effective on more than 1500 image volumes. Methodological studies on the calculation of texture indices have then defined the following recommendations: (a) discretize gray levels with a constant width for all patients, (b) use a constant volume of interest or pay attention to the bias introduced by volumes of different size and shape. Based on these recommendations, radiomic indices from four MRI modalities were systematically analyzed to predict the main genetic mutations associated with DIPG and the overall survival of patients at the time of diagnosis. An index selection pipeline was proposed and different cross-validated machine learning methods were implemented for both prediction tasks. The combination of clinical indices with imaging indices is more effective than the clinical or imaging indices alone for the prediction of the two main mutations in histone H3 (H3.1 versus H3.3) associated with DIPG. As some imaging modalities were missing, a methodology adapted to the analysis of multi-modal imaging databases with missing data was proposed to overcome the limitations of the collection of imaging data. This approach made it possible to integrate new patients. The results of the external prediction test for the two main mutations of H3 histone are encouraging. Regarding survival, some radiomic indices seem to be informative. However, the small number of patients did not make it possible to establish the performance of the proposed predictors. Finally, these first radiomic studies suggest the relevance of the radiomic indices for the management of patients with DIPG in the absence of biopsy but the database need to be increased in order to confirm these results. The proposed methodology can be applied to other studies. Radiomique IRM Neuro-oncologie Apprentissage Automatique Radiomics MRI Neuro-oncology Machine Learning
156	Co-manipulation with a library of virtual guides / Co-manipulation avec une bibliothèque de Guides Virtuels Raiola, Gennaro 02 February 2017 (has links) Les robots ont un rôle fondamental dans la fabrication industrielle. Non seulement ils augmentent l'efficacité et la qualité des lignes de production, mais aussi diminuent considérablement la charge de travail des humains.Cependant, en raison des limites des robots industriels en termes de flexibilité, de perception et de sécurité,Leur utilisation est limitée à un environnement structuré bien connu. En outre, il n'est pas toujours rentable d'utiliser des robots autonomes industriels dans de petites usines à faibles volumes de production.Cela signifie que des travailleurs humains sont encore nécessaires dans de nombreuses chaînes d'assemblage pour exécuter des tâches spécifiques.Par conséquent, ces dernières années, une grande impulsion a été donnée à la co-manipulation homme-robot.En permettant aux humains et aux robots de travailler ensemble, il est possible de combiner les avantages des deux; La compréhension des tâches abstraites et la perception robuste typique d'un être humain avec la précision et la force d'un robot industriel.Une approche réussie pour faciliter la co-manipulation homme-robot, est l'approche de guides virtuels qui contraint le mouvement du robot sur seulement certaines trajectoires pertinentes. Le guide virtuel ainsi réalisé agit comme un outil passif qui améliore les performances de l'utilisateur en termes de temps de tâche, de charge de travail mentale et d'erreurs.L'aspect innovant de notre travail est de présenter une bibliothèque de guides virtuels qui permet à l'utilisateur de facilement sélectionner, générer et modifier les guides grâce à une interaction intuitive haptique avec le robot.Nous avons démontré, dans deux tâches industrielles, que ces innovations fournissent une interface novatrice et intuitive pour l'accomplissement des tâches par les humains et les robots. / Robots have a fundamental role in industrial manufacturing. They not only increase the efficiency and the quality of production lines, but also drastically decrease the work load carried out by humans.However, due to the limitations of industrial robots in terms of flexibility, perception and safety, their use is limited to well-known structured environment. Moreover, it is not always cost-effective to use industrial autonomous robots in small factories with low production volumes.This means that human workers are still needed in many assembly lines to carry out specific tasks.Therefore, in recent years, a big impulse has been given to human-robot co-manipulation.By allowing humans and robots to work together, it is possible to combine the advantages of both; abstract task understanding and robust perception typical of human beings with the accuracy and the strength of industrial robots.One successful method to facilitate human-robot co-manipulation, is the Virtual Guides approach which constrains the motion of the robot along only certain task-relevant trajectories. The so realized virtual guide acts as a passive tool that improves the performances of the user in terms of task time, mental workload and errors.The innovative aspect of our work is to present a library of virtual guides that allows the user to easily select, generate and modify the guides through an intuitive haptic interaction with the robot.We demonstrated in two industrial tasks that these innovations provide a novel and intuitive interface for joint human-robot completion of tasks. Robotique Contrôles Apprentissage automatique Génie logiciel Robotics Controls Machine learning Software engineering 629.89
157	Méthodes informatiques pour l'identification des locutions verbales / Computational methods for the identifying of verbal lphraseological units Priego Sanchez, Angeles Belém 10 September 2016 (has links) Etudiées par la phraséologie, les locutions verbales sont des composantes de la structure du langage naturel qui expriment une idée ou un concept. Ces structures linguistiques sont des unités lexicales composées par plusieurs mots. Elles sont formées par un verbe et une ou plusieurs variables, dont le signifié global n'est pas nécessairement déduit du signifié de chacun de ses composants.Dans ce travail de recherche, nous proposons une méthodologie informatique permettant l’identification semi-automatique des locutions verbales de l’espagnol mexicain. Cette méthodologie contribue tant au domaine de la linguistique qu’à celui de l’informatique. Nous introduisons des méthodes informatiques supervisées et non supervisées pour l’identification et la validation des “locutions verbales candidates” en corpus des différents domaines.Les contributions de cette thèse sont principalement de quatre ordres : a) des corpus manuellement annotés pour les locutions verbales, en incluant leurs contextes, b) un lexique qui estime la probabilité d’occurrence de ces structures linguistiques dans le corpus du genre journalistique, c) diverses hypothèses pour la validation et/ou identification des locutions verbales en textes bruts, et d) l’analyse de la polarité de celles-ci.Les résultats obtenus, en incluant les hypothèses envisagées dans cette thèse, auront un impact futur sur des différentes tâches, tels que la traduction automatique, la construction des dictionnaires et l’apprentissage d’une langue étrangère, pour ne citer que quelques exemples. / Verbal phraseological units are components of the natural language structure, studied by phraseology, which express a concept or an idea. These linguistic structures are multi-word lexical units, made up of one verb and one or more variables, having a meaning which cannot be predicted from the sum of the expression component meanings. In this PhD thesis we proposed a computational methodology for the semi-automatic identification of verbal phraseological units written in Mexican Spanish that aims to contribute in both, the linguistic and computational fields. We introduce unsupervised and supervised computational methods in order to identify and validate “candidate verbal phraseological units” in corpora of different genre.The contributions of this research work are mainly four: a) corpora manually annotated for verbal phraseological units and contexts associated, b) a lexicon in which it is estimated the probability of occurrence of such linguistic structures in a corpus of news genre, c) a number of hypotheses for the automatic validation and/or identification of verbal phraseological units in raw texts, and d) analysis of their polarity.The obtained results, including the hypotheses proposed in the PhD document, will have a future impact in different tasks such as machine translation, dictionaries construction, foreign language learning, among others. Phraséologie Locutions verbales Apprentissage automatique Polarité d'une phrase Phraseology Verbal phraseological units Machine learning Phrase polarity
158	Bayesian hyperparameter optimization : overfitting, ensembles and conditional spaces Lévesque, Julien-Charles 24 April 2018 (has links) Dans cette thèse, l’optimisation bayésienne sera analysée et étendue pour divers problèmes reliés à l’apprentissage supervisé. Les contributions de la thèse sont en lien avec 1) la surestimation de la performance de généralisation des hyperparamètres et des modèles résultants d’une optimisation bayésienne, 2) une application de l’optimisation bayésienne pour la génération d’ensembles de classifieurs, et 3) l’optimisation d’espaces avec une structure conditionnelle telle que trouvée dans les problèmes “d’apprentissage machine automatique” (AutoML). Généralement, les algorithmes d’apprentissage automatique ont des paramètres libres, appelés hyperparamètres, permettant de réguler ou de modifier leur comportement à plus haut niveau. Auparavant, ces hyperparamètres étaient choisis manuellement ou par recherche exhaustive. Des travaux récents ont souligné la pertinence d’utiliser des méthodes plus intelligentes pour l’optimisation d’hyperparamètres, notamment l’optimisation bayésienne. Effectivement, l’optimisation bayésienne est un outil polyvalent pour l’optimisation de fonctions inconnues ou non dérivables, ancré fortement dans la modélisation probabiliste et l’estimation d’incertitude. C’est pourquoi nous adoptons cet outil pour le travail dans cette thèse. La thèse débute avec une introduction de l’optimisation bayésienne avec des processus gaussiens (Gaussian processes, GP) et décrit son application à l’optimisation d’hyperparamètres. Ensuite, des contributions originales sont présentées sur les dangers du surapprentissage durant l’optimisation d’hyperparamètres, où l’on se trouve à mémoriser les plis de validation utilisés pour l’évaluation. Il est démontré que l’optimisation d’hyperparamètres peut en effet mener à une surestimation de la performance de validation, même avec des méthodologies de validation croisée. Des méthodes telles que le rebrassage des plis d’entraînement et de validation sont ensuite proposées pour réduire ce surapprentissage. Une autre méthode prometteuse est démontrée dans l’utilisation de la moyenne a posteriori d’un GP pour effectuer la sélection des hyperparamètres finaux, plutôt que sélectionner directement le modèle avec l’erreur minimale en validation croisée. Les deux approches suggérées ont montré une amélioration significative sur la performance en généralisation pour un banc de test de 118 jeux de données. Les contributions suivantes proviennent d’une application de l’optimisation d’hyperparamètres pour des méthodes par ensembles. Les méthodes dites d’empilage (stacking) ont précédemment été employées pour combiner de multiples classifieurs à l’aide d’un métaclassifieur. Ces méthodes peuvent s’appliquer au résultat final d’une optimisation bayésienne d’hyperparamètres en conservant les meilleurs classifieurs identifiés lors de l’optimisation et en les combinant à la fin de l’optimisation. Notre méthode d’optimisation bayésienne d’ensembles consiste en une modification du pipeline d’optimisation d’hyperparamètres pour rechercher des hyperparamètres produisant de meilleurs modèles pour un ensemble, plutôt que d’optimiser pour la performance d’un modèle seul. L’approche suggérée a l’avantage de ne pas nécessiter plus d’entraînement de modèles qu’une méthode classique d’optimisation bayésienne d’hyperparamètres. Une évaluation empirique démontre l’intérêt de l’approche proposée. Les dernières contributions sont liées à l’optimisation d’espaces d’hyperparamètres plus complexes, notamment des espaces contenant une structure conditionnelle. Ces conditions apparaissent dans l’optimisation d’hyperparamètres lorsqu’un modèle modulaire est défini – certains hyperparamètres sont alors seulement définis si leur composante parente est activée. Un exemple de tel espace de recherche est la sélection de modèles et l’optimisation d’hyperparamètres combinée, maintenant davantage connu sous l’appellation AutoML, où l’on veut à la fois choisir le modèle de base et optimiser ses hyperparamètres. Des techniques et de nouveaux noyaux pour processus gaussiens sont donc proposées afin de mieux gérer la structure de tels espaces d’une manière fondée sur des principes. Les contributions présentées sont appuyées par une autre étude empirique sur de nombreux jeux de données. En résumé, cette thèse consiste en un rassemblement de travaux tous reliés directement à l’optimisation bayésienne d’hyperparamètres. La thèse présente de nouvelles méthodes pour l’optimisation bayésienne d’ensembles de classifieurs, ainsi que des procédures pour réduire le surapprentissage et pour optimiser des espaces d’hyperparamètres structurés. / In this thesis, we consider the analysis and extension of Bayesian hyperparameter optimization methodology to various problems related to supervised machine learning. The contributions of the thesis are attached to 1) the overestimation of the generalization accuracy of hyperparameters and models resulting from Bayesian optimization, 2) an application of Bayesian optimization to ensemble learning, and 3) the optimization of spaces with a conditional structure such as found in automatic machine learning (AutoML) problems. Generally, machine learning algorithms have some free parameters, called hyperparameters, allowing to regulate or modify these algorithms’ behaviour. For the longest time, hyperparameters were tuned by hand or with exhaustive search algorithms. Recent work highlighted the conceptual advantages in optimizing hyperparameters with more rational methods, such as Bayesian optimization. Bayesian optimization is a very versatile framework for the optimization of unknown and non-derivable functions, grounded strongly in probabilistic modelling and uncertainty estimation, and we adopt it for the work in this thesis. We first briefly introduce Bayesian optimization with Gaussian processes (GP) and describe its application to hyperparameter optimization. Next, original contributions are presented on the dangers of overfitting during hyperparameter optimization, where the optimization ends up learning the validation folds. We show that there is indeed overfitting during the optimization of hyperparameters, even with cross-validation strategies, and that it can be reduced by methods such as a reshuffling of the training and validation splits at every iteration of the optimization. Another promising method is demonstrated in the use of a GP’s posterior mean for the selection of final hyperparameters, rather than directly returning the model with the minimal crossvalidation error. Both suggested approaches are demonstrated to deliver significant improvements in the generalization accuracy of the final selected model on a benchmark of 118 datasets. The next contributions are provided by an application of Bayesian hyperparameter optimization for ensemble learning. Stacking methods have been exploited for some time to combine multiple classifiers in a meta classifier system. Those can be applied to the end result of a Bayesian hyperparameter optimization pipeline by keeping the best classifiers and combining them at the end. Our Bayesian ensemble optimization method consists in a modification of the Bayesian optimization pipeline to search for the best hyperparameters to use for an ensemble, which is different from optimizing hyperparameters for the performance of a single model. The approach has the advantage of not requiring the training of more models than a regular Bayesian hyperparameter optimization. Experiments show the potential of the suggested approach on three different search spaces and many datasets. The last contributions are related to the optimization of more complex hyperparameter spaces, namely spaces that contain a structure of conditionality. Conditions arise naturally in hyperparameter optimization when one defines a model with multiple components – certain hyperparameters then only need to be specified if their parent component is activated. One example of such a space is the combined algorithm selection and hyperparameter optimization, now better known as AutoML, where the objective is to choose the base model and optimize its hyperparameters. We thus highlight techniques and propose new kernels for GPs that handle structure in such spaces in a principled way. Contributions are also supported by experimental evaluation on many datasets. Overall, the thesis regroups several works directly related to Bayesian hyperparameter optimization. The thesis showcases novel ways to apply Bayesian optimization for ensemble learning, as well as methodologies to reduce overfitting or optimize more complex spaces. / Dans cette thèse, l’optimisation bayésienne sera analysée et étendue pour divers problèmes reliés à l’apprentissage supervisé. Les contributions de la thèse sont en lien avec 1) la surestimation de la performance de généralisation des hyperparamètres et des modèles résultants d’une optimisation bayésienne, 2) une application de l’optimisation bayésienne pour la génération d’ensembles de classifieurs, et 3) l’optimisation d’espaces avec une structure conditionnelle telle que trouvée dans les problèmes “d’apprentissage machine automatique” (AutoML). Généralement, les algorithmes d’apprentissage automatique ont des paramètres libres, appelés hyperparamètres, permettant de réguler ou de modifier leur comportement à plus haut niveau. Auparavant, ces hyperparamètres étaient choisis manuellement ou par recherche exhaustive. Des travaux récents ont souligné la pertinence d’utiliser des méthodes plus intelligentes pour l’optimisation d’hyperparamètres, notamment l’optimisation bayésienne. Effectivement, l’optimisation bayésienne est un outil polyvalent pour l’optimisation de fonctions inconnues ou non dérivables, ancré fortement dans la modélisation probabiliste et l’estimation d’incertitude. C’est pourquoi nous adoptons cet outil pour le travail dans cette thèse. La thèse débute avec une introduction de l’optimisation bayésienne avec des processus gaussiens (Gaussian processes, GP) et décrit son application à l’optimisation d’hyperparamètres. Ensuite, des contributions originales sont présentées sur les dangers du surapprentissage durant l’optimisation d’hyperparamètres, où l’on se trouve à mémoriser les plis de validation utilisés pour l’évaluation. Il est démontré que l’optimisation d’hyperparamètres peut en effet mener à une surestimation de la performance de validation, même avec des méthodologies de validation croisée. Des méthodes telles que le rebrassage des plis d’entraînement et de validation sont ensuite proposées pour réduire ce surapprentissage. Une autre méthode prometteuse est démontrée dans l’utilisation de la moyenne a posteriori d’un GP pour effectuer la sélection des hyperparamètres finaux, plutôt que sélectionner directement le modèle avec l’erreur minimale en validation croisée. Les deux approches suggérées ont montré une amélioration significative sur la performance en généralisation pour un banc de test de 118 jeux de données. Les contributions suivantes proviennent d’une application de l’optimisation d’hyperparamètres pour des méthodes par ensembles. Les méthodes dites d’empilage (stacking) ont précédemment été employées pour combiner de multiples classifieurs à l’aide d’un métaclassifieur. Ces méthodes peuvent s’appliquer au résultat final d’une optimisation bayésienne d’hyperparamètres en conservant les meilleurs classifieurs identifiés lors de l’optimisation et en les combinant à la fin de l’optimisation. Notre méthode d’optimisation bayésienne d’ensembles consiste en une modification du pipeline d’optimisation d’hyperparamètres pour rechercher des hyperparamètres produisant de meilleurs modèles pour un ensemble, plutôt que d’optimiser pour la performance d’un modèle seul. L’approche suggérée a l’avantage de ne pas nécessiter plus d’entraînement de modèles qu’une méthode classique d’optimisation bayésienne d’hyperparamètres. Une évaluation empirique démontre l’intérêt de l’approche proposée. Les dernières contributions sont liées à l’optimisation d’espaces d’hyperparamètres plus complexes, notamment des espaces contenant une structure conditionnelle. Ces conditions apparaissent dans l’optimisation d’hyperparamètres lorsqu’un modèle modulaire est défini – certains hyperparamètres sont alors seulement définis si leur composante parente est activée. Un exemple de tel espace de recherche est la sélection de modèles et l’optimisation d’hyperparamètres combinée, maintenant davantage connu sous l’appellation AutoML, où l’on veut à la fois choisir le modèle de base et optimiser ses hyperparamètres. Des techniques et de nouveaux noyaux pour processus gaussiens sont donc proposées afin de mieux gérer la structure de tels espaces d’une manière fondée sur des principes. Les contributions présentées sont appuyées par une autre étude empirique sur de nombreux jeux de données. En résumé, cette thèse consiste en un rassemblement de travaux tous reliés directement à l’optimisation bayésienne d’hyperparamètres. La thèse présente de nouvelles méthodes pour l’optimisation bayésienne d’ensembles de classifieurs, ainsi que des procédures pour réduire le surapprentissage et pour optimiser des espaces d’hyperparamètres structurés. TK 7.5 UL 2018 Optimisation mathématique Théorème de Bayes Systèmes de classeurs Apprentissage automatique
159	Approche non supervisée de segmentation de bas niveau dans un cadre de surveillance vidéo d'environnements non contrôlés Martel-Brisson, Nicolas 18 April 2018 (has links) La présente thèse propose un algorithme de segmentation de bas niveau pour des environnements complexes, allant de scènes intérieures peuplées aux scènes extérieures dynamiques. Basé sur des méthodes d'apprentissage développées pour une séquence vidéo où la caméra est fixe, le système est en mesure d'identifier les sections de l'image appartenant aux objets ou personnes d'avant-plan et ce, en dépit de perturbations temporelles de l'image de l'arrière-plan causées par les ombres, éléments naturels, changements d'illumination, etc. Nous proposons un cadre statistique d'estimation de densité de probabilité basé sur des kernels (KDE). Méthode polyvalente, les KDE requièrent toutefois des séquences d'entraînement où l'activité de l'avant-plan est minimale afin d'obtenir une bonne description initiale de la distribution de l'arrière-plan. Afin d'augmenter la flexibilité de ce type d'approche, nous exploitons la cohérence spatiale des événements d'avant-plan : en minimisant une fonction d'énergie globale par coupure de graphe, nous estimons les probabilités à priori et les densités associées à l'avant et l'arrière-plan pour chaque pixel de la scène. Pour y arriver, des indices tels la dispersion des données, la probabilité associée aux modes dans l'espace RGB, la persistance spatiale des événements et l'entropie relative des régions dans l'image sont utilisés dans un cadre statistique cohérent. Les ombres projetées qui sont détectées lors du processus de soustraction d'arrière-plan induisent des perturbations, tels la distorsion et la fusion des silhouettes, qui nuisent à la performance générale d'algorithmes de plus haut niveau dans un contexte de surveillance vidéo. Deux stratégies sont alors proposées afin de d'éliminer l'ombre projetée de la région d'intérêt. La première méthode utilise la capacité d'apprentissage de l'algorithme de Mixtures de Gaussiennes (GMM) dans le but de caractériser le comportement des ombres projetées sur les surfaces composant l'arrière-plan. La deuxième méthode s'appuie sur les propriétés physiques de l'ombre projetée et d'une mesure de gradient dans un cadre statistique non paramétrique afin d'estimer les valeurs d'atténuation des surfaces ombragées. La méthode permet la différenciation des ombres et de l'avant-plan lorsque ceux-ci partagent des valeurs de chromaticité similaire. Les résultats démontrent que notre approche est efficace dans une multitude de scénarios complexes. TK 7.5 UL 2012 M376 Vidéosurveillance Reconnaissance des formes (Informatique) Apprentissage automatique
160	Une méthode de machine à état liquide pour la classification de séries temporelles : A new liquid state machine method for temporal classification / New liquid state machine method for temporal classification Rhéaume, François 19 April 2018 (has links) L'intérêt envers la neuroscience informatique pour les applications d'intelligence arti- cielle est motivé par plusieurs raisons. Parmi elles se retrouve la rapidité avec laquelle le domaine evolue, promettant de nouvelles capacités pour l'ingénieur. Dans cette thèse, une méthode exploitant les récents avancements en neuroscience informatique est présentée: la machine à état liquide (\liquid state machine"). Une machine à état liquide est un modèle de calcul de données inspiré de la biologie qui permet l'apprentissage sur des ux de données. Le modèle représente un outil prometteur de reconnaissance de formes temporelles. Déjà, il a démontré de bons résultats dans plusieurs applications. En particulier, la reconnaissance de formes temporelles est un problème d'intérêt dans les applications militaires de surveillance telle que la reconnaissance automatique de cibles. Jusqu'à maintenant, la plupart des machines à état liquide crées pour des problèmes de reconnaissance de formes sont demeurées semblables au modèle original. D'un point de vue ingénierie, une question se dégage: comment les machines à état liquide peuvent-elles être adaptées pour améliorer leur aptitude à solutionner des problèmes de reconnaissance de formes temporelles ? Des solutions sont proposées. La première solution suggèrée se concentre sur l'échantillonnage de l'état du liquide. À ce sujet, une méthode qui exploite les composantes fréquentielles du potentiel sur les neurones est définie. La combinaison de différents types de vecteurs d'état du liquide est aussi discutée. Deuxièmement, une méthode pour entrâner le liquide est développée. La méthode utilise la plasticité synaptique à modulation temporelle relative pour modeler le liquide. Une nouvelle approche conditionnée par classe de données est proposée, où différents réseaux de neurones sont entraînés exclusivement sur des classes particuli ères de données. Concernant cette nouvelle approche ainsi que celle concernant l'échantillonnage du liquide, des tests comparatifs ont été effectués avec l'aide de jeux de données simulées et réelles. Les tests permettent de constater que les méthodes présentées surpassent les méthodes conventionnelles de machine à état liquide en termes de taux de reconnaissance. Les résultats sont encore plus encourageants par le fait qu'ils ont été obtenus sans l'optimisation de plusieurs paramètres internes pour les differents jeux de données testés. Finalement, des métriques de l'état du liquide ont été investiguées pour la prédiction de la performance d'une machine à état liquide. / There are a number of reasons that motivate the interest in computational neuroscience for engineering applications of artificial intelligence. Among them is the speed at which the domain is growing and evolving, promising further capabilities for artificial intelligent systems. In this thesis, a method that exploits the recent advances in computational neuroscience is presented: the liquid state machine. A liquid state machine is a biologically inspired computational model that aims at learning on input stimuli. The model constitutes a promising temporal pattern recognition tool and has shown to perform very well in many applications. In particular, temporal pattern recognition is a problem of interest in military surveillance applications such as automatic target recognition. Until now, most of the liquid state machine implementations for spatiotemporal pattern recognition have remained fairly similar to the original model. From an engineering perspective, a challenge is to adapt liquid state machines to increase their ability for solving practical temporal pattern recognition problems. Solutions are proposed. The first one concentrates on the sampling of the liquid state. In this subject, a method that exploits frequency features of neurons is defined. The combination of different liquid state vectors is also discussed. Secondly, a method for training the liquid is developed. The method implements synaptic spike-timing dependent plasticity to shape the liquid. A new class-conditional approach is proposed, where different networks of neurons are trained exclusively on particular classes of input data. For the suggested liquid sampling methods and the liquid training method, comparative tests were conducted with both simulated and real data sets from different application areas. The tests reveal that the methods outperform the conventional liquid state machine approach. The methods are even more promising in that the results are obtained without optimization of many internal parameters for the different data sets. Finally, measures of the liquid state are investigated for predicting the performance of the liquid state machine. TK 7.5 UL 2012 Reconnaissance des formes (Informatique) Flux de données (Informatique) Apprentissage automatique

Search results