Spelling suggestions: "subject:"supervisé""
41 |
Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques / Improvement of the information system of the Semantic Group Company through the creation of semantic resourcesYahaya Alassan, Mahaman Sanoussi 05 October 2017 (has links)
Prendre en compte l'aspect sémantique des données textuelles lors de la tâche de classification s'est imposé comme un réel défi ces dix dernières années. Cette difficulté vient s'ajouter au fait que la plupart des données disponibles sur les réseaux sociaux sont des textes courts, ce qui a notamment pour conséquence de rendre les méthodes basées sur la représentation "bag of words" peu efficientes. L'approche proposée dans ce projet de recherche est différente des approches proposées dans les travaux antérieurs sur l'enrichissement des messages courts et ce pour trois raisons. Tout d'abord, nous n'utilisons pas des bases de connaissances externes comme Wikipedia parce que généralement les messages courts qui sont traités par l'entreprise proveniennent des domaines spécifiques. Deuxièment, les données à traiter ne sont pas utilisées pour la constitution de ressources à cause du fonctionnement de l'outil. Troisièment, à notre connaissance il n'existe pas des travaux d'une part qui exploitent des données structurées comme celles de l'entreprise pour constituer des ressources sémantiques, et d'autre part qui mesurent l'impact de l'enrichissement sur un système interactif de regroupement de flux de textes. Dans cette thèse, nous proposons la création de ressources permettant d'enrichir les messages courts afin d'améliorer la performance de l'outil du regroupement sémantique de l'entreprise Succeed Together. Ce dernier implémente des méthodes de classification supervisée et non supervisée. Pour constituer ces ressources, nous utilisons des techniques de fouille de données séquentielles. / Taking into account the semantic aspect of the textual data during the classification task has become a real challenge in the last ten years. This difficulty is in addition to the fact that most of the data available on social networks are short texts, which in particular results in making methods based on the "bag of words" representation inefficient. The approach proposed in this research project is different from the approaches proposed in previous work on the enrichment of short messages for three reasons. First, we do not use external knowledge like Wikipedia because typically short messages that are processed by the company come from specific domains. Secondly, the data to be processed are not used for the creation of resources because of the operation of the tool. Thirdly, to our knowledge there is no work on the one hand, which uses structured data such as the company's data to constitute semantic resources, and on the other hand, which measure the impact of enrichment on a system Interactive grouping of text flows. In this thesis, we propose the creation of resources enabling to enrich the short messages in order to improve the performance of the tool of the semantic grouping of the company Succeed Together. The tool implements supervised and unsupervised classification methods. To build these resources, we use sequential data mining techniques.
|
42 |
Representation learning in unsupervised domain translationLavoie-Marchildon, Samuel 12 1900 (has links)
Ce mémoire s'adresse au problème de traduction de domaine non-supervisée. La traduction non-supervisée cherche à traduire un domaine, le domaine source, à un domaine cible sans supervision. Nous étudions d'abord le problème en utilisant le formalisme du transport optimal. Dans un second temps, nous étudions le problème de transfert de sémantique à haut niveau dans les images en utilisant les avancés en apprentissage de représentations et de transfert d'apprentissages développés dans la communauté d'apprentissage profond.
Le premier chapitre est dévoué à couvrir les bases des concepts utilisés dans ce travail. Nous décrivons d'abord l'apprentissage de représentation en incluant la description de réseaux de neurones et de l'apprentissage supervisé et non supervisé. Ensuite, nous introduisons les modèles génératifs et le transport optimal. Nous terminons avec des notions pertinentes sur le transfert d'apprentissages qui seront utiles pour le chapitre 3.
Le deuxième chapitre présente \textit{Neural Wasserstein Flow}. Dans ce travail, nous construisons sur la théorie du transport optimal et démontrons que les réseaux de neurones peuvent être utilisés pour apprendre des barycentres de Wasserstein. De plus, nous montrons que les réseaux de neurones peuvent amortir n'importe quel barycentre, permettant d'apprendre une interpolation continue. Nous montrons aussi comment utiliser ces concepts dans le cadre des modèles génératifs. Finalement, nous montrons que notre approche permet d'interpoler des formes et des couleurs.
Dans le troisième chapitre, nous nous attaquons au problème de transfert de sémantique haut niveau dans les images. Nous montrons que ceci peut être obtenu simplement avec un GAN conditionné sur la représentation apprise par un réseau de neurone. Nous montrons aussi comment ce processus peut être rendu non-supervisé si la représentation apprise est un regroupement. Finalement, nous montrons que notre approche fonctionne sur la tâche de transfert de MNIST à SVHN.
Nous concluons en mettant en relation les deux contributions et proposons des travaux futures dans cette direction. / This thesis is concerned with the problem of unsupervised domain translation. Unsupervised domain translation is the task of transferring one domain, the source domain, to a target domain. We first study this problem using the formalism of optimal transport. Next, we study the problem of high-level semantic image to image translation using advances in representation learning and transfer learning.
The first chapter is devoted to reviewing the background concepts used in this work. We first describe representation learning including a description of neural networks and supervised and unsupervised representation learning. We then introduce generative models and optimal transport. We finish with the relevant notions of transfer learning that will be used in chapter 3.
The second chapter presents Neural Wasserstein Flow. In this work, we build on the theory of optimal transport and show that deep neural networks can be used to learn a Wasserstein barycenter of distributions. We further show how a neural network can amortize any barycenter yielding a continuous interpolation. We also show how this idea can be used in the generative model framework. Finally, we show results on shape interpolation and colour interpolation.
In the third chapter, we tackle the task of high level semantic image to image translation. We show that high level semantic image to image translation can be achieved by simply learning a conditional GAN with the representation learned from a neural network. We further show that we can make this process unsupervised if the representation learning is a clustering. Finally, we show that our approach works on the task of MNIST to SVHN.
|
43 |
Évaluation de quelques sources d’erreur dans un inventaire de l’occupation du sol par terrain agricole à Sainte-Foy (Québec), produit à l’aide d’une image SPOT-1Dugas-Simard, Alain January 1991 (has links)
Un inventaire de l'occupation du sol pour chaque terrain agricole en milieu périurbain peut être produit par le croisement (automatisé) entre une image satellitaire classifiée et une image des terrains, provenant du cadastre numérisé. Trois sources d'erreur sont examinées. L'erreur planimétrique, créée par la ""rasteurisation"" des polygones-terrain, l'erreur dans les proportions des classes d'occupation du sol due à la résolution spatiale, et l'erreur de la classification elle-même. Les résultats démontrent que chacune de ces erreurs varie en fonction des terrains, donnant des inventaires de qualité inégale. Il est difficile de les corréler avec les dimensions des terrains, et de fixer ainsi des dimensions minimales nécessaires au succès de l'inventaire agricole.
|
44 |
Adaptation thématique non supervisée d'un système de reconnaissance automatique de la paroleLecorvé, Gwénolé 24 November 2010 (has links) (PDF)
Les systèmes actuels de reconnaissance automatique de la parole (RAP) reposent sur un modèle de langue (ML) qui les aide à déterminer les hypothèses de transcription les plus probables. Pour cela, le ML recense des probabilités de courtes séquences de mots, appelées n-grammes, fondées sur un vocabulaire fini. Ces ML et vocabulaire sont estimés une fois pour toutes à partir d'un vaste corpus de textes traitant de sujets variés. En conséquence, les systèmes actuels souffrent d'un manque de spécificité lorsqu'il s'agit de transcrire des documents thématiquement marqués. Pour pallier ce problème, nous proposons un nouveau processus d'adaptation thématique non supervisée du ML et du vocabulaire. Sur la base d'une première transcription automatique d'un document audio, ce processus consiste à récupérer sur Internet des textes du même thème que le document, textes à partir desquels nous réestimons le ML et enrichissons le vocabulaire. Ces composants adaptés servent alors à produire une nouvelle transcription dont la qualité est espérée meilleure. Ce processus est particulièrement original car il se préserve de toute connaissance a priori sur les éventuels thèmes des documents à transcrire et il intègre des techniques de traitement automatique des langues. De plus, nous apportons des contributions pour chaque étape du processus. Tout d'abord, étant donnée la transcription initiale d'un document audio, nous avons aménagé le critère tf-idf , issu du domaine de la recherche d'information, aux spécificités de l'oral afin de caractériser le thème du document par des mots-clés extraits automatiquement. Via un moteur de recherche sur Internet, ces mots-clés nous permettent de récupérer des pages Web que nous filtrons afin d'assurer leur cohérence thématique avec le document audio. Ensuite, nous avons proposé une nouvelle technique de réestimation thématique du ML. En extrayant des mots et séquences de mots spécifiques au thème considéré à partir des corpora Web, nous utilisons le cadre de l'adaptation par minimum d'information discriminante pour ne modifier que les probabilités des n-grammes propres au thème, laissant les autres probabilités inchangées. Enfin, nous montrons également que les corpora extraits du Web peuvent servir à repérer des mots hors vocabulaire spécifiques aux thèmes. Nous proposons une technique originale qui permet d'apprendre ces nouveaux mots au système et, notamment, de les intégrer dans le ML en déterminant automatiquement dans quels n-grammes ils sont susceptibles d'apparaître. Pour cela, chaque nouveau mot est assimilé à d'autres, déjà connus du système, avec lesquels il partage une relation paradigmatique. Nos expériences, menées sur des émissions d'actualités radiodiffusées, montrent que l'ensemble de ces traitements aboutit à des améliorations significatives du taux de reconnaissance d'un système de RAP.
|
45 |
Le clustering en aide multicritère à la décision : théorie et applicationsOLTEANU, Alexandru Liviu 24 June 2013 (has links) (PDF)
Le problème de la classification non supervisée (clustering) a été largement étudié dans le contexte de l'analyse de données, où la structure naturelle des données est dévoilée en groupant des objets similaires tout en séparant ceux qui ne le sont pas. L'Aide Multicritère à la Décision (AMCD) modélise les préférences de décideurs et les aide à choisir une solution appropriée parmi un ensemble d'alternatives. Dans ce contexte, les problématiques du choix, du tri et du rangement ont été largement étudiés, alors que celle du clustering l'a été bien moins. De plus, la plupart de ces approches de résolution en AMCD utilisent des mesures de similarité et n'exploitent pas l'information préférentielle supplémentaire qui est disponible. Dans cette thèse nous étudions ce problème du clustering en AMCD en faisant d'abord un parallèle entre l'analyse de données et l'AMCD pour ensuite proposer le problème de la classification non supervisée en AMCD. Différents modèles sont alors proposés pour résoudre ce problème, ainsi que des algorithmes de résolution, qui sont validés sur un grand nombre de problèmes générés artificiellement. Pour terminer, nous envisageons différentes applications via l'utilisation de différentes mesures descriptives des classes, ainsi que l'extension des algorithmes à des volumes de données importants. Une application est résolue à la fin de la thèse pour illustrer l'intérêt des outils proposés.
|
46 |
Assessment of supervised classification methods for the analysis of RNA-seq data / Développement, évaluation et application de méthodes statistiques pour l'analyse de données multidimensionnelles de comptage produites par les technologies de séquençage à haut débit ("Next Generation Sequencing")Abuelqumsan, Mustafa 20 December 2018 (has links)
Les technologies « Next Generation Sequencing» (NGS), qui permettent de caractériser les séquences génomiques à un rythme sans précédent, sont utilisées pour caractériser la diversité génétique humaine et le transcriptome (partie du génome transcrite en acides ribonucléiques). Les variations du niveau d’expression des gènes selon les organes et circonstances, sous-tendent la différentiation cellulaire et la réponse aux changements d’environnement. Comme les maladies affectent souvent l’expression génique, les profils transcriptomiques peuvent servir des fins médicales (diagnostic, pronostic). Différentes méthodes d’apprentissage artificiel ont été proposées pour classer des individus sur base de données multidimensionnelles (par exemple, niveau d’expression de tous les gènes dans des d’échantillons). Pendant ma thèse, j’ai évalué des méthodes de « machine learning » afin d’optimiser la précision de la classification d’échantillons sur base de profils transcriptomiques de type RNA-seq. / Since a decade, “Next Generation Sequencing” (NGS) technologies enabled to characterize genomic sequences at an unprecedented pace. Many studies focused of human genetic diversity and on transcriptome (the part of genome transcribed into ribonucleic acid). Indeed, different tissues of our body express different genes at different moments, enabling cell differentiation and functional response to environmental changes. Since many diseases affect gene expression, transcriptome profiles can be used for medical purposes (diagnostic and prognostic). A wide variety of advanced statistical and machine learning methods have been proposed to address the general problem of classifying individuals according to multiple variables (e.g. transcription level of thousands of genes in hundreds of samples). During my thesis, I led a comparative assessment of machine learning methods and their parameters, to optimize the accuracy of sample classification based on RNA-seq transcriptome profiles.
|
47 |
Spectroscopie optique multi-modalités in vivo : instrumentation, extraction et classification diagnostique de tissus sains et hyperplasiques cutanés / Multi-modality optical spectroscopy in vivo : instrumentation, extraction and classification diagnosis of normal and hyperplastic cutaneous tissueDiaz-Ayil, Gilberto 16 November 2009 (has links)
L’incidence des cancers cutanés est en constante progression. Leur diagnostic précoce et leur caractérisation in vivo constituent donc un enjeu important. Une approche multimodale et non invasive en spectroscopie fibrée résolue spatialement a été implémentée. L’instrumentation développée permet des mesures co-localisées en multiple excitation d’AutoFluorescence (AF, 7 pics entre 360 et 430 nm) et en Réflectance Diffuse (RD, 390 à 720 nm) résolues spatialement à 5 distances inter-fibres (entre 271 et 1341 µm). Le protocole expérimental a porté sur les stades précoces de cancers cutanés UV-induits sur un modèle pré-clinique. L’analyse histopathologique a permis de définir 4 classes de référence de tissus cutanés : Sain (S), Hyperplasie Compensatoire (HC), Hyperplasie Atypique (HA) et Dysplasie (D), menant à 6 combinaisons de paires histologiques à discriminer. Suite au prétraitement des spectres bruts acquis, puis à l’extraction, la sélection et la réduction de jeux de caractéristiques spectroscopiques, les performances de trois algorithmes de classification supervisée ont été comparées : k-Plus Proches Voisins, Analyse Discriminante Linéaire et Machine à Vecteur de Support. Différentes modalités ont également été évaluées : mono-excitation d’AF seule, Matrices d’Excitation-Emission en AF seules (EEMs), RD seule, couplage EEMs – RD et couplage EEMs – RD résolue spatialement. L’efficacité finale de notre méthode diagnostique a été évaluée en termes de sensibilité (Se) et de spécificité (Sp). Les meilleures résultats obtenus sont : Se et Sp ≈ 100% pour discriminer HC vs autres ; Sp ≈ 100% et Se > 95% pour discriminer S vs HA ou D ; Sp ≈ 74% et Se ≈ 63% pour HA vs D / The incidence of skin cancers is steadily increasing. Their in vivo early diagnosis and characterization is an important issue. An approach noninvasive: the spatially resolved multi-modality spectroscopy has been implemented. The instrumentation developed allows to co-localized measures in multiple AutoFluorescence excitation (AF, 7 peaks between 360 and 430 nm) and Diffuse Reflectance (DR, 390 to 720 nm) spatially resolved at 5 inter-fiber distances (between 271 and 1341 μm). The experimental protocol was focused on the early stages of skin cancer UV-induced in a preclinical model. Four reference classes were defined based on the histopathological analysis of the skin samples: Healthy (H), Compensatory Hyperplasia (CH), Atypical Hyperplasia (AH) and Dysplasia (D), leading to 6 combinations of class pairs to be discriminated. After preprocessing of the raw spectra, extraction, selection and reduction of the most discriminative spectroscopic data set were performed. Then, the efficacy of three supervised classification algorithms was compared: k-Nearest Neighbors, Linear Discriminant Analysis and Support Vector Machine. The contribution of the different modalities was also evaluated: single AF excitation alone, Excitation-Emission Matrices AF (EEMs) alone, DR alone, coupling of EEMs and RD, coupling of EEMs and DR with spatial resolution. The final efficiency of our diagnostic method was evaluated in terms of sensitivity (Se) and specificity (Sp). The best results obtained are: Se and Sp ≈ 100% for discriminating CH vs others; Sp ≈ 100% and Se> 95% for discriminating AH or D vs H; Sp ≈ 74% and Se ≈ 63% to discriminate AH vs D
|
48 |
Etude et extraction des règles associatives de classification en classification supervisée / Study and mining associative classification rules in Supervised classificationBouzouita-Bayoudh, Inès 01 December 2012 (has links)
Dans le cadre de cette thèse, notre intérêt se porte sur la précision de la classification et l'optimalité du parcours de l'espace de recherche. L'objectif recherché est d'améliorer la précision de classification en étudiant les différents types de règles et de réduire l'espace de recherche des règles. Nous avons proposé une approche de classification IGARC permettant de générer un classifieur formé d'une base de règles de classification génériques permettant de mieux classer les nouveaux objets grâce à la flexibilité de petites prémisses caractérisant ces règles. De plus cette approche manipule un nombre réduit de règles en comparaison avec les autres approches de classification associative en se basant sur le principe des bases génériques des règles associatives. Une étude expérimentale inter et intra approches a été faite sur 12 bases Benchmark.Nous avons également proposé une approche Afortiori. Notre travail a été motivé par la recherche d'un algorithme efficace permettant l'extraction des règles génériques aussi bien fréquentes que rares de classification en évitant la génération d'un grand nombre de règles. L'algorithme que nous proposons est particulièrement intéressant dans le cas de bases de données bien spécifiques composées d'exemples positifs et négatifs et dont le nombre d'exemples négatifs est très réduit par rapport aux exemples positifs. La recherche des règles se fait donc sur les exemples négatifs afin de déterminer des règles qui ont un faible support et ce même par rapport à la population des exemples positifs et dont l'extraction pourrait être coûteuse. / Within the framework of this thesis, our interest is focused on classification accuracy and the optimalité of the traversal of the search. we introduced a new direct associative classification method called IGARC that extracts directly a classifier formed by generic associative classification rules from a training set in order to reduce the number of associative classification rules without jeopardizing the classification accuracy. Carried out experiments outlined that IGARC is highly competitive in comparison with popular classification methods.We also introduced a new classification approach called AFORTIORI. We address the problem of generating relevant frequent and rare classification rules. Our work is motivated by the long-standing open question of devising an efficient algorithm for finding rules with low support. A particularly relevant field for rare item sets and rare associative classification rules is medical diagnosis. The proposed approach is based on the cover set classical algorithm. It allows obtaining frequent and rare rules while exploring the search space in a depth first manner. To this end, AFORTIORI adopts the covering set algorithm and uses the cover measure in order to guide the traversal of the search space and to generate the most interesting rules for the classification framework even rare ones. We describe our method and provide comparisons with common methods of associative classification on standard benchmark data set.
|
49 |
Modélisation, détection et classification d'objets urbains à partir d’images photographiques aériennes / Modeling, detection and classification of urban objects from aerial imagesPasquet, Jérôme 03 November 2016 (has links)
Cette thèse aborde des problèmes liés à la localisation et reconnaissance d'objets urbains dans des images aériennes de très haute définition. Les objets urbains se caractérisent par une représentation très variable en terme de forme, texture et couleur. De plus, ils sont présents de multiples fois sur les images à analyser et peuvent être collés les uns aux autres. Pour effectuer la localisation et reconnaissance automatiquement des différents objets nous proposons d'utiliser des approches d'apprentissage supervisé. De part leurs caractéristiques, les objets urbains sont difficilement détectables et les approches classiques de détections n'offrent pas de performances satisfaisantes. Nous avons proposé l'utilisation d'un réseau de séparateurs à vaste marge (SVM) afin de mieux fusionner les informations issues des différentes résolutions et donc d'améliorer la représentativité de l'objet urbain. L'utilisation de réseau de SVM permet d'améliorer les performances mais à un coût calculatoire important. Nous avons alors proposé d'utiliser un chemin d'activation permettant de réduire la complexité sans perdre en efficacité. Ce chemin va activer le réseau de manière séquentielle et stoppera l'exploration lorsque la probabilité de détection d'un objet est importante. Dans le cas d'une localisation basée sur l'extraction de caractéristiques puis la classification, la réduction calculatoire est d'un facteur cinq. Par la suite, nous avons montré que nous pouvons combiner le réseau de SVM avec les cartes de caractéristiques issues de réseaux de neurones convolutifs. Cette architecture combinée avec le chemin d'activation permet une réduction théorique du coût d'activation pouvant aller jusqu'à 97% avec un gain de performances d'environ 8% sur les données utilisées. Les méthodes développées ont pour objectif d'être intégrées dans un logiciel de la société Berger-Levrault afin de faciliter et d'améliorer la gestion de cadastre dans les collectivités locales. / This thesis deals with the problems of automatic localization and recognition of urban objects in high-definition aerial images. Urban object detection is a challenging problem because they vary in appearance, color and size. Moreover, there are many urban objects which can be very close to each other in an image. The localization and the automatic recognition of different urban objects, considering these characteristics, are very difficult to detect and classical image processing algorithms do not lead to good performances. We propose then to use the supervised learning approach. In a first time, we have built a Support Vector Machine (SVM) network to merge different resolutions in an efficient way. However, this method highly increases the computational cost. We then proposed to use an “activation path” which reduces the complexity without any loss of efficiency. This path activates sequentially the network and stops the exploration when an urban object has a high probability of detection. In the case of localizations based on a feature extraction step followed by a classification step, this may reduce by a factor 5 the computational cost. Thereafter, we show that we can combine an SVM network with feature maps which have been extracted by a Convolutional Neural Network. Such an architecture associated with the activation path increased the performance by 8% on our database while giving a theoretical reduction of the computational costs up to 97%. We implemented all these new methods in order to be integrated in the software framework of Berger-Levrault company, to improve land registry for local communities.
|
50 |
Proposition d'une méthode spectrale combinée LDA et LLE pour la réduction non-linéaire de dimension : Application à la segmentation d'images couleurs / Proposition of a new spectral method combining LDA and LLE for non-linear dimension reduction : Application to color images segmentationHijazi, Hala 19 December 2013 (has links)
Les méthodes d'analyse de données et d'apprentissage ont connu un développement très important ces dernières années. En effet, après les réseaux de neurones, les machines à noyaux (années 1990), les années 2000 ont vu l'apparition de méthodes spectrales qui ont fourni un cadre mathématique unifié pour développer des méthodes de classification originales. Parmi celles-ci ont peut citer la méthode LLE pour la réduction de dimension non linéaire et la méthode LDA pour la discrimination de classes. Une nouvelle méthode de classification est proposée dans cette thèse, méthode issue d'une combinaison des méthodes LLE et LDA. Cette méthode a donné des résultats intéressants sur des ensembles de données synthétiques. Elle permet une réduction de dimension non-linéaire suivie d'une discrimination efficace. Ensuite nous avons montré que cette méthode pouvait être étendue à l'apprentissage semi-supervisé. Les propriétés de réduction de dimension et de discrimination de cette nouvelle méthode, ainsi que la propriété de parcimonie inhérente à la méthode LLE nous ont permis de l'appliquer à la segmentation d'images couleur avec succès. La propriété d'apprentissage semi-supervisé nous a enfin permis de segmenter des images bruitées avec de bonnes performances. Ces résultats doivent être confortés mais nous pouvons d'ores et déjà dégager des perspectives de poursuite de travaux intéressantes. / Data analysis and learning methods have known a huge development during these last years. Indeed, after neural networks, kernel methods in the 90', spectral methods appeared in the years 2000. Spectral methods provide an unified mathematical framework to expand new original classification methods. Among these new techniques, two methods can be highlighted : LLE for non-linear dimension reduction and LDA as discriminating classification method. In this thesis document a new classification technique is proposed combining LLE and LDA methods. This new method makes it possible to provide efficient non-linear dimension reduction and discrimination. Then an extension of the method to semi-supervised learning is proposed. Good properties of dimension reduction and discrimination associated with the sparsity property of the LLE technique make it possible to apply our method to color images segmentation with success. Semi-supervised version of our method leads to efficient segmentation of noisy color images. These results have to be extended and compared with other state-of-the-art methods. Nevertheless interesting perspectives of this work are proposed in conclusion for future developments.
|
Page generated in 0.0464 seconds