Spelling suggestions: "subject:"classification supervisé""
1 |
Classification automatique de textes dans des catégories non thématiquesVinot, Romain 02 1900 (has links) (PDF)
La classification automatique de textes était jusqu'à présent employée pour l'indexation documentaire. À travers quatre exemples, nous présentons quelques caractéristiques de nouveaux contextes applicatifs ainsi que leurs conséquences pour les algorithmes existants. Nous mettons en évidence le fait que Rocchio, d'ordinaire peu performant, est particulièrement adapté aux corpus bruités et à une utilisation semi-automatique mais très désavantagé avec des classes définies par plusieurs thèmes. Nous proposons une extension de Rocchio, Rocchio Multi-Prototypes, pour gérer les classes multi-thématiques en adaptant la complexité de son modèle d'apprentissage. RMP utilise un algorithme de classification faiblement supervisée qui détecte des sous-classes et sélectionne les plus utiles pour la catégorisation. Nous proposons aussi un algorithme de détection de changements de concepts dans des corpus à flux temporel à partir du calcul du taux d'activité des sous-classes.
|
2 |
Evaluation formative du savoir-faire des apprenants à l'aide d'algorithmes de classification : application à l'électronique numériqueTanana, Mariam 19 November 2009 (has links) (PDF)
Lorsqu'un enseignant veut évaluer le savoir-faire des apprenants à l'aide d'un logiciel, il utilise souvent les systèmes Tutoriels Intelligents (STI). Or, les STI sont difficiles à développer et destinés à un domaine pédagogique très ciblé. Depuis plusieurs années, l'utilisation d'algorithmes de classification par apprentissage supervisé a été proposée pour évaluer le savoir des apprenants. Notre hypothèse est que ces mêmes algorithmes vont aussi nous permettre d'évaluer leur savoir-faire. Notre domaine d'application étant l'électronique numérique, nous proposons une mesure de similarité entre schémas électroniques et une bas d'apprentissage générée automatiquement. cette base d'apprentissage est composées de schémas électroniques pédagogiquement étiquetés "bons" ou "mauvais" avec des informations concernant le degré de simplification des erreurs commises. Finalement, l'utilisation d'un algorithme de classification simple (les k plus proches voisins) nous a permis de faire une évaluation des schémas électroniques dans la majorité des cas.
|
3 |
Extraction d information adaptative de pages web par induction supervisée d extracteursJosé de Lima, Rinaldo 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:53:44Z (GMT). No. of bitstreams: 2
arquivo1927_1.pdf: 1553346 bytes, checksum: 9cb96fb0a0fd3a50810d1ec103dedc95 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / A Extração de Informação (EI) compreende técnicas e algoritmos que realisam
duas tarefas importantes: a identificação de informações desejadas a partir de
documentos estruturados e não-estruturados, e o armazenamento dessas
informações em um formato apropriado para uso futuro. Este trabalho concentrase
nos sistemas d'EI adaptativos que podem ser customizados para novos
domínios através de um processo de treinamento (Machine Learning) usando
coleções de documentos anotados como entrada. Particularmente, técnicas de
induçao automática de wrappers são estudadas para extração de informação que
se baseiam na exploração de regularidades estruturais encontradas em documentos
Web. Wrappers são procedimentos para extrair dados de documentos. A indução
de wrappers é definida como uma técnica de extração de informação que usa
algoritmos de aprendizado de máquina para automaticamente construir wrappers a
partir de um corpus previamente anotado e que tem mostrado bons resultados
quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem
natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper
Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual
um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de
extração que combina, no final do processo, um conjunto de wrapers específicos
por voto ponderado. Alguns autores tem estudado como as técnicas de boosting
contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando
a direção desafiadora de usá-lo como um método de extração de informação para
documentos não-estruturados em linguaguem natural. Este fato foi a principal
motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento
do sistema d'EI ora proposto. Afim de se avaliar o desempenho do
sistema, vários experimentos foram executados usando-se três corpora como
testbed para a tarefa de extração de informação no preenchimento de esquemas de
extração (template filling task). Outros experimentos foram também conduzidos
usando-se diversas combinações de atributos para sistematicamente avaliar os
efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os
resultados obtidos experimentalmente mostraram que o desempenho geral do
sistema proposto é comparável a outros sistemas de EI do estado da arte
|
4 |
Détection et caractérisation du cancer de la prostate par images IRM 1.5T multiparamétriques / Computer-aided decision system for prostate cancer detection and characterization based on multi-parametric 1.5T MRILehaire, Jérôme 04 October 2016 (has links)
Le cancer de la prostate est le plus courant en France et la 4ième cause de mortalité par cancer. Les méthodes diagnostics de références actuel sont souvent insuffisantes pour détecter et localiser précisément une lésion. L’imagerie IRM multi-paramétrique est désormais la technique la plusprometteuse pour le diagnostic et la prise en charge du cancer de la prostate. Néanmoins, l’interprétation visuelle des multiples séquences IRM n’est pas aisée. Dans ces conditions, un fort intérêt s’est porté sur les systèmes d’aide au diagnostic dont le but est d’assister le radiologue dans ses décisions. Cette thèse présente la conception d’un système d’aide à la détection (CADe) dontl’approche finale est de fournir au radiologue une carte de probabilité du cancer dans la zone périphérique de la prostate. Ce CADe repose sur une base d’images IRM multi-paramétrique (IRM-mp) 1.5T de types T2w, dynamique et de diffusion provenant d’une base de 49 patients annotés permettant d’obtenir une vérité terrain par analyse stricte des coupes histologiques des pièces de prostate. Cette thèse met l’accent sur la détection des cancers mais aussisur leur caractérisation dans le but de fournir une carte de probabilité corrélée au grade de Gleason des tumeurs. Nous avons utilisé une méthode d’apprentissage de dictionnaires permettant d’extraire de nouvelles caractéristiques descriptives dont l’objectif est de discriminer chacun des cancers. Ces dernières sont ensuite utilisées par deux classifieurs : régression logistique et séparateur à vaste marge (SVM), permettant de produire une carte de probabilité du cancer. Nous avons concentré nos efforts sur la discrimination des cancers agressifs (Gleason>6) et fourni une analyse de la corrélationentre probabilités et scores de Gleason. Les résultats montrent de très bonnes performances de détection des cancers agressifs et l’analyse des probabilités conclue sur une forte capacité du système à séparer les cancers agressifs du reste des tissus mais ne permet pas aisément de distinguer chacundes grades de cancer / Prostate cancer is the most frequent and the fourth leading cause of mortality in France. Actual diagnosis methods are often insufficient in order to detect and precisely locate cancer. Multiparametrics MRI is now one of the most promising method for accurate follow-up of the disease. However, the visual interpretation of MRI is not easy and it is shown that there is strongvariability among expert radiologists to perform diagnosis, especially when MR sequences are contradictory. Under these circumstances, a strong interest is for Computer-aided diagnosis systems (CAD) aiming at assisting expert radiologist in their final decision. This thesis presents our work toward the conception of a CADe which final goal is to provide a cancer probability map to expertradiologist. This study is based on a rich dataset of 49 patients made of T2w, dynamic and diffusion MR images. The ground truth was obtained through strict process of annotations and correlation between histology and MRI. This thesis focuses both for cancer detection and characterization in order to provide a cancer probability map correlated to cancer aggressiveness (Gleason score). To that end we used a dictionary learning method to extract new features to better characterize cancer aggressiveness signatures as well as image features. Those features are then used as an input to Support Vector Machines (SVM) and Logistic Regression (LR) classifiers to produce a cancer probability map. We then focused on discriminating agressive cancers (Gleason score >6) from other tissues and provided an analysis of the correlation between cancer aggressiveness and probabilities. Our work conclude on a strong capability to distinguish agressive cancer from other tissues but fails to precisely distinguish different grades of cancers
|
5 |
Spectroscopie optique multi-modalités in vivo : instrumentation, extraction et classification diagnostique de tissus sains et hyperplasiques cutanésDiaz, Gilberto 16 November 2009 (has links) (PDF)
L'incidence des cancers cutanés est en constante progression. Leur diagnostic précoce et leur caractérisation in vivo constituent donc un enjeu important. Notre approche multi-modalités non invasive en spectroscopie fibrée résolue spatialement vise à coupler des mesures d'AutoFluorescence (AF) et de Réflectance Diffuse (RD). L'instrumentation développée permet des mesures co-localisées en multiple excitation d'autofluorescence (7 pics d'excitation centrés à 360, 368, 390, 400, 410, 420 et 430 nm) et en réflectance diffuse (390 à 720 nm) résolues spatialement à 5 distances inter-fibres (271, 536, 834, 1076, 1341 µm). Le protocole d'étude expérimental a porté sur les stades précoces de cancers cutanés UV-induits sur un modèle pré-clinique. L'analyse histopathologique a permis de définir 4 classes (états) de référence de tissus cutanés : Sain (S), Hyperplasie Compensatoire (HC), Hyperplasie Atypique (HA) et Dysplasie (D), menant à 6 combinaisons de paires histologiques à discriminer. Suite au prétraitement des spectres bruts acquis (suppression des artefacts, moyennage, filtrage, correction spectrale), puis à l'extraction, la sélection et la réduction de jeux de caractéristiques spectroscopiques les plus discriminantes, les performances de trois algorithmes de classification supervisée ont été comparées : k-Plus Proches Voisins (k-PPV), Analyse Discriminante Linéaire (ADL) et Machine à Vecteur de Support (MVS). Les contributions des différentes modalités ont également été évaluées : mono-excitation d'AF seule, Matrices d'Excitation-Emission en AF seules (EEMs), réflectance diffuse (RD) seule, couplage EEMs – RD et couplage EEMs – RD résolue spatialement. L'efficacité finale de notre méthode diagnostique a été évaluée en termes de sensibilité (Se) et de spécificité (Sp). Les meilleures résultats obtenus sont : Se et Sp ≈ 100% pour discriminer CH vs autres ; Sp ≈ 100% et Se > 95% pour discriminer S vs AH ou D ; Sp ≈ 74% et Se ≈ 63% pour discriminer AH vs D.
|
6 |
Sur l'utilisation active de la diversité dans la construction d'ensembles de classifieurs. Application à la détection de fumées nocives sur site industrielGacquer, David 05 December 2008 (has links) (PDF)
L'influence de la diversité lors de la construction d'ensembles de classifieurs a soulevé de nombreuses discussions au sein de la communauté de l'Apprentissage Automatique ces dernières années. <br> Une manière particulière de construire un ensemble de classifieurs consiste à sélectionner individuellement les membres de l'ensemble à partir d'un pool de classifieurs en se basant sur des critères prédéfinis. <br> La littérature fait référence à cette méthode sous le terme de paradigme Surproduction et Sélection, également appelé élagage d'ensemble de classifieurs.<br> <br> Les travaux présentés dans cette thèse ont pour objectif d'étudier le compromis entre la précision et la diversité existant dans les ensembles de classifieurs. Nous apportons également certains éléments de réponse sur le comportement insaisissable de la diversité lorsqu'elle est utilisée de manière explicite lors de la construction d'un ensemble de classifieurs.<br> <br> Nous commençons par étudier différents algorithmes d'apprentissage de la littérature. Nous présentons également les algorithmes ensemblistes les plus fréquemment utilisés. Nous définissons ensuite le concept de diversité dans les ensembles de classifieurs ainsi que les différentes méthodes permettant de l'utiliser directement lors de la création de l'ensemble.<br> <br> Nous proposons un algorithme génétique permettant de construire un ensemble de classifieurs en contrôlant le compromis entre précision et diversité lors de la sélection des membres de l'ensemble. Nous comparons notre algorithme avec différentes heuristiques de sélection proposées dans la littérature pour construire un ensemble de classifieurs selon le paradigme Surproduction et Sélection.<br> <br> Les différentes conclusions que nous tirons des résultats obtenus pour différents jeux de données de l'UCI Repository nous conduisent à la proposition de conditions spécifiques pour lesquelles l'utilisation de la diversité peut amener à une amélioration des performances de l'ensemble de classifieurs. Nous montrons également que l'efficacité de l'approche Surproduction et Sélection repose en grande partie sur la stabilité inhérente au problème posé.<br> <br> Nous appliquons finalement nos travaux de recherche au développement d'un système de classification supervisée pour le contrôle de la pollution atmosphérique survenant sur des sites industriels. Ce système est basé sur l'analyse par traitement d'image de scènes à risque enregistrées à l'aide de caméras. Son principal objectif principal est de détecter les rejets de fumées dangereux émis par des usines sidérurgiques et pétro-chimiques.
|
7 |
Détermination de la qualité de la betterave sucrière par spectroscopie proche infrarouge et chimiométrieROGGO, YVES 17 July 2003 (has links) (PDF)
Actuellement, l'évaluation de la qualité de la betterave sucrière (Beta vulgaris) est réalisée par analyse d'un jus limpide obtenu après une défécation à l'acétate de plomb. Cependant les métaux lourds sont polluants et leur utilisation pourrait être interdite. C'est pourquoi la spectroscopie proche infrarouge (SPIR) est envisagée comme méthode alternative. La première partie de l'étude concerne la faisabilité du dosage du saccharose par SPIR en utilisant la polarimétrie comme méthode de référence. Afin d'obtenir l'erreur standard de prédiction (SEP) la plus faible possible, différents prétraitements spectraux et différentes méthodes de régression sont évalués. Une approche statistique permet de choisir le modèle utilisé. Ainsi un SEP de 0,1 g de saccharose pour 100 g de betteraves est obtenu sur une gamme de concentration allant de 14 à 21 g / 100 g. La seconde partie développe les problèmes de transfert d'étalonnage et de l'utilisation de la SPIR dans un contexte industriel. Plusieurs approches sont comparées : correction spectrale, correction des valeurs prédites et développement d'un modèle robuste. La dernière solution apparaît être la plus adaptée à notre étude. Il semble donc possible de déterminer la teneur en saccharose de la betterave sur plusieurs instruments en conservant la même précision. Enfin, la faisabilité de l'automatisation de la mesure spectrale est également abordée pour répondre aux cadences industrielles. La troisième partie concerne la détermination simultanée de plusieurs constituants de la betterave afin d'estimer sa qualité. Ainsi, le brix, la teneur en azote et d'autres paramètres sont évalués en appliquant la même démarche que pour le dosage du saccharose. De plus, des paramètres qualitatifs tels que l'origine géographique, la résistance à une maladie ou la période de récolte sont évalués grâce à des méthodes de classification supervisées.
|
8 |
Forêts aléatoires : aspects théoriques, sélection de variables et applicationsGenuer, Robin 24 November 2010 (has links) (PDF)
Cette thèse s'inscrit dans le cadre de l'apprentissage statistique et est consacrée à l'étude de la méthode des forêts aléatoires, introduite par Breiman en 2001. Les forêts aléatoires sont une méthode statistique non paramétrique, qui s'avère être très performante dans de nombreuses applications, aussi bien pour des problèmes de régression que de classification supervisée. Elles présentent également un bon comportement sur des données de très grande dimension, pour lesquelles le nombre de variables dépasse largement le nombre d'observations. Dans une première partie, nous développons une procédure de sélection de variables, basée sur l'indice d'importance des variables calculée par les forêts aléatoires. Cet indice d'importance permet de distinguer les variables pertinentes des variables inutiles. La procédure consiste alors à sélectionner automatiquement un sous-ensemble de variables dans un but d'interprétation ou de prédiction. La deuxième partie illustre la capacité de cette procédure de sélection de variables à être performante pour des problèmes très différents. La première application est un problème de classification en très grande dimension sur des données de neuroimagerie, alors que la seconde traite des données génomiques qui constituent un problème de régression en plus petite dimension. Une dernière partie, théorique, établit des bornes de risque pour une version simplifiée des forêts aléatoires. Dans un contexte de régression, avec une seule variable explicative, nous montrons d'une part que les estimateurs associés à un arbre et à une forêt atteignent tous deux la vitesse minimax de convergence, et d'autre part que la forêt apporte une amélioration en réduisant la variance de l'estimateur d'un facteur de trois quarts.
|
9 |
Handling imperfections for multimodal image annotation / Gestion des imperfections pour l’annotation multimodale d’imagesZnaidia, Amel 11 February 2014 (has links)
La présente thèse s’intéresse à l’annotation multimodale d’images dans le contexte des médias sociaux. Notre objectif est de combiner les modalités visuelles et textuelles (tags) afin d’améliorer les performances d’annotation d’images. Cependant, ces tags sont généralement issus d’une indexation personnelle, fournissant une information imparfaite et partiellement pertinente pour un objectif de description du contenu sémantique de l’image. En outre, en combinant les scores de prédiction de différents classifieurs appris sur les différentes modalités, l’annotation multimodale d’image fait face à leurs imperfections: l’incertitude, l’imprécision et l’incomplétude. Dans cette thèse, nous considérons que l’annotation multimodale d’image est soumise à ces imperfections à deux niveaux : niveau représentation et niveau décision. Inspiré de la théorie de fusion de l’information, nous concentrons nos efforts dans cette thèse sur la définition, l’identification et la prise en compte de ces aspects d’imperfections afin d’améliorer l’annotation d’images. / This thesis deals with multimodal image annotation in the context of social media. We seek to take advantage of textual (tags) and visual information in order to enhance the image annotation performances. However, these tags are often noisy, overly personalized and only a few of them are related to the semantic visual content of the image. In addition, when combining prediction scores from different classifiers learned on different modalities, multimodal image annotation faces their imperfections (uncertainty, imprecision and incompleteness). Consequently, we consider that multimodal image annotation is subject to imperfections at two levels: the representation and the decision. Inspired from the information fusion theory, we focus in this thesis on defining, identifying and handling imperfection aspects in order to improve image annotation.
|
10 |
Dynamic machine learning for supervised and unsupervised classification / Apprentissage automatique dynamique pour la classification supervisée et non superviséeSîrbu, Adela-Maria 06 June 2016 (has links)
La direction de recherche que nous abordons dans la thèse est l'application des modèles dynamiques d'apprentissage automatique pour résoudre les problèmes de classification supervisée et non supervisée. Les problèmes particuliers que nous avons décidé d'aborder dans la thèse sont la reconnaissance des piétons (un problème de classification supervisée) et le groupement des données d'expression génétique (un problème de classification non supervisée). Les problèmes abordés sont représentatifs pour les deux principaux types de classification et sont très difficiles, ayant une grande importance dans la vie réelle. La première direction de recherche que nous abordons dans le domaine de la classification non supervisée dynamique est le problème de la classification dynamique des données d'expression génétique. L'expression génétique représente le processus par lequel l'information d'un gène est convertie en produits de gènes fonctionnels : des protéines ou des ARN ayant différents rôles dans la vie d'une cellule. La technologie des micro-réseaux moderne est aujourd'hui utilisée pour détecter expérimentalement les niveaux d'expression de milliers de gènes, dans des conditions différentes et au fil du temps. Une fois que les données d'expression génétique ont été recueillies, l'étape suivante consiste à analyser et à extraire des informations biologiques utiles. L'un des algorithmes les plus populaires traitant de l'analyse des données d'expression génétique est le groupement, qui consiste à diviser un certain ensemble en groupes, où les composants de chaque groupe sont semblables les uns aux autres données. Dans le cas des ensembles de données d'expression génique, chaque gène est représenté par ses valeurs d'expression (caractéristiques), à des points distincts dans le temps, dans les conditions contrôlées. Le processus de regroupement des gènes est à la base des études génomiques qui visent à analyser les fonctions des gènes car il est supposé que les gènes qui sont similaires dans leurs niveaux d'expression sont également relativement similaires en termes de fonction biologique. Le problème que nous abordons dans le sens de la recherche de classification non supervisée dynamique est le regroupement dynamique des données d'expression génique. Dans notre cas, la dynamique à long terme indique que l'ensemble de données ne sont pas statiques, mais elle est sujette à changement. Pourtant, par opposition aux approches progressives de la littérature, où l'ensemble de données est enrichie avec de nouveaux gènes (instances) au cours du processus de regroupement, nos approches abordent les cas lorsque de nouvelles fonctionnalités (niveaux d'expression pour de nouveaux points dans le temps) sont ajoutés à la gènes déjà existants dans l'ensemble de données. À notre connaissance, il n'y a pas d'approches dans la littérature qui traitent le problème de la classification dynamique des données d'expression génétique, définis comme ci-dessus. Dans ce contexte, nous avons introduit trois algorithmes de groupement dynamiques que sont capables de gérer de nouveaux niveaux d'expression génique collectés, en partant d'une partition obtenue précédente, sans la nécessité de ré-exécuter l'algorithme à partir de zéro. L'évaluation expérimentale montre que notre méthode est plus rapide et plus précis que l'application de l'algorithme de classification à partir de zéro sur la fonctionnalité étendue ensemble de données... / The research direction we are focusing on in the thesis is applying dynamic machine learning models to salve supervised and unsupervised classification problems. We are living in a dynamic environment, where data is continuously changing and the need to obtain a fast and accurate solution to our problems has become a real necessity. The particular problems that we have decided te approach in the thesis are pedestrian recognition (a supervised classification problem) and clustering of gene expression data (an unsupervised classification. problem). The approached problems are representative for the two main types of classification and are very challenging, having a great importance in real life.The first research direction that we approach in the field of dynamic unsupervised classification is the problem of dynamic clustering of gene expression data. Gene expression represents the process by which the information from a gene is converted into functional gene products: proteins or RNA having different roles in the life of a cell. Modern microarray technology is nowadays used to experimentally detect the levels of expressions of thousand of genes, across different conditions and over time. Once the gene expression data has been gathered, the next step is to analyze it and extract useful biological information. One of the most popular algorithms dealing with the analysis of gene expression data is clustering, which involves partitioning a certain data set in groups, where the components of each group are similar to each other. In the case of gene expression data sets, each gene is represented by its expression values (features), at distinct points in time, under the monitored conditions. The process of gene clustering is at the foundation of genomic studies that aim to analyze the functions of genes because it is assumed that genes that are similar in their expression levels are also relatively similar in terms of biological function.The problem that we address within the dynamic unsupervised classification research direction is the dynamic clustering of gene expression data. In our case, the term dynamic indicates that the data set is not static, but it is subject to change. Still, as opposed to the incremental approaches from the literature, where the data set is enriched with new genes (instances) during the clustering process, our approaches tackle the cases when new features (expression levels for new points in time) are added to the genes already existing in the data set. To our best knowledge, there are no approaches in the literature that deal with the problem of dynamic clustering of gene expression data, defined as above. In this context we introduced three dynamic clustering algorithms which are able to handle new collected gene expression levels, by starting from a previous obtained partition, without the need to re-run the algorithm from scratch. Experimental evaluation shows that our method is faster and more accurate than applying the clustering algorithm from scratch on the feature extended data set...
|
Page generated in 0.1145 seconds