Spelling suggestions: "subject:"supervisé""
11 |
Extraction d information adaptative de pages web par induction supervisée d extracteursJosé de Lima, Rinaldo 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:53:44Z (GMT). No. of bitstreams: 2
arquivo1927_1.pdf: 1553346 bytes, checksum: 9cb96fb0a0fd3a50810d1ec103dedc95 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / A Extração de Informação (EI) compreende técnicas e algoritmos que realisam
duas tarefas importantes: a identificação de informações desejadas a partir de
documentos estruturados e não-estruturados, e o armazenamento dessas
informações em um formato apropriado para uso futuro. Este trabalho concentrase
nos sistemas d'EI adaptativos que podem ser customizados para novos
domínios através de um processo de treinamento (Machine Learning) usando
coleções de documentos anotados como entrada. Particularmente, técnicas de
induçao automática de wrappers são estudadas para extração de informação que
se baseiam na exploração de regularidades estruturais encontradas em documentos
Web. Wrappers são procedimentos para extrair dados de documentos. A indução
de wrappers é definida como uma técnica de extração de informação que usa
algoritmos de aprendizado de máquina para automaticamente construir wrappers a
partir de um corpus previamente anotado e que tem mostrado bons resultados
quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem
natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper
Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual
um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de
extração que combina, no final do processo, um conjunto de wrapers específicos
por voto ponderado. Alguns autores tem estudado como as técnicas de boosting
contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando
a direção desafiadora de usá-lo como um método de extração de informação para
documentos não-estruturados em linguaguem natural. Este fato foi a principal
motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento
do sistema d'EI ora proposto. Afim de se avaliar o desempenho do
sistema, vários experimentos foram executados usando-se três corpora como
testbed para a tarefa de extração de informação no preenchimento de esquemas de
extração (template filling task). Outros experimentos foram também conduzidos
usando-se diversas combinações de atributos para sistematicamente avaliar os
efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os
resultados obtidos experimentalmente mostraram que o desempenho geral do
sistema proposto é comparável a outros sistemas de EI do estado da arte
|
12 |
Estimation et sélection en classification semi-supervisée / Estimation and selection in semi-supervised classificationVandewalle, Vincent 09 December 2009 (has links)
Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AICcond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée.Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints. / The subject of this thesis is the semi-supervised classification which is considered in decision-making perpective. We are interested in model choice issue in when models are estimated using both labeled data and many unlabeled data. We focus our research on generative models for which the semi-supervised classification is considered without difficulty, unlike predictive framework that requires additional unnatural assumptions. Having developed a state of the art of semi-supervised classification, we describe the estimation of parameters of a classification model using labeled data and unlabeled data by the EM algorithm. Our contributions on models selection closely watched in the two following chapters. In Chapter 3, we present a statistical test where unlabeled data are used to test the model. In Chapter 4 we present a model selection criterion, AICcond, derived from the AIC criterion in a predictive point of view. We prove the asymptotic convergence of this test particularly well suited to semi-supervised setting and his good practical performance compared to the cross-validation and other penalized likelihood criteria.A second part of the thesis, not directly connected with the semi-supervised setting, the multinomial models for classification of qualitative variables are considered. We designed these models to address the limitations of parsimonious multinomial models proposed in the program MIXMOD. For this setting, we propose a BIC-type criterion which takes into account specifically the complexity of the constrained multinomial models.
|
13 |
Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'information changeant au cours du temps / Analysis of stationary and emerging properties in information flows changing over timeKassab, Randa 11 May 2009 (has links)
De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps. L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données. Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples. / Many applications produce and receive continuous, unlimited, and high-speed data streams. This raises obvious problems of storage, treatment and analysis of data, which are only just beginning to be treated in the domain of data streams. On the one hand, it is a question of treating data streams on the fly without having to memorize all the data. On the other hand, it is also a question of analyzing, in a simultaneous and concurrent manner, the regularities inherent in the data stream as well as the novelties, exceptions, or changes occurring in this stream over time. The main contribution of this thesis concerns the development of a new machine learning approach - called ILoNDF - which is based on novelty detection principle. The learning of this model is, contrary to that of its former self, driven not only by the novelty part in the input data but also by the data itself. Thereby, ILoNDF can continuously extract new knowledge relating to the relative frequencies of the data and their variables. This makes it more robust against noise. Being operated in an on-line mode without repeated training, ILoNDF can further address the primary challenges for managing data streams. Firstly, we focus on the study of ILoNDF's behavior for one-class classification when dealing with high-dimensional noisy data. This study enabled us to highlight the pure learning capacities of ILoNDF with respect to the key classification methods suggested until now. Next, we are particularly involved in the adaptation of ILoNDF to the specific context of information filtering. Our goal is to set up user-oriented filtering strategies rather than system-oriented in following two types of directions. The first direction concerns user modeling relying on the model ILoNDF. This provides a new way of looking at user's need in terms of specificity, exhaustivity and contradictory profile-contributing criteria. These criteria go on to estimate the relative importance the user might attach to precision and recall. The filtering threshold can then be adjusted taking into account this knowledge about user's need. The second direction, complementary to the first one, concerns the refinement of ILoNDF's functionality in order to confer it the capacity of tracking drifting user's need over time. Finally, we consider the generalization of our previous work to the case where streaming data can be divided into multiple classes.
|
14 |
Les multiples trajectoires d’activité physique supervisée et non supervisée chez les enfants du primaire au Québec : un modèle écologiqueOlivier, Charles-Étienne 12 1900 (has links)
Contexte : L’activité physique est une composante centrale du développement physique,
psychologique et social de l'enfant, particulièrement au sein d'une société où l'impact de
la sédentarité et de l'obésité devient de plus en plus important. Cependant, les
trajectoires d’activité physique hors école et leurs déterminants sont peu étudiés et les
connaissances sur ce sujet sont limitées. Il est également notoire que les types d’activité
physique sont rarement pris en considération.
Objectif : Ce mémoire a pour but (a) de déterminer les trajectoires de pratique d’activité
physique au cours du développement des enfants (b) de valider l’association entre
l’activité physique supervisée et l’activité non supervisée et (c) d’identifier les
déterminants au niveau du quartier, de la famille et des caractéristiques individuelles
associés aux trajectoires de pratique d’activité physique supervisée et non supervisée.
Participants : 1 814 enfants (51% garçons) nés en 1998 ayant participé à l’Étude
Longitudinale du Développement des Enfants du Québec (ELDEQ). Les données
récoltées proviennent uniquement de leur mère.
Mesures : La fréquence de l’activité physique supervisée et non supervisée a été
mesurée à quatre reprises alors que les enfants étaient âgés entre 5 et 8 ans. Les
déterminants ainsi que les variables contrôles ont été mesurés alors que les enfants
avaient 4 ou 5 ans.
Résultats : Trois trajectoires d’activité physique supervisée et non supervisée ont été
identifiées. Les résultats suggèrent que les trajectoires d’activité physique supervisée,
représentant respectivement 10%, 55.3% et 34.7% de la population, sont relativement
stables même si elles subissent une légère augmentation avec le temps. Des trois
trajectoires d’activité physique non supervisée représentant respectivement 14.1%,
28.1% et 57.8% de la population, une augmente considérablement avec le temps alors
iv
que les deux autres sont stables. Ces deux séries de trajectoires ne sont pas associées
significativement entre elles. L’éducation de la mère, l’entraide dans le quartier de
résidence ainsi que la prosocialité des enfants déterminent les deux types d’activité
physique. La suffisance de revenu et la pratique sportive de la mère sont associées
seulement aux trajectoires d’activité physique supervisée. La famille intacte discrimine
l’appartenance aux trajectoires d’activité physique non supervisée.
Conclusion : Premièrement, la pratique de l’activité physique est relativement stable
entre 5 et 8 ans. Deuxièmement, l’activité physique supervisée ainsi que l’activité
physique non supervisée sont deux pratiques qui se développent différemment et qui
possèdent leurs propres déterminants. Troisièmement, une approche écologique permet
de mieux saisir la complexité de ces deux processus. / Context : Physical activity is a central component of a child physical, psychological and
social development, most importantly in a society where sedentary behaviors and
obesity become a more significant problematic. Few studies have investigated the
developmental trajectories and predictors of physical activity over time. Furthermore,
even fewer studies have investigated supervised and non-supervised physical activity
separately.
Objectives : The present study has for main goals (a) to identify developmental
trajectories of supervised and non-supervised physical activity in elementary school
children (b) to assess the link between these two types of physical activity (c) to identify
neighborhood, family and individual predictors of these two types of physical activity.
Participants: 1 814 children (51% boys) born in 1998 who participated in the Quebec
Longitudinal Study of Child Development (QLSCD). Data were mainly collected
through mothers’ report.
Measures : The frequency of physical activity was measured at four time points when
children were aged between 5 and 8 years old. Predictors and control variables were
assessed when children were 4 or 5 years old.
Results : Three trajectories of supervised and non-supervised activities have been
identified. Trajectories of supervised physical activity (10%, 55.3% et 34.7%) are
relatively stable although they are slightly increasing over time. Trajectories of nonsupervised
physical activity (14.1%, 28.1% et 57.8%) are relatively stable although one
group (28.1%) is increasing considerably. Supervised and non-supervised physical
activity trajectories are not related to each other. Mother’s education, neighborhood
safety and child’s prosociality are related to high frequency of both physical activities.
Sufficient revenue and mother’s involvement in sport is related to frequent supervised
vi
physical activity trajectories as intact family predict less frequent non-supervised
physical activity trajectories.
Conclusion : First, involvement in supervised and non-supervised physical activity is
relatively stable between 5 and 8 years old. Second, supervised and non-supervised
physical activity appear to be two different processes that have their own set of
predictors. Third, an ecological and multidimensional approach is required to capture
the complexity of these two processes.
|
15 |
Aide au diagnostic de cancers cutanés et de la leucémie lymphoïde chronique par microspectroscopies vibrationnelles couplées à des analyses numériques multivariées / Vibrational spectroscopies coupled with numerical multivariate analyzes as an aid to diagnose skin cancers and chronic lymphocytic leukemiaHappillon, Teddy 12 December 2013 (has links)
La spectroscopie vibrationnelle est une technologie permettant de générer une grande quantité de données très informatives quant à la composition moléculaire des échantillons analysés. Lorsqu'elle est couplée à des méthodes chimiométriques de traitement et de classification de données, elle devient un outil très performant pour l'identification de structures et sous-structures des échantillons. Appliqué dans le domaine du biomédical, cet outil présente alors un fort potentiel pour le diagnostic de maladie. C'est dans ce cadre qu'ont été réalisés les travaux de ce manuscrit. Dans une première étude relevant du développement algorithmique, un algorithme automatique de classification non supervisée (basé sur les Fuzzy C-Means) et récemment implémenté au sein du laboratoire pour apporter une aide au diagnostic de cancers cutanés par imagerie infrarouge, a été amélioré afin de i) considérablement réduire le temps nécessaire à son exécution ii) augmenter la qualité des résultats obtenus sur les données infrarouge et iii) étendre son champs d'application à des données réelles et simulées, habituellement employées dans la littérature. Cet outil a été testé sur des données infrarouge acquises sur 16 échantillons de cancers cutanés (BCC, SCC, maladie de Bowen et mélanomes), et sur 49 jeux de données réels et simulés. Les résultats obtenus ont montré la capacité de ce nouvel algorithme à estimer des partitions proches de la réalité quelque soit le type de données étudié. La seconde étude de ce manuscrit avait pour but de mettre au point un outil chimiométrique autonome d'aide au diagnostic de la leucémie lymphoïde chronique par spectroscopie Raman. Dans ce travail, des traitements numériques et l'algorithme de classification supervisée Support Vector Machines, ont été appliqués à des données acquises sur des cellules sanguine de 27 témoins et 49 patients présentant une leucémie lymphoïde chronique. Les résultats de classification obtenus ont montré une sensibilité de 80% et une spécificité de 100% dans la détection de la maladie. / Vibrational spectroscopy is a technology able to record a large amount of molecular information from studied samples. Coupled with chemometrics and classification methods, vibrational spectroscopy is an efficient tool to identify sample structures and substructures. When applied to the biomedical field, this tool shows a high potential for disease diagnosis. It is in this context that the works presented in this thesis have been realized. In a first study, dealing with algorithmic development, an automatic and unsupervised classification algorithm (based on the Fuzzy C-Means) and developed by our laboratory in order to help for skin cancer diagnosis using IR spectroscopy, was improved in order to i) reduce the computational time needed to realize clustering, ii) increase results quality obtained on infrared data, iii) and extend its application fields to simulated and real datasets, commonly used in the literature. This tool has been tested on 16 infrared spectral images of skin cancers (BCC, SCC, Bowen's disease and melanoma), and 49 real and simulated datasets. The obtained results showed the ability of this new algorithm to estimate realistic data partitions regardless the considered dataset. The second study of this work aimed at developing an independent chemometric tool to assist for chronic lymphocytic leukemia diagnosis by Raman spectroscopy. In this second work, different numerical preprocessing steps and a supervised classification algorithm, Support Vector Machines, have been applied on data recorded on blood cells coming from 27 healthy persons and 49 patients with chronic lymphocytic leukemia. The classification results showed a sensitivity of 80% and a specificity of 100% in the disease diagnosis.
|
16 |
Segmentation et reconaissance des gestes pour l'interaction homme-robot cognitive / Gesture Segmentation and Recognition for Cognitive Human-Robot InteractionSimao, Miguel 17 December 2018 (has links)
Cette thèse présente un cadre formel pour l'interaction Homme-robot (HRI), qui reconnaître un important lexique de gestes statiques et dynamiques mesurés par des capteurs portatifs. Gestes statiques et dynamiques sont classés séparément grâce à un processus de segmentation. Les tests expérimentaux sur la base de données de gestes UC2017 ont montré une haute précision de classification. La classification pas à pas en ligne utilisant des données brutes est fait avec des réseaux de neurones profonds « Long-Short Term Memory » (LSTM) et à convolution (CNN), et sont plus performants que les modèles statiques entraînés avec des caractéristiques spécialement conçues, au détriment du temps d'entraînement et d'inférence. La classification en ligne des gestes permet une classification prédictive avec réussit. Le rejet des gestes hors vocabulaire est proposé par apprentissage semi-supervisé par un réseau de neurones du type « Auxiliary Conditional Generative Adversarial Networks ». Le réseau propose a atteint une haute précision de rejet de les gestes non entraînés de la base de données UC2018 DualMyo. / This thesis presents a human-robot interaction (HRI) framework to classify large vocabularies of static and dynamic hand gestures, captured with wearable sensors. Static and dynamic gestures are classified separately thanks to the segmentation process. Experimental tests on the UC2017 hand gesture dataset showed high accuracy. In online frame-by-frame classification using raw incomplete data, Long Short-Term Memory (LSTM) deep networks and Convolutional Neural Networks (CNN) performed better than static models with specially crafted features at the cost of training and inference time. Online classification of dynamic gestures allows successful predictive classification. The rejection of out-of-vocabulary gestures is proposed to be done through semi-supervised learning of a network in the Auxiliary Conditional Generative Adversarial Networks framework. The proposed network achieved a high accuracy on the rejection of untrained patterns of the UC2018 DualMyo dataset.
|
17 |
Les multiples trajectoires d’activité physique supervisée et non supervisée chez les enfants du primaire au Québec : un modèle écologiqueOlivier, Charles-Étienne 12 1900 (has links)
Contexte : L’activité physique est une composante centrale du développement physique,
psychologique et social de l'enfant, particulièrement au sein d'une société où l'impact de
la sédentarité et de l'obésité devient de plus en plus important. Cependant, les
trajectoires d’activité physique hors école et leurs déterminants sont peu étudiés et les
connaissances sur ce sujet sont limitées. Il est également notoire que les types d’activité
physique sont rarement pris en considération.
Objectif : Ce mémoire a pour but (a) de déterminer les trajectoires de pratique d’activité
physique au cours du développement des enfants (b) de valider l’association entre
l’activité physique supervisée et l’activité non supervisée et (c) d’identifier les
déterminants au niveau du quartier, de la famille et des caractéristiques individuelles
associés aux trajectoires de pratique d’activité physique supervisée et non supervisée.
Participants : 1 814 enfants (51% garçons) nés en 1998 ayant participé à l’Étude
Longitudinale du Développement des Enfants du Québec (ELDEQ). Les données
récoltées proviennent uniquement de leur mère.
Mesures : La fréquence de l’activité physique supervisée et non supervisée a été
mesurée à quatre reprises alors que les enfants étaient âgés entre 5 et 8 ans. Les
déterminants ainsi que les variables contrôles ont été mesurés alors que les enfants
avaient 4 ou 5 ans.
Résultats : Trois trajectoires d’activité physique supervisée et non supervisée ont été
identifiées. Les résultats suggèrent que les trajectoires d’activité physique supervisée,
représentant respectivement 10%, 55.3% et 34.7% de la population, sont relativement
stables même si elles subissent une légère augmentation avec le temps. Des trois
trajectoires d’activité physique non supervisée représentant respectivement 14.1%,
28.1% et 57.8% de la population, une augmente considérablement avec le temps alors
iv
que les deux autres sont stables. Ces deux séries de trajectoires ne sont pas associées
significativement entre elles. L’éducation de la mère, l’entraide dans le quartier de
résidence ainsi que la prosocialité des enfants déterminent les deux types d’activité
physique. La suffisance de revenu et la pratique sportive de la mère sont associées
seulement aux trajectoires d’activité physique supervisée. La famille intacte discrimine
l’appartenance aux trajectoires d’activité physique non supervisée.
Conclusion : Premièrement, la pratique de l’activité physique est relativement stable
entre 5 et 8 ans. Deuxièmement, l’activité physique supervisée ainsi que l’activité
physique non supervisée sont deux pratiques qui se développent différemment et qui
possèdent leurs propres déterminants. Troisièmement, une approche écologique permet
de mieux saisir la complexité de ces deux processus. / Context : Physical activity is a central component of a child physical, psychological and
social development, most importantly in a society where sedentary behaviors and
obesity become a more significant problematic. Few studies have investigated the
developmental trajectories and predictors of physical activity over time. Furthermore,
even fewer studies have investigated supervised and non-supervised physical activity
separately.
Objectives : The present study has for main goals (a) to identify developmental
trajectories of supervised and non-supervised physical activity in elementary school
children (b) to assess the link between these two types of physical activity (c) to identify
neighborhood, family and individual predictors of these two types of physical activity.
Participants: 1 814 children (51% boys) born in 1998 who participated in the Quebec
Longitudinal Study of Child Development (QLSCD). Data were mainly collected
through mothers’ report.
Measures : The frequency of physical activity was measured at four time points when
children were aged between 5 and 8 years old. Predictors and control variables were
assessed when children were 4 or 5 years old.
Results : Three trajectories of supervised and non-supervised activities have been
identified. Trajectories of supervised physical activity (10%, 55.3% et 34.7%) are
relatively stable although they are slightly increasing over time. Trajectories of nonsupervised
physical activity (14.1%, 28.1% et 57.8%) are relatively stable although one
group (28.1%) is increasing considerably. Supervised and non-supervised physical
activity trajectories are not related to each other. Mother’s education, neighborhood
safety and child’s prosociality are related to high frequency of both physical activities.
Sufficient revenue and mother’s involvement in sport is related to frequent supervised
vi
physical activity trajectories as intact family predict less frequent non-supervised
physical activity trajectories.
Conclusion : First, involvement in supervised and non-supervised physical activity is
relatively stable between 5 and 8 years old. Second, supervised and non-supervised
physical activity appear to be two different processes that have their own set of
predictors. Third, an ecological and multidimensional approach is required to capture
the complexity of these two processes.
|
18 |
Plug-in methods in classification / Méthodes de type plug-in en classificationChzhen, Evgenii 25 September 2019 (has links)
Ce manuscrit étudie plusieurs problèmes de classification sous contraintes. Dans ce cadre de classification, notre objectif est de construire un algorithme qui a des performances aussi bonnes que la meilleure règle de classification ayant une propriété souhaitée. Fait intéressant, les méthodes de classification de type plug-in sont bien appropriées à cet effet. De plus, il est montré que, dans plusieurs configurations, ces règles de classification peuvent exploiter des données non étiquetées, c'est-à-dire qu'elles sont construites de manière semi-supervisée. Le Chapitre 1 décrit deux cas particuliers de la classification binaire - la classification où la mesure de performance est reliée au F-score, et la classification équitable. A ces deux problèmes, des procédures semi-supervisées sont proposées. En particulier, dans le cas du F-score, il s'avère que cette méthode est optimale au sens minimax sur une classe usuelle de distributions non-paramétriques. Aussi, dans le cas de la classification équitable, la méthode proposée est consistante en terme de risque de classification, tout en satisfaisant asymptotiquement la contrainte d’égalité des chances. De plus, la procédure proposée dans ce cadre d'étude surpasse en pratique les algorithmes de pointe. Le Chapitre 3 décrit le cadre de la classification multi-classes par le biais d'ensembles de confiance. Là encore, une procédure semi-supervisée est proposée et son optimalité presque minimax est établie. Il est en outre établi qu'aucun algorithme supervisé ne peut atteindre une vitesse de convergence dite rapide. Le Chapitre 4 décrit un cas de classification multi-labels dans lequel on cherche à minimiser le taux de faux-négatifs sous réserve de contraintes de type presque sûres sur les règles de classification. Dans cette partie, deux contraintes spécifiques sont prises en compte: les classifieurs parcimonieux et ceux soumis à un contrôle des erreurs négatives à tort. Pour les premiers, un algorithme supervisé est fourni et il est montré que cet algorithme peut atteindre une vitesse de convergence rapide. Enfin, pour la seconde famille, il est montré que des hypothèses supplémentaires sont nécessaires pour obtenir des garanties théoriques sur le risque de classification / This manuscript studies several problems of constrained classification. In this frameworks of classification our goal is to construct an algorithm which performs as good as the best classifier that obeys some desired property. Plug-in type classifiers are well suited to achieve this goal. Interestingly, it is shown that in several setups these classifiers can leverage unlabeled data, that is, they are constructed in a semi-supervised manner.Chapter 2 describes two particular settings of binary classification -- classification with F-score and classification of equal opportunity. For both problems semi-supervised procedures are proposed and their theoretical properties are established. In the case of the F-score, the proposed procedure is shown to be optimal in minimax sense over a standard non-parametric class of distributions. In the case of the classification of equal opportunity the proposed algorithm is shown to be consistent in terms of the misclassification risk and its asymptotic fairness is established. Moreover, for this problem, the proposed procedure outperforms state-of-the-art algorithms in the field.Chapter 3 describes the setup of confidence set multi-class classification. Again, a semi-supervised procedure is proposed and its nearly minimax optimality is established. It is additionally shown that no supervised algorithm can achieve a so-called fast rate of convergence. In contrast, the proposed semi-supervised procedure can achieve fast rates provided that the size of the unlabeled data is sufficiently large.Chapter 4 describes a setup of multi-label classification where one aims at minimizing false negative error subject to almost sure type constraints. In this part two specific constraints are considered -- sparse predictions and predictions with the control over false negative errors. For the former, a supervised algorithm is provided and it is shown that this algorithm can achieve fast rates of convergence. For the later, it is shown that extra assumptions are necessary in order to obtain theoretical guarantees in this case
|
19 |
Techniques d'identification d'entités nommées et de classification non-supervisée pour des requêtes de recherche web à l'aide d'informations contenues dans les pages web visitéesGoulet, Sylvain January 2014 (has links)
Le web est maintenant devenu une importante source d’information et de divertissement pour un grand nombre de personnes et les techniques pour accéder au contenu désiré ne cessent d’évoluer. Par exemple, en plus de la liste de pages web habituelle, certains moteurs de recherche présentent maintenant directement, lorsque possible, l’information recherchée par l’usager. Dans ce contexte, l’étude des requêtes soumises à ce type de moteur de recherche devient un outil pouvant aider à perfectionner ce genre de système et ainsi améliorer l’expérience d’utilisation de ses usagers. Dans cette optique, le présent document présentera certaines techniques qui ont été développées pour faire l’étude des requêtes de recherche web soumises à un moteur de recherche. En particulier, le travail présenté ici s’intéresse à deux problèmes distincts. Le premier porte sur la classification non-supervisée d’un ensemble de requêtes de recherche web dans le but de parvenir à regrouper ensemble les requêtes traitant d’un même sujet. Le deuxième problème porte quant à lui sur la détection non-supervisée des entités nommées contenues dans un ensemble de requêtes qui ont été soumises à un moteur de recherche. Les deux techniques proposées utilisent l’information supplémentaire apportée par la connaissance des pages web qui ont été visitées par les utilisateurs ayant émis les requêtes étudiées.
|
20 |
Contributions à l'étude de la classification spectrale et applicationsMouysset, Sandrine 07 December 2010 (has links) (PDF)
La classification spectrale consiste à créer, à partir des éléments spectraux d'une matrice d'affinité gaussienne, un espace de dimension réduite dans lequel les données sont regroupées en classes. Cette méthode non supervisée est principalement basée sur la mesure d'affinité gaussienne, son paramètre et ses éléments spectraux. Cependant, les questions sur la séparabilité des classes dans l'espace de projection spectral et sur le choix du paramètre restent ouvertes. Dans un premier temps, le rôle du paramètre de l'affinité gaussienne sera étudié à travers des mesures de qualités et deux heuristiques pour le choix de ce paramètre seront proposées puis testées. Ensuite, le fonctionnement même de la méthode est étudié à travers les éléments spectraux de la matrice d'affinité gaussienne. En interprétant cette matrice comme la discrétisation du noyau de la chaleur définie sur l'espace entier et en utilisant les éléments finis, les vecteurs propres de la matrice affinité sont la représentation asymptotique de fonctions dont le support est inclus dans une seule composante connexe. Ces résultats permettent de définir des propriétés de classification et des conditions sur le paramètre gaussien. A partir de ces éléments théoriques, deux stratégies de parallélisation par décomposition en sous-domaines sont formulées et testées sur des exemples géométriques et de traitement d'images. Enfin dans le cadre non supervisé, le classification spectrale est appliquée, d'une part, dans le domaine de la génomique pour déterminer différents profils d'expression de gènes d'une légumineuse et, d'autre part dans le domaine de l'imagerie fonctionnelle TEP, pour segmenter des régions du cerveau présentant les mêmes courbes d'activités temporelles.
|
Page generated in 0.0916 seconds