Global ETD Search

1	Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain / Classification and active learning from evolving data streams in the presence of incertain labeling Bouguelia, Mohamed-Rafik 25 March 2015 (has links) Cette thèse traite de l’apprentissage automatique pour la classification de données. Afin de réduire le coût de l’étiquetage, l’apprentissage actif permet de formuler des requêtes pour demander à un opérateur d’étiqueter seulement quelques données choisies selon un critère d’importance. Nous proposons une nouvelle mesure d’incertitude qui permet de caractériser l’importance des données et qui améliore les performances de l’apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d’incertitude adaptatif qui convient pour un apprentissage actif à partir d’un flux de données et qui réalise un compromis entre le nombre d’erreurs de classification et le nombre d’étiquettes de classes demandées. Les méthodes existantes d’apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d’obtenir un étiquetage totalement fiable car l’opérateur humain est sujet à des erreurs d’étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l’introduction d’une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d’"informativité" permettant d’exprimer la nécessité pour une donnée mal étiquetée d’être réétiquetée par un opérateur alternatif / This thesis focuses on machine learning for data classification. To reduce the labelling cost, active learning allows to query the class label of only some important instances from a human labeller.We propose a new uncertainty measure that characterizes the importance of data and improves the performance of active learning compared to the existing uncertainty measures. This measure determines the smallest instance weight to associate with new data, so that the classifier changes its prediction concerning this data. We then consider a setting where the data arrives continuously from an infinite length stream. We propose an adaptive uncertainty threshold that is suitable for active learning in the streaming setting and achieves a compromise between the number of classification errors and the number of required labels. The existing stream-based active learning methods are initialized with some labelled instances that cover all possible classes. However, in many applications, the evolving nature of the stream implies that new classes can appear at any time. We propose an effective method of active detection of novel classes in a multi-class data stream. This method incrementally maintains a feature space area which is covered by the known classes, and detects those instances that are self-similar and external to that area as novel classes. Finally, it is often difficult to get a completely reliable labelling because the human labeller is subject to labelling errors that reduce the performance of the learned classifier. This problem was solved by introducing a measure that reflects the degree of disagreement between the manually given class and the predicted class, and a new informativeness measure that expresses the necessity for a mislabelled instance to be re-labeled by an alternative labeller Classification Apprentissage actif Flux de données Détection de nouveautés Erreurs d’étiquetage Classification Active learning Data stream Novelty detection Label noise 006.331
2	Comparative genomics of transposable element evolution and their evolutionary impacts in fish and other vertebrate genomes / Génomique comparative de l'évolution et de l'impact évolutif des éléments transposables chez les poissons et autres vertébrés Chalopin, Domitille 23 May 2014 (has links) Les éléments transposables (ETs) sont des éléments génétiques mobiles capables de se déplacer et de se multiplier au sein d’un génome. Identifiés dans la plupart des espèces vivantes incluant les bactéries, mais longtemps considérés comme de l’ADN poubelle, aujourd’hui les ETs sont indéniablement des acteurs majeurs impliqués dans l’évolution des gènes, des génomes et des organismes. Si à l’échelle des individus les ETs peuvent avoir des effets délétères pouvant entrainer des maladies, à plus grande échelle ils sont de puissants agents évolutifs impliqués dans la plasticité génomique. Ces « parasites » peuvent également être sources de nouveaux matériels génétiques comme des promoteurs ou même de nouveaux gènes avec de nouvelles fonctions pour l’hôte. Les objectifs majeurs de mon travail de thèse ont été de déterminer les différentes familles d’ETs présentes dans les génomes de poissons, la part que chacune d’entre elles occupe dans ces génomes et enfin de comprendre l’histoire évolutive des familles d’ETs dans les génomes de poissons en comparaison avec les autres génomes de vertébrés. Cette comparaison à grande échelle permettra de comprendre les différentes stratégies évolutives des ETs. D’autre part, j’ai étudié deux gènes de vertébrés, Gin-1 et Gin-2 dérivés d’ETs, dans le but de comprendre leurs origines et évolution au sein des vertébrés ainsi que d’émettre des hypothèses quant à leur fonction moléculaire potentielle encore inconnue. Pour cela, des analyses in silico ont permis de mieux comprendre les origines de ces gènes. Gin-1, présent chez les amniotes, et Gin-2, absent uniquement des mammifères placentaires, dérivent tous deux de transposons GIN. / Transposable elements (TEs) are mobile genetic elements - able to move and to multiply within genomes - identified in almost all living organisms including bacteria. Considered as junk DNA for long, nowadays they are undeniably major players of gene, genome and host evolution. TEs can be deleterious causing diseases but these “parasites” can also be source of new genetic materials as promoters or even new genes bringing new functions for hosts. The objectives of my thesis was to determine the presence or not of the different TE families in vertebrate genomes, as well as their respective content to understand their evolutionary history. I performed a large-Scale comparative analysis to highlight the various evolutionary strategies of TEs. I showed that TE content is highly variable in vertebrate genomes, the smallest and the largest being found in fish, and may contribute to their genome sizes especially in fish. These superfamilies underwent differential waves of activity in vertebrate species highlighting TE dynamics. On another hand, I focused on the study of a vertebrate-Specific TE-Derived gene, named Gin-2, to understand its origin, evolution, and its potential function in vertebrates. In silico analyses showed that Gin-2 is a very ancient gene (500 My, only absent from placentals) derived from GIN transposons. Further analyses present a particular expression in brain and gonads during adulthood, while a strong expression during gastrulation suggests a potential role of Gin-2 in zebrafish development. All together, the different analyses contribute to a better view of TE evolution and their evolutionary impacts in vertebrate genomes. Eléments transposables Diversité Contenu Génomes de vertébrés Domestication moléculaire Nouveautés génétiques Transposable elements Diversity Content Vertebrate genomes Molecular domestication Genetic novelties 570 597.015
3	Représentations pour la détection d’anomalies : Application aux données vibratoires des moteurs d’avions / Representations for anomaly detection : Application to aircraft engines’ vibration data Abdel Sayed, Mina 03 July 2018 (has links) Les mesures de vibrations sont l’une des données les plus pertinentes pour détecter des anomalies sur les moteurs. Les vibrations sont acquises sur banc d’essai en phase d’accélération et de décélération pour assurer la fiabilité du moteur à la sortie de la chaine de production. Ces données temporelles sont converties en spectrogrammes pour permettre aux experts d’effectuer une analyse visuelle de ces données et de détecter les différentes signatures atypiques. Les sources vibratoires correspondent à des raies sur les spectrogrammes. Dans cette thèse, nous avons mis en place un outil d’aide à la décision automatique pour analyser les spectrogrammes et détecter tout type de signatures atypiques, ces signatures ne proviennent pas nécessairement d’un endommagement du moteur. En premier lieu, nous avons construit une base de données numérique de spectrogrammes annotés. Il est important de noter que les signatures inusuelles sont variables en forme, intensité et position et se trouvent dans un faible nombre de données. Par conséquent, pour détecter ces signatures, nous caractérisons les comportements normaux des spectrogrammes, de manière analogue aux méthodes de détection de nouveautés, en représentant les patchs des spectrogrammes sur des dictionnaires comme les curvelets et la Non-negative matrix factorization (NMF), ainsi qu’en estimant la distribution de chaque point du spectrogramme à partir de données normales dépendamment ou non de leur voisinage. La détection des points atypiques est réalisée par comparaison des données tests au modèle de normalité estimé sur des données d’apprentissage normales. La détection des points atypiques permet la détection des signatures inusuelles composées par ces points. / Vibration measurements are one of the most relevant data for detecting anomalies in engines. Vibrations are recorded on a test bench during acceleration and deceleration phases to ensure the reliability of every flight engine at the end of the production line. These temporal signals are converted into spectrograms for experts to perform visual analysis of these data and detect any unusual signature. Vibratory signatures correspond to lines on the spectrograms. In this thesis, we have developed a decision support system to automatically analyze these spectrograms and detect any type of unusual signatures, these signatures are not necessarily originated from a damage in the engine. Firstly, we have built a numerical spectrograms database with annotated zones, it is important to note that data containing these unusual signatures are sparse and that these signatures are quite variable in shape, intensity and position. Consequently, to detect them, like in the novelty detection process, we characterize the normal behavior of the spectrograms by representing patches of the spectrograms in dictionaries such as the curvelets and the Non-negative matrix factorization (NMF) and by estimating the distribution of every points of the spectrograms with normal data depending or not of the neighborhood. The detection of the unusual points is performed by comparing test data to the model of normality estimated on learning normal data. The detection of the unusual points allows the detection of the unusual signatures composed by these points. Apprentissage de dictionnaire Curvelets Estimation de densité par noyau Détection de nouveautés Détection d’anomalies Vibrations Dictionary learning Curvelets Kernel density estimation Novelty detection Anomaly detection Vibrations

1

Page generated in 0.0342 seconds