Spelling suggestions: "subject:"classification dde données"" "subject:"classification dee données""
1 |
Classification sur données médicales à l'aide de méthodes d'optimisation et de datamining, appliquée au pré-screening dans les essais cliniques / Classification on medical data using combinatorial optimization and data mining, applicated to patient screening in clinical trialsJacques, Julie 02 December 2013 (has links)
Les données médicales souffrent de problèmes d'uniformisation ou d'incertitude, ce qui les rend difficilement utilisables directement par des logiciels médicaux, en particulier dans le cas du recrutement pour les essais cliniques. Dans cette thèse, nous proposons une approche permettant de palier la mauvaise qualité de ces données à l'aide de méthodes de classification supervisée. Nous nous intéresserons en particulier à 3 caractéristiques de ces données : asymétrie, incertitude et volumétrie. Nous proposons l'algorithme MOCA-I qui aborde ce problème combinatoire de classification partielle sur données asymétriques sous la forme d'un problème de recherche locale multi-objectif. Après avoir confirmé les apports de la modélisation multiobjectif dans ce contexte, nous calibrons MOCA-I et le comparons aux meilleurs algorithmes de classification de la littérature, sur des jeux de données réels et asymétriques de la littérature. Les ensembles de règles obtenus par MOCA-I sont statistiquement plus performants que ceux de la littérature, et 2 à 6 fois plus compacts. Pour les données ne présentant pas d'asymétrie, nous proposons l'algorithme MOCA, statistiquement équivalent à ceux de la littérature. Nous analysons ensuite l'impact de l'asymétrie sur le comportement de MOCA et MOCA-I, de manière théorique et expérimentale. Puis, nous proposons et évaluons différentes méthodes pour traiter les nombreuses solutions Pareto générées par MOCA-I, afin d'assister l'utilisateur dans le choix de la solution finale et réduire le phénomène de sur-apprentissage. Enfin, nous montrons comment le travail réalisé peut s'intégrer dans une solution logicielle. / Medical data suffer from uncertainty and a lack of uniformisation, making them hard to use in medical software, especially for patient screening in clinical trials. In this PhD work, we propose to deal with these problems using supervised classification methods. We will focus on 3 properties of these data : imbalance, uncertainty and volumetry. We propose the MOCA-I algorithm to cope with this partial classification combinatorial problem, that uses a multi-objective local search algorithm. After having confirmed the benefits of multiobjectivization in this context, we calibrate MOCA-I and compare it to the best algorithms of the literature, on both real data sets and imbalanced data sets from literature. MOCA-I generates rule sets that are statistically better than models obtained by the best algorithmes of the literature. Moreover, the models generated by MOCA-I are between 2 to 6 times shorter. Regarding balanced data, we propose the MOCA algorithm, statistically equivalent to best algorithms of literature. Then, we analyze both theoretically and experimentally the behaviors of MOCA and MOCA-I depending on imbalance. In order to help the decision maker to choose a solution and reduce over-fitting, we propose and evaluate different methods to handle all the Pareto solutions generated by MOCA-I. Finally, we show how this work can be integrated into a software application.
|
2 |
Analysis of the migratory potential of cancerous cells by image preprocessing, segmentation and classification / Analyse du potentiel migratoire des cellules cancéreuses par prétraitement et segmentation d'image et classification des donnéesSyed, Tahir Qasim 13 December 2011 (has links)
Ce travail de thèse s’insère dans un projet de recherche plus global dont l’objectif est d’analyser le potentiel migratoire de cellules cancéreuses. Dans le cadre de ce doctorat, on s’intéresse à l’utilisation du traitement des images pour dénombrer et classifier les cellules présentes dans une image acquise via un microscope. Les partenaires biologistes de ce projet étudient l’influence de l’environnement sur le comportement migratoire de cellules cancéreuses à partir de cultures cellulaires pratiquées sur différentes lignées de cellules cancéreuses. Le traitement d’images biologiques a déjà donné lieu `a un nombre important de publications mais, dans le cas abordé ici et dans la mesure où le protocole d’acquisition des images acquises n'était pas figé, le défi a été de proposer une chaîne de traitements adaptatifs ne contraignant pas les biologistes dans leurs travaux de recherche. Quatre étapes sont détaillées dans ce mémoire. La première porte sur la définition des prétraitements permettant d’homogénéiser les conditions d’acquisition. Le choix d’exploiter l’image des écarts-type plutôt que la luminosité est un des résultats issus de cette première partie. La deuxième étape consiste à compter le nombre de cellules présentent dans l’image. Un filtre original, nommé filtre «halo», permettant de renforcer le centre des cellules afin d’en faciliter leur comptage, a été proposé. Une étape de validation statistique de ces centres permet de fiabiliser le résultat obtenu. L’étape de segmentation des images, sans conteste la plus difficile, constitue la troisième partie de ce travail. Il s’agit ici d’extraire des «vignettes», contenant une seule cellule. Le choix de l’algorithme de segmentation a été celui de la «Ligne de Partage des Eaux», mais il a fallu adapter cet algorithme au contexte des images faisant l’objet de cette étude. La proposition d’utiliser une carte de probabilités comme données d’entrée a permis d’obtenir une segmentation au plus près des bords des cellules. Par contre cette méthode entraine une sur-segmentation qu’il faut réduire afin de tendre vers l’objectif : «une région = une cellule». Pour cela un algorithme utilisant un concept de hiérarchie cumulative basée morphologie mathématique a été développée. Il permet d’agréger des régions voisines en travaillant sur une représentation arborescente de ces régions et de leur niveau associé. La comparaison des résultats obtenus par cette méthode à ceux proposés par d’autres approches permettant de limiter la sur-segmentation a permis de prouver l’efficacité de l’approche proposée. L’étape ultime de ce travail consiste dans la classification des cellules. Trois classes ont été définies : cellules allongées (migration mésenchymateuse), cellules rondes «blebbantes» (migration amiboïde) et cellules rondes «lisses» (stade intermédiaire du mode de migration). Sur chaque vignette obtenue à la fin de l’étape de segmentation, des caractéristiques de luminosité, morphologiques et texturales ont été calculées. Une première analyse de ces caractéristiques a permis d’élaborer une stratégie de classification, à savoir séparer dans un premier temps les cellules rondes des cellules allongées, puis séparer les cellules rondes «lisses» des «blebbantes». Pour cela on divise les paramètres en deux jeux qui vont être utilisés successivement dans ces deux étapes de classification. Plusieurs algorithmes de classification ont été testés pour retenir, au final, l’utilisation de deux réseaux de neurones permettant d’obtenir plus de 80% de bonne classification entre cellules longues et cellules rondes, et près de 90% de bonne classification entre cellules rondes «lisses» et «blebbantes». / This thesis is part of a broader research project which aims to analyze the potential migration of cancer cells. As part of this doctorate, we are interested in the use of image processing to count and classify cells present in an image acquired usinga microscope. The partner biologists of this project study the influence of the environment on the migratory behavior of cancer cells from cell cultures grown on different cancer cell lines. The processing of biological images has so far resulted in a significant number of publications, but in the case discussed here, since the protocol for the acquisition of images acquired was not fixed, the challenge was to propose a chain of adaptive processing that does not constrain the biologists in their research. Four steps are detailed in this paper. The first concerns the definition of pre-processing steps to homogenize the conditions of acquisition. The choice to use the image of standard deviations rather than the brightness is one of the results of this first part. The second step is to count the number of cells present in the image. An original filter, the so-called “halo” filter, that reinforces the centre of the cells in order to facilitate counting, has been proposed. A statistical validation step of the centres affords more reliability to the result. The stage of image segmentation, undoubtedly the most difficult, constitutes the third part of this work. This is a matter of extracting images each containing a single cell. The choice of segmentation algorithm was that of the “watershed”, but it was necessary to adapt this algorithm to the context of images included in this study. The proposal to use a map of probabilities as input yielded a segmentation closer to the edges of cells. As against this method leads to an over-segmentation must be reduced in order to move towards the goal: “one region = one cell”. For this algorithm the concept of using a cumulative hierarchy based on mathematical morphology has been developed. It allows the aggregation of adjacent regions by working on a tree representation ofthese regions and their associated level. A comparison of the results obtained by this method with those proposed by other approaches to limit over-segmentation has allowed us to prove the effectiveness of the proposed approach. The final step of this work consists in the classification of cells. Three classes were identified: spread cells (mesenchymal migration), “blebbing” round cells (amoeboid migration) and “smooth” round cells (intermediate stage of the migration modes). On each imagette obtained at the end of the segmentation step, intensity, morphological and textural features were calculated. An initial analysis of these features has allowed us to develop a classification strategy, namely to first separate the round cells from spread cells, and then separate the “smooth” and “blebbing” round cells. For this we divide the parameters into two sets that will be used successively in Two the stages of classification. Several classification algorithms were tested, to retain in the end, the use of two neural networks to obtain over 80% of good classification between long cells and round cells, and nearly 90% of good Classification between “smooth” and “blebbing” round cells.
|
3 |
La programmation DC et DCA pour certaines classes de problèmes en apprentissage et fouille de donées [i.e. données] / DC programming and DCA for some classes of problems in machine learning and data miningNguyen, Manh Cuong 19 May 2014 (has links)
La classification (supervisée, non supervisée et semi-supervisée) est une thématique importante de la fouille de données. Dans cette thèse, nous nous concentrons sur le développement d'approches d'optimisation pour résoudre certains types des problèmes issus de la classification de données. Premièrement, nous avons examiné et développé des algorithmes pour résoudre deux problèmes classiques en apprentissage non supervisée : la maximisation du critère de modularité pour la détection de communautés dans des réseaux complexes et les cartes auto-organisatrices. Deuxièmement, pour l'apprentissage semi-supervisée, nous proposons des algorithmes efficaces pour le problème de sélection de variables en semi-supervisée Machines à vecteurs de support. Finalement, dans la dernière partie de la thèse, nous considérons le problème de sélection de variables en Machines à vecteurs de support multi-classes. Tous ces problèmes d'optimisation sont non convexe de très grande dimension en pratique. Les méthodes que nous proposons sont basées sur les programmations DC (Difference of Convex functions) et DCA (DC Algorithms) étant reconnues comme des outils puissants d'optimisation. Les problèmes évoqués ont été reformulés comme des problèmes DC, afin de les résoudre par DCA. En outre, compte tenu de la structure des problèmes considérés, nous proposons différentes décompositions DC ainsi que différentes stratégies d'initialisation pour résoudre un même problème. Tous les algorithmes proposés ont été testés sur des jeux de données réelles en biologie, réseaux sociaux et sécurité informatique / Classification (supervised, unsupervised and semi-supervised) is one of important research topics of data mining which has many applications in various fields. In this thesis, we focus on developing optimization approaches for solving some classes of optimization problems in data classification. Firstly, for unsupervised learning, we considered and developed the algorithms for two well-known problems: the modularity maximization for community detection in complex networks and the data visualization problem with Self-Organizing Maps. Secondly, for semi-supervised learning, we investigated the effective algorithms to solve the feature selection problem in semi-supervised Support Vector Machine. Finally, for supervised learning, we are interested in the feature selection problem in multi-class Support Vector Machine. All of these problems are large-scale non-convex optimization problems. Our methods are based on DC Programming and DCA which are well-known as powerful tools in optimization. The considered problems were reformulated as the DC programs and then the DCA was used to obtain the solution. Also, taking into account the structure of considered problems, we can provide appropriate DC decompositions and the relevant choice strategy of initial points for DCA in order to improve its efficiency. All these proposed algorithms have been tested on the real-world datasets including biology, social networks and computer security
|
4 |
Apports bioinformatiques et statistiques à l'identification d'inhibiteurs du récepteur MET / Bioinformatics and statistical contributions to the identification of inhibitors for the MET receptorApostol, Costin 21 December 2010 (has links)
L’effet des polysaccharides sur l’interaction HGF-MET est étudié à l’aide d’un plan d’expérience comportant plusieurs puces à protéines sous différentes conditions d’expérimentation. Le but de l’analyse est la sélection des meilleurs polysaccharides inhibiteurs de l’interaction HGF-MET. D’un point de vue statistique c’est un problème de classification. Le traitement informatique et statistique des biopuces obtenues nécessite la mise en place de la plateforme PASE avec des plug-ins d’analyse statistique pour ce type de données. La principale caractéristique statistique de ces données est le caractère de répétition : l’expérience est répétée sur 5 puces et les polysaccharides, au sein d’une même puce, sont répliqués 3 fois. On n’est donc plus dans le cas classique des données indépendantes globalement, mais de celui d’une indépendance seulement au niveau intersujets et intrasujet. Nous proposons les modèles mixtes pour la normalisation des données et la représentation des sujets par la fonction de répartition empirique. L’utilisation de la statistique de Kolmogorov-Smirnov apparaît naturelle dans ce contexte et nous étudions son comportement dans les algorithmes de classification de type nuées dynamique et hiérarchique. Le choix du nombre de classes ainsi que du nombre de répétitions nécessaires pour une classification robuste sont traités en détail. L’efficacité de cette méthodologie est mesurée sur des simulations et appliquée aux données HGF-MET. Les résultats obtenus ont aidé au choix des meilleurs polysaccharides dans les essais effectués par les biologistes et les chimistes de l’Institut de Biologie de Lille. Certains de ces résultats ont aussi conforté l’intuition des ces chercheurs. Les scripts R implémentant cette méthodologie sont intégrés à la plateforme PASE. L’utilisation de l’analyse des données fonctionnelles sur ce type de données fait partie des perspectives immédiates de ce travail. / The effect of polysaccharides on HGF-MET interaction was studied using an experimental design with several microarrays under different experimental conditions. The purpose of the analysis is the selection of the best polysaccharides, inhibitors of HGF-MET interaction. From a statistical point of view this is a classification problem. Statistical and computer processing of the obtained microarrays requires the implementation of the PASE platform with statistical analysis plug-ins for this type of data. The main feature of these statistical data is the repeated measurements: the experiment was repeated on 5 microarrays and all studied polysaccharides are replicated 3 times on each microarray. We are no longer in the classical case of globally independent data, we only have independence at inter-subjects and intra-subject levels. We propose mixed models for data normalization and representation of subjects by the empirical cumulative distribution function. The use of the Kolmogorov-Smirnov statistic appears natural in this context and we study its behavior in the classification algorithms like hierarchical classification and k-means. The choice of the number of clusters and the number of repetitions needed for a robust classification are discussed in detail. The robustness of this methodology is measured by simulations and applied to HGF-MET data. The results helped the biologists and chemists from the Institute of Biology of Lille to choose the best polysaccharides in tests conducted by them. Some of these results also confirmed the intuition of the researchers. The R scripts implementing this methodology are integrated into the platform PASE. The use of functional data analysis on such data is part of the immediate future work.
|
5 |
Techniques d'anormalité appliquées à la surveillance de santé structuraleCury, Alexandre 16 December 2010 (has links) (PDF)
Le paradigme de la surveillance de santé structurale repose sur l'introduction d'indicateurs fiables et robustes permettant de détecter, localiser, quantifier et prédire un endommagement de manière précoce. En effet, la détection d'une modification structurale susceptible de devenir critique peut éviter l'occurrence de dysfonctionnements majeurs associés à des conséquences sociales, économiques et environnementales très importantes.Ces dernières années, de nombreuses recherches se fait de l'évaluation dynamique un élément de diagnostic. La plupart des méthodes reposent sur une analyse temporelle ou fréquentielle des signaux pour en extraire une information compressée au travers de quelques caractéristiques modales ou d'indicateurs évolués construits sur ces caractéristiques. Ces indicateurs ont montré leur efficacité, mais le problème de leur sensibilité, de la nécessité de disposer d'un état de référence, et de leur fiabilité en terme de la probabilité de détection et de fausses alarmes, reste entier. De plus, le fait d'utiliser des mesures dynamiques (particulièrement si plusieurs voies de mesures sont considérées) mène au stockage de grands volumes de données.Dans ce contexte, il est important d'employer des techniques permettant d'utiliser autant des données brutes que les propriétés modales de manière pratique et pertinente. Pour cela, des représentations adaptées ont été développées pour améliorer la manipulation et le stockage des données. Ces représentations sont connues sous le nom de og données symboliques fg . Elles permettent de caractériser la variabilité et l'incertitude qui entachent chacune des variables. Le développement de nouvelles méthodes d'analyse adéquates pour traiter ces données est le but de l'Analyse de Données Symboliques (ADS).L'objectif de cette thèse est double : le premier consiste à utiliser différentes méthodes couplées à l'ADS pour détecter un endommagement structural. L'idée est d'appliquer des procédures de classification non supervisée (e.g. divisions hiérarchiques, agglomérations hiérarchiques et nuées dynamiques) et supervisée (e.g., arbres de décision Bayésiens, réseaux de neurones et machines à vecteurs supports) afin de discriminer les différents états de santé d'une structure. Dans le cadre de cette thèse, l'ADS est appliquée aux mesures dynamiques acquises emph{in situ} (accélérations) et aux paramètres modaux identifiés. Le deuxième objectif est la compréhension de l'impact des effets environnementaux, notamment de ceux liés à la variation thermique, sur les paramètres modaux. Pour cela, des techniques de régression des données sont proposées.Afin d'évaluer la pertinence des démarches proposées, des études de sensibilité sont menées sur des exemples numériques et des investigations expérimentales. Il est montré que le couplage de l'ADS aux méthodes de classification de données permet de discriminer des états structuraux avec un taux de réussite élevé. Par ailleurs, la démarche proposée permet de vérifier l'importance d'utiliser des techniques permettant de corriger les propriétés modales identifiées des effets thermiques, afin de produire un processus de détection d'endommagements efficace
|
6 |
Techniques d'anormalité appliquées à la surveillance de santé structurale / Novelty detection applied to structural health monitoringCury, Alexandre 16 December 2010 (has links)
Le paradigme de la surveillance de santé structurale repose sur l'introduction d'indicateurs fiables et robustes permettant de détecter, localiser, quantifier et prédire un endommagement de manière précoce. En effet, la détection d'une modification structurale susceptible de devenir critique peut éviter l'occurrence de dysfonctionnements majeurs associés à des conséquences sociales, économiques et environnementales très importantes.Ces dernières années, de nombreuses recherches se fait de l'évaluation dynamique un élément de diagnostic. La plupart des méthodes reposent sur une analyse temporelle ou fréquentielle des signaux pour en extraire une information compressée au travers de quelques caractéristiques modales ou d'indicateurs évolués construits sur ces caractéristiques. Ces indicateurs ont montré leur efficacité, mais le problème de leur sensibilité, de la nécessité de disposer d'un état de référence, et de leur fiabilité en terme de la probabilité de détection et de fausses alarmes, reste entier. De plus, le fait d'utiliser des mesures dynamiques (particulièrement si plusieurs voies de mesures sont considérées) mène au stockage de grands volumes de données.Dans ce contexte, il est important d'employer des techniques permettant d'utiliser autant des données brutes que les propriétés modales de manière pratique et pertinente. Pour cela, des représentations adaptées ont été développées pour améliorer la manipulation et le stockage des données. Ces représentations sont connues sous le nom de og données symboliques fg . Elles permettent de caractériser la variabilité et l'incertitude qui entachent chacune des variables. Le développement de nouvelles méthodes d'analyse adéquates pour traiter ces données est le but de l'Analyse de Données Symboliques (ADS).L'objectif de cette thèse est double : le premier consiste à utiliser différentes méthodes couplées à l'ADS pour détecter un endommagement structural. L'idée est d'appliquer des procédures de classification non supervisée (e.g. divisions hiérarchiques, agglomérations hiérarchiques et nuées dynamiques) et supervisée (e.g., arbres de décision Bayésiens, réseaux de neurones et machines à vecteurs supports) afin de discriminer les différents états de santé d'une structure. Dans le cadre de cette thèse, l'ADS est appliquée aux mesures dynamiques acquises emph{in situ} (accélérations) et aux paramètres modaux identifiés. Le deuxième objectif est la compréhension de l'impact des effets environnementaux, notamment de ceux liés à la variation thermique, sur les paramètres modaux. Pour cela, des techniques de régression des données sont proposées.Afin d'évaluer la pertinence des démarches proposées, des études de sensibilité sont menées sur des exemples numériques et des investigations expérimentales. Il est montré que le couplage de l'ADS aux méthodes de classification de données permet de discriminer des états structuraux avec un taux de réussite élevé. Par ailleurs, la démarche proposée permet de vérifier l'importance d'utiliser des techniques permettant de corriger les propriétés modales identifiées des effets thermiques, afin de produire un processus de détection d'endommagements efficace / The paradigm of structural health monitoring is based on the development of reliable and robust indicators able to detect, locate, quantify and predict damage. Studies related to damage detection in civil engineering structures have a noticeable interest for researchers in this area. Indeed, the detection of structural changes likely to become critical can avoid the occurrence of major dysfunctions associated with social, economic and environmental consequences.Recently, many researches have focused on dynamic assessment as part of structural diagnosis. Most of the studied techniques are based on time or frequency domain analyses to extract compressed information from modal characteristics or based on indicators built from these parameters. These indicators have shown their potentialities, but the problem of their sensitivity, the necessity of a reference state, and their reliability in terms of detection probability and false alarm, still remains. Moreover, the use of raw dynamic measurements (especially if several measurement channels are considered) leads to the storage of large datasets.In this context, it is important to use techniques capable of dealing not only with raw data but also modal parameters in a practical and relevant way. In order to give some insights to this problem, appropriate representations have been developed to improve both manipulation and storage of data. These representations are known as og symbolic data fg. They are used to characterize the variability and uncertainty that exists within each variable. The development of new methods capable of dealing with this type of data is the goal of Symbolic Data Analysis (SDA).This thesis has two main objectives: the first one is to use different methods coupled with the SDA to detect structural damage. The idea is to employ clustering procedures (e.g., hierarchy-divisive, hierarchy-agglomerative and dynamic clouds) and supervised classification methods (e.g., Bayesien decision trees, neural networks and support vector machines) to discriminate different structural states. In this thesis, SDA is applied to dynamic measurements obtained on site (accelerations) and to the identified modal parameters. The second goal is to study the impact of environmental effects, particularly those related to thermal variation over modal parameters. To this end, a couple of regression techniques are proposed.In order to attest the efficiency of the proposed approaches, several sensibility studies considering numerical applications and experimental investigations are carried out. It is shown that SDA coupled with classification methods is able to distinguish structural conditions with adequate rates. Furthermore, it is stressed the importance of using techniques capable of correcting modal parameters from thermal effects in order to build efficient procedures for damage detection
|
7 |
Spectral and textural analysis of high resolution data for the automatic detection of grape vine diseases / Analyses spectrale et texturale de données haute résolution pour la détection automatique des maladies de la vigneAl saddik, Hania 04 July 2019 (has links)
La Flavescence dorée est une maladie contagieuse et incurable de la vigne détectable sur les feuilles. Le projet DAMAV (Détection Automatique des MAladies de la Vigne) a été mis en place, avec pour objectif de développer une solution de détection automatisée des maladies de la vigne à l’aide d’un micro-drone. Cet outil doit permettre la recherche des foyers potentiels de la Flavescence dorée, puis plus généralement de toute maladie détectable sur le feuillage à l’aide d’un outil multispectral dédié haute résolution.Dans le cadre de ce projet, cette thèse a pour objectif de participer à la conception et à l’implémentation du système d’acquisition multispectral et de développer les algorithmes de prétraitement d’images basés sur les caractéristiques spectrales et texturales les plus pertinentes reliées à la Flavescence dorée.Plusieurs variétés de vigne ont été considérées telles que des variétés rouges et blanches; de plus, d’autres maladies que ‘Flavescence dorée’ (FD) telles que Esca et ‘Bois noir’ (BN) ont également été testées dans des conditions de production réelles. Le travail de doctorat a été essentiellement réalisé au niveau feuille et a impliqué une étape d’acquisition suivie d’une étape d’analyse des données.La plupart des techniques d'imagerie, même multispectrales, utilisées pour détecter les maladies dans les grandes cultures ou les vignobles, opèrent dans le domaine du visible. Dans DAMAV, il est conseillé que la maladie soit détectée le plus tôt possible. Des informations spectrales sont nécessaires, notamment dans l’infrarouge. Les réflectances des feuilles des plantes peuvent être obtenues sur les longueurs d'onde les plus courtes aux plus longues. Ces réflectances sont intimement liées aux composants internes des feuilles. Cela signifie que la présence d'une maladie peut modifier la structure interne des feuilles et donc altérer sa signature.Un spectromètre a été utilisé sur le terrain pour caractériser les signatures spectrales des feuilles à différents stades de croissance. Afin de déterminer les réflectances optimales pour la détection des maladies (FD, Esca, BN), une nouvelle méthodologie de conception d'indices de maladies basée sur deux techniques de réduction de dimensions, associées à un classifieur, a été mise en place. La première technique de sélection de variables utilise les Algorithmes Génétiques (GA) et la seconde s'appuie sur l'Algorithme de Projections Successives (SPA). Les nouveaux indices de maladies résultants surpassent les indices de végétation traditionnels et GA était en général meilleur que SPA. Les variables finalement choisies peuvent ainsi être mises en oeuvre en tant que filtres dans le capteur MS.Les informations de réflectance étaient satisfaisantes pour la recherche d’infections (plus que 90% de précision pour la meilleure méthode) mais n’étaient pas suffisantes. Ainsi, les images acquises par l’appareil MS peuvent être ensuite traitées par des techniques bas-niveau basées sur le calcul de paramètres de texture puis injectés dans un classifieur. Plusieurs techniques de traitement de texture ont été testées mais uniquement sur des images couleur. Une nouvelle méthode combinant plusieurs paramètres texturaux a été élaborée pour en choisir les meilleurs. Nous avons constaté que les informations texturales pouvaient constituer un moyen complémentaire non seulement pour différencier les feuilles de vigne saines des feuilles infectées (plus que 85% de précision), mais également pour classer le degré d’infestation des maladies (plus que 74% de précision) et pour distinguer entre les maladies (plus que 75% de précision). Ceci conforte l’hypothèse qu’une caméra multispectrale permet la détection et l’identification de maladies de la vigne en plein champ. / ‘Flavescence dorée’ is a contagious and incurable disease present on the vine leaves. The DAMAV project (Automatic detection of Vine Diseases) aims to develop a solution for automated detection of vine diseases using a micro-drone. The goal is to offer a turnkey solution for wine growers. This tool will allow the search for potential foci, and then more generally any type of detectable vine disease on the foliage. To enable this diagnosis, the foliage is proposed to be studied using a dedicated high-resolution multispectral camera.The objective of this PhD-thesis in the context of DAMAV is to participate in the design and implementation of a Multi-Spectral (MS) image acquisition system and to develop the image pre-processing algorithms, based on the most relevant spectral and textural characteristics related to ‘Flavescence dorée’.Several grapevine varieties were considered such as red-berried and white-berried ones; furthermore, other diseases than ‘Flavescence dorée’ (FD) such as Esca and ‘Bois noir’ (BN) were also tested under real production conditions. The PhD work was basically performed at a leaf-level scale and involved an acquisition step followed by a data analysis step.Most imaging techniques, even MS, used to detect diseases in field crops or vineyards, operate in the visible electromagnetic radiation range. In DAMAV, it is advised to detect the disease as early as possible. It is therefore necessary to investigate broader information in particular in the infra-red. Reflectance responses of plants leaves can be obtained from short to long wavelengths. These reflectance signatures describe the internal constituents of leaves. This means that the presence of a disease can modify the internal structure of the leaves and hence cause an alteration of its reflectance signature.A spectrometer is used in our study to characterize reflectance responses of leaves in the field. Several samples at different growth stages were used for the tests. To define optimal reflectance features for grapevine disease detection (FD, Esca, BN), a new methodology that designs spectral disease indices based on two dimension reduction techniques, coupled with a classifier, has been developed. The first feature selection technique uses the Genetic Algorithms (GA) and the second one relies on the Successive Projection Algorithm (SPA). The new resulting spectral disease indices outperformed traditional vegetation indices and GA performed in general better than SPA. The features finally chosen can thus be implemented as filters in the MS sensor.In general, the reflectance information was satisfying for finding infections (higher than 90% of accuracy for the best method) but wasn’t enough. Thus, the images acquired with the developed MS device can further be pre-processed by low level techniques based on the calculation of texture parameters injected into a classifier. Several texture processing techniques have been tested but only on colored images. A method that combines many texture features is elaborated, allowing to choose the best ones. We found that the combination of optimal textural information could provide a complementary mean for not only differentiating healthy from infected grapevine leaves (higher than 85% of accuracy), but also for grading the disease severity stages (higher than 73% of accuracy) and for discriminating among diseases (higher than 72% of accuracy). This is in accordance with the hypothesis that a multispectral camera can enable detection and identification of diseases in grapevine fields.
|
8 |
Nouvelles méthodes pour l’apprentissage non-supervisé en grandes dimensions. / New methods for large-scale unsupervised learning.Tiomoko ali, Hafiz 24 September 2018 (has links)
Motivée par les récentes avancées dans l'analyse théorique des performances des algorithmes d'apprentissage automatisé, cette thèse s'intéresse à l'analyse de performances et à l'amélioration de la classification nonsupervisée de données et graphes en grande dimension. Spécifiquement, dans la première grande partie de cette thèse, en s'appuyant sur des outils avancés de la théorie des grandes matrices aléatoires, nous analysons les performances de méthodes spectrales sur des modèles de graphes réalistes et denses ainsi que sur des données en grandes dimensions en étudiant notamment les valeurs propres et vecteurs propres des matrices d'affinités de ces données. De nouvelles méthodes améliorées sont proposées sur la base de cette analyse théorique et démontrent à travers de nombreuses simulations que leurs performances sont meilleures comparées aux méthodes de l'état de l'art. Dans la seconde partie de la thèse, nous proposons un nouvel algorithme pour la détection de communautés hétérogènes entre plusieurs couches d'un graphe à plusieurs types d'interaction. Une approche bayésienne variationnelle est utilisée pour approximer la distribution apostériori des variables latentes du modèle. Toutes les méthodes proposées dans cette thèse sont utilisées sur des bases de données synthétiques et sur des données réelles et présentent de meilleures performances en comparaison aux approches standard de classification dans les contextes susmentionnés. / Spurred by recent advances on the theoretical analysis of the performances of the data-driven machine learning algorithms, this thesis tackles the performance analysis and improvement of high dimensional data and graph clustering. Specifically, in the first bigger part of the thesis, using advanced tools from random matrix theory, the performance analysis of spectral methods on dense realistic graph models and on high dimensional kernel random matrices is performed through the study of the eigenvalues and eigenvectors of the similarity matrices characterizing those data. New improved methods are proposed and are shown to outperform state-of-the-art approaches. In a second part, a new algorithm is proposed for the detection of heterogeneous communities from multi-layer graphs using variational Bayes approaches to approximate the posterior distribution of the sought variables. The proposed methods are successfully applied to synthetic benchmarks as well as real-world datasets and are shown to outperform standard approaches to clustering in those specific contexts.
|
9 |
Adaptation d'un nez électronique pour le contrôle de la concentration et de l'humidité d'une atmosphère chargée en huile essentielle destinée à un effet thérapeutique médical / Adaptation of an electronic nose to control concentration and humidity of an essential oil charged atmosphere for medical therapeutic effectSambemana, Herizo 20 June 2012 (has links)
De nombreuses études récentes, basées sur des indicateurs physiologiques ou psychologiques, mettent en évidence les pouvoirs stimulants ou apaisants des odeurs sur des personnes souffrant de déficiences neurosensorielles. Or l'évaluation quantitative (rigoureuse, scientifique) des effets d'une stimulation olfactive à base d'huiles essentielles, nécessite de pouvoir contrôler de manière exacte et automatique la quantité de substances actives présentes dans l'air inhalé par le patient. Ce travail concerne la conception et la réalisation d'un système « diffuseur/détecteur » de gaz capable de générer des doses contrôlées d'huile essentielle dans l'atmosphère conditionnée d'une salle d'expérimentation. La diffusion est basée sur le contrôle de l'air bullant dans l'huile essentielle liquide (pin, lavande, orange douce), dont l'analyse physico-chimique et sensorielle nous a aidés à choisir leur domaine de concentrations. La détection des substances volatilisées est obtenue à l'aide d'un réseau de capteurs à oxydes métalliques commerciaux. L'analyse de signaux de réponse des capteurs aux différentes concentrations de l'huile de pin, après un filtrage numérique adéquat, a révélé une bonne sensibilité croisée des capteurs tant au niveau de la réponse temporelle qu'au niveau de sa courbe dérivée. Ainsi, nous avons pu extraire plusieurs paramètres représentatifs des réponses, habituellement utilisés dans la littérature, et surtout de nouveaux paramètres, caractéristiques de la phase dynamique, pour former la base d'apprentissage. L'analyse à l'aide de méthodes de classification (non supervisée puis supervisée) nous a permis de mettre en évidence la meilleure combinaison de paramètres pour une identification rapide et fiable de concentrations voisines. L'application aux deux autres huiles essentielle a été concluante, nous pouvons envisager de réaliser un prototype pour les essais de validation thérapeutique / Recent clinical studies have demonstrated the stimulating or relaxing effects of odorous stimulation on subjects suffering from neuro-sensoriel deficiencies. These studies concern generally the variation measurement of physiological parameters or psychological indicators in relation with odorous stimuli. To evaluate quantitatively the odorous effects of natural oil stimulations on the subject behavior or his cognitive performance, it is necessary to control automatically and accurately the quantity of the active substances present in the air inhaled by the patient. The aim of this work is to conceive a gas ?diffuser/detector? system to generate fixed concentration of an essential oil in an experimental chamber atmosphere. Diffusion unit is based on the control of the air flow arte bubbling through the liquid oil (pin, lavender, orange), and the range of the employed concentration range is determined after physic-chemical and sensorial analysis. The detection of volatilized substances is obtained using a matrix of commercial metal oxide gas sensors. The study of the sensor responses to different pin oil concentrations showed, after an adequate digital filtering, a good cross sensitivity of the sensors. So, we have extracted from each sensor response, several characteristic parameters, firstly classical ones, and then new ones representing the dynamic phase of the signal response, to create the learning data base. The analysis of these data using pattern recognition methods (non-supervised and then supervised) permitted us to highlight a set of parameters for a reliable and rapid identification of closed diffused oil concentrations. The application of the system with the two other oils was decisive: we can now carry out the realization of a prototype for the therapeutic tests
|
10 |
Reconnaissance d’activités humaines à partir de séquences vidéo / Human activity recognition from video sequencesSelmi, Mouna 12 December 2014 (has links)
Cette thèse s’inscrit dans le contexte de la reconnaissance des activités à partir de séquences vidéo qui est une des préoccupations majeures dans le domaine de la vision par ordinateur. Les domaines d'application pour ces systèmes de vision sont nombreux notamment la vidéo surveillance, la recherche et l'indexation automatique de vidéos ou encore l'assistance aux personnes âgées. Cette tâche reste problématique étant donnée les grandes variations dans la manière de réaliser les activités, l'apparence de la personne et les variations des conditions d'acquisition des activités. L'objectif principal de ce travail de thèse est de proposer une méthode de reconnaissance efficace par rapport aux différents facteurs de variabilité. Les représentations basées sur les points d'intérêt ont montré leur efficacité dans les travaux d'art; elles ont été généralement couplées avec des méthodes de classification globales vue que ses primitives sont temporellement et spatialement désordonnées. Les travaux les plus récents atteignent des performances élevées en modélisant le contexte spatio-temporel des points d'intérêts par exemple certains travaux encodent le voisinage des points d'intérêt à plusieurs échelles. Nous proposons une méthode de reconnaissance des activités qui modélise explicitement l'aspect séquentiel des activités tout en exploitant la robustesse des points d'intérêts dans les conditions réelles. Nous commençons par l'extractivité des points d'intérêt dont a montré leur robustesse par rapport à l'identité de la personne par une étude tensorielle. Ces primitives sont ensuite représentées en tant qu'une séquence de sac de mots (BOW) locaux: la séquence vidéo est segmentée temporellement en utilisant la technique de fenêtre glissante et chacun des segments ainsi obtenu est représenté par BOW des points d'intérêt lui appartenant. Le premier niveau de notre système de classification séquentiel hybride consiste à appliquer les séparateurs à vaste marge (SVM) en tant que classifieur de bas niveau afin de convertir les BOWs locaux en des vecteurs de probabilités des classes d'activité. Les séquences de vecteurs de probabilité ainsi obtenues sot utilisées comme l'entrées de classifieur séquentiel conditionnel champ aléatoire caché (HCRF). Ce dernier permet de classifier d'une manière discriminante les séries temporelles tout en modélisant leurs structures internes via les états cachés. Nous avons évalué notre approche sur des bases publiques ayant des caractéristiques diverses. Les résultats atteints semblent être intéressant par rapport à celles des travaux de l'état de l'art. De plus, nous avons montré que l'utilisation de classifieur de bas niveau permet d'améliorer la performance de système de reconnaissance vue que le classifieur séquentiel HCRF traite directement des informations sémantiques des BOWs locaux, à savoir la probabilité de chacune des activités relativement au segment en question. De plus, les vecteurs de probabilités ont une dimension faible ce qui contribue à éviter le problème de sur apprentissage qui peut intervenir si la dimension de vecteur de caractéristique est plus importante que le nombre des données; ce qui le cas lorsqu'on utilise les BOWs qui sont généralement de dimension élevée. L'estimation les paramètres du HCRF dans un espace de dimension réduite permet aussi de réduire le temps d'entrainement / Human activity recognition (HAR) from video sequences is one of the major active research areas of computer vision. There are numerous application HAR systems, including video-surveillance, search and automatic indexing of videos, and the assistance of frail elderly. This task remains a challenge because of the huge variations in the way of performing activities, in the appearance of the person and in the variation of the acquisition conditions. The main objective of this thesis is to develop an efficient HAR method that is robust to different sources of variability. Approaches based on interest points have shown excellent state-of-the-art performance over the past years. They are generally related to global classification methods as these primitives are temporally and spatially disordered. More recent studies have achieved a high performance by modeling the spatial and temporal context of interest points by encoding, for instance, the neighborhood of the interest points over several scales. In this thesis, we propose a method of activity recognition based on a hybrid model Support Vector Machine - Hidden Conditional Random Field (SVM-HCRF) that models the sequential aspect of activities while exploiting the robustness of interest points in real conditions. We first extract the interest points and show their robustness with respect to the person's identity by a multilinear tensor analysis. These primitives are then represented as a sequence of local "Bags of Words" (BOW): The video is temporally fragmented using the sliding window technique and each of the segments thus obtained is represented by the BOW of interest points belonging to it. The first layer of our hybrid sequential classification system is a Support Vector Machine that converts each local BOW extracted from the video sequence into a vector of activity classes’ probabilities. The sequence of probability vectors thus obtained is used as input of the HCRF. The latter permits a discriminative classification of time series while modeling their internal structures via the hidden states. We have evaluated our approach on various human activity datasets. The results achieved are competitive with those of the current state of art. We have demonstrated, in fact, that the use of a low-level classifier (SVM) improves the performance of the recognition system since the sequential classifier HCRF directly exploits the semantic information from local BOWs, namely the probability of each activity relatively to the current local segment, rather than mere raw information from interest points. Furthermore, the probability vectors have a low-dimension which prevents significantly the risk of overfitting that can occur if the feature vector dimension is relatively high with respect to the training data size; this is precisely the case when using BOWs that generally have a very high dimension. The estimation of the HCRF parameters in a low dimension allows also to significantly reduce the duration of the HCRF training phase
|
Page generated in 0.1615 seconds