• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 13
  • 12
  • 2
  • Tagged with
  • 25
  • 25
  • 10
  • 7
  • 7
  • 6
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Développements et applications d'approches protéomiques pour la recherche de cibles du cancer de l’ovaire et de la prostate / Developments and application of proteomics approaches for ovarian and prostate cancer biomarkers hunting

Bonnel, David 20 October 2010 (has links)
Mon travail de thèse a été consacré à l’optimisation et l’utilisation de techniques en protéomique clinique, et plus particulièrement de l’imagerie MALDI, pour la recherche et l’identification de marqueurs pathologiques. C’est pourquoi nous avons, dans un premier temps, développé et appliqué des outils d'analyse statistique basés sur la PCA et la classification hiérarchique, appelés PCA-SDA. Ceux-ci offraient une combinaison intéressante avec l'imagerie MALDI et permettaient une simplification des données, une recherche fine des variations moléculaires au sein du tissu et une classification sur la base des profils moléculaires obtenus localement sur les tissus. Appliquée ensuite sur des études de biopsies de cancer de l’ovaire, cette approche nous a permis de détecter et d’identifier plusieurs marqueurs potentiels jouant un rôle dans la réponse du système immunitaire, l’adhésion et l’invasion tumorale. Or, ces mécanismes sont connus pour impliquer des protéases, les proprotéines convertases, dans la maturation des différentes protéines impliquées dans le développement tumoral. Dans ce contexte, nous avons étudié leur expression dans le cancer de la prostate. Il s’est avéré que seule PACE4 était surexprimée dans cette pathologie et nous avons pu établir son rôle primordial à la fois dans la prolifération cellulaire à l’aide d’études in vitro, et dans l’évasion apoptotique par approche protéomique, suite à l’identification de TRPS1, un facteur de transcription impliqué dans l’apoptose. Le rôle prépondérant de PACE4 fait de cette enzyme une cible thérapeutique potentielle du cancer. / My PhD’s work has been completely devoted to the optimization and the use of technologies in clinical proteomics, especially MALDI imaging, for research and identification of disease markers. Therefore we have initially developed and applied the tools of statistical analysis based on PCA and hierarchical clustering, called PCA-SDA, which offered an interesting combination with MALDI imaging and allow simplification of data, fine search of molecular changes within the tissue and a classification based on molecular profiles obtained locally on the tissues. Then applied on ovarian cancer biopsies study, this approach allowed us to detect and identify several potential markers playing a role in immune response, adhesion and tumor invasion. However, these mechanisms are known to involve proteases, like proprotein-convertases, in the maturation of various proteins implicated in tumor development. In this context, we studied their expression in prostate cancer. It pointed that only PACE4 was over-expressed in this disease and we were able to establish its role in cell proliferation using in vitro analysis and in apoptotic evasion with the identification of TRPS1, a transcription factor involved in apoptosis, by proteomics approach. So, PACE4 is a potential therapeutic target for cancer due to its leading role in tumor cell capacities.
2

Spatial clustering of linkage disequilibrium blocks for genome-wide association studies / Classification spatiale du déséquilibre de liaison pour les études d'association pangénomique

Dehman, Alia 09 December 2015 (has links)
Avec le développement récent des technologies de génotypage à haut débit, l'utilisation des études d'association pangénomiques (GWAS) est devenue très répandue dans la recherche génétique. Au moyen de criblage de grandes parties du génome, ces études visent à caractériser les facteurs génétiques impliqués dans le développement de maladies génétiques complexes. Les GWAS sont également basées sur l'existence de dépendances statistiques, appelées déséquilibre de liaison (DL), habituellement observées entre des loci qui sont proches dans l'ADN. Le DL est défini comme l'association non aléatoire d'allèles à des loci différents sur le même chromosome ou sur des chromosomes différents dans une population. Cette caractéristique biologique est d'une importance fondamentale dans les études d'association car elle permet la localisation précise des mutations causales en utilisant les marqueurs génétiques adjacents. Néanmoins, la structure de blocs complexe induite par le DL ainsi que le grand volume de données génétiques constituent les principaux enjeux soulevés par les études GWAS. Les contributions présentées dans ce manuscrit comportent un double aspect, à la fois méthodologique et algorithmique. Sur le plan méthodologie, nous proposons une approche en trois étapes qui tire profit de la structure de groupes induite par le DL afin d'identifier des variants communs qui pourraient avoir été manquées par l'analyse simple marqueur. Dans une première étape, nous effectuons une classification hiérarchique des SNPs avec une contrainte d'adjacence et en utilisant le DL comme mesure de similarité. Dans une seconde étape, nous appliquons une approche de sélection de modèle à la hiérarchie obtenue afin de définir des blocs de DL. Enfin, nous appliquons le modèle de régression Group Lasso sur les blocs de DL inférés. L'efficacité de l'approche proposée est comparée à celle des approches de régression standards sur des données simulées, semi-simulées et réelles de GWAS. Sur le plan algorithmique, nous nous concentrons sur l'algorithme de classification hiérarchique avec contrainte spatiale dont la complexité quadratique en temps n'est pas adaptée à la grande dimension des données GWAS. Ainsi, nous présentons, dans ce manuscrit, une mise en œuvre efficace d'un tel algorithme dans le contexte général de n'importe quelle mesure de similarité. En introduisant un paramètre $h$ défini par l'utilisateur et en utilisant la structure de tas-min, nous obtenons une complexité sous-quadratique en temps de l'algorithme de classification hiérarchie avec contrainte d'adjacence, ainsi qu'une complexité linéaire en mémoire en le nombre d'éléments à classer. L'intérêt de ce nouvel algorithme est illustré dans des applications GWAS. / With recent development of high-throughput genotyping technologies, the usage of Genome-Wide Association Studies (GWAS) has become widespread in genetic research. By screening large portions of the genome, these studies aim to characterize genetic factors involved in the development of complex genetic diseases. GWAS are also based on the existence of statistical dependencies, called Linkage Disequilibrium (LD) usually observed between nearby loci on DNA. LD is defined as the non-random association of alleles at different loci on the same chromosome or on different chromosomes in a population. This biological feature is of fundamental importance in association studies as it provides a fine location of unobserved causal mutations using adjacent genetic markers. Nevertheless, the complex block structure induced by LD as well as the large volume of genetic data arekey issues that have arisen with GWA studies. The contributions presented in this manuscript are in twofold, both methodological and algorithmic. On the methodological part, we propose a three-step approach that explicitly takes advantage of the grouping structure induced by LD in order to identify common variants which may have been missed by single marker analyses. In thefirst step, we perform a hierarchical clustering of SNPs with anadjacency constraint using LD as a similarity measure. In the second step, we apply a model selection approach to the obtained hierarchy in order to define LD blocks. Finally, we perform Group Lasso regression on the inferred LD blocks. The efficiency of the proposed approach is investigated compared to state-of-the art regression methods on simulated, semi-simulated and real GWAS data. On the algorithmic part, we focus on the spatially-constrained hierarchical clustering algorithm whose quadratic time complexity is not adapted to the high-dimensionality of GWAS data. We then present, in this manuscript, an efficient implementation of such an algorithm in the general context of anysimilarity measure. By introducing a user-parameter $h$ and using the min-heap structure, we obtain a sub-quadratic time complexity of the adjacency-constrained hierarchical clustering algorithm, as well as a linear space complexity in thenumber of items to be clustered. The interest of this novel algorithm is illustrated in GWAS applications.
3

Statistical learning for omics association and interaction studies based on blockwise feature compression / Apprentissage statistique pour les études d'association et d'interactions entre données omiques fondée sur une approche de compression structurée

Guinot, Florent 04 December 2018 (has links)
Depuis la dernière décennie le développement rapide des technologies de génotypage a profondément modifié la façon dont les gènes impliqués dans les troubles mendéliens et les maladies complexes sont cartographiés, passant d'approches gènes candidats aux études d'associations pan-génomique, ou Genome-Wide Association Studies (GWASs). Ces études visent à identifier, au sein d'échantillons d'individus non apparentés, des marqueurs génétiques impliqués dans l'expression de maladies complexes. Ces études exploitent le fait qu'il est plus facile d'établir, à partir de la population générale, de grandes cohortes de personnes affectées par une maladie et partageant un facteur de risque génétique qu'au sein d'échantillons apparentés issus d'une même famille, comme c'est le cas dans les études familiales traditionnelles.D'un point de vue statistique, l'approche standard est basée sur le test d'hypothèse: dans un échantillon d'individus non apparentés, des individus malades sont testés contre des individus sains à un ou plusieurs marqueurs. Cependant, à cause de la grande dimension des données, ces procédures de tests classiques sont souvent sujettes à des faux positifs, à savoir des marqueurs faussement identifiés comme étant significatifs. Une solution consiste à appliquer une correction sur les p-valeurs obtenues afin de diminuer le seuil de significativité, augmentant en contrepartie le risque de manquer des associations n’ayant qu'un faible effet sur le phénotype.De plus, bien que cette approche ait réussi à identifier des marqueurs génétiques associés à des maladies multi-factorielles complexes (maladie de Crohn, diabète I et II, maladie coronarienne,…), seule une faible proportion des variations phénotypiques attendues des études familiales classiques a été expliquée. Cette héritabilité manquante peut avoir de multiples causes parmi les suivantes: fortes corrélations entre les variables génétiques, structure de la population, épistasie (interactions entre gènes), maladie associée aux variants rares,...Les principaux objectifs de cette thèse sont de développer de nouvelles méthodes statistiques pouvant répondre à certaines des limitations mentionnées ci-dessus. Plus précisément, nous avons développé deux nouvelles approches: la première exploite la structure de corrélation entre les marqueurs génétiques afin d'améliorer la puissance de détection dans le cadre des tests d'hypothèses tandis que la seconde est adaptée à la détection d'interactions statistiques entre groupes de marqueurs méta-génomiques et génétiques permettant une meilleure compréhension de la relation complexe entre environnement et génome sur l'expression d'un caractère. / Since the last decade, the rapid advances in genotyping technologies have changed the way genes involved in mendelian disorders and complex diseases are mapped, moving from candidate genes approaches to linkage disequilibrium mapping. In this context, Genome-Wide Associations Studies (GWAS) aim at identifying genetic markers implied in the expression of complex disease and occuring at different frequencies between unrelated samples of affected individuals and unaffected controls. These studies exploit the fact that it is easier to establish, from the general population, large cohorts of affected individuals sharing a genetic risk factor for a complex disease than within individual families, as is the case with traditional linkage analysis.From a statistical point of view, the standard approach in GWAS is based on hypothesis testing, with affected individuals being tested against healthy individuals at one or more markers. However, classical testing schemes are subject to false positives, that is markers that are falsely identified as significant. One way around this problem is to apply a correction on the p-values obtained from the tests, increasing in return the risk of missing true associations that have only a small effect on the phenotype, which is usually the case in GWAS.Although GWAS have been successful in the identification of genetic variants associated with complex multifactorial diseases (Crohn's disease, diabetes I and II, coronary artery disease,…) only a small proportion of the phenotypic variations expected from classical family studies have been explained .This missing heritability may have multiple causes amongst the following: strong correlations between genetic variants, population structure, epistasis (gene by gene interactions), disease associated with rare variants,…The main objectives of this thesis are thus to develop new methodologies that can face part of the limitations mentioned above. More specifically we developed two new approaches: the first one is a block-wise approach for GWAS analysis which leverages the correlation structure among the genomic variants to reduce the number of statistical hypotheses to be tested, while in the second we focus on the detection of interactions between groups of metagenomic and genetic markers to better understand the complex relationship between environment and genome in the expression of a given phenotype.
4

Resources protection : towards replacement of cotton fiber with polyester / Protection des ressources : vers le remplacement du coton par du polyester

Kamalha, Edwin 28 May 2019 (has links)
La demande annuelle de coton augmente en raison de la croissance démographique mondiale et de l’évolution des comportements d’achat des consommateurs. D'autres options de fibres naturelles telles que la laine, le lin et la soie, entre autres, sont produites dans des proportions très maigres. Le polyester (poly (téréphtalate d’éthylène) (PET) présente des qualités qui pourraient répondre à cette préoccupation pour les vêtements. Malheureusement, les consommateurs hésitent à porter des vêtements 100% polyester, principalement en raison d’un confort sensoriel inférieur, du toucher et parfois de leur apparence. Cette étude visait à améliorer le tissu en PET caractéristiques afin de réduire l'écart entre la perception humaine et la performance hydrophile du coton par rapport au PET Pour déterminer la disparité existant entre le coton et les tissus tissés en PET, une étude multisensorielle a été réalisée à l'aide d'un panel de 12 juges formés sur 11 descripteurs sensoriels. Des algorithmes de Monte Carlo, des algorithmes génétiques et la technique de Borda Count (BK) ont été utilisés pour la fusion de rangs .L'analyse en composantes principales (PCA) et la classification hiérarchique par agglomération (AHC) ont été utilisées pour créer des profils sensoriels. Tissus en PET et en coton (p = 0,05). Il a été déduit que l’aspect visuel et esthétique peut être utilisé pour distinguer le PET du tissus de coton. Pour remplacer le coton par du PET via cette approche sensorielle, la modification de la rigidité des tissus en polyester a été judicieusement réalisée à l'aide de NaOH et d'un adoucissant en silicium, avec une pré-oxydation au plasma atmosphérique. Les tissus en PET traités avec NaOH et l’adoucissant en silicone ont été perçus comme étant doux, lisses, moins nets et moins raides par rapport à certains tissus en coton et en PET non traité. Le profilage des tissus indique que les tissus en PET conventionnels peuvent être distingués des tissus en coton conventionnels en utilisant une évaluation à la fois subjective et objective. Il est également avancé que la perception sensorielle humaine sur textile ne peut être directement représentée par des mesures instrumentales. La dernière partie de l’étude compare le potentiel hydrophile et l’efficacité de deux monomères vinyliques: le poly- (éthylène glycol) diacrylate (PEGDA) et le chlorure de [2- (méthacryloyloxy) éthyl] triméthylammonium (METAC) radicalement photo-greffé sur la surface de Tissu en PET. Une étude de surface utilisant la spectroscopie photoélectronique à rayons X (XPS) et la spectroscopie à dispersion d'énergie (EDS) a confirmé le greffage. Les tests d'humidité indiquent que PEGDA et METAC induisent un mouillage complet du PET à des concentrations de 0,1 à 5% (V: V). Les mesures colorimétriques (K/S et CIELAB/CH) et la stabilité de la couleur sur les tissus teints en PET suggèrent que les deux monomères améliorent considérablement l'efficacité de la teinture du PET. Il est suggéré que PEGDA et METAC génèrent des groupes hydrophiles sur le PET; les macroradicaux sont sous la forme de structures vinyliques qui forment des greffes à chaîne courte et démontrent une fonction hydrophile. Les résultats de cette recherche peuvent jouer un rôle directeur pratique dans la conception des tissus, la conception des propriétés sensorielles et contribuer au développement de tissus en polyester de type coton. / There is increasing annual demand for cotton due to world population growth and changes in consumers’ purchasing behavior. Other natural fiber options such as wool, linen and silk among others, are produced in very meager proportions. Polyester (poly(ethylene terephthalate) (PET) has qualities that could address this concern for apparel. Unfortunately, consumers are reluctant to wear 100% polyester clothing mainly due to inferior sensory comfort, touch and sometimes appearance. This study sought to improve PET fabric characteristics in order to decrease the gap between human perception and hydrophilic performance of cotton vs. PET. To determine the disparity between cotton and PET woven fabrics, a multisensory study was undertaken using a panel of 12 trained judges against 11 sensory descriptors. Cross-entropy Monte Carlo algorithms, Genetic algorithms, and the Borda Count (BK) technique were used for rank fusion. Principle component analysis (PCA) and agglomerative hierarchical clustering (AHC) were used to create sensory profiles. The descriptor crisp accounted for the highest variability between PET and cotton fabrics (p˂0.05). It was deduced that visual and aesthetics can be used to distinguish between PET and cotton fabrics. To replace cotton with PET via this sensory approach, the modification of stiffness of polyester fabrics was judiciously carried out using NaOH and a silicon softener, with atmospheric air plasma pre-oxidation. PET fabrics treated with NaOH and the silicon softener were perceived soft, smooth, less crisp, and less stiff compared to some cotton and untreated PET fabrics. The profiling of fabrics indicates that conventional PET fabrics can be distinguished from conventional cotton fabrics using both subjective and objective evaluation. It is also argued that textile human sensory perception cannot be directly represented by instrumental measurements. The final part of the study compares the hydrophilic potential and efficacy of two vinyl monomers: Poly-(ethylene glycol) diacrylate (PEGDA) and [2-(methacryloyloxy) ethyl]-trimethylammonium chloride (METAC) radically photo-grafted on the surface of PET fabric. Surface study using X-ray photoelectron spectroscopy (XPS) and Energy Dispersive Spectroscopy (EDS) confirmed the grafting. Moisture tests indicate that PEGDA and METAC induce complete wetting of PET at concentrations 0.1-5% (V:V). Colorimetric measurements (K/S and CIELAB/CH) and colorfastness on dyed PET fabrics suggest that both monomers greatly improve the dyeing efficiency of PET. It is suggested that PEGDA and METAC generate hydrophilic groups on PET; the macroradicals are in a form of vinyl structures which form short chain grafts and demonstrate hydrophilic function. The results of this research can play a practical guiding role in the design of fabrics, sensory property design and contribute to the development of cotton-like polyester fabrics.
5

Strategies of auditory categorisation in cochlear implant users and normal hearing listeners / Stratégies de catégorisation auditive chez les sujets implantés cochléaires et les sujets normo entendant

Collett, Edward 27 April 2016 (has links)
La catégorisation auditive est un processus essentiel pour faire face aux nombreux sons qui nous entourent dans le monde réel. Toutefois ces capacités sont altérées par l'utilisation d'un Implant Cochléaire (IC). Bien les utilisateurs d'IC montrent de très bonnes capacités à percevoir la parole, leur capacité à percevoir d'autres types de sons est altérée en comparaison avec des Entendants Normaux (EN). Dans le projet présenté ici nous utiliserons une nouvelle approche en étudiant la perception des sons à un niveau catégoriel plutôt qu'individuel. Dans une première étude les utilisateurs d'IC et des EN ont été testé afin de mesuré avec quel précision ils pouvaient catégoriser des sons vocaux, environnementaux et musicaux. Les résultats montrent que les utilisateurs d'IC étant appareillés depuis le plus longtemps, et ayant donc une plus grande expérience d'audition avec l'appareil, atteignent des performances plus similaires aux EN que des personnes ayant eu moins d'expérience avec l'IC. Une deuxième étude n'utilisant que des sons vocaux a montré que les informations liées aux émotions et à l'âge du locuteur étaient utilisées afin de catégoriser les différents locuteurs et que le geme était peu perçu par les sujets. Enfin, une troisième étude s'est quant à elle intéressée comment différents sons environnementaux étaient catégorisés et si le contexte auditif (i.e. la localisation) pouvait aider la catégorisation et l'identification de sons vocodés. Bien que nous n'ayons pas observé d'effet de facilitation du contexte les résultats montrent la robustesse de certaines informations pour la perception des sons comme la perception de l'action et la matière les produisant, même lorsque les sujets ne pouvaient les identifier. Le domaine de recherche sur la catégorisation auditive n'est pas aussi développé que celui de la catégorisation visuelle et ce projet apporte de précieuse informations pour mieux comprendre comment la catégorisation dans le domaine auditif est effectuée et quelles catégories sont communément utilisées par les auditeurs. Nous avons pu par exemple mettre en évidence une catégorie regroupant les sons produits par des actions ou des matériaux ou encore des catégories de sons correspondant aux voix et actions humaines, à la nature, aux sons mécaniques et aux sons musicaux, ce qui est en accord avec les résultats obtenus dans des études menées précédemment. Concernant les résultats des utilisateurs d'IC il apparaît que les auditeurs ayant une longue expérience d'utilisation de l'appareil ont moins de difficultés à catégoriser les sons qu'à identifier des sons individuels. Ceci constitue la première étude à tester les utilisateurs d'IC dans une tâche de classification libre et s'ajoute aux quelques études ayant utilisés des tâches de catégorisation auditive avec des utilisateurs d'IC qui suggèrent que la perception catégorielle pourrait être une façon appropriée et efficace de tester et rééduquer les utilisateurs d'IC à percevoir différentes catégories de sons. / Auditory categorisation is a process essential for coping with the large amount of sounds encountered in the real world. However it is affected by the use of a cochlear implant (CI) deviee. Whilst CI users may attain high levels of speech performance,ad their ability to perceive other kinds of sounds is impaired in comparison to Normal Hearing Listeners (NHL). The current project therefore proposes a new approach, looking at the perception of sounds at the leve!of categories rather than individual sounds. In the first study CI users and NHL were tested to see how accurately they categorised a series of vocal, environmental and musical sounds. Results showed that CI users with the longest duration of implantation and therefore of listening experience demonstrated results more similar to those ofNHL. A second study involving oniy vocal sounds showed that information pertaining to the emotion and age of a speaker was used to categorise different speakers and that gender was not strongly perceived. A third study looked at how different environmental sounds were categorised and whether or not the auditory context (i.e. location) was helpful to the categorisation and identification of vocoded sounds. Although context information did not appear to aid listeners the results showed the robustness of certain information regarding the perception of the sound producing action and material, even when listeners could not identify sounds. The research domain of auditory categorisation is not as large as that for the visual domain and subsequent!y this project is important for the further understanding of how sounds are categorised and what categories are commoniy used by listeners. For example the perception of the sound producing action and material as weil as results that show categories of sounds corresponding to hnman vocalisations, hnman actions, nature, mechanical and musical sounds, which agrees with previously conducted studies Concerning the results of CI users it appears that experienced listeners may have fewer problems perceiving auditory categories as compared to identifying individual sounds. This is the first study to test CI users in a free-sorting task and in addition to the few studies that have also tested CI users auditory categorisation suggests that categorical perception may be a useful way in which to test and rehabilitate CI users to different kinds of sounds.
6

Apports bioinformatiques et statistiques à l'identification d'inhibiteurs du récepteur MET / Bioinformatics and statistical contributions to the identification of inhibitors for the MET receptor

Apostol, Costin 21 December 2010 (has links)
L’effet des polysaccharides sur l’interaction HGF-MET est étudié à l’aide d’un plan d’expérience comportant plusieurs puces à protéines sous différentes conditions d’expérimentation. Le but de l’analyse est la sélection des meilleurs polysaccharides inhibiteurs de l’interaction HGF-MET. D’un point de vue statistique c’est un problème de classification. Le traitement informatique et statistique des biopuces obtenues nécessite la mise en place de la plateforme PASE avec des plug-ins d’analyse statistique pour ce type de données. La principale caractéristique statistique de ces données est le caractère de répétition : l’expérience est répétée sur 5 puces et les polysaccharides, au sein d’une même puce, sont répliqués 3 fois. On n’est donc plus dans le cas classique des données indépendantes globalement, mais de celui d’une indépendance seulement au niveau intersujets et intrasujet. Nous proposons les modèles mixtes pour la normalisation des données et la représentation des sujets par la fonction de répartition empirique. L’utilisation de la statistique de Kolmogorov-Smirnov apparaît naturelle dans ce contexte et nous étudions son comportement dans les algorithmes de classification de type nuées dynamique et hiérarchique. Le choix du nombre de classes ainsi que du nombre de répétitions nécessaires pour une classification robuste sont traités en détail. L’efficacité de cette méthodologie est mesurée sur des simulations et appliquée aux données HGF-MET. Les résultats obtenus ont aidé au choix des meilleurs polysaccharides dans les essais effectués par les biologistes et les chimistes de l’Institut de Biologie de Lille. Certains de ces résultats ont aussi conforté l’intuition des ces chercheurs. Les scripts R implémentant cette méthodologie sont intégrés à la plateforme PASE. L’utilisation de l’analyse des données fonctionnelles sur ce type de données fait partie des perspectives immédiates de ce travail. / The effect of polysaccharides on HGF-MET interaction was studied using an experimental design with several microarrays under different experimental conditions. The purpose of the analysis is the selection of the best polysaccharides, inhibitors of HGF-MET interaction. From a statistical point of view this is a classification problem. Statistical and computer processing of the obtained microarrays requires the implementation of the PASE platform with statistical analysis plug-ins for this type of data. The main feature of these statistical data is the repeated measurements: the experiment was repeated on 5 microarrays and all studied polysaccharides are replicated 3 times on each microarray. We are no longer in the classical case of globally independent data, we only have independence at inter-subjects and intra-subject levels. We propose mixed models for data normalization and representation of subjects by the empirical cumulative distribution function. The use of the Kolmogorov-Smirnov statistic appears natural in this context and we study its behavior in the classification algorithms like hierarchical classification and k-means. The choice of the number of clusters and the number of repetitions needed for a robust classification are discussed in detail. The robustness of this methodology is measured by simulations and applied to HGF-MET data. The results helped the biologists and chemists from the Institute of Biology of Lille to choose the best polysaccharides in tests conducted by them. Some of these results also confirmed the intuition of the researchers. The R scripts implementing this methodology are integrated into the platform PASE. The use of functional data analysis on such data is part of the immediate future work.
7

Machine Learning Strategies for Large-scale Taxonomies / Strategies d'apprentissage pour la classification dans les grandes taxonomies

Babbar, Rohit 17 October 2014 (has links)
À l'ère de Big Data, le développement de modèles d'apprentissage machine efficaces et évolutifs opérant sur des Tera-Octets de données est une nécessité. Dans cette thèse, nous étudions un cadre d'apprentissage machine pour la classification hiérarchique à large échelle. Cette analyse comprend l'étude des défis comme la complexité d'entraînement des modèles ainsi que leur temps de prédiction. Dans la première partie de la thèse, nous étudions la distribution des lois de puissance sous-jacente à la création des taxonomies à grande échelle. Cette étude permet de dériver des bornes sur la complexité spatiale des classifieurs hiérarchiques. L'exploitation de ce résultat permet alors le développement des modèles efficaces pour les classes distribuées selon une loi de puissance. Nous proposons également une méthode efficace pour la sélection de modèles pour des classifieurs multi-classes de type séparateurs à vaste marge ou de la régression logistique. Dans une deuxième partie, nous étudions le problème de la classification hiérarichique contre la classification plate d'un point de vue théorique. Nous dérivons une borne sur l'erreur de généralisation qui permet de définir les cas où la classification hiérarchique serait plus avantageux que la classification plate. Nous exploitons en outre les bornes développées pour proposer deux méthodes permettant adapter une taxonomie donnée de catégories à une taxonomies de sorties qui permet d'atteindre une meilleure performance de test. / In the era of Big Data, we need efficient and scalable machine learning algorithms which can perform automatic classification of Tera-Bytes of data. In this thesis, we study the machine learning challenges for classification in large-scale taxonomies. These challenges include computational complexity of training and prediction and the performance on unseen data. In the first part of the thesis, we study the underlying power-law distribution in large-scale taxonomies. This analysis then motivates the derivation of bounds on space complexity of hierarchical classifiers. Exploiting the study of this distribution further, we then design classification scheme which leads to better accuracy on large-scale power-law distributed categories. We also propose an efficient method for model-selection when training multi-class version of classifiers such as Support Vector Machine and Logistic Regression. Finally, we address another key model selection problem in large scale classification concerning the choice between flat versus hierarchical classification from a learning theoretic aspect. The presented generalization error analysis provides an explanation to empirical findings in many recent studies in large-scale hierarchical classification. We further exploit the developed bounds to propose two methods for adapting the given taxonomy of categories to output taxonomies which yield better test accuracy when used in a top-down setup.
8

Building and Using Knowledge Models for Semantic Image Annotation / Construction et utilisation de modèles à base de connaissance pour l’annotation sémantique des images

Bannour, Hichem 08 February 2013 (has links)
Cette thèse propose une nouvelle méthodologie pour la construction et l’utilisation de modèles à base de connaissances pour l'annotation automatique d'images. Plus précisément, nous proposons dans un premier lieu des approches pour la construction automatique de modèles de connaissances explicites et structurés, à savoir des hiérarchies sémantiques et des ontologies multimédia adaptées pour l'annotation d'images. Ainsi, nous proposons une approche pour la construction automatique de hiérarchies sémantiques. Notre approche est basée sur une nouvelle mesure « sémantico-visuelle » entre concepts et un ensemble de règles qui permettent de relier les concepts les plus apparentés jusqu'à l'aboutissement à la hiérarchie finale. Ensuite, nous proposons de construire des modèles de connaissances plus riches en terme de sémantique et qui modélisent donc d'autres types de relations entre les concepts de l’image. Par conséquent, nous proposons une nouvelle approche pour la construction automatique d'une ontologie multimédia qui modélise non seulement les relations de subsomption, mais aussi les relations spatiales et contextuelles entre les concepts de l'image. L'ontologie proposée est adaptée pour raisonner sur la cohérence de l’annotation d'images. Afin d'évaluer l'efficacité des modèles de connaissances construits, nous proposons de les utiliser par la suite dans un cadre d'annotation d'images. Nous proposons donc une approche, basée sur la structure des hiérarchies sémantiques, pour la classification hiérarchique d'images. Puis, nous proposons une approche générique, combinant des techniques d'apprentissage automatique et le raisonnement ontologique flou, afin de produire des annotations d’images sémantiquement pertinentes. Des évaluations empiriques de nos approches ont montré une amélioration significative de la précision des annotations d'images. / This dissertation proposes a new methodology for building and using structured knowledge models for automatic image annotation. Specifically, our first proposals deal with the automatic building of explicit and structured knowledge models, such as semantic hierarchies and multimedia ontologies, dedicated to image annotation. Thereby, we propose a new approach for building semantic hierarchies faithful to image semantics. Our approach is based on a new image-semantic similarity measure between concepts and on a set of rules that allow connecting the concepts with higher relatedness till the building of the final hierarchy. Afterwards, we propose to go further in the modeling of image semantics through the building of explicit knowledge models that incorporate richer semantic relationships between image concepts. Therefore, we propose a new approach for automatically building multimedia ontologies consisting of subsumption relationships between concepts, and also other semantic relationships such as contextual and spatial relations. Fuzzy description logics are used as a formalism to represent our ontology and to deal with the uncertainty and the imprecision of concept relationships. In order to assess the effectiveness of the built structured knowledge models, we propose subsequently to use them in a framework for image annotation. We propose therefore an approach, based on the structure of semantic hierarchies, to effectively perform hierarchical image classification. Furthermore, we propose a generic approach for image annotation combining machine learning techniques, such as hierarchical image classification, and fuzzy ontological-reasoning in order to achieve a semantically relevant image annotation. Empirical evaluations of our approaches have shown significant improvement in the image annotation accuracy.
9

Utilisation de l'analyse des correspondances multiples et de la classification hiérarchique pour modéliser la valeur pronostique des marqueurs présents chez les patients avec polyarthrite d'installation récente

Carrier, Nathalie January 2008 (has links)
Ce projet de maîtrise a comme objectif d'évaluer, dans une cohorte de patients avec polyarthrite inflammatoire débutante, l'existence de différents sous-groupes de patients classifiables selon leurs caractéristiques cliniques lors de l'inclusion dans l'étude. Les patients sont recrutés au Centre hospitalier universitaire de Sherbrooke (CHUS). Ils doivent être âgés de plus de 18 ans, se présenter avec au moins 3 articulations atteintes d'inflammation articulaire, et ce depuis plus d'un mois et moins de 12 mois. Les patients exclus de l'étude sont ceux atteints d'arthrite microcristalline (ex: Goutte), de collagénose (maladie du tissu conjonctif), ou d'arthrite septique, ainsi que les patients inaptes à consentir. De plus, les patients sont suivis sur une période de 5 ans et réévalués tous les ans. Nous sommes donc en présence d'un dispositif d'observation avec cohorte prospective longitudinale. Chacun des patients est traité selon les traitements disponibles cliniquement et adaptés à sa situation clinique. Une classification hiérarchique a été effectuée chez les 211 premiers patients consécutifs pour lesquels l'information clinique à l'inclusion et à 30 mois était complète. Les variables de l'inclusion qui ont été incorporées dans l'analyse statistique sont: les données démographiques (âge, sexe), certains autoanticorps, le décompte d'articulations gonflées, les paramètres d'inflammation systémique, les paramètres sanguins, si les patients remplissent au moins 4 des 7 critères de classification de la polyarthrite rhumatoïde (PR) selon l'American College of Rheumatology (ACR), la présence de traitements lors de l'inclusion et les dommages articulaires (érosions osseuses et pincements articulaires) sur les radiographies des mains et des pieds. L'analyse statistique a permis l'identification de 5 sous-groupes de patients: 2 avec une meilleure issue clinique (Groupes 1 et 4), 2 avec une issue intermédiaire (Groupes 2 et 3) et 1 avec une très mauvaise issue radiologique et clinique (Groupe 5). Les patients des groupes 1 et 4 ont très peu d'anticorps ou d'érosions, peu d'inflammation systémique, et sont plus jeunes (63% et 47%, âge [< ou =] 50 ans respectivement). Aucun des patients du groupe 4 ne remplit les critères de la classification de la PR, contrairement au groupe 1 (0% vs 100% respectivement). Les patients des groupes 2 et 3 ont généralement des dommages radiographiques à l'inclusion et leur nombre d'érosions osseuses augmente à 30 mois. Les patients du groupe 2 se distinguent par un très faible taux d'anticorps (entre 0% et 17%), tout en présentant fréquemment une inflammation très importante et de l'anémie. Le groupe 3 quant à lui a modérément d'anticorps (entre 40 à 50%), un taux élevé de globules blancs circulants et les patients sont généralement traités très tôt dans le développement de la maladie. Finalement, le groupe 5 est le groupe avec un nombre très important d'anticorps, beaucoup de dommages radiographiques à l'inclusion et à 30 mois, les critères de l'ACR sont généralement remplis et il y a présence d'inflammation systémique. Comme les résultats le suggèrent, cette analyse semble compatible avec d'autres observations qui suggèrent que l'arthrite débutante représente plus d'une maladie. Le groupe 3 ressemble au groupe 5 pour les caractéristiques de l'inclusion. Ceci pourrait indiquer que de traiter très tôt peut, dans certains cas, modifier l'expression des anticorps et l'évolution de la maladie. D'autres analyses plus approfondies seront nécessaires pour améliorer la classification des divers sous-groupes. Éventuellement, un modèle de régression multivarié pourra être utilisé pour prédire l'évolution de la maladie chez de nouveaux patients à partir de leurs caractéristiques initiales. Un tel modèle pourrait alors être très utile en clinique pour établir le bon traitement à administrer aux patients en considérant leurs caractéristiques cliniques lors de leur première visite avec le rhumatologue.
10

Partitionnement non supervisé d'images hyperspectrales : application à l'identification de la végétation littorale / Unsupervised partitioning approach of hyperspectral image : application to the identification of the algal vegetation

Chen, Bai Yang 02 December 2016 (has links)
La première partie de ce travail présente un état de l'art des principaux critères non supervisés, non paramétriques, d'évaluation d'une partition, des méthodes d'estimation préliminaires du nombre de classes, et enfin des méthodes de classification supervisées, semi-supervisées et non supervisées. Une analyse des avantages et des inconvénients de ces critères et méthodes est menée. L'analyse des performances des méthodes de classification et des critères d'évaluation a été également conduite via l'application visée dans cette thèse. Une approche de partitionnement non supervisée, non paramétrique et hiérarchique s'avère la plus adaptée au problème posé. En effet, ce type d'approche et plus particulièrement la classification descendante donne un partitionnement à plusieurs niveaux et met en évidence des informations plus détaillées d'un niveau à l'autre, ce qui permet une meilleure interprétation de la richesse d'information apportée par l'imagerie hyperspectrale et ainsi conduire à une meilleure décision. Dans ce sens, la deuxième partie de cette thèse présente, tout d'abord l'approche de classification descendante hiérarchique non supervisée (CDHNS) développée. Cette approche non paramétrique, permet l'obtention de résultats stables et objectifs indépendamment des utilisateurs finaux. Le second développement conduit, porte sur la sélection de bandes spectrales parmi celles qui composent l'image hyperspectrale originale afin de réduire la quantité d'information à traiter avant le processus de classification. Cette méthode est également non supervisée et non paramétrique. L'approche de classification et la méthode de réduction ont été expérimentées et validées sur une image hyperspectrale synthétique construite à partir des images réelles puis sur des images réelles dont l'application porte sur l'identification des différentes classes algales. Les résultats de partitionnement obtenus sans réduction montrent d'une part, la stabilité des résultats et, d'autre part, la discrimination des classes principales (végétation, substrat et eau) dès les premiers niveaux. Les résultats de la sélection des bandes spectrales font apparaître leur bonne répartition sur toute la gamme spectrale du capteur (visible et proche-infrarouge). Les résultats montrent aussi que le partitionnement avec et sans réduction sont globalement similaires. De plus, le temps de calcul est fortement réduit. / The upstream location of the different algal species causing clogging in the EDF nuclear power plants cooling systems along the Channel coastline, by analyzing hyperspectral aerial image is today the most appropriate means. Indeed, hyperspectral imaging allows, through its spatial resolution and its broad spectral range covering the areas of visible and near infrared, the objective discrimination of plant species on the foreshore, necessarily yielding accurate maps on large coastal areas. To provide a solution to this problem and achieve the objectives, the work conducted within the framework of this thesis lies in the development of unsupervised partitioning approaches to data with large spectral and spatial dimensions. The first part of this work presents a state of the art of main unsupervised criteria, and nonparametric, for partitioning evaluation, the preliminary methods for estimating the number of classes, and finally, supervised, semi-supervised and unsupervised classification methods. An analysis of the advantages and drawbacks of these methods and criteria is conducted. The analysis of the performances of these classification methods and evaluation criteria was also conducted through the application targeted in this thesis. An unsupervised, nonparametric, hierarchical partitioning approach appears best suited to the problem. Indeed, this type of approach, and particularly the descending classification, gives a partitioning at several levels and highlights more detailed information from one level to another, allowing a better interpretation of the wealth of information provided by hyperspectral imaging and therefore leading to a better decision. In this sense, the second part of this thesis presents, firstly the unsupervised hierarchical descending classification (UHDC) approach developed. This nonparametric approach allows obtaining stable and objective results regardless of end users. The second development proposed concerns the selection of spectral bands from those that make up the original hyperspectral image, in order to reduce the amount of information to be processed before the classification process. This method is also unsupervised and nonparametric. The classification approach and the reduction method have been tested and validated on a synthetic hyperspectral image constructed from real images, and then on real images, with application to the identification of different algal classes. The partitioning results obtained without reduction show firstly, the stability of the results and, secondly, the discrimination of the main classes (vegetation, substrate and water) from the first levels. The results of the spectral bands selection method show that the retained bands are well distributed over the entire spectral range of the sensor (visible and near-infrared). The results also show that partitioning results with and without reduction are broadly similar. Moreover, the computation time is greatly reduced.

Page generated in 0.1706 seconds