• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2047
  • 973
  • 290
  • 8
  • 3
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 3282
  • 1470
  • 668
  • 664
  • 573
  • 552
  • 371
  • 317
  • 293
  • 275
  • 275
  • 248
  • 223
  • 214
  • 213
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
111

Nouvelles approches pour l'exploitation des données de séquences génomique haut débit / New approaches for exploitation of high throughput sequencing data

Limasset, Antoine 12 July 2017 (has links)
Cette thèse a pour sujet les méthodes informatiques traitant les séquences ADN provenant des séquenceurs haut débit. Nous nous concentrons essentiellement sur la reconstruction de génomes à partir de fragments ADN (assemblage génomique) et sur des problèmes connexes. Ces tâches combinent de très grandes quantités de données et des problèmes combinatoires. Différentes structures de graphe sont utilisées pour répondre à ces problèmes, présentant des compromis entre passage à l'échelle et qualité d'assemblage. Ce document introduit plusieurs contributions pour répondre à ces problèmes. De nouvelles représentations de graphes d'assemblage sont proposées pour autoriser un meilleur passage à l'échelle. Nous présentons également de nouveaux usages de ces graphes, différent de l'assemblage, ainsi que des outils pour utiliser ceux-ci comme références dans les cas où un génome de référence n'est pas disponible. Pour finir nous montrons comment utiliser ces méthodes pour produire un meilleur assemblage en utilisant des ressources raisonnables. / Novel approaches for the exploitation of high throughput sequencing data In this thesis we discuss computational methods to deal with DNA sequences provided by high throughput sequencers. We will mostly focus on the reconstruction of genomes from DNA fragments (genome assembly) and closely related problems. These tasks combine huge amounts of data with combinatorial problems. Various graph structures are used to handle this problem, presenting trade-off between scalability and assembly quality. This thesis introduces several contributions in order to cope with these tasks. First, novel representations of assembly graphs are proposed to allow a better scaling. We also present novel uses of those graphs apart from assembly and we propose tools to use such graphs as references when a fully assembled genome is not available. Finally we show how to use those methods to produce less fragmented assembly while remaining tractable.
112

Observation adaptative : limites de la prévision et du contrôle des incertitudes

Oger, Niels 02 July 2015 (has links) (PDF)
L'observation adaptative (OA) est une pratique de prévision numérique du temps (PNT) qui cherche à prévoir quel jeu (ou réseau) d'observations supplémentaires à déployer et à assimiler dans le futur améliorera les prévisions. L'objectif est d'accroître la qualité des prévisions météorologiques en ajoutant des observations là où elles auront le meilleur impact (optimal). Des méthodes numériques d'OA apportent des réponses objectives mais partielles. Elles prennent en compte à la fois les aspects dynamiques de l'atmosphère à travers le modèle adjoint, et aussi le système d'assimilation de données. Le système d'assimilation de données le plus couramment utilisé pour l'OA est le 4D-Var. Ces méthodes linéaires (technologie de l'adjoint) reposent cependant sur une réalisation déterministe (ou trajectoire) unique. Cette trajectoire est entachée d'une incertitude qui affecte l'efficacité de l'OA. Le point de départ de ce travail est d'évaluer l'impact de l'incertitude associée au choix de cette trajectoire sur une technique: la KFS. Un ensemble de prévisions est utilisé pour étudier cette sensibilité. Les expériences réalisées dans un cadre simplifié montrent que les solutions de déploiement peuvent changer en fonction de la trajectoire choisie. Il est d'autant plus nécessaire de prendre cette incertitude en considération que le système d'assimilation utilisé n'est pas vraiment optimal du fait de simplifications liées à sa mise en oeuvre. Une nouvelle méthode d'observation adaptative, appelée Variance Reduction Field (VRF), a été développée dans le cadre de cette thèse. Cette méthode permet de déterminer la réduction de variance de la fonction score attendue en assimilant une pseudo-observation supplémentaire pour chaque point de grille. Deux approches de la VRF sont proposées, la première est basée sur une simulation déterministe. Et la seconde utilise un ensemble d'assimilations et de prévisions. Les deux approches de la VRF ont été implémentées et étudiées dans le modèle de Lorenz 96. Le calcul de la VRF à partir d'un ensemble est direct si l'on dispose déjà des membres de l'ensemble. Le modèle adjoint n'est pas nécessaire pour le calcul.L'implémentation de la VRF dans un système de prévision du temps de grande taille, tel qu'un système opérationnel, n'a pas pu être réalisée dans le cadre de cette thèse. Cependant, l'étude de faisabilité de la construction de la VRF dans l'environnement OOPS a été menée. Une description de OOPS (version 2013) est d'abord présentée dans le manuscrit, car cet environnement est une nouveauté en soi. Elle est suivie de la réflexion sur les développements à introduire pour l'implémentation de la VRF.
113

Sensibilité d'un écoulement de rouleau compressé et des variations cycle à cycle associées à des paramètres de remplissage moteur / Sensitivity of the compressed tumble motion and of the cycle to cycle variations to engine’s air filling parameters.

Cao, Yujun 17 December 2014 (has links)
Ce travail concerne l’étude expérimentale de la sensibilité de l’écoulement du moteur et de ses variations cycle à cycle (VCC) à trois variations des conditions aux limitesliée à l’optimisation du remplissage moteur. Dans la configuration standard, l’écoulement tridimensionnel de rouleau (« tumble ») est décrit pendant les phases d’admission et de compression.Un phasage plus précoce de la loi de levée d’admission augmente le débit de masse aux soupapes et amplifie les fluctuations dès le début de l’admission. L’intensité du rouleau est beaucoup plus faible à phase mi-compression. L’énergie fluctuante au point mort haut est plus faible. Une course rallongée du moteur conduit, en fin de compression, à un basculement de l’écoulement moyen et à une évolution très différente des vitesses fluctuantes,due au confinement différent vue par l’aérodynamique du moteur. Enfin, la modification des conduits d’admission entraîne une variation de l’intensité et une structuration fondamentalement différente de l’écoulement. En outre, pour décrire le transfert vers la turbulence,deux méthodologies de classification des structures de l’écoulement en groupe par corrélation spatiale, puis par « clustering » sont adaptées. L’analyse statistique du contenu des différents groupes et des transitions entre groupes permet de montrer que les VCC sont associées à différentes trajectoires dans l’espace des groupes. Des statistiques conditionnelles sont calculées pour analyser les données de chaque groupe et permettent de définir une décomposition triple. Ces caractérisations plus précises des VCC sont très générales et applicables à des grandes bases de données expérimentales ou numériques. / This experimental work concerns a sensitivity study of the in-cylinder flow in aspark-ignition engine and of the cycle to cycle variations (CCV) by comparing three variationsof boundary conditions related to the optimisation of air filling conditions. In the reference case, the three dimensional tumble flow is characterized during the intake and compression phases. A earlier intake cam phase increases the mass flow rate at inlet valves and amplifiesthe fluctuations immediately after the start of intake phase. The tumble ratio is much lowerat mid-compression phase. The fluctuating energy at top dead center is reduced. A longerengine stroke leads, at the end of compression phase, to a shift of mean flow and to a verydistinct evolution of the fluctuating velocity, due to the different confinement from the pointof view of the engine internal flow. Finally, the modification of intake duct design changes theflow intensity and reorganizes in depth the flow structure. Moreover, to describe the transfer into turbulence, two methodologies of classification in groups of flow structures, by spatial correlation then by clustering, are proposed. A phase-averaged analysis of the statistics of group content and inter-group transitions shows that CCV can be associated with different sets of trajectories during the second half of the compression phase. The conditional statistics are computed to analyse the data in each group, which leads to a triple decomposition. It is important to point out that this more accurate evaluation of CCV is applicable to very large sets of experimental or numerical data.
114

Reconnaissance gestuelle par gant de données pour le contrôle temps réel d’un robot mobile / Glove-based gesture recognition for real-time outdoors robot control

Dupont, Marc 28 March 2017 (has links)
Alors que les systèmes de reconnaissance gestuelle actuels privilégient souvent un usage intérieur, nous nous intéressons à la conception d'un système dont l'utilisation est possible en environnement extérieur et en mobilité. Notre objectif est le contrôle temps-réel d'un robot mobile dont l'usage est destiné aux fantassins débarqués. La contribution principale de cette thèse est le développement d'une chaîne de reconnaissance gestuelle temps réel, qui peut être entraînée en quelques minutes avec: un faible nombre d'exemples ("small data"); des gestes choisis par l'utilisateur; une résilience aux gestes mal réalisés; ainsi qu'une faible empreinte CPU. Ceci est possible grâce à deux innovations clés: d'une part, une technique pour calculer des distances entre séries temporelles en flux, basée sur DTW; d'autre part, une rétro-analyse efficace du flux d'apprentissage afin de déterminer les hyperparamètres du modèle sans intervention de l'utilisateur. D'autre part, nous avons construit notre propre gant de données et nous l'utilisons pour confirmer expérimentalement que la solution de reconnaissance gestuelle permet le contrôle temps réel d'un robot en mobilité. Enfin, nous montrons la flexibilité de notre technique en ce sens qu'elle permet de contrôler non seulement des robots, mais aussi des systèmes de natures différentes. / Although gesture recognition has been studied for several decades, much research stays in the realm of indoors laboratory experiments. In this thesis, we address the problem of designing a truly usable, real- world gesture recognition system, focusing mainly on the real-time control of an outdoors robot for use by military soldiers. The main contribution of this thesis is the development of a real-time gesture recognition pipeline, which can be taught in a few minutes with: very sparse input ("small data"); freely user-invented gestures; resilience to user mistakes during training; and low computation requirements. This is achieved thanks to two key innovations: first, a stream-enabled, DTW-inspired technique to compute distances between time series; and second, an efficient stream history analysis procedure to automatically determine model hyperparameters without user intervention. Additionally, a custom, hardened data glove was built and used to demonstrate successful gesture recognition and real-time robot control. We finally show this work's flexibility by furthermore using it beyond robot control to drive other kinds of controllable systems.
115

Optimisation de la gestion de l'information météo-routière pour le ministère des Transports du Québec, Direction de l'Estrie

Morin, Étienne January 2010 (has links)
De nombreuses données sont collectées par le ministère des Transports du Québec (MTQ) en rapport avec les activités d'entretien hivernal des routes, dans le but d'améliorer la gestion et les prises de décision. Le nombre et la diversité des données les rendent difficiles à exploiter pour mettre les événements météo routiers en rapport avec les ressources à déployer. La finalité de cette recherche est de proposer un processus de mise en valeur des données multi sources collectées par le MTQ en Estrie, afin d'offrir des pistes d'amélioration de la prise des décisions ou de la gestion de l'entretien hivernal. Une analyse des besoins des gestionnaires du MTQ en termes d'information météo routière est dans un premier temps effectuée, ainsi qu'un inventaire et des considérations sur le traitement des données pour leur validation et leur uniformisation. Une classification des risques météo-routiers est ensuite proposée afin d'explorer de façon optimale les données, et mettre au point à terme des processus pour leur mise en valeur selon les types de besoins exprimés. Les résultats de la recherche établissent des relations entre les principales caractéristiques des événements météo routiers, leurs impacts sur la chaussée et le dimensionnement des opérations d'entretien routier hivernal. Les événements les plus marquants peuvent ainsi être détectés ce qui permet de les analyser avec une plus grande exhaustivité dans le but de prendre en considération les particularités régionales. Cette recherche devrait apporter des éléments de réponse aux attentes des gestionnaires de Transports Québec pour leur souci d'évaluer les opérations d'entretien hivernal. Car, bien qu'étant une composante essentielle à l'optimisation de la gestion, le déploiement des ressources en fonction des caractéristiques des événements météo routiers est quelques fois difficile à mesurer. D'autre part, cette étude s'inscrit dans la volonté de rentabiliser la mise en place de technologies qui génère une imposante masse de données afin d'en soutirer des informations ou des connaissances conduisant à mettre en place des stratégies efficientes et qui s'inscrivent dans le contexte de transport durable.
116

Assimilation de données de radar à nuages aéroporté pendant la campagne de mesures HyMeX

Borderies, Mary 07 December 2018 (has links) (PDF)
Les radars à nuages sont des atouts indéniables pour la Prévision Numérique du Temps (PNT). De par leur petite longueur d’onde, ils possèdent une excellente sensibilité aux particules nuageuses et ils sont facilement déployables à bord de plates-formes mobiles. Cette thèse a permis d’évaluer l’apport des observations de radars à nuages pour la validation et l’initialisation de modèles de PNT à échelle kilométrique. Dans la première partie, un opérateur d’observation pour la réflectivité en bande W a été conçu en cohérence avec le schéma microphysique à un moment d'Arome, le modèle de PNT à échelle kilométrique de Météo-France, mais de façon suffisamment générale pour pouvoir être adapté à un autre modèle de PNT à échelle kilométrique. Il est adaptable pour des radars à visée verticale aéroportés ou au sol. Afin de dissocier les erreurs de positionnement des nuages prévus par Arome, de celles présentes dans l’opérateur d’observation, une nouvelle méthode de validation, appelée "la méthode de la colonne la plus ressemblante (CPR), a été élaborée. Cette méthode a été employée afin de valider et de calibrer l'opérateur d'observation en utilisant les profils de réflectivité collectés par le radar à nuages aéroporté Rasta dans des conditions variées durant la première période d’observations (SOP1) du programme international HyMeX, qui vise à améliorer notre compréhension du cycle de l'eau en méditerranée. La seconde partie s'est intéressée à l'apport respectif de l'assimilation de profils verticaux de réflectivité et de vents horizontaux mesurés par le radar à nuages Rasta dans le système d'assimilation variationnel tridimensionnel (3DVar) d'Arome. Le bénéfice apporté par des conditions thermodynamiques, via l'assimilation de la réflectivité en bande W, et dynamiques, via l'assimilation des profils de vents horizontaux, cohérentes dans l'état initial a également été étudié. Pour assimiler la réflectivité en bande W, la méthode d'assimilation "1D+3DVar", qui est opérationnelle dans Arome pour assimiler les réflectivités des radars de précipitation au sol, a été employée. La méthode de restitution bayésienne 1D de profils d'humidité a été validée avec des mesures d'humidité in situ indépendantes. Puis, les expériences d'assimilation ont été menées sur un événement fortement convectif, ainsi que sur une plus longue période de 45 jours. Les résultats suggèrent notamment que l'assimilation conjointe des profils de réflectivité en bande W et des profils verticaux de vents horizontaux permet d'améliorer les analyses d'humidité, mais suggèrent également une légère amélioration des prévisions des cumuls de précipitation
117

Utilisation de données observationnelles en réanimation / Use of observational data in intensive care settings

Pham, Tai Olivier 28 November 2016 (has links)
Introduction : La réanimation est une discipline médicale récente ayant pour spécificité une surveillance rapprochée et tracée des patients et de leurs traitements. Une grande quantité de données concernant les caractéristiques des patients, leur prise en charge et leur évolution sont ainsi générées et collectées quotidiennement. La médecine basée sur les preuves oppose classiquement les études observationnelles et interventionnelles et confère à ces dernières, notamment aux études randomisées et contrôlées, un niveau de preuve scientifique supérieur.Objectifs : Décrire l’apport de l’utilisation des données observationnelles en réanimation au travers de travaux récents recourant à différentes méthodologies d’analyse. Discuter les contributions respectives qu’ont les études observationnelles et interventionnelles dans l’acquisition des connaissances scientifiques en réanimation.Méthode : Quatre études observationnelles prospectives multicentriques conduites en réanimation et publiées dans des revues à comité de relecture. Détail de la variété des outils disponibles dans la conception d’études observationnelles à travers différentes méthodes telles que l’utilisation de données en temps réel, la description de cohortes, et l’appariement sur un score de propension afin d’estimer l’effet d’un traitement. Résultats : Les différents travaux détaillés dans cette thèse décrivent la variété des apports des données observationnelles en réanimation. Ces données peuvent constituer un outil de surveillance des épidémies en temps réel comme nous l’avons montré au cours de la pandémie de grippe A H1N1 en France. Elles sont aussi indispensables à la réalisation d’études épidémiologiques telle celle que nous présentons concernant le syndrome de détresse respiratoire aigu. Nous montrons aussi comment ce type de données a remis en question la définition des groupes de sevrage de la ventilation mécanique initialement proposée par une conférence de consensus. Enfin, l’utilisation de techniques statistiques innovantes telles celles basées sur un score de propension a permis l’évaluation du bénéfice de l’utilisation de la circulation extra-corporelle à visée d’oxygénation dans les cas les plus sévères de détresse respiratoire secondaire à la grippe A H1N1.Conclusion : Les études observationnelles ne sont pas à opposer aux études interventionnelles mais apportent des résultats complémentaires et offrent des solutions alternatives lorsqu’une intervention ne peut pas être testée. Connaitre les avantages et limites de chacune des méthodes permet d’optimiser la conception des études l’interprétation des résultats. L’utilisation des données observationnelles en réanimation participe pleinement au progrès des connaissances de cette spécialité. / Introduction: Intensive care is a recent medical specialty which has the particularity to provide a close monitoring and traceability of patients and their treatments. Thus, a huge amount of data is daily collected on characteristics, management and evolution of patients. Evidence based medicine usually confronts observational and interventional studies confers to the latters, particularly randomized controlled trials, a higher scientific quality.Objective: To describe the benefit of observational data for intensive care through recent works using different analysis methods. To discuss respective benefits of observational and interventional studies for scientific knowledge in intensive care.Methods: Four prospective observational multicenter studies conducted in intensive care units and published in peer reviewed journals. Detail of the spectrum of available tools to design observational studies presenting different methods such as real time data use, cohort description and propensity matched analysis to estimate a treatment effect. Results: The studies presented in this thesis describe the different contributions of observational data for intensive care. As we demonstrated during the Influenza A H1N1 pandemics, observational data can be used for a real-time monitoring of epidemics. They are necessary to conduct epidemiological studies such as the acute respiratory distress syndrome study presented. We also show how observational data lead to question the definition of weaning from mechanical ventilation groups initially proposed by a consensus conference. Finally, innovative statistics techniques as propensity score allowed the evaluation of extracorporeal membrane oxygenation for the most severe cases of respiratory failure due the Influenza A H1N1. Conclusion: Observational studies should not be opposed to interventional studies as they provide additional results and give alternative options when an interventional cannot be tested. One must know the benefits and limits of each methods in order to optimize studies design and results interpretation. Observational data are fully part of the knowledge progress of intensive care specialty.
118

Nouveaux points de vue sur la classification hiérarchique et normalisation linguistique pour la segmentation et le regroupement en locuteurs / New insights into hierarchical clustering and linguistic normalization for speaker diarization

Bozonnet, Simon 02 May 2012 (has links)
Face au volume croissant de données audio et multimédia, les technologies liées à l'indexation de données et à l'analyse de contenu ont suscité beaucoup d'intérêt dans la communauté scientifique. Parmi celles-ci, la segmentation et le regroupement en locuteurs, répondant ainsi à la question 'Qui parle quand ?' a émergé comme une technique de pointe dans la communauté de traitement de la parole. D'importants progrès ont été réalisés dans le domaine ces dernières années principalement menés par les évaluations internationales du NIST. Tout au long de ces évaluations, deux approches se sont démarquées : l'une est bottom-up et l'autre top-down. L'ensemble des systèmes les plus performants ces dernières années furent essentiellement des systèmes types bottom-up, cependant nous expliquons dans cette thèse que l'approche top-down comporte elle aussi certains avantages. En effet, dans un premier temps, nous montrons qu'après avoir introduit une nouvelle composante de purification des clusters dans l'approche top-down, nous obtenons des performances comparables à celles de l'approche bottom-up. De plus, en étudiant en détails les deux types d'approches nous montrons que celles-ci se comportent différemment face à la discrimination des locuteurs et la robustesse face à la composante lexicale. Ces différences sont alors exploitées au travers d'un nouveau système combinant les deux approches. Enfin, nous présentons une nouvelle technologie capable de limiter l'influence de la composante lexicale, source potentielle d'artefacts dans le regroupement et la segmentation en locuteurs. Notre nouvelle approche se nomme Phone Adaptive Training par analogie au Speaker Adaptive Training / The ever-expanding volume of available audio and multimedia data has elevated technologies related to content indexing and structuring to the forefront of research. Speaker diarization, commonly referred to as the `who spoke when?' task, is one such example and has emerged as a prominent, core enabling technology in the wider speech processing research community. Speaker diarization involves the detection of speaker turns within an audio document (segmentation) and the grouping together of all same-speaker segments (clustering). Much progress has been made in the field over recent years partly spearheaded by the NIST Rich Transcription evaluations focus on meeting domain, in the proceedings of which are found two general approaches: top-down and bottom-up. Even though the best performing systems over recent years have all been bottom-up approaches we show in this thesis that the top-down approach is not without significant merit. Indeed we first introduce a new purification component leading to competitive performance to the bottom-up approach. Moreover, while investigating the two diarization approaches more thoroughly we show that they behave differently in discriminating between individual speakers and in normalizing unwanted acoustic variation, i.e.\ that which does not pertain to different speakers. This difference of behaviours leads to a new top-down/bottom-up system combination outperforming the respective baseline system. Finally, we introduce a new technology able to limit the influence of linguistic effects, responsible for biasing the convergence of the diarization system. Our novel approach is referred to as Phone Adaptive Training (PAT).
119

Semi-Markov modeling of the loss of autonomy among elderly people : application to long-term care insurance / Modélisation semi-markovienne de la perte d'autonomie chez les personnes âgées : application à l'assurance dépendance

Biessy, Guillaume 28 November 2016 (has links)
Défi majeur aux sociétés modernes, la perte d’autonomie chez les personnes âgées, connue également sous le nom de dépendance se définit comme un état d’incapacité à effectuer seul tout ou partie des Actes de la Vie Quotidienne (AVQ). Elle apparaît dans la grande majorité des cas sous l’effet des pathologies chroniques liées au vieillissement. Devant les coûts importants liés à cet état, les assureurs privés ont développé une offre destinée à compléter l’aide publique. Pour quantifier le risque, un modèle multi-états est utilisé et se pose alors la question de l’estimation des probabilités de transition entre les états (l’autonomie, le décès ainsi qu’un ou plusieurs niveaux de dépendance). Sous l’hypothèse de Markov, ces dernières dépendent uniquement de l’état actuel, une hypothèse trop restrictive pour rendre compte de la complexité du processus de dépendance. Dans le cadre semi-markovien plus général, ces probabilités dépendent également du temps passé dans l’état actuel. Au cours de cette thèse, nous étudions la nécessité d’une modélisation semi-markovienne du processus. Nous mettons en évidence l’impact du temps passé en dépendance sur les probabilités de décès. Nous montrons par ailleurs que la prise en compte de la diversité induite par les pathologies permet d’améliorer sensiblement l’adéquation du modèle proposé aux données étudiées. Plus encore, nous établissons que la forme particulière de la probabilité de décès en fonction du temps passé en dépendance peut être expliquée par le mélange des groupes de pathologies qui constituent la population des individus dépendants. / A sizable challenge to modern societies, Long-Term Care (LTC) in elderly people may be defined as a state of incapacity to perform autonomously part of the Activities of Daily Living (ADL). In most cases, long-term care is caused by pathologies linked to aging. To cope with the sizeable costs linked to this state, private insurers have developed products in top of the public aid. To quantify the long-term care risk, multi-state models are used for which transition probabilities betweenstates (autononomy, death and one to several levels of LTC) need to be inferred. Under the Markov assumption, those probabilities only depend on the current state, this assumption being too restrictive in regards of the complexity of the underlying risk. In a semi-Markov framework, those probabilities also depends on the time spent in the current state. In this thesis, we emphasis the need for the semi-Markov modeling. We demonstrate the impact of time spent in LTC on death probabilities. Besides, we exhibit that taking into account the diversity induced by pathologies leads to sizable improvementsin the fit of the model to experience data. Furthermore, we highlight that the peculiar shape taken by death probabilities as a function of time spent in LTC may be explained by the mixture of pathology groups among the disabled population.
120

Development of statistical methods for DNA copy number analysis in cancerology / Développement de méthodes statistiques pour l'analyse du nombre de copies d'ADN en cancérologie

Pierre-Jean, Morgane 02 December 2016 (has links)
Les données génomiques issues d'expériences de puces à ADN ou de séquençage ont deux caractéristiques principales: leur grande dimension (le nombre de marqueurs dépassant de plusieurs ordres de grandeurs le nombre d'observations), et leur forte structuration (notamment via les dépendances entre marqueurs). La prise en compte de cette structuration est un enjeu clé pour le développement de méthodes performantes en grande dimension.Cette thèse est axée sur les données présentant une forte structure le long du génome. C'est le cas des données de nombres de copies d'ADN, mais aussi des données de génotypes. La thèse couvre à la fois le développement de méthodes statistiques, l'implémentation logicielle, et l'application des méthodes développées à des jeux de données réelles. Nous avons, en particulier, étudié des méthodes de segmentation, et de dictionary learning. Toutes les implémentations logiciel de ces méthodes sont librement disponibles sous forme de packages R. / Genomic data from DNA microarray or sequencing technologies have two major characteristics: their high dimension (number of markers larger than the number of observations), and their strong structuration (dependence between markers). Taking into account this structuration, it is a challenging issue for the development of efficient methods.This work is focused on the data with a strong spatial structuration, namely DNA copy number data in tumor samples. We developed statistical models, software implementations and we applied these developments to real data. We explored in particular segmentation models and dictionary learning methods. All the software Implementations of these methods are freely available as R packages.

Page generated in 0.0464 seconds