• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 28
  • 14
  • 2
  • Tagged with
  • 39
  • 39
  • 20
  • 17
  • 11
  • 11
  • 8
  • 7
  • 7
  • 7
  • 6
  • 6
  • 6
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Impact des multitrajets sur les performances des systèmes de navigation par satellite : contribution à l'amélioration de la précision de localisation par modélisation bayésienne / Multipath impact on the performances of satellite navigation systems : contribution to the enhancement of location accuracy towards bayesian modeling

Nahimana, Donnay Fleury 19 February 2009 (has links)
De nombreuses solutions sont développées pour diminuer l'influence des multitrajets sur la précision et la disponibilité des systèmes GNSS. L'intégration de capteurs supplémentaires dans le système de localisation est l'une des solutions permettant de compenser notamment l'absence de données satellitaires. Un tel système est certes d'une bonne précision mais sa complexité et son coût limitent un usage très répandu.Cette thèse propose une approche algorithmique destinée à améliorer la précision des systèmes GNSS en milieu urbain. L'étude se base sur l'utilisation des signaux GNSS uniquement et une connaissance de l'environnement proche du récepteur à partir d'un modèle 3D du lieu de navigation.La méthode présentée intervient à l'étape de filtrage du signal reçu par le récepteur GNSS. Elle exploite les techniques de filtrage statistique de type Monte Carlo Séquentiels appelées filtre particulaire. L'erreur de position en milieu urbain est liée à l'état de réception des signaux satellitaires (bloqué, direct ou réfléchi). C'est pourquoi une information sur l'environnement du récepteur doit être prise en compte. La thèse propose également un nouveau modèle d'erreurs de pseudodistance qui permet de considérer les conditions de réception du signal dans le calcul de la position.Dans un premier temps, l'état de réception de chaque satellite reçu est supposé connu dans le filtre particulaire. Une chaîne de Markov, valable pour une trajectoire connue du mobile, est préalablement définie pour déduire les états successifs de réception des satellites. Par la suite, on utilise une distribution de Dirichlet pour estimer les états de réception des satellites / Most of the GNSS-based transport applications are employed in dense urban areas. One of the reasons of bad position accuracy in urban area is the obstacle's presence (building and trees). Many solutions are developed to decrease the multipath impact on accuracy and availability of GNSS systems. Integration of supplementary sensors into the localisation system is one of the solutions used to supply a lack of GNSS data. Such systems offer good accuracy but increase complexity and cost, which becomes inappropriate to equip a large fleet of vehicles.This thesis proposes an algorithmic approach to enhance the position accuracy in urban environment. The study is based on GNSS signals only and knowledge of the close reception environment with a 3D model of the navigation area.The method impacts the signal filtering step of the process. The filtering process is based on Sequential Monte Carlo methods called particle filter. As the position error in urban area is related to the satellite reception state (blocked, direct or reflected), information of the receiver environment is taken into account. A pseudorange error model is also proposed to fit satellite reception conditions. In a first work, the reception state of each satellite is assumed to be known. A Markov chain is defined for a known trajectory of the vehicle and is used to determine the successive reception states of each signal. Then, the states are estimated using a Dirichlet distribution
32

Fonctionnement hydrogéologique et processus de transport dans les aquifères karstiques du Massif du Jura / Hydrogeological functioning and transport processes in the karst aquifers of the Jura Mountains

Cholet, Cybèle 18 May 2017 (has links)
La compréhension du fonctionnement des aquifères karstiques est un enjeu considérable au vu des structures complexes de ces réservoirs. La forte hétérogénéité des écoulements induit une grande vulnérabilité de ces milieux et des comportements variés au cours des crues en lien avec différents processus de recharge. Dans le Massif du Jura, les aquifères karstiques constituent la principale ressource en eau potable et posent la question de leur rôle dans la dégradation de la qualité de l'eau observée depuis plusieurs décennies. Cette thèse propose différentes approches complémentaires pour mieux comprendre les dynamiques de crues dans ces aquifères sous diverses conditions hydrologiques. Plusieurs systèmes karstiques du Massif du Jura, présentant des dimensions variables et dominés par des mécanismes de recharges distincts, sont caractérisés à partir de suivis physico-chimiques et hydrochimiques détaillés.Tout d'abord, les différents systèmes sont comparés à l'échelle du cycle hydrologique et à l'échelle saisonnière afin d'identifier les processus de recharge dominants (infiltrations localisées et/ou diffuses) ainsi que les signatures hydrochimiques caractéristiques (arrivées allochtones, autochtones et/ou anthropiques). Une étude comparative de deux systèmes met en avant la forte variabilité saisonnière de la réponse hydrochimique sur un système marqué par une recharge localisée importante. Les différents systèmes sont ensuite analysés à une échelle de temps plus fine afin de mieux comprendre les dynamiques de crues. Une crue intense d'automne a été ainsi comparée à de plus petites crues précédées par des périodes d'étiages importantes et marquées par des signatures hydrochimiques anthropiques significatives. A partir de ces résultats, la méthode EMMA (End-Member Mixing Analysis) est appliquée afin d'établir les principaux pôles hydrochirniques responsables des contributions caractéristiques des différents systèmes. Ensuite, au vu du transport important de matières en suspension au cours des crues dans ces aquifères, une partie de ce travail vise à mieux comprendre le rôle et l'impact de ces matières sur le transport dissous et colloïdal. Les éléments traces métalliques (ETM) sont utilisés afin de caractériser l'origine et la dynamique des transferts. Ils apparaissent alors comme des outils pertinents pour identifier des phénomènes de dépôts et de remobilisation de particules dans le système. Ces dynamiques s'observent à la fois sur le système de Fourbanne marqué par une infiltration localisée importante et sur le petit système du Dahon, caractérisé par une infiltration diffuse.Finalement, afin de mieux comprendre la variabilité spatio-temporelle des interactions qui ont lieu au cours des crues le long du conduit karstique, une nouvelle approche de modélisation est définit. Elle propose l'utilisation des équations de l'onde diffusante et d'advection-diffusion avec la même résolution mathématique (solution analytique d'Hayarni (1951)) en supposant une distribution uniforme des échanges le long du conduit. A partir d'une modélisation inverse, elle permet alors d'identifier et d'estimer les échanges en termes de flux hydriques et de flux massiques entre deux stations de mesure. Cette méthodologie est appliquée sur le système de Fourbanne le long de deux tronçons caractérisant (1) la zone non-saturée et (2) zone non-saturée et saturée. L'analyse de plusieurs crues permet d'observer des dynamiques d'échanges variées sur les deux tronçons. Elle permet ainsi d'établir un schéma de fonctionnement du système soulignant des interactions importantes dans la zone saturée et également le rôle de la zone non-saturée pour le stockage dans le système karstique.Ce travail de thèse propose donc un ensemble d'outils riches et complémentaires pour mieux comprendre les dynamiques de crues et montre l'importance de coupler l'analyse des processus hydrodynamiques et hydrochimiques afin de mieux déchiffrer le fonctionnement de ces aquifères. / The understanding of karst aquifer functioning is a major issue, given the complex structures of these reservoirs. The high heterogeneity of the flows induces a high vulnerability of these media and implies distinct behaviours during floods because of various infiltration processes. In the Jura Mountains, karst aquifers constitute the main source of water drinking supply and raise the question of their role in the degradation of water quality observed for several decades. This work uses complementary approaches to better understand the dynamics of floods in aquifers under various hydrological conditions. Several karst systems of the Jura Mountains, varying in size and characterized by distinct recharge processes, are investigated by detailed physico-chemical and hydrochemical monitoring.First, the different systems are compared at the hydrological cycle scale and at the seasonal scale to identify the dominant recharge processes (localized and/or diffuse infiltrations) as well as the characteristic hydrochemical signatures (allochtonous, autochthonous and/or anthropogenic). A comparative study of two systems with distinct recharge processes highlights the high seasonal variability of the hydrochemical response. The different systems are then analysed on a finer time scale to shed light on flood dynamics. An intense autumn flood was thus compared to smaller floods preceded by periods of significant low flow and marked by significant anthropogenic hydrochemical signatures. The EMMA (End-Member Mixing Analysis) method is applied to these results in order to establish the main hydrochemical end-members responsible for the characteristic contributions of the different systems.Then, considering the important transport of suspended matter during floods in these aquifers, part of this work aims to better understand the role and impact of these materials on dissolved and colloidal transport. Metal trace elements (ETM) are used to characterize the origin and transfer dynamics. These are relevant tools to identify the processes of storage and remobilization of the particles in the system. These dynamics are observed both on the Fourbanne system with an important localized infiltration, and on the small Dahon system, characterized by diffuse infiltration.Finally, in order to shed light on the spatio-temporal variability of the interactions that occur along the karst network during floods, a new modelling approach is defined. It is based upon the use of the diffusive wave and advection­diffusion equations with the same mathematical resolution (Hayami's analytical solution (1951)) assuming a uniform distribution of the exchanges along the reach. An inverse modelling approach allows to identify and estimate the exchanges in terms of water flows and solute between two measurement stations. This methodology is applied to the Fourbanne system on two sections characterizing (1) the unsaturated zone and (2) unsaturated and saturated zone. The analysis of several floods highlights the different exchange dynamics on the two sections. It thus makes it possible to establish a functioning scheme of the system, bringing to light the important interactions in the saturated zone and also the storage role of the unsaturated zone in the karst system.This work offers a set of rich and complementary tools to better characterize the dynamics of floods and shows the importance of coupling the analysis of the hydrodynamic and hydrochemical processes to better decipher the functioning of these aquifers.
33

Modélisation et étude numérique d'écoulements diphasiques : Modélisation d’un écoulement homogène équilibré : Modélisation des collisions entre gouttelettes à l’aide d’un modèle simplifié de type BGK / Modeling and numerical study of two phases flow

Champmartin, Aude 28 February 2011 (has links)
Cette thèse décrit la modélisation et la simulation de systèmes à deux phases composées de particules évoluant dans un gaz. Les deux phases interagissent entre elles et le type de modèle à considérer dépend directement du type de simulations envisagées. Dans une première partie, les deux phases sont considérées comme des fluides, elles sont décrites à l’aide d’un modèle de mélange avec une relation de dérive (permettant de suivre une vitesse relative entre les deux phases et de prendre en compte deux vitesses) et sont supposées à l’équilibre en température et pression. Cette partie du manuscrit est composée de la dérivation des équations, de l’écriture d’un schéma numérique associé à ce jeu d’équations, d’une étude d’ordre de ce schéma ainsi que de simulations. Une étude mathématique de ce modèle (hyperbolicité dans un cadre simplifié, stabilité du système linéaire autour d’un état constant) a été réalisée dans un cadre o`u le gaz est supposé barotrope. La seconde partie de ce manuscrit est consacrée à la modélisation de l’effet de collisions inélastiques sur les gouttelettes lorsque l’on se place à un temps de simulation beaucoup plus court, pour lequel les gouttelettes ne peuvent plus être vues comme un fluide. Pour modéliser ces collisions, on construit un modèle simplifié (moins coûteux en temps) de type BGK permettant de reproduire le comportement en temps de certains moments sur les gouttelettes. Ces moments sont choisis pour être représentatifs de l’effet des collisions sur ces gouttelettes, à savoir une thermalisation en vitesse et énergie. Ce modèle est discrétisé avec une méthode particulaire et des résultats numériques sont donnés en comparaison avec ceux obtenus avec un modèle résolvant directement l’équation de Boltzmann homogène. / This thesis describes the modelisation and the simulation of two-phase systems composed of droplets moving in a gas. The two phases interact with each other and the type of model to consider directly depends on the type of simulations targeted. In the first part, the two phases are considered as fluid and are described using a mixture model with a drift relation (to be able to follow the relative velocity between the two phases and take into account two velocities), the two-phase flows are assumed at the equilibrium in temperature and pressure. This part of the manuscript consists of the derivation of the equations, writing a numerical scheme associated with this set of equations, a study of this scheme and simulations. A mathematical study of this model (hyperbolicity in a simplified framework, linear stability analysis of the system around a steady state) was conducted in a frame where the gas is assumed barotropic. The second part is devoted to the modelisation of the effect of inelastic collisions on the particles when the time of the simulation is shorter and the droplets can no longer be seen as a fluid. We introduce a model of inelastic collisions for droplets in a spray, leading to a specific Boltzmann kernel. Then, we build caricatures of this kernel of BGK type, in which the behavior of the first moments of the solution of the Boltzmann equation (that is mass, momentum, directional temperatures, variance of the internal energy) are mimicked. The quality of these caricatures is tested numerically at the end.
34

Détection du fondamental de la parole en temps réel : application aux voix pathologiques

Bahja, Fadoua 15 June 2013 (has links) (PDF)
Cette thèse s'inscrit dans le cadre des travaux de recherche qui visent la détermination de la fréquence fondamentale du signal de parole. La première contribution est relative au développement d'algorithmes de détection du pitch en temps réel à partir d'une autocorrélation circulaire du signal d'excitation glottique. Parmi tous les algorithmes de détection du pitch, décrits dans la littérature, rares sont ceux qui peuvent résoudre correctement tous les problèmes li'es au suivi du contour du pitch. Pour cette raison, nous avons élargi notre champ d'investigation et avons proposé de nouveaux algorithmes fondés sur la transformation en ondelettes. Pour évaluer les performances des algorithmes proposés, nous avons utilisé deux bases de données : Bagshaw et Keele. Les résultats que nous avons obtenus montrent clairement que nos algorithmes surclassent les meilleurs algorithmes de référence décrits dans la littérature. La deuxième contribution de cette thèse concerne la réalisation d'un système de conversion de voix dans le but d'améliorer la voix pathologique. Nous parlons dans ce cas d'un système de correction de voix. Notre principal apport, concernant la conversion vocale, consiste en la prédiction des coefficients cepstraux de Fourier relatifs au signal d'excitation glottique. Grâce à ce nouveau type de prédiction, nous avons pu réaliser des systèmes de conversion de voix dont les résultats, qu'ils soient objectifs ou subjectifs, valident l'approche proposée.
35

Méthode non-paramétrique des noyaux associés mixtes et applications / Non parametric method of mixed associated kernels and applications

Libengue Dobele-kpoka, Francial Giscard Baudin 13 June 2013 (has links)
Nous présentons dans cette thèse, l'approche non-paramétrique par noyaux associés mixtes, pour les densités àsupports partiellement continus et discrets. Nous commençons par rappeler d'abord les notions essentielles d'estimationpar noyaux continus (classiques) et noyaux associés discrets. Nous donnons la définition et les caractéristiques desestimateurs à noyaux continus (classiques) puis discrets. Nous rappelons aussi les différentes techniques de choix deparamètres de lissage et nous revisitons les problèmes de supports ainsi qu'une résolution des effets de bord dans le casdiscret. Ensuite, nous détaillons la nouvelle méthode d'estimation de densités par les noyaux associés continus, lesquelsenglobent les noyaux continus (classiques). Nous définissons les noyaux associés continus et nous proposons laméthode mode-dispersion pour leur construction puis nous illustrons ceci sur les noyaux associés non-classiques de lalittérature à savoir bêta et sa version étendue, gamma et son inverse, gaussien inverse et sa réciproque le noyau dePareto ainsi que le noyau lognormal. Nous examinons par la suite les propriétés des estimateurs qui en sont issus plusprécisément le biais, la variance et les erreurs quadratiques moyennes ponctuelles et intégrées. Puis, nous proposons unalgorithme de réduction de biais que nous illustrons sur ces mêmes noyaux associés non-classiques. Des études parsimulations sont faites sur trois types d’estimateurs à noyaux lognormaux. Par ailleurs, nous étudions lescomportements asymptotiques des estimateurs de densité à noyaux associés continus. Nous montrons d'abord lesconsistances faibles et fortes ainsi que la normalité asymptotique ponctuelle. Ensuite nous présentons les résultats desconsistances faibles et fortes globales en utilisant les normes uniformes et L1. Nous illustrons ceci sur trois typesd’estimateurs à noyaux lognormaux. Par la suite, nous étudions les propriétés minimax des estimateurs à noyauxassociés continus. Nous décrivons d'abord le modèle puis nous donnons les hypothèses techniques avec lesquelles noustravaillons. Nous présentons ensuite nos résultats minimax tout en les appliquant sur les noyaux associés non-classiquesbêta, gamma et lognormal. Enfin, nous combinons les noyaux associés continus et discrets pour définir les noyauxassociés mixtes. De là, les outils d'unification d'analyses discrètes et continues sont utilisés, pour montrer les différentespropriétés des estimateurs à noyaux associés mixtes. Une application sur un modèle de mélange des lois normales et dePoisson tronquées est aussi donnée. Tout au long de ce travail, nous choisissons le paramètre de lissage uniquementavec la méthode de validation croisée par les moindres carrés. / We present in this thesis, the non-parametric approach using mixed associated kernels for densities withsupports being partially continuous and discrete. We first start by recalling the essential concepts of classical continuousand discrete kernel density estimators. We give the definition and characteristics of these estimators. We also recall thevarious technical for the choice of smoothing parameters and we revisit the problems of supports as well as a resolutionof the edge effects in the discrete case. Then, we describe a new method of continuous associated kernels for estimatingdensity with bounded support, which includes the classical continuous kernel method. We define the continuousassociated kernels and we propose the mode-dispersion for their construction. Moreover, we illustrate this on the nonclassicalassociated kernels of literature namely, beta and its extended version, gamma and its inverse, inverse Gaussianand its reciprocal, the Pareto kernel and the kernel lognormal. We subsequently examine the properties of the estimatorswhich are derived, specifically, the bias, variance and the pointwise and integrated mean squared errors. Then, wepropose an algorithm for reducing bias that we illustrate on these non-classical associated kernels. Some simulationsstudies are performed on three types of estimators lognormal kernels. Also, we study the asymptotic behavior of thecontinuous associated kernel estimators for density. We first show the pointwise weak and strong consistencies as wellas the asymptotic normality. Then, we present the results of the global weak and strong consistencies using uniform andL1norms. We illustrate this on three types of lognormal kernels estimators. Subsequently, we study the minimaxproperties of the continuous associated kernel estimators. We first describe the model and we give the technicalassumptions with which we work. Then we present our results that we apply on some non-classical associated kernelsmore precisely beta, gamma and lognormal kernel estimators. Finally, we combine continuous and discrete associatedkernels for defining the mixed associated kernels. Using the tools of the unification of discrete and continuous analysis,we show the different properties of the mixed associated kernel estimators. All through this work, we choose thesmoothing parameter using the least squares cross-validation method.
36

Modèles de covariance pour l'analyse et la classification de signaux électroencéphalogrammes / Covariance models for electroencephalogramm signals analysis and classification

Spinnato, Juliette 06 July 2015 (has links)
Cette thèse s’inscrit dans le contexte de l’analyse et de la classification de signaux électroencéphalogrammes (EEG) par des méthodes d’analyse discriminante. Ces signaux multi-capteurs qui sont, par nature, très fortement corrélés spatialement et temporellement sont considérés dans le plan temps-fréquence. En particulier, nous nous intéressons à des signaux de type potentiels évoqués qui sont bien représentés dans l’espace des ondelettes. Par la suite, nous considérons donc les signaux représentés par des coefficients multi-échelles et qui ont une structure matricielle électrodes × coefficients. Les signaux EEG sont considérés comme un mélange entre l’activité d’intérêt que l’on souhaite extraire et l’activité spontanée (ou "bruit de fond"), qui est largement prépondérante. La problématique principale est ici de distinguer des signaux issus de différentes conditions expérimentales (classes). Dans le cas binaire, nous nous focalisons sur l’approche probabiliste de l’analyse discriminante et des modèles de mélange gaussien sont considérés, décrivant dans chaque classe les signaux en termes de composantes fixes (moyenne) et aléatoires. Cette dernière, caractérisée par sa matrice de covariance, permet de modéliser différentes sources de variabilité. Essentielle à la mise en oeuvre de l’analyse discriminante, l’estimation de cette matrice (et de son inverse) peut être dégradée dans le cas de grandes dimensions et/ou de faibles échantillons d’apprentissage, cadre applicatif de cette thèse. Nous nous intéressons aux alternatives qui se basent sur la définition de modèle(s) de covariance(s) particulier(s) et qui permettent de réduire le nombre de paramètres à estimer. / The present thesis finds itself within the framework of analyzing and classifying electroencephalogram signals (EEG) using discriminant analysis. Those multi-sensor signals which are, by nature, highly correlated spatially and temporally are considered, in this work, in the timefrequency domain. In particular, we focus on low-frequency evoked-related potential-type signals (ERPs) that are well described in the wavelet domain. Thereafter, we will consider signals represented by multi-scale coefficients and that have a matrix structure electrodes × coefficients. Moreover, EEG signals are seen as a mixture between the signal of interest that we want to extract and spontaneous activity (also called "background noise") which is overriding. The main problematic is here to distinguish signals from different experimental conditions (class). In the binary case, we focus on the probabilistic approach of the discriminant analysis and Gaussian mixtures are used, describing in each class the signals in terms of fixed (mean) and random components. The latter, characterized by its covariance matrix, allow to model different variability sources. The estimation of this matrix (and of its inverse) is essential for the implementation of the discriminant analysis and can be deteriorated by high-dimensional data and/or by small learning samples, which is the application framework of this thesis. We are interested in alternatives that are based on specific covariance model(s) and that allow to decrease the number of parameters to estimate.
37

Analyse intégrative de données de grande dimension appliquée à la recherche vaccinale / Integrative analysis of high-dimensional data applied to vaccine research

Hejblum, Boris 06 March 2015 (has links)
Les données d’expression génique sont reconnues comme étant de grande dimension, etnécessitant l’emploi de méthodes statistiques adaptées. Mais dans le contexte des essaisvaccinaux, d’autres mesures, comme par exemple les mesures de cytométrie en flux, sontégalement de grande dimension. De plus, ces données sont souvent mesurées de manièrelongitudinale. Ce travail est bâti sur l’idée que l’utilisation d’un maximum d’informationdisponible, en modélisant les connaissances a priori ainsi qu’en intégrant l’ensembledes différentes données disponibles, améliore l’inférence et l’interprétabilité des résultatsd’analyses statistiques en grande dimension. Tout d’abord, nous présentons une méthoded’analyse par groupe de gènes pour des données d’expression génique longitudinales. Ensuite,nous décrivons deux analyses intégratives dans deux études vaccinales. La premièremet en évidence une sous-expression des voies biologiques d’inflammation chez les patientsayant un rebond viral moins élevé à la suite d’un vaccin thérapeutique contre le VIH. Ladeuxième étude identifie un groupe de gènes lié au métabolisme lipidique dont l’impactsur la réponse à un vaccin contre la grippe semble régulé par la testostérone, et donc liéau sexe. Enfin, nous introduisons un nouveau modèle de mélange de distributions skew t àprocessus de Dirichlet pour l’identification de populations cellulaires à partir de donnéesde cytométrie en flux disponible notamment dans les essais vaccinaux. En outre, nousproposons une stratégie d’approximation séquentielle de la partition a posteriori dans lecas de mesures répétées. Ainsi, la reconnaissance automatique des populations cellulairespourrait permettre à la fois une avancée pratique pour le quotidien des immunologistesainsi qu’une interprétation plus précise des résultats d’expression génique après la priseen compte de l’ensemble des populations cellulaires. / Gene expression data is recognized as high-dimensional data that needs specific statisticaltools for its analysis. But in the context of vaccine trials, other measures, such asflow-cytometry measurements are also high-dimensional. In addition, such measurementsare often repeated over time. This work is built on the idea that using the maximum ofavailable information, by modeling prior knowledge and integrating all data at hand, willimprove the inference and the interpretation of biological results from high-dimensionaldata. First, we present an original methodological development, Time-course Gene SetAnalysis (TcGSA), for the analysis of longitudinal gene expression data, taking into accountprior biological knowledge in the form of predefined gene sets. Second, we describetwo integrative analyses of two different vaccine studies. The first study reveals lowerexpression of inflammatory pathways consistently associated with lower viral rebound followinga HIV therapeutic vaccine. The second study highlights the role of a testosteronemediated group of genes linked to lipid metabolism in sex differences in immunologicalresponse to a flu vaccine. Finally, we introduce a new model-based clustering approach forthe automated treatment of cell populations from flow-cytometry data, namely a Dirichletprocess mixture of skew t-distributions, with a sequential posterior approximation strategyfor dealing with repeated measurements. Hence, the automatic recognition of thecell populations could allow a practical improvement of the daily work of immunologistsas well as a better interpretation of gene expression data after taking into account thefrequency of all cell populations.
38

Hard and fuzzy block clustering algorithms for high dimensional data / Algorithmes de block-clustering dur et flou pour les données en grande dimension

Laclau, Charlotte 14 April 2016 (has links)
Notre capacité grandissante à collecter et stocker des données a fait de l'apprentissage non supervisé un outil indispensable qui permet la découverte de structures et de modèles sous-jacents aux données, sans avoir à \étiqueter les individus manuellement. Parmi les différentes approches proposées pour aborder ce type de problème, le clustering est très certainement le plus répandu. Le clustering suppose que chaque groupe, également appelé cluster, est distribué autour d'un centre défini en fonction des valeurs qu'il prend pour l'ensemble des variables. Cependant, dans certaines applications du monde réel, et notamment dans le cas de données de dimension importante, cette hypothèse peut être invalidée. Aussi, les algorithmes de co-clustering ont-ils été proposés: ils décrivent les groupes d'individus par un ou plusieurs sous-ensembles de variables au regard de leur pertinence. La structure des données finalement obtenue est composée de blocs communément appelés co-clusters. Dans les deux premiers chapitres de cette thèse, nous présentons deux approches de co-clustering permettant de différencier les variables pertinentes du bruit en fonction de leur capacité \`a révéler la structure latente des données, dans un cadre probabiliste d'une part et basée sur la notion de métrique, d'autre part. L'approche probabiliste utilise le principe des modèles de mélanges, et suppose que les variables non pertinentes sont distribuées selon une loi de probabilité dont les paramètres sont indépendants de la partition des données en cluster. L'approche métrique est fondée sur l'utilisation d'une distance adaptative permettant d'affecter à chaque variable un poids définissant sa contribution au co-clustering. D'un point de vue théorique, nous démontrons la convergence des algorithmes proposés en nous appuyant sur le théorème de convergence de Zangwill. Dans les deux chapitres suivants, nous considérons un cas particulier de structure en co-clustering, qui suppose que chaque sous-ensemble d'individus et décrit par un unique sous-ensemble de variables. La réorganisation de la matrice originale selon les partitions obtenues sous cette hypothèse révèle alors une structure de blocks homogènes diagonaux. Comme pour les deux contributions précédentes, nous nous plaçons dans le cadre probabiliste et métrique. L'idée principale des méthodes proposées est d'imposer deux types de contraintes : (1) nous fixons le même nombre de cluster pour les individus et les variables; (2) nous cherchons une structure de la matrice de données d'origine qui possède les valeurs maximales sur sa diagonale (par exemple pour le cas des données binaires, on cherche des blocs diagonaux majoritairement composés de valeurs 1, et de 0 à l’extérieur de la diagonale). Les approches proposées bénéficient des garanties de convergence issues des résultats des chapitres précédents. Enfin, pour chaque chapitre, nous dérivons des algorithmes permettant d'obtenir des partitions dures et floues. Nous évaluons nos contributions sur un large éventail de données simulées et liées a des applications réelles telles que le text mining, dont les données peuvent être binaires ou continues. Ces expérimentations nous permettent également de mettre en avant les avantages et les inconvénients des différentes approches proposées. Pour conclure, nous pensons que cette thèse couvre explicitement une grande majorité des scénarios possibles découlant du co-clustering flou et dur, et peut être vu comme une généralisation de certaines approches de biclustering populaires. / With the increasing number of data available, unsupervised learning has become an important tool used to discover underlying patterns without the need to label instances manually. Among different approaches proposed to tackle this problem, clustering is arguably the most popular one. Clustering is usually based on the assumption that each group, also called cluster, is distributed around a center defined in terms of all features while in some real-world applications dealing with high-dimensional data, this assumption may be false. To this end, co-clustering algorithms were proposed to describe clusters by subsets of features that are the most relevant to them. The obtained latent structure of data is composed of blocks usually called co-clusters. In first two chapters, we describe two co-clustering methods that proceed by differentiating the relevance of features calculated with respect to their capability of revealing the latent structure of the data in both probabilistic and distance-based framework. The probabilistic approach uses the mixture model framework where the irrelevant features are assumed to have a different probability distribution that is independent of the co-clustering structure. On the other hand, the distance-based (also called metric-based) approach relied on the adaptive metric where each variable is assigned with its weight that defines its contribution in the resulting co-clustering. From the theoretical point of view, we show the global convergence of the proposed algorithms using Zangwill convergence theorem. In the last two chapters, we consider a special case of co-clustering where contrary to the original setting, each subset of instances is described by a unique subset of features resulting in a diagonal structure of the initial data matrix. Same as for the two first contributions, we consider both probabilistic and metric-based approaches. The main idea of the proposed contributions is to impose two different kinds of constraints: (1) we fix the number of row clusters to the number of column clusters; (2) we seek a structure of the original data matrix that has the maximum values on its diagonal (for instance for binary data, we look for diagonal blocks composed of ones with zeros outside the main diagonal). The proposed approaches enjoy the convergence guarantees derived from the results of the previous chapters. Finally, we present both hard and fuzzy versions of the proposed algorithms. We evaluate our contributions on a wide variety of synthetic and real-world benchmark binary and continuous data sets related to text mining applications and analyze advantages and inconvenients of each approach. To conclude, we believe that this thesis covers explicitly a vast majority of possible scenarios arising in hard and fuzzy co-clustering and can be seen as a generalization of some popular biclustering approaches.
39

Regression modeling with missing outcomes : competing risks and longitudinal data / Contributions aux modèles de régression avec réponses manquantes : risques concurrents et données longitudinales

Moreno Betancur, Margarita 05 December 2013 (has links)
Les données manquantes sont fréquentes dans les études médicales. Dans les modèles de régression, les réponses manquantes limitent notre capacité à faire des inférences sur les effets des covariables décrivant la distribution de la totalité des réponses prévues sur laquelle porte l'intérêt médical. Outre la perte de précision, toute inférence statistique requière qu'une hypothèse sur le mécanisme de manquement soit vérifiée. Rubin (1976, Biometrika, 63:581-592) a appelé le mécanisme de manquement MAR (pour les sigles en anglais de « manquant au hasard ») si la probabilité qu'une réponse soit manquante ne dépend pas des réponses manquantes conditionnellement aux données observées, et MNAR (pour les sigles en anglais de « manquant non au hasard ») autrement. Cette distinction a des implications importantes pour la modélisation, mais en général il n'est pas possible de déterminer si le mécanisme de manquement est MAR ou MNAR à partir des données disponibles. Par conséquent, il est indispensable d'effectuer des analyses de sensibilité pour évaluer la robustesse des inférences aux hypothèses de manquement.Pour les données multivariées incomplètes, c'est-à-dire, lorsque l'intérêt porte sur un vecteur de réponses dont certaines composantes peuvent être manquantes, plusieurs méthodes de modélisation sous l'hypothèse MAR et, dans une moindre mesure, sous l'hypothèse MNAR ont été proposées. En revanche, le développement de méthodes pour effectuer des analyses de sensibilité est un domaine actif de recherche. Le premier objectif de cette thèse était de développer une méthode d'analyse de sensibilité pour les données longitudinales continues avec des sorties d'étude, c'est-à-dire, pour les réponses continues, ordonnées dans le temps, qui sont complètement observées pour chaque individu jusqu'à la fin de l'étude ou jusqu'à ce qu'il sorte définitivement de l'étude. Dans l'approche proposée, on évalue les inférences obtenues à partir d'une famille de modèles MNAR dits « de mélange de profils », indexés par un paramètre qui quantifie le départ par rapport à l'hypothèse MAR. La méthode a été motivée par un essai clinique étudiant un traitement pour le trouble du maintien du sommeil, durant lequel 22% des individus sont sortis de l'étude avant la fin.Le second objectif était de développer des méthodes pour la modélisation de risques concurrents avec des causes d'évènement manquantes en s'appuyant sur la théorie existante pour les données multivariées incomplètes. Les risques concurrents apparaissent comme une extension du modèle standard de l'analyse de survie où l'on distingue le type d'évènement ou la cause l'ayant entrainé. Les méthodes pour modéliser le risque cause-spécifique et la fonction d'incidence cumulée supposent en général que la cause d'évènement est connue pour tous les individus, ce qui n'est pas toujours le cas. Certains auteurs ont proposé des méthodes de régression gérant les causes manquantes sous l'hypothèse MAR, notamment pour la modélisation semi-paramétrique du risque. Mais d'autres modèles n'ont pas été considérés, de même que la modélisation sous MNAR et les analyses de sensibilité. Nous proposons des estimateurs pondérés et une approche par imputation multiple pour la modélisation semi-paramétrique de l'incidence cumulée sous l'hypothèse MAR. En outre, nous étudions une approche par maximum de vraisemblance pour la modélisation paramétrique du risque et de l'incidence sous MAR. Enfin, nous considérons des modèles de mélange de profils dans le contexte des analyses de sensibilité. Un essai clinique étudiant un traitement pour le cancer du sein de stade II avec 23% des causes de décès manquantes sert à illustrer les méthodes proposées. / Missing data are a common occurrence in medical studies. In regression modeling, missing outcomes limit our capability to draw inferences about the covariate effects of medical interest, which are those describing the distribution of the entire set of planned outcomes. In addition to losing precision, the validity of any method used to draw inferences from the observed data will require that some assumption about the mechanism leading to missing outcomes holds. Rubin (1976, Biometrika, 63:581-592) called the missingness mechanism MAR (for “missing at random”) if the probability of an outcome being missing does not depend on missing outcomes when conditioning on the observed data, and MNAR (for “missing not at random”) otherwise. This distinction has important implications regarding the modeling requirements to draw valid inferences from the available data, but generally it is not possible to assess from these data whether the missingness mechanism is MAR or MNAR. Hence, sensitivity analyses should be routinely performed to assess the robustness of inferences to assumptions about the missingness mechanism. In the field of incomplete multivariate data, in which the outcomes are gathered in a vector for which some components may be missing, MAR methods are widely available and increasingly used, and several MNAR modeling strategies have also been proposed. On the other hand, although some sensitivity analysis methodology has been developed, this is still an active area of research. The first aim of this dissertation was to develop a sensitivity analysis approach for continuous longitudinal data with drop-outs, that is, continuous outcomes that are ordered in time and completely observed for each individual up to a certain time-point, at which the individual drops-out so that all the subsequent outcomes are missing. The proposed approach consists in assessing the inferences obtained across a family of MNAR pattern-mixture models indexed by a so-called sensitivity parameter that quantifies the departure from MAR. The approach was prompted by a randomized clinical trial investigating the benefits of a treatment for sleep-maintenance insomnia, from which 22% of the individuals had dropped-out before the study end. The second aim was to build on the existing theory for incomplete multivariate data to develop methods for competing risks data with missing causes of failure. The competing risks model is an extension of the standard survival analysis model in which failures from different causes are distinguished. Strategies for modeling competing risks functionals, such as the cause-specific hazards (CSH) and the cumulative incidence function (CIF), generally assume that the cause of failure is known for all patients, but this is not always the case. Some methods for regression with missing causes under the MAR assumption have already been proposed, especially for semi-parametric modeling of the CSH. But other useful models have received little attention, and MNAR modeling and sensitivity analysis approaches have never been considered in this setting. We propose a general framework for semi-parametric regression modeling of the CIF under MAR using inverse probability weighting and multiple imputation ideas. Also under MAR, we propose a direct likelihood approach for parametric regression modeling of the CSH and the CIF. Furthermore, we consider MNAR pattern-mixture models in the context of sensitivity analyses. In the competing risks literature, a starting point for methodological developments for handling missing causes was a stage II breast cancer randomized clinical trial in which 23% of the deceased women had missing cause of death. We use these data to illustrate the practical value of the proposed approaches.

Page generated in 0.3714 seconds