Global ETD Search

1	Quelques contributions en reconnaissance automatique de la parole robuste Cerisara, Christophe 31 March 2010 (has links) (PDF) La reconnaissance automatique de la parole est un domaine de recherche très actif depuis de nombreuses années. Bien que les performances des systèmes de transcription automatique aient considérablement progressé depuis tout ce temps, les erreurs commises par ces systèmes ne sont toujours pas acceptables du point de vue des utilisateurs, probablement du fait du référentiel humain qui reste largement inégalé, en particulier en ce qui concerne la robustesse des transcriptions aux conditions d'utilisation dégradées. J'étudie dans ce mémoire l'état de l'art du domaine pour la période allant de 1995 à 2010, en me concentrant sur les aspects liés à la robustesse des modèles acoustiques avec un seul microphone. J'y décris également mes principales contributions, en les classant selon les différents étages composant un système de reconnaissance automatique: paramétrisation, modèle acoustique et algorithme de décodage. Dans le domaine de la paramétrisation, mes deux contributions principales concernent une étude du domaine de l'analyse computationnelle de scènes auditives, ainsi qu'une nouvelle approche de débruitage de la parole s'appuyant sur une modélisation bayésienne des espaces bruités et non-bruités et de leur inter-dépendances. Mes travaux sur les modèles acoustiques ont débuté pendant ma thèse de doctorat, qui concernait l'étude des modèles multi-bandes, dans lesquels le spectre du signal de parole est décomposé en bandes de fréquences indépendantes. Dans ce cadre, j'ai notamment proposé un algorithme d'apprentissage discriminant global et la conception de nouvelles unités phonétiques adaptées à l'information phonétique présente dans les bandes. Une autre contribution importante est l'amélioration de l'adaptation jacobienne, qui est une approximation linéaire de la méthode PMC (Parallel Model Combination) dans le domaine cepstral. J'ai notamment proposé une approche permettant de choisir le compromis précision / complexité souhaité, et étendu l'approche au bruit convolutif. Une partie conséquente de mes travaux a ensuite concerné la reconnaissance avec données manquantes, qui, par ses aspects de marginalisation, peut être interprétée comme une modification de l'algorithme de reconnaissance. Cette modification exploite une nouvelle source d'information concernant la localisation spectro-temporelle du bruit afin de concentrer le décodage sur les observations acoustiques les moins corrompues. J'ai ainsi travaillé sur l'adaptation de cette approche au domaine cepstral, notamment en proposant un nouveau formalisme de calcul des masques minimisant directement le taux d'erreur de reconnaissance. Une autre contribution concerne le développement de modèles bayésiens originaux qui discrétisent l'espace de recherche pour estimer les masques, ou encore d'une nouvelle méthode minimisant la largeur de l'intervalle de marginalisation. Cette première partie du mémoire est guidée par une analyse des progrès réalisés en fonction d'un critère, celui de l'information prise en compte par les différentes méthodes proposées. Ce critère est en effet très important, car il a une grande influence sur les évaluations expérimentales et sur les capacités de généralisation des approches. De plus, alors que d'innombrables modèles théoriques d'apprentissage ont été proposés et testés depuis vingt ans, toutes ces approches exploitent quasiment exclusivement l'information acoustique et lexicale. Je soupçonne les limites des paradigmes actuels d'être en bien plus grande partie dus au déficit d'information et de connaissance qu'aux capacités des modèles eux-mêmes. J'ai donc commencé à m'intéresser depuis 2004 aux autres sources d'information qui pourraient servir en reconnaissance de la parole, notamment au contexte et plus particulièrement aux connaissances syntaxiques et sémantiques. Ce mémoire développe ces aspects essentiellement dans une deuxième partie consacrée à la reconnaissance des actes de dialogue, à la segmentation en phrases, à la sémantique lexicale par le biais de la détection automatique du thème, et enfin à l'analyse syntaxique des transcriptions automatiques de l'oral. Mon ambition est tout d'abord d'étudier et d'adapter les approches en linguistique computationnelle permettant d'extraire ces indices du flux de parole afin de prendre en compte les spécificités des transcriptions automatiques, puis d'exploiter en retour ces nouvelles informations afin d'améliorer le système de transcription automatique. reconnaissance automatique de la parole robustesse au bruit données manquantes
2	De la pertinence de la congruence globale en analyse phylogénétique Levasseur, Claudine January 2005 (has links) Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal. Analyse phylogénétique Congruence des caractères Congruence globale Congruence taxonomique Consensus Données manquantes Simulations Super-arbres
3	Méthodes statistiques et informatiques pour le traitement des données manquantes Gu Co, Weila Vila 08 March 1997 (has links) (PDF) Cette thèse est consacrée au traitement des données manquantes. Des méthodes descriptives (analyse en composantes principales, analyse des correspondances dont analyse homogène et la classification automatique) sont étudiées dans le cadre des données incomplètes. La seconde partie est consacrée à des problèmes de fusion de fichiers et analyses homogène y est introduite. Analyse de données incomplètes estimation des données manquantes analyse homogène fusion statistique de fichiers
4	Méthodes de gestion des données manquantes en épidémiologie. : Application en cancérologie / Methods for handling missing data in epidemiology : application in oncology Resseguier, Noémie 04 December 2013 (has links) La problématique de la gestion des données manquantes dans les études épidémiologiques est un sujet qui intéressera tous les chercheurs impliqués dans l’analyse des données recueillies et dans l’interprétation des résultats issus de ces analyses. Et même si la question de la gestion des données manquantes et de leur impact sur la validité des résultats obtenus est souvent discutée, cesont souvent les méthodes de traitement des données manquantes les plus simples mais pas toujours les plus valides qui sont utilisées en pratique. L’utilisation de chacune de ces méthodes suppose un certain nombre d’hypothèses sous lesquelles les résultats obtenus sont valides, mais il n’est pas toujours possible de tester ces hypothèses. L’objectif de ce travail était (i) de proposer une revue des différentes méthodes de traitement des données manquantes utilisées en épidémiologie en discutant les avantages et les limites de chacune de ces méthodes, (ii) de proposer une stratégie d’analyse afin d’étudier la robustesse des résultats obtenues via les méthodes classiques de traitement des données manquantes à l’écart aux hypothèses qui, bien que non testables, sont nécessaires à la validité de ces résultats, et (iii) de proposer quelques applications sur des données réelles des différents point discutés dans les deux premières parties. / The issue of how to deal with missing data in epidemiological studies is a topic which concerns every researcher involved in the analysis of collected data and in the interpretation of the results produced by these analyses. And even if the issue of the handling of missing data and of their impact on the validity of the results is often discussed, simple, but not always appropriate methods to deal with missing data are commonly used. The use of each of these methods is based on some hypotheses under which the obtained results are valid, but it is not always possible to test these hypotheses. The objective of this work was (i) to propose a review of various methods to handle missing data used in the field of epidemiology, and to discuss the advantages and disadvantages of each of these methods, (ii) to propose a strategy of analysis in order to study the robustness of the results obtained via classical methods to handle missing data to the departure from hypotheses which are required for the validity of these results, although they are not testable, and (iii) to propose some applications on real data of the issues discussed in the first two sections. Données manquantes Analyse de sensibilité Cancérologie Mesures subjectives Missing data Sensitivity analysis Oncology Subjective measurements
5	Impact de l’échantillonnage sur l’inférence de structures dans les réseaux : application aux réseaux d’échanges de graines et à l’écologie / Impact of sampling on structure inference in networks : application to seed exchange networks and to ecology Tabouy, Timothée 30 September 2019 (has links) Dans cette thèse nous nous intéressons à l’étude du modèle à bloc stochastique (SBM) en présence de données manquantes. Nous proposons une classification des données manquantes en deux catégories Missing At Random et Not Missing At Random pour les modèles à variables latentes suivant le modèle décrit par D. Rubin. De plus, nous nous sommes attachés à décrire plusieurs stratégies d’échantillonnages de réseau et leurs lois. L’inférence des modèles de SBM avec données manquantes est faite par l’intermédiaire d’une adaptation de l’algorithme EM : l’EM avec approximation variationnelle. L’identifiabilité de plusieurs des SBM avec données manquantes a pu être démontrée ainsi que la consistance et la normalité asymptotique des estimateurs du maximum de vraisemblance et des estimateurs avec approximation variationnelle dans le cas où chaque dyade (paire de nœuds) est échantillonnée indépendamment et avec même probabilité. Nous nous sommes aussi intéressés aux modèles de SBM avec covariables, à leurs inférence en présence de données manquantes et comment procéder quand les covariables ne sont pas disponibles pour conduire l’inférence. Finalement, toutes nos méthodes ont été implémenté dans un package R disponible sur le CRAN. Une documentation complète sur l’utilisation de ce package a été écrite en complément. / In this thesis we are interested in studying the stochastic block model (SBM) in the presence of missing data. We propose a classification of missing data into two categories Missing At Random and Not Missing At Random for latent variable models according to the model described by D. Rubin. In addition, we have focused on describing several network sampling strategies and their distributions. The inference of SBMs with missing data is made through an adaptation of the EM algorithm : the EM with variational approximation. The identifiability of several of the SBM models with missing data has been demonstrated as well as the consistency and asymptotic normality of the maximum likelihood estimators and variational approximation estimators in the case where each dyad (pair of nodes) is sampled independently and with equal probability. We also looked at SBMs with covariates, their inference in the presence of missing data and how to proceed when covariates are not available to conduct the inference. Finally, all our methods were implemented in an R package available on the CRAN. A complete documentation on the use of this package has been written in addition. Modèle à blocs stochastiques Réseaux Données manquantes Networks Missing data Stochastic Block Model
6	Comparaison de quatre méthodes pour le traitement des données manquantes au sein d’un modèle multiniveau paramétrique visant l’estimation de l’effet d’une intervention Paquin, Stéphane 03 1900 (has links) Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention. / Missing data are common in empirical research and can lead to significant errors in parameters’ estimation. This dissertation in the field of methodological sociology addresses the influence of missing data on the estimation of the impact of a prevention program. The first two sections outline the potential bias caused by missing data and present the theoretical background to describe them. The third section focuses on methods for handling missing data, conventional methods are exposed as well as three recent ones. The fourth section contains a description of the Montreal Longitudinal Experimental Study (MLES) and of the data used. The fifth section presents the analysis performed, it contains: the method for analysing the effect of an intervention from longitudinal data, a detailed description of the missing data of MLES and a diagnosis of patterns and mechanisms. The sixth section contains the results of estimating the effect of the program under different assumptions about the mechanism of missing data and by four methods: complete case analysis, maximum likelihood, weighting and multiple imputation. They indicate (I) that the assumption on the type of MAR mechanism seems to affect the estimate of the program’s impact and, (II) that the estimates obtained using different estimation methods leads to similar conclusions about the intervention’s effect. Données manquantes Imputation multiple Maximum de vraisemblance Pondération Mécanisme de données manquantes Multiniveau Intervention Analyse longitudinale Analyse de sensibilité Sensitivity analysis Longitudinal Multilevel Experimental Mecanism Missing data Maximum likelihood Weighting Multiple imputation
7	Comparaison de quatre méthodes pour le traitement des données manquantes au sein d’un modèle multiniveau paramétrique visant l’estimation de l’effet d’une intervention Paquin, Stéphane 03 1900 (has links) Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention. / Missing data are common in empirical research and can lead to significant errors in parameters’ estimation. This dissertation in the field of methodological sociology addresses the influence of missing data on the estimation of the impact of a prevention program. The first two sections outline the potential bias caused by missing data and present the theoretical background to describe them. The third section focuses on methods for handling missing data, conventional methods are exposed as well as three recent ones. The fourth section contains a description of the Montreal Longitudinal Experimental Study (MLES) and of the data used. The fifth section presents the analysis performed, it contains: the method for analysing the effect of an intervention from longitudinal data, a detailed description of the missing data of MLES and a diagnosis of patterns and mechanisms. The sixth section contains the results of estimating the effect of the program under different assumptions about the mechanism of missing data and by four methods: complete case analysis, maximum likelihood, weighting and multiple imputation. They indicate (I) that the assumption on the type of MAR mechanism seems to affect the estimate of the program’s impact and, (II) that the estimates obtained using different estimation methods leads to similar conclusions about the intervention’s effect. Données manquantes Imputation multiple Maximum de vraisemblance Pondération Mécanisme de données manquantes Multiniveau Intervention Analyse longitudinale Analyse de sensibilité Sensitivity analysis Longitudinal Multilevel Experimental Mecanism Missing data Maximum likelihood Weighting Multiple imputation
8	Mesures de discrimination et leurs applications en apprentissage inductif Dang, Thanh Ha 10 July 2007 (has links) (PDF) De nos jours, les données disponibles deviennent de plus en plus volumineuses et elles peuvent être de nature très diverse : vagues, manquantes, numériques, symboliques par exemple. Or ce qui importe à l'utilisateur, ce ne sont pas les données elles-mêmes, mais les connaissances qu'on peut en extraire. Face à la quantité de données disponibles, le traitement efficace de données est problématique. Dans cette thèse, nous adoptons une approche d'extraction de connaissances à partir de données basée sur l'apprentissage inductif, plus précisément, par arbres de décision.<br /><br />De façon générale, un système construit par apprentissage inductif a pour but de discriminer les individus de différentes classes. Sa qualité dépend de la capacité de discrimination qu'il acquiert au cours de l'apprentissage au travers des données. En particulier, un algorithme de construction d'arbre de décision procède par évaluation successive de la capacité de discrimination des attributs pour construire l'arbre de décision.<br /><br />Nos travaux concernent l'étude des mesures de discrimination tant classiques que floues, et leurs applications en apprentissage inductif. <br /><br />D'une part, nous nous intéressons aux mesures de discrimination dans la construction des arbres de décision. Dans un premier temps, ces mesures font l'objet d'une étude selon une approche axiomatique. Nous développons un nouveau modèle pour caractériser les mesures de discriminations floues. Dans un deuxième temps, nous proposons d'utiliser ces mesures dans les différentes étapes de la construction des arbres de décision flous. <br /><br />D'autre part, nous étudions l'utilisation de ces mesures de discrimination pour d'autres aspects de l'apprentissage. Nous examinons tout d'abord le problème de l'évaluation des classifieurs et proposons une méthode basée sur l'utilisation de la notion de capacité de discrimination. Enfin, nous considérons le problème du traitement des données manquantes et proposons une technique de substitution des valeurs manquantes, qui restitue la capacité de discrimination des attributs. <br /><br />Ces travaux sont validés sur des données conventionnelles et appliqués à des données réelles dans le cadre de deux applications qui concernent la classification de courriers électroniques et la classification de traces d'interactions homme-machine. apprentissage inductif arbre de décision mesure de discrimination entropie traitement de données manquantes évaluation de classifieurs
9	Modélisation conjointe de données longitudinales et de durées de vie Dupuy, Jean-François 19 November 2002 (has links) (PDF) Le modèle de régression semiparamétrique de Cox est l'un des plus utilisés pour l'analyse statistique des durées de vie issues du domaine médical ou de la fiabilité. Ses paramètres sont un paramètre de régression et une fonction de risque de base positive et inconnue. L'inférence statistique pour ce modèle, basée sur la vraisemblance partielle de Cox, est souvent compliquée par la présence de données manquantes des covariables. Dans cette thèse, nous proposons une méthode d'estimation des paramètres du modèle de Cox adaptée à cette situation, et nous étudions les propriétés asymptotiques des estimateurs obtenus. La méthode proposée consiste à modéliser conjointement les durées censurées et le processus de covariable afin d'en déduire, par intégration sur les valeurs manquantes de cette covariable, une vraisemblance conjointe permettant d'estimer les paramètres du modèle de Cox au vu des données incomplètes. Dans un premier temps, nous proposons et formalisons un modèle conjoint pour les durées de vie et la covariable longitudinale. Ce modèle est construit à partir du modèle de Cox et d'un modèle de covariable choisi comme étant une fonction en escalier. Nous établissons ensuite l'identifiabilité de ce modèle sous des conditions de régularité peu contraignantes. Puis, nous adaptons au modèle conjoint la méthode du maximum de vraisemblance semiparamétrique. Nous montrons l'existence d'estimateurs semiparamétriques de ses paramètres, et en particulier de ses paramètres d'intérêt, qui sont les paramètres du modèle de Cox. L'expression compliquée de la vraisemblance conjointe ne permet pas d'obtenir analytiquement ces estimateurs. Nous mettons alors en oeuvre l'estimation à l'aide d'un algorithme EM. Nous montrons ensuite la consistance et la normalité asymptotique de nos estimateurs. Puis, nous proposons un estimateur consistant de leur variance asymptotique. Dans une dernière partie, nous appliquons la méthode proposée sur un jeu de données réelles, et nous comparons nos résultats avec deux autres méthodes d'estimation du modèle de Cox avec covariable manquante proposées dans la littérature. [MATH] Mathematics Modèle de Cox Données manquantes des covariables Modélisation conjointe Identifiabilité Consistance Normalité asymptotique Algorithme EM
10	Localisation à base d'empreintes radios (fingerprinting): méthodes robustes de positionnement pour les terminaux cellulaires Arya, Azin 30 September 2011 (has links) (PDF) Ces dernières années, les services basés sur la position (Location Based Services, LBS) ont attiré l'attention des opérateurs mobiles et autres acteurs des télécommunications. L'un des intérêts des opérateurs mobiles dans le contexte de LBS est d'offrir aux abonnés une localisation précise, durable et d'un coût peu élevé. Une méthode éventuelle qui peut répondre à ces besoins, est la méthode de "localisation basée sur les empreintes radios " (Location Fingerprinting, LFP). La méthode LFP exploite les réseaux radios existants, comme les réseaux cellulaires, ou les WLANs. La méthode profite des mesures génériques qui sont disponibles à partir des interfaces radios, et permet donc une localisation à bas coûts.La méthode n'exige pas une grande consommation d'énergie, car elle profite des mesures radios génériques qui se font régulièrement au sein du terminal. La première partie principale de cette thèse concerne la compression de la base de données radio, dans les systèmes de LFP. Nous avons proposé d'effectuer cette compression en appliquant une technique de Clustering pendant la phase d'apprentissage. A cette égard, nous avons développé un algorithme de clustering, bien adapté à la structure des empreintes radios dans la base. Dans la deuxième partie principale de cette thèse, nous avons abordé le sujet du traitement des données manquantes dans les bases de données radio. Une approche systématique a été développée, où on distingue le modèle pour les données complètes, et le modèle pour le mécanisme d'effacement. Ainsi, un algorithme de localisation basé sur le Maximum de Vraisemblance, et une technique de Multiple Imputation sont développés, qui traitent les données manquantes pendant la phase de localisation et la phase d'apprentissage.

Search results