Global ETD Search

41	Sur quelques problèmes non-supervisés impliquant des séries temporelles hautement dèpendantes Khaleghi, Azadeh 18 November 2013 (has links) (PDF) Cette thèse est consacrée à l'analyse théorique de problèmes non supervisés impliquant des séries temporelles hautement dépendantes. Plus particulièrement, nous abordons les deux problèmes fondamentaux que sont le problème d'estimation des points de rupture et le partitionnement de séries temporelles. Ces problèmes sont abordés dans un cadre extrêmement général oùles données sont générées par des processus stochastiques ergodiques stationnaires. Il s'agit de l'une des hypothèses les plus faibles en statistiques, comprenant non seulement, les hypothèses de modèles et les hypothèses paramétriques habituelles dans la littérature scientifique, mais aussi des hypothèses classiques d'indépendance, de contraintes sur l'espace mémoire ou encore des hypothèses de mélange. En particulier, aucune restriction n'est faite sur la forme ou la nature des dépendances, de telles sortes que les échantillons peuvent être arbitrairement dépendants. Pour chaque problème abordé, nous proposons de nouvelles méthodes non paramétriques et nous prouvons de plus qu'elles sont, dans ce cadre, asymptotiquement consistantes. Pour l'estimation de points de rupture, la consistance asymptotique se rapporte à la capacité de l'algorithme à produire des estimations des points de rupture qui sont asymptotiquement arbitrairement proches des vrais points de rupture. D'autre part, un algorithme de partitionnement est asymptotiquement consistant si le partitionnement qu'il produit, restreint à chaque lot de séquences, coïncides, à partir d'un certain temps et de manière consistante, avec le partitionnement cible. Nous montrons que les algorithmes proposés sont implémentables efficacement, et nous accompagnons nos résultats théoriques par des évaluations expérimentales. L'analyse statistique dans le cadre stationnaire ergodique est extrêmement difficile. De manière générale, il est prouvé que les vitesses de convergence sont impossibles à obtenir. Dès lors, pour deux échantillons générés indépendamment par des processus ergodiques stationnaires, il est prouvé qu'il est impossible de distinguer le cas où les échantillons sont générés par le même processus de celui où ils sont générés par des processus différents. Ceci implique que des problèmes tels le partitionnement de séries temporelles sans la connaissance du nombre de partitions ou du nombre de points de rupture ne peut admettre de solutions consistantes. En conséquence, une tâche difficile est de découvrir les formulations du problème qui en permettent une résolution dans ce cadre général. La principale contribution de cette thèse est de démontrer (par construction) que malgré ces résultats d'impossibilités théoriques, des formulations naturelles des problèmes considérés existent et admettent des solutions consistantes dans ce cadre général. Ceci inclut la démonstration du fait que le nombre de points de rupture corrects peut être trouvé, sans recourir à des hypothèses plus fortes sur les processus stochastiques. Il en résulte que, dans cette formulation, le problème des points de rupture peut être réduit à du partitionnement de séries temporelles. Les résultats présentés dans ce travail formulent les fondations théoriques pour l'analyse des données séquentielles dans un espace d'applications bien plus large. [MATH:MATH_ST] Mathematics/Statistics [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie time series stationary ergodic unsupervised learning consistency change point estimation clustering online learning
42	Approximations of Points: Combinatorics and Algorithms Mustafa, Nabil 19 December 2013 (has links) (PDF) At the core of successful manipulation and computation over large geometric data is the notion of approximation, both structural and computational. The focus of this thesis will be on the combinatorial and algorithmic aspects of approximations of point-set data P in d-dimensional Euclidean space. It starts with a study of geometric data depth where the goal is to compute a point which is the 'combinatorial center' of P. Over the past 50 years several such measures of combinatorial centers have been proposed, and we will re-examine several of them: Tukey depth, Simplicial depth, Oja depth and Ray-Shooting depth. This can be generalized to approximations with a subset, leading to the notion of epsilon-nets. There we will study the problem of approximations with respect to convexity. Along the way, this requires re-visiting and generalizing some basic theorems of convex geometry, such as the Caratheodory's theorem. Finally we will turn to the algorithmic aspects of these problems. We present a polynomial-time approximation scheme for computing hitting-sets for disks in the plane. Of separate interest is the technique, an analysis of local-search via locality graphs. A further application of this technique is then presented in computing independent sets in intersection graphs of rectangles in the plane. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [MATH:MATH_CO] Mathematics/Combinatorics geometric algorithms combinatorics discrete mathematics computational geometry statistics approximation algorithms
43	Modélisation et détection statistiques pour la criminalistique numérique des images Thai, Thanh Hai 28 August 2014 (has links) (PDF) Le XXIème siècle étant le siècle du passage au tout numérique, les médias digitaux jouent maintenant un rôle de plus en plus important dans la vie de tous les jours. De la même manière, les logiciels sophistiqués de retouche d'images se sont démocratisés et permettent aujourd'hui de diffuser facilement des images falsifiées. Ceci pose un problème sociétal puisqu'il s'agit de savoir si ce que l'on voit a été manipulé. Cette thèse s'inscrit dans le cadre de la criminalistique des images numériques. Deux problèmes importants sont abordés : l'identification de l'origine d'une image et la détection d'informations cachées dans une image. Ces travaux s'inscrivent dans le cadre de la théorie de la décision statistique et roposent la construction de détecteurs permettant de respecter une contrainte sur la probabilité de fausse alarme. Afin d'atteindre une performance de détection élevée, il est proposé d'exploiter les propriétés des images naturelles en modélisant les principales étapes de la chaîne d'acquisition d'un appareil photographique. La éthodologie, tout au long de ce manuscrit, consiste à étudier le détecteur optimal donné par le test du rapport de vraisemblance dans le contexte idéal où tous les aramètres du modèle sont connus. Lorsque des paramètres du modèle sont inconnus, ces derniers sont estimés afin de construire le test du rapport de vraisemblance généralisé dont les erformances statistiques sont analytiquement établies. De nombreuses expérimentations sur des images simulées et réelles permettent de souligner la pertinence de l'approche proposée. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Criminalistique numérique Détection d'informations cachées Modèle d'image naturelle Test d'hypothèses statistiques Paramètres de nuisance
44	Analyse de sensibilité et réduction de dimension. Application à l'océanographie Janon, Alexandre 15 November 2012 (has links) (PDF) Les modèles mathématiques ont pour but de décrire le comportement d'un système. Bien souvent, cette description est imparfaite, notamment en raison des incertitudes sur les paramètres qui définissent le modèle. Dans le contexte de la modélisation des fluides géophysiques, ces paramètres peuvent être par exemple la géométrie du domaine, l'état initial, le forçage par le vent, ou les coefficients de frottement ou de viscosité. L'objet de l'analyse de sensibilité est de mesurer l'impact de l'incertitude attachée à chaque paramètre d'entrée sur la solution du modèle, et, plus particulièrement, identifier les paramètres (ou groupes de paramètres) og sensibles fg. Parmi les différentes méthodes d'analyse de sensibilité, nous privilégierons la méthode reposant sur le calcul des indices de sensibilité de Sobol. Le calcul numérique de ces indices de Sobol nécessite l'obtention des solutions numériques du modèle pour un grand nombre d'instances des paramètres d'entrée. Cependant, dans de nombreux contextes, dont celui des modèles géophysiques, chaque lancement du modèle peut nécessiter un temps de calcul important, ce qui rend inenvisageable, ou tout au moins peu pratique, d'effectuer le nombre de lancements suffisant pour estimer les indices de Sobol avec la précision désirée. Ceci amène à remplacer le modèle initial par un emph{métamodèle} (aussi appelé emph{surface de réponse} ou emph{modèle de substitution}). Il s'agit d'un modèle approchant le modèle numérique de départ, qui nécessite un temps de calcul par lancement nettement diminué par rapport au modèle original. Cette thèse se centre sur l'utilisation d'un métamodèle dans le cadre du calcul des indices de Sobol, plus particulièrement sur la quantification de l'impact du remplacement du modèle par un métamodèle en terme d'erreur d'estimation des indices de Sobol. Nous nous intéressons également à une méthode de construction d'un métamodèle efficace et rigoureux pouvant être utilisé dans le contexte géophysique. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:CO] Statistics/Computation [STAT:CO] Statistiques/Calcul Analyse de sensibilité Réduction de dimension Calcul scientifique Statistiques
45	Modélisation de la variabilité inter-individuelle dans les modèles de croissance de plantes et sélection de modèles pour la prévision Baey, Charlotte 28 February 2014 (has links) (PDF) La modélisation de la croissance des plantes a vu le jour à la fin du XXème siècle, à l'intersection de trois disciplines : l'agronomie, la botanique et l'informatique. Après un premier élan qui a donné naissance à un grand nombre de modèles, un deuxième courant a vu le jour au cours de la dernière décennie pour donner à ces modèles un formalisme mathématique et statistique. Les travaux développés dans cette thèse s'inscrivent dans cette démarche et proposent deux axes de développement, l'un autour de l'évaluation et de la comparaison de modèles, et l'autre autour de l'étude de la variabilité inter-plantes. Dans un premier temps, nous nous sommes intéressés à la capacité prédictive des modèles de croissance de plantes, en appliquant une méthodologie permettant de construire et d'évaluer des modèles qui seront utilisés comme outils prédictifs. Une première étape d'analyse de sensibilité permet d'identifier les paramètres les plus influents afin d'élaborer une version plus robuste de chaque modèle, puis les capacités prédictives des modèles sont comparées à l'aide de critères appropriés. %Cette étude a été appliquée au cas de la betterave sucrière. La deuxième partie de la thèse concerne la prise en compte de la variabilité inter-individuelle dans les populations de plantes. %Il existe en effet une forte variabilité entre plantes, d'origine génétique ou environnementale, dont il est nécessaire de tenir compte. Nous proposons dans cette thèse une approche basée sur l'utilisation de modèles (non linéaires) à effets mixtes pour caractériser cette variabilité. L'estimation paramétrique par maximum de vraisemblance nécessite l'utilisation de versions stochastiques de l'algorithme d'Espérance Maximisation basées sur des simulations de type Monte Carlo par Chaîne de Markov. Après une première application au cas de l'organogenèse chez la betterave sucrière, nous proposons une extension du modèle structure-fonction Greenlab à l'échelle de la population.%, appliqué aux cas de la betterave sucrière et du colza. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications modèles de croissance de plantes sélection de modèles modèles structure-fonction Greenlab modèles non linéaires mixtes méthodes MCMC algorithme EM stochastique
46	Quelques Contributions à la Statistique des Processus, à la Théorie des Champs Aléatoires et à la Statistique des Champs Aléatoires Dachian, Serguei 12 December 2012 (has links) (PDF) Ce mémoire d'Habilitation à Diriger des Recherches est organisé en deux tomes. Le Tome I a pour but de présenter les travaux de recherche effectués durant ma carrière d'enseignant-chercheur (quatorze articles publiés dans des revues internationales avec comité de lecture). Les textes intégraux de ces articles sont réunis dans le Tome II. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [MATH:MATH_PR] Mathematics/Probability modèles statistiques non-réguliers rapports de vraisemblance limites estimation de paramètres tests d'hypothèses simulations statistiques description des champs aléatoires non-gibbsianité
47	Statistique bayésienne et applications en génétique des populations Blum, Michael G B 03 December 2012 (has links) (PDF) Les approches statistiques en génétique des populations visent deux objectifs distincts qui sont la description des données et la possibilité d'inférer les processus évolutifs qui ont généré les patrons observés. Le premier chapitre de ce manuscrit décrit nos apports théoriques et méthodologiques concernant le calcul bayésien approché (Approximate Bayesian Computation) qui permet de réaliser l'objectif d'inférence des processus évolutifs. Je décris des résultats asymptotiques qui permettent de décrire des propriétés statistiques du calcul bayésien approché. Ces résultats mettent en évidence à la fois l'intérêt des méthodes dites avec ajustement qui reposent sur des équations de régression et aussi l'intérêt de réduire la dimension des descripteurs statistiques utilisés dans le calcul bayésien approché. Je présente ensuite une méthode originale de calcul bayésien approché qui permet de manière conjointe d'effectuer des ajustements et de réduire la dimension des descripteurs statistiques. Une comparaison des différentes méthodes de réduction de dimension clos le premier chapitre. Le deuxième chapitre est consacré à l'objectif de description des données et se place plus particulièrement dans un cadre spatial. Les méthodes statistiques proposées reposent sur le concept d'isolement par la distance qui est une forme particulière de l'autocorrélation spatiale où la corrélation entre individus décroit avec la distance. Une approche originale de krigeage nous permet de caractériser des patrons d'isolement par la distance non-stationnaire où la manière avec laquelle la corrélation entre individus décroit avec la distance dépend de l'espace. Une deuxième extension que nous proposons est celle d'isolement par la distance anisotrope que nous caractérisons et testons à partir d'une équation de régression. La conclusion de ce manuscrit met l'accent sur les problèmes d'interprétation des résultats statistiques, l'importance de l'échantillonnage et la nécessité de tester l'adéquation des modèles aux données. Je conclus par des perspectives qui se proposent de faire passer l'analyse statistique bayésienne à l'échelle des données massives produites en génétique. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Statistique bayésienne génétique des populations calcul bayésien approché coalescent processus stochastiques en biologie krigeage
48	Méthodes probabilistes pour l'évaluation de risques en production industrielle. Oger, Julie 16 April 2014 (has links) (PDF) Dans un contexte industriel compétitif, une prévision fiable du rendement est une information primordiale pour déterminer avec précision les coûts de production et donc assurer la rentabilité d'un projet. La quantification des risques en amont du démarrage d'un processus de fabrication permet des prises de décision efficaces. Durant la phase de conception d'un produit, les efforts de développement peuvent être alors identifiés et ordonnés par priorité. Afin de mesurer l'impact des fluctuations des procédés industriels sur les performances d'un produit donné, la construction de la probabilité du risque défaillance est développée dans cette thèse. La relation complexe entre le processus de fabrication et le produit conçu (non linéaire, caractéristiques multi-modales...) est assurée par une méthode de régression bayésienne. Un champ aléatoire représente ainsi, pour chaque configuration du produit, l'information disponible concernant la probabilité de défaillance. Après une présentation du modèle gaussien, nous décrivons un raisonnement bayésien évitant le choix a priori des paramètres de position et d'échelle. Dans notre modèle, le mélange gaussien a priori, conditionné par des données mesurées (ou calculées), conduit à un posterior caractérisé par une distribution de Student multivariée. La nature probabiliste du modèle est alors exploitée pour construire une probabilité de risque de défaillance, définie comme une variable aléatoire. Pour ce faire, notre approche consiste à considérer comme aléatoire toutes les données inconnues, inaccessibles ou fluctuantes. Afin de propager les incertitudes, une approche basée sur les ensembles flous fournit un cadre approprié pour la mise en oeuvre d'un modèle bayésien imitant le raisonnement d'expert. L'idée sous-jacente est d'ajouter un minimum d'information a priori dans le modèle du risque de défaillance. Notre méthodologie a été mise en oeuvre dans un logiciel nommé GoNoGo. La pertinence de cette approche est illustrée par des exemples théoriques ainsi que sur un exemple réel provenant de la société STMicroelectronics. [MATH:MATH_PR] Mathematics/Probability [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Krigeage inférence bayésienne mélange de processus gaussiens distribution de Student multivariée analyse d'incertitude évaluation de rendement industriel
49	From group to patient-specific analysis of brain function in arterial spin labelling and BOLD functional MRI Maumet, Camille 29 May 2013 (has links) (PDF) This thesis deals with the analysis of brain function in Magnetic Resonance Imaging (MRI) using two sequences: BOLD functional MRI (fMRI) and Arterial Spin Labelling (ASL). In this context, group statistical analyses are of great importance in order to understand the general mechanisms underlying a pathology, but there is also an increasing interest towards patient-specific analyses that draw conclusions at the patient level. Both group and patient-specific analyses are studied in this thesis. We first introduce a group analysis in BOLD fMRI for the study of specific language impairment, a pathology that was very little investigated in neuroimaging. We outline atypical patterns of functional activity and lateralisation in language regions. Then, we move forward to patient-specific analysis. We propose the use of robust estimators to compute cerebral blood flow maps in ASL. Then, we analyse the validity of the assumptions underlying standard statistical analyses in the context of ASL. Finally, we propose a new locally multivariate statistical method based on an a contrario approach and apply it to the detection of atypical patterns of perfusion in ASL and to activation detection in BOLD functional MRI. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Arterial Spin Labelling BOLD functional MRI Patient-specific analysis Heteroscedasticity General Linear Model Locally multivariate procedure A contrario approach
50	Modèles bayésiens pour la détection de synchronisations au sein de signaux électro-corticaux Rio, Maxime 16 July 2013 (has links) (PDF) Cette thèse propose de nouvelles méthodes d'analyse d'enregistrements cérébraux intra-crâniens (potentiels de champs locaux), qui pallie les lacunes de la méthode temps-fréquence standard d'analyse des perturbations spectrales événementielles : le calcul d'une moyenne sur les enregistrements et l'emploi de l'activité dans la période pré-stimulus. La première méthode proposée repose sur la détection de sous-ensembles d'électrodes dont l'activité présente des synchronisations cooccurrentes en un même point du plan temps-fréquence, à l'aide de modèles bayésiens de mélange gaussiens. Les sous-ensembles d'électrodes pertinents sont validés par une mesure de stabilité calculée entre les résultats obtenus sur les différents enregistrements. Pour la seconde méthode proposée, le constat qu'un bruit blanc dans le domaine temporel se transforme en bruit ricien dans le domaine de l'amplitude d'une transformée temps-fréquence a permis de mettre au point une segmentation du signal de chaque enregistrement dans chaque bande de fréquence en deux niveaux possibles, haut ou bas, à l'aide de modèles bayésiens de mélange ricien à deux composantes. À partir de ces deux niveaux, une analyse statistique permet de détecter des régions temps-fréquence plus ou moins actives. Pour développer le modèle bayésien de mélange ricien, de nouveaux algorithmes d'inférence bayésienne variationnelle ont été créés pour les distributions de Rice et de mélange ricien. Les performances des nouvelles méthodes ont été évaluées sur des données artificielles et sur des données expérimentales enregistrées sur des singes. Il ressort que les nouvelles méthodes génèrent moins de faux-positifs et sont plus robustes à l'absence de données dans la période pré-stimulus. [INFO:INFO_LG] Computer Science/Learning [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning modèles bayésiens synchronisations corticales représentations temps-fréquence analyse simple essai distribution de Rice inférence bayésienne variationnelle

Search results