1 |
Intégration des données manquantes en vue de la prédiction des événements de givre et de verglasRajaonarivelo, Rémi January 2008 (has links) (PDF)
Les matériaux soumis à des conditions climatiques hivernales sont susceptibles de recevoir une accumulation de glace qui peut nuire à leur intégrité ou à leur fonctionnement. L'étude des phénomènes de glace atmosphérique cherche à développer une connaissance qui permettrait de prévoir et d'estimer les dangers d'un événement afin de prendre les mesures appropriées. Des recherches sont effectuées à cet effet. Cependant, aucune étude pour traiter les données manquantes n'a encore été amorcée. Or, l'intégration de ces types de données est nécessaire pour tenir compte des données disponibles et élargir le champ de vision en ce qui concerne le développement de modèle de prédiction des événements de givre et de verglas.
Le présent travail s'inscrit dans le cadre de l'analyse et de l'exploitation des données recueillies par le système d'acquisition de données SYGIVRE. En résumé, on a pu collecter des données provenant de 35 stations de mesure lors de la saison 2001-2002 et pour la saison 2003- 2004, on a compté 32 stations. Ces données provenant des sites naturels ont été traitées afin de créer une base de données des tempêtes de givre et de verglas pour ces saisons d'observation. Les informations disponibles grâce à ce système sont l'ensemble des relevés horaires des valeurs des températures de l'air et des signaux des givromètres.
Afin de construire une base d'apprentissage pour le modèle de prédiction des poids d'accumulation de givre et de verglas et de retracer les tempêtes de givre et de verglas répertoriées dans la base de données SYGIVRE, un processus de modélisation des données a été amorcé. Ceci consiste en premier lieu à la recherche de méthodologie pour identifier les événements élémentaires de givre et de verglas. Ensuite, les types d'accumulation sont déterminés selon leurs caractéristiques. En tenant compte de ces types d'accumulation, une procédure basée sur l'algorithme 9-23 a été proposée pour estimer les taux d'accrétions horaires de givre et de verglas. Ceci a permis l'évaluation de leurs poids d'accumulation au fil des heures. Par la suite, on a défini la notion de tempête avant de proposer une méthode pour répertorier les tempêtes ou événements de givre et de verglas lors des saisons 2001-2002 et 2003-2004. Ce processus de modélisation de la base de données SYGIVRE se termine par le regroupement des stations de mesure. Selon les localités de ces dernières, on a distingué la région de Montréal- Québec, celle du Saguenay - Lac-Saint-Jean et celle de la Côte-Nord. D'après les résultats d'analyse des données, on a recensé 507 tempêtes de givre et de verglas. Ces tempêtes s'étendent dans l'ensemble sur une période de 3948 heures et le cumulatif du nombre de signaux de givromètre enregistrés est égal à 9167 coups. Il a été remarqué que la durée moyenne d'une tempête est égale à 8 heures et on enregistre 18 signaux de givromètre durant son occurrence.
Après avoir modélisé la base de données SYGIVRE, nous avons amorcé le développement du modèle de prédiction des poids d'accumulation de givre et de verglas lors des tempêtes identifiées par la première phase de ce travail. Nous avons choisi une architecture de réseau de neurones multicouche à rétropropagation de l'erreur. Étant donné que nous n'avons pas suffisamment de données pour effectuer l'apprentissage de ce modèle, une simulation de données de givrage atmosphérique a été effectuée pour le valider avant de le tester avec les données de la base de données SYGIVRE. La principale raison d'utilisation de ces données simulées est le fait que des tests directs sur les données réelles ne nous assurent pas la validité du modèle de prédiction quand une partie des données est manquante. Ainsi, ces tests préliminaires nous permettront d'estimer la performance du modèle de réseau de neurones. De plus, cette simulation de données virtuelles permet non seulement de générer des données statistiquement proches des données réelles mais aussi d'avoir une représentation du phénomène de givrage atmosphérique.
En vue de poursuivre l'objectif à atteindre, une méthodologie a été élaborée afin d'intégrer les données manquantes au modèle de prédiction. En principe, toutes les observations doivent être complètes pour les deux phases de développement de réseau de neurones: apprentissage et prévision. Ces conditions ne sont pas respectées quand des valeurs sont manquantes à une ou plusieurs stations de mesure. Pour pallier ces problèmes, l'applicabilité des méthodes statistiques d'imputations a été étudiée. Trois types de données manquantes ont été considérés dans cette étude: des données manquantes au hasard, des données manquantes complètement au hasard et les autres types de données manquantes. Ainsi, des méthodes de remplacement de données ont été réalisées pour chaque groupe de stations et ont permis d'estimer des valeurs manquantes pour des courtes périodes d'observation. En ce qui concerne la résolution du problème causé par la présence de saisons manquantes, nous avons introduit la technique d'inhibition des cellules du réseau de neurones pour adapter l'algorithme d'apprentissage à ces lacunes de données.
Lors des expériences, plusieurs configurations du modèle de prédiction ont été utilisées en variant les paramètres du réseau de neurones. Ces paramètres sont le nombre de cellules dans la couche cachée, le taux d'apprentissage et le moment d'apprentissage. D'après les résultats obtenus, on démontre que la technique d'inhibition de réseaux de neurones permet d'intégrer les valeurs manquantes pour la prédiction des événements de givre et de verglas. Les tests sur les données simulées, avec et sans données manquantes, ont fait ressortir deux modèles de prédiction qui ont sensiblement les mêmes performances et qui sont fonctionnels par rapport à la prévision des tempêtes de givre et de verglas. Toutefois, quand on a varié les paramètres du modèle, on a remarqué que ce dernier ne fournit pas toujours les résultats escomptés vis-à-vis de toutes les stations composant le groupe étudié. En ce qui concerne les tests sur les données du groupe du Saguenay - Lac-Saint-Jean, les mêmes constatations ont été observées. En effet, la présence de saison manquante au niveau d'une des stations composant ce groupe n'empêche pas le modèle étudié de prédire correctement les événements de givre et de verglas aux autres stations. En résumé, les résultats des validations des modèles de prédiction des événements de givre et de verglas nous amènent à affirmer que la combinaison des méthodes d'imputation statistiques et la technique d'inhibition du réseau de neurones lors de la phase d'apprentissage permettent d'intégrer les données manquantes dans l'étude de ce phénomène. Ces modèles de prédiction sont fonctionnels et affichent de bons résultats de prédiction lorsque leurs paramètres sont bien calibrés. En effet, les perturbations engendrées par les données manquantes sont insignifiantes d'après la validation des modèles avec les données simulées et avec les données du groupe de stations de la région du Saguenay - Lac-Saint-Jean. Par ailleurs, on a constaté que ces modèles sont instables avec la variation des paramètres d'apprentissage du réseau de neurones. Cette étude a apporté des éléments de réponses aux problèmes impliqués par la présence des lacunes au niveau de la base de données SYGIVRE. De plus, elle contribue à la compréhension des problèmes reliés au suivi des événements de givre et de verglas par les interrogations qu'elle soulève et le besoin de les étudier.
|
2 |
Intégration des données manquantes en vue de la prédiction des événements de givre et de verglasRajaonarivelo, Rémi January 2008 (has links) (PDF)
Les matériaux soumis à des conditions climatiques hivernales sont susceptibles de recevoir une accumulation de glace qui peut nuire à leur intégrité ou à leur fonctionnement. L'étude des phénomènes de glace atmosphérique cherche à développer une connaissance qui permettrait de prévoir et d'estimer les dangers d'un événement afin de prendre les mesures appropriées. Des recherches sont effectuées à cet effet. Cependant, aucune étude pour traiter les données manquantes n'a encore été amorcée. Or, l'intégration de ces types de données est nécessaire pour tenir compte des données disponibles et élargir le champ de vision en ce qui concerne le développement de modèle de prédiction des événements de givre et de verglas.
Le présent travail s'inscrit dans le cadre de l'analyse et de l'exploitation des données recueillies par le système d'acquisition de données SYGIVRE. En résumé, on a pu collecter des données provenant de 35 stations de mesure lors de la saison 2001-2002 et pour la saison 2003- 2004, on a compté 32 stations. Ces données provenant des sites naturels ont été traitées afin de créer une base de données des tempêtes de givre et de verglas pour ces saisons d'observation. Les informations disponibles grâce à ce système sont l'ensemble des relevés horaires des valeurs des températures de l'air et des signaux des givromètres.
Afin de construire une base d'apprentissage pour le modèle de prédiction des poids d'accumulation de givre et de verglas et de retracer les tempêtes de givre et de verglas répertoriées dans la base de données SYGIVRE, un processus de modélisation des données a été amorcé. Ceci consiste en premier lieu à la recherche de méthodologie pour identifier les événements élémentaires de givre et de verglas. Ensuite, les types d'accumulation sont déterminés selon leurs caractéristiques. En tenant compte de ces types d'accumulation, une procédure basée sur l'algorithme 9-23 a été proposée pour estimer les taux d'accrétions horaires de givre et de verglas. Ceci a permis l'évaluation de leurs poids d'accumulation au fil des heures. Par la suite, on a défini la notion de tempête avant de proposer une méthode pour répertorier les tempêtes ou événements de givre et de verglas lors des saisons 2001-2002 et 2003-2004. Ce processus de modélisation de la base de données SYGIVRE se termine par le regroupement des stations de mesure. Selon les localités de ces dernières, on a distingué la région de Montréal- Québec, celle du Saguenay - Lac-Saint-Jean et celle de la Côte-Nord. D'après les résultats d'analyse des données, on a recensé 507 tempêtes de givre et de verglas. Ces tempêtes s'étendent dans l'ensemble sur une période de 3948 heures et le cumulatif du nombre de signaux de givromètre enregistrés est égal à 9167 coups. Il a été remarqué que la durée moyenne d'une tempête est égale à 8 heures et on enregistre 18 signaux de givromètre durant son occurrence.
Après avoir modélisé la base de données SYGIVRE, nous avons amorcé le développement du modèle de prédiction des poids d'accumulation de givre et de verglas lors des tempêtes identifiées par la première phase de ce travail. Nous avons choisi une architecture de réseau de neurones multicouche à rétropropagation de l'erreur. Étant donné que nous n'avons pas suffisamment de données pour effectuer l'apprentissage de ce modèle, une simulation de données de givrage atmosphérique a été effectuée pour le valider avant de le tester avec les données de la base de données SYGIVRE. La principale raison d'utilisation de ces données simulées est le fait que des tests directs sur les données réelles ne nous assurent pas la validité du modèle de prédiction quand une partie des données est manquante. Ainsi, ces tests préliminaires nous permettront d'estimer la performance du modèle de réseau de neurones. De plus, cette simulation de données virtuelles permet non seulement de générer des données statistiquement proches des données réelles mais aussi d'avoir une représentation du phénomène de givrage atmosphérique.
En vue de poursuivre l'objectif à atteindre, une méthodologie a été élaborée afin d'intégrer les données manquantes au modèle de prédiction. En principe, toutes les observations doivent être complètes pour les deux phases de développement de réseau de neurones: apprentissage et prévision. Ces conditions ne sont pas respectées quand des valeurs sont manquantes à une ou plusieurs stations de mesure. Pour pallier ces problèmes, l'applicabilité des méthodes statistiques d'imputations a été étudiée. Trois types de données manquantes ont été considérés dans cette étude: des données manquantes au hasard, des données manquantes complètement au hasard et les autres types de données manquantes. Ainsi, des méthodes de remplacement de données ont été réalisées pour chaque groupe de stations et ont permis d'estimer des valeurs manquantes pour des courtes périodes d'observation. En ce qui concerne la résolution du problème causé par la présence de saisons manquantes, nous avons introduit la technique d'inhibition des cellules du réseau de neurones pour adapter l'algorithme d'apprentissage à ces lacunes de données.
Lors des expériences, plusieurs configurations du modèle de prédiction ont été utilisées en variant les paramètres du réseau de neurones. Ces paramètres sont le nombre de cellules dans la couche cachée, le taux d'apprentissage et le moment d'apprentissage. D'après les résultats obtenus, on démontre que la technique d'inhibition de réseaux de neurones permet d'intégrer les valeurs manquantes pour la prédiction des événements de givre et de verglas. Les tests sur les données simulées, avec et sans données manquantes, ont fait ressortir deux modèles de prédiction qui ont sensiblement les mêmes performances et qui sont fonctionnels par rapport à la prévision des tempêtes de givre et de verglas. Toutefois, quand on a varié les paramètres du modèle, on a remarqué que ce dernier ne fournit pas toujours les résultats escomptés vis-à-vis de toutes les stations composant le groupe étudié. En ce qui concerne les tests sur les données du groupe du Saguenay - Lac-Saint-Jean, les mêmes constatations ont été observées. En effet, la présence de saison manquante au niveau d'une des stations composant ce groupe n'empêche pas le modèle étudié de prédire correctement les événements de givre et de verglas aux autres stations. En résumé, les résultats des validations des modèles de prédiction des événements de givre et de verglas nous amènent à affirmer que la combinaison des méthodes d'imputation statistiques et la technique d'inhibition du réseau de neurones lors de la phase d'apprentissage permettent d'intégrer les données manquantes dans l'étude de ce phénomène. Ces modèles de prédiction sont fonctionnels et affichent de bons résultats de prédiction lorsque leurs paramètres sont bien calibrés. En effet, les perturbations engendrées par les données manquantes sont insignifiantes d'après la validation des modèles avec les données simulées et avec les données du groupe de stations de la région du Saguenay - Lac-Saint-Jean. Par ailleurs, on a constaté que ces modèles sont instables avec la variation des paramètres d'apprentissage du réseau de neurones. Cette étude a apporté des éléments de réponses aux problèmes impliqués par la présence des lacunes au niveau de la base de données SYGIVRE. De plus, elle contribue à la compréhension des problèmes reliés au suivi des événements de givre et de verglas par les interrogations qu'elle soulève et le besoin de les étudier.
|
3 |
Adapting recent statistical techniques to the study of nutrition in Vietnam / Adaptation de techniques statistiques récentes à l'étude de la nutrition au VietnamTrinh, Thi Huong 09 July 2018 (has links)
L'objectif de cette thèse est d'adapter des méthodes récentes de statistique pour apporter une vision nouvelle de la transition nutritionnelle au Vietnam. Chapitre 1, nous faisons une brève introduction. Nous considérons que le Vietnam est une étude pilote sur le problème de la nutrition. Chapitre 2, nous revenons sur la question de l'estimation de la relation entre la prise de calories par personne et le revenu en utilisant six vagues de l'enquête VHLSS Survey sur la période 2004-2014. Nous adoptons plutôt la famille des modèles généralisés additifs (GAM) dans lesquels seul le revenu intervient de façon non linéaire. Nous comparons ces modèles avec une procédure récente. Les résultats mettent en relief une réponse forte de la prise de calories à un accroissement du revenu pour les foyers les plus pauvres. Chapitre 3, nous utilisons des méthodes de décomposition pour évaluer les déterminants des changements de consommation de macronutriments au Vietnam en utilisant les vagues 2004 et 2014. La méthode de décomposition récente proposée par Rothe (2015) a pour but de poursuivre la décomposition plus loin en décomposant l'effet de composition en trois composantes: la contribution directe de chaque covariable, plusieurs effets d'interaction d'ordre deux ou supérieur et un effet de la dépendance. Rothe utilise des copules pour modéliser les effets de dépendance. Chapitre 4, nous nous concentrons sur la composition de la diète en modélisant les proportions de protéines, de matières grasses et de glucides dans la prise moyenne de calories par personne. Nous utilisons des outils descriptifs pour montrer l'évolution des trois composantes au travers du temps et modélisons ensuite la consommation de macronutriments en fonction des caractéristiques des ménages avec des modèles de régression pour données de composition. Nous établissons la formule permettant le calcul des semi-elasticités de la consommation de macronutriments par rapport à la dépense totale de nourriture. Chapitre 5, nous nous penchons sur la relation entre les parts de macronutriments et l'indice de masse corporelle (IMC). Nous construisons un modèle de régression compositionnelle incluant un total pour expliquer les quantiles de l'indice de masse corporelle. Nous calculons ensuite les élasticités de l'IMC par rapport à chaque macronutriment. Notre travail est basé sur l'utilisation de la base de données de l'enquête GNS 2009-2010. Les résultats révèlent d'abord des effets significatifs de facteurs socio-économiques. / The objective of this thesis is to adapt recent statistical techniques and to bring new insights on the nutritional transition in Vietnam. Vietnam is a lower middle income country but it now faces the double burden of malnutrition characterized by the coexistence of undernutrition along with overweight and obesity, or diet-related noncommunicable diseases. Chapter 1 gives a brief introduction to this thesis. We consider Vietnam is a pilot case study about nutrition. Chapter 2, we revisit the issue of estimating the relationship between per capita calorie intake and income using six waves of the Vietnam Household Living Standard Survey over the period 2004-2014. Characterizing the response of calorie intake to income for the poorest households is a prerequisite for considering policies aimed at reducing starvation and correcting nutritional deficiencies. The classical log-log specification does not capture the nonlinearity of this relationship. We adopt rather various generalized additive models (GAM) specifications where only income is supposed to act in a nonlinear fashion and compare them with a recent procedure. The results highlight the strong response of calorie intake to an increase in income for the poorest households. A byproduct of the proposed methodology is the decomposition of the evolution of average calorie intake between the two waves into the part due to the change of population characteristics distributions and those coming from the change in calorie-income relationship, shedding new light on the nutritional transition in Vietnam. Chapter 3, we use decomposition methods to assess the determinants of changes in macronutrients consumption in Vietnam using the 2004 and 2014 waves. The common objective of decomposition methods is to decompose between-group differences in economic outcomes such as wage or income, into two components: a composition effect due to differences in observable covariates across groups, and a structure effect due to differences in the relationship that links the covariates to the considered outcome. The recent decomposition procedure proposed by Rothe (2015) aims at decomposing further the composition effect into three types of components: the direct contribution of each covariate, several two way and higher order interaction effects and a dependence. Rothe (2015) uses a parametric copula to model the dependence effects and we adapt this approach to the case of a mixture of continuous and discrete covariates. Chapter 4, we focus on food composition in terms of diet components. We consider modeling the proportions of protein, fat and carbohydrate in the average per capita calorie intake. We use descriptive tools, such as compositional biplots and ternary diagrams, to show the evolution of the three components over the years and then model macronutrients composition as a function of household characteristics, using compositional regression models. We derive the expression of the semi-elasticities of macronutrients shares with respect to food expenditure. We then compare the interpretations of these shares semi-elasticities to that of volumes of macronutrients and of total calorie intake obtained using classical linear models. Chapter 5, we focus on the relationship between macronutrient balances and body mass index. We develop a compositional regression model including a total at various quantile orders. We then compute the elasticities of BMI with respect to each macronutrient and to the total consumption. Our empirical research is based on the General Nutrition Survey 2009-2010. The results first reveal significant impacts of some socio--economics factors. All elasticities of BMI with respect to each macronutrient increase as BMI increases until a threshold (BMI=20) and then remain stable. Chapter 6, we briefly give our perspectives of future research in both mathematics and nutrition.
|
4 |
Simulation probabiliste du problème de contact mécaniqueMrad, Hatem January 2009 (has links) (PDF)
Dans la modélisation des structures par la méthode des éléments finis classique, les propriétés physiques et matérielles ainsi que les conditions aux limites sont considérées généralement déterministes au sens statistique. De ce constat, il est permis de s'interroger sur la validité de ia solution issue d'une telle modélisation. Les interrogations se multiplient lorsqu'on admet que les lois physiques qui régissent le comportement de la matière évoluent de manière aléatoire. Pour apporter des éléments de réponses à ces interrogations, nous avons étudié dans le cadre de ce projet par des méthodes probabilistes et stochastiques un certain nombre d'applications académiques et industrielles mettant en évidence l'effet des variations aléatoires des paramètres constituant ces lois sur îa solution. Dans le cadre de ces méthodes, l'échantillonnage et la discrétisation constitue des étapes primordiales qui contribuent à la construction, respectivement, du spectre de la solution et du système matriciel Ce dernier, une fois conditionné, permet de construire îa réponse éléments finis après résolution. Si on associe la probabilité et l'aléa à certains paramètres qui constituent ce système, alors la discrétisation de type éléments finis seule devient insuffisante pour produire le nouveau système matriciel qui, a priori, admet un caractère aléatoire ou stochastique absent du système d'équations. La méthode de Monte Carlo offre l'avantage de pallier aux difficultés rencontrées tors du processus de discrétisation. Les travaux de cette thèse se basent principalement sur l'exploitation des avantages de cette méthode voire son efficacité et la simplicité de sa mise en oeuvre. Deux exemples de contact de Hertz ainsi que des problèmes de contact multiphysiques académiques et industriels feront l'objet d'une analyse fiabiliste par cette méthode.
|
5 |
Computational aspects of survey data processingWillenborg, L. C. R. J. January 1900 (has links)
Thesis (Ph. D.)--Tilburg University. / Includes bibliographical references (p. 142-148) and index.
|
6 |
Computational aspects of survey data processingWillenborg, L. C. R. J. January 1900 (has links)
Thesis (Ph. D.)--Tilburg University. / Includes bibliographical references (p. 142-148) and index.
|
7 |
Le premier sondage canadien sur le bilinguisme, une étude des données du Quatrième recensement du Canada, 1901 au canton de Longueuil, OntarioBoudria, Daniel January 1997 (has links) (PDF)
No description available.
|
8 |
Statistiques de scan : théorie et application à l'épidémiologie / Scan statistics : theory and application to epidemiologyGenin, Mickaël 03 December 2013 (has links)
La notion de cluster désigne l'agrégation dans le temps et/ou l'espace d'évènements. Dans de nombreux domaines, les experts observent certaines agrégations d'évènements et la question se pose de savoir si ces agrégations peuvent être considérées comme normales (le fruit du hasard) ou non. D'un point de vue probabiliste, la normalité peut être décrite par une hypothèse nulle de répartition aléatoire des évènements. La détection de clusters d'évènements est un domaine de la statistique qui s'est particulièrement étendu au cours des dernières décennies. En premier lieu, la communauté scientifique s'est attachée à développer des méthodes dans le cadre unidimensionnel (ex : le temps) puis, par la suite, a étendu ces méthodes au cas multidimensionnel, et notamment bidimensionnel (l'espace). Parmi l'ensemble des méthodes de détection de clusters d'évènements, trois grands types de tests peuvent être distingués. Le premier concerne les tests globaux qui permettent de détecter une tendance globale à l'agrégation, sans pour autant localiser les clusters éventuels. Le deuxième type correspond aux tests focalisés qui sont utilisés lorsque des connaissances a priori permettent de définir un point source (date ou localisation spatiale) et de tester l'agrégation autour de ce dernier. Le troisième type englobe les tests de détection de cluster (ou sans point source défini) qui permettent la localisation, sans connaissance a priori, de clusters d'évènements et le test de leur significativité statistique. Au sein de cette thèse, nous nous sommes focalisés sur cette dernière catégorie et plus particulièrement aux méthodes basées sur les statistiques de scan (ou de balayage). Ces méthodes sont apparues au début des années 1960 et permettent de détecter des clusters d'évènements et de déterminer leur aspect "normal" (le fruit du hasard) ou "anormal". L'étape de détection est réalisée par le balayage (scan) par une fenêtre, dite fenêtre de scan, du domaine d'étude (discret ou continu) dans lequel sont observés les évènements (ex: le temps, l'espace,…). Cette phase de détection conduit à un ensemble de fenêtres définissant chacune un cluster potentiel. Une statistique de scan est une variable aléatoire définie comme la fenêtre comportant le nombre maximum d'évènements observés. Les statistiques de scan sont utilisées comme statistique de test pour vérifier l'indépendance et l'appartenance à une distribution donnée des observations, contre une hypothèse alternative privilégiant l'existence de cluster au sein de la région étudiée. Par ailleurs, la principale difficulté réside dans la détermination de la distribution, sous l'hypothèse nulle, de la statistique de scan. En effet, puisqu'elle est définie comme le maximum d'une suite de variables aléatoires dépendantes, la dépendance étant due au recouvrement des différentes fenêtres de scan, il n'existe que dans de très rares cas de figure des solutions explicites. Aussi, un pan de la littérature est axé sur le développement de méthodes (formules exactes et surtout approximations) permettant de déterminer la distribution des statistiques de scan. Par ailleurs, dans le cadre bidimensionnel, la fenêtre de scan peut prendre différentes formes géométriques (rectangulaire, circulaire,…) qui pourraient avoir une influence sur l'approximation de la distribution de la statistique de scan. Cependant, à notre connaissance, aucune étude n'a évalué cette influence. Dans le cadre spatial, les statistiques de scan spatiales développées par M. Kulldorff s'imposent comme étant, de loin, les méthodes les plus utilisées par la communauté scientifique. Le principe de ces méthodes résident dans le fait de scanner le domaine d'étude avec des fenêtres de forme circulaire et de sélectionner le cluster le plus probable comme celui maximisant un test de rapport de vraisemblance. [...] / The concept of cluster means the aggregation of events in time and / or space. In many areas, experts observe certain aggregations of events and the question arises whether these aggregations can be considered normal (by chance) or not. From a probabilistic point of view, normality can be described by a null hypothesis of random distribution of events.The detection of clusters of events is an area of statistics that has particularly spread over the past decades. First, the scientific community has focused on developing methods for the one-dimensional framework (eg time) and then subsequently extended these methods to the multidimensional case, especially two-dimensional (space). Of all the methods for detecting clusters of events, three major types of tests can be distinguished. The first type concerns global tests that detect an overall tendency to aggregation, without locating any clusters. The second type corresponds to the focused tests that are used when a priori knowledge is used to define a point source (date or spatial location) and to test the aggregation around it. The third type includes the cluster detection tests that allow localization, without a priori, cluster of events and test their statistical significance. In this thesis, we focused on the latter category, especially to methods based on scan statistics.These methods have emerged in the early 1960s and can detect clusters of events and determine their \"normal" appearance (coincidence) or "abnormal". The detection step is performed by scanning through a window, namely scanning window, the studied area (discrete or continuous, time, space), in which the events are observed. This detection step leads to a set of windows, each defining a potential cluster. A scan statistic is a random variable defined as the window with the maximum number of events observed.Scan statistics are used as a test statistic to check the independence and belonging to a given distribution of observations, against an alternative hypothesis supporting the existence of cluster within the studied region. Moreover, the main difficulty lies in determining the distribution of scan statistics under the null hypothesis. Indeed, since it is defined as the maximum of a sequence of dependent random variables, the dependence is due to the recovery of different windows scan, it exists only in very rare cases explicit solutions. Also, a piece of literature is focused on the development of methods (exact formulas and approximations) to determine the distribution of scan statistics. Moreover, in the two-dimensional framework, the scanning window can take various geometric shapes (rectangular, circular, ...) that could have an influence on the approximation of the distribution of the scan statistic. However, to our knowledge, no study has evaluated this influence. In the spatial context, the spatial scan statistics developed by M. Kulldorff are the most commonly used methods for spatial cluster detection. The principle of these methods lies in scanning the studied area with circular windows and selecting the most likely cluster maximizing a likelihood ratio test statistic. Statistical inference of the latter is achieved through Monte Carlo simulations. However, in the case of huge databases and / or when important accuracy of the critical probability associated with the detected cluster is required, Monte Carlo simulations are extremely time-consuming.First , we evaluated the influence of the scanning window shape on the distribution of two dimensional discrete scan statistics. A simulation study performed with squared, rectangular and discrete circle scanning windows has highlighted the fact that the distributions of the associated scan statistics are very close each to other but significantly different. The power of the scan statistics is related to the shape of the scanning window and that of the existing cluster under alternative hypothesis through out a simulation study. [...]
|
9 |
Simulation probabiliste du problème de contact mécaniqueMrad, Hatem January 2009 (has links) (PDF)
Dans la modélisation des structures par la méthode des éléments finis classique, les propriétés physiques et matérielles ainsi que les conditions aux limites sont considérées généralement déterministes au sens statistique. De ce constat, il est permis de s'interroger sur la validité de ia solution issue d'une telle modélisation. Les interrogations se multiplient lorsqu'on admet que les lois physiques qui régissent le comportement de la matière évoluent de manière aléatoire. Pour apporter des éléments de réponses à ces interrogations, nous avons étudié dans le cadre de ce projet par des méthodes probabilistes et stochastiques un certain nombre d'applications académiques et industrielles mettant en évidence l'effet des variations aléatoires des paramètres constituant ces lois sur îa solution. Dans le cadre de ces méthodes, l'échantillonnage et la discrétisation constitue des étapes primordiales qui contribuent à la construction, respectivement, du spectre de la solution et du système matriciel Ce dernier, une fois conditionné, permet de construire îa réponse éléments finis après résolution. Si on associe la probabilité et l'aléa à certains paramètres qui constituent ce système, alors la discrétisation de type éléments finis seule devient insuffisante pour produire le nouveau système matriciel qui, a priori, admet un caractère aléatoire ou stochastique absent du système d'équations. La méthode de Monte Carlo offre l'avantage de pallier aux difficultés rencontrées tors du processus de discrétisation. Les travaux de cette thèse se basent principalement sur l'exploitation des avantages de cette méthode voire son efficacité et la simplicité de sa mise en oeuvre. Deux exemples de contact de Hertz ainsi que des problèmes de contact multiphysiques académiques et industriels feront l'objet d'une analyse fiabiliste par cette méthode.
|
10 |
Traitement statistique des distorsions non-linéaires pour la restauration des enregistrements sonores /Picard, Guillaume. January 1900 (has links)
Thèse de doctorat--Signal et images--Paris--ENST, 2006. / En appendice, un article en anglais. Bibliogr. p. 147-151. Résumé en français et en anglais.
|
Page generated in 0.0731 seconds