141 |
Identification de l'ordre de dépendance dans les séries temporelles.Bouaziz, Malek, January 1900 (has links)
Th. 3e cycle--Math. stat.--Paris 11--Orsay, 1978. N°: 2450.
|
142 |
Fitting distances and dimension reduction methods with applications / Méthodes d’ajustement et de réduction de dimension avec applicationsAlawieh, Hiba 13 March 2017 (has links)
Dans la plupart des études, le nombre de variables peut prendre des valeurs élevées ce qui rend leur analyse et leur visualisation assez difficile. Cependant, plusieurs méthodes statistiques ont été conçues pour réduire la complexité de ces données et permettant ainsi une meilleure compréhension des connaissances disponibles dans ces données. Dans cette thèse, notre objectif est de proposer deux nouvelles méthodes d’analyse des données multivariées intitulées en anglais : " Multidimensional Fitting" et "Projection under pairwise distance control". La première méthode est une dérivée de la méthode de positionnement multidimensionnelle dont l’application nécessite la disponibilité des deux matrices décrivant la même population : une matrice de coordonnées et une matrice de distances et l’objective est de modifier la matrice des coordonnées de telle sorte que les distances calculées sur cette matrice soient les plus proches possible des distances observées sur la matrice de distances. Nous avons élargi deux extensions de cette méthode : la première en pénalisant les vecteurs de modification des coordonnées et la deuxième en prenant en compte les effets aléatoires qui peuvent intervenir lors de la modification. La deuxième méthode est une nouvelle méthode de réduction de dimension basée sur la projection non linéaire des données dans un espace de dimension réduite et qui tient en compte la qualité de chaque point projeté pris individuellement dans l’espace réduit. La projection des points s’effectue en introduisant des variables supplémentaires, qui s’appellent "rayons", et indiquent dans quelle mesure la projection d’un point donné est précise. / In various studies the number of variables can take high values which makes their analysis and visualization quite difficult. However, several statistical methods have been developed to reduce the complexity of these data, allowing a better comprehension of the knowledge available in these data. In this thesis, our aim is to propose two new methods of multivariate data analysis called: " Multidimensional Fitting" and "Projection under pairwise distance control". The first method is a derivative of multidimensional scaling method (MDS) whose the application requires the availability of two matrices describing the same population: a coordinate matrix and a distance matrix and the objective is to modify the coordinate matrix such that the distances calculated on the modified matrix are as close as possible to the distances observed on the distance matrix. Two extensions of this method have been extended: the first by penalizing the modification vectors of the coordinates and the second by taking into account the random effects that may occur during the modification. The second method is a new method of dimensionality reduction techniques based on the non-linearly projection of the points in a reduced space by taking into account the projection quality of each projected point taken individually in the reduced space. The projection of the points is done by introducing additional variables, called "radii", and indicate to which extent the projection of each point is accurate.
|
143 |
Geometric approaches for 3D human motion analysis : application to action recognition and retrieval / Approches géométriques pour l'analyse du mouvement humain en 3D : application à la reconnaissance d'action et à l’indexationSlama, Rim 06 October 2014 (has links)
Dans le cadre de cette thèse, nous proposons des approches géométriques permettant d’analyser des mouvements humains à partir de données issues de capteurs 3D. Premièrement, nous abordons le problème de comparaison de poses et de mouvements dans des séquences contenant des modèles de corps humain en 3D. En introduisant un nouveau descripteur, appelé Extremal Human Curve (EHC), la forme du corps humain dans une pose donnée est décrite par une collection de courbes. Ces courbes extraites de la surface du maillage relient les points se situant aux extrémités du corps. Dans un formalisme Riemannien, chacune de ces courbes est considérée comme un point dans un espace de formes offrant la possibilité de les comparer. Par ailleurs, les actions sont modélisées par des trajectoires dans cet espace, où elles sont comparées en utilisant la déformation temporelle dynamique. Deuxièmement, nous proposons une approche de reconnaissance d’actions et de gestes à partir de vidéos produites par des capteurs de profondeur. A travers une modélisation géométrique, une séquence d’action est représentée par un système dynamique dont la matrice d’observabilité est caractérisée par un élément de la variété de Grassmann. Par conséquent, la reconnaissance d’actions est reformulée en un problème de classification de points sur cette variété. Ensuite, un nouvel algorithme d’apprentissage basé sur la notion d’espaces tangents est proposé afin d’améliorer le système de reconnaissance. Les résultats de notre approche, testés sur plusieurs bases de données, donnent des taux de reconnaissance de haute précision et de faible latence. / In this thesis, we focus on the development of adequate geometric frameworks in order to model and compare accurately human motion acquired from 3D sensors. In the first framework, we address the problem of pose/motion retrieval in full 3D reconstructed sequences. The human shape representation is formulated using Extremal Human Curve (EHC) descriptor extracted from the body surface. It allows efficient shape to shape comparison taking benefits from Riemannian geometry in the open curve shape space. As each human pose represented by this descriptor is viewed as a point in the shape space, we propose to model the motion sequence by a trajectory on this space. Dynamic Time Warping in the feature vector space is then used to compare different motions. In the second framework, we propose a solution for action and gesture recognition from both skeleton and depth data acquired by low cost cameras such as Microsoft Kinect. The action sequence is represented by a dynamical system whose observability matrix is characterized as an element of a Grassmann manifold. Thus, recognition problem is reformulated as a point classification on this manifold. Here, a new learning algorithm based on the notion of tangent spaces is proposed to improve recognition task. Performances of our approach on several benchmarks show high recognition accuracy with low latency.
|
144 |
Parallel text mining for cross-language information retrieval using a statistical translation modelChen, Jiang January 2000 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
145 |
Étude de la performance d'un test d'association génétique pour des données familiales de survie en présence d'un biais de sélectionTessier, Maxime 23 March 2024 (has links)
Dans Leclerc et al. (2015, Genetic Epidemiology, 39 (6), 406-414), un test d’association entre un ensemble de variants génétiques et des phénotypes censurées en présence de dépendance familiale est proposé. Ce test a été implémenté dans une librairie R nommée gyriq. Dans ce mémoire de maîtrise, nous évaluons par simulations la performance de ce test en présence d’un biais de sélection dû au protocole de collecte de données. En effet, dans plusieurs situations, les données médicales d’une famille sont considérées si et seulement si un membre particulier de cette famille, appelé proband, est diagnostiqué de l’évènement d’intérêt au moment de son examen médical. Nous développons plusieurs stratégies pour générer des données biaisées selon ce protocole. Nous examinons l’erreur de type 1 et la puissance du test d’association avec de telles données, en présence d’un ou plusieurs proband et lorsque les proportions d’échantillonnage conservent seulement les familles dont les probands ont développé l’évènement d’intérêt ou lorsqu’on conserve une proportion de cas où les probands n’ont pas eu l’évènement d’intérêt. Nous concluons que le test demeure valide en présence d’un biais de sélection mais que la puissance est réduite dans cette situation. De plus, le test n’est pas valide lorsque l’on inclut des familles où les probands n’ont pas développé l’évènement d’intérêt. / In Leclerc et al. (2015, Genetic Epidemiology, 39 (6), 406-414), an association test between a group of genetic variants and censored phenotypes in presence of intrafamilial correlation is proposed. This test was implemented in a R package named gyriq. In this master’s thesis,we evaluate, with simulations, the performance of this test in presence of a sampling bias which stems from the data collection protocol. Indeed, in many situations, medical data from a family are considered if and only if a particular member of this family, called proband, is diagnosed with the event of interest during his medical exam. We develop multiple strategies to generate biased data according to such data collection protocol. We examine type 1 error and power of the association test in presence of such data, in the cases where there are 1 or more probands and when we sample only families where the probands have the event of interest or when we also sample a small proportion of families where the event has not occured for the probands. We conclude that the association test remains valid in presence of a selection bias but that the test power is diminished. Furthermore, the test is not valid when we include families where the event of interest has not occured for the probands.
|
146 |
L'échantillonnage équilibré par la méthode du cube et la méthode rejectiveOusmane Ida, Ibrahima 24 April 2018 (has links)
Au cours de ces dernières années, les techniques d’échantillonnage équilibré ont connu un regain d’intérêt. En effet, ces techniques permettent de reproduire la structure de la population dans des échantillons afin d’améliorer l’efficacité des estimations. La reproduction de cette structure est effectuée par l’introduction des contraintes aux plans de sondage. Encore récemment, des nouvelles procédures d’échantillonnage équilibré ont été proposées. Il s’agit notamment de la méthode du cube présentée par Deville et Tillé (2004) et de l’algorithme réjectif de Fuller (2009). Alors que la première est une méthode exacte de sélection, la seconde est une approche approximative qui admet une certaine tolérance dans la sélection. Alors, après une brève présentation de ces deux méthodes dans le cadre d’un inventaire de pêcheurs, nous comparons à l’aide de simulations Monte Carlo, les plans de sondage produits par ces deux méthodes. Aussi, cela a été l’occasion pour nous de vérifier si ces méthodes modifient les probabilités de sélection des unités. / In recent years, balanced sampling techniques have experienced a renewed interest. They allow to reproduce the structure of the population in samples in order to improve the efficiency of survey estimates. New procedures have been proposed. These include the cube method, an exact method presented by Deville and Tillé (2004), and an approximate method, the Fuller (2009) rejective algorithm. After a brief presentation of these methods as part of an angler survey, we compare using Monte Carlo simulations, the survey designs produced by these two sampling algorithms. We also use this as an opportunity to check whether these methods modify the inclusion probabilities.
|
147 |
Inférence causale pour mesurer le retour sur les investissements publicitairesZouitene, Hanae 27 January 2024 (has links)
Dans le but d’optimiser sa politique d’investissement, toute compagnie d’assurances aimerait être en mesure de quantifier le retour sur sa stratégie en marketing. Une métrique bien déterminée qui donne une réponse presque directe à cette question est le nombre de nouvelles soumissions d’assurances générées pour chaque dollar investi en publicité dans un certain type de média. Certes les compagnies d’assurances possèdent généralement des données précises sur les soumissions reçues et les dépenses publicitaires hebdomadaires. Cependant, ces données sont de nature observationnelle, ce qui implique la présence d’une forte corrélation qu’on retrouve entre les dépenses publicitaires dans les différents médias avec les cycles du marché. De plus, il y a une forte saisonnalité et plusieurs facteurs confondants sociodémographiques, ce qui rend difficile et complexe l’estimation de l’effet causal des investissements en marketing. Dans ce mémoire, nous présentons des méthodes plus générales d’inférence causale à savoir la méthode du score de propension généralisé (GPS), la méthode des modèles de moyennes conditionnelles séquentielles (SCMMs) et la méthode du score de propension généralisé multivarié (MGPS) afin d’estimer le retour sur investissement d’un média donné tel que mesuré par le nombre de soumissions reçues par la compagnie d’assurances « ASSURE ». / In order to optimize its investment policy, any insurance company would like to be able to quantify the return on its marketing strategy. A well defined measure that gives a direct response to this question is the number of new insurance quotes generated for every dollar invested in advertising in every type of media. Admittedly, insurance companies have accurate data concerning the quotes received and their weekly advertising expenses. However, the data are observational, which implies a potential correlation between the advertising expenses in the different media with the market cycles. Furthermore, there is a strong seasonality and several socio-demographic confounding factors, which adds difficulty and complexity to the estimation of the causal effect of marketing investments. In this thesis, we present some general causal inferencial methodologies such as: the generalised propensity score (GPS) methodoly, the Sequential Conditional Mean Models (SCMMs) methodology and the multivariate GPS (MGPS) methodology in order to estimate the return on investment in a given media measured by the number of quotes received by the insurance company «ASSURE».
|
148 |
Inférence et réseaux complexesYoung, Jean-Gabriel 19 October 2018 (has links)
Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2018-2019 / Les objets d’études de la science moderne sont souvent complexes : sociétés, pandémies, grilles électriques, niches écologiques, etc. La science des réseaux cherche à mieux com- prendre ces systèmes en examinant leur structure. Elle fait abstraction du détail, en rédui- sant tout système à une simple collection de noeuds (les éléments constitutifs du système) connectés par des liens (interactions). Fort d’une vingtaine d’années de recherche, on peut constater que cette approche a mené à de grands succès scientifiques. Cette thèse est consacrée à l’intersection entre la science des réseaux et l’inférence statistique. On y traite de deux problèmes d’inférence classiques : estimation et test d’hypothèses. La partie principale de la thèse est dédiée à l’estimation. Dans un premier temps, on étu- die un modèle génératif bien connu (le modèle stochastique par blocs), développé dans le but d’identifier les régularités de la structure des réseaux complexes. Les contributions origi- nales de cette partie sont (a) l’unification de la grande majorité des méthodes de détection de régularités sous l’égide du modèle par blocs, et (b) une analyse en taille finie de la cohérence de ce modèle. La combinaison de ces analyses place l’ensemble des méthodes de détection de régularités sur des bases statistiques solides. Dans un deuxième temps, on se penche sur le problème de la reconstruction du passé d’un réseau, à partir d’une seule observation. À nouveau, on l’aborde à l’aide de modèles génératifs, le transformant ainsi en un problème d’estimation. Les résultats principaux de cette partie sont des méthodes algorithmiques per- mettant de solutionner la reconstruction efficacement, et l’identification d’une transition de phase dans la qualité de la reconstruction, lorsque le niveau d’inégalité des réseaux étudiés est varié. On se penche finalement sur un traitement par test d’hypothèses des systèmes complexes. Cette partie, plus succincte, est présentée dans un langage mathématique plus général que celui des réseaux, soit celui des complexes simpliciaux. On obtient un modèle aléatoire pour complexe simplicial, ainsi qu’un algorithme d’échantillonnage efficace pour ce modèle. On termine en montrant qu’on peut utiliser ces outils pour tester des hypothèses sur la structure des systèmes complexes réels, via une propriété inaccessible dans la représentation réseau (les groupes d’homologie des complexes). / Modern science is often concerned with complex objects of inquiry: intricate webs of social interactions, pandemics, power grids, ecological niches under climatological pressure, etc. When the goal is to gain insights into the function and mechanism of these complex systems, a possible approach is to map their structure using a collection of nodes (the parts of the systems) connected by edges (their interactions). The resulting complex networks capture the structural essence of these systems. Years of successes show that the network abstraction often suffices to understand a plethora of complex phenomena. It can be argued that a principled and rigorous approach to data analysis is chief among the challenges faced by network science today. With this in mind, the goal of this thesis is to tackle a number of important problems at the intersection of network science and statistical inference, of two types: The problems of estimations and the testing of hypotheses. Most of the thesis is devoted to estimation problems. We begin with a thorough analysis of a well-known generative model (the stochastic block model), introduced 40 years ago to identify patterns and regularities in the structure of real networks. The main original con- tributions of this part are (a) the unification of the majority of known regularity detection methods under the stochastic block model, and (b) a thorough characterization of its con- sistency in the finite-size regime. Together, these two contributions put regularity detection methods on firmer statistical foundations. We then turn to a completely different estimation problem: The reconstruction of the past of complex networks, from a single snapshot. The unifying theme is our statistical treatment of this problem, again based on generative model- ing. Our major results are: the inference framework itself; an efficient history reconstruction method; and the discovery of a phase transition in the recoverability of history, driven by inequalities (the more unequal, the harder the reconstruction problem). We conclude with a short section, where we investigate hypothesis testing in complex sys- tems. This epilogue is framed in the broader mathematical context of simplicial complexes, a natural generalization of complex networks. We obtain a random model for these objects, and the associated efficient sampling algorithm. We finish by showing how these tools can be used to test hypotheses about the structure of real systems, using their homology groups.
|
149 |
Mesures d'association pour des modèles de copules multidimensionnellesRomdhani, Héla 20 April 2018 (has links)
Dans cette thèse nous nous intéressons à la mesure de dépendance sous des modèles de copules. Nous y traitons trois problèmes : la mesure d’association dans le cas bidimensionnel en présence de seuils de détection, la mesure d’association pour des données en grappes et la mesure d’association pour des données hiérarchiques. Le premier problème, indépendant des deux autres, concerne la mesure d’association entre deux variables sujettes à une censure à gauche fixe due à l’existence de seuils de détection. Nous définissons une version conditionnelle du tau de Kendall permettant de mesurer l’association entre de telles variables. Nous en proposons un estimateur non paramétrique et en étudions les propriétés asymptotiques. Nous supposons, ensuite, un modèle de copule Archimédienne et en déduisons un estimateur pour le tau de Kendall global. Un test d’ajustement de copules à ce type de données est développé. Le deuxième problème traite de la mesure d’association dans un cadre multidimensionnel pour des données en grappes telles que les observations à l’intérieur de chaque groupe sont échangeables. Pour cela, nous introduisons le tau de Kendall échangeable comme une mesure d’association intra-classe et présentons un estimateur non paramétrique pour cette mesure. Ses propriétés asymptotiques sont étudiées sous un modèle de copules multidimensionnelles caractérisées par une propriété appelée échangeabilité. Nous en déduisons un estimateur du coefficient de corrélation intra-classe pour des données provenant d’une distribution elliptique. Nous dérivons ses propriétés asymptotiques sous un modèle ANOVA généralisé à un facteur. Enfin, nous développons un test d’indépendence basé sur le tau de Kendall. Le troisième problème est une extension du deuxième au cas de données hiérarchiques avec des sous-groupes imbriqués dans des groupes, dans le cas où les unités à l’intérieur de chaque sous-groupe sont échangeables et où les sous-groupes appartenant à un même groupe sont, eux mêmes, échangeables. Nous définissons alors deux mesures d’association basées sur le tau de Kendall échangeable et en proposons des estimateurs non paramétriques. Nous étudions les propriétés asymptotiques de ces estimateurs sous des modèles de copules hiérarchiques vérifiant certaines propriétés d’échangeabilité partielle. Pour les données provenant de copules meta-elliptiques hiérarchiques, nous déduisons des estimateurs pour les coefficients de corrélation intra-classe associés aux groupes et aux sous-groupes respectivement. Nous développons, enfin, des procédures de tests pour les effets de groupes et de sous-groupes. / In this thesis we are interested in measuring the dependence under copula models. We deal with three problems: the measure of association in the bivariate case in the presence of lower detection limits, the measure of association for clustered data and the measure of association for two-level hierarchical data. The first problem, independent of the other two, deals with the measure of association between two variables subject to fixed left censoring due to the presence of lower detection limits. We define a conditional version of Kendall’s tau to measure the association between such variables. We provide a nonparametric estimator of this measure and study its asymptotic properties. We then assume an Archimedean copula model and deduce an estimator for the copula’s Kendall’s tau. A goodness-of-fit test for the assumed copula is developed. The second problem deals with the measure of intra-class association for clustered data such that observations within each group are exchangeable. For this, we introduce an exchangeable version of Kendall’s tau as a measure of intra-class dependance and provide a nonparametric estimator for this measure. Its asymptotic properties are investigated under a multivariate exchangeable copula model. We derive an estimator of the intra-class correlation coefficient for data drawn from an elliptical distribution. The asymptotic properties of this estimator are investigated under a generalized oneway ANOVA model. Finally, we develop an intra-class independence test based on Kendall’s tau. The third problem is an extension of the second to the case of hierarchical data with a set of subgroups nested into groups, such that the units within each subgroup are exchangeable and the subgroups belonging to the same group are themselves exchangeable. We define two association measures based on the exchangeable Kendall’s tau and propose nonparametric estimators for these measures. We investigate their asymptotic properties under hierarchical copula models satisfying some properties of partial exchangeability. For data drawn from meta-elliptical hierarchical copulas we deduce estimators for the intra-class correlation coefficients associated to groups and subgroups respectively. We also develop procedures for testing the effects of groups and subgroups.
|
150 |
Robustesse du coefficient de corrélation tétrachorique en l'absence de normalité bivariéeLévesque, Jean-Marc 11 April 2018 (has links)
Étant donné des paires de variables aléatoires dont les valeurs ont été dichotomisées, le coefficient de corrélation tétrachorique approxime la corrélation de Pearson sous l'hypothèse que la loi conjointe des observations est gaussienne. Pour vérifier la nécessité de cette hypothèse, Gréer et al. (2003) ont étudié la robustesse du coefficient tétrachorique en supposant que la structure de dépendance des observations est normale mais que leurs marges ne le sont pas. Ce mémoire complète ces travaux en proposant une évaluation de plusieurs approximations du coefficient tétrachorique dans le cas où les lois marginales des variables sont normales mais leur structure de dépendance n'est pas gaussienne. Le biais et l'erreur quadratique moyenne de ces estimations sont mesurés par voie de simulation sous différents modèles de copules.
|
Page generated in 0.0312 seconds