361 |
Analyse de stratégies bayésiennes et fréquentistes pour l'allocation séquentielle de ressources / Analysis of bayesian and frequentist strategies for sequential resource allocationKaufmann, Emilie 01 October 2014 (has links)
Dans cette thèse, nous étudions des stratégies d’allocation séquentielle de ressources. Le modèle statistique adopté dans ce cadre est celui du bandit stochastique à plusieurs bras. Dans ce modèle, lorsqu’un agent tire un bras du bandit, il reçoit pour récompense une réalisation d’une distribution de probabilité associée au bras. Nous nous intéressons à deux problèmes de bandit différents : la maximisation de la somme des récompenses et l’identification des meilleurs bras (où l’agent cherche à identifier le ou les bras conduisant à la meilleure récompense moyenne, sans subir de perte lorsqu’il tire un «mauvais» bras). Nous nous attachons à proposer pour ces deux objectifs des stratégies de tirage des bras, aussi appelées algorithmes de bandit, que l’on peut qualifier d’optimales. La maximisation des récompenses est équivalente à la minimisation d’une quantité appelée regret. Grâce à une borne inférieure asymptotique sur le regret d’une stratégie uniformément efficace établie par Lai et Robbins, on peut définir la notion d’algorithme asymptotiquement optimal comme un algorithme dont le regret atteint cette borne inférieure. Dans cette thèse, nous proposons pour deux algorithmes d’inspiration bayésienne, Bayes-UCB et Thompson Sampling, une analyse à temps fini dans le cadre des modèles de bandit à récompenses binaires, c’est-à-dire une majoration non asymptotique de leur regret. Cette majoration permetd’établir l’optimalité asymptotique des deux algorithmes. Dans le cadre de l’identification des meilleurs bras, on peut chercher à déterminer le nombre total d’échantillons des bras nécessaires pour identifier, avec forte probabilité, le ou les meilleurs bras, sans la contrainte de maximiser la somme des observations. Nous définissons deux termes de complexité pour l’identification des meilleurs bras dans deux cadres considérés dans la littérature, qui correspondent à un budget fixé ou à un niveau de confiance fixé. Nous proposons de nouvelles bornes inférieures sur ces complexités, et nous analysons de nouveaux algorithmes, dont certains atteignent les bornes inférieures dans des cas particuliers de modèles de bandit à deux bras, et peuvent donc être qualifiés d’optimaux. / In this thesis, we study strategies for sequential resource allocation, under the so-called stochastic multi-armed bandit model. In this model, when an agent draws an arm, he receives as a reward a realization from a probability distribution associated to the arm. In this document, we consider two different bandit problems. In the reward maximization objective, the agent aims at maximizing the sum of rewards obtained during his interaction with the bandit, whereas in the best arm identification objective, his goal is to find the set of m best arms (i.e. arms with highest mean reward), without suffering a loss when drawing ‘bad’ arms. For these two objectives, we propose strategies, also called bandit algorithms, that are optimal (or close to optimal), in a sense precised below. Maximizing the sum of rewards is equivalent to minimizing a quantity called regret. Thanks to an asymptotic lower bound on the regret of any uniformly efficient algorithm given by Lai and Robbins, one can define asymptotically optimal algorithms as algorithms whose regret reaches this lower bound. In this thesis, we propose, for two Bayesian algorithms, Bayes-UCB and Thompson Sampling, a finite-time analysis, that is a non-asymptotic upper bound on their regret, in the particular case of bandits with binary rewards. This upper bound allows to establish the asymptotic optimality of both algorithms. In the best arm identification framework, a possible goal is to determine the number of samples of the armsneeded to identify, with high probability, the set of m best arms. We define a notion of complexity for best arm identification in two different settings considered in the literature: the fixed-budget and fixed-confidence settings. We provide new lower bounds on these complexity terms and we analyse new algorithms, some of which reach the lower bound in particular cases of two-armed bandit models and are therefore optimal
|
362 |
The Statistical Fate of Genomic DNA : Modelling Match Statistics in Different Evolutionary Scenarios / Le devenir statistique de l'ADN génomique : Modélisation des statistiques d'appariement dans différents scénarios évolutifsMassip, Florian 02 October 2015 (has links)
Le but de cette thèse est d'étudier la distribution des tailles des répétitions au sein d'un même génome, ainsi que la distribution des tailles des appariements obtenus en comparant différents génomes. Ces distributions présentent d'importantes déviations par rapport aux prédictions des modèles probabilistes existants. Étonnamment, les déviations observées sont distribuées selon une loi de puissance. Afin d'étudier ce phénomène, nous avons développé des modèles mathématiques prenant en compte des mécanismes évolutifs plus complexes, et qui expliquent les distributions observées. Nous avons aussi implémenté des modèles d'évolution de séquences in silico générant des séquences ayant les mêmes propriétés que les génomes étudiés. Enfin, nous avons montré que nos modèles permettent de tester la qualité des génomes récemment séquencés, et de mettre en évidence la prévalence de certains mécanismes évolutifs dans les génomes eucaryotes. / In this thesis, we study the length distribution of maximal exact matches within and between eukaryotic genomes. These distributions strongly deviate from what one could expect from simple probabilistic models and, surprisingly, present a power-law behavior. To analyze these deviations, we develop mathematical frameworks taking into account complex mechanisms and that reproduce the observed deviations. We also implemented in silico sequence evolution models that reproduce these behaviors. Finally, we show that we can use our framework to assess the quality of sequences of recently sequenced genomes and to highlight the importance of unexpected biological mechanisms in eukaryotic genomes.
|
363 |
Modélisation spatiale multi-sources de la teneur en carbone organique du sol d'une petite région agricole francilienne / Multi-source spatial modelling of the soil organic carbon content in Western Paris croplandsZaouche, Mounia 15 March 2019 (has links)
Cette thèse porte sur l’estimation spatiale de la teneur superficielle en carbone organiquedu sol ou teneur en SOC (pour ’Soil Organic Carbon content’), à l’échelle d’une petite région agricolefrancilienne. La variabilité de la teneur en SOC a été identifiée comme étant l’une des principales sourcesd’incertitude de la prédiction des stocks de SOC, dont l’accroissement favorise la fertilité des sols etl’atténuation des émissions de gaz à effet de serre. Nous utilisons des données provenant de sourceshétérogènes décrites selon différentes résolutions spatiales (prélèvements de sol, carte pédologique, imagessatellitaires multispectrales, etc) dans le but de produire d’une part une information spatiale exhaustive,et d’autre part des estimations précises de la teneur en SOC sur la région d’étude ainsi qu’une uneévaluation des incertitudes associées. Plusieurs modèles originaux, dont certains tiennent compte duchangement du support, sont construits et plusieurs approches et méthodes de prédiction sont considérées.Parmi elles, on retrouve des méthodes bayésiennes récentes et performantes permettant non seulementd’inférer des modèles sophistiqués intégrant conjointement des données de résolution spatiale différentemais aussi de traiter des données en grande dimension. Afin d’optimiser la qualité de la prédictiondes modélisations multi-sources, nous proposons également une approche efficace et rapide permettantd’accroître l’influence d’un type de données importantes mais sous-représentées dans l’ensemble de toutesles données initialement intégrées. / In this thesis, we are interested in the spatial estimation of the topsoil organic carbon(SOC) content over a small agricultural area located West of Paris. The variability of the SOC contenthas been identified as one of the main sources of prediction uncertainty of SOC stocks, whose increasepromotes soil fertility and mitigates greenhouse gas emissions. We use data issued from heterogeneoussources defined at different spatial resolutions (soil samples, soil map, multispectral satellite images, etc)with the aim of providing on the one hand an exhaustive spatial information, and on the other accurateestimates of the SOC content in the study region and an assessment of the related uncertainties. Severaloriginal models, some of which incorporate the change of support, are built and several approaches andprediction methods are considered. These include recent and powerful Bayesian methods enabling notonly the inference of sophisticated models integrating jointly data of different spatial resolutions butalso the exploitation of large data sets. In order to optimize the quality of prediction of the multi-sourcedata modellings, we also propose an efficient and fast approach : it allows to increase the influence of animportant but under-represented type of data, in the set of all initially integrated data.
|
364 |
Modélisation multivariée de variables météorologiques / Multivariate modelling of weather variablesTouron, Augustin 19 September 2019 (has links)
La production d'énergie renouvelable et la consommation d'électricité dépendent largement des conditions météorologiques : température, précipitations, vent, rayonnement solaire... Ainsi, pour réaliser des études d'impact sur l'équilibre offre-demande, on peut utiliser un générateur de temps, c'est-à-dire un modèle permettant de simuler rapidement de longues séries de variables météorologiques réalistes, au pas de temps journalier. L'une des approches possibles pour atteindre cet objectif utilise les modèles de Markov caché : l'évolution des variables à modéliser est supposée dépendre d'une variable latente que l'on peut interpréter comme un type de temps. En adoptant cette approche, nous proposons dans cette thèse un modèle permettant de simuler simultanément la température, la vitesse du vent et les précipitations, en tenant compte des non-stationnarités qui caractérisent les variables météorologiques. D'autre part, nous nous intéressons à certaines propriétés théoriques des modèles de Markov caché cyclo-stationnaires : nous donnons des conditions simples pour assurer leur identifiabilité et la consistance forte de l'estimateur du maximum de vraisemblance. On montre aussi cette propriété de l'EMV pour des modèles de Markov caché incluant des tendances de long terme sous forme polynomiale. / Renewable energy production and electricity consumption both depend heavily on weather: temperature, precipitations, wind, solar radiation... Thus, making impact studies on the supply/demand equilibrium may require a weather generator, that is a model capable of quickly simulating long, realistic times series of weather variables, at the daily time step. To this aim, one of the possible approaches is using hidden Markov models : we assume that the evolution of the weather variables are governed by a latent variable that can be interpreted as a weather type. Using this approach, we propose a model able to simulate simultaneously temperature, wind speed and precipitations, accounting for the specific non-stationarities of weather variables. Besides, we study some theoretical properties of cyclo-stationary hidden Markov models : we provide simple conditions of identifiability and we show the strong consistency of the maximum likelihood estimator. We also show this property of the MLE for hidden Markov models including long-term polynomial trends.
|
365 |
Random Matrix Theory in Statistical Physics : Quantum Scattering and Disordered Systems / Théorie des matrices aléatoires en physique statistique : théorie quantique de la diffusion et systèmes désordonnésGrabsch, Aurélien 02 July 2018 (has links)
La théorie des matrices aléatoires a des applications dans des domaines variés : mathématiques, physique, finance, ... En physique, le concept de matrices aléatoires a été utilisé pour l'étude du transport électronique dans des structures mésoscopiques, de systèmes désordonnés, de l'intrication quantique, de modèles d'interfaces 1D fluctuantes en physique statistique, des atomes froids, ... Dans cette thèse, on s'intéresse au transport AC cohérent dans un point quantique, à des propriétés d'interfaces fluctuantes 1D sur un substrat et aux propriétés topologiques de fils quantiques multicanaux. La première partie commence par une introduction générale a la théorie des matrices aléatoires ainsi qu'a la principale méthode utilisée dans cette thèse : le gaz de Coulomb. Cette technique permet entre autres d'étudier la distribution d'observables qui prennent la forme de statistiques linéaires des valeurs propres, qui représentent beaucoup de quantités physiques pertinentes. Cette méthode est ensuite appliquée à des exemples concrets pour étudier le transport cohérent et les problèmes d'interfaces fluctuantes en physique statistique. La seconde partie se concentre sur un modèle de fil désordonné : l'équation de Dirac multicanale avec masse aléatoire. Nous étendons le puissant formalisme utilisé pour l'étude de systèmes unidimensionnels au cas quasi-1D, et établissons une connexion avec un modèle de matrices aléatoires. Nous utilisons ce résultat pour obtenir la densité d'états et les propriétés de localisation. Nous montrons également que ce système présente une série de transitions de phases topologiques (changement d'un nombre quantique de nature topologique, sans changement de symétrie), contrôlées par le désordre. / Random matrix theory has applications in various fields: mathematics, physics, finance, ... In physics, the concept of random matrices has been used to study the electronic transport in mesoscopic structures, disordered systems, quantum entanglement, interface models in statistical physics, cold atoms, ... In this thesis, we study coherent AC transport in a quantum dot, properties of fluctuating 1D interfaces on a substrate and topological properties of multichannel quantum wires. The first part gives a general introduction to random matrices and to the main method used in this thesis: the Coulomb gas. This technique allows to study the distribution of observables which take the form of linear statistics of the eigenvalues. These linear statistics represent many relevant physical observables, in different contexts. This method is then applied to study concrete examples in coherent transport and fluctuating interfaces in statistical physics. The second part focuses on a model of disordered wires: the multichannel Dirac equation with a random mass. We present an extension of the powerful methods used for one dimensional system to this quasi-1D situation, and establish a link with a random matrix model. From this result, we extract the density of states and the localization properties of the system. Finally, we show that this system exhibits a series of topological phase transitions (change of a quantum number of topological nature, without changing the symmetries), driven by the disorder.
|
366 |
Détection de ruptures multiples – application aux signaux physiologiques. / Multiple change point detection – application to physiological signals.Truong, Charles 29 November 2018 (has links)
Ce travail s’intéresse au problème de détection de ruptures multiples dans des signaux physiologiques (univariés ou multivariés). Ce type de signaux comprend par exemple les électrocardiogrammes (ECG), électroencéphalogrammes (EEG), les mesures inertielles (accélérations, vitesses de rotation, etc.). L’objectif de cette thèse est de fournir des algorithmes de détection de ruptures capables (i) de gérer de long signaux, (ii) d’être appliqués dans de nombreux scénarios réels, et (iii) d’intégrer la connaissance d’experts médicaux. Par ailleurs, les méthodes totalement automatiques, qui peuvent être utilisées dans un cadre clinique, font l’objet d’une attention particulière. Dans cette optique, des procédures robustes de détection et des stratégies supervisées de calibration sont décrites, et une librairie Python open-source et documentée, est mise en ligne.La première contribution de cette thèse est un algorithme sous-optimal de détection de ruptures, capable de s’adapter à des contraintes sur temps de calcul, tout en conservant la robustesse des procédures optimales. Cet algorithme est séquentiel et alterne entre les deux étapes suivantes : une rupture est détectée, puis retranchée du signal grâce à une projection. Dans le cadre de sauts de moyenne, la consistance asymptotique des instants estimés de ruptures est démontrée. Nous prouvons également que cette stratégie gloutonne peut facilement être étendue à d’autres types de ruptures, à l’aide d’espaces de Hilbert à noyau reproduisant. Grâce à cette approche, des hypothèses fortes sur le modèle génératif des données ne sont pas nécessaires pour gérer des signaux physiologiques. Les expériences numériques effectuées sur des séries temporelles réelles montrent que ces méthodes gloutonnes sont plus précises que les méthodes sous-optimales standards et plus rapides que les algorithmes optimaux.La seconde contribution de cette thèse comprend deux algorithmes supervisés de calibration automatique. Ils utilisent tous les deux des exemples annotés, ce qui dans notre contexte correspond à des signaux segmentés. La première approche apprend le paramètre de lissage pour la détection pénalisée d’un nombre inconnu de ruptures. La seconde procédure apprend une transformation non-paramétrique de l’espace de représentation, qui améliore les performances de détection. Ces deux approches supervisées produisent des algorithmes finement calibrés, capables de reproduire la stratégie de segmentation d’un expert. Des résultats numériques montrent que les algorithmes supervisés surpassent les algorithmes non-supervisés, particulièrement dans le cas des signaux physiologiques, où la notion de rupture dépend fortement du phénomène physiologique d’intérêt.Toutes les contributions algorithmiques de cette thèse sont dans "ruptures", une librairie Python open-source, disponible en ligne. Entièrement documentée, "ruptures" dispose également une interface consistante pour toutes les méthodes. / This work addresses the problem of detecting multiple change points in (univariate or multivariate) physiological signals. Well-known examples of such signals include electrocardiogram (ECG), electroencephalogram (EEG), inertial measurements (acceleration, angular velocities, etc.). The objective of this thesis is to provide change point detection algorithms that (i) can handle long signals, (ii) can be applied on a wide range of real-world scenarios, and (iii) can incorporate the knowledge of medical experts. In particular, a greater emphasis is placed on fully automatic procedures which can be used in daily clinical practice. To that end, robust detection methods as well as supervised calibration strategies are described, and a documented open-source Python package is released.The first contribution of this thesis is a sub-optimal change point detection algorithm that can accommodate time complexity constraints while retaining most of the robustness of optimal procedures. This algorithm is sequential and alternates between the two following steps: a change point is estimated then its contribution to the signal is projected out. In the context of mean-shifts, asymptotic consistency of estimated change points is obtained. We prove that this greedy strategy can easily be extended to other types of changes, by using reproducing kernel Hilbert spaces. Thanks this novel approach, physiological signals can be handled without making assumption of the generative model of the data. Experiments on real-world signals show that those approaches are more accurate than standard sub-optimal algorithms and faster than optimal algorithms.The second contribution of this thesis consists in two supervised algorithms for automatic calibration. Both rely on labeled examples, which in our context, consist in segmented signals. The first approach learns the smoothing parameter for the penalized detection of an unknown number of changes. The second procedure learns a non-parametric transformation of the representation space, that improves detection performance. Both supervised procedures yield finely tuned detection algorithms that are able to replicate the segmentation strategy of an expert. Results show that those supervised algorithms outperform unsupervised algorithms, especially in the case of physiological signals, where the notion of change heavily depends on the physiological phenomenon of interest.All algorithmic contributions of this thesis can be found in ``ruptures'', an open-source Python library, available online. Thoroughly documented, ``ruptures'' also comes with a consistent interface for all methods.
|
367 |
Approches statistique et épistémologique de l'attribution d'événements extrêmes / Statistical and epistemological approaches of extreme event attributionJézéquel, Aglaé 23 November 2018 (has links)
Les événements extrêmes sont l'expression de la variabilité climatique naturelle. Puisque les émissions anthropiques affectent le climat mondial, il est naturel de se demander si les événements extrêmes observés récemment sont une manifestation du changement climatique. Cette thèse se propose de contribuer à la compréhension de l'influence du changement climatique anthropique sur les événements extrêmes observés, tout en évaluant si et comment cette information scientifique - et plus généralement, l'attribution d'événements extrêmes (AEE) - pourrait être utile à la société. Je propose des outils statistiques et j'utilise un ensemble d'entretiens qualitatifs pour répondre à ces questions.La partie statistique s'applique aux vagues de chaleur européennes. Je quantifie le rôle joué par la circulation atmosphérique dans l'intensité de quatre vagues de chaleur récente. Cette analyse s'appuie sur des analogues de circulations, qui identifient des jours ayant une circulation similaire à celle de l'événement étudié. Ensuite, je dissocie l'influence du changement climatique sur les processus dynamiques et non dynamiques menant aux vagues de chaleur. Je calcule des tendances sur l'occurrence de circulations favorisant les fortes chaleurs et sur la température pour une circulation fixée, pour les vagues de chaleur de 2003 en Europe de l'Ouest et de 2010 en Russie. Je trouve que la significativité des résultats dépend de l'événement étudié, ce qui montre l'intérêt de calculer des tendances pour des types de circulation atmosphérique précis.La partie épistémologique analyse les utilisations sociales potentielles de l'AEE. Je mesure comment elle pourrait informer les négociations internationales sur le climat, en particulier les pertes et préjudices, en réponse à des arguments de scientifiques dans ce sens. Je trouve que le seul rôle que l'AEE puisse jouer pour renforcer les pertes et préjudices est un rôle de sensibilisation des politiques, en marge du processus de négociations. Je compare également les motivations avancées par les scientifiques dans les entretiens avec les résultats existants sur l'utilité sociale de ce type d'information scientifique. Je montre que la pertinence sociale des résultats d'AEE est ambiguë, et qu'il y a un manque de données empiriques pour mieux comprendre comment différents acteurs s'approprient et réagissent à cette information. / Extreme events are an expression of natural climate variability. Since anthropogenic emissions affect global climate, it is natural to wonder whether recent observed extreme events are a manifestation of anthropogenic climate change. This thesis aims at contributing to the understanding of the influence of anthopogenic climate change on observed extreme events, while assessing whether and how this scientific information - and more generally, the science of extreme event attribution (EEA) - could be useful for society. I propose statistical tools to achieve the former, while relying on qualitative interviews for the latter.The statistical part focuses on European heatwaves. I quantify the role played by the atmospheric circulation in the intensity of four recent heatwaves. This analysis is based on flow analogues, which identify days with a similar circulation pattern than the event of interest. I then disentangle the influence of climate change on the dynamical and non-dynamical processes leading to heatwaves. I calculate trends in the occurrence of circulation patterns leading to high temperatures and trends in temperature for a fixed circulation pattern, applied to the 2003 Western Europe and 2010 Russia heatwaves. I find that the significance of the results depend on the event of interest, highlighting the value of calculating trends for very specific types of circulation.The epistemological part evaluates the potential social uses of extreme event attribution. I assess how it could inform international climate negotiations, more specifically loss and damage, in response to a number of claims from scientists going in this direction. I find that the only potential role EEA could play to boost the loss and damage agenda would be to raise awareness for policy makers, aside from the negotiation process itself. I also evaluate how the different motivations stated by EEA scientists in interviews fare compared to the existing evidence on social use of this type of scientific information. I show that the social relevance of EEA results is ambiguous, and that there is a lack of empirical data to better understand how different non-scientific stakeholders react and appropriate EEA information.
|
368 |
Learning from ranking data : theory and methods / Apprendre des données de classement : théorie et méthodesKorba, Anna 25 October 2018 (has links)
Les données de classement, c.à. d. des listes ordonnées d'objets, apparaissent naturellement dans une grande variété de situations, notamment lorsque les données proviennent d’activités humaines (bulletins de vote d'élections, enquêtes d'opinion, résultats de compétitions) ou dans des applications modernes du traitement de données (moteurs de recherche, systèmes de recommendation). La conception d'algorithmes d'apprentissage automatique, adaptés à ces données, est donc cruciale. Cependant, en raison de l’absence de structure vectorielle de l’espace des classements et de sa cardinalité explosive lorsque le nombre d'objets augmente, la plupart des méthodes classiques issues des statistiques et de l’analyse multivariée ne peuvent être appliquées directement. Par conséquent, la grande majorité de la littérature repose sur des modèles paramétriques. Dans cette thèse, nous proposons une théorie et des méthodes non paramétriques pour traiter les données de classement. Notre analyse repose fortement sur deux astuces principales. La première est l’utilisation poussée de la distance du tau de Kendall, qui décompose les classements en comparaisons par paires. Cela nous permet d'analyser les distributions sur les classements à travers leurs marginales par paires et à travers une hypothèse spécifique appelée transitivité, qui empêche les cycles dans les préférences de se produire. La seconde est l'utilisation des fonctions de représentation adaptées aux données de classements, envoyant ces dernières dans un espace vectoriel. Trois problèmes différents, non supervisés et supervisés, ont été abordés dans ce contexte: l'agrégation de classement, la réduction de dimensionnalité et la prévision de classements avec variables explicatives.La première partie de cette thèse se concentre sur le problème de l'agrégation de classements, dont l'objectif est de résumer un ensemble de données de classement par un classement consensus. Parmi les méthodes existantes pour ce problème, la méthode d'agrégation de Kemeny se démarque. Ses solutions vérifient de nombreuses propriétés souhaitables, mais peuvent être NP-difficiles à calculer. Dans cette thèse, nous avons étudié la complexité de ce problème de deux manières. Premièrement, nous avons proposé une méthode pour borner la distance du tau de Kendall entre tout candidat pour le consensus (généralement le résultat d'une procédure efficace) et un consensus de Kemeny, sur tout ensemble de données. Nous avons ensuite inscrit le problème d'agrégation de classements dans un cadre statistique rigoureux en le reformulant en termes de distributions sur les classements, et en évaluant la capacité de généralisation de consensus de Kemeny empiriques.La deuxième partie de cette théorie est consacrée à des problèmes d'apprentissage automatique, qui se révèlent être étroitement liés à l'agrégation de classement. Le premier est la réduction de la dimensionnalité pour les données de classement, pour lequel nous proposons une approche de transport optimal, pour approximer une distribution sur les classements par une distribution montrant un certain type de parcimonie. Le second est le problème de la prévision des classements avec variables explicatives, pour lesquelles nous avons étudié plusieurs méthodes. Notre première proposition est d’adapter des méthodes constantes par morceaux à ce problème, qui partitionnent l'espace des variables explicatives en régions et assignent à chaque région un label (un consensus). Notre deuxième proposition est une approche de prédiction structurée, reposant sur des fonctions de représentations, aux avantages théoriques et computationnels, pour les données de classements. / Ranking data, i.e., ordered list of items, naturally appears in a wide variety of situations, especially when the data comes from human activities (ballots in political elections, survey answers, competition results) or in modern applications of data processing (search engines, recommendation systems). The design of machine-learning algorithms, tailored for these data, is thus crucial. However, due to the absence of any vectorial structure of the space of rankings, and its explosive cardinality when the number of items increases, most of the classical methods from statistics and multivariate analysis cannot be applied in a direct manner. Hence, a vast majority of the literature rely on parametric models. In this thesis, we propose a non-parametric theory and methods for ranking data. Our analysis heavily relies on two main tricks. The first one is the extensive use of the Kendall’s tau distance, which decomposes rankings into pairwise comparisons. This enables us to analyze distributions over rankings through their pairwise marginals and through a specific assumption called transitivity, which prevents cycles in the preferences from happening. The second one is the extensive use of embeddings tailored to ranking data, mapping rankings to a vector space. Three different problems, unsupervised and supervised, have been addressed in this context: ranking aggregation, dimensionality reduction and predicting rankings with features.The first part of this thesis focuses on the ranking aggregation problem, where the goal is to summarize a dataset of rankings by a consensus ranking. Among the many ways to state this problem stands out the Kemeny aggregation method, whose solutions have been shown to satisfy many desirable properties, but can be NP-hard to compute. In this work, we have investigated the hardness of this problem in two ways. Firstly, we proposed a method to upper bound the Kendall’s tau distance between any consensus candidate (typically the output of a tractable procedure) and a Kemeny consensus, on any dataset. Then, we have casted the ranking aggregation problem in a rigorous statistical framework, reformulating it in terms of ranking distributions, and assessed the generalization ability of empirical Kemeny consensus.The second part of this thesis is dedicated to machine learning problems which are shown to be closely related to ranking aggregation. The first one is dimensionality reduction for ranking data, for which we propose a mass-transportation approach to approximate any distribution on rankings by a distribution exhibiting a specific type of sparsity. The second one is the problem of predicting rankings with features, for which we investigated several methods. Our first proposal is to adapt piecewise constant methods to this problem, partitioning the feature space into regions and locally assigning as final label (a consensus ranking) to each region. Our second proposal is a structured prediction approach, relying on embedding maps for ranking data enjoying theoretical and computational advantages.
|
369 |
Modélisation de la trajectoire criminelle de jeunes contrevenants à l'aide de modèles linéaires généralisés mixtesVeilleux, Lucie 11 April 2018 (has links)
La régression linéaire est souvent utilisée en pratique afin de trouver une relation entre une variable réponse et une ou plusieurs variable(s) explicative(s). Une lacune de cette méthode est qu'elle est inappropriée si la variable réponse en est une de dénombrement. Dans un tel cas, la régression de Poisson doit être utilisée. Ce mémoire décrira de façon détaillée la régression de Poisson. Les propriétés de la loi de Poisson seront énoncées dans le but d'expliquer la régression de Poisson. Les équations d'estimation généralisées (GEE) seront ensuite introduites dans un éventuel but d'élargir la régression de Poisson dans les situations où les données sont corrélées (par exemple, les données longitudinales). Les modèles linéaires généralisés mixtes seront aussi considérés. Les modèles additifs généralisés seront ensuite brièvement expliqués et nous présenterons finalement une étude détaillée d'une base de données sur les trajectoires criminelles de jeunes contrevenants.
|
370 |
Salluit : analyse et reconstitution d'événements climatiques significatifs pertinents à l'aménagement du territoire et à la sécurité publiqueLévesque, Anne-Marie 16 April 2018 (has links)
L'objet principal de ce mémoire est l'analyse des données météorologiques provenant de stations installées en 2002 à Salluit. Deux objectifs ont orienté cette analyse : la mise à jour statistique des données et l'étude d'événements climatiques ayant un impact significatif sur la communauté. Compte tenu des sources d'informations disponibles, deux types d'événements ont été étudiés : le réchauffement des températures et les épisodes de vents violents. Les résultats montrent une augmentation des températures atmosphériques, particulièrement marquée durant la dernière décennie et qui s'est manifestée surtout à l'hiver. Les résultats démontrent également que les Sallumiut composent régulièrement avec des vents violents, parfois de force Ouragan. Le village est cependant bien protégé par les flancs de la vallée, étant proie à moins d'épisodes que le sommet des plateaux avoisinants. Puisque ces événements ont eu des répercussions importantes et que les projections climatiques pour l'Arctique prévoient une augmentation de ces derniers, il est impératif d'assurer un suivi climatique rigoureux.
|
Page generated in 0.02 seconds