Global ETD Search

11	Causalité des marchés financiers : asymétrie temporelle et réseaux multi-échelles de meneurs et suiveurs / Causality in financial markets : time reversal asymmetry and multi-scale lead-lag networks Cordi, Marcus 07 March 2019 (has links) Cette thèse a pour but d’explorer la structure de causalité qui sous-tend les marchés financiers. Elle se concentre sur l’inférence multi-échelle de réseaux de causalité entre investisseurs dans deux bases de données contenant les identifiants des investisseurs. La première partie de cette thèse est consacrée à l’étude de la causalité dans les processus de Hawkes. Ces derniers définissent la façon dont l’activité d’un investisseur (par exemple) dépend du passé; sa version multivariée inclut l’interaction entre séries temporelles, à toutes les échelles. Les résultats principaux de cette partie est que l’estimation avec le maximum de vraisemblance des paramètres du processus changent remarquablement peu lorsque la direction du temps est inversée, tant pour les processus univariés que pour les processus multivariés avec noyaux d’influence mutuelle symétriques, et que la causalité effective de ces processus dépend de leur endogénéité. Cela implique qu’on ne peut pas utiliser ce type de processus pour l’inférence de causalité sans précautions. L’utilisation de tests statistiques permet la différentiation des directions du temps pour des longues données synthétiques. Par contre, l’analyse de données empiriques est plus problématique: il est tout à fait possible de trouver des données financières pour lesquelles la vraisemblance des processus de Hawkes est plus grande si le temps s’écoule en sens inverse. Les processus de Hawkes multivariés avec noyaux d’influence asymétriques ne sont pas affectés par une faible causalité. Il est malheureusement difficile de les calibrer aux actions individuelles des investisseurs présents dans nos bases de données, pour deux raisons. Nous avons soigneusement vérifie que l’activité des investisseurs est hautement non-stationaire et qu’on ne peut pas supposer que leur activité est localement stationaire, faute de données en nombre suffisant, bien que nos bases de données contiennent chacune plus de 1 million de transactions. Ces problèmes sont renforcés par le fait que les noyaux dans les processus de Hawkes codent l’influence mutuelle des investisseurs pour toutes les échelles de temps simultanément. Afin de pallier ce problème, la deuxième partie de cette thèse se concentre sur la causalité entre des échelles de temps spécifiques. Un filtrage supplémentaire est obtenu en réduisant le nombre effectif d’investisseurs grâce aux Réseaux Statistiquement Validés. Ces derniers sont utilisés pour catégoriser les investisseurs, qui sont groupés selon leur degré de la synchronisation de leurs actions (achat, vente, neutre) dans des intervalles déterminés à une échelle temporelle donnée. Cette partie propose une méthode pour l’inférence de réseaux de meneurs et suiveurs déterminés à une échelle de temps donnée dans le passé et à une autre dans le futur. Trois variations de cette méthode sont étudiées. Cette méthode permet de caractériser la causalité d’une façon novatrice. Nous avons comparé l’asymétrie temporelle des actions des investisseurs et celle de la volatilité des prix, et conclure que la structure de causalité des investisseurs est considérablement plus complexe que celle de la volatilité. De façon attendue, les investisseurs institutionnels, dont l’impact sur l’évolution des prix est beaucoup plus grand que celui des clients privés, ont une structure causale proche de celle de la volatilité: en effet, la volatilité, étant une quantité macroscopique, est le résultat d’une aggrégation des comportements de tous les investisseurs, qui fait disparaître la structure causale des investisseurs privés. / This thesis aims to uncover the underlyingcausality structure of financial markets by focusing onthe inference of investor causal networks at multipletimescales in two trader-resolved datasets.The first part of this thesis is devoted to the causal strengthof Hawkes processes. These processes describe in a clearlycausal way how the activity rate of e.g. an investor dependson his past activity rate; its multivariate version alsomakes it possible to include the interactions between theagents, at all time scales. The main result of this part isthat the classical MLE estimation of the process parametersdoes not vary significantly if the arrow of time is reversedin the univariate and symmetric multivariate case.This means that blindly trusting univariate and symmetricmultivariate Hawkes processes to infer causality from datais problematic. In addition, we find a dependency betweenthe level of causality in the process and its endogeneity.For long time series of synthetic data, one can discriminatebetween the forward and backward arrows of time byperforming rigorous statistical tests on the processes, butfor empirical data the situation is much more ambiguous,as it is entirely possible to find a better Hawkes process fitwhen time runs backwards compared to forwards.Asymmetric Hawkes processes do not suffer from veryweak causality. Fitting them to the individual traders’ actionsfound in our datasets is unfortunately not very successfulfor two reasons. We carefully checked that tradersactions in both datasets are highly non-stationary, andthat local stationarity cannot be assumed to hold as thereis simply not enough data, even if each dataset containsabout one million trades. This is also compounded by thefact that Hawkes processes encode the pairwise influenceof traders for all timescales simultaneously.In order to alleviate this problem, the second part ofthis thesis focuses on causality between specific pairs oftimescales. Further filtering is achieved by reducing theeffective number of investors; Statistically Validated Networksare applied to cluster investors into groups basedon the statistically high synchronisation of their actions(buy, sell or neutral) in time intervals of a given timescale.This part then generalizes single-timescale lead-lag SVNsto lead-lag networks between two timescales and introducesthree slightly different methodsThese methods make it possible to characterize causalityin a novel way. We are able to compare the time reversalasymmetry of trader activity and that of price volatility,and conclude that the causal structure of trader activity isconsiderably more complex than that of the volatility for agiven category of traders. Expectedly, institutional traders,whose impact on prices is much larger than that of retailclients, have a causality structure that is closer to that ofvolatility. This is because volatility, being a macroscopicquantity, aggregates the behaviour of all types of traders,thereby hiding the causality structure of minor players. Processus de Hawkes Asymétrie temporelles Réseaux validés statistiquement Réseaux de meneurs et suiveurs Hawkes process Time reversal asymmetry Statistically validated networks Lead-Lag networks
12	Inférence non-paramétrique pour des interactions poissoniennes Sansonnet, Laure 14 June 2013 (has links) (PDF) L'objet de cette thèse est d'étudier divers problèmes de statistique non-paramétrique dans le cadre d'un modèle d'interactions poissoniennes. De tels modèles sont, par exemple, utilisés en neurosciences pour analyser les interactions entre deux neurones au travers leur émission de potentiels d'action au cours de l'enregistrement de l'activité cérébrale ou encore en génomique pour étudier les distances favorisées ou évitées entre deux motifs le long du génome. Dans ce cadre, nous introduisons une fonction dite de reproduction qui permet de quantifier les positions préférentielles des motifs et qui peut être modélisée par l'intensité d'un processus de Poisson. Dans un premier temps, nous nous intéressons à l'estimation de cette fonction que l'on suppose très localisée. Nous proposons une procédure d'estimation adaptative par seuillage de coefficients d'ondelettes qui est optimale des points de vue oracle et minimax. Des simulations et une application en génomique sur des données réelles provenant de la bactérie E. coli nous permettent de montrer le bon comportement pratique de notre procédure. Puis, nous traitons les problèmes de test associés qui consistent à tester la nullité de la fonction de reproduction. Pour cela, nous construisons une procédure de test optimale du point de vue minimax sur des espaces de Besov faibles, qui a également montré ses performances du point de vue pratique. Enfin, nous prolongeons ces travaux par l'étude d'une version discrète en grande dimension du modèle précédent en proposant une procédure adaptative de type Lasso. Processus de Poisson Estimation et tests adaptatifs Seuillage de coefficients d'ondelettes Inégalités oracle U-statistiques Vitesse de séparation uniforme Modèle d'interactions processus de Hawkes Espaces de Besov Lasso
13	Modèles hiérarchiques et processus ponctuels spatio-temporels - Applications en épidémiologie et en sismologie Valmy, Larissa 05 November 2012 (has links) (PDF) Les processus ponctuels sont souvent utilisés comme modèles de répartitions spatiales ou spatio-temporelles d'occurrences. Dans cette thèse, nous nous intéressons tout d'abord à des processus de Cox dirigés par un processus caché associé à un processus de Dirichlet. Ce modèle correspond à des occurrences cachées influençant l'intensité stochastique des occurrences observées. Nous généralisons la notion de " Shot noise Cox process " introduite par Moller et développons le traitement bayésien par un échantillonneur de Gibbs combiné à un algorithme de Metropolis-Hastings. Nous montrons que cette méthode MCMC est à sauts réversibles. Le modèle prend en compte, en effet, un nombre aléatoire de contributions cachées influençant l'intensité du processus ponctuel observé donc a un espace paramétrique de dimension variable. Nous focalisons l'inférence statistique sur l'estimation de la valeur espérée de chaque contribution cachée, le nombre espéré de contributions cachées, le degré d'influence spatiale de ces contributions et leur degré de corrélation. Le test d'égalité des contributions et celui de leur indépendance sont ainsi développés. L'utilité en épidémiologie et en écologie est alors démontrée à partir de données de Rubus fruticosa, Ibicella lutea et de mortalité dans les cantons de Georgia, USA. En termes de données observées, deux situations sont considérées: premièrement, les positions spatiales des occurrences sont observées entre plusieurs paires de dates consécutives; deuxièmement, des comptages sont effectués, au cours d'une période fixée, dans des unités d'échantillonnage spatiales. D'autre part, nous nous intéressons aux processus ponctuels à mémoire introduits par Kagan, Ogata et Vere-Jones, précurseurs de la statistique sismologique. En effet, les processus ponctuels spatio-temporels ont une place importante dans l'étude des catalogues sismiques puisque ces derniers sont généralement constitués d'événements sismiques datés et géo-référencés. Nous avons étudié un modèle ETAS (Epidemic Type Aftershock Sequence) avec une intensité d'arrière-plan indépendante du temps et plusieurs fonctions déclenchantes permettant d'intégrer les événements antérieurs récents. Cette approche est utilisée pour étudier la sismicité de l'arc des Petites Antilles. Une étude comparative des modèles Gamma, Weibull, Log-Normal et loi d'Omori modifiée pour les fonctions déclenchantes est menée. Nous montrons que la loi d'Omori modifiée ne s'ajuste pas aux données sismiques des Petites Antilles et la fonction déclenchante la plus adaptée est le modèle de Weibull. Cela implique que le temps d'attente entre répliques dans la zone des Petites Antilles est plus faible que celui des régions à sismicité décrite par la loi d'Omori modifiée. Autrement dit, l'agrégation des répliques après un événement majeur est plus prononcée dans la zone des Petites Antilles. La possibilité d'inclure une intensité d'arrière-plan suivant un processus de Dirichlet centré sur un processus spatial log-gaussien est discutée. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Processus ponctuels processus de Hawkes processus de Cox processus de Dirichlet processus de vraisemblance échantillonnage modèles bayésiens méthodes MCMC
14	Quantitative Finance under rough volatility / Finance quantitative sous les modèles à volatilité rugueuse El Euch, Omar 25 September 2018 (has links) Cette thèse a pour objectif la compréhension de plusieurs aspects du caractère rugueux de la volatilité observé de manière universelle sur les actifs financiers. Ceci est fait en six étapes. Dans une première partie, on explique cette propriété à partir des comportements typiques des agents sur le marché. Plus précisément, on construit un modèle de prix microscopique basé sur les processus de Hawkes reproduisant les faits stylisés importants de la microstructure des marchés. En étudiant le comportement du prix à long terme, on montre l’émergence d’une version rugueuse du modèle de Heston (appelé modèle rough Heston) avec effet de levier. En utilisant ce lien original entre les processus de Hawkes et les modèles de Heston, on calcule dans la deuxième partie de cette thèse la fonction caractéristique du log-prix du modèle rough Heston. Cette fonction caractéristique est donnée en terme d’une solution d’une équation de Riccati dans le cas du modèle de Heston classique. On montre la validité d’une formule similaire dans le cas du modèle rough Heston, où l’équation de Riccati est remplacée par sa version fractionnaire. Cette formule nous permet de surmonter les difficultés techniques dues au caractère non markovien du modèle afin de valoriser des produits dérivés. Dans la troisième partie, on aborde la question de la gestion des risques des produits dérivés dans le modèle rough Heston. On présente des stratégies de couverture utilisant comme instruments l’actif sous-jacent et la courbe variance forward. Ceci est fait en spécifiant la structure markovienne infini-dimensionnelle du modèle. Étant capable de valoriser et couvrir les produits dérivés dans le modèle rough Heston, nous confrontons ce modèle à la réalité des marchés financiers dans la quatrième partie. Plus précisément, on montre qu’il reproduit le comportement de la volatilité implicite et historique. On montre également qu’il génère l’effet Zumbach qui est une asymétrie par inversion du temps observée empiriquement sur les données financières. On étudie dans la cinquième partie le comportement limite de la volatilité implicite à la monnaie à faible maturité dans le cadre d’un modèle à volatilité stochastique général (incluant le modèle rough Bergomi), en appliquant un développement de la densité du prix de l’actif. Alors que l’approximation basée sur les processus de Hawkes a permis de traiter plusieurs questions relatives au modèle rough Heston, nous examinons dans la sixième partie une approximation markovienne s’appliquant sur une classe plus générale de modèles à volatilité rugueuse. En utilisant cette approximation dans le cas particulier du modèle rough Heston, on obtient une méthode numérique pour résoudre les équations de Riccati fractionnaires. Enfin, nous terminons cette thèse en étudiant un problème non lié à la littérature sur la volatilité rugueuse. Nous considérons le cas d’une plateforme cherchant le meilleur système de make-take fees pour attirer de la liquidité. En utilisant le cadre principal-agent, on décrit le meilleur contrat à proposer au market maker ainsi que les cotations optimales affichées par ce dernier. Nous montrons également que cette politique conduit à une meilleure liquidité et à une baisse des coûts de transaction pour les investisseurs. / The aim of this thesis is to study various aspects of the rough behavior of the volatility observed universally on financial assets. This is done in six steps. In the first part, we investigate how rough volatility can naturally emerge from typical behav- iors of market participants. To do so, we build a microscopic price model based on Hawkes processes in which we encode the main features of the market microstructure. By studying the asymptotic behavior of the price on the long run, we obtain a rough version of the Heston model exhibiting rough volatility and leverage effect. Using this original link between Hawkes processes and the Heston framework, we compute in the second part of the thesis the characteristic function of the log-price in the rough Heston model. In the classical Heston model, the characteristic function is expressed in terms of a solution of a Riccati equation. We show that rough Heston models enjoy a similar formula, the Riccati equation being replaced by its fractional version. This formula enables us to overcome the non-Markovian nature of the model in order to deal with derivatives pricing. In the third part, we tackle the issue of managing derivatives risks under the rough Heston model. We establish explicit hedging strategies using as instruments the underlying asset and the forward variance curve. This is done by specifying the infinite-dimensional Markovian structure of the rough Heston model. Being able to price and hedge derivatives in the rough Heston model, we challenge the model to practice in the fourth part. More precisely, we show the excellent fit of the model to historical and implied volatilities. We also show that the model reproduces the Zumbach’s effect, that is a time reversal asymmetry which is observed empirically on financial data. While the Hawkes approximation enabled us to solve the pricing and hedging issues under the rough Heston model, this approach cannot be extended to an arbitrary rough volatility model. We study in the fifth part the behavior of the at-the-money implied volatility for small maturity under general stochastic volatility models. In the same spirit as the Hawkes approximation, we look in the sixth part of this thesis for a tractable Markovian approximation that holds for a general class of rough volatility models. By applying this approximation on the specific case of the rough Heston model, we derive a numerical scheme for solving fractional Riccati equations. Finally, we end this thesis by studying a problem unrelated to rough volatility. We consider an exchange looking for the best make-take fees system to attract liquidity in its platform. Using a principal-agent framework, we describe the best contract that the exchange should propose to the market maker and provide the optimal quotes displayed by the latter. We also argue that this policy leads to higher quality of liquidity and lower trading costs for investors. Volatilité rugueuse Microstructure des marchés Processus de Hawkes Théorèmes limites Equations stochastiques de Volterra Problème de principal-agent Make-take fees Modèle de Heston Rough volatility Market microstructure Hawkes process Limiting theorems Volterra Equation Principal-agent problem Heston model
15	Information diffusion and opinion dynamics in social networks / Dissémination de l’information et dynamique des opinions dans les réseaux sociaux Louzada Pinto, Julio Cesar 14 January 2016 (has links) La dissémination d'information explore les chemins pris par l'information qui est transmise dans un réseau social, afin de comprendre et modéliser les relations entre les utilisateurs de ce réseau, ce qui permet une meilleur compréhension des relations humaines et leurs dynamique. Même si la priorité de ce travail soit théorique, en envisageant des aspects psychologiques et sociologiques des réseaux sociaux, les modèles de dissémination d'information sont aussi à la base de plusieurs applications concrètes, comme la maximisation d'influence, la prédication de liens, la découverte des noeuds influents, la détection des communautés, la détection des tendances, etc. Cette thèse est donc basée sur ces deux facettes de la dissémination d'information: nous développons d'abord des cadres théoriques mathématiquement solides pour étudier les relations entre les personnes et l'information, et dans un deuxième moment nous créons des outils responsables pour une exploration plus cohérente des liens cachés dans ces relations. Les outils théoriques développés ici sont les modèles de dynamique d'opinions et de dissémination d'information, où nous étudions le flot d'informations des utilisateurs dans les réseaux sociaux, et les outils pratiques développés ici sont un nouveau algorithme de détection de communautés et un nouveau algorithme de détection de tendances dans les réseaux sociaux / Our aim in this Ph. D. thesis is to study the diffusion of information as well as the opinion dynamics of users in social networks. Information diffusion models explore the paths taken by information being transmitted through a social network in order to understand and analyze the relationships between users in such network, leading to a better comprehension of human relations and dynamics. This thesis is based on both sides of information diffusion: first by developing mathematical theories and models to study the relationships between people and information, and in a second time by creating tools to better exploit the hidden patterns in these relationships. The theoretical tools developed in this thesis are opinion dynamics models and information diffusion models, where we study the information flow from users in social networks, and the practical tools developed in this thesis are a novel community detection algorithm and a novel trend detection algorithm. We start by introducing an opinion dynamics model in which agents interact with each other about several distinct opinions/contents. In our framework, agents do not exchange all their opinions with each other, they communicate about randomly chosen opinions at each time. We show, using stochastic approximation algorithms, that under mild assumptions this opinion dynamics algorithm converges as time increases, whose behavior is ruled by how users choose the opinions to broadcast at each time. We develop next a community detection algorithm which is a direct application of this opinion dynamics model: when agents broadcast the content they appreciate the most. Communities are thus formed, where they are defined as groups of users that appreciate mostly the same content. This algorithm, which is distributed by nature, has the remarkable property that the discovered communities can be studied from a solid mathematical standpoint. In addition to the theoretical advantage over heuristic community detection methods, the presented algorithm is able to accommodate weighted networks, parametric and nonparametric versions, with the discovery of overlapping communities a byproduct with no mathematical overhead. In a second part, we define a general framework to model information diffusion in social networks. The proposed framework takes into consideration not only the hidden interactions between users, but as well the interactions between contents and multiple social networks. It also accommodates dynamic networks and various temporal effects of the diffusion. This framework can be combined with topic modeling, for which several estimation techniques are derived, which are based on nonnegative tensor factorization techniques. Together with a dimensionality reduction argument, this techniques discover, in addition, the latent community structure of the users in the social networks. At last, we use one instance of the previous framework to develop a trend detection algorithm designed to find trendy topics in a social network. We take into consideration the interaction between users and topics, we formally define trendiness and derive trend indices for each topic being disseminated in the social network. These indices take into consideration the distance between the real broadcast intensity and the maximum expected broadcast intensity and the social network topology. The proposed trend detection algorithm uses stochastic control techniques in order calculate the trend indices, is fast and aggregates all the information of the broadcasts into a simple one-dimensional process, thus reducing its complexity and the quantity of necessary data to the detection. To the best of our knowledge, this is the first trend detection algorithm that is based solely on the individual performances of topics Dynamique d'opinions Algorithme d'approximation stochastique Détection des communautés Dissémination d'information Processus de Hawkes Détection des tendances Contrôle stochastique Opinion dynamics Stochastic approximation algorithms Community detection Information diffusion Hawkes processes Trend detection Stochastic control
16	Modélisation du carnet d’ordres, Applications Market Making / Limit order book modelling, Market Making Applications Lu, Xiaofei 04 October 2018 (has links) Cette thèse aborde différents aspects de la modélisation de la microstructure du marché et des problèmes de Market Making, avec un accent particulier du point de vue du praticien. Le carnet d’ordres, au cœur du marché financier, est un système de files d’attente complexe à haute dimension. Nous souhaitons améliorer la connaissance du LOB pour la communauté de la recherche, proposer de nouvelles idées de modélisation et développer des applications pour les Market Makers. Nous remercions en particuler l’équipe Automated Market Making d’avoir fourni la base de données haute-fréquence de très bonne qualité et une grille de calculs puissante, sans laquelle ces recherches n’auraient pas été possible. Le Chapitre 1 présente la motivation de cette recherche et reprend les principaux résultats des différents travaux. Le Chapitre 2 se concentre entièrement sur le LOB et vise à proposer un nouveau modèle qui reproduit mieux certains faits stylisés. A travers cette recherche, non seulement nous confirmons l’influence des flux d’ordres historiques sur l’arrivée de nouveaux, mais un nouveau modèle est également fourni qui réplique beaucoup mieux la dynamique du LOB, notamment la volatilité réalisée en haute et basse fréquence. Dans le Chapitre 3, l’objectif est d’étudier les stratégies de Market Making dans un contexte plus réaliste. Cette recherche contribueà deux aspects : d’une part le nouveau modèle proposé est plus réaliste mais reste simple à appliquer pour la conception de stratégies, d’autre part la stratégie pratique de Market Making est beaucoup améliorée par rapport à une stratégie naive et est prometteuse pour l’application pratique. La prédiction à haute fréquence avec la méthode d’apprentissage profond est étudiée dans le Chapitre 4. De nombreux résultats de la prédiction en 1- étape et en plusieurs étapes ont retrouvé la non-linéarité, stationarité et universalité de la relation entre les indicateurs microstructure et le changement du prix, ainsi que la limitation de cette approche en pratique. / This thesis addresses different aspects around the market microstructure modelling and market making problems, with a special accent from the practitioner’s viewpoint. The limit order book (LOB), at the heart of financial market, is a complex continuous high-dimensional queueing system. We wish to improve the knowledge of LOB for the research community, propose new modelling ideas and develop concrete applications to the interest of Market Makers. We would like to specifically thank the Automated Market Making team for providing a large high frequency database of very high quality as well as a powerful computational grid, without whom these researches would not have been possible. The first chapter introduces the incentive of this research and resumes the main results of the different works. Chapter 2 fully focuses on the LOB and aims to propose a new model that better reproduces some stylized facts. Through this research, not only do we confirm the influence of historical order flows to the arrival of new ones, but a new model is also provided that captures much better the LOB dynamic, notably the realized volatility in high and low frequency. In chapter 3, the objective is to study Market Making strategies in a more realistic context. This research contributes in two aspects : from one hand the newly proposed model is more realistic but still simple enough to be applied for strategy design, on the other hand the practical Market Making strategy is of large improvement compared to the naive one and is promising for practical use. High-frequency prediction with deep learning method is studied in chapter 4. Many results of the 1-step and multi-step prediction have found the non-linearity, stationarity and universality of the relationship between microstructural indicators and price change, as well as the limitation of this approach in practice. Trading haute frequence Microstructure du marché Carnet d’ordres Processus de Hawkes Processus de décision Markovien Apprentissage profond High-frequency trading Market microstructure Limit order book Hawkes process Markov decision process Deep learning
17	Application des processus stochastiques aux enchères en temps réel et à la propagation d'information dans les réseaux sociaux / Application of stochastic processes to real-time bidding and diffusion processes on networks Lemonnier, Rémi 22 November 2016 (has links) Dans cette thèse, nous étudions deux applications des processus stochastiques au marketing internet. Le premier chapitre s’intéresse au scoring d’internautes pour les enchères en temps réel. Ce problème consiste à trouver la probabilité qu’un internaute donné réalise une action d’intérêt, appelée conversion, dans les quelques jours suivant l’affichage d’une bannière publicitaire. Nous montrons que les processus de Hawkes constituent une modélisation naturelle de ce phénomène mais que les algorithmes de l’état de l’art ne sont pas applicables à la taille des données typiquement à l’œuvre dans des applications industrielles. Nous développons donc deux nouveaux algorithmes d’inférence non-paramétrique qui sont plusieurs ordres de grandeurs plus rapides que les méthodes précédentes. Nous montrons empiriquement que le premier a de meilleures performances que les compétiteurs de l’état de l’art, et que le second permet une application à des jeux de données encore plus importants sans payer un prix trop important en terme de pouvoir de prédiction. Les algorithmes qui en découlent ont été implémentés avec de très bonnes performances depuis plusieurs années à 1000 mercis, l’agence marketing d’avant-garde étant le partenaire industriel de cette thèse CIFRE, où ils sont devenus un actif important pour la production. Le deuxième chapitre s’intéresse aux processus diffusifs sur les graphes qui constituent un outil important pour modéliser la propagation d’une opération de marketing viral sur les réseaux sociaux. Nous établissons les premières bornes théoriques sur le nombre total de nœuds atteint par une contagion dans le cadre de graphes et dynamiques de diffusion quelconques, et montrons l’existence de deux régimes bien distincts : le régime sous-critique où au maximum $O(sqrt{n})$ nœuds seront infectés, où $n$ est la taille du réseau, et le régime sur-critique ou $O(n)$ nœuds peuvent être infectés. Nous étudions également le comportement par rapport au temps d’observation $T$ et mettons en lumière l’existence de temps critiques en-dessous desquels une diffusion, même sur-critique sur le long terme, se comporte de manière sous-critique. Enfin, nous étendons nos travaux à la percolation et l’épidémiologie, où nous améliorons les résultats existants. / In this thesis, we study two applications of stochastic processes in internet marketing. The first chapter focuses on internet user scoring for real-time bidding. This problem consists in finding the probability for a given user to perform an action of interest, called conversion, in the next few days. We show that Hawkes processes are well suited for modelizing this phenomena but that state-of-the-art algorithms are not applicable to the size of datasets involved. We therefore develop two new algorithms able to perform nonparametric multivariate Hawkes process inference orders of magnitude faster than previous methods. We show empirically that the first one outperforms state-of-the-art competitors, and the second one scales to very large datasets while keeping very high prediction power. The resulting algorithms have been implemented with very good performances for several years in 1000mercis, a pioneering marketing agency being the industrial partner of this CIFRE PhD, where they became an important business asset. The second chapter focuses on diffusion processes graphs, an important tool for modelizing the spread of a viral marketing operation over social networks. We derive the first theoretical bounds for the total number of nodes reached by a contagion for general graphs and diffusion dynamics, and show the existence of two well distinct regimes: the sub-critical one where at most $O(sqrt{n})$ nodes are infected, where $n$ is the size of the network, and the super-critical one where $O(n)$ nodes can be infected. We also study the behavior wrt to the observation time $T$ and reveals the existence of critical times under which a long-term super-critical diffusion process behaves sub-critically. Finally, we extend our works to different application fields, and improve state-of-the-art results in percolation and epidemiology. Processus de Hawkes Real-Time bidding Processus diffusif sur les graphes Cascades d'information Maximisation d'influence Marketing viral Hawkes processes Real-Time bidding Diffusion processes on graphs Information cascades Influence maximization Viral marketing
18	Inférence non-paramétrique pour des interactions poissoniennes / Adaptive nonparametric inference for Poissonian interactions Sansonnet, Laure 14 June 2013 (has links) L'objet de cette thèse est d'étudier divers problèmes de statistique non-paramétrique dans le cadre d'un modèle d'interactions poissoniennes. De tels modèles sont, par exemple, utilisés en neurosciences pour analyser les interactions entre deux neurones au travers leur émission de potentiels d'action au cours de l'enregistrement de l'activité cérébrale ou encore en génomique pour étudier les distances favorisées ou évitées entre deux motifs le long du génome. Dans ce cadre, nous introduisons une fonction dite de reproduction qui permet de quantifier les positions préférentielles des motifs et qui peut être modélisée par l'intensité d'un processus de Poisson. Dans un premier temps, nous nous intéressons à l'estimation de cette fonction que l'on suppose très localisée. Nous proposons une procédure d'estimation adaptative par seuillage de coefficients d'ondelettes qui est optimale des points de vue oracle et minimax. Des simulations et une application en génomique sur des données réelles provenant de la bactérie E. coli nous permettent de montrer le bon comportement pratique de notre procédure. Puis, nous traitons les problèmes de test associés qui consistent à tester la nullité de la fonction de reproduction. Pour cela, nous construisons une procédure de test optimale du point de vue minimax sur des espaces de Besov faibles, qui a également montré ses performances du point de vue pratique. Enfin, nous prolongeons ces travaux par l'étude d'une version discrète en grande dimension du modèle précédent en proposant une procédure adaptative de type Lasso. / The subject of this thesis is the study of some adaptive nonparametric statistical problems in the framework of a Poisson interactions model. Such models are used, for instance, in neurosciences to analyze interactions between two neurons through their spikes emission during the recording of the brain activity or in genomics to study favored or avoided distances between two motifs along a genome. In this setting, we naturally introduce a so-called reproduction function that allows to quantify the favored positions of the motifs and which is considered as the intensity of a Poisson process. Our first interest is the estimation of this function assumed to be well localized. We propose a data-driven wavelet thresholding estimation procedure that is optimal from oracle and minimax points of view. Simulations and an application to genomic data from the bacterium E. coli allow us to show the good practical behavior of our procedure. Then, we deal with associated problems on tests which consist in testing the nullity of the reproduction function. For this purpose, we build a minimax optimal testing procedure on weak Besov spaces and we provide some simulations showing good practical performances of our procedure. Finally, we extend this work with the study of a high-dimensional discrete setting of our previous model by proposing an adaptive Lasso-type procedure. Processus de Poisson Estimation et tests adaptatifs Seuillage de coefficients d'ondelettes Inégalités oracle U-statistiques Vitesse de séparation uniforme Modèle d'interactions , processus de Hawkes Espaces de Besov Lasso Poisson process Adaptive estimation and tests Wavelet thresholding rules Oracle inequalities U-statistics Uniform separation rate Interactions model Hawkes processes Besov spaces Lasso

Search results