• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 103
  • 23
  • 11
  • 4
  • 2
  • 2
  • 2
  • 1
  • Tagged with
  • 167
  • 167
  • 44
  • 40
  • 36
  • 35
  • 25
  • 22
  • 21
  • 20
  • 19
  • 19
  • 18
  • 18
  • 17
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Egocentric Audio-Visual Scene Analysis : a machine learning and signal processing approach / Analyse audio-visuelle de la scène d'un point de vue égocentrique : une approche par de l'apprentissage automatique et du traitement du signal.

Alameda-Pineda, Xavier 15 October 2013 (has links)
Depuis les vingt dernières années, l'industrie a développé plusieurs produits commerciaux dotés de capacités auditives et visuelles. La grand majorité de ces produits est composée d'un caméscope et d'un microphone embarqué (téléphones portables, tablettes, etc). D'autres, comme la Kinect, sont équipés de capteurs de profondeur et/ou de petits réseaux de microphones. On trouve également des téléphones portables dotés d'un système de vision stéréo. En même temps, plusieurs systèmes orientés recherche sont apparus (par exemple, le robot humanoïde NAO). Du fait que ces systèmes sont compacts, leurs capteurs sont positionnés près les uns des autres. En conséquence, ils ne peuvent pas capturer la scène complète, mais qu'un point de vue très particulier de l'interaction sociale en cours. On appelle cela "Analyse Égocentrique de Scènes Audio-Visuelles''.Cette thèse contribue à cette thématique de plusieurs façons. D'abord, en fournissant une base de données publique qui cible des applications comme la reconnaissance d'actions et de gestes, localisation et suivi d'interlocuteurs, analyse du tour de parole, localisation de sources auditives, etc. Cette base a été utilisé en dedans et en dehors de cette thèse. Nous avons aussi travaillé le problème de la détection d'événements audio-visuels. Nous avons montré comme la confiance en une des modalités (issue de la vision en l'occurrence), peut être modélisée pour biaiser la méthode, en donnant lieu à un algorithme d'espérance-maximisation visuellement supervisé. Ensuite, nous avons modifié l'approche pour cibler la détection audio-visuelle d'interlocuteurs en utilisant le robot humanoïde NAO. En parallèle aux travaux en détection audio-visuelle d'interlocuteurs, nous avons développé une nouvelle approche pour la reconnaissance audio-visuelle de commandes. Nous avons évalué la qualité de plusieurs indices et classeurs, et confirmé que l'utilisation des données auditives et visuelles favorise la reconnaissance, en comparaison aux méthodes qui n'utilisent que l'audio ou que la vidéo. Plus tard, nous avons cherché la meilleure méthode pour des ensembles d'entraînement minuscules (5-10 observations par catégorie). Il s'agit d'un problème intéressant, car les systèmes réels ont besoin de s'adapter très rapidement et d'apprendre de nouvelles commandes. Ces systèmes doivent être opérationnels avec très peu d'échantillons pour l'usage publique. Pour finir, nous avons contribué au champ de la localisation de sources sonores, dans le cas particulier des réseaux coplanaires de microphones. C'est une problématique importante, car la géométrie du réseau est arbitraire et inconnue. En conséquence, cela ouvre la voie pour travailler avec des réseaux de microphones dynamiques, qui peuvent adapter leur géométrie pour mieux répondre à certaines tâches. De plus, la conception des produits commerciaux peut être contrainte de façon que les réseaux linéaires ou circulaires ne sont pas bien adaptés. / Along the past two decades, the industry has developed several commercial products with audio-visual sensing capabilities. Most of them consists on a videocamera with an embedded microphone (mobile phones, tablets, etc). Other, such as Kinect, include depth sensors and/or small microphone arrays. Also, there are some mobile phones equipped with a stereo camera pair. At the same time, many research-oriented systems became available (e.g., humanoid robots such as NAO). Since all these systems are small in volume, their sensors are close to each other. Therefore, they are not able to capture de global scene, but one point of view of the ongoing social interplay. We refer to this as "Egocentric Audio-Visual Scene Analysis''.This thesis contributes to this field in several aspects. Firstly, by providing a publicly available data set targeting applications such as action/gesture recognition, speaker localization, tracking and diarisation, sound source localization, dialogue modelling, etc. This work has been used later on inside and outside the thesis. We also investigated the problem of AV event detection. We showed how the trust on one of the modalities (visual to be precise) can be modeled and used to bias the method, leading to a visually-supervised EM algorithm (ViSEM). Afterwards we modified the approach to target audio-visual speaker detection yielding to an on-line method working in the humanoid robot NAO. In parallel to the work on audio-visual speaker detection, we developed a new approach for audio-visual command recognition. We explored different features and classifiers and confirmed that the use of audio-visual data increases the performance when compared to auditory-only and to video-only classifiers. Later, we sought for the best method using tiny training sets (5-10 samples per class). This is interesting because real systems need to adapt and learn new commands from the user. Such systems need to be operational with a few examples for the general public usage. Finally, we contributed to the field of sound source localization, in the particular case of non-coplanar microphone arrays. This is interesting because the geometry of the microphone can be any. Consequently, this opens the door to dynamic microphone arrays that would adapt their geometry to fit some particular tasks. Also, because the design of commercial systems may be subject to certain constraints for which circular or linear arrays are not suited.
92

Fouille de données billettiques pour l'analyse de la mobilité dans les transports en commun / Analysis of Mobility in Public Transport Systems Through Machine Learning Applied to Ticketing Log Data

Briand, Anne-Sarah 05 December 2017 (has links)
Les données billettiques sont de plus en plus utilisées pour l'analyse de la mobilité dans les transports en commun. Leur richesse spatiale et temporelle ainsi que leur volume, en font un bon matériel pour une meilleure compréhension des habitudes des usagers, pour prédire les flux de passagers ou bien encore pour extraire des informations sur les événements atypiques (ou anomalies), correspondant par exemple à un accroissement ou à une baisse inhabituelle du nombre de validations enregistrées sur le réseau.Après une présentation des travaux ayant été menés sur les données billettiques, cette thèse s'est attachée à développer de nouveaux outils de traitement de ces données. Nous nous sommes particulièrement intéressés à deux challenges nous semblant non encore totalement résolus dans la littérature : l'aide à la mise en qualité des données et la modélisation et le suivi des habitudes temporelles des usagers.Un des principaux challenges de la mise en qualité des données consiste en la construction d'une méthodologie robuste qui soit capable de détecter des plages de données potentiellement problématique correspondant à des situations atypiques et ce quel que soit le contexte (jour de la semaine, vacances, jours fériés, ...). Pour cela une méthodologie en deux étapes a été déployée, à savoir le clustering pour la détermination du contexte et la détection d'anomalies. L'évaluation de la méthodologie proposée a été entreprise sur un jeu de données réelles collectées sur le réseau de transport en commun rennais. En croisant les résultats obtenus avec les événements sociaux et culturels de la ville, l'approche a permis d'évaluer l'impact de ces événements sur la demande en transport, en termes de sévérité et d'influence spatiale sur les stations voisines.Le deuxième volet de la thèse concerne la modélisation et le suivi de l'activité temporelle des usagers. Un modèle de mélange de gaussiennes a été développé pour partitionner les usagers dans les clusters en fonction des heures auxquelles ils utilisent les transports en commun. L'originalité de la méthodologie proposée réside dans l'obtention de profils temporels continus pour décrire finement les routines temporelles de chaque groupe d'usager. Les appartenance aux clusters ont également été croisées avec les données disponibles sur les usagers (type de carte) en vue d'obtenir une description plus précise de chaque cluster. L'évolution de l'appartenance aux clusters au cours des années a également été analysée afin d'évaluer la stabilité de l'utilisation des transports d'une année sur l'autre. / Ticketing logs are being increasingly used to analyse mobility in public transport. The spatial and temporal richness as well as the volume of these data make them useful for understanding passenger habits and predicting origin-destination flows. Information on the operations carried out on the transportation network can also be extracted in order to detect atypical events (or anomalies), such as an unusual increase or decrease in the number of validations.This thesis focuses on developing new tools to process ticketing log data. We are particularly interested in two challenges that seem to be not yet fully resolved in the literature: help with data quality as well as the modeling and monitoring of passengers' temporal habits.One of the main challenges in data quality is the construction of a robust methodology capable of detecting atypical situations in any context (day of the week, holidays, public holidays, etc.). To this end, two steps were deployed, namely clustering for context estimation and detection of anomalies. The evaluation of the proposed methodology is conducted on a real dataset collected on the Rennes public transport network. By cross-comparing the obtained results with the social and cultural events of the city, it is possible to assess the impact of these events on transport demand, in terms, of severity and spatial influence on neighboring stations.The second part of the thesis focuses on the modeling and the tracking of the temporal activity of passengers. A Gaussian mixture model is proposed to partition passengers into clusters according to the hours they use public transport. The originality of the methodology compared to existing approaches lies in obtaining continuous time profiles in order to finely describe the time routines of each passenger cluster. Cluster memberships are also cross-referenced with passenger data (card type) to obtain a more accurate description of each cluster. The cluster membership over the years has also been analyzed in order to study how the use of transport evolves
93

Une approche mathématique de l'investissement boursier / A mathematical approach to stock investing

Anane, Marouane 10 February 2015 (has links)
Le but de cette thèse est de répondre au vrai besoin de prédire les fluctuations futures des prix d'actions. En effet, l'aléatoire régissant ces fluctuations constitue pour des acteurs de la finance, tels que les Market Maker, une des plus grandes sources de risque. Tout au long de cette étude, nous mettons en évidence la possibilité de réduire l'incertitude sur les prix futurs par l'usage des modèles mathématiques appropriés. Cette étude est rendue possible grâce à une grande base de données financières et une puissante grille de calcul mises à notre disposition par l'équipe Automatic Market Making de BNP Paribas. Dans ce document, nous présentons uniquement les résultats de la recherche concernant le trading haute fréquence. Les résultats concernant la partie basse fréquence présentent un intérêt scientifique moindre pour le monde académique et rentrent par ailleurs dans le cadre des résultats confidentiels. Ces résultats seront donc volontairement omis.Dans le premier chapitre, nous présentons le contexte et les objectifs de cette étude. Nous présentons, également, les différentes méthodes utilisées, ainsi que les principaux résultats obtenus. Dans le chapitre 2, nous nous intéressons à l'apport de la supériorité technologique en trading haute fréquence. Dans ce but, nous simulons un trader ultra rapide, omniscient, et agressif, puis nous calculons son gain total sur 3 ans. Les gains obtenus sont très modestes et reflètent l'apport limité de la technologie en trading haute fréquence. Ce résultat souligne l'intérêt primordial de la recherche et de la modélisation dans ce domaine.Dans le chapitre 3, nous étudions la prédictibilité des prix à partir des indicateurs de carnet d'ordre. Nous présentons, à l'aide des espérances conditionnelles, des preuves empiriques de dépendances statistiques entre les prix et les différents indicateurs. L'importance de ces dépendances résulte de la simplicité de la méthode, éliminant tout risque de surapprentissage des données. Nous nous intéressons, ensuite, à la combinaison des différents indicateurs par une régression linéaire et nous analysons les différents problèmes numériques et statistiques liés à cette méthode. Enfin, nous concluons que les prix sont prédictibles pour un horizon de quelques minutes et nous mettons en question l'hypothèse de l'efficience du marché.Dans le chapitre 4, nous nous intéressons au mécanisme de formation du prix à partir des arrivés des évènements dans le carnet d'ordre. Nous classifions les ordres en douze types dont nous analysons les propriétés statistiques. Nous étudions par la suite les dépendances entre ces différents types d'ordres et nous proposons un modèle de carnet d'ordre en ligne avec les observations empiriques. Enfin, nous utilisons ce modèle pour prédire les prix et nous appuyons l'hypothèse de la non-efficience des marchés, suggérée au chapitre 3. / The aim of this thesis is to address the real need of predicting the prices of stocks. In fact, the randomness governing the evolution of prices is, for financial players like market makers, one of the largest sources of risk. In this context, we highlight the possibility of reducing the uncertainty of the future prices using appropriate mathematical models. This study was made possible by a large base of high frequency data and a powerful computational grid provided by the Automatic Market Making team at BNP Paribas. In this paper, we present only the results of high frequency tests. Tests are of less scientific interest in the academic world and are confidential. Therefore, these results will be deliberately omitted.In the first chapter, the background and the objectives of this study are presented along with the different methods used and the main results obtained.The focus of chapter 2 is on the contribution of technological superiority in high frequency trading. In order to do this, an omniscient trader is simulated and the total gain over three years is calculated. The obtained gain is very modest and reflects the limited contribution of technology in high frequency trading. This result underlines the primary role of research and modeling in this field.In Chapter 3, the predictability of prices using some order book indicators is studied. Using conditional expectations, the empirical evidence of the statistical dependencies between the prices and indicators is presented. The importance of these dependencies results from the simplicity of the method, eliminating any risk of over fitting the data. Then the combination of the various indicators is tested using a linear regression and the various numerical and statistical problems associated with this method are analyzed. Finally, it can be concluded that the prices are predictable for a period of a few minutes and the assumption of market efficiency is questioned.In Chapter 4, the mechanism of price formation from the arrival of events in the order book is investigated. The orders are classified in twelve types and their statistical properties are analyzed. The dependencies between these different types of orders are studied and a model of order book in line with the empirical observations is proposed. Finally, this model is used to predict prices and confirm the assumption of market inefficiency suggested in Chapter 3.
94

Apprentissage de modèles de mélange à large échelle par Sketching / Sketching for large-scale learning of mixture models

Keriven, Nicolas 12 October 2017 (has links)
Les bases de données modernes sont de très grande taille, parfois divisées et distribuées sur plusieurs lieux de stockage, ou encore sous forme de flux de données : ceci soulève de nouveaux défis majeurs pour les méthodes d’apprentissage statistique. Une des méthodes récentes capable de s’adapter à ces situations consiste à d’abord compresser les données en une structure appelée sketch linéaire, puis ensuite de réaliser la tâche d’apprentissage en utilisant uniquement ce sketch, ce qui est extrêmement rapide si celui-ci est de petite taille. Dans cette thèse, nous définissons une telle méthode pour estimer un modèle de mélange de distributions de probabilités à partir des données, en utilisant uniquement un sketch de celles-ci. Ce sketch est défini en s’inspirant de plusieurs notions venant du domaine des méthodes à noyaux : le plongement par noyau moyen et les approximations aléatoires de noyaux. Défini comme tel, le sketch correspond à des mesures linéaires de la distribution de probabilité sous-jacente aux données. Ainsi nous analysons le problème en utilisant des outils venant du domaine de l’acquisition comprimée, dans lequel un signal est mesuré aléatoirement sans perte d’information, sous certaines conditions. Nous étendons certains résultats de l’acquisition comprimée à la dimension infinie, donnons des conditions génériques garantissant le succès de notre méthode d’estimation de modèles de mélanges, et les appliquons à plusieurs problèmes, dont notamment celui d’estimer des mélanges de distributions stables multivariées, pour lequel il n’existait à ce jour aucun estimateur. Notre analyse est basée sur la construction d’opérateurs de sketch construits aléatoirement, qui satisfont une Propriété d’Isométrie Restreinte dans l’espace de Banach des mesures finies signées avec forte probabilité. Dans une second partie, nous introduisons un algorithme glouton capable heuristiquement d’estimer un modèle de mélange depuis un sketch linéaire. Cet algorithme est appliqué sur données simulées et réelles à trois problèmes : l’estimation de centres significatifs dans les données, pour lequel on constate que la méthode de sketch est significativement plus rapide qu’un algorithme de k-moyennes classique, l’estimation de mélanges de Gaussiennes, pour lequel elle est plus rapide qu’un algorithme d’Espérance-Maximisation, et enfin l’estimation de mélange de distributions stables multivariées, pour lequel il n’existait à ce jour, à notre connaissance, aucun algorithme capable de réaliser une telle tâche. / Learning parameters from voluminous data can be prohibitive in terms of memory and computational requirements. Furthermore, new challenges arise from modern database architectures, such as the requirements for learning methods to be amenable to streaming, parallel and distributed computing. In this context, an increasingly popular approach is to first compress the database into a representation called a linear sketch, that satisfies all the mentioned requirements, then learn the desired information using only this sketch, which can be significantly faster than using the full data if the sketch is small. In this thesis, we introduce a generic methodology to fit a mixture of probability distributions on the data, using only a sketch of the database. The sketch is defined by combining two notions from the reproducing kernel literature, namely kernel mean embedding and Random Features expansions. It is seen to correspond to linear measurements of the underlying probability distribution of the data, and the estimation problem is thus analyzed under the lens of Compressive Sensing (CS), in which a (traditionally finite-dimensional) signal is randomly measured and recovered. We extend CS results to our infinite-dimensional framework, give generic conditions for successful estimation and apply them analysis to many problems, with a focus on mixture models estimation. We base our method on the construction of random sketching operators such that some Restricted Isometry Property (RIP) condition holds in the Banach space of finite signed measures with high probability. In a second part we introduce a flexible heuristic greedy algorithm to estimate mixture models from a sketch. We apply it on synthetic and real data on three problems: the estimation of centroids from a sketch, for which it is seen to be significantly faster than k-means, Gaussian Mixture Model estimation, for which it is more efficient than Expectation-Maximization, and the estimation of mixtures of multivariate stable distributions, for which, to our knowledge, it is the only algorithm capable of performing such a task.
95

Nowcasting using Microblog Data / Nowcasting med mikrobloggdata

Andersson Naesseth, Christian January 2012 (has links)
The explosion of information and user generated content made publicly available through the internet has made it possible to develop new ways of inferring interesting phenomena automatically. Some interesting examples are the spread of a contagious disease, earth quake occurrences, rainfall rates, box office results, stock market fluctuations and many many more. To this end a mathematical framework, based on theory from machine learning, has been employed to show how frequencies of relevant keywords in user generated content can estimate daily rainfall rates of different regions in Sweden using microblog data. Microblog data are collected using a microblog crawler. Properties of the data and data collection methods are both discussed extensively. In this thesis three different model types are studied for regression, linear and nonlinear parametric models as well as a nonparametric Gaussian process model. Using cross-validation and optimization the relevant parameters of each model are estimated and the model is evaluated on independent test data. All three models show promising results for nowcasting rainfall rates.
96

Apprentissage statistique pour l'évaluation et le contrôle non destructifs : application à l'estimation de la durée de vie restante des matériaux par émission acoustique sous fluage / Statistical learning for evaluation and non-destructive testing : application in estimating the remaining lifetime of materials by acoustic emission under creep test

Darwiche, Mohamad 04 June 2013 (has links)
Les matériaux composites se caractérisent par une forte dispersion de leur durée de vie qui peut s'étendre de quelques minutes à plusieurs semaines lors d'un test de fluage. Lors d'un essai en fluage de ces matériaux nous distinguons trois phases de temps caractérisées chacune par une activité acoustique propre. Dans la première phase, le taux d'apparition des signaux d'EA est important, puis le taux diminue et atteint une valeur constante relativement faible durant la seconde phase, ensuite ce taux d'apparition s'accélère annonçant la troisième phase qui se termine par la rupture. Les caractéristiques des signaux d'émission acoustique (EA) émis dans la phase précédant la rupture sont différentes de celles des autres phases. Le premier volet de cette étude consiste à utiliser des méthodes d'apprentissage relevant de l'intelligence artificielle (réseaux de neurones, machines à vecteurs de support et classifieurs bayésiens) afin de prédire si les signaux recueillis à partir d'un matériau sous test se trouve dans la phase de pré-rupture ou non. Ce sont des méthodes qui, appliquées à l'émission acoustique, permettent d'identifier parmi un grand nombre de signaux, caractérisés par des paramètres principaux, des classes de signaux ayant des paramètres voisins et donc provenant probablement de la même phase. Ces méthodes se sont avérées très performantes en classification, nous atteignons avec les SVM une sensibilité de 82 % et une spécificité de 84% pour les résultats en validation croisée, et une sensibilité de 90 % et une spécificité de 94 % pour les résultats en test, avec un temps de calcul acceptable.Le deuxième volet de l'étude effectué dans le cadre de cette thèse concerne l'estimation de la durée de vie restante des les matériaux composites. La normalisation des courbes cumulées des signaux d'émission acoustique en fonction du temps prouve que les réponses en fluage des éprouvettes mises en test sont parfaitement ressemblantes. Un modèle a été établi pour caractériser le comportement de ce matériau lors de ce test. Deux approches sont utilisées pour déterminer le temps de rupture. Par rapport à la littérature, la première approche proposée améliore la détection des temps de transition des différentes phases. Cette approche fournit également une meilleure corrélation avec le temps de rupture. La deuxième approche est fondée sur la corrélation du temps de rupture avec le temps de référence correspondant à la diminution de la vitesse d'un certain pourcentage. Les résultats de cette dernière approche sont très intéressants : l'estimation du temps de rupture pour une éprouvette ayant une durée de vie de 1 heure peut être possible dès les 15 premières secondes, avec une erreur de l'ordre de 4 %. / The composite materials are characterized by a high dispersion of their lifetime, which may extend from several minutes to several weeks in a creep test. When tested in creep of these materials we distinguish three phases, each characterized by its own acoustic activity. In the first phase, the occurrence rate of the AE signals is important, and then the rate drops to a relatively low constant value during the second phase, then this occurrence rate accelerate announcing the third phase which ends by a rupture. The characteristics of the acoustic emission (AE) signals in the phase preceding the rupture are different from those of other phases.The first part of this study is to use learning methods from artificial intelligence (neural networks, support vector machines and Bayesian classifier) to predict if the signals collected from the material under test in the pre-rupture or not. These are methods which, when applied to acoustic emission, identify among a large number of signals, characterized by key parameters, classes of signals having similar parameters and thus probably from the same phase. These methods have proved highly effective in classification; we reach the SVM with a sensitivity of 82 % and a specificity of 84 % for cross-validation results, and a sensitivity of 90 % and a specificity of 94 % for test results, with an acceptable calculation time.The second part of the study in the framework of this thesis concerns the estimation of the remaining life of composites. Standardization of signals accumulated acoustic emission curves as a function proves that the responses of the creep test pieces are set perfectly similar. A model was developed to characterize the behavior of this material during this test. Two approaches are used to determine the time of rupture. Compared to the literature, the first proposed approach improves the detection time of transition phases. This approach also provides a better correlation with the rupture time. The second approach is based on the correlation of rupture time with the reference time corresponding to the decrease of the speed by a percentage. The results of this latter approach is very interesting : the estimation of the rupture time for a test piece having a life of one hour may be possible from the first 15 seconds, with an error of about 4 %.
97

Bootstrap and uniform bounds for Harris Markov chains / Bootstrap et bornes uniformes pour des chaînes de Markov Harris récurrentes

Ciolek, Gabriela 14 December 2018 (has links)
Cette thèse se concentre sur certaines extensions de la théorie des processus empiriques lorsque les données sont Markoviennes. Plus spécifiquement, nous nous concentrons sur plusieurs développements de la théorie du bootstrap, de la robustesse et de l’apprentissage statistique dans un cadre Markovien Harris récurrent positif. Notre approche repose sur la méthode de régénération qui s’appuie sur la décomposition d’une trajectoire de la chaîne de Markov atomique régénérative en blocs d’observations indépendantes et identiquement distribuées (i.i.d.). Les blocs de régénération correspondent à des segments de la trajectoire entre des instants aléatoires de visites dans un ensemble bien choisi (l’atome) formant une séquence de renouvellement. Dans la premiére partie de la thèse nous proposons un théorème fonctionnel de la limite centrale de type bootstrap pour des chaînes de Markov Harris récurrentes, d’abord dans le cas de classes de fonctions uniformément bornées puis dans un cadre non borné. Ensuite, nous utilisons les résultats susmentionnés pour obtenir unthéorème de la limite centrale pour des fonctionnelles Fréchet différentiables dans un cadre Markovien. Motivés par diverses applications, nous discutons la manière d’étendre certains concepts de robustesse à partir du cadre i.i.d. à un cas Markovien. En particulier, nous considérons le cas où les données sont des processus Markoviens déterministes par morceaux. Puis, nous proposons des procédures d’échantillonnage résiduel et wild bootstrap pour les processus périodiquement autorégressifs et établissons leur validité. Dans la deuxième partie de la thèse, nous établissons des versions maximales d’inégalités de concentration de type Bernstein, Hoeffding et des inégalités de moments polynomiales en fonction des nombres de couverture et des moments des temps de retour et des blocs. Enfin, nous utilisons ces inégalités sur les queues de distributions pour calculer des bornes de généralisation pour une estimation d’ensemble de volumes minimum pour les chaînes de Markov régénératives. / This thesis concentrates on some extensions of empirical processes theory when the data are Markovian. More specifically, we focus on some developments of bootstrap, robustness and statistical learning theory in a Harris recurrent framework. Our approach relies on the regenerative methods that boil down to division of sample paths of the regenerative Markov chain under study into independent and identically distributed (i.i.d.) blocks of observations. These regeneration blocks correspond to path segments between random times of visits to a well-chosen set (the atom) forming a renewal sequence. In the first part of the thesis we derive uniform bootstrap central limit theorems for Harris recurrent Markov chains over uniformly bounded classes of functions. We show that the result can be generalized also to the unbounded case. We use the aforementioned results to obtain uniform bootstrap central limit theorems for Fr´echet differentiable functionals of Harris Markov chains. Propelledby vast applications, we discuss how to extend some concepts of robustness from the i.i.d. framework to a Markovian setting. In particular, we consider the case when the data are Piecewise-determinic Markov processes. Next, we propose the residual and wild bootstrap procedures for periodically autoregressive processes and show their consistency. In the second part of the thesis we establish maximal versions of Bernstein, Hoeffding and polynomial tail type concentration inequalities. We obtain the inequalities as a function of covering numbers and moments of time returns and blocks. Finally, we use those tail inequalities toderive generalization bounds for minimum volume set estimation for regenerative Markov chains.
98

Stock Market Prediction using Social Media Analysis

Bahceci, Oktay, Alsing, Oscar January 2015 (has links)
Stock Forecasting is commonly used in different forms everyday in order to predict stock prices. Sentiment Analysis (SA), Machine Learning (ML) and Data Mining (DM) are techniques that have recently become popular in analyzing public emotion in order to predict future stock prices. The algorithms need data in big sets to detect patterns, and the data has been collected through a live stream for the tweet data, together with web scraping for the stock data. This study examined how three organization's stocks correlate with the public opinion of them on the social networking platform, Twitter. Implementing various machine learning and classification models such as the Artificial Neural Network we successfully implemented a company-specific model capable of predicting stock price movement with 80% accuracy.
99

Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo / Statistical learning for large longitudinal data and applications to video game design

Allart, Thibault 28 November 2017 (has links)
Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs. / This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations.
100

Spoken Dialogue System for Information Navigation based on Statistical Learning of Semantic and Dialogue Structure / 意味・対話構造の統計的学習に基づく情報案内のための音声対話システム

Yoshino, Koichiro 24 September 2014 (has links)
京都大学 / 0048 / 新制・課程博士 / 博士(情報学) / 甲第18614号 / 情博第538号 / 新制||情||95(附属図書館) / 31514 / 京都大学大学院情報学研究科知能情報学専攻 / (主査)教授 河原 達也, 教授 黒橋 禎夫, 教授 鹿島 久嗣 / 学位規則第4条第1項該当 / Doctor of Informatics / Kyoto University / DFAM

Page generated in 0.1346 seconds