Global ETD Search

61	Méthodes statistiques pour la prédiction de température dans les composants hyperfréquences Mallet, Grégory 25 October 2010 (has links) (PDF) Cette thèse s'intéresse à l'application des méthodes d'apprentissage statistique pour la prédiction de température d'un composant électronique présent dans un radar. On étudie un cas simplifié des systèmes réels, le système étudié se limitant à un seul composant monté sur un système de refroidissement réduit. Le premier chapitre est consacré à la modélisation thermique. Après avoir présenté les principaux modes de transmission de l'agitation thermique, les modèles analytiques et numériques qui en découlent sont étudiés. En utilisant cette connaissance,le deuxième chapitre propose de choisir dans les méthodes de mesures les plus adaptées aux spécifications et aux contraintes de l'application choisie. Une fois que les bases de données ont été établies, nous pouvons utiliser dans le troisième chapitre les techniques de l'apprentissage statistique pour construire un modèle dynamique. Après un bref rappel sur les tenants et les aboutissants de la modélisation statistique, quatre familles de méthodes seront présentées : les modèles linéaires, les réseaux de neurones, les réseaux bayésiens dynamiques et les machines à vecteur support (SVM). Enfin, le quatrième chapitre est l'occasion de présenter une méthode de modélisation originale.En effet, après avoir détaillé la mise en oeuvre des méthodes d'identification de représentation d'état, nous verrons comment prendre en compte des a priori théoriques au cours de l'apprentissage de ce type de modèle, à savoir une contrainte de stabilité. [INFO] Computer Science [INFO] Informatique Réseaux de neurones Réseaux bayésiens Svm Modèles d'état Thermique Infra-rouge Apprentissage statistique
62	Apprentissage de métrique temporelle multi-modale et multi-échelle pour la classification robuste de séries temporelles par plus proches voisins / Multi-modal and multi-scale temporal metric learning for robust nearest neighbors classification Do, Cao Tri 06 May 2016 (has links) La définition d'une métrique entre des séries temporelles est un élément important pour de nombreuses tâches en analyse ou en fouille de données, tel que le clustering, la classification ou la prédiction. Les séries temporelles présentent naturellement différentes caractéristiques, que nous appelons modalités, sur lesquelles elles peuvent être comparées, comme leurs valeurs, leurs formes ou leurs contenus fréquentielles. Ces caractéristiques peuvent être exprimées avec des délais variables et à différentes granularités ou localisations temporelles - exprimées globalement ou localement. Combiner plusieurs modalités à plusieurs échelles pour apprendre une métrique adaptée est un challenge clé pour de nombreuses applications réelles impliquant des données temporelles. Cette thèse propose une approche pour l'Apprentissage d'une Métrique Multi-modal et Multi-scale (M2TML) en vue d'une classification robuste par plus proches voisins. La solution est basée sur la projection des paires de séries temporelles dans un espace de dissimilarités, dans lequel un processus d'optimisation à vaste marge est opéré pour apprendre la métrique. La solution M2TML est proposée à la fois dans le contexte linéaire et non-linéaire, et est étudiée pour différents types de régularisation. Une variante parcimonieuse et interprétable de la solution montre le potentiel de la métrique temporelle apprise à pouvoir localiser finement les modalités discriminantes, ainsi que leurs échelles temporelles en vue de la tâche d'analyse considérée. L'approche est testée sur un vaste nombre de 30 bases de données publiques et challenging, couvrant des images, traces, données ECG, qui sont linéairement ou non-linéairement séparables. Les expériences montrent l'efficacité et le potentiel de la méthode M2TML pour la classification de séries temporelles par plus proches voisins. / The definition of a metric between time series is inherent to several data analysis and mining tasks, including clustering, classification or forecasting. Time series data present naturally several characteristics, called modalities, covering their amplitude, behavior or frequential spectrum, that may be expressed with varying delays and at different temporal granularity and localization - exhibited globally or locally. Combining several modalities at multiple temporal scales to learn a holistic metric is a key challenge for many real temporal data applications. This PhD proposes a Multi-modal and Multi-scale Temporal Metric Learning (M2TML) approach for robust time series nearest neighbors classification. The solution is based on the embedding of pairs of time series into a pairwise dissimilarity space, in which a large margin optimization process is performed to learn the metric. The M2TML solution is proposed for both linear and non linear contexts, and is studied for different regularizers. A sparse and interpretable variant of the solution shows the ability of the learned temporal metric to localize accurately discriminative modalities as well as their temporal scales.A wide range of 30 public and challenging datasets, encompassing images, traces and ECG data, that are linearly or non linearly separable, are used to show the efficiency and the potential of M2TML for time series nearest neighbors classification. Apprentissage statistique Séries temporelles Apprentissage de métrique Classification Svm Knn Machine Learning Time Series Metric learning Classification Svm Knn 004 510
63	Learning similarities for linear classification : theoretical foundations and algorithms / Apprentissage de similarités pour la classification linéaire : fondements théoriques et algorithmes Nicolae, Maria-Irina 02 December 2016 (has links) La notion de métrique joue un rôle clef dans les problèmes d’apprentissage automatique tels que la classification, le clustering et le ranking. L’apprentissage à partir de données de métriques adaptées à une tâche spécifique a suscité un intérêt croissant ces dernières années. Ce domaine vise généralement à trouver les meilleurs paramètres pour une métrique donnée sous certaines contraintes imposées par les données. La métrique apprise est utilisée dans un algorithme d’apprentissage automatique dans le but d’améliorer sa performance. La plupart des méthodes d’apprentissage de métriques optimisent les paramètres d’une distance de Mahalanobis pour des vecteurs de features. Les méthodes actuelles de l’état de l’art arrivent à traiter des jeux de données de tailles significatives. En revanche, le sujet plus complexe des séries temporelles multivariées n’a reçu qu’une attention limitée, malgré l’omniprésence de ce type de données dans les applications réelles. Une importante partie de la recherche sur les séries temporelles est basée sur la dynamic time warping (DTW), qui détermine l’alignement optimal entre deux séries temporelles. L’état actuel de l’apprentissage de métriques souffre de certaines limitations. La plus importante est probablement le manque de garanties théoriques concernant la métrique apprise et sa performance pour la classification. La théorie des fonctions de similarité (ℰ , ϓ, T)-bonnes a été l’un des premiers résultats liant les propriétés d’une similarité à celles du classifieur qui l’utilise. Une deuxième limitation vient du fait que la plupart des méthodes imposent des propriétés de distance, qui sont coûteuses en terme de calcul et souvent non justifiées. Dans cette thèse, nous abordons les limitations précédentes à travers deux contributions principales. La première est un nouveau cadre général pour l’apprentissage conjoint d’une fonction de similarité et d’un classifieur linéaire. Cette formulation est inspirée de la théorie de similarités (ℰ , ϓ, τ) -bonnes, fournissant un lien entre la similarité et le classifieur linéaire. Elle est convexe pour une large gamme de fonctions de similarité et de régulariseurs. Nous dérivons deux bornes de généralisation équivalentes à travers les cadres de robustesse algorithmique et de convergence uniforme basée sur la complexité de Rademacher, prouvant les propriétés théoriques de notre formulation. Notre deuxième contribution est une méthode d’apprentissage de similarités basée sur DTW pour la classification de séries temporelles multivariées. Le problème est convexe et utilise la théorie des fonctions (ℰ , ϓ, T)-bonnes liant la performance de la métrique à celle du classifieur linéaire associé. A l’aide de la stabilité uniforme, nous prouvons la consistance de la similarité apprise conduisant à la dérivation d’une borne de généralisation. / The notion of metric plays a key role in machine learning problems, such as classification, clustering and ranking. Learning metrics from training data in order to make them adapted to the task at hand has attracted a growing interest in the past years. This research field, known as metric learning, usually aims at finding the best parameters for a given metric under some constraints from the data. The learned metric is used in a machine learning algorithm in hopes of improving performance. Most of the metric learning algorithms focus on learning the parameters of Mahalanobis distances for feature vectors. Current state of the art methods scale well for datasets of significant size. On the other hand, the more complex topic of multivariate time series has received only limited attention, despite the omnipresence of this type of data in applications. An important part of the research on time series is based on the dynamic time warping (DTW) computing the optimal alignment between two time series. The current state of metric learning suffers from some significant limitations which we aim to address in this thesis. The most important one is probably the lack of theoretical guarantees for the learned metric and its performance for classification.The theory of (ℰ , ϓ, τ)-good similarity functions has been one of the first results relating the properties of a similarity to its classification performance. A second limitation in metric learning comes from the fact that most methods work with metrics that enforce distance properties, which are computationally expensive and often not justified. In this thesis, we address these limitations through two main contributions. The first one is a novel general framework for jointly learning a similarity function and a linear classifier. This formulation is inspired from the (ℰ , ϓ, τ)-good theory, providing a link between the similarity and the linear classifier. It is also convex for a broad range of similarity functions and regularizers. We derive two equivalent generalization bounds through the frameworks of algorithmic robustness and uniform convergence using the Rademacher complexity, proving the good theoretical properties of our framework. Our second contribution is a method for learning similarity functions based on DTW for multivariate time series classification. The formulation is convex and makes use of the(ℰ , ϓ, τ)-good framework for relating the performance of the metric to that of its associated linear classifier. Using uniform stability arguments, we prove the consistency of the learned similarity leading to the derivation of a generalization bound. Apprentissage de métriques Apprentissage statistique Théorie de l'apprentissage Classification Séries temporelles Metric learning Statistical learning Learning theory Classification Time series
64	Egocentric Audio-Visual Scene Analysis : a machine learning and signal processing approach / Analyse audio-visuelle de la scène d'un point de vue égocentrique : une approche par de l'apprentissage automatique et du traitement du signal. Alameda-Pineda, Xavier 15 October 2013 (has links) Depuis les vingt dernières années, l'industrie a développé plusieurs produits commerciaux dotés de capacités auditives et visuelles. La grand majorité de ces produits est composée d'un caméscope et d'un microphone embarqué (téléphones portables, tablettes, etc). D'autres, comme la Kinect, sont équipés de capteurs de profondeur et/ou de petits réseaux de microphones. On trouve également des téléphones portables dotés d'un système de vision stéréo. En même temps, plusieurs systèmes orientés recherche sont apparus (par exemple, le robot humanoïde NAO). Du fait que ces systèmes sont compacts, leurs capteurs sont positionnés près les uns des autres. En conséquence, ils ne peuvent pas capturer la scène complète, mais qu'un point de vue très particulier de l'interaction sociale en cours. On appelle cela "Analyse Égocentrique de Scènes Audio-Visuelles''.Cette thèse contribue à cette thématique de plusieurs façons. D'abord, en fournissant une base de données publique qui cible des applications comme la reconnaissance d'actions et de gestes, localisation et suivi d'interlocuteurs, analyse du tour de parole, localisation de sources auditives, etc. Cette base a été utilisé en dedans et en dehors de cette thèse. Nous avons aussi travaillé le problème de la détection d'événements audio-visuels. Nous avons montré comme la confiance en une des modalités (issue de la vision en l'occurrence), peut être modélisée pour biaiser la méthode, en donnant lieu à un algorithme d'espérance-maximisation visuellement supervisé. Ensuite, nous avons modifié l'approche pour cibler la détection audio-visuelle d'interlocuteurs en utilisant le robot humanoïde NAO. En parallèle aux travaux en détection audio-visuelle d'interlocuteurs, nous avons développé une nouvelle approche pour la reconnaissance audio-visuelle de commandes. Nous avons évalué la qualité de plusieurs indices et classeurs, et confirmé que l'utilisation des données auditives et visuelles favorise la reconnaissance, en comparaison aux méthodes qui n'utilisent que l'audio ou que la vidéo. Plus tard, nous avons cherché la meilleure méthode pour des ensembles d'entraînement minuscules (5-10 observations par catégorie). Il s'agit d'un problème intéressant, car les systèmes réels ont besoin de s'adapter très rapidement et d'apprendre de nouvelles commandes. Ces systèmes doivent être opérationnels avec très peu d'échantillons pour l'usage publique. Pour finir, nous avons contribué au champ de la localisation de sources sonores, dans le cas particulier des réseaux coplanaires de microphones. C'est une problématique importante, car la géométrie du réseau est arbitraire et inconnue. En conséquence, cela ouvre la voie pour travailler avec des réseaux de microphones dynamiques, qui peuvent adapter leur géométrie pour mieux répondre à certaines tâches. De plus, la conception des produits commerciaux peut être contrainte de façon que les réseaux linéaires ou circulaires ne sont pas bien adaptés. / Along the past two decades, the industry has developed several commercial products with audio-visual sensing capabilities. Most of them consists on a videocamera with an embedded microphone (mobile phones, tablets, etc). Other, such as Kinect, include depth sensors and/or small microphone arrays. Also, there are some mobile phones equipped with a stereo camera pair. At the same time, many research-oriented systems became available (e.g., humanoid robots such as NAO). Since all these systems are small in volume, their sensors are close to each other. Therefore, they are not able to capture de global scene, but one point of view of the ongoing social interplay. We refer to this as "Egocentric Audio-Visual Scene Analysis''.This thesis contributes to this field in several aspects. Firstly, by providing a publicly available data set targeting applications such as action/gesture recognition, speaker localization, tracking and diarisation, sound source localization, dialogue modelling, etc. This work has been used later on inside and outside the thesis. We also investigated the problem of AV event detection. We showed how the trust on one of the modalities (visual to be precise) can be modeled and used to bias the method, leading to a visually-supervised EM algorithm (ViSEM). Afterwards we modified the approach to target audio-visual speaker detection yielding to an on-line method working in the humanoid robot NAO. In parallel to the work on audio-visual speaker detection, we developed a new approach for audio-visual command recognition. We explored different features and classifiers and confirmed that the use of audio-visual data increases the performance when compared to auditory-only and to video-only classifiers. Later, we sought for the best method using tiny training sets (5-10 samples per class). This is interesting because real systems need to adapt and learn new commands from the user. Such systems need to be operational with a few examples for the general public usage. Finally, we contributed to the field of sound source localization, in the particular case of non-coplanar microphone arrays. This is interesting because the geometry of the microphone can be any. Consequently, this opens the door to dynamic microphone arrays that would adapt their geometry to fit some particular tasks. Also, because the design of commercial systems may be subject to certain constraints for which circular or linear arrays are not suited. Traitement du signal multimodal Apprentissage statistique Analyse audio-visuel égocentrique Multimodal signal processing Statistical learning Egocentric audio-visual analysis 510
65	Contextualisation d'un détecteur de piétons : application à la surveillance d'espaces publics / Contextualization of a pedestrian detector : application to the monitoring of public spaces Chesnais, Thierry 24 June 2013 (has links) La démocratisation de la « vidéosurveillance intelligente » nécessite le développement d’outils automatiques et temps réel d’analyse vidéo. Parmi ceux-ci, la détection de piétons joue un rôle majeur car de nombreux systèmes reposent sur cette technologie. Les approches classiques de détection de piétons utilisent la reconnaissance de formes et l’apprentissage statistique. Elles souffrent donc d’une dégradation des performances quand l’apparence des piétons ou des éléments de la scène est trop différente de celle étudiée lors de l’apprentissage. Pour y remédier, une solution appelée « contextualisation du détecteur » est étudiée lorsque la caméra est fixe. L’idée est d’enrichir le système à l’aide d’informations provenant de la scène afin de l’adapter aux situations qu’il risque de fréquemment rencontrer. Ce travail a été réalisé en deux temps. Tout d’abord, l’architecture d’un détecteur et les différents outils utiles à sa construction sont présentés dans un état de l’art. Puis la problématique de la contextualisation est abordée au travers de diverses expériences validant ou non les pistes d’amélioration envisagées. L’objectif est d’identifier toutes les briques du système pouvant bénéficier de cet apport afin de contextualiser complètement le détecteur. Pour faciliter l’exploitation d’un tel système, la contextualisation a été entièrement automatisée et s’appuie sur des algorithmes d’apprentissage semi-supervisé. Une première phase consiste à collecter le maximum d’informations sur la scène. Différents oracles sont proposés afin d’extraire l’apparence des piétons et des éléments du fond pour former une base d’apprentissage dite contextualisée. La géométrie de la scène, influant sur la taille et l’orientation des piétons, peut ensuite être analysée pour définir des régions, dans lesquelles les piétons, tout comme le fond, restent visuellement proches. Dans la deuxième phase, toutes ces connaissances sont intégrées dans le détecteur. Pour chaque région, un classifieur est construit à l’aide de la base contextualisée et fonctionne indépendamment des autres. Ainsi chaque classifieur est entraîné avec des données ayant la même apparence que les piétons qu’il devra détecter. Cela simplifie le problème de l’apprentissage et augmente significativement les performances du système. / With the rise of videosurveillance systems comes a logical need for automatic and real-time processes to analyze the huge amount of generated data. Among these tools, pedestrian detection algorithms are essential, because in videosurveillance locating people is often the first step leading to more complex behavioral analyses. Classical pedestrian detection approaches are based on machine learning and pattern recognition algorithms. Thus they generally underperform when the pedestrians’ appearance observed by a camera tends to differ too much from the one in the generic training dataset. This thesis studies the concept of the contextualization of such a detector. This consists in introducing scene information into a generic pedestrian detector. The main objective is to adapt it to the most frequent situations and so to improve its overall performances. The key hypothesis made here is that the camera is static, which is common in videosurveillance scenarios.This work is split into two parts. First a state of the art introduces the architecture of a pedestrian detector and the different algorithms involved in its building. Then the problem of the contextualization is tackled and a series of experiments validates or not the explored leads. The goal is to identify every part of the detector which can benefit from the approach in order to fully contextualize it. To make the contextualization process easier, our method is completely automatic and is based on semi-supervised learning methods. First of all, data coming from the scene are gathered. We propose different oracles to detect some pedestrians in order to catch their appearance and to form a contextualized training dataset. Then, we analyze the scene geometry, which influences the size and the orientation of the pedestrians and we divide the scene into different regions. In each region, pedestrians as well as background elements share a similar appearance.In the second step, all this information is used to build the final detector which is composed of several classifiers, one by region. Each classifier independently scans its dedicated piece of image. Thus, it is only trained with a region-specific contextualized dataset, containing less appearance variability than a global one. Consequently, the training stage is easier and the overall detection results on the scene are improved. Vidéosurveillance Détection de piétons Apprentissage statistique Apprentissage semi-supervisé Contextualisation Videosurveillance Pedestrian detection Machine learning Semi-supervised learning Contextualization
66	Waterpixels et Leur Application à l'Apprentissage Statistique de la Segmentation / Waterpixels and their Application to Image Segmentation Learning Machairas, Vaïa 16 December 2016 (has links) L’objectif de ces travaux est de fournir une méthode de segmentation sémantique qui soit générale et automatique, c’est-à-dire une méthode qui puisse s’adapter par elle-même à tout type de base d’images, afin d’être utilisée directement par les non experts en traitement d’image, comme les biologistes par exemple. Pour cela, nous proposons d’utiliser la classification de pixel, une approche classique d’apprentissage supervisé, où l’objectif est d’attribuer à chaque pixel l’étiquette de l’objet auquel il appartient. Les descripteurs des pixels à classer sont souvent calculés sur des supports fixes, par exemple une fenêtre centrée sur chaque pixel, ce qui conduit à des erreurs de classification, notamment au niveau des contours d’objets. Nous nous intéressons donc à un autre support, plus large que le pixel et s’adaptant au contenu de l’image: le superpixel. Les superpixels sont des régions homogènes et plutôt régulières, issues d’une segmentation de bas niveau. Nous proposons une nouvelle façon de les générer grâce à la ligne de partage des eaux, les waterpixels, méthode rapide, performante et facile à prendre en main par l’utilisateur. Ces superpixels sont ensuite utilisés dans la chaîne de classification, soit à la place des pixels à classer, soit comme support pertinent pour calculer les descripteurs, appelés SAF (Superpixel-Adaptive Features). Cette seconde approche constitue une méthode générale de segmentation dont la pertinence est vérifiée qualitativement et quantitativement sur trois bases d’images provenant du milieu biomédical. / In this work, we would like to provide a general method for automatic semantic segmentation, which could adapt itself to any image database in order to be directly used by non-experts in image analysis (such as biologists). To address this problem, we first propose to use pixel classification, a classic approach based on supervised learning, where the aim is to assign to each pixel the label of the object it belongs to. Features describing each pixel properties, and which are used to determine the class label, are often computed on a fixed-shape support (such as a centered window), which leads, in particular, to misclassifcations on object contours. Therefore, we consider another support which is wider than the pixel itself and adapts to the image content: the superpixel. Superpixels are homogeneous and rather regular regions resulting from a low-level segmentation. We propose a new superpixel generation method based on the watershed, the waterpixels, which are efficient, fast to compute and easy to handle by the user. They are then inserted in the classification pipeline, either in replacement of pixels to be classified, or as pertinent supports to compute the features, called Superpixel-Adaptive Features (SAF). This second approach constitutes a general segmentation method whose pertinence is qualitatively and quantitatively highlighted on three databases from the biological field. Segmentation Morphologie mathématique Apprentissage statistique Superpixels Ligne de partage des eaux Segmentation Mathematical morphology Machine learning Superpixels Watershed 621
67	Fouille de données billettiques pour l'analyse de la mobilité dans les transports en commun / Analysis of Mobility in Public Transport Systems Through Machine Learning Applied to Ticketing Log Data Briand, Anne-Sarah 05 December 2017 (has links) Les données billettiques sont de plus en plus utilisées pour l'analyse de la mobilité dans les transports en commun. Leur richesse spatiale et temporelle ainsi que leur volume, en font un bon matériel pour une meilleure compréhension des habitudes des usagers, pour prédire les flux de passagers ou bien encore pour extraire des informations sur les événements atypiques (ou anomalies), correspondant par exemple à un accroissement ou à une baisse inhabituelle du nombre de validations enregistrées sur le réseau.Après une présentation des travaux ayant été menés sur les données billettiques, cette thèse s'est attachée à développer de nouveaux outils de traitement de ces données. Nous nous sommes particulièrement intéressés à deux challenges nous semblant non encore totalement résolus dans la littérature : l'aide à la mise en qualité des données et la modélisation et le suivi des habitudes temporelles des usagers.Un des principaux challenges de la mise en qualité des données consiste en la construction d'une méthodologie robuste qui soit capable de détecter des plages de données potentiellement problématique correspondant à des situations atypiques et ce quel que soit le contexte (jour de la semaine, vacances, jours fériés, ...). Pour cela une méthodologie en deux étapes a été déployée, à savoir le clustering pour la détermination du contexte et la détection d'anomalies. L'évaluation de la méthodologie proposée a été entreprise sur un jeu de données réelles collectées sur le réseau de transport en commun rennais. En croisant les résultats obtenus avec les événements sociaux et culturels de la ville, l'approche a permis d'évaluer l'impact de ces événements sur la demande en transport, en termes de sévérité et d'influence spatiale sur les stations voisines.Le deuxième volet de la thèse concerne la modélisation et le suivi de l'activité temporelle des usagers. Un modèle de mélange de gaussiennes a été développé pour partitionner les usagers dans les clusters en fonction des heures auxquelles ils utilisent les transports en commun. L'originalité de la méthodologie proposée réside dans l'obtention de profils temporels continus pour décrire finement les routines temporelles de chaque groupe d'usager. Les appartenance aux clusters ont également été croisées avec les données disponibles sur les usagers (type de carte) en vue d'obtenir une description plus précise de chaque cluster. L'évolution de l'appartenance aux clusters au cours des années a également été analysée afin d'évaluer la stabilité de l'utilisation des transports d'une année sur l'autre. / Ticketing logs are being increasingly used to analyse mobility in public transport. The spatial and temporal richness as well as the volume of these data make them useful for understanding passenger habits and predicting origin-destination flows. Information on the operations carried out on the transportation network can also be extracted in order to detect atypical events (or anomalies), such as an unusual increase or decrease in the number of validations.This thesis focuses on developing new tools to process ticketing log data. We are particularly interested in two challenges that seem to be not yet fully resolved in the literature: help with data quality as well as the modeling and monitoring of passengers' temporal habits.One of the main challenges in data quality is the construction of a robust methodology capable of detecting atypical situations in any context (day of the week, holidays, public holidays, etc.). To this end, two steps were deployed, namely clustering for context estimation and detection of anomalies. The evaluation of the proposed methodology is conducted on a real dataset collected on the Rennes public transport network. By cross-comparing the obtained results with the social and cultural events of the city, it is possible to assess the impact of these events on transport demand, in terms, of severity and spatial influence on neighboring stations.The second part of the thesis focuses on the modeling and the tracking of the temporal activity of passengers. A Gaussian mixture model is proposed to partition passengers into clusters according to the hours they use public transport. The originality of the methodology compared to existing approaches lies in obtaining continuous time profiles in order to finely describe the time routines of each passenger cluster. Cluster memberships are also cross-referenced with passenger data (card type) to obtain a more accurate description of each cluster. The cluster membership over the years has also been analyzed in order to study how the use of transport evolves Apprentissage statistique Données spatiales Données longitudinales Masse de données Suivi temporel Statistical learning Spatial data Longitudinal data Mass data Time tracking
68	Catalogage de petits débris spatiaux en orbite basse par observations radars isolées / Cataloguing small LEO objects using a narrow-fence type radar Castaings, Thibaut 21 January 2014 (has links) Les débris spatiaux sont devenus une menace considérable pour la viabilité des satellites opérationnels en orbite basse. Afin de pouvoir éviter des collisions accidentelles, des systèmes de surveillance de l'espace existent mais sont limités en performances de détection pour les objets de petite taille (diamètre inférieur à 10cm), ce qui pousse à l'étude de nouvelles solutions. Cette thèse a pour objectif d'appuyer la faisabilité d'un système radar au sol utilisant un champ de veille étroit pour le catalogage de petits débris en orbite basse. Un tel système fournirait en effet des observations dites « isolées », c'est-à-dire qu'une orbite n'est pas immédiatement déductible de chacune d'entre elles. Le grand nombre combinaisons nécessaires est alors prohibitif en termes de temps de calcul pour la résolution de ce problème de pistage. Nous proposons dans ces travaux une nouvelle méthode pour initialiser les pistes, c'est-à-dire associer des observations isolées avec une faible ambiguïté et en déduire des orbites précises. Les pistes ainsi obtenues sont combinées et filtrées grâce à un algorithme de pistage multicible que nous avons adapté aux particularités du problème. Avec un taux de couverture de plus de 80 % obtenu en temps réel sur 3 jours pour des scénarios de 500 à 800 objets en plus d'un fort taux de fausses alarmes, les performances de la méthode proposée tendent à prouver la faisabilité du système envisagé. Afin d'extrapoler les résultats obtenus à de plus fortes densités d'observations, nous proposons un modèle de complexité combinatoire calibré sur les performances de l'algorithme aux faibles densités. L'apport d'un second capteur identique est également étudié et met en évidence un point de compromis entre réactivité et complexité combinatoire, ce qui offre un degré de liberté supplémentaire dans la conception d'un tel système. / Space debris have become a significant threat to the viability of operational satellites in Low-Earth-Orbit. In order to avoid accidental collisions, space surveillance systems exist but their detection performance is limited for the small debris (less than 10cm). New solutions are then at study. This thesis aims at supporting the feasibility of a ground-based radar sensor with a narrow-fence type field of regard for the cataloging of the small space debris. Such a system would produce “isolated” observations, that is to say that an orbit is not directly available from each one of them. The large number of potential combinations is then computationally prohibitive for solving this tracking problem. In this work, we propose a new method for track initiation, i.e. associating isolated observations with little ambiguity and deduce accurate orbits. The obtained set of tracks are combined and filtered using an multitarget tracking algorithm that we have adapted to the peculiarities of the problem. With a coverage rate of more than 80% in real-time on 3 days for 500 to 800-objects scenarios in addition of a high false alarm rate, the performance of the proposed method supports the feasibility of the considered system. Aiming at extrapolating the obtained results to higher observation densities, we propose a combinatorial complexity model calibrated with the algorithm performance for low detection densities. The contribution of a second identical sensor is also assessed and reveals a possible trade-off between reactivity and combinatorial complexity, which offers an additional degree of freedom in the design of such a system. Pistage Low earth orbit Apprentissage statistique MHT Catalogue Observabilité Tracking LEO Machine Learning MHT Catalog Observability 620
69	Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes / Structured Models for Action Recognition in Real-word Videos Gaidon, Adrien 25 October 2012 (has links) Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes. / This dissertation introduces novel models to recognize broad action categories --- like "opening a door" and "running" --- in real-world video data such as movies and internet videos. In particular, we investigate how an action can be decomposed, what is its discriminative structure, and how to use this information to accurately represent video content. The main challenge we address lies in how to build models of actions that are simultaneously information-rich --- in order to correctly differentiate between different action categories --- and robust to the large variations in actors, actions, and videos present in real-world data. We design three robust models capturing both the content of and the relations between action parts. Our approach consists in structuring collections of robust local features --- such as spatio-temporal interest points and short-term point trajectories. We also propose efficient kernels to compare our structured action representations. Even if they share the same principles, our methods differ in terms of the type of problem they address and the structure information they rely on. We, first, propose to model a simple action as a sequence of meaningful atomic temporal parts. We show how to learn a flexible model of the temporal structure and how to use it for the problem of action localization in long unsegmented videos. Extending our ideas to the spatio-temporal structure of more complex activities, we, then, describe a large-scale unsupervised learning algorithm used to hierarchically decompose the motion content of videos. We leverage the resulting tree-structured decompositions to build hierarchical action models and provide an action kernel between unordered binary trees of arbitrary sizes. Instead of structuring action models, we, finally, explore another route: directly comparing models of the structure. We view short-duration actions as high-dimensional time-series and investigate how an action's temporal dynamics can complement the state-of-the-art unstructured models for action classification. We propose an efficient kernel to compare the temporal dependencies between two actions and show that it provides useful complementary information to the traditional bag-of-features approach. In all three cases, we conducted thorough experiments on some of the most challenging benchmarks used by the action recognition community. We show that each of our methods significantly outperforms the related state of the art, thus highlighting the importance of structure information for accurate and robust action recognition in real-world videos. Reconnaissance d'Actions Analyse de Vidéos Vision par Ordinateur Apprentissage Statistique Action Recognition Video Analysis Computer Vision Machine Learning
70	Une approche mathématique de l'investissement boursier / A mathematical approach to stock investing Anane, Marouane 10 February 2015 (has links) Le but de cette thèse est de répondre au vrai besoin de prédire les fluctuations futures des prix d'actions. En effet, l'aléatoire régissant ces fluctuations constitue pour des acteurs de la finance, tels que les Market Maker, une des plus grandes sources de risque. Tout au long de cette étude, nous mettons en évidence la possibilité de réduire l'incertitude sur les prix futurs par l'usage des modèles mathématiques appropriés. Cette étude est rendue possible grâce à une grande base de données financières et une puissante grille de calcul mises à notre disposition par l'équipe Automatic Market Making de BNP Paribas. Dans ce document, nous présentons uniquement les résultats de la recherche concernant le trading haute fréquence. Les résultats concernant la partie basse fréquence présentent un intérêt scientifique moindre pour le monde académique et rentrent par ailleurs dans le cadre des résultats confidentiels. Ces résultats seront donc volontairement omis.Dans le premier chapitre, nous présentons le contexte et les objectifs de cette étude. Nous présentons, également, les différentes méthodes utilisées, ainsi que les principaux résultats obtenus. Dans le chapitre 2, nous nous intéressons à l'apport de la supériorité technologique en trading haute fréquence. Dans ce but, nous simulons un trader ultra rapide, omniscient, et agressif, puis nous calculons son gain total sur 3 ans. Les gains obtenus sont très modestes et reflètent l'apport limité de la technologie en trading haute fréquence. Ce résultat souligne l'intérêt primordial de la recherche et de la modélisation dans ce domaine.Dans le chapitre 3, nous étudions la prédictibilité des prix à partir des indicateurs de carnet d'ordre. Nous présentons, à l'aide des espérances conditionnelles, des preuves empiriques de dépendances statistiques entre les prix et les différents indicateurs. L'importance de ces dépendances résulte de la simplicité de la méthode, éliminant tout risque de surapprentissage des données. Nous nous intéressons, ensuite, à la combinaison des différents indicateurs par une régression linéaire et nous analysons les différents problèmes numériques et statistiques liés à cette méthode. Enfin, nous concluons que les prix sont prédictibles pour un horizon de quelques minutes et nous mettons en question l'hypothèse de l'efficience du marché.Dans le chapitre 4, nous nous intéressons au mécanisme de formation du prix à partir des arrivés des évènements dans le carnet d'ordre. Nous classifions les ordres en douze types dont nous analysons les propriétés statistiques. Nous étudions par la suite les dépendances entre ces différents types d'ordres et nous proposons un modèle de carnet d'ordre en ligne avec les observations empiriques. Enfin, nous utilisons ce modèle pour prédire les prix et nous appuyons l'hypothèse de la non-efficience des marchés, suggérée au chapitre 3. / The aim of this thesis is to address the real need of predicting the prices of stocks. In fact, the randomness governing the evolution of prices is, for financial players like market makers, one of the largest sources of risk. In this context, we highlight the possibility of reducing the uncertainty of the future prices using appropriate mathematical models. This study was made possible by a large base of high frequency data and a powerful computational grid provided by the Automatic Market Making team at BNP Paribas. In this paper, we present only the results of high frequency tests. Tests are of less scientific interest in the academic world and are confidential. Therefore, these results will be deliberately omitted.In the first chapter, the background and the objectives of this study are presented along with the different methods used and the main results obtained.The focus of chapter 2 is on the contribution of technological superiority in high frequency trading. In order to do this, an omniscient trader is simulated and the total gain over three years is calculated. The obtained gain is very modest and reflects the limited contribution of technology in high frequency trading. This result underlines the primary role of research and modeling in this field.In Chapter 3, the predictability of prices using some order book indicators is studied. Using conditional expectations, the empirical evidence of the statistical dependencies between the prices and indicators is presented. The importance of these dependencies results from the simplicity of the method, eliminating any risk of over fitting the data. Then the combination of the various indicators is tested using a linear regression and the various numerical and statistical problems associated with this method are analyzed. Finally, it can be concluded that the prices are predictable for a period of a few minutes and the assumption of market efficiency is questioned.In Chapter 4, the mechanism of price formation from the arrival of events in the order book is investigated. The orders are classified in twelve types and their statistical properties are analyzed. The dependencies between these different types of orders are studied and a model of order book in line with the empirical observations is proposed. Finally, this model is used to predict prices and confirm the assumption of market inefficiency suggested in Chapter 3. Trading haute fréquence Stratégies de trading Processus de Hawkes Apprentissage statistique High frequency trading Trading strategies Hawkes process Statistical learning

Search results