Global ETD Search

111	Résumé des Travaux en Statistique et Applications des Statistiques Clémençon, Stéphan 01 December 2006 (has links) (PDF) Ce rapport présente brièvement l'essentiel de mon activité de recherche depuis ma thèse de doctorat [53], laquelle visait principalement à étendre l'utilisation des progrès récents de l'Analyse Harmonique Algorithmique pour l'estimation non paramétrique adaptative dans le cadre d'observations i.i.d. (tels que l'analyse par ondelettes) à l'estimation statistique pour des données markoviennes. Ainsi qu'il est éxpliqué dans [123], des résultats relatifs aux propriétés de concentration de la mesure (i.e. des inégalités de probabilité et de moments sur certaines classes fonctionnelles, adaptées à l'approximation non linéaire) sont indispensables pour exploiter ces outils d'analyse dans un cadre probabiliste et obtenir des procédures d'estimation statistique dont les vitesses de convergence surpassent celles de méthodes antérieures. Dans [53] (voir également [54], [55] et [56]), une méthode d'analyse fondée sur le renouvellement, la méthode dite 'régénérative' (voir [185]), consistant à diviser les trajectoires d'une chaîne de Markov Harris récurrente en segments asymptotiquement i.i.d., a été largement utilisée pour établir les résultats probabilistes requis, le comportement à long terme des processus markoviens étant régi par des processus de renouvellement (définissant de façon aléatoire les segments de la trajectoire). Une fois l'estimateur construit, il importe alors de pouvoir quantifier l'incertitude inhérente à l'estimation fournie (mesurée par des quantiles spécifiques, la variance ou certaines fonctionnelles appropriées de la distribution de la statistique considérée). A cet égard et au delà de l'extrême simplicité de sa mise en oeuvre (puisqu'il s'agit simplement d'eectuer des tirages i.i.d. dans l'échantillon de départ et recalculer la statistique sur le nouvel échantillon, l'échantillon bootstrap), le bootstrap possède des avantages théoriques majeurs sur l'approximation asymptotique gaussienne (la distribution bootstrap approche automatiquement la structure du second ordre dans le développement d'Edegworth de la distribution de la statistique). Il m'est apparu naturel de considérer le problème de l'extension de la procédure traditionnelle de bootstrap aux données markoviennes. Au travers des travaux réalisés en collaboration avec Patrice Bertail, la méthode régénérative s'est avérée non seulement être un outil d'analyse puissant pour établir des théorèmes limites ou des inégalités, mais aussi pouvoir fournir des méthodes pratiques pour l'estimation statistique: la généralisation du bootstrap proposée consiste à ré-échantillonner un nombre aléatoire de segments de données régénératifs (ou d'approximations de ces derniers) de manière à imiter la structure de renouvellement sous-jacente aux données. Cette approche s'est révélée également pertinente pour de nombreux autres problèmes statistiques. Ainsi la première partie du rapport vise essentiellement à présenter le principe des méthodes statistiques fondées sur le renouvellement pour des chaînes de Markov Harris. La seconde partie du rapport est consacrée à la construction et à l'étude de méthodes statistiques pour apprendre à ordonner des objets, et non plus seulement à les classer (i.e. leur aecter un label), dans un cadre supervisé. Ce problème difficile est d'une importance cruciale dans de nombreux domaines d' application, allant de l'élaboration d'indicateurs pour le diagnostic médical à la recherche d'information (moteurs de recherche) et pose d'ambitieuses questions théoriques et algorithmiques, lesquelles ne sont pas encore résolues de manière satisfaisante. Une approche envisageable consiste à se ramener à la classification de paires d'observations, ainsi que le suggère un critère largement utilisé dans les applications mentionnées ci-dessus (le critère AUC) pour évaluer la pertinence d'un ordre. Dans un travail mené en collaboration avec Gabor Lugosi et Nicolas Vayatis, plusieurs résultats ont été obtenus dans cette direction, requérant l'étude de U-processus: l'aspect novateur du problème résidant dans le fait que l'estimateur naturel du risque a ici la forme d'une U-statistique. Toutefois, dans de nombreuses applications telles que la recherche d'information, seul l'ordre relatif aux objets les plus pertinents importe véritablement et la recherche de critères correspondant à de tels problèmes (dits d'ordre localisé) et d'algorithmes permettant de construire des règles pour obtenir des 'rangements' optimaux à l'égard de ces derniers constitue un enjeu crucial dans ce domaine. Plusieurs développements en ce sens ont été réalisés dans une série de travaux (se poursuivant encore actuellement) en collaboration avec Nicolas Vayatis. Enfin, la troisième partie du rapport reflète mon intérêt pour les applications des concepts probabilistes et des méthodes statistiques. Du fait de ma formation initiale, j'ai été naturellement conduit à considérer tout d'abord des applications en finance. Et bien que les approches historiques ne suscitent généralement pas d'engouement dans ce domaine, j'ai pu me convaincre progressivement du rôle important que pouvaient jouer les méthodes statistiques non paramétriques pour analyser les données massives (de très grande dimension et de caractère 'haute fréquence') disponibles en finance afin de détecter des structures cachées et en tirer partie pour l'évaluation du risque de marché ou la gestion de portefeuille par exemple. Ce point de vue est illustré par la brève présentation des travaux menés en ce sens en collaboration avec Skander Slim dans cette troisième partie. Ces dernières années, j'ai eu l'opportunité de pouvoir rencontrer des mathématiciens appliqués et des scientifiques travaillant dans d'autres domaines, pouvant également bénéficier des avancées de la modélisation probabiliste et des méthodes statistiques. J'ai pu ainsi aborder des applications relatives à la toxicologie, plus précisément au problème de l'évaluation des risque de contamination par voie alimentaire, lors de mon année de délégation auprès de l'Institut National de la Recherche Agronomique au sein de l'unité Metarisk, unité pluridisciplinaire entièrement consacrée à l'analyse du risque alimentaire. J'ai pu par exemple utiliser mes compétences dans le domaine de la modélisation maarkovienne afin de proposer un modèle stochastique décrivant l'évolution temporelle de la quantité de contaminant présente dans l'organisme (de manère à prendre en compte à la fois le phénomène d'accumulation du aux ingestions successives et la pharmacocinétique propre au contaminant régissant le processus d'élimination) et des méthodes d'inférence statistique adéquates lors de travaux en collaboration avec Patrice Bertail et Jessica Tressou. Cette direction de recherche se poursuit actuellement et l'on peut espérer qu'elle permette à terme de fonder des recommandations dans le domaine de la santé publique. Par ailleurs, j'ai la chance de pouvoir travailler actuellement avec Hector de Arazoza, Bertran Auvert, Patrice Bertail, Rachid Lounes et Viet-Chi Tran sur la modélisation stochastique de l'épidémie du virus VIH à partir des données épidémiologiques recensées sur la population de Cuba, lesquelles constituent l'une des bases de données les mieux renseignées sur l'évolution d'une épidémie de ce type. Et bien que ce projet vise essentiellement à obtenir un modèle numérique (permettant d'effectuer des prévisions quant à l'incidence de l'épidémie à court terme, de manière à pouvoir planifier la fabrication de la quantité d'anti-rétroviraux nécéssaire par exemple), il nous a conduit à aborder des questions théoriques ambitieuses, allant de l'existence d'une mesure quasi-stationnaire décrivant l'évolution à long terme de l'épidémie aux problèmes relatifs au caractère incomplet des données épidémiologiques disponibles. Il m'est malheureusement impossible d'évoquer ces questions ici sans risquer de les dénaturer, la présentation des problèmes mathématiques rencontrés dans ce projet mériterait à elle seule un rapport entier. [MATH] Mathematics Markov chain/process regenerative process nonparametric statistics bootstrap limit theorems supervised statistical learning ranking applications to biosciences application to finance
112	Multistage stochastic programming models for the portfolio optimization of oil projects Chen, Wei, 1974- 20 December 2011 (has links) Exploration and production (E&P) involves the upstream activities from looking for promising reservoirs to extracting oil and selling it to downstream companies. E&P is the most profitable business in the oil industry. However, it is also the most capital-intensive and risky. Hence, the proper assessment of E&P projects with effective management of uncertainties is crucial to the success of any upstream business. This dissertation is concentrated on developing portfolio optimization models to manage E&P projects. The idea is not new, but it has been mostly restricted to the conceptual level due to the inherent complications to capture interactions among projects. We disentangle the complications by modeling the project portfolio optimization problem as multistage stochastic programs with mixed integer programming (MIP) techniques. Due to the disparate nature of uncertainties, we separately consider explored and unexplored oil fields. We model portfolios of real options and portfolios of decision trees for the two cases, respectively. The resulting project portfolio models provide rigorous and consistent treatments to optimally balance the total rewards and the overall risk. For explored oil fields, oil price fluctuations dominate the geologic risk. The field development process hence can be modeled and assessed as sequentially compounded options with our optimization based option pricing models. We can further model the portfolio of real options to solve the dynamic capital budgeting problem for oil projects. For unexplored oil fields, the geologic risk plays the dominating role to determine how a field is optimally explored and developed. We can model the E&P process as a decision tree in the form of an optimization model with MIP techniques. By applying the inventory-style budget constraints, we can pool multiple project-specific decision trees to get the multistage E&P project portfolio optimization (MEPPO) model. The resulting large scale MILP is efficiently solved by a decomposition-based primal heuristic algorithm. The MEPPO model requires a scenario tree to approximate the stochastic process of the geologic parameters. We apply statistical learning, Monte Carlo simulation, and scenario reduction methods to generate the scenario tree, in which prior beliefs can be progressively refined with new information. / text Options pricing Real options Portfolio of real options Decision analysis Decision trees Portfolio of projects Risk management Exploration and production Oil and gas Oil field development Scenario generation Statistical learning Project dependence
113	Computational intelligence methods on biomedical signal analysis and data mining in medical records Vladutu, Liviu-Mihai 05 May 2009 (has links) This thesis is centered around the development and application of computationally effective solutions based on artificial neural networks (ANN) for biomedical signal analysis and data mining in medical records. The ultimate goal of this work in the field of Biomedical Engineering is to provide the clinician with the best possible information needed to make an accurate diagnosis (in our case of myocardial ischemia) and to propose advanced mathematical models for recovering the complex dependencies between the variables of a physical process from a set of perturbed observations. After describing some of the types of ANN mainly used in this work, we start designing a model for pattern classification, by constructing several local models, for neighborhoods of the state space. For this task, we use the novel k-windows clustering algorithm, to automatically detect neighborhoods in the state space. This algorithm, with a slight modification (unsupervised k-windows algorithm) has the ability to endogenously determine the number of clusters present in the data set during the clustering process. We used this method together with the other 2 mentioned below (NetSOM and sNet-SOM) for the problem of ischemia detection. Next, we propose the utilization of a statistically extracted distance measure in the context of Generalized Radial Basis Function (GRBF) networks. The main properties of the GRBF networks are retained in a new metric space, called Statistical Distance Metric (SDM). The regularization potential of these networks can be realized with this type of distance. Furthermore, the recent engineering of neural networks offers effective solutions for learning smooth functionals that lie on high dimensional spaces.We tested this solution with an application from bioinformatics, one example from data mining of commercial databases and finally with some examples using medical databases from a Machine Learning Repository. We continue by establishing the network self-organizing map (NetSOM) model, which attempts to generalize the regularization and ordering potential of the basic SOM from the space of vectors to the space of approximating functions. It becomes a device for the ordering of local experts (i.e. independent neural networks) over its lattice of neurons and for their selection and coordination. Finally, an alternative to NetSOM is proposed, which uses unsupervised ordering based on Self-organizing maps (SOM) for the "simple" regions and for the "difficult" ones a two-stage learning process. There are two differences resulted from the comparison with the previous model (NetSOM), one is that we replaced a fixed-size of the SOM with a dinamically expanded map and second, the supervised learning was based this time on Radial Basis Functions (RBF) Networks and Support Vector Machines (SVM). There are two fields in which this tool (called sNet-SOM) was used, namely: ischemia detection and Data Mining. / Η παρούσα διδακτορική διατριβή είναι επικεντρωμένη γύρω από την ανάπτυξη και εφαρμογή, με χαμηλές υπολογιστικές απαιτήσεις, βασισμένες σε Τεχνητά Νευρωνικά Δίκτυα, για την Ανάλυση Βιοϊατρικών σημάτων και Data Mining σε Ιατρικά Δεδομένα. Απώτερος σκοπός της παρούσης διατριβής στον τομέα της Βιοϊατρικής Τεχνολογίας είναι να παρέχει στους ιατρούς με την καλύτερη δυνατή πληροφόρηση για να κάνουν μια ακριβή διάγνωση (στην περίπτωση του ισχαιμικού μυοκαρδίου) και να προτείνει αναπτυγμένα μαθηματικά μοντέλα για να ανακάμψει πολύπλοκες εξαρτήσεις μεταξύ τον μεταβλητών μιας φυσικής διεργασίας από ένα σύνολο διαφορετικών παρατηρήσεων. Μετά την περιγραφή μερικών από τους βασικούς τύπους τεχνητών Νευρωνικών Δικτύων που χρησιμοποιούνται στην παρούσα διατριβή, εμείς αρχίσαμε να σχεδιάζουμε ένα μοντέλο για ταξινόμηση προτύπων κατασκευάζοντας πολλά τοπικά μοντέλα γειτονικά με τον παρόντα χώρο. Για αυτό το σκοπό εμείς χρησιμοποιούμε το αλγόριθμο για clustering k-windows για να ανιχνεύει αυτόματα γειτονιές στον παρόντα χώρο. Αυτός ο αλγόριθμος με μια ελαφριά τροποποίηση έχει την ικανότητα να καθορίζει ενδογενώς την παρουσία του αριθμού τον clusters στο σύνολο τον δεδομένων κατά την διάρκεια της διαδικασίας του clustering. Όταν η διαδικασία του clustering ολοκληρώνεται ένα εκπαιδευμένο Εμπροσθοτροφοδοτούμενο Νευρωνικό Δίκτυο δρα ως ο τοπικός προβλέπτης για κάθε cluster. Εν συνεχεία, προτείνουμε τη χρήση εξαγόμενης στατιστικής μετρητικής απόστασης, μέσα στο γενικότερο πλαίσιο των δικτύων ( GRBF). Οι κύριες λειτουργίες των GRBF (Generalized Radial Basis Functions) δικτύων διατηρούνται στο καινούργιο μετρητικό χώρο. Η δυναμική κανονικοποίηση αυτών των δικτύων μπορεί να πραγματοποιηθεί με αυτό τον τύπο αποστάσεων. Επιπλέον η πρόσφατη τεχνολογία των ΝΝ (Neural Networks) προσφέρει αποτελεσματικές λύσεις για τη μάθηση ομαλών συναρτήσεων που βρίσκεται σε υψηλούς διαστατικούς χώρους. Δοκιμάσαμε αυτή τη λύση σε εφαρμογή βιοπληροφορικής, μία από εμπορικές βάσεις δεδομένων και τέλος με μερικά παραδείγματα χρησιμοποιώντας βάσεις δεδομένων από το UCI (University of California at Irvine) από το ιατρικό πεδίο. Συνεχίζοντας, καθιδρύουμε το δίκτυο NetSOM (network Self-Οrganizing Map), που προσπαθεί να γενικεύσει (generalize) την κανονικοποίηση (regularization) και να δώσει δυναμικές εντολές (ordering) του βασικού SOM από το διανυσματικό χώρο στο χώρο των προσεγγιστικών συναρτήσεων. Αποτελεί μια εντολοδόχο διαδικασία για τους τοπικούς ειδικούς πάνω από το πλέγμα των νευρώνων και για την επιλογή και το συντονισμό τους. Τέλος, αναλύεται μια εναλλακτική λύση του NetSOM, που χρησιμοποιεί μη εκπαιδευμένες εντολές βασισμένες στο SOMs για τις “απλές ” περιοχές και για τις “δύσκολες ” μια διαδικασία μάθησης 2-επιπέδων. Υπάρχουν 2 διαφορές στα αποτελέσματα από την σύγκριση με το προηγούμενο μοντέλο (NetSOM), η πρώτη είναι ότι αντικαταστήσαμε (we replaced) a fixed-size των SOM με ένα πιο δυναμικό ταίριασμα (mapping) και η δεύτερη, η εκπαιδευόμενη εκμάθηση βασίστηκε αυτή τη φορά στην RBF και στις μηχανές υποστήριξης διανυσμάτων (SVM). Αυτό το εργαλείο χρησιμοποιήθηκε στην αναγνώριση των ισχαιμιών και εξόρυξη δεδομένων από βάσεις δεδομένων. Artificial neural networks Statistical learning Ischemia detection K-windows clustering 610.285 Στατιστική μάθηση Αλγόριθμοι για clustering
114	Supervised metric learning with generalization guarantees Bellet, Aurélien 11 December 2012 (has links) (PDF) In recent years, the crucial importance of metrics in machine learningalgorithms has led to an increasing interest in optimizing distanceand similarity functions using knowledge from training data to make them suitable for the problem at hand.This area of research is known as metric learning. Existing methods typically aim at optimizing the parameters of a given metric with respect to some local constraints over the training sample. The learned metrics are generally used in nearest-neighbor and clustering algorithms.When data consist of feature vectors, a large body of work has focused on learning a Mahalanobis distance, which is parameterized by a positive semi-definite matrix. Recent methods offer good scalability to large datasets.Less work has been devoted to metric learning from structured objects (such as strings or trees), because it often involves complex procedures. Most of the work has focused on optimizing a notion of edit distance, which measures (in terms of number of operations) the cost of turning an object into another.We identify two important limitations of current supervised metric learning approaches. First, they allow to improve the performance of local algorithms such as k-nearest neighbors, but metric learning for global algorithms (such as linear classifiers) has not really been studied so far. Second, and perhaps more importantly, the question of the generalization ability of metric learning methods has been largely ignored.In this thesis, we propose theoretical and algorithmic contributions that address these limitations. Our first contribution is the derivation of a new kernel function built from learned edit probabilities. Unlike other string kernels, it is guaranteed to be valid and parameter-free. Our second contribution is a novel framework for learning string and tree edit similarities inspired by the recent theory of (epsilon,gamma,tau)-good similarity functions and formulated as a convex optimization problem. Using uniform stability arguments, we establish theoretical guarantees for the learned similarity that give a bound on the generalization error of a linear classifier built from that similarity. In our third contribution, we extend the same ideas to metric learning from feature vectors by proposing a bilinear similarity learning method that efficiently optimizes the (epsilon,gamma,tau)-goodness. The similarity is learned based on global constraints that are more appropriate to linear classification. Generalization guarantees are derived for our approach, highlighting that our method minimizes a tighter bound on the generalization error of the classifier. Our last contribution is a framework for establishing generalization bounds for a large class of existing metric learning algorithms. It is based on a simple adaptation of the notion of algorithmic robustness and allows the derivation of bounds for various loss functions and regularizers. Metric learning Statistical learning Convex optimization Classification Structured data Edit distance Generalization bounds
115	Learning based event model for knowledge extraction and prediction system in the context of Smart City / Un modèle de gestion d'évènements basé sur l'apprentissage pour un système d'extraction et de prédiction dans le contexte de Ville Intelligente Kotevska, Olivera 30 January 2018 (has links) Des milliards de «choses» connectées à l’internet constituent les réseaux symbiotiques de périphériques de communication (par exemple, les téléphones, les tablettes, les ordinateurs portables), les appareils intelligents, les objets (par exemple, la maison intelligente, le réfrigérateur, etc.) et des réseaux de personnes comme les réseaux sociaux. La notion de réseaux traditionnels se développe et, à l'avenir, elle ira au-delà, y compris plus d'entités et d'informations. Ces réseaux et ces dispositifs détectent, surveillent et génèrent constamment une grande uantité de données sur tous les aspects de la vie humaine. L'un des principaux défis dans ce domaine est que le réseau se compose de «choses» qui sont hétérogènes à bien des égards, les deux autres, c'est qu'ils changent au fil du temps, et il y a tellement d'entités dans le réseau qui sont essentielles pour identifier le lien entre eux.Dans cette recherche, nous abordons ces problèmes en combinant la théorie et les algorithmes du traitement des événements avec les domaines d'apprentissage par machine. Notre objectif est de proposer une solution possible pour mieux utiliser les informations générées par ces réseaux. Cela aidera à créer des systèmes qui détectent et répondent rapidement aux situations qui se produisent dans la vie urbaine afin qu'une décision intelligente puisse être prise pour les citoyens, les organisations, les entreprises et les administrations municipales. Les médias sociaux sont considérés comme une source d'information sur les situations et les faits liés aux utilisateurs et à leur environnement social. Au début, nous abordons le problème de l'identification de l'opinion publique pour une période donnée (année, mois) afin de mieux comprendre la dynamique de la ville. Pour résoudre ce problème, nous avons proposé un nouvel algorithme pour analyser des données textuelles complexes et bruyantes telles que Twitter-messages-tweets. Cet algorithme permet de catégoriser automatiquement et d'identifier la similarité entre les sujets d'événement en utilisant les techniques de regroupement. Le deuxième défi est de combiner les données du réseau avec diverses propriétés et caractéristiques en format commun qui faciliteront le partage des données entre les services. Pour le résoudre, nous avons créé un modèle d'événement commun qui réduit la complexité de la représentation tout en conservant la quantité maximale d'informations. Ce modèle comporte deux ajouts majeurs : la sémantiques et l’évolutivité. La partie sémantique signifie que notre modèle est souligné avec une ontologie de niveau supérieur qui ajoute des capacités d'interopérabilité. Bien que la partie d'évolutivité signifie que la structure du modèle proposé est flexible, ce qui ajoute des fonctionnalités d'extensibilité. Nous avons validé ce modèle en utilisant des modèles d'événements complexes et des techniques d'analyse prédictive. Pour faire face à l'environnement dynamique et aux changements inattendus, nous avons créé un modèle de réseau dynamique et résilient. Il choisit toujours le modèle optimal pour les analyses et s'adapte automatiquement aux modifications en sélectionnant le meilleur modèle. Nous avons utilisé une approche qualitative et quantitative pour une sélection évolutive de flux d'événements, qui réduit la solution pour l'analyse des liens, l’optimale et l’alternative du meilleur modèle. / Billions of “things” connected to the Internet constitute the symbiotic networks of communication devices (e.g., phones, tablets, and laptops), smart appliances (e.g., fridge, coffee maker and so forth) and networks of people (e.g., social networks). So, the concept of traditional networks (e.g., computer networks) is expanding and in future will go beyond it, including more entities and information. These networks and devices are constantly sensing, monitoring and generating a vast amount of data on all aspects of human life. One of the main challenges in this area is that the network consists of “things” which are heterogeneous in many ways, the other is that their state of the interconnected objects is changing over time, and there are so many entities in the network which is crucial to identify their interdependency in order to better monitor and predict the network behavior. In this research, we address these problems by combining the theory and algorithms of event processing with machine learning domains. Our goal is to propose a possible solution to better use the information generated by these networks. It will help to create systems that detect and respond promptly to situations occurring in urban life so that smart decision can be made for citizens, organizations, companies and city administrations. Social media is treated as a source of information about situations and facts related to the users and their social environment. At first, we tackle the problem of identifying the public opinion for a given period (year, month) to get a better understanding of city dynamics. To solve this problem, we proposed a new algorithm to analyze complex and noisy textual data such as Twitter messages-tweets. This algorithm permits an automatic categorization and similarity identification between event topics by using clustering techniques. The second challenge is combing network data with various properties and characteristics in common format that will facilitate data sharing among services. To solve it we created common event model that reduces the representation complexity while keeping the maximum amount of information. This model has two major additions: semantic and scalability. The semantic part means that our model is underlined with an upper-level ontology that adds interoperability capabilities. While the scalability part means that the structure of the proposed model is flexible in adding new entries and features. We validated this model by using complex event patterns and predictive analytics techniques. To deal with the dynamic environment and unexpected changes we created dynamic, resilient network model. It always chooses the optimal model for analytics and automatically adapts to the changes by selecting the next best model. We used qualitative and quantitative approach for scalable event stream selection, that narrows down the solution for link analysis, optimal and alternative best model. It also identifies efficient relationship analysis between data streams such as correlation, causality, similarity to identify relevant data sources that can act as an alternative data source or complement the analytics process. Ville intelligente Apprentissage automatique Intelligence artificielle Apprentissage statistique Médias sociaux Récupération de l'information Smart City Machine Learing Artificial Intelligence Statistical learning Social Media Information Retrieval 004
116	Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations / Application of Principal Component Analysis to study biological adaptation in population genomics Luu, Keurcien 21 December 2017 (has links) L'identification de gènes ayant permis à des populations de s'adapter à leur environnement local constitue une des problématiques majeures du domaine de la génétique des populations. Les méthodes statistiques actuelles répondant à cette problématique ne sont plus adaptées aux données de séquençage nouvelle génération (NGS). Nous proposons dans cette thèse de nouvelles statistiques adaptées à ces nouveaux volumes de données, destinées à la détection de gènes sous sélection. Nos méthodes reposent exclusivement sur l'Analyse en Composantes Principales, dont nous justifierons l'utilisation en génétique des populations. Nous expliquerons également les raisons pour lesquelles nos approches généralisent les méthodes statistiques existantes et démontrons l'intérêt d'utiliser une approche basée sur l'Analyse en Composantes Principales en comparant nos méthodes à celles de l'état de l'art. Notre travail a notamment abouti au développement de pcadapt, une librairie R permettant l'utilisation de nos statistiques de détection sur des données génétiques variées. / Identifying genes involved in local adaptation is of major interest in population genetics. Current statistical methods for genome scans are no longer suited to the analysis of Next Generation Sequencing (NGS) data. We propose new statistical methods to perform genome scans on massive datasets. Our methods rely exclusively on Principal Component Analysis which use in population genetics will be discussed extensively. We also explain the reasons why our approaches can be seen as extensions of existing methods and demonstrate how our PCA-based statistics compare with state-of-the-art methods. Our work has led to the development of pcadapt, an R package designed for outlier detection for various genetic data. Génétique des populations Machine Learning Apprentissage statistique Séquençage nouvelle génération Bio-Informatique Population Genetics Machine Learning Statistical Learning Next-Generation Sequencing Bioinformatics 004 570 510
117	Camera-Based Friction Estimation with Deep Convolutional Neural Networks Jonnarth, Arvi January 2018 (has links) During recent years, great progress has been made within the field of deep learning, and more specifically, within neural networks. Deep convolutional neural networks (CNN) have been especially successful within image processing in tasks such as image classification and object detection. Car manufacturers, amongst other actors, are starting to realize the potential of deep learning and have begun applying it to autonomous driving. This is not a simple task, and many challenges still lie ahead. A sub-problem, that needs to be solved, is a way of automatically determining the road conditions, including the friction. Since many modern cars are equipped with cameras these days, it is only natural to approach this problem with CNNs. This is what has been done in this thesis. First, a data set is gathered which consists of 37,000 labeled road images that are taken through the front window of a car. Second, CNNs are trained on this data set to classify the friction of a given road. Gathering road images and labeling them with the correct friction is a time consuming and difficult process, and requires human supervision. For this reason, experiments are made on a second data set, which consist of 54,000 simulated images. These images are captured from the racing game World Rally Championship 7 and are used in addition to the real images, to investigate what can be gained from this. Experiments conducted during this thesis show that CNNs are a good approach for the problem of estimating the road friction. The limiting factor, however, is the data set. Not only does the data set need to be much bigger, but it also has to include a much wider variety of driving conditions. Friction is a complex property and depends on many variables, and CNNs are only effective on the type of data that they have been trained on. For these reasons, new data has to be gather by actively seeking different driving conditions in order for this approach to be deployable in practice. / Under de senaste åren har det gjorts stora framsteg inom maskininlärning, särskilt gällande neurala nätverk. Djupa neurala närverk med faltningslager, eller faltningsnätverk (eng. convolutional neural network) har framför allt varit framgångsrika inom bildbehandling i problem så som bildklassificering och objektdetektering. Biltillverkare, bland andra aktörer, har nu börjat att inse potentialen av maskininlärning och påbörjat dess tillämpning inom autonom körning. Detta är ingen enkel uppgift och många utmaningar finns fortfarande framöver. Ett delproblem som måste lösas är ett sätt att automatiskt avgöra väglaget, där friktionen ingår. Eftersom många nya bilar är utrustade med kameror är det naturligt att försöka tackla detta problem med faltningsnätverk, vilket är varför detta har gjorts under detta examensarbete. Först samlar vi in en datamängd beståendes av 37 000 bilder tagna på vägar genom framrutan av en bil. Dessa bilder kategoriseras efter friktionen på vägen. Sedan tränar vi faltningsnätverk på denna datamängd för att klassificera friktionen. Att samla in vägbilder och att kategorisera dessa är en tidskrävande och svår process och kräver mänsklig övervakning. Av denna anledning utförs experiment på en andra datamängd beståendes av 54 000 simulerade bilder. Dessa har blivit insamlade genom spelet World Rally Championship 7 där syftet är att undersöka om prestandan på nätverken kan ökas genom simulerat data och därmed minska kravet på storleken av den riktiga datamängden. De experiment som har utförts under examensarbetet visar på att faltningsnätverk är ett bra tillvägagångssätt för att skatta vägfriktionen. Den begränsande faktorn i det här fallet är datamängden. Datamängden behöver inte bara vara större, men den måste framför allt täcka in ett bredare urval av väglag och väderförhållanden. Friktion är en komplex egenskap och beror på många variabler, och faltningsnätverk är endast effektiva på den typen av data som de har tränats på. Av dessa anledningar behöver ny data samlas in genom att aktivt söka efter nya körförhållanden om detta tillvägagångssätt ska vara tillämpbart i praktiken. Machine Learning Deep Learning Statistical Learning Friction Estimation Computer Vision Neural Networks Convolutional Neural Networks Digital Image Processing Computer and Information Sciences Data- och informationsvetenskap
118	Impact de l'expertise linguistique sur le traitement statistique de la parole / Impact of linguistic expertise on the statistical processing of speech Franco, Ana 19 October 2012 (has links) L'objectif de ce travail de thèse était de déterminer si l’expertise linguistique peut moduler les capacités d’apprentissage, et plus spécifiquement les capacités d’apprentissage statistique. Il a été démontré que l'utilisation régulière de deux langues par les personnes bilingues a un impact sur les capacités langagières mais également sur le fonctionnement cognitif de manière plus générale. Cependant, on ne sait que très peu concernant les effets du bilinguisme sur les capacités d'apprentissage. L’acquisition du langage repose en partie sur le traitement des régularités statistiques de la parole. Etant spécifiques à chaque langue, cette information doit être traitée en partant de zéro lors de l’apprentissage d’une nouvelle langue. Les personnes bilingues ont donc traité au moins deux fois plus d'information statistique que les personnes ne maîtrisant qu'une langue. Est-ce que le bilinguisme et l’expérience accrue de traitement statistique de la parole peuvent conférer un avantage en termes de capacités d’apprentissage de régularités ?Nous avons analysé cette question à trois niveaux: la disponibilité des connaissances acquises à la conscience, le décours temporel du traitement statistique et la nature des représentations formées lors de l'apprentissage statistique. Explorer comment l'expertise linguistique module l'apprentissage statistique contribuera à une meilleure compréhension des conséquences cognitives du bilinguisme, mais pourrait également fournir des indices concernant le lien entre l'apprentissage statistique et le langage.<p>Dans un premier temps, la question de la disponibilité des connaissances acquises à la conscience a été traitée (Etude 1 et 2). L'étude 1 présente une adaptation d’une méthode largement utilisée dans le domaine de l’apprentissage implicite pour rendre compte du caractère conscient ou inconscient des connaissances acquises lors d’un apprentissage, la procédure de dissociation des processus (Jacoby, 1991). Nous avons adapté cette méthode à une situation de traitement des probabilités transitionnelles entre des syllabes afin de déterminer si les représentations acquises suite à l’exposition à un langage artificiel sont disponibles à la conscience. Nous nous sommes ensuite intéressés à la question de savoir comment le caractère conscient des connaissances acquises peut être modulé par l’expertise linguistique. Les résultats suggèrent que bien que les sujets apprennent de manière semblable, les connaissances acquises semblent être moins disponibles à la conscience chez les sujets bilingues.<p>Dans un deuxième temps nous nous sommes intéressés au décours temporel de l’apprentissage statistique (Etude 3 et 4). L'étude 3 présente une adaptation de la Click location task (Fodor & Bever, 1965) comme mesure online du traitement des probabilités transitionnelles lors de la segmentation de la parole. Nous nous sommes ensuite intéressés à comment le traitement des régularités du langage pouvait être modulé par l’expertise linguistique (Etude 4) et les résultats suggèrent que les deux groupes ne diffèrent pas en termes de décours temporel du traitement statistique.<p>Dans un troisième temps, nous avons posé la question de ce qui est appris dans une situation d’apprentissage statistique. Est-ce que le produit de cet apprentissage correspond à des fragments d’information, des « candidats mots » ?Ou est-ce que, au contraire, l’apprentissage résulte en une sensibilité aux probabilités de transition entre les éléments ?L’Etude 5 propose une méthode pour déterminer la nature des représentations formées lors de l’apprentissage statistique. Le but de cette étude était d’opposer deux modèles d’apprentissage de régularités statistiques afin de déterminer lequel rend mieux compte des résultats observés lors d’une situation d’apprentissage statistique. Dans l’étude 6, nous nous sommes intéressés à l’influence de l’expertise linguistique sur la nature des représentations formées. Les résultats suggèrent que les sujets bilingues forment des représentations plus fidèles à la réalité du matériel, comparé aux monolingues.<p>Enfin l'étude 7 avait pour but d'explorer une situation d'apprentissage statistique plus complexe, à savoir l'apprentissage d'une grammaire artificielle. La comparaison entre des sujets monolingues et bilingues suggère que les sujets ne diffèrent pas en termes de décours temporel de l'apprentissage. Par contre, les sujets bilingues semblent former de meilleures représentations du matériel présenté et posséder des connaissances non disponibles à la conscience, alors que les monolingues se basent sur des connaissances conscientes pour effectuer la tâche.<p>Ainsi, les études présentées dans ce travail suggèrent que l'expertise linguistique ne module pas la vitesse de traitement de l'information statistique. Par contre, dans certaines situations, le fait d'être bilingue pourrait constituer un avantage en termes d'acquisition de connaissances sur base d'un traitement statistique et aurait également un impact sur la disponibilité des connaissances à la conscience. / The aim of this thesis was to determine whether linguistic expertise can modulate learning abilities, and more specifically statistical learning abilities. The regular use of two languages by bilingual individuals has been shown to have a broad impact on language and cognitive functioning. However, little is known about the effect of bilingualism on learning abilities. Language acquisition is a complex process that depends substantially on the processing of statistical regularities contained in speech. Because statistical information is language-specific, this information must be learned from scratch when one learns a new language. Unlike monolinguals, individuals who know more than one language, such as bilinguals or multilinguals, therefore face the challenge of having to master more than one set of statistical contingencies. Does bilingualism and increased experience with statistical processing of speech confer an advantage in terms of learning abilities? In this thesis, we address these questions at three different levels. We compared monolinguals and bilinguals in terms of (1) the nature of the representations formed during learning, (2) the time course of statistical processing, and (3) the availability of statistical knowledge to consciousness. Exploring how linguistic expertise modulates statistical learning will contribute to a better understanding of the cognitive consequences of bilingualism, but could also provide clues regarding the link between statistical learning and language.<p>First, the present work aimed to determine whether knowledge acquired based on statistical regularities is amenable to conscious control (Study 1 and 2). Study 1 presents an adaptation of the Process Dissociation Procedure (PDP, Jacoby, 1991), a widely used method in the field of implicit learning to account for the conscious nature of knowledge acquired during a learning situation. We adapted this method to a statistical learning paradigm in which participants had to extract artificial words from a continuous speech stream. In Study 2, we used the PDP to explore the extent to which conscious access to the acquired knowledge is modulated by linguistic expertise. Our results suggest that although monolinguals and bilinguals learned the words similarly, knowledge seems to be less available to consciousness for bilingual participants.<p>Second, in Studies 3 & 4, we investigated the time course of statistical learning. Study 3 introduces a novel online measure of transitional probabilities processing during speech segmentation, — an adaptation of the Click Localizaton Task (Fodor & Bever, 1965) as. In Study 4, explored whether processing of statistical regularities of speech could be modulated by linguistic expertise. The results suggest that the two groups did not differ in terms of time course of statistical processing.<p>Third, we aimed at exploring what is learned in a statistical learning situation. Two different kinds of mechanisms may account for performance. Participants may either parse the material into smaller chunks that correspond to the words of the artificial language, or they may become progressively sensitive to the actual values of the transitional probabilities between syllables. Study 5 proposes a method to determine the nature of the representations formed during learning. The purpose of this study was to compare two models of statistical learning (PARSER vs. SRN) in order to determine which better reflects the representations formed as a result of statistical learning. In study 6, we investigated the influence of linguistic expertise on the nature of the representations formed. The results suggests that bilinguals tend to form representations of the learned sequences that are more faithful to the reality of the material, compared to monolinguals.<p>Finally, Study 7 investigates how linguistic expertise influences a more complex statistical learning situation, namely artificial grammar learning. Comparison between monolingual and bilingual subjects suggests that subjects did not differ in terms of the time course of learning. However, bilinguals outperformed monolinguals in learning the grammar and seem to possess both conscious and unconscious knowledge, whereas monolinguals’ performance was only based on conscious knowledge.<p>To sum up, the studies presented in the present work suggest that linguistic expertise does not modulate the speed of processing of statistical information. However, bilinguals seem have make better use of the learned regularities and outperformed monolinguals in some specific situations. Moreover, linguistic expertise also seems to have an impact on the availability of knowledge to consciousness. / Doctorat en Sciences Psychologiques et de l'éducation / info:eu-repo/semantics/nonPublished Psychologie Speech Bilingualism -- Psychological aspects Parole Bilinguisme -- Aspect psychologique Bilinguisme/Bilingualism Conscience/Consciousness Plurilinguisme/Plurilingualism
119	Modèles probabilistes de consommateurs en ligne : personnalisation et recommandation / Online consumers probabilistic modeling : personnalisation and recommandation Rochd, El Mehdi 03 December 2015 (has links) Les systèmes de recherche ont facilité l’accès à l’information disponible sur le web à l’aide de mécanismes de collecte, d’indexation et de stockage de contenus hétérogènes.Ils génèrent des traces résultant de l’activité des internautes. Il s’agit ensuite d’analyser ces données à l’aide d’outils de data mining afin d’améliorer la qualité de réponse de ces systèmes ou de la personnaliser en fonction des profils des utilisateurs. Certains acteurs, comme la société Marketshot, se positionnent comme intermédiaires entre les consommateurs et les professionnels. Ils mettent en relation les acheteurs potentiels avec les grandes marques et leurs réseaux de distribution à travers leurs sites Internet d’aide à l’achat. Pour cela, ces intermédiaires ont développé des portails efficaces et stockent de gros volumes de données liées à l’activité des internautes sur leurs sites. Ces gisements de données sont exploités pour répondre favorablement aux besoins des internautes, ainsi qu’à ceux des professionnels qui cherchent à comprendre le comportement de leurs clients et anticiper leurs actes d’achats. C’est dans ce contexte, où on cherche à fouiller les données collectées du web, que se placent mes travaux de recherche. L’idée est de construire des modèles qui permettent d’expliciter une corrélation entre les activités des internautes sur les sites d’aide à l’achat et les tendances de ventes de produits dans la « vraie vie ». En effet, ma thèse se place dans le cadre de l’apprentissage probabiliste et plus particulièrement des modèles graphiques « Topic Models ». Elle consiste à modéliser les comportements des internautes à partir des données d’usages de sites web. / Research systems have facilitated access to information available on the web using mechanisms for collecting, indexing and storage of heterogeneous content. They generate data resulting from the activity of users on Internet (queries, logfile). The next step is to analyze the data using data mining tools in order to improve the response’s quality of these systems, or to customize the response based on users’ profiles. Some actors, such as the company Marketshot, are positioned as intermediaries between consumers and professionals. Indeed, they link potential buyers with the leading brands and distribution networks through their websites. For such purposes, these intermediaries have developed effective portals, and have stored large volumes of data related to the activity of users on their websites. These data repositories are exploited to respond positively to the needs of users as well as those of professionals who seek to understand the behavior of their customers and anticipate their purchasing actions. My thesis comes within the framework of searching through the data collected from the web. The idea is to build models that explain the correlation between the activities of users on websites of aid for the purchase, and sales trends of products in « real life ». In fact, my research concerns probabilistic learning, in particular Topic Models. It involves modeling the users’ behavior from uses of trader websites. Apprentissage statistique Modèles graphiques Modélisation du comportement Anticipation d'achat Prédiction de comportement Statistical learning Graphical models Behavior modeling Advance purchase Behavior prediction 004
120	Learning representations for robust audio-visual scene analysis / Apprentissage de représentations pour l'analyse robuste de scènes audiovisuelles Parekh, Sanjeel 18 March 2019 (has links) L'objectif de cette thèse est de concevoir des algorithmes qui permettent la détection robuste d’objets et d’événements dans des vidéos en s’appuyant sur une analyse conjointe de données audio et visuelle. Ceci est inspiré par la capacité remarquable des humains à intégrer les caractéristiques auditives et visuelles pour améliorer leur compréhension de scénarios bruités. À cette fin, nous nous appuyons sur deux types d'associations naturelles entre les modalités d'enregistrements audiovisuels (réalisés à l'aide d'un seul microphone et d'une seule caméra), à savoir la corrélation mouvement/audio et la co-occurrence apparence/audio. Dans le premier cas, nous utilisons la séparation de sources audio comme application principale et proposons deux nouvelles méthodes dans le cadre classique de la factorisation par matrices non négatives (NMF). L'idée centrale est d'utiliser la corrélation temporelle entre l'audio et le mouvement pour les objets / actions où le mouvement produisant le son est visible. La première méthode proposée met l'accent sur le couplage flexible entre les représentations audio et de mouvement capturant les variations temporelles, tandis que la seconde repose sur la régression intermodale. Nous avons séparé plusieurs mélanges complexes d'instruments à cordes en leurs sources constituantes en utilisant ces approches.Pour identifier et extraire de nombreux objets couramment rencontrés, nous exploitons la co-occurrence apparence/audio dans de grands ensembles de données. Ce mécanisme d'association complémentaire est particulièrement utile pour les objets où les corrélations basées sur le mouvement ne sont ni visibles ni disponibles. Le problème est traité dans un contexte faiblement supervisé dans lequel nous proposons un framework d’apprentissage de représentation pour la classification robuste des événements audiovisuels, la localisation des objets visuels, la détection des événements audio et la séparation de sources.Nous avons testé de manière approfondie les idées proposées sur des ensembles de données publics. Ces expériences permettent de faire un lien avec des phénomènes intuitifs et multimodaux que les humains utilisent dans leur processus de compréhension de scènes audiovisuelles. / The goal of this thesis is to design algorithms that enable robust detection of objectsand events in videos through joint audio-visual analysis. This is motivated by humans’remarkable ability to meaningfully integrate auditory and visual characteristics forperception in noisy scenarios. To this end, we identify two kinds of natural associationsbetween the modalities in recordings made using a single microphone and camera,namely motion-audio correlation and appearance-audio co-occurrence.For the former, we use audio source separation as the primary application andpropose two novel methods within the popular non-negative matrix factorizationframework. The central idea is to utilize the temporal correlation between audio andmotion for objects/actions where the sound-producing motion is visible. The firstproposed method focuses on soft coupling between audio and motion representationscapturing temporal variations, while the second is based on cross-modal regression.We segregate several challenging audio mixtures of string instruments into theirconstituent sources using these approaches.To identify and extract many commonly encountered objects, we leverageappearance–audio co-occurrence in large datasets. This complementary associationmechanism is particularly useful for objects where motion-based correlations are notvisible or available. The problem is dealt with in a weakly-supervised setting whereinwe design a representation learning framework for robust AV event classification,visual object localization, audio event detection and source separation.We extensively test the proposed ideas on publicly available datasets. The experimentsdemonstrate several intuitive multimodal phenomena that humans utilize on aregular basis for robust scene understanding. Apprentissage statistique Traitement du signal audio Vision par ordinateur Analyse en variables latentes Séparation de sources Statistical learning Audio signal processing Computer vision Latent variable analysis Source separation

Search results