• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 91
  • 23
  • 10
  • 4
  • 2
  • 2
  • 2
  • 1
  • Tagged with
  • 148
  • 148
  • 40
  • 38
  • 35
  • 32
  • 22
  • 19
  • 19
  • 18
  • 18
  • 17
  • 17
  • 14
  • 14
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
81

Apprentissage statistique pour l'évaluation et le contrôle non destructifs : application à l'estimation de la durée de vie restante des matériaux par émission acoustique sous fluage / Statistical learning for evaluation and non-destructive testing : application in estimating the remaining lifetime of materials by acoustic emission under creep test

Darwiche, Mohamad 04 June 2013 (has links)
Les matériaux composites se caractérisent par une forte dispersion de leur durée de vie qui peut s'étendre de quelques minutes à plusieurs semaines lors d'un test de fluage. Lors d'un essai en fluage de ces matériaux nous distinguons trois phases de temps caractérisées chacune par une activité acoustique propre. Dans la première phase, le taux d'apparition des signaux d'EA est important, puis le taux diminue et atteint une valeur constante relativement faible durant la seconde phase, ensuite ce taux d'apparition s'accélère annonçant la troisième phase qui se termine par la rupture. Les caractéristiques des signaux d'émission acoustique (EA) émis dans la phase précédant la rupture sont différentes de celles des autres phases. Le premier volet de cette étude consiste à utiliser des méthodes d'apprentissage relevant de l'intelligence artificielle (réseaux de neurones, machines à vecteurs de support et classifieurs bayésiens) afin de prédire si les signaux recueillis à partir d'un matériau sous test se trouve dans la phase de pré-rupture ou non. Ce sont des méthodes qui, appliquées à l'émission acoustique, permettent d'identifier parmi un grand nombre de signaux, caractérisés par des paramètres principaux, des classes de signaux ayant des paramètres voisins et donc provenant probablement de la même phase. Ces méthodes se sont avérées très performantes en classification, nous atteignons avec les SVM une sensibilité de 82 % et une spécificité de 84% pour les résultats en validation croisée, et une sensibilité de 90 % et une spécificité de 94 % pour les résultats en test, avec un temps de calcul acceptable.Le deuxième volet de l'étude effectué dans le cadre de cette thèse concerne l'estimation de la durée de vie restante des les matériaux composites. La normalisation des courbes cumulées des signaux d'émission acoustique en fonction du temps prouve que les réponses en fluage des éprouvettes mises en test sont parfaitement ressemblantes. Un modèle a été établi pour caractériser le comportement de ce matériau lors de ce test. Deux approches sont utilisées pour déterminer le temps de rupture. Par rapport à la littérature, la première approche proposée améliore la détection des temps de transition des différentes phases. Cette approche fournit également une meilleure corrélation avec le temps de rupture. La deuxième approche est fondée sur la corrélation du temps de rupture avec le temps de référence correspondant à la diminution de la vitesse d'un certain pourcentage. Les résultats de cette dernière approche sont très intéressants : l'estimation du temps de rupture pour une éprouvette ayant une durée de vie de 1 heure peut être possible dès les 15 premières secondes, avec une erreur de l'ordre de 4 %. / The composite materials are characterized by a high dispersion of their lifetime, which may extend from several minutes to several weeks in a creep test. When tested in creep of these materials we distinguish three phases, each characterized by its own acoustic activity. In the first phase, the occurrence rate of the AE signals is important, and then the rate drops to a relatively low constant value during the second phase, then this occurrence rate accelerate announcing the third phase which ends by a rupture. The characteristics of the acoustic emission (AE) signals in the phase preceding the rupture are different from those of other phases.The first part of this study is to use learning methods from artificial intelligence (neural networks, support vector machines and Bayesian classifier) to predict if the signals collected from the material under test in the pre-rupture or not. These are methods which, when applied to acoustic emission, identify among a large number of signals, characterized by key parameters, classes of signals having similar parameters and thus probably from the same phase. These methods have proved highly effective in classification; we reach the SVM with a sensitivity of 82 % and a specificity of 84 % for cross-validation results, and a sensitivity of 90 % and a specificity of 94 % for test results, with an acceptable calculation time.The second part of the study in the framework of this thesis concerns the estimation of the remaining life of composites. Standardization of signals accumulated acoustic emission curves as a function proves that the responses of the creep test pieces are set perfectly similar. A model was developed to characterize the behavior of this material during this test. Two approaches are used to determine the time of rupture. Compared to the literature, the first proposed approach improves the detection time of transition phases. This approach also provides a better correlation with the rupture time. The second approach is based on the correlation of rupture time with the reference time corresponding to the decrease of the speed by a percentage. The results of this latter approach is very interesting : the estimation of the rupture time for a test piece having a life of one hour may be possible from the first 15 seconds, with an error of about 4 %.
82

Bootstrap and uniform bounds for Harris Markov chains / Bootstrap et bornes uniformes pour des chaînes de Markov Harris récurrentes

Ciolek, Gabriela 14 December 2018 (has links)
Cette thèse se concentre sur certaines extensions de la théorie des processus empiriques lorsque les données sont Markoviennes. Plus spécifiquement, nous nous concentrons sur plusieurs développements de la théorie du bootstrap, de la robustesse et de l’apprentissage statistique dans un cadre Markovien Harris récurrent positif. Notre approche repose sur la méthode de régénération qui s’appuie sur la décomposition d’une trajectoire de la chaîne de Markov atomique régénérative en blocs d’observations indépendantes et identiquement distribuées (i.i.d.). Les blocs de régénération correspondent à des segments de la trajectoire entre des instants aléatoires de visites dans un ensemble bien choisi (l’atome) formant une séquence de renouvellement. Dans la premiére partie de la thèse nous proposons un théorème fonctionnel de la limite centrale de type bootstrap pour des chaînes de Markov Harris récurrentes, d’abord dans le cas de classes de fonctions uniformément bornées puis dans un cadre non borné. Ensuite, nous utilisons les résultats susmentionnés pour obtenir unthéorème de la limite centrale pour des fonctionnelles Fréchet différentiables dans un cadre Markovien. Motivés par diverses applications, nous discutons la manière d’étendre certains concepts de robustesse à partir du cadre i.i.d. à un cas Markovien. En particulier, nous considérons le cas où les données sont des processus Markoviens déterministes par morceaux. Puis, nous proposons des procédures d’échantillonnage résiduel et wild bootstrap pour les processus périodiquement autorégressifs et établissons leur validité. Dans la deuxième partie de la thèse, nous établissons des versions maximales d’inégalités de concentration de type Bernstein, Hoeffding et des inégalités de moments polynomiales en fonction des nombres de couverture et des moments des temps de retour et des blocs. Enfin, nous utilisons ces inégalités sur les queues de distributions pour calculer des bornes de généralisation pour une estimation d’ensemble de volumes minimum pour les chaînes de Markov régénératives. / This thesis concentrates on some extensions of empirical processes theory when the data are Markovian. More specifically, we focus on some developments of bootstrap, robustness and statistical learning theory in a Harris recurrent framework. Our approach relies on the regenerative methods that boil down to division of sample paths of the regenerative Markov chain under study into independent and identically distributed (i.i.d.) blocks of observations. These regeneration blocks correspond to path segments between random times of visits to a well-chosen set (the atom) forming a renewal sequence. In the first part of the thesis we derive uniform bootstrap central limit theorems for Harris recurrent Markov chains over uniformly bounded classes of functions. We show that the result can be generalized also to the unbounded case. We use the aforementioned results to obtain uniform bootstrap central limit theorems for Fr´echet differentiable functionals of Harris Markov chains. Propelledby vast applications, we discuss how to extend some concepts of robustness from the i.i.d. framework to a Markovian setting. In particular, we consider the case when the data are Piecewise-determinic Markov processes. Next, we propose the residual and wild bootstrap procedures for periodically autoregressive processes and show their consistency. In the second part of the thesis we establish maximal versions of Bernstein, Hoeffding and polynomial tail type concentration inequalities. We obtain the inequalities as a function of covering numbers and moments of time returns and blocks. Finally, we use those tail inequalities toderive generalization bounds for minimum volume set estimation for regenerative Markov chains.
83

Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo / Statistical learning for large longitudinal data and applications to video game design

Allart, Thibault 28 November 2017 (has links)
Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs. / This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations.
84

Spoken Dialogue System for Information Navigation based on Statistical Learning of Semantic and Dialogue Structure / 意味・対話構造の統計的学習に基づく情報案内のための音声対話システム

Yoshino, Koichiro 24 September 2014 (has links)
京都大学 / 0048 / 新制・課程博士 / 博士(情報学) / 甲第18614号 / 情博第538号 / 新制||情||95(附属図書館) / 31514 / 京都大学大学院情報学研究科知能情報学専攻 / (主査)教授 河原 達也, 教授 黒橋 禎夫, 教授 鹿島 久嗣 / 学位規則第4条第1項該当 / Doctor of Informatics / Kyoto University / DFAM
85

Adaptive Measurement Strategies for Network Optimization and Control / Adaptiva Mätstrategier för Optimering och Reglering av Nätverk

Lindståhl, Simon January 2023 (has links)
The fifth generation networks is rapidly becoming the new network standardand its new technological capabilities are expected to enable a far widervariety of services compared to the fourth generation networks. To ensurethat these services can co-exist and meet their standardized requirements,the network’s resources must be provisioned, managed and reconfigured ina far more complex manner than before. As such, it is no longer sufficientto select a simple, static scheme for gathering the necessary information totake decisions. Instead, it is necessary to adaptively, with regards to networksystem dynamics, trade-off the cost in terms of power, CPU and bandwidthconsumption of the taken measurements to the value their information brings.Orchestration is a wide field, and the way to quantify the value of a givenmeasurement heavily depends on the problem studied. As such, this thesisaddresses adaptive measurement schemes for a number of well-defined networkoptimization problems. The thesis is presented as a compilation, whereafter an introduction detailing the background, purpose, problem formulation,methodology and contributions of our work, we present each problemseparately through the papers submitted to several conferences. First, we study the problem of optimal spectrum access for low priorityservices. We assume that the network manager has limited opportunitiesto measure the spectrum before assigning one (if any) resource block to thesecondary service for transmission, and this measurement has a known costattached to it. We study this framework through the lens of multi-armedbandits with multiple arm pulls per decision, a framework we call predictivebandits. We analyze such bandits and show a problem specific lower bound ontheir regret, as well as design an algorithm which meets this regret asymptotically,studying both the case where measurements are perfect and the casewhere the measurement has noise of known quantity. Studying a syntheticsimulated problem, we find that it performs considerably better compared toa simple benchmark strategy. Secondly, we study a variation of admission control where the controllermust select one of multiple slices to enter a new service into. The agentdoes not know the resources available in the slices initially, and must insteadmeasure these, subject to noise. Mimicking three commonly used admissioncontrol strategies, we study this as a best arm identification problem, whereone or multiple arms is ”correct” (the arm chose by the strategy if it had fullinformation). Through this framework, we analyze each strategy and devisesample complexity lower bounds, as well as algorithms that meet these lowerbounds. In simulations with synthetic data, we show that our measurementalgorithm can vastly reduce the number of required measurements comparedto uniform sampling strategies. Finally, we study a network monitoring system where the controller mustdetect sudden changes in system behavior such as batch traffic arrivals orhandovers, in order to take future action. We study this through the lensof change point detection but argue that the classical framework is insufficientfor capturing both physical time aspects such as delay as well as measurementcosts independently, and present an alternative framework whichiidecouples these, requiring more sophisticated monitoring agents. We show,both through theory and through simulation with both synthetic data anddata from a 5G testbed, that such adaptive schedules qualitatively and quantitativelyimprove upon classical change point detection schemes in terms ofmeasurment frequency, without losing classical optimality guarantees such asthe one on required measurements post change. / Femte generationens nätverk håller snabbt på att bli den nya standarden och dess teknologiska förmågor förväntas bereda väg för en avsevärt större variation av tjänster jämfört med fjärde generationens nätverk. För att se till att dessa tjänster kan samexistera och möta sina standardiserade krav måste nätverkens resurser provisioneras, hanteras och omkonfigureras på ett mycket mer komplext vis än tidigare. Det är därmed inte längre tillräckligt att välja en simpel, statisk plan för att samla den nödvändiga information som krävs för att ta beslut. Istället behöver man adaptivt, med hänsyn till nätversystemens dynamik, avväga mätningarnas kostnad i termer av effekt-, CPU- och bandbreddskonsumtion mot det värde som de medför. Den här sortens nätverksorkestrering är ett brett fält, och hur mätningarnas värde ska kvantifieras beror i hög grad på vilket optimeringsproblem som studeras. Således bemöter den här avhandlningen adaptiva mätplaner för ett antal väldefinerade optimeringsproblem. Avhandlingen tar formen av en sammanlänkning, där följandes en introduktion som beskriver bakgrund, syfte, problemformulering, metodologi och forskningsbidrag så presenterar vi varje problem separat genom de artiklar vi inlämnat till olika konferenser. Först studerar vi optimal spektrumaccess för lågprioritetstjänster. Vi antar att nätverksregulatorn har begränsat med möjligheter att mäta spektrumanvändning innan den tillger som mest ett resursblock till tjänsten med lägre prioritet att skicka data på, och de här mätningarna har en känd kostnad. Vi studerar det här ramverket från perspektivet av flerarmade banditer med flera armdragningar per beslut, ett ramverk vi benämner förutsägande banditer (predictive bandits). Vi analyserar sådana banditer och visar en problemspecifik undre gräns på dess inlärningsförlust, samt designar en algorithm som presterar lika bra som denna gräns i den asymptotiska regimen. Vi studerar fallet där mätningarna är perfekta såväl som fallet där mätningarna har brus med känd storlek. Genom att studera ett syntetiskt simulerat problem av detta slag finner vi att vår algoritm presterar avsevärt bättre jämfört med en simplare riktmärkesstrategi. Därefter studerar vi en variation av tillträdeskontroll, där en regulator måste välja en av ett antal betjänter att släppa in en ny tjänst till (om någon alls). Agenten vet ursprungligen inte vilka resurser som finns betjänterna tillgängliga, utan måste mäta detta med brusiga mätningar. Vi härmar tre vanligt använda tillträdesstrategier och studerar detta som ett bästa-arms identifieringsproblem, där en eller flera armar är "korrekta" (det vill säga, de armar som hade valts av tillträdesstrategin om den hade haft perfekt kännedom). Med det här ramverket analyserar vi varje strategi och visar undre gränser på antalet mätningar som krävs, och skapar algoritmer som möter dessa gränser. I simuleringar med syntetisk data visar vi att våra mätalgoritmer kan drastiskt reducera antalet mätningar som krävs jämfört med jämlika mätstrategier. Slutligen studerar vi ett övervakningssystem där agenten måste upptäcka plötsliga förändringar i systemets beteende såsom förändringar i trafiken eller överräckningar mellan master, för att kunna agera därefter. Vi studerar detta med ramverket förändringsdetektion, men argumenterar att det klassiska ramverket är otillräckligt för att bemöta aspekter berörande fysisk tid (som fördröjning) samtidigt som den bemöter  mätningarnas kostnad. Vi presenterar därmed ett alternativt ramverk som frikopplar de två, vilket i sin tur kräver mer sostifikerade övervakningssystem. Vi visar, genom både teori och simulering med både syntetisk och experimentell data, att sådana adaptiva mätscheman kan förbättra mätfrekvensen jämfört med klassiska periodiska mätscheman, både kvalitativt och kvantitativt, utan att förlora klassiska optimalitetsgarantier såsom det på antalet mätningar som behövs när förändringen har skett. / <p>QC 20230915</p>
86

Clustering Consistently

Eldridge, Justin, Eldridge January 2017 (has links)
No description available.
87

Appling Machine and Statistical Learning Techniques to Intelligent Transport Systems: Bottleneck Identification and Prediction, Dynamic Travel Time Prediction, Driver Run-Stop Behavior Modeling, and Autonomous Vehicle Control at Intersections

Elhenawy, Mohammed Mamdouh Zakaria 30 June 2015 (has links)
In this dissertation, new algorithms that address three traffic problems of major importance are developed. First automatic identification and prediction algorithms are developed to identify and predict the occurrence of traffic congestion. The identification algorithms concoct a model to identify speed thresholds by exploiting historical spatiotemporal speed matrices. We employ the speed model to define a cutoff speed separating free-flow from congested traffic. We further enhance our algorithm by utilizing weather and visibility data. To our knowledge, we are the first to include weather and visibility variables in formulating an automatic congestion identification model. We also approach the congestion prediction problem by adopting an algorithm which employs Adaptive Boosting machine learning classifiers again something novel that has not been done previously. The algorithm is promising where it resulted in a true positive rate slightly higher than 0.99 and false positive rate less than 0.001. We next address the issue of travel time modeling. We propose algorithms to model travel time using various machine learning and statistical learning techniques. We obtain travel time models by employing the historical spatiotemporal speed matrices in conjunction with our algorithms. The algorithms yield pertinent information regarding travel time reliability and prediction of travel times. Our proposed algorithms give better predictions compared to the state of practice algorithms. Finally we consider driver safety at signalized intersections and uncontrolled intersections in a connected vehicles environment. For signalized intersections, we exploit datasets collected from four controlled experiments to model the stop-run behavior of the driver at the onset of the yellow indicator for various roadway surface conditions and multiple vehicle types. We further propose a new variable (predictor) related to driver aggressiveness which we estimate by monitoring how drivers respond to yellow indications. The performance of the stop-run models shows improvements after adding the new aggressiveness predictor. The proposed models are practical and easy to implement in advanced driver assistance systems. For uncontrolled intersections, we present a game theory based algorithm that models the intersection as a chicken game to solve the conflicts between vehicles crossing the intersection. The simulation results show a 49% saving in travel time on average relative to a stop control when the vehicles obey the Nash equilibrium of the game. / Ph. D.
88

Evolutionary algorithms in statistical learning : Automating the optimization procedure / Evolutionära algoritmer i statistisk inlärning : Automatisering av optimeringsprocessen

Sjöblom, Niklas January 2019 (has links)
Scania has been working with statistics for a long time but has invested in becoming a data driven company more recently and uses data science in almost all business functions. The algorithms developed by the data scientists need to be optimized to be fully utilized and traditionally this is a manual and time consuming process. What this thesis investigates is if and how well evolutionary algorithms can be used to automate the optimization process. The evaluation was done by implementing and analyzing four variations of genetic algorithms with different levels of complexity and tuning parameters. The algorithm subject to optimization was XGBoost, a gradient boosted tree model, applied to data that had previously been modelled in a competition. The results show that evolutionary algorithms are applicable in finding good models but also emphasizes the importance of proper data preparation. / Scania har länge jobbat med statistik men har på senare år investerat i att bli ett mer datadrivet företag och använder nu data science i nästan alla avdelningar på företaget. De algoritmer som utvecklas av data scientists måste optimeras för att kunna utnyttjas till fullo och detta är traditionellt sett en manuell och tidskrävade process. Detta examensarbete utreder om och hur väl evolutionära algoritmer kan användas för att automatisera optimeringsprocessen. Utvärderingen gjordes genom att implementera och analysera fyra varianter avgenetiska algoritmer med olika grader av komplexitet och trimningsparameterar. Algoritmen som var målet för optimering var XGBoost, som är en gradient boosted trädbaserad modell. Denna applicerades på data som tidigare hade modellerats i entävling. Resultatet visar att evolutionära algoritmer är applicerbara i att hitta bra modellermen påvisar även hur fundamentalt det är att arbeta med databearbetning innan modellering.
89

Supervised metric learning with generalization guarantees / Apprentissage supervisé de métriques avec garanties en généralisation

Bellet, Aurélien 11 December 2012 (has links)
Ces dernières années, l'importance cruciale des métriques en apprentissage automatique a mené à un intérêt grandissant pour l'optimisation de distances et de similarités en utilisant l'information contenue dans des données d'apprentissage pour les rendre adaptées au problème traité. Ce domaine de recherche est souvent appelé apprentissage de métriques. En général, les méthodes existantes optimisent les paramètres d'une métrique devant respecter des contraintes locales sur les données d'apprentissage. Les métriques ainsi apprises sont généralement utilisées dans des algorithmes de plus proches voisins ou de clustering.Concernant les données numériques, beaucoup de travaux ont porté sur l'apprentissage de distance de Mahalanobis, paramétrisée par une matrice positive semi-définie. Les méthodes récentes sont capables de traiter des jeux de données de grande taille.Moins de travaux ont été dédiés à l'apprentissage de métriques pour les données structurées (comme les chaînes ou les arbres), car cela implique souvent des procédures plus complexes. La plupart des travaux portent sur l'optimisation d'une notion de distance d'édition, qui mesure (en termes de nombre d'opérations) le coût de transformer un objet en un autre.Au regard de l'état de l'art, nous avons identifié deux limites importantes des approches actuelles. Premièrement, elles permettent d'améliorer la performance d'algorithmes locaux comme les k plus proches voisins, mais l'apprentissage de métriques pour des algorithmes globaux (comme les classifieurs linéaires) n'a pour l'instant pas été beaucoup étudié. Le deuxième point, sans doute le plus important, est que la question de la capacité de généralisation des méthodes d'apprentissage de métriques a été largement ignorée.Dans cette thèse, nous proposons des contributions théoriques et algorithmiques qui répondent à ces limites. Notre première contribution est la construction d'un nouveau noyau construit à partir de probabilités d'édition apprises. A l'inverse d'autres noyaux entre chaînes, sa validité est garantie et il ne comporte aucun paramètre. Notre deuxième contribution est une nouvelle approche d'apprentissage de similarités d'édition pour les chaînes et les arbres inspirée par la théorie des (epsilon,gamma,tau)-bonnes fonctions de similarité et formulée comme un problème d'optimisation convexe. En utilisant la notion de stabilité uniforme, nous établissons des garanties théoriques pour la similarité apprise qui donne une borne sur l'erreur en généralisation d'un classifieur linéaire construit à partir de cette similarité. Dans notre troisième contribution, nous étendons ces principes à l'apprentissage de métriques pour les données numériques en proposant une méthode d'apprentissage de similarité bilinéaire qui optimise efficacement l'(epsilon,gamma,tau)-goodness. La similarité est apprise sous contraintes globales, plus appropriées à la classification linéaire. Nous dérivons des garanties théoriques pour notre approche, qui donnent de meilleurs bornes en généralisation pour le classifieur que dans le cas des données structurées. Notre dernière contribution est un cadre théorique permettant d'établir des bornes en généralisation pour de nombreuses méthodes existantes d'apprentissage de métriques. Ce cadre est basé sur la notion de robustesse algorithmique et permet la dérivation de bornes pour des fonctions de perte et des régulariseurs variés / In recent years, the crucial importance of metrics in machine learningalgorithms has led to an increasing interest in optimizing distanceand similarity functions using knowledge from training data to make them suitable for the problem at hand.This area of research is known as metric learning. Existing methods typically aim at optimizing the parameters of a given metric with respect to some local constraints over the training sample. The learned metrics are generally used in nearest-neighbor and clustering algorithms.When data consist of feature vectors, a large body of work has focused on learning a Mahalanobis distance, which is parameterized by a positive semi-definite matrix. Recent methods offer good scalability to large datasets.Less work has been devoted to metric learning from structured objects (such as strings or trees), because it often involves complex procedures. Most of the work has focused on optimizing a notion of edit distance, which measures (in terms of number of operations) the cost of turning an object into another.We identify two important limitations of current supervised metric learning approaches. First, they allow to improve the performance of local algorithms such as k-nearest neighbors, but metric learning for global algorithms (such as linear classifiers) has not really been studied so far. Second, and perhaps more importantly, the question of the generalization ability of metric learning methods has been largely ignored.In this thesis, we propose theoretical and algorithmic contributions that address these limitations. Our first contribution is the derivation of a new kernel function built from learned edit probabilities. Unlike other string kernels, it is guaranteed to be valid and parameter-free. Our second contribution is a novel framework for learning string and tree edit similarities inspired by the recent theory of (epsilon,gamma,tau)-good similarity functions and formulated as a convex optimization problem. Using uniform stability arguments, we establish theoretical guarantees for the learned similarity that give a bound on the generalization error of a linear classifier built from that similarity. In our third contribution, we extend the same ideas to metric learning from feature vectors by proposing a bilinear similarity learning method that efficiently optimizes the (epsilon,gamma,tau)-goodness. The similarity is learned based on global constraints that are more appropriate to linear classification. Generalization guarantees are derived for our approach, highlighting that our method minimizes a tighter bound on the generalization error of the classifier. Our last contribution is a framework for establishing generalization bounds for a large class of existing metric learning algorithms. It is based on a simple adaptation of the notion of algorithmic robustness and allows the derivation of bounds for various loss functions and regularizers.
90

Apprentissage implicite des structures linguistiques et musicales : approche multi-méthodologique

François, Clément 31 May 2011 (has links)
Les objectifs de cette thèse sont multiples. Le premier objectif est de comparer, aux niveaux comportemental et électrophysiologique, l'apprentissage implicite de structures linguistiques et musicales après l'écoute d'un langage artificiel chanté. Alors qu'au niveau comportemental, seule la structure linguistique semble être apprise, les résultats électrophysiologiques révèlent un effet N400 pour les deux dimensions, linguistique et musicale. Le deuxième objectif de cette thèse est d'évaluer comment cet apprentissage est influencé par l'expertise musicale. Nous avons comparé un groupe d'adultes musiciens à un groupe de non musiciens. Alors qu'au niveau comportemental les musiciens sont à peine meilleurs que les non musiciens dans les deux dimensions, les données électrophysiologiques révèlent, via des différences précoces (N1/P2) et tardives (N400), une meilleure segmentation chez les musiciens. De plus, les analyses en potentiels évoqués et en temps-fréquences des données électrophysiologiques enregistrées pendant les phases d'apprentissage révèlent que les musiciens apprennent plus rapidement que les non musiciens. Cependant, un lien de causalité quant aux effets de l'apprentissage de la musique ne peut être mis en évidence qu'en réalisant une étude longitudinale. Nous avons mené une telle étude chez des enfants de 8 ans à qui l'on a fait suivre un apprentissage de la musique ou de la peinture pendant 2 années. Les résultats comportementaux et électrophysiologiques révèlent un large bénéfice de l'apprentissage musical comparé à celui de la peinture démontrant l'importance de la musique dans l'éducation des enfants. / The aims of the present thesis were two-folded. Firstly, we wanted to compare behavioral and electrophysiological measures related to the implicit learning of linguistic and musical structures contained within an artificial sung language. While behavioral measures suggest that only the linguistic structure was learned, electrophysiological data revealed similar N400 effects in both linguistic and musical dimensions, suggesting that participants did also learn the musical structure. The second goal was to evaluate to what extent musical expertise can affect speech segmentation. At this aim, we compared a group of adult musicians to a group of nonmusicians. While behavioral data showed that musicians had marginally better performance than non musicians in both dimensions, electrophysiological data revealed, via early (N1/P2) and late (N400) differences, a better speech segmentation in musicians than in non musicians. Moreover, event-related potentials and time-frequency analyzes during learning revealed a faster and more efficient learning process in musicians. However, the only way to unambiguously claim causality between expertise and the observed effects requires a longitudinal approach. At this aim, we conducted a study with 8 year-old children who followed either music or painting lessons over a period of 2 years. Behavioral and electrophysiological data revealed a larger benefit of musical compared to painting training, bringing evidences for the importance of music in childrens' education.

Page generated in 0.03 seconds