Spelling suggestions: "subject:"apprentissage statistique"" "subject:"apprentissage qtatistique""
151 |
Apprentissage actif pour l'approximation de variétés / Active learning for variety approximationGandar, Benoît 27 November 2012 (has links)
L’apprentissage statistique cherche à modéliser un lien fonctionnel entre deux variables X et Y à partir d’un échantillon aléatoire de réalisations de (X,Y ). Lorsque la variable Y prend un nombre binaire de valeurs, l’apprentissage s’appelle la classification (ou discrimination en français) et apprendre le lien fonctionnel s’apparente à apprendre la frontière d’une variété dans l’espace de la variable X. Dans cette thèse, nous nous plaçons dans le contexte de l’apprentissage actif, i.e. nous supposons que l’échantillon d’apprentissage n’est plus aléatoire et que nous pouvons, par l’intermédiaire d’un oracle, générer les points sur lesquels l’apprentissage de la variété va s’effectuer. Dans le cas où la variable Y est continue (régression), des travaux précédents montrent que le critère de la faible discrépance pour générer les premiers points d’apprentissage est adéquat. Nous montrons, de manière surprenante, que ces résultats ne peuvent pas être transférés à la classification. Dans ce manuscrit, nous proposons alors le critère de la dispersion pour la classification. Ce critère étant difficile à mettre en pratique, nous proposons un nouvel algorithme pour générer un plan d’expérience à faible dispersion dans le carré unité. Après une première approximation de la variété, des approximations successives peuvent être réalisées afin d’affiner la connaissance de celle-ci. Deux méthodes d’échantillonnage sont alors envisageables : le « selective sampling » qui choisit les points à présenter à un oracle parmi un ensemble fini de candidats et l’« adaptative sampling » qui permet de choisir n’importe quels points de l’espace de la variable X. Le deuxième échantillonnage peut être vu comme un passage à la limite du premier. Néanmoins, en pratique, il n’est pas raisonnable d’utiliser cette méthode. Nous proposons alors un nouvel algorithme basé sur le critère de dispersion, menant de front exploitation et exploration, pour approximer une variété. / Statistical learning aims to modelize a functional link between two variables X and Y thanks to a random sample of realizations of the couple (X,Y ). When the variable Y takes a binary number of values, learning is named classification and learn the functional link is equivalent to learn the boundary of a manifold in the feature space of the variable X. In this PhD thesis, we are placed in the context of active learning, i.e. we suppose that learning sample is not random and that we can, thanks to an oracle, generate points for learning the manifold. In the case where the variable Y is continue (regression), previous works show that criterion of low discrepacy to generate learning points is adequat. We show that, surprisingly, this result cannot be transfered to classification talks. In this PhD thesis, we propose the criterion of dispersion for classification problems. This criterion being difficult to realize, we propose a new algorithm to generate low dispersion samples in the unit cube. After a first approximation of the manifold, successive approximations can be realized in order to refine its knowledge. Two methods of sampling are possible : the « selective sampling » which selects points to present to the oracle in a finite set of candidate points, and the « adaptative sampling » which allows to select any point in the feature space of the variable X. The second sampling can be viewed as the infinite limit of the first. Nevertheless, in practice, it is not reasonable to use this method. Then, we propose a new algorithm, based on dispersion criterion, leading both exploration and exploitation to approximate a manifold.
|
152 |
Estimation non-paramétrique du quantile conditionnel et apprentissage semi-paramétrique : applications en assurance et actuariat / Nonparametric estimation of conditional quantile and semi-parametric learning : applications on insurance and actuarial dataKnefati, Muhammad Anas 19 November 2015 (has links)
La thèse se compose de deux parties : une partie consacrée à l'estimation des quantiles conditionnels et une autre à l'apprentissage supervisé. La partie "Estimation des quantiles conditionnels" est organisée en 3 chapitres : Le chapitre 1 est consacré à une introduction sur la régression linéaire locale, présentant les méthodes les plus utilisées, pour estimer le paramètre de lissage. Le chapitre 2 traite des méthodes existantes d’estimation nonparamétriques du quantile conditionnel ; Ces méthodes sont comparées, au moyen d’expériences numériques sur des données simulées et des données réelles. Le chapitre 3 est consacré à un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymétrique en x. Sous certaines hypothèses, notre estimateur s'avère plus performant que les estimateurs usuels.<br> La partie "Apprentissage supervisé" est, elle aussi, composée de 3 chapitres : Le chapitre 4 est une introduction à l’apprentissage statistique et les notions de base utilisées, dans cette partie. Le chapitre 5 est une revue des méthodes conventionnelles de classification supervisée. Le chapitre 6 est consacré au transfert d'un modèle d'apprentissage semi-paramétrique. La performance de cette méthode est montrée par des expériences numériques sur des données morphométriques et des données de credit-scoring. / The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter. Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernels w.r.t. x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used.<br> The "supervised learning" part is, too, with 3 chapters: Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data.
|
153 |
Planification de perception et de mission en environnement incertain : Application à la détection et à la reconnaissance de cibles par un hélicoptère autonome / Planning for perception and mission : application to multi-target detection and recognition missions by an autonomous helicopterPonzoni Carvalho Chanel, Caroline 12 April 2013 (has links)
Les agents robotiques mobiles ou aériens sont confrontés au besoin de planifier des actions avec information incomplètesur l'état du monde. Dans ce contexte, cette thèse propose un cadre de modélisation et de résolution de problèmes deplanification de perception et de mission pour un drone hélicoptère qui évolue dans un environnement incertain etpartiellement observé afin de détecter et de reconnaître des cibles. Nous avons fondé notre travail sur les ProcessusDécisionnels Markoviens Partiellement Observables (POMDP), car ils proposent un schéma d'optimisation général pour lestâches de perception et de décision à long terme. Une attention particulière est donnée à la modélisation des sortiesincertaines de l'algorithme de traitement d'image en tant que fonction d'observation. Une analyse critique de la mise enoeuvre en pratique du modèle POMDP et du critère d'optimisation associé est proposée. Afin de respecter les contraintes desécurité et de sûreté de nos robots aériens, nous proposons ensuite une approche pour tenir compte des propriétés defaisabilité d'actions dans des domaines partiellement observables : le modèle AC-POMDP, qui sépare l'informationconcernant la vérification des propriétés du modèle, de celle qui renseigne sur la nature des cibles. Enfin, nous proposonsun cadre d'optimisation et d'exécution en parallèle de politiques POMDP en temps contraint. Ce cadre est basé sur uneoptimisation anticipée et probabilisée des états d'exécution futurs du système. Nous avons embarqué ce cadrealgorithmique sur les hélicoptères autonomes de l'Onera, et l'avons testé en vol et en environnement réel sur une missionde détection et reconnaissance de cibles. / Mobile and aerial robots are faced to the need of planning actions with incomplete information about the state of theworld. In this context, this thesis proposes a modeling and resolution framework for perception and mission planningproblems where an autonomous helicopter must detect and recognize targets in an uncertain and partially observableenvironment. We founded our work on Partially Observable Markov Decision Processes (POMDPs), because it proposes ageneral optimization framework for perception and decision tasks under long-term horizon. A special attention is given tothe outputs of the image processing algorithm in order to model its uncertain behavior as a probabilistic observationfunction. A critical study on the POMDP model and its optimization criterion is also conducted. In order to respect safetyconstraints of aerial robots, we then propose an approach to properly handle action feasibility constraints in partiallyobservable domains: the AC-POMDP model, which distinguishes between the verification of environmental properties andthe information about targets' nature. Furthermore, we propose a framework to optimize and execute POMDP policies inparallel under time constraints. This framework is based on anticipated and probabilistic optimization of future executionstates of the system. Finally, we embedded this algorithmic framework on-board Onera's autonomous helicopters, andperformed real flight experiments for multi-target detection and recognition missions.
|
154 |
Large-scale functional MRI analysis to accumulate knowledge on brain functions / Analyse à grande échelle d'IRM fonctionnelle pour accumuler la connaissance sur les fonctions cérébralesSchwartz, Yannick 21 April 2015 (has links)
Comment peut-on accumuler de la connaissance sur les fonctions cérébrales ? Comment peut-on bénéficier d'années de recherche en IRM fonctionnelle (IRMf) pour analyser des processus cognitifs plus fins et construire un modèle exhaustif du cerveau ? Les chercheurs se basent habituellement sur des études individuelles pour identifier des régions cérébrales recrutées par les processus cognitifs. La comparaison avec l'historique du domaine se fait généralement manuellement pas le biais de la littérature, qui permet de définir des régions d'intérêt dans le cerveau. Les méta-analyses permettent de définir des méthodes plus formelles et automatisables pour analyser la littérature. Cette thèse examine trois manières d'accumuler et d'organiser les connaissances sur le fonctionnement du cerveau en utilisant des cartes d'activation cérébrales d'un grand nombre d'études. Premièrement, nous présentons une approche qui utilise conjointement deux expériences d'IRMf similaires pour mieux conditionner une analyse statistique. Nous montrons que cette méthode est une alternative intéressante par rapport aux analyses qui utilisent des régions d'intérêts, mais demande cependant un travail manuel dans la sélection des études qui l'empêche de monter à l'échelle. A cause de la difficulté à sélectionner automatiquement les études, notre deuxième contribution se focalise sur l'analyse d'une unique étude présentant un grand nombre de conditions expérimentales. Cette méthode estime des réseaux fonctionnels (ensemble de régions cérébrales) et les associe à des profils fonctionnels (ensemble pondéré de descripteurs cognitifs). Les limitations de cette approche viennent du fait que nous n'utilisons qu'une seule étude, et qu'elle se base sur un modèle non supervisé qui est par conséquent plus difficile à valider. Ce travail nous a cependant apporté la notion de labels cognitifs, qui est centrale pour notre dernière contribution. Cette dernière contribution présente une méthode qui a pour objectif d'apprendre des atlas fonctionnels en combinant plusieurs jeux de données. [Henson2006] montre qu'une inférence directe, c.a.d. la probabilité d'une activation étant donné un processus cognitif, n'est souvent pas suffisante pour conclure sur l'engagement de régions cérébrales pour le processus cognitif en question. Réciproquement, [Poldrack 2006] présente l'inférence inverse qui est la probabilité qu'un processus cognitif soit impliqué étant donné qu'une région cérébrale est activée, et décrit le risque de raisonnements fallacieux qui peuvent en découler. Pour éviter ces problèmes, il ne faut utiliser l'inférence inverse que dans un contexte où l'on suffisamment bien échantillonné l'espace cognitif pour pouvoir faire une inférence pertinente. Nous présentons une méthode qui utilise un « meta-design » pour décrire des tâches cognitives avec un vocabulaire commun, et qui combine les inférences directe et inverse pour mettre en évidence des réseaux fonctionnels qui sont cohérents à travers les études. Nous utilisons un modèle prédictif pour l'inférence inverse, et effectuons les prédictions sur de nouvelles études pour s'assurer que la méthode n'apprend pas certaines idiosyncrasies des données d'entrées. Cette dernière contribution nous a permis d'apprendre des réseaux fonctionnels, et de les associer avec des concepts cognitifs. Nous avons exploré différentes approches pour analyser conjointement des études d'IRMf. L'une des difficultés principales était de trouver un cadre commun qui permette d'analyser ensemble ces études malgré leur diversité. Ce cadre s'est instancié sous la forme d'un vocabulaire commun pour décrire les tâches d'IRMf. et a permis d'établir un modèle statistique du cerveau à grande échelle et d'accumuler des connaissances à travers des études d'IRM fonctionnelle. / How can we accumulate knowledge on brain functions? How can we leverage years of research in functional MRI to analyse finer-grained psychological constructs, and build a comprehensive model of the brain? Researchers usually rely on single studies to delineate brain regions recruited by mental processes. They relate their findings to previous works in an informal way by defining regions of interest from the literature. Meta-analysis approaches provide a more principled way to build upon the literature. This thesis investigates three ways to assemble knowledge using activation maps from a large amount of studies. First, we present an approach that uses jointly two similar fMRI experiments, to better condition an analysis from a statistical standpoint. We show that it is a valuable data-driven alternative to traditional regions of interest analyses, but fails to provide a systematic way to relate studies, and thus does not permit to integrate knowledge on a large scale. Because of the difficulty to associate multiple studies, we resort to using a single dataset sampling a large number of stimuli for our second contribution. This method estimates functional networks associated with functional profiles, where the functional networks are interacting brain regions and the functional profiles are a weighted set of cognitive descriptors. This work successfully yields known brain networks and automatically associates meaningful descriptions. Its limitations lie in the unsupervised nature of this method, which is more difficult to validate, and the use of a single dataset. It however brings the notion of cognitive labels, which is central to our last contribution. Our last contribution presents a method that learns functional atlases by combining several datasets. [Henson 2006] shows that forward inference, i.e. the probability of an activation given a cognitive process, is often not sufficient to conclude on the engagement of brain regions for a cognitive process. Conversely, [Poldrack 2006] describes reverse inference as the probability of a cognitive process given an activation, but warns of a logical fallacy in concluding on such inference from evoked activity. Avoiding this issue requires to perform reverse inference with a large coverage of the cognitive space. We present a framework that uses a "meta-design" to describe many different tasks with a common vocabulary, and use forward and reverse inference in conjunction to outline functional networks that are consistently represented across the studies. We use a predictive model for reverse inference, and perform prediction on unseen studies to guarantee that we do not learn studies' idiosyncrasies. This final contribution permits to learn functional atlases, i.e. functional networks associated with a cognitive concept. We explored different possibilities to jointly analyse multiple fMRI experiments. We have found that one of the main challenges is to be able to relate the experiments with one another. As a solution, we propose a common vocabulary to describe the tasks. [Henson 2006] advocates the use of forward and reverse inference in conjunction to associate cognitive functions to brain regions, which is only possible in the context of a large scale analysis to overcome the limitations of reverse inference. This framing of the problem therefore makes it possible to establish a large statistical model of the brain, and accumulate knowledge across functional neuroimaging studies.
|
155 |
Modélisation statistique de l’état de charge des batteries électriques / Statistical modeling of the state of charge of electric batteriesKalawoun, Jana 30 November 2015 (has links)
Les batteries électriques sont omniprésentes dans notre vie quotidienne : ordinateur, téléphone, etc. Elles jouent un rôle important dans le défi de la transition énergétique : anticiper la raréfaction des énergies fossiles et réduire la pollution, en développant le stockage des énergies renouvelables et les transports électriques. Cependant, l'estimation de l'état de charge (State of Charge – SoC) d'une batterie est difficile et les modèles de prédiction actuels sont peu robustes. En effet, une batterie est un système électrochimique complexe, dont la dynamique est influencée non seulement par ses caractéristiques internes, mais aussi par les conditions d'usages souvent non contrôlables : température, profil d’utilisation, etc. Or, une estimation précise du SoC permet de garantir une utilisation sûre de la batterie en évitant une surcharge ou surdécharge ; mais aussi d’estimer son autonomie. Dans cette étude, nous utilisons un modèle à espaces d'états gouverné par une chaîne de Markov cachée. Ce modèle est fondé sur des équations physiques et la chaîne de Markov cachée permet d’appréhender les différents «régimes de fonctionnement» de la batterie. Pour garantir l’unicité des paramètres du modèle, nous démontrons son identifiabilité à partir de contraintes simples et naturelles sur ses paramètres «physiques ». L’estimation du SoC dans un véhicule électrique doit être faîte en ligne et avec une puissance de calcul limitée. Nous estimons donc le SoC en utilisant une technique d’échantillonnage préférentiel séquentiel. D’autre part l’estimation des paramètres est faîte à partir d’une base d’apprentissage pour laquelle les états de la chaîne de Markov et le SoC ne sont pas observés. Nous développons et testons trois algorithmes adaptés à notre modèle à structure latente : un échantillonneur particulaire de Gibbs, un algorithme de Monte-Carlo EM pénalisé par des contraintes d’identifiabilité et un algorithme de Monte-Carlo EM pénalisé par une loi a priori. Par ailleurs les états cachés de la chaîne de Markov visent à modéliser les différents régimes du fonctionnement de la batterie. Nous identifions leur nombre par divers critères de sélection de modèles. Enfin, à partir de données issues de trois types de batteries (cellule, module et pack d’un véhicule électrique), notre modèle a permis d’appréhender les différentes sollicitations de la batterie et donne des estimations robustes et précises du SoC. / Electric batteries are omnipresent in our daily lives: computers, smartphones, etc. Batteries are important for anticipating the scarcity of fossil fuels and tackling their environmental impact. Therefore, estimating the State of Charge (SoC) of a battery is nowadays a challenging issue, as existing physical and statistical models are not yet robust. Indeed a battery is a complex electrochemical system. Its dynamic depends not only on its internal characteristics but also on uncontrolled usage conditions: temperature, usage profile, etc. However the SoC estimation helps to prevent overcharge and deep discharge, and to estimate the battery autonomy. In this study, the battery dynamics are described by a set of physical linear equations, switching randomly according to a Markov chain. This model is referred to as switching Markov state space model. To ensure the unicity of the model parameters, we prove its identifiability by applying straightforward and natural constraints on its “physical” parameters. Embedded applications, like electric vehicles, impose online estimated with hardware and time constraints. Therefore we estimate the SoC using a sequential importance sampling technique. Furthermore the model includes two latent variables: the SoC and the Markov chain state. Thus, to estimate the parameters, we develop and test three algorithms adapted to latent structure models: particle Gibbs sampler, Monte Carlo EM penalized with identifiability constraints, and Monte Carlo EM penalized with a prior distribution. The hidden Markov states aim to model the different “regimes” of the battery dynamics. We identify their number using different model selection criteria. Finally, when applied to various data from three battery types (cell, module and pack of an electric vehicle) our model allows us to analyze the battery dynamics and to obtain a robust and accurate SoC estimation under uncontrolled usage conditions.
|
156 |
Model Averaging in Large Scale Learning / Estimateur par agrégat en apprentissage statistique en grande dimensionGrappin, Edwin 06 March 2018 (has links)
Les travaux de cette thèse explorent les propriétés de procédures d'estimation par agrégation appliquées aux problèmes de régressions en grande dimension. Les estimateurs par agrégation à poids exponentiels bénéficient de résultats théoriques optimaux sous une approche PAC-Bayésienne. Cependant, le comportement théorique de l'agrégat avec extit{prior} de Laplace n'est guère connu. Ce dernier est l'analogue du Lasso dans le cadre pseudo-bayésien. Le Chapitre 2 explicite une borne du risque de prédiction de cet estimateur. Le Chapitre 3 prouve qu'une méthode de simulation s'appuyant sur un processus de Langevin Monte Carlo permet de choisir explicitement le nombre d'itérations nécessaire pour garantir une qualité d'approximation souhaitée. Le Chapitre 4 introduit des variantes du Lasso pour améliorer les performances de prédiction dans des contextes partiellement labélisés. / This thesis explores properties of estimations procedures related to aggregation in the problem of high-dimensional regression in a sparse setting. The exponentially weighted aggregate (EWA) is well studied in the literature. It benefits from strong results in fixed and random designs with a PAC-Bayesian approach. However, little is known about the properties of the EWA with Laplace prior. Chapter 2 analyses the statistical behaviour of the prediction loss of the EWA with Laplace prior in the fixed design setting. Sharp oracle inequalities which generalize the properties of the Lasso to a larger family of estimators are established. These results also bridge the gap from the Lasso to the Bayesian Lasso. Chapter 3 introduces an adjusted Langevin Monte Carlo sampling method that approximates the EWA with Laplace prior in an explicit finite number of iterations for any targeted accuracy. Chapter 4 explores the statisctical behaviour of adjusted versions of the Lasso for the transductive and semi-supervised learning task in the random design setting.
|
157 |
Some phenomenological investigations in deep learningBaratin, Aristide 12 1900 (has links)
Les remarquables performances des réseaux de neurones profonds dans de nombreux domaines de l'apprentissage automatique au cours de la dernière décennie soulèvent un certain nombre de questions théoriques. Par exemple, quels mecanismes permettent à ces reseaux, qui ont largement la capacité de mémoriser entièrement les exemples d'entrainement, de généraliser correctement à de nouvelles données, même en l'absence de régularisation explicite ? De telles questions ont fait l'objet d'intenses efforts de recherche ces dernières années, combinant analyses de systèmes simplifiés et études empiriques de propriétés qui semblent être corrélées à la performance de généralisation. Les deux premiers articles présentés dans cette thèse contribuent à cette ligne de recherche. Leur but est de mettre en évidence et d'etudier des mécanismes de biais implicites permettant à de larges modèles de prioriser l'apprentissage de fonctions "simples" et d'adapter leur capacité à la complexité du problème.
Le troisième article aborde le problème de l'estimation de information mutuelle en haute, en mettant à profit l'expressivité et la scalabilité des reseaux de neurones profonds. Il introduit et étudie une nouvelle classe d'estimateurs, dont il présente plusieurs applications en apprentissage non supervisé, notamment à l'amélioration des modèles neuronaux génératifs. / The striking empirical success of deep neural networks in machine learning raises a number of theoretical puzzles. For example, why can they generalize to unseen data despite their capacity to fully memorize the training examples? Such puzzles have been the subject of intense research efforts in the past few years, which combine rigorous analysis of simplified systems with empirical studies of phenomenological properties shown to correlate with generalization. The first two articles presented in these thesis contribute to this line of work. They highlight and discuss mechanisms that allow large models to prioritize learning `simple' functions during training and to adapt their capacity to the complexity of the problem. The third article of this thesis addresses the long standing problem of estimating mutual information in high dimension, by leveraging the scalability of neural networks. It introduces and studies a new class of estimators and present several applications in unsupervised learning, especially on enhancing generative models.
|
158 |
Perception et apprentissage des structures musicales et langagières : études des ressources cognitives partagées et des effets attentionnels / Musical and linguistic structure perception and learning : investigation of shared cognitive resources and attentionnal effectsHoch, Lisianne 09 July 2010 (has links)
La musique et le langage sont des matériels structurés à partir de principes combinatoires. Les auditeurs ont acquis des connaissances sur ces régularités structurelles par simple exposition. Ces connaissances permettent le développement d’attentes sur les événements à venir en musique et en langage. Mon travail de thèse étudiait deux aspects de la spécificité versus la généralité des processus de traitement de la musique et du langage: la perception et l’apprentissage statistique.Dans la première partie (perception), les Études 1 à 4 ont montré que le traitement des structures musicales influence le traitement de la parole et du langage présenté en modalité visuelle, reflétant l’influence des mécanismes d’attention dynamique (Jones, 1976). Plus précisément, le traitement des structures musicales interagissait avec le traitement des structures syntaxiques, mais pas avec le traitement des structures sémantiques en langage (Étude 3). Ces résultats sont en accord avec l’hypothèse de ressources d’intégration syntaxique partagées de Patel (2003). Nos résultats et les précédentes études sur les traitements simultanés des structures musicales et linguistiques (syntaxiques et sémantiques), nous ont incités à élargir l’hypothèse de ressources d’intégration partagées au traitement d’autres d’informations structurées qui nécessitent également des ressources d’intégration structurelle et temporelle. Cette hypothèse a été testée et confirmée par l’observation d’une interaction entre les traitements simultanés des structures musicales et arithmétiques (Étude 4). Dans la deuxième partie (apprentissage), l’apprentissage statistique était étudié en comparaison directe pour des matériels verbaux et non-verbaux. Plus particulièrement, nous avons étudié l’influence de l’attention dynamique guidée par des indices temporels non-acoustiques (Études 5 et 6) et acoustiques (Étude 7) sur l’apprentissage statistique. Les indices temporels non-acoustiques influençaient l’apprentissage statistique de matériels verbaux et non-verbaux. En accord avec la théorie de l’attention dynamique (Jones, 1976), une hypothèse est que les indices temporels non-acoustiques guident l’attention dans le temps et influencent l’apprentissage statistique.Les études de ce travail de thèse ont suggéré que les ressources d’attention dynamique influençaient la perception et l’apprentissage de matériels structurés et que les traitements des structures musicales et d’autres informations structurées (e.g., langage, arithmétique) partagent des ressources d’intégration structurelle et temporelle. L’ensemble de ces résultats amène de nouvelles questions sur la possible influence du traitement des structures auditives tonales et temporelles sur les capacités cognitives générales de séquencement notamment requises pour la perception et l’apprentissage d’informations séquentielles structurées.Jones, M. R. (1976). Time, our lost dimension: Toward a new theory of perception, attention, and memory. Psychological Review, 83(5), 323-355. doi:10.1037/0033-295X.83.5.323Patel, A. D. (2003). Language, music, syntax and the brain. Nature Neuroscience, 6(7), 674-681. doi:10.1038/nn1082 / Music and language are structurally organized materials that are based on combinatorial principles. Listeners have acquired knowledge about these structural regularities via mere exposure. This knowledge allows them to develop expectations about future events in music and language perception. My PhD investigated two aspects of domain-specificity versus generality of cognitive functions in music and language processing: perception and statistical learning.In the first part (perception), musical structure processing has been shown to influence spoken and visual language processing (Études 1 & 4), partly due to dynamic attending mechanisms (Jones, 1976). More specifically, musical structure processing has been shown to interact with linguistic-syntactic processing, but not with linguistic-semantic processing (Étude 3), thus supporting the hypothesis of shared syntactic resources for music and language processing (Patel, 2003). Together with previous studies that have investigated simultaneous musical and linguistic (syntactic and semantic) structure processing, we proposed that these shared resources might extend to the processing of other structurally organized information that require structural and temporal integration resources. This hypothesis was tested and supported by interactive influences between simultaneous musical and arithmetic structure processing (Étude 4). In the second part (learning), statistical learning was directly compared for verbal and nonverbal materials. In particular, we aimed to investigate the influence of dynamic attention driven by non-acoustic (Études 5 & 6) and acoustic (Étude 7) cues on statistical learning. Non-acoustic temporal cues have been shown to influence statistical learning of verbal and nonverbal artificial languages. In agreement with the dynamic attending theory (Jones, 1976), we proposed that non-acoustic temporal cues guide attention over time and influence statistical learning.Based on the influence of dynamic attending mechanisms on perception and learning and on evidence of shared structural and temporal integration resources for the processing of musical structures and other structured information, this PhD opens new questions about the potential influence of tonal and temporal auditory structure processing on general cognitive sequencing abilities, notably required in structured sequence perception and learning.Jones, M. R. (1976). Time, our lost dimension: Toward a new theory of perception, attention, and memory. Psychological Review, 83(5), 323-355. doi:10.1037/0033-295X.83.5.323Patel, A. D. (2003). Language, music, syntax and the brain. Nature Neuroscience, 6(7), 674-681. doi:10.1038/nn1082
|
159 |
Contributions à l’apprentissage automatique pour l’analyse d’images cérébrales anatomiques / Contributions to statistical learning for structural neuroimaging dataCuingnet, Rémi 29 March 2011 (has links)
L'analyse automatique de différences anatomiques en neuroimagerie a de nombreuses applications pour la compréhension et l'aide au diagnostic de pathologies neurologiques. Récemment, il y a eu un intérêt croissant pour les méthodes de classification telles que les machines à vecteurs supports pour dépasser les limites des méthodes univariées traditionnelles. Cette thèse a pour thème l'apprentissage automatique pour l'analyse de populations et la classification de patients en neuroimagerie. Nous avons tout d'abord comparé les performances de différentes stratégies de classification, dans le cadre de la maladie d'Alzheimer à partir d'images IRM anatomiques de 509 sujets de la base de données ADNI. Ces différentes stratégies prennent insuffisamment en compte la distribution spatiale des \textit{features}. C'est pourquoi nous proposons un cadre original de régularisation spatiale et anatomique des machines à vecteurs supports pour des données de neuroimagerie volumiques ou surfaciques, dans le formalisme de la régularisation laplacienne. Cette méthode a été appliquée à deux problématiques cliniques: la maladie d'Alzheimer et les accidents vasculaires cérébraux. L'évaluation montre que la méthode permet d'obtenir des résultats cohérents anatomiquement et donc plus facilement interprétables, tout en maintenant des taux de classification élevés. / Brain image analyses have widely relied on univariate voxel-wise methods. In such analyses, brain images are first spatially registered to a common stereotaxic space, and then mass univariate statistical tests are performed in each voxel to detect significant group differences. However, the sensitivity of theses approaches is limited when the differences involve a combination of different brain structures. Recently, there has been a growing interest in support vector machines methods to overcome the limits of these analyses.This thesis focuses on machine learning methods for population analysis and patient classification in neuroimaging. We first evaluated the performances of different classification strategies for the identification of patients with Alzheimer's disease based on T1-weighted MRI of 509 subjects from the ADNI database. However, these methods do not take full advantage of the spatial distribution of the features. As a consequence, the optimal margin hyperplane is often scattered and lacks spatial coherence, making its anatomical interpretation difficult. Therefore, we introduced a framework to spatially regularize support vector machines for brain image analysis based on Laplacian regularization operators. The proposed framework was then applied to the analysis of stroke and of Alzheimer's disease. The results demonstrated that the proposed classifier generates less-noisy and consequently more interpretable feature maps with no loss of classification performance.
|
160 |
Évaluation de modèles computationnels de la vision humaine en imagerie par résonance magnétique fonctionnelle / Evaluating Computational Models of Vision with Functional Magnetic Resonance ImagingEickenberg, Michael 21 September 2015 (has links)
L'imagerie par résonance magnétique fonctionnelle (IRMf) permet de mesurer l'activité cérébrale à travers le flux sanguin apporté aux neurones. Dans cette thèse nous évaluons la capacité de modèles biologiquement plausibles et issus de la vision par ordinateur à représenter le contenu d'une image de façon similaire au cerveau. Les principaux modèles de vision évalués sont les réseaux convolutionnels.Les réseaux de neurones profonds ont connu un progrès bouleversant pendant les dernières années dans divers domaines. Des travaux antérieurs ont identifié des similarités entre le traitement de l'information visuelle à la première et dernière couche entre un réseau de neurones et le cerveau. Nous avons généralisé ces similarités en identifiant des régions cérébrales correspondante à chaque étape du réseau de neurones. Le résultat consiste en une progression des niveaux de complexité représentés dans le cerveau qui correspondent à l'architecture connue des aires visuelles: Plus la couche convolutionnelle est profonde, plus abstraits sont ses calculs et plus haut niveau sera la fonction cérébrale qu'elle sait modéliser au mieux. Entre la détection de contours en V1 et la spécificité à l'objet en cortex inférotemporal, fonctions assez bien comprises, nous montrons pour la première fois que les réseaux de neurones convolutionnels de détection d'objet fournissent un outil pour l'étude de toutes les étapes intermédiaires du traitement visuel effectué par le cerveau.Un résultat préliminaire à celui-ci est aussi inclus dans le manuscrit: L'étude de la réponse cérébrale aux textures visuelles et sa modélisation avec les réseaux convolutionnels de scattering.L'autre aspect global de cette thèse sont modèles de “décodage”: Dans la partie précédente, nous prédisions l'activité cérébrale à partir d'un stimulus (modèles dits d’”encodage”). La prédiction du stimulus à partir de l'activité cérébrale est le méchanisme d'inférence inverse et peut servir comme preuve que cette information est présente dans le signal. Le plus souvent, des modèles linéaires généralisés tels que la régression linéaire ou logistique ou les SVM sont utilisés, donnant ainsi accès à une interprétation des coefficients du modèle en tant que carte cérébrale. Leur interprétation visuelle est cependant difficile car le problème linéaire sous-jacent est soit mal posé et mal conditionné ou bien non adéquatement régularisé, résultant en des cartes non-informatives. En supposant une organisation contigüe en espace et parcimonieuse, nous nous appuyons sur la pénalité convexe d'une somme de variation totale et la norme L1 (TV+L1) pour développer une pénalité regroupant un terme d'activation et un terme de dérivée spatiale. Cette pénalité a la propriété de mettre à zéro la plupart des coefficients tout en permettant une variation libre des coefficients dans une zone d'activation, contrairement à TV+L1 qui impose des zones d’activation plates. Cette méthode améliore l'interprétabilité des cartes obtenues dans un schéma de validation croisée basé sur la précision du modèle prédictif.Dans le contexte des modèles d’encodage et décodage nous tâchons à améliorer les prétraitements des données. Nous étudions le comportement du signal IRMf par rapport à la stimulation ponctuelle : la réponse impulsionnelle hémodynamique. Pour générer des cartes d'activation, au lieu d’un modèle linéaire classique qui impose une réponse impulsionnelle canonique fixe, nous utilisons un modèle bilinéaire à réponse hémodynamique variable spatialement mais fixe à travers les événements de stimulation. Nous proposons un algorithme efficace pour l'estimation et montrons un gain en capacité prédictive sur les analyses menées, en encodage et décodage. / Blood-oxygen-level dependent (BOLD) functional magnetic resonance imaging (fMRI) makes it possible to measure brain activity through blood flow to areas with metabolically active neurons. In this thesis we use these measurements to evaluate the capacity of biologically inspired models of vision coming from computer vision to represent image content in a similar way as the human brain. The main vision models used are convolutional networks.Deep neural networks have made unprecedented progress in many fields in recent years. Even strongholds of biological systems such as scene analysis and object detection have been addressed with enormous success. A body of prior work has been able to establish firm links between the first and last layers of deep convolutional nets and brain regions: The first layer and V1 essentially perform edge detection and the last layer as well as inferotemporal cortex permit a linear read-out of object category. In this work we have generalized this correspondence to all intermediate layers of a convolutional net. We found that each layer of a convnet maps to a stage of processing along the ventral stream, following the hierarchy of biological processing: Along the ventral stream we observe a stage-by-stage increase in complexity. Between edge detection and object detection, for the first time we are given a toolbox to study the intermediate processing steps.A preliminary result to this was obtained by studying the response of the visual areas to presentation of visual textures and analysing it using convolutional scattering networks.The other global aspect of this thesis is “decoding” models: In the preceding part, we predicted brain activity from the stimulus presented (this is called “encoding”). Predicting a stimulus from brain activity is the inverse inference mechanism and can be used as an omnibus test for presence of this information in brain signal. Most often generalized linear models such as linear or logistic regression or SVMs are used for this task, giving access to a coefficient vector the same size as a brain sample, which can thus be visualized as a brain map. However, interpretation of these maps is difficult, because the underlying linear system is either ill-defined and ill-conditioned or non-adequately regularized, resulting in non-informative maps. Supposing a sparse and spatially contiguous organization of coefficient maps, we build on the convex penalty consisting of the sum of total variation (TV) seminorm and L1 norm (“TV+L1”) to develop a penalty grouping an activation term with a spatial derivative. This penalty sets most coefficients to zero but permits free smooth variations in active zones, as opposed to TV+L1 which creates flat active zones. This method improves interpretability of brain maps obtained through cross-validation to determine the best hyperparameter.In the context of encoding and decoding models, we also work on improving data preprocessing in order to obtain the best performance. We study the impulse response of the BOLD signal: the hemodynamic response function. To generate activation maps, instead of using a classical linear model with fixed canonical response function, we use a bilinear model with spatially variable hemodynamic response (but fixed across events). We propose an efficient optimization algorithm and show a gain in predictive capacity for encoding and decoding models on different datasets.
|
Page generated in 0.0859 seconds