Spelling suggestions: "subject:"neurones."" "subject:"eurones.""
261 |
Modélisation des crues de bassins karstiques par réseaux de neurones. Cas du bassin du Lez (Hérault) / Karst flood modeling by artificial neural networks. Case study on the Lez catchment (Hérault, southern France)Kong A SIou, Line 21 October 2011 (has links)
Les karsts sont l'une des formations aquifères les plus présentes au monde. Exploités, ils fournissent de l'eau potable pour près de 25% de la population mondiale. Cependant la forte hétérogénéité de leur structure implique un comportement non-linéaire et les rendent particulièrement difficiles à étudier, à simuler et à prévoir. Les réseaux de neurones formels sont des modèles d'apprentissage statistiques qui ont été largement utilisés en hydrologie de surface depuis les années 1990, grâce à leurs propriétés de parcimonie et d'approximation universelle.Dans cette thèse, il est proposé d'utiliser les réseaux de neurones pour étudier le comportement des aquifères karstiques. L'aquifère du Lez est choisi pour appliquer le modèle par réseaux de neurones. Cet aquifère, situé près de l'agglomération de Montpellier (400 000 habitant), est exploité pour fournir de l'eau potable à une grande partie de l'agglomération.Dans un premier temps, un réseau de neurones « classique », de type boîte noire, est appliqué à la simulation et à la prévision des débits de la source du Lez. Une méthode de sélection des entrées de pluie est proposée, couplant analyse par corrélations croisées et méthode de validation croisée. Les résultats montrent l'adéquation du modèle neuronal pour la simulation et la prévision du débit de la source d'un aquifère karstique complexe. Le test du modèle est effectué sur les deux cycles hydrologiques comportant les crues les plus intenses de la base de données. Les hydrogrammes montrent que le modèle neuronal a été capable d'extrapoler puisque les débits prévus pour les crues majeures en test sont corrects et supérieurs aux débits présents dans la base d'apprentissage du modèle. La prévision est acceptable jusqu'à un horizon de prévision de un jour. Dans un second temps, une méthode d'extraction des données contenues dans la boîte noire est proposée. Afin de contraindre le modèle neuronal à donner des valeurs physiquement interprétables, des connaissances a priori sur la géologie de l'aquifère sont incluses dans l'architecture du réseau de neurones. La méthode KnoX (Knowledge eXtraction) proposée dans cette étude permet d'extraire du modèle les contributions des différentes zones géologiques à la source du lez ainsi que les temps de réponse correspondants. L'application de la méthode KnoX a un hydrosystème fictif dont on contrôle en particulier les temps de réponse et les contributions des différents sous-hydrosystèmes fictifs a permis de valider cette méthode. Les résultats obtenus sur le bassin du Lez sont très satisfaisants et en adéquation avec les connaissances actuelles que l'on a sur ce système. De plus la méthode a permis d'affiner ces connaissances, notamment l'infiltration retardée par des aquifères perchés et concernant la limite du bassin d'alimentation de la source du Lez. Enfin, la méthode KnoX est générique et applicable à tout hydrosystème pour lequel on dispose de mesures de pluie et de débit. / Karst is one of the most widespread aquifer formations in the worlds. Their exploitation provides fresh water to practically 25% of the global population. The high level of structure heterogeneity in these aquifers however makes them complex and their behavior is difficult to study, simulate and forecast.Artificial neural networks are machine learning models widely used in surface hydrology since the 90's thanks to their properties of parsimony and universal approximation.In this thesis, artificial neural networks are used to study karst aquifer behavior. Application is done in the Lez. This aquifer situated near Montpellier conurbation (400 000 inhabitants) provides fresh water for a large part of this population.First, a “classical” black box neural network is applied to simulate and forecast Lez spring discharge. A rainfall input selection method is proposed, using cross correlation analysis and cross validation method at the same time. Results show neural model efficiency in order to simulate and forecast the spring discharge of a complex karstic aquifer. The model was tested using two hydrologic cycles including the two most intense floods of the database. Hydrographs shows that neural model was able to extrapolate the maximum flood discharge of the learning database. Forecasting is satisfactory until a one-day horizon.In a second time, extraction of the knowledge data included in the black box is proposed. In order to constrain the model to give physically plausible solution, a priori knowledge about aquifer geology is included into the network architecture. KnoX (Knowledge eXtraction) method proposed in this study aims at extract geological zone contributions to the Lez spring and corresponding response times. The KnoX methodology was applied to a fictitious hydrosystem built using a model with controlled parameters, in particular contributions of subbasin to the outlet and lag time of each subbasin. This application permitted to validate the KnoX methodology. Results obtained on the Lez basin are satisfactory and agree with current knowledge about this hydrosystem. In addition, the KnoX methodology allows to refine this knowledge, in particular concerning delayed infiltration because of infiltration in perched aquifer and concerning Lez spring alimentation basin boundaries. Lastly the KnoX methodology is a generic methodology that can be applied on any basin with available discharge and rainfall data.
|
262 |
Towards a distributed, embodied and computational theory of cooperative interaction / Vers une théorie de la coopération incarnée, distribuée et computationelleLallée, Stéphane 02 April 2012 (has links)
Les robots vont peu à peu intégrer nos foyers sous la forme d’assistants et de compagnons,humanoïdes ou non. Afin de remplir leur rôle efficacement ils devront s’adapter àl’utilisateur, notamment en apprenant de celui-ci le savoir ou les capacités qui leur fontdéfaut. Dans ce but, leur manière d’interagir doit être naturelle et évoquer les mêmesmécanismes coopératifs que ceux présent chez l’homme. Au centre de ces mécanisme setrouve le concept d’action : qu’est-ce qu’une action, comment les humains les reconnaissent,comment les produire ou les décrire ? La modélisation de toutes ces fonctionnalitésconstituera la fondation de cette thèse et permettra la mise en place de mécanismescoopératifs de plus haut niveau, en particulier les plan partagés qui permettent à plusieursindividus d’oeuvrer de concert afin d’atteindre un but commun. Finalement, je présenteraiune différence fondamentale entre la représentation de la connaissance chez l’homme etchez la machine, toujours dans le cadre de l’interaction coopérative : la dissociation possibleentre le corps d’un robot et sa cognition, ce qui n’est pas imaginable chez l’homme. Cettedissociation m’amènera notamment à explorer le « shared experience framework », unesituation dans laquelle une cognition artificielle centrale gère l’expérience partagée demultiples individus ayant chacun une identité propre. Cela m’amènera finalement àquestionner les différentes philosophies de l’esprit du point de vue de l’attribution d’unesprit à une machine et de ce que cela impliquerai quant à l’esprit humain. / Robots will gradually integrate our homes wielding the role of companions, humanoids ornot. In order to cope with this status they will have to adapt to the user, especially bylearning knowledge or skills from him that they may lack. In this context, their interactionshould be natural and evoke the same cooperative mechanisms that humans use. At thecore of those mechanisms is the concept of action: what is an action, how do humansrecognize them, how they produce or describe them? The modeling of aspects of thesefunctionalities will be the basis of this thesis and will allow the implementation of higherlevel cooperative mechanisms. One of these is the ability to handle “shared plans” whichallow two (or more) individuals to cooperate in order to reach a goal shared by all.Throughout the thesis I will attempt to make links between the human development ofthese capabilities, their neurophysiology, and their robotic implementation. As a result ofthis work, I will present a fundamental difference between the representation of knowledgein humans and machines, still in the framework of cooperative interaction: the possibledissociation of a robot body and its cognition, which is not easily imaginable for humans.This dissociation will lead me to explore the “shared experience framework, a situationwhere a central artificial cognition manages the shared knowledge of multiple beings, eachof them owning some kind of individuality. In the end this phenomenon will interrogate thevarious philosophies of mind by asking the question of the attribution of a mind to amachine and the consequences of such a possibility regarding the human mind.
|
263 |
Etude du rôle des canaux TRPC6 et de l'antidépresseur hyperforine dans l'homéostasie du zinc dans les neurones corticaux de souris / Roles of TRPC6 channels and hyperforin in the homeostasis of zinc in cortical neurons of mice.Gibon, Julien 28 September 2011 (has links)
Les canaux TRPC6 sont des canaux cationiques non sélectifs perméables au calcium et au sodium. In vitro, ils laissent passer du manganèse, du baryum ou du fer. Ces canaux peuvent être activés par des analogues du diacylglycérol (SAG ou OAG) et par l'hyperforine (un antidépresseur d'origine végétal). Des expériences de dosages par ICP-OES, d'imagerie synchrotron et d'imagerie de fluorescence du FluoZin-3 ont montré que les cellules HEK surexprimant TRPC6 sont enrichies en zinc. Ces cellules sont plus sensibles à un stress oxydant et produisent plus d'espèces réactives de l'oxygène que les cellules HEK non transfectées. Dans les cellules HEK exprimant TRPC6, l'entrée de zinc en réponse au SAG est plus importante que celle observée dans les cellules HEK ou HEK-TRPC3. Les canaux TRPC6 sont exprimés dans les neurones corticaux. En réalisant des expériences d'imagerie de fluorescence et d'électrophysiologie, nous avons observé que l'activation de ces canaux par le SAG ou par l'hyperforine permettait l'entrée de zinc dans les neurones. La taille du pool de zinc fixé sur des protéines à groupement thiols est augmentée après un influx de zinc via TRPC6. Ceux-ci forment donc une voie d'entrée pour ce métal dans les neurones corticaux embryonnaires. Dans certains types cellulaires, les canaux TRPC6 participent à l'entrée calcique déclenchée en réponse à la déplétion du stock calcique du réticulum (canaux SOC). Cependant, dans les neurones corticaux, les voies SOC et activées par l'hyperforine possèdent des propriétés pharmacologiques distinctes suggérant que les canaux TRPC6 ne participent pas à la voie SOC. L'homéostasie des métaux dans les neurones est perturbée par l'hyperforine. Cet antidépresseur diminue la taille des pools de calcium et de zinc des mitochondries à la fois lors de traitements aigus et chroniques. Une relocalisation du zinc est observée dans les neurones traités de façon chronique à l'hyperforine ainsi qu'une augmentation de l'expression des métallothionéines à la fois in vitro et in vivo. Chez la souris, la quantité de soufre du cerveau est augmentée lors un traitement à l'hyperforine. Celle-ci serait donc un antidépresseur qui module les capacités de stockage du zinc en augmentant le nombre de groupements thiols cellulaires. L'hyperforine est présente dans les extraits de millepertuis. Ceux-ci ont diverses cibles pharmacologiques, agissant notamment sur la voie de signalisation du BDNF. Nos expériences montrent que, lors d'un traitement chronique de souris adultes, l'hyperforine augmente l'expression de TrkB et P-TrkB dans le cortex. In vitro, dans les neurones corticaux, TrkB, CREB et P-CREB sont surexprimés après un traitement de trois jours à l'hyperforine. L'inhibition de la PKA ou le blocage des canaux TRPC6 par le SKF-96365 empêche l'effet de l'hyperforine. Par ailleurs, la chélation du calcium par le BAPTA-AM supprime partiellement l'effet de l'hyperforine. Un traitement chronique avec cet extrait végétal semble agir sur une voie dépendante de la PKA et du calcium pour réguler la phosphorylation de CREB et l'expression de TrkB. Nos expériences montrent que l'effet de l'hyperforine sur les acteurs de la voie du BDNF n'est pas présent au niveau de l'hippocampe où l'expression de TrkB n'est pas affectée. De plus, ces traitements n'influencent pas la neurogenèse adulte chez la souris. L'hyperforine seule n'explique donc pas les effets complexes des extraits de millepertuis sur les activités neuronales. / TRPC6 channels are non selective plasma membrane cation channels permeable to calcium and sodium. In addition, in vitro data showed that they can transport manganese, barium or iron. These channels can be activated by diacylglycerol (DAG) or DAG analogues like SAG or OAG. They are also sensitive to hyperforin (a plant extract exhibiting antidepressant properties). ICP-OES experiments, X-ray synchrotron imaging and live-cell FluoZin-3 imaging show that the over expression of TRPC6 in HEK cells increases their zinc and sulfur content. This enrichment is associated with an increased sensitivity of transfected cells to oxidative stress by enhancing the production of reactive oxygen species in response to oxidative insults. The entry of zinc permitted by SAG or hyperforin is more pronounced in cells over-expressing TRPC6 when compared to HEK or HEK-TRPC3 cells. TRPC6 channels are expressed in cortical neurons. Electrophysiological recordings and experiments with the fluorescent zinc probe FluoZin-3 demonstrated that TRPC6 channels are permeable to zinc in neurons. The size of the 2-2 'dithiodipyridine (DTDP) sensitive pool of zinc is augmented after the entry of this metal through TRPC6. These channels form a zinc entry pathway in cortical neurons. In some cell types, TRPC6 are involved in the mechanism of calcium entry in response to the depletion of intracellular pools of calcium. This calcium entry occurs via store-operated Ca channels (SOC). In our experiments, we have shown that in cortical neurons, hyperforin-sensitive channels and SOC are distinct since they exhibit distinct pharmacological properties. Hyperforin influences the homeostasis of metals in cortical neurons. We found that acute or chronic applications of this antidepressant decreases the size of the mitochondrial pools of calcium and zinc. In addition, in vitro and in vivo data show that a chronic treatment causes a cellular redistribution of zinc, associated with an increased expression of metallothioneins. Furthermore, brains of mice are enriched in sulfur. It seems that this antidepressant influences the zinc storage capacities of brain cells by altering the cellular expression of thiol-containing molecules. Hyperforin is an extract of the medicinal plant St John Worth. This latter one possesses complex properties, acting notably on the BDNF pathway. A chronic treatment with hyperforin increases the expression of TrkB and P-TrkB in the cortex of mice. In cortical neurons, TrkB, CREB and P-CREB are up regulated by a chronic treatment with hyperforin. This process is sensitive to inhibitors of PKA, TRPC6 channels and to the chelator of calcium BAPTA-AM. On the other hand, a chronic treatment with hyperforin does not influence the BDNF pathway in the hippocampus and also does not modulate the adult neurogenesis. Thus, the brain effects of hyperforin are distinct from those induced by the whole St John Worth extract.
|
264 |
Théorie des matrices aléatoires pour l'apprentissage automatique en grande dimension et les réseaux de neurones / A random matrix framework for large dimensional machine learning and neural networksLiao, Zhenyu 30 September 2019 (has links)
Le "Big Data'' et les grands systèmes d'apprentissage sont omniprésents dans les problèmes d'apprentissage automatique aujourd’hui. Contrairement à l'apprentissage de petite dimension, les algorithmes d'apprentissage en grande dimension sont sujets à divers phénomènes contre-intuitifs et se comportent de manière très différente des intuitions de petite dimension sur lesquelles ils sont construits. Cependant, en supposant que la dimension et le nombre des données sont à la fois grands et comparables, la théorie des matrices aléatoires (RMT) fournit une approche systématique pour évaluer le comportement statistique de ces grands systèmes d'apprentissage, lorsqu'ils sont appliqués à des données de grande dimension. L’objectif principal de cette thèse est de proposer un schéma d'analyse basé sur la RMT, pour une grande famille de systèmes d’apprentissage automatique: d'évaluer leurs performances, de mieux les comprendre et finalement les améliorer, afin de mieux gérer les problèmes de grandes dimensions aujourd'hui.Précisément, nous commençons par exploiter la connexion entre les grandes matrices à noyau, les projection aléatoires non-linéaires et les réseaux de neurones aléatoires simples. En considérant que les données sont tirées indépendamment d'un modèle de mélange gaussien, nous fournissons une caractérisation précise des performances de ces systèmes d'apprentissage en grande dimension, exprimée en fonction des statistiques de données, de la dimensionnalité et, surtout, des hyper-paramètres du problème. Lorsque des algorithmes d'apprentissage plus complexes sont considérés, ce schéma d'analyse peut être étendu pour accéder à de systèmes d'apprentissage qui sont définis (implicitement) par des problèmes d'optimisation convexes, lorsque des points optimaux sont atteints. Pour trouver ces points, des méthodes d'optimisation telles que la descente de gradient sont régulièrement utilisées. À cet égard, dans le but d'avoir une meilleur compréhension théorique des mécanismes internes de ces méthodes d'optimisation et, en particulier, leur impact sur le modèle d'apprentissage, nous évaluons aussi la dynamique de descente de gradient dans les problèmes d'optimisation convexes et non convexes.Ces études préliminaires fournissent une première compréhension quantitative des algorithmes d'apprentissage pour le traitement de données en grandes dimensions, ce qui permet de proposer de meilleurs critères de conception pour les grands systèmes d’apprentissage et, par conséquent, d'avoir un gain de performance remarquable lorsqu'il est appliqué à des jeux de données réels. Profondément ancré dans l'idée d'exploiter des données de grandes dimensions avec des informations répétées à un niveau "global'' plutôt qu'à un niveau "local'', ce schéma d'analyse RMT permet une compréhension renouvelée et la possibilité de contrôler et d'améliorer une famille beaucoup plus large de méthodes d'apprentissage automatique, ouvrant ainsi la porte à un nouveau schéma d'apprentissage automatique pour l'intelligence artificielle. / Large dimensional data and learning systems are ubiquitous in modern machine learning. As opposed to small dimensional learning, large dimensional machine learning algorithms are prone to various counterintuitive phenomena and behave strikingly differently from the low dimensional intuitions upon which they are built. Nonetheless, by assuming the data dimension and their number to be both large and comparable, random matrix theory (RMT) provides a systematic approach to assess the (statistical) behavior of these large learning systems, when applied on large dimensional data. The major objective of this thesis is to propose a full-fledged RMT-based framework for various machine learning systems: to assess their performance, to properly understand and to carefully refine them, so as to better handle large dimensional problems that are increasingly needed in artificial intelligence applications.Precisely, we exploit the close connection between kernel matrices, random feature maps, and single-hidden-layer random neural networks. Under a simple Gaussian mixture modeling for the input data, we provide a precise characterization of the performance of these large dimensional learning systems as a function of the data statistics, the dimensionality, and most importantly the hyperparameters (e.g., the choice of the kernel function or activation function) of the problem. Further addressing more involved learning algorithms, we extend the present RMT analysis framework to access large learning systems that are implicitly defined by convex optimization problems (e.g., logistic regression), when optimal points are assumed reachable. To find these optimal points, optimization methods such as gradient descent are regularly used. Aiming to have a better theoretical grasp of the inner mechanism of optimization methods and their impact on the resulting learning model, we further evaluate the gradient descent dynamics in training convex and non-convex objects.These preliminary studies provide a first quantitative understanding of the aforementioned learning algorithms when large dimensional data are processed, which further helps propose better design criteria for large learning systems that result in remarkable gains in performance when applied on real-world datasets. Deeply rooted in the idea of mining large dimensional data with repeated patterns at a global rather than a local level, the proposed RMT analysis framework allows for a renewed understanding and the possibility to control and improve a much larger range of machine learning approaches, and thereby opening the door to a renewed machine learning framework for artificial intelligence.
|
265 |
Etude du peptidome du cervelet de rat au cours du développement et identification des effets neurotrophiques de la nociceptine dans la mise en place des neurones en grain. / A peptidomic approach to characterize peptids involved in cerebellar cortex development heads to the identification of the neurotrophic effects of nociceptinCorbière, Auriane 19 December 2017 (has links)
Le cervelet est une structure cérébrale impliquée dans de multiples fonctions motrices mais aussi cognitives et dont le développement postnatal est sous le contrôle de divers types de facteurs dont les neuropeptides. Les peptides capables d’agir sur le développement du cortex cérébelleux présentent généralement un profil d’expression particulier, avec chez le rongeur un pic d’expression au cours des 2 premières semaines postnatales. L’objectif de cette étude était d’identifier d’autres peptides présentant ce même type d’expression et de caractériser leurs potentiels effets au cours du développement du cortex cérébelleux, et plus particulièrement dans la mise en place des neurones en grain qui sont les plus abondants de cette structure. Pour cela, des cervelets de rats âgés de 8 à 90 jours ont été analysés par spectrométrie de masse. Parmi les 33 peptides identifiés, 4 présentent le profil recherché et nous avons choisi d’étudier l’un d’entre eux, la nociceptine. La mesure de l’expression du gène de la nociceptine et de son récepteur montre un profil d’expression similaire à celui observé en peptidomique. De plus, ces 2 gènes sont retrouvés principalement exprimés dans la couche granulaire interne du cortex cérébelleux par microdissection et qPcr. La recherche de la fonction de la nociceptine montre qu’elle exerce un effet neurotrophique en augmentant la survie et la différenciation des neurones en grain, sans affecter la motilité de ces cellules. Des tests préliminaires réalisés in vivo indiquent que la nociceptine est aussi capable de bloquer la toxicité induite par l’alcool. La dernière partie de l’étude avait pour but d’identifier de nouveaux neuropeptides exprimés dans le cervelet en utilisant une approche par séquençage de novo. L’application de filtres comme la récurrence des séquences peptidiques ou leur régulation au cours du développement a permis de ne retenir que 6 séquences pour la suite de l’analyse. Des études génomiques permettront de restreindre encore ce nombre afin de focaliser les tests d’activité biologique sur la ou les cibles qui ont la plus grande probabilité de correspondre à des peptides biologiquement actifs. / The cerebellum is a structure involved in many motor and cognitive functions whose development occurs after birth under the control of various factors, including neuropeptides. Peptides acting on cerebellar cortex development often exhibit a specific pattern of expression with in rodents a high expression over the 2 first postnatal weeks which then decreases at adulthood. The aim of this study was to identify additional peptides with such expression profile and to characterize their putative functions in the development of the cerebellar cortex and more particularly, in the establishment of cerebellar granule neurons which are the most abundant cells of the cerebellum. To address this, cerebella of rats aged from 8 to 90 days-old were analyzed by mass spectrometry. Among the 33 peptides identified in the cerebellum, 4 had the particular expression profile we were looking for. We choose to study further one of them, i.e. the nociceptin, and confirmed peptidomic results by measuring the expression of its gene precursor and of its receptor. Combining laser microdissection and qPCR approaches revealed that both nociceptin and its receptor genes were expressed in the internal granular layer of the cerebellar cortex. Functional studies showed that nociceptin exerts a neurotrophic effect on granule neurons by increasing their survival and differentiation, but had no effect on their motility. Preliminary in vivo experiments indicate that nociceptin can also counteract ethanol-induced toxicity. The last part of the present study aimed to identify new neuropeptides expressed in the rat cerebellum by using de novo sequencing. The large amount of peptide sequences initially found was then reduced to only 6 candidates for further analysis, by using filters such as recurrence of the sequences and their differential expression in between the four developmental stages considered. Additional genomic studies will help to decrease even further this number, in order to focus the biological tests on the targets which are most likely to code for biological active peptides.
|
266 |
Rhythms and oscillations : a vision for nanoelectronics / Rythmes et oscillations : une vision pour la nanoélectroniqueVodenicarevic, Damir 15 December 2017 (has links)
Avec l'avènement de l'"intelligence artificielle", les ordinateurs, appareils mobiles et objets connectés sont amenés à dépasser les calculs arithmétiques et logiques pour lesquels ils ont été optimisés durant des décennies, afin d'effectuer des tâches "cognitives" telles que la traduction automatique ou la reconnaissance d'images et de voix, et pour lesquelles ils ne sont pas adaptés. Ainsi, un super-calculateur peut-il consommer des mégawatts pour effectuer des tâches que le cerveau humain traite avec 20 watt. Par conséquent, des système de calcul alternatifs inspirés du cerveau font l'objet de recherches importantes. En particulier, les oscillations neurales semblant être liées à certains traitements de données dans le cerveau ont inspiré des approches détournant la physique complexe des réseaux d'oscillateurs couplés pour effectuer des tâches cognitives efficacement. Cette thèse se fonde sur les avancées récentes en nano-technologies permettant la fabrication de nano-oscillateurs hautement intégrables pour proposer et étudier de nouvelles architectures neuro-inspirées de classification de motifs exploitant la dynamique des oscillateurs couplés et pouvant être implémentées sur puce. / With the advent of "artificial intelligence", computers, mobile devices and other connected objects are being pushed beyond the realm of arithmetic and logic operations, for which they have been optimized over decades, in order to process "cognitive" tasks such as automatic translation and image or voice recognition, for which they are not the ideal substrate. As a result, supercomputers may require megawatts to process tasks for which the human brain only needs 20 watt. This has revived interest into the design of alternative computing schemes inspired by the brain. In particular, neural oscillations that appear to be linked to computational activity in the brain have inspired approaches leveraging the complex physics of networks of coupled oscillators in order to process cognitive tasks efficiently. In the light of recent advances in nano-technology allowing the fabrication of highly integrable nano-oscillators, this thesis proposes and studies novel neuro-inspired oscillator-based pattern classification architectures that could be implemented on chip.
|
267 |
Apprentissage local avec des dispositifs de mémoire hautement analogiques / Local learning with highly analog memory devicesBennett, Christopher H. 08 February 2018 (has links)
Dans la prochaine ère de l'informatique distribuée, les ordinateurs inspirés par le cerveau qui effectuent des opérations localement plutôt que dans des serveurs distants seraient un avantage majeur en réduisant les coûts énergétiques et réduisant l'impact environnemental. Une nouvelle génération de nanodispositifs de mémoire non-volatile est un candidat de premier plan pour réaliser cette vision neuromorphique. À l'aide de travaux théoriques et expérimentaux, nous avons exploré les problèmes critiques qui se posent lors de la réalisation physique des architectures de réseaux de neurones artificiels modernes (ANN) en utilisant des dispositifs de mémoire émergents (nanodispositifs « memristifs »). Dans notre travail expérimental, nos dispositifs organiques (polymeriques) se sont adaptés avec succès et automatiquement en tant que portes logiques reconfigurables en coopérant avec un neurone digital et programmable (FGPA). Dans nos travaux théoriques, nous aussi avons considéré les multicouches memristives ANNs. Nous avons développé et simulé des variantes de projection aléatoire (un système NoProp) et de rétropropagation (un système perceptron multicouche) qui utilisent deux crossbars. Ces systèmes d'apprentissage locaux ont montré des dépendances critiques sur les contraintes physiques des nanodispositifs. Enfin, nous avons examiné comment les conceptions ANNs “feed-forward” peuvent être modi-fiées pour exploiter les effets temporels. Nous avons amélioré la bio-inspiration et la performance du système NoProp, par exemple, avec des effets de plasticité dans la première couche. Ces effets ont été obtenus en utilisant un nanodispositif à ionisation d'argent avec un comportement de transition de plasticité intrinsèque. / In the next era of distributed computing, brain-based computers that perform operations locally rather than in remote servers would be a major benefit in reducing global energy costs. A new generation of emerging nonvolatile memory devices is a leading candidate for achieving this neuromorphic vision. Using theoretical and experimental work, we have explored critical issues that arise when physically realizing modern artificial neural network (ANN) architectures using emerging memory devices (“memristors”). In our experimental work, we showed organic nanosynapses adapting automatically as logic gates via a companion digital neuron and programmable logic cell (FGPA). In our theoretical work, we also considered multilayer memristive ANNs. We have developed and simulated random projection (NoProp) and backpropagation (Multilayer Perceptron) variants that use two crossbars. These local learning systems showed critical dependencies on the physical constraints of nanodevices. Finally, we examined how feed-forward ANN designs can be modified to exploit temporal effects. We focused in particular on improving bio-inspiration and performance of the NoProp system, for example, we improved the performance with plasticity effects in the first layer. These effects were obtained using a silver ionic nanodevice with intrinsic plasticity transition behavior.
|
268 |
Neural language models : Dealing with large vocabularies / Modèles de langue neuronaux : Gestion des grands vocabulairesLabeau, Matthieu 21 September 2018 (has links)
Le travail présenté dans cette thèse explore les méthodes pratiques utilisées pour faciliter l'entraînement et améliorer les performances des modèles de langues munis de très grands vocabulaires. La principale limite à l'utilisation des modèles de langue neuronaux est leur coût computationnel: il dépend de la taille du vocabulaire avec laquelle il grandit linéairement. La façon la plus aisée de réduire le temps de calcul de ces modèles reste de limiter la taille du vocabulaire, ce qui est loin d'être satisfaisant pour de nombreuses tâches. La plupart des méthodes existantes pour l'entraînement de ces modèles à grand vocabulaire évitent le calcul de la fonction de partition, qui est utilisée pour forcer la distribution de sortie du modèle à être normalisée en une distribution de probabilités. Ici, nous nous concentrons sur les méthodes à base d'échantillonnage, dont le sampling par importance et l'estimation contrastive bruitée. Ces méthodes permettent de calculer facilement une approximation de cette fonction de partition. L'examen des mécanismes de l'estimation contrastive bruitée nous permet de proposer des solutions qui vont considérablement faciliter l'entraînement, ce que nous montrons expérimentalement. Ensuite, nous utilisons la généralisation d'un ensemble d'objectifs basés sur l'échantillonnage comme divergences de Bregman pour expérimenter avec de nouvelles fonctions objectif. Enfin, nous exploitons les informations données par les unités sous-mots pour enrichir les représentations en sortie du modèle. Nous expérimentons avec différentes architectures, sur le Tchèque, et montrons que les représentations basées sur les caractères permettent l'amélioration des résultats, d'autant plus lorsque l'on réduit conjointement l'utilisation des représentations de mots. / This work investigates practical methods to ease training and improve performances of neural language models with large vocabularies. The main limitation of neural language models is their expensive computational cost: it depends on the size of the vocabulary, with which it grows linearly. Despite several training tricks, the most straightforward way to limit computation time is to limit the vocabulary size, which is not a satisfactory solution for numerous tasks. Most of the existing methods used to train large-vocabulary language models revolve around avoiding the computation of the partition function, ensuring that output scores are normalized into a probability distribution. Here, we focus on sampling-based approaches, including importance sampling and noise contrastive estimation. These methods allow an approximate computation of the partition function. After examining the mechanism of self-normalization in noise-contrastive estimation, we first propose to improve its efficiency with solutions that are adapted to the inner workings of the method and experimentally show that they considerably ease training. Our second contribution is to expand on a generalization of several sampling based objectives as Bregman divergences, in order to experiment with new objectives. We use Beta divergences to derive a set of objectives from which noise contrastive estimation is a particular case. Finally, we aim at improving performances on full vocabulary language models, by augmenting output words representation with subwords. We experiment on a Czech dataset and show that using character-based representations besides word embeddings for output representations gives better results. We also show that reducing the size of the output look-up table improves results even more.
|
269 |
Réseaux de neurones récurrents pour le traitement automatique de la parole / Speech processing using recurrent neural networksGelly, Grégory 22 September 2017 (has links)
Le domaine du traitement automatique de la parole regroupe un très grand nombre de tâches parmi lesquelles on trouve la reconnaissance de la parole, l'identification de la langue ou l'identification du locuteur. Ce domaine de recherche fait l'objet d'études depuis le milieu du vingtième siècle mais la dernière rupture technologique marquante est relativement récente et date du début des années 2010. C'est en effet à ce moment qu'apparaissent des systèmes hybrides utilisant des réseaux de neurones profonds (DNN) qui améliorent très notablement l'état de l'art. Inspirés par le gain de performance apporté par les DNN et par les travaux d'Alex Graves sur les réseaux de neurones récurrents (RNN), nous souhaitions explorer les capacités de ces derniers. En effet, les RNN nous semblaient plus adaptés que les DNN pour traiter au mieux les séquences temporelles du signal de parole. Dans cette thèse, nous nous intéressons tout particulièrement aux RNN à mémoire court-terme persistante (Long Short Term Memory (LSTM) qui permettent de s'affranchir d'un certain nombre de difficultés rencontrées avec des RNN standards. Nous augmentons ce modèle et nous proposons des processus d'optimisation permettant d'améliorer les performances obtenues en segmentation parole/non-parole et en identification de la langue. En particulier, nous introduisons des fonctions de coût dédiées à chacune des deux tâches: un simili-WER pour la segmentation parole/non-parole dans le but de diminuer le taux d'erreur d'un système de reconnaissance de la parole et une fonction de coût dite de proximité angulaire pour les problèmes de classification multi-classes tels que l'identification de la langue parlée. / Automatic speech processing is an active field of research since the 1950s. Within this field the main area of research is automatic speech recognition but simpler tasks such as speech activity detection, language identification or speaker identification are also of great interest to the community. The most recent breakthrough in speech processing appeared around 2010 when speech recognition systems using deep neural networks drastically improved the state-of-the-art. Inspired by this gains and the work of Alex Graves on recurrent neural networks (RNN), we decided to explore the possibilities brought by these models on realistic data for two different tasks: speech activity detection and spoken language identification. In this work, we closely look at a specific model for the RNNs: the Long Short Term Memory (LSTM) which mitigates a lot of the difficulties that can arise when training an RNN. We augment this model and introduce optimization methods that lead to significant performance gains for speech activity detection and language identification. More specifically, we introduce a WER-like loss function to train a speech activity detection system so as to minimize the word error rate of a downstream speech recognition system. We also introduce two different methods to successfully train a multiclass classifier based on neural networks for tasks such as LID. The first one is based on a divide-and-conquer approach and the second one is based on an angular proximity loss function. Both yield performance gains but also speed up the training process.
|
270 |
Neural Methods for Event Extraction / Méthodes neuronales pour l'extraction d'événementsBoroş, Emanuela 27 September 2018 (has links)
Du point de vue du traitement automatique des langues (TAL), l’extraction des événements dans les textes est la forme la plus complexe des processus d’extraction d’information, qui recouvrent de façon plus générale l’extraction des entités nommées et des relations qui les lient dans les textes. Le cas des événements est particulièrement ardu car un événement peut être assimilé à une relation n-aire ou à une configuration de relations. Alors que la recherche en extraction d’information a largement bénéficié des jeux de données étiquetés manuellement pour apprendre des modèles permettant l’analyse des textes, la disponibilité de ces ressources reste un problème important. En outre, de nombreuses approches en extraction d’information fondées sur l’apprentissage automatique reposent sur la possibilité d’extraire à partir des textes de larges en sembles de traits définis manuellement grâce à des outils de TAL élaborés. De ce fait, l’adaptation à un nouveau domaine constitue un défi supplémentaire. Cette thèse présente plusieurs stratégies pour améliorer la performance d’un système d’extraction d’événements en utilisant des approches fondées sur les réseaux de neurones et en exploitant les propriétés morphologiques, syntaxiques et sémantiques des plongements de mots. Ceux-ci ont en effet l’avantage de ne pas nécessiter une modélisation a priori des connaissances du domaine et de générer automatiquement un ensemble de traits beaucoup plus vaste pour apprendre un modèle. Nous avons proposé plus spécifiquement différents modèles d’apprentissage profond pour les deux sous-tâches liées à l’extraction d’événements : la détection d’événements et la détection d’arguments. La détection d’événements est considérée comme une sous-tâche importante de l’extraction d’événements dans la mesure où la détection d’arguments est très directement dépendante de son résultat. La détection d’événements consiste plus précisément à identifier des instances d’événements dans les textes et à les classer en types d’événements précis. En préalable à l’introduction de nos nouveaux modèles, nous commençons par présenter en détail le modèle de l’état de l’art qui en constitue la base. Des expériences approfondies sont menées sur l’utilisation de différents types de plongements de mots et sur l’influence des différents hyperparamètres du modèle en nous appuyant sur le cadre d’évaluation ACE 2005, standard d’évaluation pour cette tâche. Nous proposons ensuite deux nouveaux modèles permettant d’améliorer un système de détection d’événements. L’un permet d’augmenter le contexte pris en compte lors de la prédiction d’une instance d’événement (déclencheur d’événement) en utilisant un contexte phrastique, tandis que l’autre exploite la structure interne des mots en profitant de connaissances morphologiques en apparence moins nécessaires mais dans les faits importantes. Nous proposons enfin de reconsidérer la détection des arguments comme une extraction de relation d’ordre supérieur et nous analysons la dépendance de cette détection vis-à-vis de la détection d’événements. / With the increasing amount of data and the exploding number data sources, the extraction of information about events, whether from the perspective of acquiring knowledge or from a more directly operational perspective, becomes a more and more obvious need. This extraction nevertheless comes up against a recurring difficulty: most of the information is present in documents in a textual form, thus unstructured and difficult to be grasped by the machine. From the point of view of Natural Language Processing (NLP), the extraction of events from texts is the most complex form of Information Extraction (IE) techniques, which more generally encompasses the extraction of named entities and relationships that bind them in the texts. The event extraction task can be represented as a complex combination of relations linked to a set of empirical observations from texts. Compared to relations involving only two entities, there is, therefore, a new dimension that often requires going beyond the scope of the sentence, which constitutes an additional difficulty. In practice, an event is described by a trigger and a set of participants in that event whose values are text excerpts. While IE research has benefited significantly from manually annotated datasets to learn patterns for text analysis, the availability of these resources remains a significant problem. These datasets are often obtained through the sustained efforts of research communities, potentially complemented by crowdsourcing. In addition, many machine learning-based IE approaches rely on the ability to extract large sets of manually defined features from text using sophisticated NLP tools. As a result, adaptation to a new domain is an additional challenge. This thesis presents several strategies for improving the performance of an Event Extraction (EE) system using neural-based approaches exploiting morphological, syntactic, and semantic properties of word embeddings. These have the advantage of not requiring a priori modeling domain knowledge and automatically generate a much larger set of features to learn a model. More specifically, we proposed different deep learning models for two sub-tasks related to EE: event detection and argument detection and classification. Event Detection (ED) is considered an important subtask of event extraction since the detection of arguments is very directly dependent on its outcome. ED specifically involves identifying instances of events in texts and classifying them into specific event types. Classically, the same event may appear as different expressions and these expressions may themselves represent different events in different contexts, hence the difficulty of the task. The detection of the arguments is based on the detection of the expression considered as triggering the event and ensures the recognition of the participants of the event. Among the difficulties to take into account, it should be noted that an argument can be common to several events and that it does not necessarily identify with an easily recognizable named entity. As a preliminary to the introduction of our proposed models, we begin by presenting in detail a state-of-the-art model which constitutes the baseline. In-depth experiments are conducted on the use of different types of word embeddings and the influence of the different hyperparameters of the model using the ACE 2005 evaluation framework, a standard evaluation for this task. We then propose two new models to improve an event detection system. One allows increasing the context taken into account when predicting an event instance by using a sentential context, while the other exploits the internal structure of words by taking advantage of seemingly less obvious but essentially important morphological knowledge. We also reconsider the detection of arguments as a high-order relation extraction and we analyze the dependence of arguments on the ED task.
|
Page generated in 0.0647 seconds