Spelling suggestions: "subject:"réseaux dde neurones"" "subject:"réseaux dee neurones""
91 |
Modélisation de la dépendance et apprentissage automatique dans le contexte du provisionnement individuel et de la solvabilité en actuariat IARDChaoubi, Ihsan 13 December 2023 (has links)
Les compagnies d'assurance jouent un rôle important dans l'économie des pays en s'impliquant de façon notable dans les marchés boursiers, obligataires et immobiliers, d'où la nécessité de préserver leur solvabilité. Le cycle spécifique de production en assurance amène des défis particuliers aux actuaires et aux gestionnaires de risque dans l'accomplissement de leurs tâches. Dans cette thèse, on a pour but de développer des approches et des algorithmes susceptibles d'aider à résoudre certaines problématiques liées aux opérations de provisionnement et de solvabilité d'une compagnie d'assurance. Les notions préliminaires pour ces contributions sont présentées dans l'introduction de cette thèse. Les modèles de provisionnement traditionnels sont fondés sur des informations agrégées. Ils ont connu un grand succès, comme en témoigne le nombre important d'articles et documents actuariels connexes. Cependant, en raison de la perte d'informations individuelles des sinistres, ces modèles représentent certaines limites pour fournir des estimations robustes et réalistes dans des contextes susceptibles d'évoluer. Dans ce sens, les modèles de réserve individuels représentent une alternative prometteuse. En s'inspirant des récentes recherches, on propose dans le Chapitre 1 un modèle de réserve individuel basé sur un réseau de neurones récurrent. Notre réseau a l'avantage d'être flexible pour plusieurs structures de base de données détaillés des sinistres et capable d'incorporer plusieurs informations statiques et dynamiques. À travers plusieurs études de cas avec des jeux de données simulés et réels, le réseau proposé est plus performant que le modèle agrégé chain-ladder. La détermination des exigences de capital pour un portefeuille repose sur une bonne connaissance des distributions marginales ainsi que les structures de dépendance liants les risques individuels. Dans les Chapitres 2 et 3 on s'intéresse à la modélisation de la dépendance et à l'estimation des mesures de risque. Le Chapitre 2 présente une analyse tenant compte des structures de dépendance extrême. Pour un portefeuille à deux risques, on considère en particulier à la dépendance négative extrême (antimonotonocité) qui a été moins étudiée dans la littérature contrairement à la dépendance positive extrême (comonotonocité). On développe des expressions explicites pour des mesures de risque de la somme d'une paire de variables antimontones pour trois familles de distributions. Les expressions explicites obtenues sont très utiles notamment pour quantifier le bénéfice de diversification pour des risques antimonotones. Face à une problématique avec plusieurs lignes d'affaires, plusieurs chercheurs et praticiens se sont intéressés à la modélisation en ayant recours à la théorie des copules au cours de la dernière décennie. Cette dernière fournit un outil flexible pour modéliser la structure de dépendance entre les variables aléatoires qui peuvent représenter, par exemple, des coûts de sinistres pour des contrats d'assurance. En s'inspirant des récentes recherches, dans le Chapitre 3, on définit une nouvelle famille de copules hiérarchiques. L'approche de construction proposée est basée sur une loi mélange exponentielle multivariée dont le vecteur commun est obtenu par une convolution descendante de variables aléatoires indépendantes. En se basant sur les mesures de corrélation des rangs, on propose un algorithme de détermination de la structure, tandis que l'estimation des paramètres est basée sur une vraisemblance composite. La flexibilité et l'utilité de cette famille de copules est démontrée à travers deux études de cas réelles. / Insurance companies play an essential role in the countries economy by monopolizing a large part of the stock, bond, and estate markets, which implies the necessity to preserve their solvency and sustainability. However, the particular production cycle of the insurance industry may involve typical problems for actuaries and risk managers. This thesis project aims to develop approaches and algorithms that can help solve some of the reserving and solvency operations problems. The preliminary concepts for these contributions are presented in the introduction of this thesis. In current reserving practice, we use deterministic and stochastic aggregate methods. These traditional models based on aggregate information have been very successful, as evidenced by many related actuarial articles. However, due to the loss of individual claims information, these models represent some limitations in providing robust and realistic estimates, especially in variable settings. In this context, individual reserve models represent a promising alternative. Based on the recent researches, in Chapter 1, we propose an individual reserve model based on a recurrent neural network. Our network has the advantage of being flexible for several detailed claims datasets structures and incorporating several static and dynamic information. Furthermore, the proposed network outperforms the chain-ladder aggregate model through several case studies with simulated and real datasets. Determining the capital requirements for a portfolio relies on a good knowledge of the marginal distributions and the dependency structures linking the individual risks. In Chapters 2 and 3, we focus on the dependence modeling component as well as on risk measures. Chapter 2 presents an analysis taking into account extreme dependence structures. For a two-risk portfolio, we are particularly interested in extreme negative dependence (antimonotonicity), which has been less studied in the literature than extreme positive dependence (comonotonicity). We develop explicit expressions for risk measures of the sum of a pair of antimonotonic variables for three families of distributions. The explicit expressions obtained are very useful, e.g., to quantify the diversification benefit for antimonotonic risks. For a problem with several lines of business, over the last decade, several researchers and practitioners have been interested in modeling using copula theory. The latter provides a flexible tool for modeling the dependence structure between random variables that may represent, for example, claims costs for insurance contracts. Inspired by some recent researches, in Chapter 3, we define a new family of hierarchical copulas. The proposed construction approach is based on a multivariate exponential mixture distribution whose common vector is obtained by a top-down convolution of independent random variables. A structure determination algorithm is proposed based on rank correlation measures, while the parameter estimation is based on a composite likelihood. The flexibility and usefulness of this family of copulas are demonstrated through two real case studies.
|
92 |
Accélérateur à très basse latence d'un réseau de neurones sur FPGA pour simulations avec matériel dans la boucleBarnard, Christian 17 June 2024 (has links)
Ce mémoire présente les étapes qui ont mené à la conception et l'implémentation d'un accélérateur matériel d'un réseau de neurones qui sera chargé de la modélisation d'un environnement virtuel dans un simulateur de type "Hardware-in-the-Loop" (HIL). Ce module aura pour but d'offrir un environnement crédible à l'unité de contrôle électronique (ECU) testée sous la forme des signaux d'entrée requis par celle-ci. Cette crédibilité devra être reflétée autant au niveau de l'intégrité des prédictions qu'à celui de la latence de réponse aux actions de l'ECU. Ainsi, le modèle d'apprentissage machine sélectionné devra avoir une charge de calcul relativement légère à l'inférence. Puisque le système désiré devra posséder un haut niveau de portabilité et de réutilisabilité pour permettre l'intégration de différents ECU, le modèle devra être entraînable avec une quantité de données limitée. Suivant ces critères et restrictions, plusieurs architectures de réseaux de neurones furent initialement sélectionnées selon leur succès dans la littérature dans des contextes similaires à celui présenté. Les réseaux de type LSTM, GRU, TCN et NARX furent évalués et comparés sur une tâche de régression de séquences nécessitant la génération de signaux représentant les dynamiques d'un véhicule en freinage équipé d'un système ABS. Le modèle TCN fut capable de démontrer les meilleurs résultats sur la tâche en question comparativement aux autres réseaux. Une technique de régularisation utilisant la différentiation numérique des prédictions fut conçue et appliquée à l'entraînement du modèle afin de promouvoir la génération de signaux plus crédibles. Le réseau TCN fut finalement implémenté sur un accélérateur matériel utilisant les technologies FPGA afin de minimiser la latence des prédictions dans le système HIL. Le produit final permet d'offrir une prédiction du prochain état de l'environnement virtuel après 4.45 μs de latence. Cette valeur ne représente que l'inférence du modèle et omet la latence de communication et de conversion des signaux entre le module de prédiction et l'ECU testé. / This thesis presents the design and implementation of a hardware accelerator for a neural network that will be responsible for modeling a virtual environment in a Hardwarein- the-Loop simulator (HIL). This module aims to provide a credible environment to the electronic control unit (ECU) under test in the form of the input signals required by it. This credibility is reflected both in the integrity of the predictions and in the response latency to ECU actions. Thus, the selected machine learning model has a relatively light computational load at inference. Since the desired system possesses a high level of portability and reusability to allow the integration of different ECUs, the model remains trainable with limited data. Following these criteria and restrictions, several neural network architectures were initially selected according to their success in the literature in contexts similar to the one presented. LSTM, GRU, TCN and NARX architectures were evaluated and compared on a sequence regression task requiring generating signals representing the dynamics of a braking vehicle equipped with an ABS. The TCN model demonstrated the best results on the task in question compared to the other networks. A regularization technique using numerical differentiation of predictions was designed and applied to model training to promote the generation of more believable signals. The TCN network was finally implemented on a hardware accelerator using FPGA technologies to minimize the latency of the predictions in the HIL system. The final product makes it possible to offer a prediction of the next state of the virtual environment after 4.45 μs of latency. This value only represents the model inference and omits the communication and signal conversion latency between the prediction module and the ECU under test.
|
93 |
Réseaux de neurones à relaxation entraînés par critère d'autoencodeur débruitantSavard, François 08 1900 (has links)
L’apprentissage machine est un vaste domaine où l’on cherche à apprendre les paramètres
de modèles à partir de données concrètes. Ce sera pour effectuer des tâches demandant
des aptitudes attribuées à l’intelligence humaine, comme la capacité à traiter des don-
nées de haute dimensionnalité présentant beaucoup de variations. Les réseaux de neu-
rones artificiels sont un exemple de tels modèles. Dans certains réseaux de neurones dits
profonds, des concepts "abstraits" sont appris automatiquement.
Les travaux présentés ici prennent leur inspiration de réseaux de neurones profonds,
de réseaux récurrents et de neuroscience du système visuel. Nos tâches de test sont
la classification et le débruitement d’images quasi binaires. On permettra une rétroac-
tion où des représentations de haut niveau (plus "abstraites") influencent des représentations à bas niveau. Cette influence s’effectuera au cours de ce qu’on nomme relaxation,
des itérations où les différents niveaux (ou couches) du modèle s’interinfluencent. Nous
présentons deux familles d’architectures, l’une, l’architecture complètement connectée,
pouvant en principe traiter des données générales et une autre, l’architecture convolutionnelle, plus spécifiquement adaptée aux images. Dans tous les cas, les données utilisées
sont des images, principalement des images de chiffres manuscrits.
Dans un type d’expérience, nous cherchons à reconstruire des données qui ont été
corrompues. On a pu y observer le phénomène d’influence décrit précédemment en comparant le résultat avec et sans la relaxation. On note aussi certains gains numériques et
visuels en terme de performance de reconstruction en ajoutant l’influence des couches
supérieures. Dans un autre type de tâche, la classification, peu de gains ont été observés.
On a tout de même pu constater que dans certains cas la relaxation aiderait à apprendre
des représentations utiles pour classifier des images corrompues. L’architecture convolutionnelle développée, plus incertaine au départ, permet malgré tout d’obtenir des reconstructions numériquement et visuellement semblables à celles obtenues avec l’autre
architecture, même si sa connectivité est contrainte. / Machine learning is a vast field where we seek to learn parameters for models from
concrete data. The goal will be to execute various tasks requiring abilities normally
associated more with human intelligence than with a computer program, such as the
ability to process high dimensional data containing a lot of variations. Artificial neural
networks are a large class of such models. In some neural networks said to be deep, we
can observe that high level (or "abstract") concepts are automatically learned.
The work we present here takes its inspiration from deep neural networks, from
recurrent networks and also from neuroscience of the visual system. Our test tasks are
classification and denoising for near binary images. We aim to take advantage of a
feedback mechanism through which high-level representations, that is to say relatively
abstract concepts, can influence lower-level representations. This influence will happen
during what we call relaxation, which is iterations where the different levels (or layers)
of the model can influence each other. We will present two families of architectures
based on this mechanism. One, the fully connected architecture, can in principle accept
generic data. The other, the convolutional one, is specifically made for images. Both
were trained on images, though, and mostly images of written characters.
In one type of experiment, we want to reconstruct data that has been corrupted. In
these tasks, we have observed the feedback influence phenomenon previously described
by comparing the results we obtained with and without relaxation. We also note some
numerical and visual improvement in terms of reconstruction performance when we add
upper layers’ influence. In another type of task, classification, little gain has been noted.
Still, in one setting where we tried to classify noisy data with a representation trained
without prior class information, relaxation did seem to improve results significantly. The
convolutional architecture, a bit more risky at first, was shown to produce numerical and
visual results in reconstruction that are near those obtained with the fully connected
version, even though the connectivity is much more constrained.
|
94 |
Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiquesBuniet, Laurent 10 February 1997 (has links) (PDF)
Les recherches effectuées dans le domaine de la reconnaissance automatique de la parole (RAP) permettent d'envisager un éventail toujours plus large d'applications industrielles ou grand public. Cependant, la compréhension des mécanismes de production et de reconnaissance de la parole par l'Homme ne suffit pas en elle-même pour élaborer effectivement les dites applications. Les conditions de laboratoire qui ont prévalues lors de l'enregistrement des premiers corpus de parole utilisés à des fins de recherches sont en effet très différentes des conditions réelles que l'on rencontre généralement dans les lieux de travail ou de vie. Ayant le plus souvent été enregistrés en chambre anéchoïde, ces corpus ne permettaient pas plus d'appréhender les dégradations que le milieu peut engendrer sur le signal de parole que de constater quelles pouvaient être les modifications provoquées sur ce signal par un locuteur essayant de s'adapter à son milieu. Certaines des recherches actuelles en RAP essaient donc d'améliorer les capacités de résistance au bruit des systèmes existants. Pour ce faire, il est possible d'utiliser un système d'abord défini pour la reconnaissance de la parole non bruitée en lui ajoutant un mécanisme lui permettant de s'adapter à certaines conditions de bruit. Il est également possible de définir un système ab-nihilo qui soit tout aussi bien adapté aux conditions non bruitées qu'aux conditions bruitées. Le sujet de cette thèse porte sur la reconnaissance de petits vocabulaires, tels que les lettres ou les chiffres, prononcés de manière continue en milieu bruité. Pour mener à bien cette étude, différentes architectures connexionnistes ont été étudiées. L'utilisation de modèles connexionnistes nous a permis de mettre au point, grâce au mécanisme d'apprentissage, des systèmes qui sont immédiatement adaptés à différentes conditions de bruit. Un premier système a été mis en place qui permet, en trois étapes, de reconnaître les mots du vocabulaire étudié. Une première étape identifie des points d'ancrage dans le signal, ces points d'ancrage correspondant à une segmentation des parties vocaliques du signal. Une deuxième étape permet de reconnaître les voyelles contenues dans les segments retenus alors qu'une troisième étape permet de distinguer les différents mots du vocabulaire qui possèdent les mêmes voyelles. Cette architecture, basée sur des perceptrons multicouches, a prouvé être de bonne qualité mais l'étape de segmentation s'est révélée être de moindre qualité à des rapports signal sur bruit faible c'est à dire de l'ordre de 6 décibels ou moins. Ceci nous a poussé à étudier des modèles connexionnistes dynamiques, à l'opposé des perceptrons multicouches qui sont des modèles statiques. Les modèles dynamiques ont la particularité de mettre en place des mécanismes de récurrence qui permettent de mieux appréhender les phénomènes temporels tel que peut l'être un problème de segmentation de la parole. Le modèle gamma, un modèle connexionniste à récurrence locale, a ainsi été choisi tout autant pour ses capacités à modéliser les évènements temporels que pour la facilité avec laquelle il peut être analysé. Il a été appliqué à des problèmes de reconnaissance de séquences, ce qui a permis d'explorer ses capacités, ainsi qu'à des tâches de segmentation, pour tenter de résoudre les problèmes posés par les perceptrons multicouches lors de l'utilisation de notre premier système.
|
95 |
Réseaux de neurones à relaxation entraînés par critère d'autoencodeur débruitantSavard, François 08 1900 (has links)
L’apprentissage machine est un vaste domaine où l’on cherche à apprendre les paramètres
de modèles à partir de données concrètes. Ce sera pour effectuer des tâches demandant
des aptitudes attribuées à l’intelligence humaine, comme la capacité à traiter des don-
nées de haute dimensionnalité présentant beaucoup de variations. Les réseaux de neu-
rones artificiels sont un exemple de tels modèles. Dans certains réseaux de neurones dits
profonds, des concepts "abstraits" sont appris automatiquement.
Les travaux présentés ici prennent leur inspiration de réseaux de neurones profonds,
de réseaux récurrents et de neuroscience du système visuel. Nos tâches de test sont
la classification et le débruitement d’images quasi binaires. On permettra une rétroac-
tion où des représentations de haut niveau (plus "abstraites") influencent des représentations à bas niveau. Cette influence s’effectuera au cours de ce qu’on nomme relaxation,
des itérations où les différents niveaux (ou couches) du modèle s’interinfluencent. Nous
présentons deux familles d’architectures, l’une, l’architecture complètement connectée,
pouvant en principe traiter des données générales et une autre, l’architecture convolutionnelle, plus spécifiquement adaptée aux images. Dans tous les cas, les données utilisées
sont des images, principalement des images de chiffres manuscrits.
Dans un type d’expérience, nous cherchons à reconstruire des données qui ont été
corrompues. On a pu y observer le phénomène d’influence décrit précédemment en comparant le résultat avec et sans la relaxation. On note aussi certains gains numériques et
visuels en terme de performance de reconstruction en ajoutant l’influence des couches
supérieures. Dans un autre type de tâche, la classification, peu de gains ont été observés.
On a tout de même pu constater que dans certains cas la relaxation aiderait à apprendre
des représentations utiles pour classifier des images corrompues. L’architecture convolutionnelle développée, plus incertaine au départ, permet malgré tout d’obtenir des reconstructions numériquement et visuellement semblables à celles obtenues avec l’autre
architecture, même si sa connectivité est contrainte. / Machine learning is a vast field where we seek to learn parameters for models from
concrete data. The goal will be to execute various tasks requiring abilities normally
associated more with human intelligence than with a computer program, such as the
ability to process high dimensional data containing a lot of variations. Artificial neural
networks are a large class of such models. In some neural networks said to be deep, we
can observe that high level (or "abstract") concepts are automatically learned.
The work we present here takes its inspiration from deep neural networks, from
recurrent networks and also from neuroscience of the visual system. Our test tasks are
classification and denoising for near binary images. We aim to take advantage of a
feedback mechanism through which high-level representations, that is to say relatively
abstract concepts, can influence lower-level representations. This influence will happen
during what we call relaxation, which is iterations where the different levels (or layers)
of the model can influence each other. We will present two families of architectures
based on this mechanism. One, the fully connected architecture, can in principle accept
generic data. The other, the convolutional one, is specifically made for images. Both
were trained on images, though, and mostly images of written characters.
In one type of experiment, we want to reconstruct data that has been corrupted. In
these tasks, we have observed the feedback influence phenomenon previously described
by comparing the results we obtained with and without relaxation. We also note some
numerical and visual improvement in terms of reconstruction performance when we add
upper layers’ influence. In another type of task, classification, little gain has been noted.
Still, in one setting where we tried to classify noisy data with a representation trained
without prior class information, relaxation did seem to improve results significantly. The
convolutional architecture, a bit more risky at first, was shown to produce numerical and
visual results in reconstruction that are near those obtained with the fully connected
version, even though the connectivity is much more constrained.
|
96 |
Evaluation automatique des états émotionnels et dépressifs : vers un système de prévention des risques psychosociaux / Automatic evaluation of emotional and depressive states : towards a prevention system for psychosocial risksCholet, Stéphane 17 June 2019 (has links)
Les risques psychosociaux sont un enjeu de santé publique majeur, en particulier à cause des troubles qu'ils peuvent engendrer : stress, changements d'humeurs, burn-out, etc. Bien que le diagnostic de ces troubles doive être réalisé par un professionel, l'Affective Computing peut apporter une contribution en améliorant la compréhension des phénomènes. L'Affective Computing (ou Informatique Affective) est un domaine pluridisciplinaire, faisant intervenir des concepts d'Intelligence Artificielle, de psychologie et de psychiatrie, notamment. Dans ce travail de recherche, on s'intéresse à deux éléments pouvant faire l'objet de troubles : l'état émotionnel et l'état dépressif des individus.Le concept d'émotion couvre un très large champ de définitions et de modélisations, pour la plupart issues de travaux en psychiatrie ou en psychologie. C'est le cas, par exemple, du circumplex de Russell, qui définit une émotion comme étant la combinaison de deux dimensions affectives, nommées valence et arousal. La valence dénote le caractère triste ou joyeux d'un individu, alors que l'arousal qualifie son caractère passif ou actif. L'évaluation automatique des états émotionnels a suscité, dans la dernière décénie, un regain d'intérêt notable. Des méthodes issues de l'Intelligence Artificielle permettent d'atteindre des performances intéressantes, à partir de données capturées de manière non-invasive, comme des vidéos. Cependant, il demeure un aspect peu étudié : celui des intensités émotionnelles, et de la possibilité de les reconnaître. Dans cette thèse, nous avons exploré cet aspect au moyen de méthodes de visualisation et de classification pour montrer que l'usage de classes d'intensités émotionnelles, plutôt que de valeurs continues, bénéficie à la fois à la reconnaissance automatique et à l'interprétation des états.Le concept de dépression connaît un cadre plus strict, dans la mesure où c'est une maladie reconnue en tant que telle. Elle atteint les individus sans distinction d'âge, de genre ou de métier, mais varie en intensité ou en nature des symptômes. Pour cette raison, son étude tant au niveau de la détection que du suivi, présente un intérêt majeur pour la prévention des risques psychosociaux.Toutefois, son diagnostic est rendu difficile par le caractère parfois anodin des symptômes et par la démarche souvent délicate de consulter un spécialiste. L'échelle de Beck et le score associé permettent, au moyen d'un questionnaire, d'évaluer la sévérité de l'état dépressif d'un individu. Le système que nous avons développé est capable de reconnaître automatiquement le score dépressif d'un individu à partir de vidéos. Il comprend, d'une part, un descripteur visuel spatio-temporel bas niveau qui quantifie les micro et les macro-mouvements faciaux et, d'autre part, des méthodes neuronales issues des sciences cognitives. Sa rapidité autorise des applications de reconnaissance des états dépressifs en temps réel, et ses performances sont intéressantes au regard de l'état de l'art. La fusion des modalités visuelles et auditives a également fait l'objet d'une étude, qui montre que l'utilisation de ces deux canaux sensoriels bénéficie à la reconnaissance des états dépressifs.Au-delà des performances et de son originalité, l'un des points forts de ce travail de thèse est l'interprétabilité des méthodes. En effet, dans un contexte pluridisciplinaire tel que celui posé par l'Affective Computing, l'amélioration des connaissances et la compréhension des phénomènes étudiés sont des aspects majeurs que les méthodes informatiques sous forme de "boîte noire" ont souvent du mal à appréhender. / Psychosocial risks are a major public health issue, because of the disorders they can trigger : stress, mood swings, burn-outs, etc. Although propoer diagnosis can only be made by a healthcare professionnel, Affective Computing can make a contribution by improving the understanding of the phenomena. Affective Computing is a multidisciplinary field involving concepts of Artificial Intelligence, psychology and psychiatry, among others. In this research, we are interested in two elements that can be subject to disorders: the emotional state and the depressive state of individuals.The concept of emotion covers a wide range of definitions and models, most of which are based on work in psychiatry or psychology. A famous example is Russell's circumplex, which defines an emotion as the combination of two emotional dimensions, called valence and arousal. Valence denotes an individual's sad or joyful character, while arousal denotes his passive or active character. The automatic evaluation of emotional states has generated a significant revival of interest in the last decade. Methods from Artificial Intelligence allow to achieve interesting performances, from data captured in a non-invasive manner, such as videos. However, there is one aspect that has not been studied much: that of emotional intensities and the possibility of recognizing them. In this thesis, we have explored this aspect using visualization and classification methods to show that the use of emotional intensity classes, rather than continuous values, benefits both automatic recognition and state interpretation.The concept of depression is more strict, as it is a recognized disease as such. It affects individuals regardless of age, gender or occupation, but varies in intensity or nature of symptoms. For this reason, its study, both at the level of detection and monitoring, is of major interest for the prevention of psychosocial risks.However, his diagnosis is made difficult by the sometimes innocuous nature of the symptoms and by the often delicate process of consulting a specialist. The Beck's scale and the associated score allow, by means of a questionnaire, to evaluate the severity of an individual's state of depression. The system we have developed is able to automatically recognize an individual's depressive score from videos. It includes, on the one hand, a low-level visual spatio-temporal descriptor that quantifies micro and macro facial movements and, on the other hand, neural methods from the cognitive sciences. Its speed allows applications for real-time recognition of depressive states, and its performance is interesting with regard to the state of the art. The fusion of visual and auditory modalities has also been studied, showing that the use of these two sensory channels benefits the recognition of depressive states.Beyond performance and originality, one of the strong points of this thesis is the interpretability of the methods. Indeed, in a multidisciplinary context such as that of Affective Computing, improving knowledge and understanding of the studied phenomena is a key point that usual computer methods implemeted as "black boxes" can't deal with.
|
97 |
Deep learning on signals : discretization invariance, lossless compression and nonuniform compressionDemeule, Léa 07 1900 (has links)
Une grande variété d'information se prête bien à être interprétée comme signal; à peu près toute quantité fluctuant continuellement dans l'espace se trouve inclue. La vie quotidienne abonde d'exemples; les images peuvent être vues comme une variation de couleur à travers l'espace bidimensionnel; le son, la pression à travers le temps; les environnements physiques, la matière à travers l'espace tridimensionnel. Les calculs sur ce type d'information requièrent nécessairement une transformation de la forme continue vers la forme discrète, ce qui est accompli par le processus de discrétisation, où seules quelques valeurs du signal continu sous-jacent sont observées et compilées en un signal discret. Sous certaines conditions, à l'aide seulement d'un nombre fini de valeurs observées, le signal discret capture la totalité de l'information comprise dans le signal continu, et permet de le reconstruire parfaitement. Les divers systèmes de senseurs permettant d'acquérir des signaux effectuent tous ce processus jusqu'à un certain niveau de fidélité, qu'il s'agisse d'une caméra, d'un enregistreur audio, ou d'un système de capture tridimensionnelle. Le processus de discrétisation n'est pas unique par contre. Pour un seul signal continu, il existe une infinité de signaux discrets qui lui sont équivalents, et entre lesquels les différences sont contingentes. Ces différences correspondent étroitement aux différences entre systèmes de senseurs, qui ont chacun leur niveau de fidélité et leurs particularités techniques. Les réseaux de neurones profonds sont fréquemment spécialisés pour le type de données spécifiques sur lesquels ils opèrent. Cette spécialisation se traduit souvent par des biais inductifs qui supportent des symétries intrinsèques au type de donnée. Quand le comportement d'une architecture neuronale reste inchangé par une certaine opération, l'architecture est dite invariante sous cette opération. Quand le comportement est affecté d'une manière identique, l'architecture est dite équivariante sous cette opération. Nous explorons en détail l'idée que les architectures neuronales puissent être formulées de façon plus générale si nous abstrayions les spécificités contingentes des signaux discrets, qui dépendent généralement de particularités de systèmes de senseurs, et considérions plutôt l'unique signal continu représenté, qui est la réelle information d'importance. Cette idée correspond au biais inductif de l'invariance à la discrétisation, qui reconnaît que les signaux ont une forme de symétrie à la discrétisation. Nous formulons une architecture très générale qui respecte ce biais inductif. Du fait même, l'architecture gagne la capacité d'être évaluée sur des discrétisations de taille arbitraire avec une grande robustesse, à l'entraînement et à l'inférence. Cela permet d'accéder à de plus grands corpus de données pour l'entraînement, qui peuvent être formés à partir de discrétisations hétérogènes. Cela permet aussi de déployer l'architecture dans un plus grand nombre de contextes où des systèmes de senseurs produisent des discrétisations variées. Nous formulons aussi cette architecture de façon à se généraliser à n'importe quel nombre de dimensions, ce qui la rend idéale pour une grande variété de signaux. Nous notons aussi que son coût d'évaluation diminue avec la taille de la discrétisation, ce qui est peu commun d'architectures conçues pour les signaux, qui ont généralement une discrétisation fixe. Nous remarquons qu'il existe un lien entre l'invariance à la discrétisation, et la distinction séparant l'équivariance à la translation discrète et l'équivariance à la translation continue. Ces deux propriétés reflètent la même symétrie à la translation, mais l'une est plus diluée que l'autre. Nous notons que la plus grande part de la littérature entourant les architectures motivées par l'algèbre générale omettent cette distinction, ce qui affaiblit la force des biais inductifs implémentés. Nous incorporons aussi dans notre méthode la capacité d'implémenter d'autres invariances and equivariances plus générales à l'aide de couches formulées à partir de l'opérateur de dérivée partielle. La symétrie à la translation, la rotation, la réflexion, et la mise à l'échelle peuvent être adoptées, et l'expressivité et l'efficacité en paramètres de la couche résultante sont excellentes. Nous introduisons aussi un nouveau bloc résiduel Laplacien, qui permet de compresser l'architecture sans perte en fonction de la densité de la discrétisation. À mesure que le nombre d'échantillons de la discrétisation réduit, le nombre de couches requises pour l'évaluation diminue aussi. Le coût de calcul de l'architecture diminue ainsi à mesure que certaines de ses couches sont retirées, mais elle se comporte de façon virtuellement identique; c'est ainsi une forme de compression sans perte qui est appliquée. La validité de cette compression sans perte est prouvée théoriquement, et démontrée empiriquement. Cette capacité est absente de la littérature antérieure, au meilleur de notre savoir. Nous greffons à ce mécanisme une forme de décrochage Laplacien, qui applique effectivement une augmentation spectrale aux données pendant l'entraînement. Cela mène à une grande augmentation de la robustesse de l'architecture à des dégradations de qualité de la discrétisation, sans toutefois compromettre sa capacité à performer optimalement sur des discrétisations de haute qualité. Nous n'observons pas cette capacité dans les méthodes comparées. Nous introduisons aussi un algorithme d'initialisation des poids qui ne dépend pas de dérivations analytiques, ce qui permet un prototypage rapide de couches plus exotiques. Nous introduisons finalement une méthode qui généralise notre architecture de l'application à des signaux échantillonnés uniformément vers des signaux échantillonnés non uniformément. Les garanties théoriques que nous fournissons sur son efficacité d'échantillonnage sont positives, mais la complexité ajoutée par la méthode limite malheureusement sa viabilité. / Signals are a useful representation for many types of information that consist of continuously changing quantities. Examples from everyday life are abundant: images are fluctuations of colour over two-dimensional space; sounds are fluctuations of air pressure over time; physical environments are fluctuations of material qualities over three-dimensional space. Computation over this information requires that we reduce its continuous form to some discrete form. This is done through the process of discretization, where only a few values of the underlying continuous signal are observed and compiled into a discrete signal. This process incurs no loss of information and is reversible under some conditions. Sensor systems, such as cameras, sound recorders, and laser scanners all effectively perform discretization when they capture signals, and they preserve them up to a certain degree. This process is not unique, however. Given a single continuous signal, there are countless discrete signals that correspond to it, and the specific choice of discrete signal is generally contingent. Sensor systems all have different technical characteristics that lead to different discretizations. Deep neural network architectures are often tailored to respect the fundamental properties of the specific data type they operate on. Their behaviour often implements inductive biases that respect some fundamental symmetry of the data. When behaviour is unchanged by some operation, the architecture is invariant under it. When behaviour transparently reproduces some operation, the architecture is equivariant under it. We explore in great detail the idea that neural network architectures can be formulated in a more general way if we abstract away the contingent details of the discrete signal, which generally depend on the implementation details of a sensor system, and only consider the underlying continuous signal, which is the true information of interest. This is the intuitive idea behind discretization invariance. We formulate a very general architecture that implements this inductive bias. This allows handling discretizations of various sizes with much greater robustness, both during training and inference. We find that training can leverage more data by allowing heterogeneous discretizations, and that inference can apply to discretizations produced by a broader range of sensor systems. The architecture is agnostic to dimensionality, which makes it widely applicable to different types of signals. The architecture also lowers its computational cost proportionally to the sample count, which is unusual and highly desirable. We find that discretization invariance is also key to the distinction between discrete shift equivariance and continuous shift equivariance. We underline the fact that the majority of previous work on architecture design motivated by abstract algebra fails to consider this distinction. This nuance impacts the robustness of convolutional neural network architectures to translations on signals, weakening their inductive biases if unaddressed. We also incorporate the ability to implement more general invariances and equivariances by formulating steerable layers based on the partial derivative operator, and a set of other compatible architectural blocks. The framework we propose supports shift, rotation, reflection, and scale. We find that this results in excellent expressivity and parameter efficiency. We further improve computational efficiency with a novel Laplacian residual structure that allows lossless compression of the whole network depending on the sample density of the discretization. As the number of samples reduces, the number of layers required for evaluation also reduces. Pruning these layers reduces computational cost and has virtually no effect on the behaviour of the architecture. This is proven theoretically and demonstrated empirically. This capability is absent from any prior work to our knowledge. We also incorporate a novel form of Laplacian dropout within this structure, which performs a spectral augmentation to the data during training. This leads to greatly improved robustness to changes in spectral volume, meaning the architecture has a much greater tolerance to low-quality discretizations without compromising its performance on high-quality discretization. We do not observe this phenomenon in competing methods. We also provide a simple data-driven weight initialization scheme that allows quickly prototyping exotic layer types without analytically deriving weight initialization. We finally provide a method that generalizes our architecture from uniformly sampled signals to nonuniformly sampled signals. While the best-case theoretical guarantees it provides for sample efficiency are excellent, we find it is not viable in practice because of the complications it brings to the discretization of the architecture.
|
98 |
Systèmes neuromorphiques: Etude et implantation de fonctions d'apprentissage et de plasticitéDaouzli, Adel 18 June 2009 (has links) (PDF)
Dans ces travaux de thèse, nous nous sommes intéressés à l'infuence du bruit synaptique sur la plasticité synaptique dans un réseau de neurones biophysiquement réalistes. Le simulateur utilisé est un système électronique neuromorphique. Nous avons implanté un modèle de neurones à conductances basé sur le formalisme de Hodgkin et Huxley, et un modèle biophysique de plasticité. Ces travaux ont inclus la configuration du système, le développement d'outils pour l'exploiter, son utilisation ainsi que la mise en place d'une plateforme le rendant accessible à la communauté scientique via Internet et l'utilisation de scripts PyNN (langage de description de simulations en neurosciences computationnelles).
|
99 |
Diagnostic de groupes électrogènes diesel par analyse de la vitesse de rotation du vilebrequinDesbazeille, Mathieu 02 July 2010 (has links) (PDF)
Cette thèse porte sur le diagnostic d'un moteur diesel vingt cylindres entraînant un groupe électrogène de secours de centrale nucléaire. L'objectif est de réaliser un diagnostic de ce moteur à partir d'une mesure des fluctuations de vitesse du vilebrequin. L'étude s'est focalisée sur les défauts affectant le processus de combustion. Du fait des dimensions imposantes du moteur, les premiers modes de torsion du vilebrequin sont situés dans les basses fréquences. La superposition des ondes de torsion au déplacement du vilebrequin en tant que corps rigide complique considérablement l'analyse du signal. Peu de travaux ont ainsi été entrepris sur un moteur aussi gros. Dans cette thèse, un modèle dynamique en torsion du vilebrequin sous l'hypothèse d'élasticité de celui-ci est tout d'abord établi. Les paramètres de ce modèle sont optimisés afin de reproduire au mieux la réponse en vitesse réelle du vilebrequin. Une méthode de diagnostic originale basée sur une reconnaissance de formes du signal de vitesse est ensuite proposée. En ffet, du fait de l'excitation des premiers modes de torsion, la réponse en vitesse du système présente une signature distincte en fonction du cylindre défectueux. Les formes types, représentatives des différents modes de fonctionnement du moteur, sont obtenues à partir du modèle précédemment établi et non à partir d'essais expérimentaux constituant ainsi la principale originalité de ce travail. Les résultats obtenus en phase opérationnelle sont encourageants. Un défaut réel de combustion a été correctement diagnostiqué incluant la détection du défaut, la localisation du cylindre défectueux ainsi que la quantification de la sévérité du défaut.
|
100 |
Estimation de paramètres de modèles de neurones biologiques sur une plate-forme de SNN (Spiking Neural Network) implantés "in silico"Buhry, Laure 21 September 2010 (has links) (PDF)
Ces travaux de thèse, réalisés dans une équipe concevant des circuits analogiques neuromimétiques suivant le modèle d'Hodgkin-Huxley, concernent la modélisation de neurones biologiques, plus précisément, l'estimation des paramètres de modèles de neurones. Une première partie de ce manuscrit s'attache à faire le lien entre la modélisation neuronale et l'optimisation. L'accent est mis sur le modèle d'Hodgkin- Huxley pour lequel il existait déjà une méthode d'extraction des paramètres associée à une technique de mesures électrophysiologiques (le voltage-clamp) mais dont les approximations successives rendaient impossible la détermination précise de certains paramètres. Nous proposons dans une seconde partie une méthode alternative d'estimation des paramètres du modèle d'Hodgkin-Huxley s'appuyant sur l'algorithme d'évolution différentielle et qui pallie les limitations de la méthode classique. Cette alternative permet d'estimer conjointement tous les paramètres d'un même canal ionique. Le troisième chapitre est divisé en trois sections. Dans les deux premières, nous appliquons notre nouvelle technique à l'estimation des paramètres du même modèle à partir de données biologiques, puis développons un protocole automatisé de réglage de circuits neuromimétiques, canal ionique par canal ionique. La troisième section présente une méthode d'estimation des paramètres à partir d'enregistrements de la tension de membrane d'un neurone, données dont l'acquisition est plus aisée que celle des courants ioniques. Le quatrième et dernier chapitre, quant à lui, est une ouverture vers l'utilisation de petits réseaux d'une centaine de neurones électroniques : nous réalisons une étude logicielle de l'influence des propriétés intrinsèques de la cellule sur le comportement global du réseau dans le cadre des oscillations gamma.
|
Page generated in 0.0512 seconds