Spelling suggestions: "subject:"réseau dde neurones"" "subject:"réseau dee neurones""
161 |
Feedforward deep architectures for classification and synthesisWarde-Farley, David 08 1900 (has links)
No description available.
|
162 |
Neural networks regularization through representation learning / Régularisation des réseaux de neurones via l'apprentissage des représentationsBelharbi, Soufiane 06 July 2018 (has links)
Les modèles de réseaux de neurones et en particulier les modèles profonds sont aujourd'hui l'un des modèles à l'état de l'art en apprentissage automatique et ses applications. Les réseaux de neurones profonds récents possèdent de nombreuses couches cachées ce qui augmente significativement le nombre total de paramètres. L'apprentissage de ce genre de modèles nécessite donc un grand nombre d'exemples étiquetés, qui ne sont pas toujours disponibles en pratique. Le sur-apprentissage est un des problèmes fondamentaux des réseaux de neurones, qui se produit lorsque le modèle apprend par coeur les données d'apprentissage, menant à des difficultés à généraliser sur de nouvelles données. Le problème du sur-apprentissage des réseaux de neurones est le thème principal abordé dans cette thèse. Dans la littérature, plusieurs solutions ont été proposées pour remédier à ce problème, tels que l'augmentation de données, l'arrêt prématuré de l'apprentissage ("early stopping"), ou encore des techniques plus spécifiques aux réseaux de neurones comme le "dropout" ou la "batch normalization". Dans cette thèse, nous abordons le sur-apprentissage des réseaux de neurones profonds sous l'angle de l'apprentissage de représentations, en considérant l'apprentissage avec peu de données. Pour aboutir à cet objectif, nous avons proposé trois différentes contributions. La première contribution, présentée dans le chapitre 2, concerne les problèmes à sorties structurées dans lesquels les variables de sortie sont à grande dimension et sont généralement liées par des relations structurelles. Notre proposition vise à exploiter ces relations structurelles en les apprenant de manière non-supervisée avec des autoencodeurs. Nous avons validé notre approche sur un problème de régression multiple appliquée à la détection de points d'intérêt dans des images de visages. Notre approche a montré une accélération de l'apprentissage des réseaux et une amélioration de leur généralisation. La deuxième contribution, présentée dans le chapitre 3, exploite la connaissance a priori sur les représentations à l'intérieur des couches cachées dans le cadre d'une tâche de classification. Cet à priori est basé sur la simple idée que les exemples d'une même classe doivent avoir la même représentation interne. Nous avons formalisé cet à priori sous la forme d'une pénalité que nous avons rajoutée à la fonction de perte. Des expérimentations empiriques sur la base MNIST et ses variantes ont montré des améliorations dans la généralisation des réseaux de neurones, particulièrement dans le cas où peu de données d'apprentissage sont utilisées. Notre troisième et dernière contribution, présentée dans le chapitre 4, montre l'intérêt du transfert d'apprentissage ("transfer learning") dans des applications dans lesquelles peu de données d'apprentissage sont disponibles. L'idée principale consiste à pré-apprendre les filtres d'un réseau à convolution sur une tâche source avec une grande base de données (ImageNet par exemple), pour les insérer par la suite dans un nouveau réseau sur la tâche cible. Dans le cadre d'une collaboration avec le centre de lutte contre le cancer "Henri Becquerel de Rouen", nous avons construit un système automatique basé sur ce type de transfert d'apprentissage pour une application médicale où l'on dispose d’un faible jeu de données étiquetées. Dans cette application, la tâche consiste à localiser la troisième vertèbre lombaire dans un examen de type scanner. L’utilisation du transfert d’apprentissage ainsi que de prétraitements et de post traitements adaptés a permis d’obtenir des bons résultats, autorisant la mise en oeuvre du modèle en routine clinique. / Neural network models and deep models are one of the leading and state of the art models in machine learning. They have been applied in many different domains. Most successful deep neural models are the ones with many layers which highly increases their number of parameters. Training such models requires a large number of training samples which is not always available. One of the fundamental issues in neural networks is overfitting which is the issue tackled in this thesis. Such problem often occurs when the training of large models is performed using few training samples. Many approaches have been proposed to prevent the network from overfitting and improve its generalization performance such as data augmentation, early stopping, parameters sharing, unsupervised learning, dropout, batch normalization, etc. In this thesis, we tackle the neural network overfitting issue from a representation learning perspective by considering the situation where few training samples are available which is the case of many real world applications. We propose three contributions. The first one presented in chapter 2 is dedicated to dealing with structured output problems to perform multivariate regression when the output variable y contains structural dependencies between its components. Our proposal aims mainly at exploiting these dependencies by learning them in an unsupervised way. Validated on a facial landmark detection problem, learning the structure of the output data has shown to improve the network generalization and speedup its training. The second contribution described in chapter 3 deals with the classification task where we propose to exploit prior knowledge about the internal representation of the hidden layers in neural networks. This prior is based on the idea that samples within the same class should have the same internal representation. We formulate this prior as a penalty that we add to the training cost to be minimized. Empirical experiments over MNIST and its variants showed an improvement of the network generalization when using only few training samples. Our last contribution presented in chapter 4 showed the interest of transfer learning in applications where only few samples are available. The idea consists in re-using the filters of pre-trained convolutional networks that have been trained on large datasets such as ImageNet. Such pre-trained filters are plugged into a new convolutional network with new dense layers. Then, the whole network is trained over a new task. In this contribution, we provide an automatic system based on such learning scheme with an application to medical domain. In this application, the task consists in localizing the third lumbar vertebra in a 3D CT scan. A pre-processing of the 3D CT scan to obtain a 2D representation and a post-processing to refine the decision are included in the proposed system. This work has been done in collaboration with the clinic "Rouen Henri Becquerel Center" who provided us with data
|
163 |
Détection de changement en imagerie satellitaire multimodaleTouati, Redha 04 1900 (has links)
The purpose of this research is to study the detection of temporal changes between
two (or more) multimodal images satellites, i.e., between two different imaging
modalities acquired by two heterogeneous sensors, giving for the same scene two images
encoded differently and depending on the nature of the sensor used for each
acquisition. The two (or multiple) multimodal satellite images are acquired and coregistered
at two different dates, usually before and after an event.
In this study, we propose new models belonging to different categories of multimodal
change detection in remote sensing imagery. As a first contribution, we present a new
constraint scenario expressed on every pair of pixels existing in the before and after
image change. A second contribution of our work is to propose a spatio-temporal textural
gradient operator expressed with complementary norms and also a new filtering
strategy of the difference map resulting from this operator. Another contribution
consists in constructing an observation field from a pair of pixels and to infer a solution
maximum a posteriori sense. A fourth contribution is proposed which consists
to build a common feature space for the two heterogeneous images. Our fifth contribution
lies in the modeling of patterns of change by anomalies and on the analysis
of reconstruction errors which we propose to learn a non-supervised model from a
training base consisting only of patterns of no-change in order that the built model
reconstruct the normal patterns (non-changes) with a small reconstruction error. In
the sixth contribution, we propose a pairwise learning architecture based on a pseudosiamese
CNN network that takes as input a pair of data instead of a single data and
constitutes two partly uncoupled CNN parallel network streams (descriptors) followed
by a decision network that includes fusion layers and a loss layer in the sense of the entropy criterion.
The proposed models are enough flexible to be used effectively in the monomodal
change detection case. / Cette recherche a pour objet l’étude de la détection de changements temporels entre deux (ou plusieurs) images satellitaires multimodales, i.e., avec deux modalités d’imagerie différentes acquises par deux capteurs hétérogènes donnant pour la même scène deux images encodées différemment suivant la nature du capteur utilisé pour chacune des prises de vues. Les deux (ou multiples) images satellitaires multimodales sont prises et co-enregistrées à deux dates différentes, avant et après un événement. Dans le cadre de cette étude, nous proposons des nouveaux modèles de détection de changement en imagerie satellitaire multimodale semi ou non supervisés. Comme première contribution, nous présentons un nouveau scénario de contraintes exprimé sur chaque paire de pixels existant dans l’image avant et après changement. Une deuxième contribution de notre travail consiste à proposer un opérateur de gradient textural spatio-temporel exprimé avec des normes complémentaires ainsi qu’une nouvelle stratégie de dé-bruitage de la carte de différence issue de cet opérateur. Une autre contribution consiste à construire un champ d’observation à partir d’une modélisation par paires de pixels et proposer une solution au sens du maximum a posteriori. Une quatrième contribution est proposée et consiste à construire un espace commun de caractéristiques pour les deux images hétérogènes. Notre cinquième contribution réside dans la modélisation des zones de changement comme étant des anomalies et sur l’analyse des erreurs de reconstruction dont nous proposons d’apprendre un modèle non-supervisé à partir d’une base d’apprentissage constituée seulement de zones de non-changement afin que le modèle reconstruit les motifs de non-changement avec une faible erreur. Dans la dernière contribution, nous proposons une architecture d’apprentissage par paires de pixels basée sur un réseau CNN pseudo-siamois qui prend en entrée une paire de données au lieu d’une seule donnée et est constituée de deux flux de réseau (descripteur) CNN parallèles et partiellement non-couplés suivis d’un réseau de décision qui comprend de couche de fusion et une couche de classification au sens du critère d’entropie. Les modèles proposés s’avèrent assez flexibles pour être utilisés efficacement dans le cas des données-images mono-modales.
|
164 |
Stabilité pour des modèles de réseaux de neurones et de chimiotaxie / Stability for the models of neuronal network and chemotaxisWeng, Qilong 29 September 2017 (has links)
Cette thèse vise à étudier certains modèles biologiques dans le réseau neuronal et dans la chimiotaxie avec la méthode d’analyse spectrale. Afin de traiter les principaux problèmes, tels que l’existence et l’unicité des solutions et des états stationnaires ainsi que les comportements asymptotiques, le modèle linéaire ou linéarisé associé est considéré par l’aspect du spectre et des semi-groupes dans les espaces appropriés, puis la stabilité de modèle non linéaire suit. Plus précisément, nous commençons par une équation de courses-et-chutes linéaire dans la dimension d≥1 pour établir l’existence d’un état stationnaire unique, positif et normalisé et la stabilité exponentielle asymptotique dans l’espace L¹ pondéré basé sur la théorie de Kerin-Rutman avec quelques estimations du moment de la théorie cinétique. Ensuite, nous considérons le modèle du temps écoulé sous les hypothèses générales sur le taux de tir et nous prouvons l’unicité de l’état stationnaire et sa stabilité exponentielle non linéaire en cas sans ou avec délai au régime de connectivité faible de la théorie de l’analyse spectrale pour les semi-groupes. Enfin, nous étudions le modèle sous une hypothèse de régularité plus faible sur le taux de tir et l’existence de la solution ainsi que la même stabilité exponentielle sont généralement établies n’importe la prise en compte du délai ou non, au régime de connectivité faible ou forte. / This thesis is aimed to study some biological models in neuronal network and chemotaxis with the spectral analysis method. In order to deal with the main concerning problems, such as the existence and uniqueness of the solutions and steady states as well as the asymptotic behaviors, the associated linear or linearized model is considered from the aspect of spectrum and semigroups in appropriate spaces then the nonlinear stability follows. More precisely, we start with a linear runs-and-tumbles equation in dimension d≥1 to establish the existence of a unique positive and normalized steady state and the exponential asymptotic stability in weighted L¹ space based on the Krein-Rutman theory together with some moment estimates from kinetic theory. Then, we consider time elapsed model under general assumptions on the firing rate and prove the uniqueness of the steady state and its nonlinear exponential stability in case without or with delay in the weak connectivity regime from the spectral analysis theory for semigroups. Finally, we study the model under weaker regularity assumption on the firing rate and the existence of the solution as well as the same exponential stability are established generally no matter taking delay into account or not and no matter in weak or strong connectivity regime.
|
165 |
Apprentissage basé sur le Qini pour la prédiction de l’effet causal conditionnelBelbahri, Mouloud-Beallah 08 1900 (has links)
Les modèles uplift (levier en français) traitent de l'inférence de cause à effet pour un facteur spécifique, comme une intervention de marketing. En pratique, ces modèles sont construits sur des données individuelles issues d'expériences randomisées. Un groupe traitement comprend des individus qui font l'objet d'une action; un groupe témoin sert de comparaison. La modélisation uplift est utilisée pour ordonner les individus par rapport à la valeur d'un effet causal, par exemple, positif, neutre ou négatif.
Dans un premier temps, nous proposons une nouvelle façon d'effectuer la sélection de modèles pour la régression uplift. Notre méthodologie est basée sur la maximisation du coefficient Qini. Étant donné que la sélection du modèle correspond à la sélection des variables, la tâche est difficile si elle est effectuée de manière directe lorsque le nombre de variables à prendre en compte est grand. Pour rechercher de manière réaliste un bon modèle, nous avons conçu une méthode de recherche basée sur une exploration efficace de l'espace des coefficients de régression combinée à une pénalisation de type lasso de la log-vraisemblance. Il n'y a pas d'expression analytique explicite pour la surface Qini, donc la dévoiler n'est pas facile. Notre idée est de découvrir progressivement la surface Qini comparable à l'optimisation sans dérivée. Le but est de trouver un maximum local raisonnable du Qini en explorant la surface près des valeurs optimales des coefficients pénalisés. Nous partageons ouvertement nos codes à travers la librairie R tools4uplift. Bien qu'il existe des méthodes de calcul disponibles pour la modélisation uplift, la plupart d'entre elles excluent les modèles de régression statistique. Notre librairie entend combler cette lacune. Cette librairie comprend des outils pour: i) la discrétisation, ii) la visualisation, iii) la sélection de variables, iv) l'estimation des paramètres et v) la validation du modèle. Cette librairie permet aux praticiens d'utiliser nos méthodes avec aise et de se référer aux articles méthodologiques afin de lire les détails.
L'uplift est un cas particulier d'inférence causale. L'inférence causale essaie de répondre à des questions telle que « Quel serait le résultat si nous donnions à ce patient un traitement A au lieu du traitement B? ». La réponse à cette question est ensuite utilisée comme prédiction pour un nouveau patient. Dans la deuxième partie de la thèse, c’est sur la prédiction que nous avons davantage insisté. La plupart des approches existantes sont des adaptations de forêts aléatoires pour le cas de l'uplift. Plusieurs critères de segmentation ont été proposés dans la littérature, tous reposant sur la maximisation de l'hétérogénéité. Cependant, dans la pratique, ces approches sont sujettes au sur-ajustement. Nous apportons une nouvelle vision pour améliorer la prédiction de l'uplift. Nous proposons une nouvelle fonction de perte définie en tirant parti d'un lien avec l'interprétation bayésienne du risque relatif. Notre solution est développée pour une architecture de réseau de neurones jumeaux spécifique permettant d'optimiser conjointement les probabilités marginales de succès pour les individus traités et non-traités. Nous montrons que ce modèle est une généralisation du modèle d'interaction logistique de l'uplift. Nous modifions également l'algorithme de descente de gradient stochastique pour permettre des solutions parcimonieuses structurées. Cela aide dans une large mesure à ajuster nos modèles uplift. Nous partageons ouvertement nos codes Python pour les praticiens désireux d'utiliser nos algorithmes.
Nous avons eu la rare opportunité de collaborer avec l'industrie afin d'avoir accès à des données provenant de campagnes de marketing à grande échelle favorables à l'application de nos méthodes. Nous montrons empiriquement que nos méthodes sont compétitives avec l'état de l'art sur les données réelles ainsi qu'à travers plusieurs scénarios de simulations. / Uplift models deal with cause-and-effect inference for a specific factor, such as a marketing intervention. In practice, these models are built on individual data from randomized experiments. A targeted group contains individuals who are subject to an action; a control group serves for comparison. Uplift modeling is used to order the individuals with respect to the value of a causal effect, e.g., positive, neutral, or negative.
First, we propose a new way to perform model selection in uplift regression models. Our methodology is based on the maximization of the Qini coefficient. Because model selection corresponds to variable selection, the task is haunting and intractable if done in a straightforward manner when the number of variables to consider is large. To realistically search for a good model, we conceived a searching method based on an efficient exploration of the regression coefficients space combined with a lasso penalization of the log-likelihood. There is no explicit analytical expression for the Qini surface, so unveiling it is not easy. Our idea is to gradually uncover the Qini surface in a manner inspired by surface response designs. The goal is to find a reasonable local maximum of the Qini by exploring the surface near optimal values of the penalized coefficients. We openly share our codes through the R Package tools4uplift. Though there are some computational methods available for uplift modeling, most of them exclude statistical regression models. Our package intends to fill this gap. This package comprises tools for: i) quantization, ii) visualization, iii) variable selection, iv) parameters estimation and v) model validation. This library allows practitioners to use our methods with ease and to refer to methodological papers in order to read the details.
Uplift is a particular case of causal inference. Causal inference tries to answer questions such as ``What would be the result if we gave this patient treatment A instead of treatment B?" . The answer to this question is then used as a prediction for a new patient. In the second part of the thesis, it is on the prediction that we have placed more emphasis. Most existing approaches are adaptations of random forests for the uplift case. Several split criteria have been proposed in the literature, all relying on maximizing heterogeneity. However, in practice, these approaches are prone to overfitting. In this work, we bring a new vision to uplift modeling. We propose a new loss function defined by leveraging a connection with the Bayesian interpretation of the relative risk. Our solution is developed for a specific twin neural network architecture allowing to jointly optimize the marginal probabilities of success for treated and control individuals. We show that this model is a generalization of the uplift logistic interaction model. We modify the stochastic gradient descent algorithm to allow for structured sparse solutions. This helps fitting our uplift models to a great extent. We openly share our Python codes for practitioners wishing to use our algorithms.
We had the rare opportunity to collaborate with industry to get access to data from large-scale marketing campaigns favorable to the application of our methods. We show empirically that our methods are competitive with the state of the art on real data and through several simulation setting scenarios.
|
166 |
Taxonomy of datasets in graph learning : a data-driven approach to improve GNN benchmarkingCantürk, Semih 12 1900 (has links)
The core research of this thesis, mostly comprising chapter four, has been accepted to the Learning on Graphs (LoG) 2022 conference for a spotlight presentation as a standalone paper, under the title "Taxonomy of Benchmarks in Graph Representation Learning", and is to be published in the Proceedings of Machine Learning Research (PMLR) series. As a main author of the paper, my specific contributions to this paper cover problem formulation, design and implementation of our taxonomy framework and experimental pipeline, collation of our results and of course the writing of the article. / L'apprentissage profond sur les graphes a atteint des niveaux de succès sans précédent ces dernières années grâce aux réseaux de neurones de graphes (GNN), des architectures de réseaux de neurones spécialisées qui ont sans équivoque surpassé les approches antérieurs d'apprentissage définies sur des graphes. Les GNN étendent le succès des réseaux de neurones aux données structurées en graphes en tenant compte de leur géométrie intrinsèque. Bien que des recherches approfondies aient été effectuées sur le développement de GNN avec des performances supérieures à celles des modèles références d'apprentissage de représentation graphique, les procédures d'analyse comparative actuelles sont insuffisantes pour fournir des évaluations justes et efficaces des modèles GNN. Le problème peut-être le plus répandu et en même temps le moins compris en ce qui concerne l'analyse comparative des graphiques est la "couverture de domaine": malgré le nombre croissant d'ensembles de données graphiques disponibles, la plupart d'entre eux ne fournissent pas d'informations supplémentaires et au contraire renforcent les biais potentiellement nuisibles dans le développement d’un modèle GNN. Ce problème provient d'un manque de compréhension en ce qui concerne les aspects d'un modèle donné qui sont sondés par les ensembles de données de graphes. Par exemple, dans quelle mesure testent-ils la capacité d'un modèle à tirer parti de la structure du graphe par rapport aux fonctionnalités des nœuds? Ici, nous développons une approche fondée sur des principes pour taxonomiser les ensembles de données d'analyse comparative selon un "profil de sensibilité" qui est basé sur la quantité de changement de performance du GNN en raison d'une collection de perturbations graphiques. Notre analyse basée sur les données permet de mieux comprendre quelles caractéristiques des données de référence sont exploitées par les GNN. Par conséquent, notre taxonomie peut aider à la sélection et au développement de repères graphiques adéquats et à une évaluation mieux informée des futures méthodes GNN. Enfin, notre approche et notre implémentation dans le package GTaxoGym (https://github.com/G-Taxonomy-Workgroup/GTaxoGym) sont extensibles à plusieurs types de tâches de prédiction de graphes et à des futurs ensembles de données. / Deep learning on graphs has attained unprecedented levels of success in recent years thanks to Graph Neural Networks (GNNs), specialized neural network architectures that have unequivocally surpassed prior graph learning approaches. GNNs extend the success of neural networks to graph-structured data by accounting for their intrinsic geometry. While extensive research has been done on developing GNNs with superior performance according to a collection of graph representation learning benchmarks, current benchmarking procedures are insufficient to provide fair and effective evaluations of GNN models. Perhaps the most prevalent and at the same time least understood problem with respect to graph benchmarking is "domain coverage": Despite the growing number of available graph datasets, most of them do not provide additional insights and on the contrary reinforce potentially harmful biases in GNN model development. This problem stems from a lack of understanding with respect to what aspects of a given model are probed by graph datasets. For example, to what extent do they test the ability of a model to leverage graph structure vs. node features? Here, we develop a principled approach to taxonomize benchmarking datasets according to a "sensitivity profile" that is based on how much GNN performance changes due to a collection of graph perturbations. Our data-driven analysis provides a deeper understanding of which benchmarking data characteristics are leveraged by GNNs. Consequently, our taxonomy can aid in selection and development of adequate graph benchmarks, and better informed evaluation of future GNN methods. Finally, our approach and implementation in the GTaxoGym package (https://github.com/G-Taxonomy-Workgroup/GTaxoGym) are extendable to multiple graph prediction task types and future datasets.
|
167 |
La découverte de nouvelle physique à l'aide de la détection d'anomalies avec l'apprentissage automatique au Grand collisionneur de hadronsLeissner-Martin, Julien 12 1900 (has links)
La physique des particules est une branche de la science qui est actuellement régie sous un ensemble de lois nommé le \textit{modèle standard} (MS). Il dicte notamment quelles particules existent et comment elles interagissent entre elles. Il permet de prédire toutes sortes de résultats qui sont constamment testés et confirmés par une multitude d'expériences, dont l'expérience ATLAS, au Grand Collisionneur de Hadrons (LHC). Toutefois, ce modèle hautement précis et juste ne peut décrire qu'environ 5\% de la matière de l'Univers et s'avère donc incomplet. Les scientifiques passent au peigne fin plusieurs études pour y retrouver de la nouvelle physique, mais en vain. \\
Les théoriciens ne sont pas en reste non plus, et ont concocté plusieurs théories pouvant être vues comme des extensions du modèle standard. Malheureusement, plus de dix ans après la découverte du boson de Higgs au LHC qui venait confirmer la théorie actuelle du MS, aucun signe de ces extensions n'a pu être trouvé. Nous proposons dans ce mémoire d'utiliser l'intelligence artificielle pour aider à trouver certains indices de nouvelle physique. \\
Pour ce faire, nous entraînerons des modèles d'apprentissage automatique \textit{(machine learning)} à reconnaître des signes de la nouvelle physique dans des données réelles ou simulées issues de collisions proton-proton au sein du détecteur ATLAS. Ce détecteur oeuvre au LHC, le plus grand collisionneur au monde, où nos données proviennent d'énergies de centre de masse de \mbox{13 TeV.} Nous utiliserons les quadrivecteurs des particules contenues dans les jets boostés à grand rayon, des amas collimatés de particules présents dans ATLAS, qui pourraient contenir cette fameuse nouvelle physique. Dans ce mémoire, nous tenterons entre autres de retrouver des signaux de quarks top ainsi que de particules hypothétiques issues d'un modèle avec un secteur étendu du boson de Higgs. \\
Actuellement, nos modèles sont capables de bien distinguer le signal du bruit de fond. Toutefois, les résultats sont corrélés à la masse des jets et toute tentative pour contrecarrer cette corrélation diminue de beaucoup la discrimination du signal et du bruit de fond. De plus, nous devrons améliorer le rejet du bruit de fond pour espérer retrouver de la nouvelle physique dans les données d'ATLAS. \\
\textbf{Mots-clés : physique des particules, LHC, Grand collisionneur de hadrons, ATLAS, CERN, intelligence artificielle, apprentissage automatique, réseau de neurones, auto-encodeur variationnel, anomalies, jet boosté, jet à grand rayon} / Particle physics is currently governed by a set of laws called the Standard Model. This model notably includes which particles exist and how they interact with one another. It also allows the prediction of many results which are constantly tested and confirmed by all kinds of experiments, like the ATLAS experiment at the Large Hadron Collider (LHC). However, this highly precise model can only describe 5\% of the Universe, so it is incomplete. Scientists across the globe analyzed all kinds of data to find new physics, but to no avail. \\
Theorists also aren't resting, and have concocted many new theories which can be seen as Standard Model extensions. Unfortunately, more than ten years after the discovery of the Higgs boson at LHC that confirmed the last bits of the Standard Model, no signs of these extensions have been found. In light of this, we propose to use artificial intelligence to help us find signs of new physics. \\
To perform this task, we will train machine learning models to recognize signs of new physics inside real or simulated data originating from proton-proton collisions in the ATLAS detector. This detector operates at LHC, the biggest particle collider in the world, where our data will come from center-of-mass energies of \mbox{13 TeV.} We will use four-vectors of particles contained within large radius and boosted jets, which are dense streams of particles present in ATLAS and where new physics might hide. In this dissertation, we will notably try to find signals of top quarks and hypothetical particles originating from a model with an extended Higgs boson sector. \\
Currently, our models are able to distinguish between signal and background noise. However, these results are heavily correlated to jet mass, and any attempt at diminishing this correlation yields worse discriminating power between signal and background. We will also need to improve the background rejection to hope find new physics in the ATLAS data. \\
\textbf{Keywords : particle physics, LHC, ATLAS, CERN, artificial intelligence, deep learning, neural network, variational autoencoder, anomaly, boosted jet, large radius jet}
|
168 |
Méthodes numériques et formelles pour l'ingénierie des réseaux biologiques : traitement de l'information par des populations d'oscillateurs. Approches par contraintes et Taxonomie des réseaux biologiquesBen amor, Mohamed hedi 11 July 2012 (has links) (PDF)
Cette thèse concerne l'ingénierie des systèmes complexes à partir d'une dynamique souhaitée. En particulier, nous nous intéressons aux populations d'oscillateurs et aux réseaux de régulation génétique. Dans une première partie, nous nous fondons sur une hypothèse, introduite en neurosciences, qui souligne le rôle de la synchronisation neuronale dans le traitement de l'information cognitive. Nous proposons de l'utiliser sur un plan plus large pour étudier le traitement de l'information par des populations d'oscillateurs. Nous discutons des isochrons de quelques oscillateurs classés selon leurs symétries dans l'espace des états. Cela nous permet d'avoir un critère qualitatif pour choisir un oscillateur. Par la suite, nous définissons des procédures d'impression, de lecture et de réorganisation de l'information sur une population d'oscillateurs. En perspective, nous proposons un système à couches d'oscillateurs de Wilson-Cowan. Ce système juxtapose convenablement synchronisation et désynchronisation à travers l'utilisation de deux formes de couplage: un couplage continu et un couplage par pulsation. Nous finissons en proposant une application de ce système: la détection de contours dans une image. En deuxième partie, nous proposons d'utiliser une approche par contraintes pour identifier des réseaux de régulation génétique à partir de connaissances partielles sur leur dynamique et leur structure. Le formalisme que nous utilisons est connu sous le nom de réseaux d'automates booléens à seuil ou réseaux Hopfield-semblables. Nous appliquons cette méthode, afin de déterminer le réseau de régulation de la morphogenèse florale d'Arabidopsis thaliana. Nous montrons l'absence d'unicité des solutions dans l'ensemble des modèles valides (ici, 532 modèles). Nous montrons le potentiel de cette approche dans la détermination et la classification de modèles de réseaux de régulation génétique. L'ensemble de ces travaux mène à un certain nombre d'applications, en particulier dans le développement de nouvelles méthodes de stockage de l'information et dans le design de systèmes de calcul non conventionnel.
|
169 |
Estimation du risque de mort subite par arrêt cardiaque à l'aide de méthodes d'apprentissage artificielCappelaere, Charles-Henri 31 January 2014 (has links) (PDF)
On dénombre plus de 40 000 cas de morts subites en France, chaque année. Depuis le début des années 2000, le défibrillateur automatique implantable (DAI) est prescrit de manière prophylactique aux populations à risque. Nombre de ces implantations semblent prématurées : une étude récente a révélé que 81% des DAI implantés chez les patients étudiés n'ont jamais délivré de thérapie pendant les cinq années suivant l'implantation. Cette constatation soulève un problème en raison des complications post-opératoires encourues par les patients porteurs d'un défibrillateur implantable. Avec la rupture de sonde, les chocs électriques engendrés inutilement (c'est-à-dire lorsque la vie du patient n'est pas menacée) par le défibrillateur sont les complications les plus fréquentes : des études ont montré que 13% à 17% des patients porteurs d'un défibrillateur implanté ont subi au moins un choc inutile, susceptible de fragiliser le tissu cardiaque. Il apparaît donc important de mieux définir la population à risque de mort subite, afin d'optimiser la sélection des patients candidats. Le pouvoir prédictif de mort subite des différents descripteurs des enregistrements électrocardiographiques de longue durée (Holter) a fait l'objet de nombreuses études univariées, sans permettre d'amélioration des critères de sélection. Dans ce mémoire, nous présentons l'analyse multivariée des descripteurs de l'enregistrement Holter que nous avons menée. Nous avons extrait l'ensemble des descripteurs calculables sur la base étiquetée d'enregistrements Holter de patients, victimes ou non d'arythmies traitées par le DAI, dont nous disposons. En mettant à profit les connaissances physiologiques sur l'arythmogenèse, nous avons réalisé une sélection des descripteurs les plus pertinents. Puis, à l'aide d'une méthode originale de conception et d'évaluation de classifieur, nous avons construit un classifieur ad hoc, basé, lui aussi, sur les connaissances physiologiques de l'arythmogenèse ; ce classifieur discrimine les patients à risque (pour lesquels il recommande l'implantation), des patients pour lesquels l'implantation ne paraît pas opportune. À l'issue de notre étude, et au vu des performances atteintes, il semble possible d'améliorer la fiabilité des indications d'implantation prophylactique, à l'aide de méthodes d'apprentissage statistique. Pour valider cette conclusion, il paraît néanmoins nécessaire d'appliquer la méthode exposée dans la présente étude à une base de données de plus grande dimension, et de contenu mieux adapté à nos objectifs.
|
Page generated in 0.0621 seconds