Spelling suggestions: "subject:"convolutions"" "subject:"convolution""
21 |
Analyse sémantique des images en temps-réel avec des réseaux convolutifsFarabet, Clément 19 December 2013 (has links) (PDF)
Une des questions centrales de la vision informatique est celle de la conception et apprentissage de représentations du monde visuel. Quel type de représentation peut permettre à un système de vision artificielle de détecter et classifier les objects en catégories, indépendamment de leur pose, échelle, illumination, et obstruction. Plus intéressant encore, comment est-ce qu'un tel système peut apprendre cette représentation de façon automatisée, de la même manière que les animaux et humains parviennent à émerger une représentation du monde qui les entoure. Une question liée est celle de la faisabilité calculatoire, et plus précisément celle de l'efficacité calculatoire. Étant donné un modèle visuel, avec quelle efficacité peut-il être entrainé, et appliqué à de nouvelles données sensorielles. Cette efficacité a plusieurs dimensions: l'énergie consommée, la vitesse de calcul, et l'utilisation mémoire. Dans cette thèse je présente trois contributions à la vision informatique: (1) une nouvelle architecture de réseau convolutif profond multi-échelle, permettant de capturer des relations longue distance entre variables d'entrée dans des données type image, (2) un algorithme à base d'arbres permettant d'explorer de multiples candidats de segmentation, pour produire une segmentation sémantique avec confiance maximale, (3) une architecture de processeur dataflow optimisée pour le calcul de réseaux convolutifs profonds. Ces trois contributions ont été produites dans le but d'améliorer l'état de l'art dans le domain de l'analyse sémantique des images, avec une emphase sur l'efficacité calculatoire. L'analyse de scènes (scene parsing) consiste à étiqueter chaque pixel d'une image avec la catégorie de l'objet auquel il appartient. Dans la première partie de cette thèse, je propose une méthode qui utilise un réseau convolutif profond, entrainé à même les pixels, pour extraire des vecteurs de caractéristiques (features) qui encodent des régions de plusieurs résolutions, centrées sur chaque pixel. Cette méthode permet d'éviter l'usage de caractéristiques créées manuellement. Ces caractéristiques étant multi-échelle, elles permettent au modèle de capturer des relations locales et globales à la scène. En parallèle, un arbre de composants de segmentation est calculé à partir de graphe de dis-similarité des pixels. Les vecteurs de caractéristiques associés à chaque noeud de l'arbre sont agrégés, et utilisés pour entrainé un estimateur de la distribution des catégories d'objets présents dans ce segment. Un sous-ensemble des noeuds de l'arbre, couvrant l'image, est ensuite sélectionné de façon à maximiser la pureté moyenne des distributions de classes. En maximisant cette pureté, la probabilité que chaque composant ne contienne qu'un objet est maximisée. Le système global produit une précision record sur plusieurs benchmarks publics. Le calcul de réseaux convolutifs profonds ne dépend que de quelques opérateurs de base, qui sont particulièrement adaptés à une implémentation hardware dédiée. Dans la deuxième partie de cette thèse, je présente une architecture de processeur dataflow dédiée et optimisée pour le calcul de systèmes de vision à base de réseaux convolutifs--neuFlow--et un compilateur--luaFlow--dont le rôle est de compiler une description haut-niveau (type graphe) de réseaux convolutifs pour produire un flot de données et calculs optimal pour l'architecture. Ce système a été développé pour faire de la détection, catégorisation et localisation d'objets en temps réel, dans des scènes complexes, en ne consommant que 10 Watts, avec une implémentation FPGA standard.
|
22 |
Reconstruction libre de lentilles gravitationnelles de type galaxie-galaxie avec les machines à inférence récurentielleAdam, Alexandre 12 1900 (has links)
Les lentilles gravitationnelles de type galaxie-galaxie se produisent lorsque la lumière d'une galaxie en arrière-plan est déviée par le champ gravitationnel d'une galaxie en avant-plan, formant des images multiples ou même des anneaux d'Einstein selon le point de vue d'un observateur sur Terre. Ces phénomènes permettent non seulement d'étudier les galaxies lointaines, magnifiées par la galaxie-lentille, mais aussi de comprendre la distribution de masse de la galaxie-lentille et de son environnement, une opportunité unique pour sonder la matière noire contenue dans ces galaxies. Or, les méthodes traditionnelles pour analyser ces systèmes requièrent une quantité significative de temps ordinateur (de quelques heures à quelques jours), sans compter le temps des experts pour faire converger les analyses MCMC requises pour obtenir les paramètres d'intérêts. Ce problème est significatif, considérant qu'il est projeté que les grands relevés du ciel comme ceux qui seront menés aux observatoires Rubin et Euclid découvrirons plusieurs centaines de milliers de lentilles gravitationnelles. De plus, le Télescope géant européen (ELT), faisant usage de la technologie d'optique adaptative, et le télescope spatial James Webb, vont nous offrir une vue sans précédent de ces systèmes, avec un pouvoir de résolution qui rendra possible certaines analyses comme la recherche de halo de matière noire froide, longtemps prédite par le modèle cosmologique standard $\Lambda$CDM. Les approximations traditionnelles faites pour simplifier la reconstruction des lentilles gravitationnelles ne seront plus valides dans ce régime.
Dans ce mémoire, je présente un travail qui s'attaque à ces deux problèmes. Je présente une méthode d'optimisation basée sur les machines à inférence récurentielle pour reconstruire deux images, soit celle d'une galaxie en arrière-plan et une image pour la distribution de masse de la galaxie en avant-plan. La représentation paramétrique choisie a le potentiel de reconstruire une classe très large de lentilles gravitationnelles, incluant des halos et sous-halos de matière noire, ce qu'on démontre dans ce travail en utilisant des profiles de densité réalistes provenant de la simulation cosmologique hydrodynamique IllustrisTNG. Nos reconstructions atteignent un niveau de réalisme jamais atteint auparavant et s'exécutent sur une fraction du temps requis pour exécuter une analyse traditionnelle, soit un pas significatif vers une méthode pouvant adresser le défi d'analyser autant de systèmes complexes et variés en un temps à l'échelle humaine. / Galaxy-Galaxy gravitational lenses is a phenomenon that happens when the light coming from a
background galaxy is bent by the gravitational field of a foreground galaxy, producing multiple
images or even Einstein ring images of the background source from the point of view of an observer
on Earth. These phenomena allow us to study in detail the morphology of the background galaxy,
magnified by the lens, but also study the mass density distribution of the lens and its environment,
thus offering a unique probe of dark matter in lensing galaxies. Traditional methods studying these
systems often need significant compute time (from hours to days), and this is without taking into
account the time spent by experts to make the MCMC chains required to obtain parameters of
interest converge. This problem is significant, considering that large surveys from observatories like
Rubin and Euclid are projected to discover hundreds of thousands of gravitational lenses. Moreover,
the Extremely Large Telescope (ELT), using adaptive optics, and the James Webb Space Telescope
will offer an unprecedented glimpse of these systems, with a resolving power predicted to enable
searches for cold dark matter subhalos — objects long predicted by the standard cosmological model
CDM. Approximations used to make analysis tractable in traditional methods will no longer be
valid in that regime.
In this thesis, I present a method that aims to address these two issues. The method, based
on Recurrent Inference Machines (RIM), reconstructs two pixelated maps, one for the background
source and another for the mass density map of the foreground lensing galaxy. This free-form
parametric representation has the potential to reconstruct a large class of gravitational lenses,
including those with dark matter halos and subhalos, which we demonstrate using realistic mass
density profiles from the cosmological hydrodynamic simulation IllustrisTNG. Our method can
achieve an unmatched level of realism in a fraction of the time required by traditional methods,
which is a significant step toward solving the challenge of studying such a large number of complex
and varied systems in a human timescale.
|
23 |
Classification de pollens par réseau neuronal : application en reconstructions paléo-environnementales de populations marginalesDurand, Médéric 04 1900 (has links)
La hausse actuelle du climat pousse les espèces d’arbres tempérés à migrer vers le nord. En vue
de comprendre comment certaines espèces réagiront face à cette migration, nous pouvons porter
notre regard vers les populations marginales. Les études paléoécologiques de ces populations –
situées au-delà de l’aire de répartition continue de l’espèce – peuvent nous informer quant aux
conditions écologiques nécessaires à leur migration. Ce mémoire analyse un peuplement d’érables
à sucre (Acer saccharum Marsh.) situé à la limite nordique de la répartition de l’espèce, dans la
forêt tempérée mixte québécoise. L’objectif de la recherche est d’identifier quand et sous quelles
conditions écologiques A. saccharum s’est établi en situation marginale.
À ces fins, cette étude propose l’analyse des fossiles extraits des sédiments lacustres d’un lac situé
à proximité de l’érablière. Un modèle d’apprentissage-machine est entraîné à l’aide d’images de
pollens et permet la classification des pollens extraits des sédiments lacustres – le premier de la
sorte. Notre méthode proposée emploi un protocole d’extraction fossile accéléré et des réseaux de
neurone convolutifs permettant de classifier les pollens des espèces les plus retrouvées dans les
sédiments quaternaires du nord-est de l’Amérique. Bien qu’encore incapable de classifier
précisément toutes les espèces présentes dans une telle séquence fossile, notre modèle est une
preuve de concept envers l’automatisation de la paléo-palynologie.
Les résultats produits par le modèle combinés à l’analyse des charbons fossiles permettent la
reconstruction de la végétation et des feux des 10,000 dernières années. L’établissement régional
d’A. saccharum est daté à 4,800 cal. BP, durant une période de refroidissement climatique et de
feux fréquents mais de faible sévérité. Sa présence locale est prudemment établie à 1,200 cal. BP.
Les résultats de ce mémoire soulignent le potentiel de la paléo-palynologie automatique ainsi que
la complexité de l’écologie d’A. saccharum. / The current global climate warming is pushing temperate tree species to migrate northwards. To
understand how certain species will undergo this migration, we can look at marginal populations.
The paleoecological studies of such populations, located beyond the species’ core distribution
range, can inform us of the conditions needed for a successful migration. This research thesis
analyses a sugar maple (Acer saccharum Marsh.) stand located at the northern boundary of the
species’ limit, in Québec’s mixed-temperate forest. The objective of this research is to identify
when and under which ecological conditions did A. saccharum establish itself as the stand’s
dominant species.
To that end, this study analyses the fossil record found in a neighbouring lake’s organic sediments.
A machine learning-powered model is trained using pollen images to classify the lacustrine
sediment’s pollen record. The first of its kind, our proposed method employs an accelerated fossil
pollen extraction protocol and convolutional neural networks and can classify the species most
commonly found in Northeastern American Quaternary fossil records. Although not yet capable
of accurately classifying a complete fossil pollen sequence, our model serves as a proof of concept
towards automation in paleo-palynology.
Using results generated by our model combined with the analysis of the fossil charcoal record, the
past 10,000 years of vegetation and fire history is reconstructed. The regional establishment of A.
saccharum is conservatively dated at 4,800 cal. BP, during a period of climate cooling and
frequent, although non-severe, forest fires. Its local presence can only be attested to since 1,200
cal. BP. This thesis’ results highlight both the potential of automated paleo-palynology and the
complexity of A. saccharum’s ecological requirements.
|
24 |
Apprentissage machine embarquée et réseaux de neurones sur graphes pour la reconnaissance de gestes dans les signaux HD-sEMGButeau, Étienne 07 June 2024 (has links)
Ce travail explore des solutions afin d'améliorer la reconnaissance des gestes de la main à l'aide de signaux électromyographiques. Grâce aux prothèses myoélectriques, cette technologie a le potentiel de transformer la vie des amputés des membres supérieurs. Malheureusement, les prothèses myoélectriques disponibles sur le marché peinent à reproduire fidèlement les gestes de la main, car il est complexe de déduire l'intention de l'utilisateur à partir de l'activité musculaire mesurée, particulièrement entre différentes utilisations de la prothèse. Pour adresser ce problème, ce travail présente une solution logicielle permettant, à l'aide d'un nouveau capteur flexible d'électromyographie haute densité (HD-EMG) à 64 électrodes, de renforcer la robustesse de la détection contre différentes sources de variations. Cette innovation repose sur l'introduction d'une approche d'augmentation des données par décalage circulaire (ABSDA) couplée à un réseau de neurones à convolution (CNN) et une version anticrénelée (AA-CNN) permettant d'améliorer la robustesse de la classification au mouvement des électrodes et à la variabilité entre les séances. La méthode ABSDA-CNN proposée améliore significativement la précision de la reconnaissance des gestes. Ce travail examine également le potentiel de l'apprentissage machine sur graphes, un domaine émergent qui applique la théorie des graphes à l'intelligence artificielle. En utilisant cette approche pour représenter les capteurs HD-EMG sous forme de graphes, il est possible de capitaliser sur leur structure géométrique naturelle afin de construire des réseaux de neurones sur graphes (GNN) novateurs qui surpassent les réseaux à convolution traditionnels. L'introduction de ces nouvelles architectures permet d'explorer la notion d'invariance en translation des réseaux de neurones en démontrant l'importance d'apprendre la position des électrodes pour améliorer la précision de la reconnaissance des gestes Finalement, une plateforme embarquée sans fil est introduite pour réaliser de la reconnaissance de gestes en temps réel, grâce à un accélérateur Coral Tensor Processing Unit (TPU). Cette solution permet d'intégrer l'intelligence artificielle directement dans les prothèses, supprimant la dépendance à des équipements externes coûteux. Pour une meilleure flexibilité, le système propose la calibration des modèles d'inférence localement ou à distance par le biais d'un serveur. L'exploration des techniques de quantification des données à 8 bits démontre que la compatibilité matérielle peut être obtenue sans sacrifier les performances. / This work explores solutions to improve hand gesture recognition using electromyographic signals. Thanks to myoelectric prostheses, this technology has the potential to radically transformthe lives of upper limb amputees. Unfortunately, the myoelectric prostheses currently availableon the market struggle to faithfully reproduce hand gestures because it is complex to correctlyinfer the user's intention from the measured muscle activity, especially between different usesof the prosthesis. To address this problem, this work presents a software solution that, with the help of anew flexible high-density electromyography (HD-EMG) sensor with 64 electrodes, enhancesthe robustness of detection against various sources of variations. This innovation is basedon the introduction of an array barrel-shifting data augmentation (ABSDA) coupled witha convolutional neural network (CNN) and an anti-aliased version (AA-CNN) to improverobustness to electrode movement, forearm orientation, and inter-session variability. Theproposed ABSDA-CNN method significantly improves the accuracy of gesture recognition. This work also examines the potential of graph machine learning, an emerging field that applies graph theory to artificial intelligence. By using this approach to represent HD-EMGsensors as graphs, it is possible to capitalize on their natural geometric structure to constructinnovative graph neural networks (GNNs) that surpass traditional convolutional networks. The introduction of these new architectures allows for the exploration of the notion of invariance to translation of neural networks by demonstrating the importance of learning electrodepositions to improve gesture recognition accuracy. Finally, a wireless embedded platform is introduced for real-time gesture recognition, thanksto a Coral Tensor Processing Unit (TPU) accelerator. This solution enables the integration ofartificial intelligence directly into prostheses, eliminating the dependency on expensive externalhardware. For enhanced flexibility, the system offers model calibration locally or remotely viaa server. Exploring 8-bit data quantization techniques shows that hardware compatibility canbe achieved without sacrificing performance.
|
25 |
Cyclostationary analysis : cycle frequency estimation and source separation / Analyse cyclostationnaire : estimation des fréquences cycliques et séparation de sourcesChe Viet, Nhat Anh 28 October 2011 (has links)
Le problème de séparation aveugle de sources a but de retrouver un ensemble des sources signaux statistiquement indépendants à partir seulement d’un ensemble des observations du capteur. Ces observations peuvent être modélisées comme un mélanges linéaires instantané ou convolutifs de sources. Dans cette thèse, les sources signaux sont supposées être cyclostationnaire où leurs fréquences cycles peuvent être connues ou inconnu par avance. Premièrement, nous avons établi des relations entre le spectre, spectre de puissance d’un signal source et leurs composants, puis nous avons proposé deux nouveaux algorithmes pour estimer sa fréquences cycliques. Ensuite, pour la séparation aveugle de sources en mélanges instantanés, nous présentons quatre algorithmes basés sur diagonalisation conjoint approchées orthogonale (ou non-orthogonales) d’une famille des matrices cycliques multiples moment temporel, or l’approche matricielle crayon pour extraire les sources signaux. Nous introduisons aussi et prouver une nouvelle condition identifiabilité pour montrer quel type de sources cyclostationnaires d’entrée peuvent être séparées basées sur des statistiques cyclostationnarité à l’ordre deux. Pour la séparation aveugle de sources en mélanges convolutifs, nous présentons un algorithme en deux étapes basées sur une approche dans le domaine temporel pour récupérer les signaux source. Les simulations numériques sont utilisés dans cette thèse pour démontrer l’efficacité de nos approches proposées, et de comparer les performances avec leurs méthodes précédentes / Blind source separation problem aims to recover a set of statistically independent source signals from a set of sensor observations. These observations can be modeled as an instantaneous or convolutive mixture of the same sources. In this dissertation, the source signals are assumed to be cyclostationary where their cycle frequencies may be known or unknown a priori. First, we establish relations between the spectrum, power spectrum of a source signal and its component, then we propose two novel algorithms to estimate its cycle frequencies. Next, for blind separation of instantaneous mixtures of sources, we present four algorithms based on orthogonal (or non-orthogonal) approximate diagonalization of the multiple cyclic temporal moment matrices, and the matrix pencil approach to extract the source signal. We also introduce and prove a new identifiability condition to show which kind of input cyclostationary sources can be separated based on second-order cyclostationarity statistics. For blind separation of convolutive mixtures of sources signal or blind deconvolution of FIR MIMO systems, we present a two-steps algorithm based on time domain approach for recovering the source signals. Numerical simulations are used throughout this thesis to demonstrate the effectiveness of our proposed approaches, and compare theirs performances with previous methods
|
26 |
Séparation aveugle de mélanges linéaires convolutifs de sources corréléesGhennioui, Hicham 19 July 2008 (has links) (PDF)
Dans cette thèse, nous étudions le problème de la séparation aveugle de mélanges linéaires convolutifs sur-déterminés réels ou complexes de sources. Les sources considérées sont réelles ou complexes, déterministes ou aléatoires et dans ce dernier cas statistiquement indépendantes ou corrélées, stationnaires, cyclostationnaires ou non-stationnaires. Nous développons des approches combinant de nouveaux algorithmes de (bloc) diagonalisation conjointe (non unitaires) à de nouveaux détecteurs de points (temps-fréquence ou autres...) particuliers permettant d'élaborer le ou les ensembles de matrices devant être (bloc) diagonalisées conjointement. Les principaux avantages de ces approches sont d'être plus directes en ce se sens qu'elles ne requièrent plus de blanchiment préalable des observations. Elles permettent en outre d'aborder le cas réputé difficile des signaux corrélés. En ce qui concerne les algorithmes de (bloc) diagonalisation conjointe, nous proposons quatre nouveaux algorithmes sans contrainte d'unitarité sur la matrice recherchée. Le premier algorithme est de type algébrique itératif. Il est basé sur l'optimisation d'un critère de type moindres carrés. Les trois autres approches utilisent un schéma d'optimisation de type gradient. Dans un premier temps le calcul du gradient matriciel de la fonction de coût étudiée est approché. Puis dans un second temps le calcul exact est mené et deux nouveaux algorithmes sont proposés : l'un à base de gradient, l'autre à base de gradient relatif. Nous étudions les versions à pas fixe de ces trois algorithmes, puis les versions à pas optimal afin d'accélérer la convergence des algorithmes (le pas est alors recalculé algébriquement à chaque itération en cherchant les racines d'un polynôme d'ordre trois). Un lien avec la diagonalisation conjointe non unitaire est également établi. Ces algorithmes de bloc-diagonalisation conjointe possèdent l'avantage d'être généraux : les matrices de l'ensemble considéré ne sont ni nécessairement réelles, ni à symétrie hermitienne, ni définies positives et le bloc-diagonaliseur conjoint peut être une matrice unitaire ou non-unitaire.
|
27 |
Développement d'outils web de détection d'annotations manuscrites dans les imprimés anciensM'Begnan Nagnan, Arthur January 2021 (has links) (PDF)
No description available.
|
28 |
Towards a 3D building reconstruction using spatial multisource data and computational intelligence techniques / Vers une reconstruction de batiment en 3D utilisant des données spatiales multisources et des techniques d'intelligence informatiquePapadopoulos, Georgios 27 November 2019 (has links)
La reconstruction de bâtiments à partir de photographies aériennes et d’autres données spatiales urbaines multi-sources est une tâche qui utilise une multitude de méthodes automatisées et semi-automatisées allant des processus ponctuels au traitement classique des images et au balayage laser. Dans cette thèse, un système de relaxation itératif est développé sur la base de l'examen du contexte local de chaque bord en fonction de multiples sources d'entrée spatiales (masques optiques, d'élévation, d'ombre et de feuillage ainsi que d'autres données prétraitées, décrites au chapitre 6). Toutes ces données multisource et multirésolution sont fusionnées de manière à extraire les segments de ligne probables ou les arêtes correspondant aux limites des bâtiments. Deux nouveaux sous-systèmes ont également été développés dans cette thèse. Ils ont été conçus dans le but de fournir des informations supplémentaires, plus fiables, sur les contours des bâtiments dans une future version du système de relaxation proposé. La première est une méthode de réseau de neurones à convolution profonde (CNN) pour la détection de frontières de construction. Le réseau est notamment basé sur le modèle SRCNN (Dong C. L., 2015) de super-résolution à la pointe de la technologie. Il accepte des photographies aériennes illustrant des données de zones urbaines densément peuplées ainsi que leurs cartes d'altitude numériques (DEM) correspondantes. La formation utilise trois variantes de cet ensemble de données urbaines et vise à détecter les contours des bâtiments grâce à une nouvelle cartographie hétéroassociative super-résolue. Une autre innovation de cette approche est la conception d'une couche de perte personnalisée modifiée appelée Top-N. Dans cette variante, l'erreur quadratique moyenne (MSE) entre l'image de sortie reconstruite et l'image de vérité de sol (GT) fournie des contours de bâtiment est calculée sur les 2N pixels de l'image avec les valeurs les plus élevées. En supposant que la plupart des N pixels de contour de l’image GT figurent également dans les 2N pixels supérieurs de la reconstruction, cette modification équilibre les deux catégories de pixels et améliore le comportement de généralisation du modèle CNN. Les expériences ont montré que la fonction de coût Top-N offre des gains de performance par rapport à une MSE standard. Une amélioration supplémentaire de la capacité de généralisation du réseau est obtenue en utilisant le décrochage. Le deuxième sous-système est un réseau de convolution profonde à super-résolution, qui effectue un mappage associatif à entrée améliorée entre les images d'entrée à basse résolution et à haute résolution. Ce réseau a été formé aux données d’altitude à basse résolution et aux photographies urbaines optiques à haute résolution correspondantes. Une telle différence de résolution entre les images optiques / satellites optiques et les données d'élévation est souvent le cas dans les applications du monde réel. / Building reconstruction from aerial photographs and other multi-source urban spatial data is a task endeavored using a plethora of automated and semi-automated methods ranging from point processes, classic image processing and laser scanning. In this thesis, an iterative relaxation system is developed based on the examination of the local context of each edge according to multiple spatial input sources (optical, elevation, shadow & foliage masks as well as other pre-processed data as elaborated in Chapter 6). All these multisource and multiresolution data are fused so that probable line segments or edges are extracted that correspond to prominent building boundaries.Two novel sub-systems have also been developed in this thesis. They were designed with the purpose to provide additional, more reliable, information regarding building contours in a future version of the proposed relaxation system. The first is a deep convolutional neural network (CNN) method for the detection of building borders. In particular, the network is based on the state of the art super-resolution model SRCNN (Dong C. L., 2015). It accepts aerial photographs depicting densely populated urban area data as well as their corresponding digital elevation maps (DEM). Training is performed using three variations of this urban data set and aims at detecting building contours through a novel super-resolved heteroassociative mapping. Another innovation of this approach is the design of a modified custom loss layer named Top-N. In this variation, the mean square error (MSE) between the reconstructed output image and the provided ground truth (GT) image of building contours is computed on the 2N image pixels with highest values . Assuming that most of the N contour pixels of the GT image are also in the top 2N pixels of the re-construction, this modification balances the two pixel categories and improves the generalization behavior of the CNN model. It is shown in the experiments, that the Top-N cost function offers performance gains in comparison to standard MSE. Further improvement in generalization ability of the network is achieved by using dropout.The second sub-system is a super-resolution deep convolutional network, which performs an enhanced-input associative mapping between input low-resolution and high-resolution images. This network has been trained with low-resolution elevation data and the corresponding high-resolution optical urban photographs. Such a resolution discrepancy between optical aerial/satellite images and elevation data is often the case in real world applications. More specifically, low-resolution elevation data augmented by high-resolution optical aerial photographs are used with the aim of augmenting the resolution of the elevation data. This is a unique super-resolution problem where it was found that many of -the proposed general-image SR propositions do not perform as well. The network aptly named building super resolution CNN (BSRCNN) is trained using patches extracted from the aforementioned data. Results show that in comparison with a classic bicubic upscale of the elevation data the proposed implementation offers important improvement as attested by a modified PSNR and SSIM metric. In comparison, other proposed general-image SR methods performed poorer than a standard bicubic up-scaler.Finally, the relaxation system fuses together all these multisource data sources comprising of pre-processed optical data, elevation data, foliage masks, shadow masks and other pre-processed data in an attempt to assign confidence values to each pixel belonging to a building contour. Confidence is augmented or decremented iteratively until the MSE error fails below a specified threshold or a maximum number of iterations have been executed. The confidence matrix can then be used to extract the true building contours via thresholding.
|
29 |
Estimation de pose 2D par réseau convolutifHuppé, Samuel 04 1900 (has links)
Magic: The Gathering} est un jeu de cartes à collectionner stochastique à information imparfaite inventé par Richard Garfield en 1993. Le but de ce projet est de proposer un pipeline d'apprentissage machine permettant d'accomplir la détection et la localisation des cartes du jeu \textit{Magic} au sein d'une image typique des tournois de ce jeu. Il s'agit d'un problème de pose d'objets 2D à quatre degrés de liberté soit, la position sur deux axes, la rotation et l'échelle, dans un contexte où les cartes peuvent être superposées. À travers ce projet, nous avons développé une approche par données synthétiques à deux réseaux capable, collectivement d'identifier, et de régresser ces paramètres avec une précision significative. Dans le cadre de ce projet, nous avons développé un algorithme d'apprentissage profond par données synthétiques capable de positionner une carte avec une précision d'un demi pixel et d'une rotation de moins d'un degré. Finalement, nous avons montré que notre jeu de données synthétique est suffisamment réaliste pour permettre à nos réseaux de généraliser aux cas d'images réelles. / Magic: The Gathering} is an imperfect information, stochastic, collectible card game invented by Richard Garfield in 1993. The goal of this project is to propose a machine learning pipeline capable of detecting and localising \textit{Magic} cards within an image. This is a 2D pose problem with 4 degrees of freedom, namely translation in $x$ and $y$, rotation, and scale, in a context where cards can be superimposed on one another. We tackle this problem by relying on deep learning using a combination of two separate neural networks. Our final pipeline has the ability to tackle real-world images and gives, with a very good degree of precision, the poses of cards within an image. Through the course of this project, we have developped a method of realistic synthetic data generation to train both our models to tackle real world images. The results show that our pose subnetwork is able to predict position within half a pixel, rotation within one degree and scale within 2 percent.
|
30 |
Classification de décès neurologique par traitement automatique de l’imagePlantin, Johann 04 1900 (has links)
Le diagnostic de mort cérébrale est une étape complexe et chronophage lors de l'évaluation des patients en soins intensifs soupçonnés d'être en décès neurologique. Bien que les critères neurologiques cliniques qui déterminent la mort cérébrale soient largement acceptés dans le monde, le diagnostic reste imparfait et l'utilisation de tests auxiliaires tels que la perfusion tomographique cérébrale (CTP) est souvent nécessaire pour le confirmer. L'objectif principal de ce travail était d'explorer la faisabilité de classer la mort cérébrale à partir de scans CTP par le traitement automatique de l’image.
Les scans CTP de l'étude prospective canadienne multicentrique de validation du CTP pour le diagnostic de décès neurologique ont été regroupées à partir de 11 sites participants (INDex-CTP, ClinicalTrials.gov, NCT03098511). Des caractéristiques spatiales et temporelles ont été extraites en utilisant une combinaison de deux modules de convolution et utilisées pour prédire la mort neurologique. Les performances du modèle ont également été évaluées sur différentes catégories de blessures cérébrales.
Les études de 217 patients ont été utilisées pour entraîner le modèle. Nous rapportons une AUC de 0,79 (IC95 % 0,76-0,82), un score F1 de 0,82 (IC95 % 0,80-0,83), une précision de 0,92 (IC95 % 0,91-0,93), un rappel de 0,76 (CI95 % 0,72-0,79) ainsi qu'une valeur prédictive négative de 0,49 (CI95 % 0,45-0,53). En raison de la petite taille d'échantillon, nous n'avons pas effectué de tests statistiques sur des sous-ensembles de lésions cérébrales, mais avons signalé une valeur prédictive négative du modèle présumé plus élevée sur des blessures cérébrales anoxiques avec 0,82 (CI95 % 0,77-0,87).
Ce modèle montre des preuves préliminaires soutenant la faisabilité de développer un réseau neuronal profond pour classer les patients comateux comme étant neurologiquement décédés ou non. Des recherches supplémentaires sont nécessaires pour valider et améliorer le modèle en utilisant des ensembles de données plus vastes et diversifiés. / The diagnostic of brain death is a complex and chronophage step when evaluating patients in critical care suspected of being neurologically deceased. Although the clinical neurological criteria that determine brain death are mostly accepted worldwide, the diagnosis remains imperfect and often the use of ancillary tests such as brain computed tomography perfusion (CTP) are required to confirm it. The main objective of this work was to explore the feasibility of classifying brain death from CTP scans using deep learning.
CTP studies from a multicenter prospective diagnostic cohort study with the primary objective of evaluating the diagnostic accuracy of neurological death using CTP were pooled from 11 participating sites (INDex-CTP, ClinicalTrials.gov, NCT03098511). Spatial and temporal features were extracted using a combination of two convolution modules and used to predict neurological death. The performance of the model was also evaluated on subsets of cerebral injuries.
217 patients' studies were used to train the model. We report an AUC of 0.79 (IC95% 0.76-0.82), a F1 score of 0.82 (IC95% 0.80-0.83), a precision of 0.92 (IC95% 0.91-0.93), a recall of 0.76 (CI95% 0.72-0.79) as well as a negative predictive value of 0.49 (CI95% 0.45-0.53). Due to a lack of sample size, we did not perform statistical tests on subsets of cerebral injury, but report suspected higher model negative predictive value on anoxic cerebral injury with 0.82 (CI95% 0.77-0.87).
This model shows preliminary evidence supporting the feasibility of developing a deep neural network to classify comatose patients as neurologically deceased or not. Additional research is needed to validate and refine the model by employing larger and more diverse datasets.
|
Page generated in 0.0655 seconds