Global ETD Search

11	Filtering of thin objects : applications to vascular image analysis / Filtrage d'objets fins : applications à l'analyse d'images vasculaires Tankyevych, Olena 19 October 2010 (has links) Le but de ce travail est de filtrer les objets fins et curvilinéaires dans les images numériques. Leur détection est en soit difficile du fait de leur finesse spatiale. De plus, le bruit, les artefacts de l'acquisition et les occlusions induites par d'autres objets introduisent des déconnexions. De ce fait, la reconnection des objets fins est également nécessaire. Dans ce but, une méthode hybride à base de dérivés secondes et de filtrage linéaire morphologique est proposée dans le cadre de la théorie espace-échelle. La théorie des filtres morphologiques spatialement variants et des algorithmes sont présentés. Du point de vue applicatif, notre travail est motivé par le diagnostic, la planification du traitement et le suivi des maladies vasculaires. La première application étudie les malformations artero-veineuses (MAV) dans le cerveau. L'analyse de telles données est rendue difficile par la petite taille, la complexité des vaisseaux couplés à diverses sources de bruit et à leur topologie, sans compter les artefacts d'acquisition et l'hétérogénéité du signal sanguin. Ainsi, nous nous sommes intéressés à l'amélioration et la segmentation des images angiographiques cérébrales dans le but d'aider à l'étude des MAVs cérébrales. La seconde application concerne le traitement des images en rayons X à faible dose utilisées en radiologie interventionelle dans le cas de l'insertion de guides dans les vaisseaux sanguins des patients. De telles procédures sont utilisées dans les traitements des anévrismes, des obstructions de tumeurs et d'autres procédures similaires. Dû au faible ratio signal à bruit, la détection des guides est indispensable pour leurs visualisations et leurs reconstructions. Dans ce travail, nous comparons la performance des algorithmes de filtrage d'objets linéiques. Le but étant de sélectionner les méthodes de détection les plus prometteuses dans le cadre de cette application médicale. La seconde application concerne le traitement des images X-ray à faible dose utilisées en radiologie interventionelle dans le cas d'insertion de guides dans les vaisseaux de patients. De telles procédures sont utilisées dans les traitements des anévrysmes, obstructions des tumeurs et d'autres procédures. Dû au faible ratio du signal-bruit, la détection des guides est indispensable pour leurs visualisations et leurs reconstructions. Dans ce travail, nous comparons la performance des algorithmes de filtrage d'objets linéaires. Le but est de sélectionner les méthodes de détection les plus prometteuses dans le cadre de cette application médicale / The motivation of this work is filtering of elongated curvilinear objects in digital images. Their narrowness presents difficulties for their detection. In addition, they are prone to disconnections due to noise, image acquisition artefacts and occlusions by other objects. This work is focused on thin objects detection and linkage. For these purposes, a hybrid second-order derivative-based and morphological linear filtering method is proposed within the framework of scale-space theory. The theory of spatially-variant morphological filters is discussed and efficient algorithms are presented. From the application point of view, our work is motivated by the diagnosis, treatment planning and follow-up of vascular diseases. The first application is aimed at the assessment of arteriovenous malformations (AVM) of cerebral vasculature. The small size and the complexity of the vascular structures, coupled to noise, image acquisition artefacts, and blood signal heterogeneity make the analysis of such data a challenging task. This work is focused on cerebral angiographic image enhancement, segmentation and vascular network analysis with the final purpose to further assist the study of cerebral AVM. The second medical application concerns the processing of low dose X-ray images used in interventional radiology therapies observing insertion of guide-wires in the vascular system of patients. Such procedures are used in aneurysm treatment, tumour embolization and other clinical procedures. Due to low signal-to-noise ratio of such data, guide-wire detection is needed for their visualization and reconstruction. Here, we compare the performance of several line detection algorithms. The purpose of this work is to select a few of the most promising line detection methods for this medical application Angiographie Filtrage directionnel Rehaussement de vaisseaux Filtrage multi-échelle Détéction d'objets fins Morphologie adaptative Angiography Directional filtering Multi-scale filtering Vessel enhancemen Detection of thin objects Adaptive morphology
12	Analyse quantitative des paramètres issus de l'IRM cardiaque / Quantitative analysis in cardiac magnetic resonance imaging and prognosis Bière, Loïc 04 May 2015 (has links) L'IRM cardiaque est un examen non invasif qui permet aujourd’hui de proposer une analyse multiparamétrique alliant notamment fonction, caractérisation tissulaire, perfusion, et appréciation de la fibrose. Cependant afin d'uniformiser ces analyses il convient de favoriser une interprétation objective des images obtenues passant par une étape de quantification de l'information. Nous avons suivi une cohorte de 195 patients ayant présenté un premier infarctus du myocarde avec sus décalage du segment ST et ayant bénéficié d'une revascularisation coronaire en phase aigüe avec succès. Des IRM ont été réalisées au cours de leur hospitalisation puis à 3 mois. Ont été investigués de façon quantitative les volumes ventriculaires, le stress pariétal systolique, la taille d'infarctus, la taille d'obstruction microvasculaire et la taille de l'épanchement péricardique. Une cohorte de 42 patients présentant une cardiomyopathie hypertrophique a également été étudiée par ECG et IRM. Nous avons débuté par une validation clinique comparative des méthodes de quantification semi-automatique de la taille d'infarctus. L’obtention du seuil par la méthode FWHM permet de mesurer la taille d’infarctus initial la mieux corrélée aux volumes ventriculaires à 3 mois. Nous avons également confronté et souligné les relations entre l’ECG et le phénotype des cardiomyopathies hypertrophiques documenté par IRM cardiaque. Nous montrons qu’il n’existe pas de critère ECG corrélé à la présence de fibrose myocardique dans cette pathologie ; à l’inverse la présence d’une onde q semble en relation avec la géométrie cardiaque tel qu’un rapport de la paroi septale sur latérale élevé. Nous avons également montré que les composantes de la déformation myocardique étaient altérées selon le degré de fibrose myocardique dans le post-infarctus. Nous montrons une altération plus marquée en cas d’obstruction microvasculaire et un caractère prédictif du strain longitudinal global pour la taille d’infarctus à 3 mois. Nos analyses soulignent l'intérêt d'une approche multiparamétrique pour préciser les déterminants d'une part de l'insuffisance cardiaque, d'autre part de la constitution d'un épanchement péricardique post-infarctus. Alors que la taille d’infarctus initiale est le meilleur marqueur de risque de développer un épisode d’insuffisance cardiaque pendant l’hospitalisation, c’est le stress pariétal systolique qui est le mieux relié aux épisodes d’insuffisance cardiaque après la sortie. Enfin, un épanchement péricardique était retrouvé chez 58.5% des patients avec une moyenne de 31.6±24.0 ml. Les paramètres associés en analyse multivariée étaient la taille d’infarctus, la présence d’une obstruction microvasculaire et le stress pariétal systolique. L’ensemble de nos résultats montre l’intérêt d’une approche quantitative et multiparamétrique de l’IRM cardiaque. Ses potentielles applications sont nombreuses dans le domaine de la recherche aussi bien descriptive que prospective et randomisée. / The various aspect of cardiac function may now be investigated non-invasively by cardiac imaging. Cardiac magnetic resonance (CMR) allows to study multiple parameters in one time, including function, perfusion, tissular characteristics and fibrosis. There is a need to propose adequate and objective criteria for CMR analysis, which may be warranted by a quantitative analysis. We prospectively followed 195 patients with a first ST elevation myocardial infarction and successful revascularisation. CMR were performed at baseline and 3 months. We analysed ventricular volumes, systolic wall stress, infarct size, microvascular obstruction, and pericardial effusion extent. A cohort of 42 patients with hypertrophic cardiomyopathy were also studied. We demonstrated the clinical interest for semi-automated analysis of late gadolinium enhancement imaging. The use of the FWHM algorithm appeared strongly related to left ventricular volumes at 3 months. Then we depicted the lack of relationships between electrocardiograms and fibrosis in patients with hypertrophic cardiomyopathy. The presence of q waves appeared to be related to cardiac phenotype, namely higher septal to posterior ratios. We showed the impairment of myocardial deformations in regard of myocardial fibrosis following a myocardial infarction. We found a much depressed deformation in case of microvascular obstruction and an interest for longitudinal global strain for the prediction of infarct size at 3 months. We also studied the determinants of post-infarction heart failure on one part, pericardial effusion on the other, by the use of a CMR multiparametric approach. Infarct size and systolic wall stress were the best markers of in-hospital and post-discharge heart failure, respectively. A pericardial effusion was found in 58.5% of the patients with a mean size of 31.6±24.0 ml. The determinants by multivariate analysis were infarct size, microvascular obstruction and systolic wall stress. Our results highlighted the interest for a quantitative and multiparametric approach of CMR. Further applications are expected in both descriptive and randomized studies. IRM cardiaque Analyse quantitative Infarctus du myocarde Rehaussement tardif Contrainte pariétale systolique Cardiac magnetic resonance Quantitative analysis Myocardial infarction Systolic wall stress 616.12
13	Traitement de l'incertitude pour la reconnaissance de la parole robuste au bruit / Uncertainty learning for noise robust ASR Tran, Dung Tien 20 November 2015 (has links) Cette thèse se focalise sur la reconnaissance automatique de la parole (RAP) robuste au bruit. Elle comporte deux parties. Premièrement, nous nous focalisons sur une meilleure prise en compte des incertitudes pour améliorer la performance de RAP en environnement bruité. Deuxièmement, nous présentons une méthode pour accélérer l'apprentissage d'un réseau de neurones en utilisant une fonction auxiliaire. Dans la première partie, une technique de rehaussement multicanal est appliquée à la parole bruitée en entrée. La distribution a posteriori de la parole propre sous-jacente est alors estimée et représentée par sa moyenne et sa matrice de covariance, ou incertitude. Nous montrons comment propager la matrice de covariance diagonale de l'incertitude dans le domaine spectral à travers le calcul des descripteurs pour obtenir la matrice de covariance pleine de l'incertitude sur les descripteurs. Le décodage incertain exploite cette distribution a posteriori pour modifier dynamiquement les paramètres du modèle acoustique au décodage. La règle de décodage consiste simplement à ajouter la matrice de covariance de l'incertitude à la variance de chaque gaussienne. Nous proposons ensuite deux estimateurs d'incertitude basés respectivement sur la fusion et sur l'estimation non-paramétrique. Pour construire un nouvel estimateur, nous considérons la combinaison linéaire d'estimateurs existants ou de fonctions noyaux. Les poids de combinaison sont estimés de façon générative en minimisant une mesure de divergence par rapport à l'incertitude oracle. Les mesures de divergence utilisées sont des versions pondérées des divergences de Kullback-Leibler (KL), d'Itakura-Saito (IS) ou euclidienne (EU). En raison de la positivité inhérente de l'incertitude, ce problème d'estimation peut être vu comme une instance de factorisation matricielle positive (NMF) pondérée. De plus, nous proposons deux estimateurs d'incertitude discriminants basés sur une transformation linéaire ou non linéaire de l'incertitude estimée de façon générative. Cette transformation est entraînée de sorte à maximiser le critère de maximum d'information mutuelle boosté (bMMI). Nous calculons la dérivée de ce critère en utilisant la règle de dérivation en chaîne et nous l'optimisons par descente de gradient stochastique. Dans la seconde partie, nous introduisons une nouvelle méthode d'apprentissage pour les réseaux de neurones basée sur une fonction auxiliaire sans aucun réglage de paramètre. Au lieu de maximiser la fonction objectif, cette technique consiste à maximiser une fonction auxiliaire qui est introduite de façon récursive couche par couche et dont le minimum a une expression analytique. Grâce aux propriétés de cette fonction, la décroissance monotone de la fonction objectif est garantie / This thesis focuses on noise robust automatic speech recognition (ASR). It includes two parts. First, we focus on better handling of uncertainty to improve the performance of ASR in a noisy environment. Second, we present a method to accelerate the training process of a neural network using an auxiliary function technique. In the first part, multichannel speech enhancement is applied to input noisy speech. The posterior distribution of the underlying clean speech is then estimated, as represented by its mean and its covariance matrix or uncertainty. We show how to propagate the diagonal uncertainty covariance matrix in the spectral domain through the feature computation stage to obtain the full uncertainty covariance matrix in the feature domain. Uncertainty decoding exploits this posterior distribution to dynamically modify the acoustic model parameters in the decoding rule. The uncertainty decoding rule simply consists of adding the uncertainty covariance matrix of the enhanced features to the variance of each Gaussian component. We then propose two uncertainty estimators based on fusion to nonparametric estimation, respectively. To build a new estimator, we consider a linear combination of existing uncertainty estimators or kernel functions. The combination weights are generatively estimated by minimizing some divergence with respect to the oracle uncertainty. The divergence measures used are weighted versions of Kullback-Leibler (KL), Itakura-Saito (IS), and Euclidean (EU) divergences. Due to the inherent nonnegativity of uncertainty, this estimation problem can be seen as an instance of weighted nonnegative matrix factorization (NMF). In addition, we propose two discriminative uncertainty estimators based on linear or nonlinear mapping of the generatively estimated uncertainty. This mapping is trained so as to maximize the boosted maximum mutual information (bMMI) criterion. We compute the derivative of this criterion using the chain rule and optimize it using stochastic gradient descent. In the second part, we introduce a new learning rule for neural networks that is based on an auxiliary function technique without parameter tuning. Instead of minimizing the objective function, this technique consists of minimizing a quadratic auxiliary function which is recursively introduced layer by layer and which has a closed-form optimum. Based on the properties of this auxiliary function, the monotonic decrease of the new learning rule is guaranteed. Reconnaissance automatique de la parole Robustesse au bruit Rehaussement de la parole Propagation de l’incertitude Automatic speech recognition Noise robustness Speech enhancement Uncertainty propagation 006.454 621.399
14	Contribution à l'analyse de la dynamique des écritures anciennes pour l'aide à l'expertise paléographique Daher, Hani 22 November 2012 (has links) (PDF) Mes travaux de thèse s'inscrivent dans le cadre du projet ANR GRAPHEM1 (Graphemebased Retrieval and Analysis for PaleograpHic Expertise of Middle Age Manuscripts). Ilsprésentent une contribution méthodologique applicable à l'analyse automatique des écrituresanciennes pour assister les experts en paléographie dans le délicat travail d'étude et dedéchiffrage des écritures.L'objectif principal est de contribuer à une instrumetation du corpus des manuscritsmédiévaux détenus par l'Institut de Recherche en Histoire des Textes (IRHT - Paris) en aidantles paléographes spécialisés dans ce domaine dans leur travail de compréhension de l'évolutiondes formes de l'écriture par la mise en place de méthodes efficaces d'accès au contenu desmanuscrits reposant sur une analyse fine des formes décrites sous la formes de petits fragments(les graphèmes). Dans mes travaux de doctorats, j'ai choisi d'étudier la dynamique del'élément le plus basique de l'écriture appelé le ductus2 et qui d'après les paléographes apportebeaucoup d'informations sur le style d'écriture et l'époque d'élaboration du manuscrit.Mes contributions majeures se situent à deux niveaux : une première étape de prétraitementdes images fortement dégradées assurant une décomposition optimale des formes en graphèmescontenant l'information du ductus. Pour cette étape de décomposition des manuscrits, nousavons procédé à la mise en place d'une méthodologie complète de suivi de traits à partir del'extraction d'un squelette obtenu à partir de procédures de rehaussement de contraste et dediffusion de gradients. Le suivi complet du tracé a été obtenu à partir de l'application des règlesfondamentales d'exécution des traits d'écriture, enseignées aux copistes du Moyen Age. Il s'agitd'information de dynamique de formation des traits portant essentiellement sur des indicationsde directions privilégiées.Dans une seconde étape, nous avons cherché à caractériser ces graphèmes par desdescripteurs de formes visuelles compréhensibles à la fois par les paléographes et lesinformaticiens et garantissant une représentation la plus complète possible de l'écriture d'unpoint de vue géométrique et morphologique. A partir de cette caractérisation, nous avonsproposé une approche de clustering assurant un regroupement des graphèmes en classeshomogènes par l'utilisation d'un algorithme de classification non-supervisé basée sur lacoloration de graphe. Le résultat du clustering des graphèmes a conduit à la formation dedictionnaires de formes caractérisant de manière individuelle et discriminante chaque manuscrittraité. Nous avons également étudié la puissance discriminatoire de ces descripteurs afin d'obtenir la meilleure représentation d'un manuscrit en dictionnaire de formes. Cette étude a étéfaite en exploitant les algorithmes génétiques par leur capacité à produire de bonne sélection decaractéristiques.L'ensemble de ces contributions a été testé à partir d'une application CBIR sur trois bases demanuscrits dont deux médiévales (manuscrits de la base d'Oxford et manuscrits de l'IRHT, baseprincipale du projet), et une base comprenant de manuscrits contemporains utilisée lors de lacompétition d'identification de scripteurs d'ICDAR 2011. L'exploitation de notre méthode dedescription et de classification a été faite sur une base contemporaine afin de positionner notrecontribution par rapport aux autres travaux relevant du domaine de l'identification d'écritures etétudier son pouvoir de généralisation à d'autres types de documents. Les résultats trèsencourageants que nous avons obtenus sur les bases médiévales et la base contemporaine, ontmontré la robustesse de notre approche aux variations de formes et de styles et son caractèrerésolument généralisable à tout type de documents écrits. [INFO:INFO_OH] Computer Science/Other Paléographie Ductus Dynamique de l'écriture Diffusion du gradient Suivi du tracé Coloration de graphe Dictionnaires de formes CBIR Binarisation Rehaussement de contraste Segmentation
15	Étude de la consolidation d’un résidu minier épaissi dans l'optique de son utilisation comme fondation de bermes de rehaussement de parc à résidus miniers Demers Bonin, Michaël January 2014 (has links) Résumé : Ce projet de recherche s’inscrit dans le cadre d’une requête de l’entreprise partenaire, Golder Associés Ltée. Cette dernière s’interrogeait sur la consolidation d’un résidu minier épaissi, une approche de plus en plus utilisée dans le domaine de la gestion des aires de déposition des résidus miniers. Ce type de matériau est épaissi jusqu’à un point où une fois déposé, il ne connaît pas ou peu de ségrégation, rejette moins d’eau et possède généralement un angle de repos plus grand que les résidus conventionnels. L’intérêt de cette approche dans le cadre de cette étude consiste en la réduction des empreintes des aires de déposition par la combinaison des résidus épaissis et des rehaussements par l’amont. La consolidation de ce type de résidus a été peu étudiée depuis leur développement. En rassemblant les observations rapportées dans les écrits scientifiques, il est possible de ressortir que le mécanisme physique générant la dissipation des pressions interstitielles en excès et le tassement au moment de la déposition est essentiellement la consolidation sous le poids propre. Un essai en colonne de tassement instrumentée de transmetteurs de pression a permis l’étude de la consolidation sous le poids propre en termes de dissipation des pressions d’eau avec une grande précision. Un essai en consolidomètre a permis de définir la compressibilité du matériau durant cette étape de consolidation sous le poids propre avec une précision acceptable. Les résultats expérimentaux ont été reproduits à l’aide du modèle CS2 suite à quelques ajustements des relations constitutives. CS2 considère la consolidation sous le poids propre et les grandes déformations d’une déposition instantanée. Le rapprochement entre le modèle CS2 et les résultats expérimentaux est sans équivoque et permet de prendre connaissance de certains aspects de la consolidation sous le poids propre qui étaient peu détaillés jusqu'à maintenant dans les écrits scientifiques. L’importance de la consolidation sous le poids propre et son intégration dans le plan de déposition proposé par l’entreprise partenaire a été évaluée à l’aide du logiciel SIGMA/W. Les capacités de ce logiciel ont tout d’abord été étudiées en 1D. Ces vérifications visaient la considération de la consolidation sous le poids propre tout en examinant la formulation de SIGMA/W pour un remplissage progressif. Ces simulations 1D ont pu être comparées aux résultats du modèle CS4, un modèle calqué sur CS2 qui permet un remplissage progressif. Finalement, une campagne de simulation à grande échelle en 2D visant la simulation d’une aire de déposition de résidus épaissis a permis d’examiner les éléments importants dans la considération de ce mécanisme à l’aide du logiciel commercial SIGMA/W. Il en ressort que le logiciel SIGMA/W n’est pas le logiciel idéal pour simuler la déposition progressive de résidus épaissis en considérant la consolidation sous le poids propre et ce pour maintes raisons. Les résultats de cette étude viennent situer l’importance de la consolidation sous le poids propre dans les résidus épaissis et fournissent une base solide pour la compréhension et la modélisation numérique de ce mécanisme en 1D ou en 2D. // Abstract : This research project was done through an academic partnership between the Université de Sherbrooke and Golder Associés Ltée., a mining consultant from Montréal. The latter had interrogations at regarding consolidation mechanisms controlling thickened tailings deposition, a relatively new approach in tailings management. This type of material are thickened to a point from which they don’t show any segregation, they expulse less water and can be stacked with a greater beach angle than conventional tailings. The combination of this method with the upstream raising method results in the possible reduction of the footprint of the tailings disposal facility. Thickened tailings have not been studied extensively. However, by gathering available information from the existing technical literature, it is apparent that the sole mechanism creating both a dissipation of excess pore water pressure and a settlement following deposition is self-weight consolidation. A settling column monitored with pressure transmitters was used to define accurately the self-weight consolidation process in terms of dissipation of excess pore water pressure. A consolidometer setup was used to define the compressibility of this material during the self-weight consolidation. Experimental results were reproduced with the numerical model CS2 which considers the self-weight consolidation and large strains. Following a few adjustments of the constitutive relationships, the numerical reproduction is clear; it represents closely the experimental results. This made it possible to document certain elements that were not well defined in the technical literature about the self-weight consolidation. The use of the finite element model SIGMA/W and its capability to consider self-weight consolidation within a tailings deposition scheme were evaluated. Firstly, the model capabilities were verified through 1D simulations that helped to document the method to adopt to model the self-weight consolidation. The formulation of SIGMA/W related to the sequential tailings placement was also studied during this phase. A comparison with the model CS4 was also performed. Secondly, the tailings disposal facility was modeled at large scale by including the sequential tailings placement and the consideration of the self-weight consolidation for each deposition. This process allowed evaluating the capabilities of SIGMA/W in large scale analysis. It appears that this numerical tool presents some numerical weaknesses especially with regards to the sequential tailings placement. Moreover, the results of this study place the self-weight consolidation of hard rock thickened mine tailings as an important mechanism that needs to be considered in a deposition scheme as it controls the short term displacements of the impoundment. Finally, they document the self-weight consolidation mechanism and provide reliable information for modelling this process in one or two-dimensional numerical analysis. Résidus miniers épaissis Consolidation Consolidation sous le poids propre Déposition de résidus miniers Rehaussement amont Thickened tailings Self-weight consolidation Mine tailings deposition Upstream raising method
16	GCC-NMF : séparation et rehaussement de la parole en temps-réel à faible latence / GCC-NMF: low latency real-time speech separation and enhancement Wood, Sean January 2017 (has links) Le phénomène du cocktail party fait référence à notre remarquable capacité à nous concentrer sur une seule voix dans des environnements bruyants. Dans cette thèse, nous concevons, implémentons et évaluons une approche computationnelle nommée GCC-NMF pour résoudre ce problème. GCC-NMF combine l’apprentissage automatique non supervisé par la factorisation matricielle non négative (NMF) avec la méthode de localisation spatiale à corrélation croisée généralisée (GCC). Les atomes du dictionnaire NMF sont attribués au locuteur cible ou à l’interférence à chaque instant en fonction de leurs emplacements spatiaux estimés. Nous commençons par étudier GCC-NMF dans le contexte hors ligne, où des mélanges de 10 secondes sont traités à la fois. Nous développons ensuite une variante temps réel de GCC-NMF et réduisons par la suite sa latence algorithmique inhérente de 64 ms à 2 ms avec une méthode asymétrique de transformée de Fourier de courte durée (STFT). Nous montrons que des latences aussi faibles que 6 ms, dans la plage des délais tolérables pour les aides auditives, sont possibles sur les plateformes embarquées actuelles. Nous évaluons la performance de GCC-NMF sur des données publiquement disponibles de la campagne d’évaluation de séparation des signaux SiSEC. La qualité de séparation objective est quantifiée avec les méthodes PEASS, estimant les évaluations subjectives humaines, ainsi que BSS Eval basée sur le rapport signal sur bruit (SNR) traditionnel. Bien que GCC-NMF hors ligne ait moins bien performé que d’autres méthodes du défi SiSEC en termes de métriques SNR, ses scores PEASS sont comparables aux meilleurs résultats. Dans le cas de GCC-NMF en ligne, alors que les métriques basées sur le SNR favorisent à nouveau d’autres méthodes, GCC-NMF surpasse toutes les approches précédentes sauf une en termes de scores PEASS globaux, obtenant des résultats comparables au masque binaire idéale. Nous montrons que GCC-NMF augmente la qualité objective et les métriques d’intelligibilité STOI et ESTOI sur une large gamme de SNR d’entrée de -30 à 20 dB, avec seulement des réductions mineures pour les SNR d’entrée supérieurs à 20 dB. GCC-NMF présente plusieurs caractéristiques souhaitables lorsqu’on le compare aux approches existantes. Contrairement aux méthodes d’analyse de scène auditive computationnelle (CASA), GCC-NMF ne nécessite aucune connaissance préalable sur la nature des signaux d’entrée et pourrait donc convenir aux applications de séparation et de débruitage de source dans un grand nombre de domaines. Dans le cas de GCC-NMF en ligne, seule une petite quantité de données non étiquetées est nécessaire pour apprendre le dictionnaire NMF. Cela se traduit par une plus grande flexibilité et un apprentissage beaucoup plus rapide par rapport aux approches supervisées, y compris les solutions basées sur NMF et les réseaux neuronaux profonds qui reposent sur de grands ensembles de données étiquetées. Enfin, contrairement aux méthodes de séparation de source aveugle (BSS) qui reposent sur des statistiques de signal accumulées, GCC-NMF fonctionne indépendamment pour chaque trame, ce qui permet des applications en temps réel à faible latence. / Abstract: The cocktail party phenomenon refers to our remarkable ability to focus on a single voice in noisy environments. In this thesis, we design, implement, and evaluate a computational approach to solving this problem named GCC-NMF. GCC-NMF combines unsupervised machine learning via non-negative matrix factorization (NMF) with the generalized cross-correlation (GCC) spatial localization method. Individual NMF dictionary atoms are attributed to the target speaker or background interference at each point in time based on their estimated spatial locations. We begin by studying GCC-NMF in the offline context, where entire 10-second mixtures are treated at once. We then develop an online, instantaneous variant of GCC-NMF and subsequently reduce its inherent algorithmic latency from 64 ms to 2 ms with an asymmetric short-time Fourier transform (STFT) windowing method. We show that latencies as low as 6 ms, within the range of tolerable delays for hearing aids, are possible on current hardware platforms. We evaluate the performance of GCC-NMF on publicly available data from the Signal Separation Evaluation Campaign (SiSEC), where objective separation quality is quantified using the signal-to-noise ratio (SNR)-based BSS Eval and perceptually-motivated PEASS toolboxes. Though offline GCC-NMF underperformed other methods from the SiSEC challenge in terms of the SNR-based metrics, its PEASS scores were comparable with the best results. In the case of online GCC-NMF, while SNR-based metrics again favoured other methods, GCC-NMF outperformed all but one of the previous approaches in terms of overall PEASS scores, achieving comparable results to the ideal binary mask (IBM) baseline. Furthermore, we show that GCC-NMF increases objective speech quality and the STOI and ETOI speech intelligibility metrics over a wide range of input SNRs from -30 dB to 20 dB, with only minor reductions for input SNRs greater than 20 dB. GCC-NMF exhibits a number of desirable characteristics when compared existing approaches. Unlike computational auditory scene analysis (CASA) methods, GCC-NMF requires no prior knowledge about the nature of the input signals, and may thus be suitable for source separation and denoising applications in a wide range of fields. In the case of online GCC-NMF, only a small amount of unlabeled data is required to pre-train the NMF dictionary. This results in much greater flexibility and significantly faster training when compared to supervised approaches including NMF and deep neural network-based solutions that rely on large, supervised datasets. Finally, in contrast with blind source separation (BSS) methods that rely on accumulated signal statistics, GCC-NMF operates independently for each time frame, allowing for low latency, real-time applications. Rehaussement de la parole Séparation de la parole Temps-réel Faible latence Multi-canal Apprentissage non-supervisé GCC NMF CASA Speech enhancement Speech separation Real-time Low latency Multi-channel Unsupervised learning
17	Méthodes variationnelles pour la colorisation d’images, de vidéos, et la correction des couleurs / Variational methods for image and video colorization and color correction Pierre, Fabien 23 November 2016 (has links) Cette thèse traite de problèmes liés à la couleur. En particulier, on s’intéresse à des problématiques communes à la colorisation d’images, de vidéos et au rehaussement de contraste. Si on considère qu’une image est composée de deux informations complémentaires, une achromatique (sans couleur) et l’autre chromatique (en couleur), les applications étudiées consistent à traiter une de ces deux informations en préservant sa complémentaire. En colorisation, la difficulté est de calculer une image couleur en imposant son niveau de gris. Le rehaussement de contraste vise à modifier l’intensité d’une image en préservant sa teinte. Ces problématiques communes nous ont conduits à étudier formellement la géométrie de l’espace RGB. On a démontré que les espaces couleur classiques de la littérature pour résoudre ces types de problème conduisent à des erreurs. Un algorithme, appelé spécification luminance-teinte, qui calcule une couleur ayant une teinte et une luminance données est décrit dans cette thèse. L’extension de cette méthode à un cadre variationnel a été proposée. Ce modèle a été utilisé avec succès pour rehausser les images couleur, en utilisant des hypothèses connues sur le système visuel humain. Les méthodes de l’état-de-l’art pour la colorisation d’images se divisent en deux catégories. La première catégorie regroupe celles qui diffusent des points de couleurs posés par l’utilisateur pour obtenir une image colorisée (colorisation manuelle). La seconde est constituée de celles qui utilisent une image couleur de référence ou une base d’images couleur et transfèrent les couleurs de la référence sur l’image en niveaux de gris (colorisation basée exemple). Les deux types de méthodes ont leurs avantages et inconvénients. Dans cette thèse, on propose un modèle variationnel pour la colorisation basée exemple. Celui-ci est étendu en une méthode unifiant la colorisation manuelle et basée exemple. Enfin, nous décrivons des modèles variationnels qui colorisent des vidéos tout en permettent une interaction avec l’utilisateur. / This thesis deals with problems related to color. In particular, we are interested inproblems which arise in image and video colorization and contrast enhancement. When considering color images composed of two complementary information, oneachromatic (without color) and the other chromatic (in color), the applications studied in this thesis are based on the processing one of these information while preserving its complement. In colorization, the challenge is to compute a color image while constraining its gray-scale channel. Contrast enhancement aims to modify the intensity channel of an image while preserving its hue.These joined problems require to formally study the RGB space geometry. In this work, it has been shown that the classical color spaces of the literature designed to solve these classes of problems lead to errors. An novel algorithm, called luminance-hue specification, which computes a color with a given hue and luminance is described in this thesis. The extension of this method to a variational framework has been proposed. This model has been used successfully to enhance color images, using well-known assumptions about the human visual system. The state-of-the-art methods for image colorization fall into two categories. The first category includes those that diffuse color scribbles drawn by the user (manual colorization). The second consists of those that benefits from a reference color image or a base of reference images to transfer the colors from the reference to the grayscale image (exemplar-based colorization). Both approach have their advantages and drawbacks. In this thesis, we design a variational model for exemplar-based colorization which is extended to a method unifying the manual colorization and the exemplar-based one. Finally, we describe two variational models to colorize videos in interaction with the user. Colorisation d'image Optimisation non-lisse et non-convexe Méthodes variationnelles Espace couleur Édition de vidéo Rehaussement de contraste Image colorization Non-smooth and non-convex optimization Variational methods Color spaces Video editing Contrast enhancement
18	Amélioration de codecs audio standardisés avec maintien de l'interopérabilité Lapierre, Jimmy January 2016 (has links) Résumé : L’audio numérique s’est déployé de façon phénoménale au cours des dernières décennies, notamment grâce à l’établissement de standards internationaux. En revanche, l’imposition de normes introduit forcément une certaine rigidité qui peut constituer un frein à l’amélioration des technologies déjà déployées et pousser vers une multiplication de nouveaux standards. Cette thèse établit que les codecs existants peuvent être davantage valorisés en améliorant leur qualité ou leur débit, même à l’intérieur du cadre rigide posé par les standards établis. Trois volets sont étudiés, soit le rehaussement à l’encodeur, au décodeur et au niveau du train binaire. Dans tous les cas, la compatibilité est préservée avec les éléments existants. Ainsi, il est démontré que le signal audio peut être amélioré au décodeur sans transmettre de nouvelles informations, qu’un encodeur peut produire un signal amélioré sans ajout au décodeur et qu’un train binaire peut être mieux optimisé pour une nouvelle application. En particulier, cette thèse démontre que même un standard déployé depuis plusieurs décennies comme le G.711 a le potentiel d’être significativement amélioré à postériori, servant même de cœur à un nouveau standard de codage par couches qui devait préserver cette compatibilité. Ensuite, les travaux menés mettent en lumière que la qualité subjective et même objective d’un décodeur AAC (Advanced Audio Coding) peut être améliorée sans l’ajout d’information supplémentaire de la part de l’encodeur. Ces résultats ouvrent la voie à davantage de recherches sur les traitements qui exploitent une connaissance des limites des modèles de codage employés. Enfin, cette thèse établit que le train binaire à débit fixe de l’AMR WB+ (Extended Adaptive Multi-Rate Wideband) peut être compressé davantage pour le cas des applications à débit variable. Cela démontre qu’il est profitable d’adapter un codec au contexte dans lequel il est employé. / Abstract : Digital audio applications have grown exponentially during the last decades, in good part because of the establishment of international standards. However, imposing such norms necessarily introduces hurdles that can impede the improvement of technologies that have already been deployed, potentially leading to a proliferation of new standards. This thesis shows that existent coders can be better exploited by improving their quality or their bitrate, even within the rigid constraints posed by established standards. Three aspects are studied, being the enhancement of the encoder, the decoder and the bit stream. In every case, the compatibility with the other elements of the existent coder is maintained. Thus, it is shown that the audio signal can be improved at the decoder without transmitting new information, that an encoder can produce an improved signal without modifying its decoder, and that a bit stream can be optimized for a new application. In particular, this thesis shows that even a standard like G.711, which has been deployed for decades, has the potential to be significantly improved after the fact. This contribution has even served as the core for a new standard embedded coder that had to maintain that compatibility. It is also shown that the subjective and objective audio quality of the AAC (Advanced Audio Coding) decoder can be improved, without adding any extra information from the encoder, by better exploiting the knowledge of the coder model’s limitations. Finally, it is shown that the fixed rate bit stream of the AMR-WB+ (Extended Adaptive Multi-Rate Wideband) can be compressed more efficiently when considering a variable bit rate scenario, showing the need to adapt a coder to its use case. Audio numérique Télécommunications Standards de télécommunication Traitement de signal numérique Codage audio Codage par transformée Codage entropique Rehaussement audio Digital audio Telecommunications Telecommunication standards Digital signal processing Audio coding Transform coding Entropy coding Audio enhancement
19	Mise à jour de la Base de Données Topographiques du Québec à l'aide d'images à très haute résolution spatiale et du progiciel Sigma0 : le cas des voies de communication Bélanger, Jean 12 1900 (has links) Le Ministère des Ressources Naturelles et de la Faune (MRNF) a mandaté la compagnie de géomatique SYNETIX inc. de Montréal et le laboratoire de télédétection de l’Université de Montréal dans le but de développer une application dédiée à la détection automatique et la mise à jour du réseau routier des cartes topographiques à l’échelle 1 : 20 000 à partir de l’imagerie optique à haute résolution spatiale. À cette fin, les mandataires ont entrepris l’adaptation du progiciel SIGMA0 qu’ils avaient conjointement développé pour la mise à jour cartographique à partir d’images satellitales de résolution d’environ 5 mètres. Le produit dérivé de SIGMA0 fut un module nommé SIGMA-ROUTES dont le principe de détection des routes repose sur le balayage d’un filtre le long des vecteurs routiers de la cartographie existante. Les réponses du filtre sur des images couleurs à très haute résolution d’une grande complexité radiométrique (photographies aériennes) conduisent à l’assignation d’étiquettes selon l’état intact, suspect, disparu ou nouveau aux segments routiers repérés. L’objectif général de ce projet est d’évaluer la justesse de l’assignation des statuts ou états en quantifiant le rendement sur la base des distances totales détectées en conformité avec la référence ainsi qu’en procédant à une analyse spatiale des incohérences. La séquence des essais cible d’abord l’effet de la résolution sur le taux de conformité et dans un second temps, les gains escomptés par une succession de traitements de rehaussement destinée à rendre ces images plus propices à l’extraction du réseau routier. La démarche globale implique d’abord la caractérisation d’un site d’essai dans la région de Sherbrooke comportant 40 km de routes de diverses catégories allant du sentier boisé au large collecteur sur une superficie de 2,8 km2. Une carte de vérité terrain des voies de communication nous a permis d’établir des données de référence issues d’une détection visuelle à laquelle sont confrontés les résultats de détection de SIGMA-ROUTES. Nos résultats confirment que la complexité radiométrique des images à haute résolution en milieu urbain bénéficie des prétraitements telles que la segmentation et la compensation d’histogramme uniformisant les surfaces routières. On constate aussi que les performances présentent une hypersensibilité aux variations de résolution alors que le passage entre nos trois résolutions (84, 168 et 210 cm) altère le taux de détection de pratiquement 15% sur les distances totales en concordance avec la référence et segmente spatialement de longs vecteurs intacts en plusieurs portions alternant entre les statuts intact, suspect et disparu. La détection des routes existantes en conformité avec la référence a atteint 78% avec notre plus efficace combinaison de résolution et de prétraitements d’images. Des problèmes chroniques de détection ont été repérés dont la présence de plusieurs segments sans assignation et ignorés du processus. Il y a aussi une surestimation de fausses détections assignées suspectes alors qu’elles devraient être identifiées intactes. Nous estimons, sur la base des mesures linéaires et des analyses spatiales des détections que l’assignation du statut intact devrait atteindre 90% de conformité avec la référence après divers ajustements à l’algorithme. La détection des nouvelles routes fut un échec sans égard à la résolution ou au rehaussement d’image. La recherche des nouveaux segments qui s’appuie sur le repérage de points potentiels de début de nouvelles routes en connexion avec les routes existantes génère un emballement de fausses détections navigant entre les entités non-routières. En lien avec ces incohérences, nous avons isolé de nombreuses fausses détections de nouvelles routes générées parallèlement aux routes préalablement assignées intactes. Finalement, nous suggérons une procédure mettant à profit certaines images rehaussées tout en intégrant l’intervention humaine à quelques phases charnières du processus. / In order to optimize and reduce the cost of road map updating, the Ministry of Natural Resources and Wildlife is considering exploiting high definition color aerial photography within a global automatic detection process. In that regard, Montreal based SYNETIX Inc, teamed with the University of Montreal Remote Sensing Laboratory (UMRSL) in the development of an application indented for the automatic detection of road networks on complex radiometric high definition imagery. This application named SIGMA-ROUTES is a derived module of a software called SIGMA0 earlier developed by the UMRSL for optic and radar imagery of 5 to 10 meter resolution. SIGMA-ROUTES road detections relies on a map guided filtering process that enables the filter to be driven along previously known road vectors and tagged them as intact, suspect or lost depending on the filtering responses. As for the new segments updating, the process first implies a detection of potential starting points for new roads within the filtering corridor of previously known road to which they should be connected. In that respect, it is a very challenging task to emulate the human visual filtering process and further distinguish potential starting points of new roads on complex radiometric high definition imagery. In this research, we intend to evaluate the application’s efficiency in terms of total linear distances of detected roads as well as the spatial location of inconsistencies on a 2.8 km2 test site containing 40 km of various road categories in a semi-urban environment. As specific objectives, we first intend to establish the impact of different resolutions of the input imagery and secondly establish the potential gains of enhanced images (segmented and others) in a preemptive approach of better matching the image property with the detection parameters. These results have been compared to a ground truth reference obtained by a conventional visual detection process on the bases of total linear distances and spatial location of detection. The best results with the most efficient combination of resolution and pre-processing have shown a 78% intact detection in accordance to the ground truth reference when applied to a segmented resample image. The impact of image resolution is clearly noted as a change from 84 cm to 210 cm resolution altered the total detected distances of intact roads of around 15%. We also found many roads segments ignored by the process and without detection status although they were directly liked to intact neighbours. By revising the algorithm and optimizing the image pre-processing, we estimate a 90% intact detection performance can be reached. The new segment detection is non conclusive as it generates an uncontrolled networks of false detections throughout other entities in the images. Related to these false detections of new roads, we were able to identify numerous cases of new road detections parallel to previously assigned intact road segments. We conclude with a proposed procedure that involves enhanced images as input combined with human interventions at critical level in order to optimize the final product. Mise à jour cartographique Rehaussement d’images Map updating High definition color aerial photography Automatic detection of road networks Enhanced images
20	Mise à jour de la Base de Données Topographiques du Québec à l'aide d'images à très haute résolution spatiale et du progiciel Sigma0 : le cas des voies de communication Bélanger, Jean 12 1900 (has links) Le Ministère des Ressources Naturelles et de la Faune (MRNF) a mandaté la compagnie de géomatique SYNETIX inc. de Montréal et le laboratoire de télédétection de l’Université de Montréal dans le but de développer une application dédiée à la détection automatique et la mise à jour du réseau routier des cartes topographiques à l’échelle 1 : 20 000 à partir de l’imagerie optique à haute résolution spatiale. À cette fin, les mandataires ont entrepris l’adaptation du progiciel SIGMA0 qu’ils avaient conjointement développé pour la mise à jour cartographique à partir d’images satellitales de résolution d’environ 5 mètres. Le produit dérivé de SIGMA0 fut un module nommé SIGMA-ROUTES dont le principe de détection des routes repose sur le balayage d’un filtre le long des vecteurs routiers de la cartographie existante. Les réponses du filtre sur des images couleurs à très haute résolution d’une grande complexité radiométrique (photographies aériennes) conduisent à l’assignation d’étiquettes selon l’état intact, suspect, disparu ou nouveau aux segments routiers repérés. L’objectif général de ce projet est d’évaluer la justesse de l’assignation des statuts ou états en quantifiant le rendement sur la base des distances totales détectées en conformité avec la référence ainsi qu’en procédant à une analyse spatiale des incohérences. La séquence des essais cible d’abord l’effet de la résolution sur le taux de conformité et dans un second temps, les gains escomptés par une succession de traitements de rehaussement destinée à rendre ces images plus propices à l’extraction du réseau routier. La démarche globale implique d’abord la caractérisation d’un site d’essai dans la région de Sherbrooke comportant 40 km de routes de diverses catégories allant du sentier boisé au large collecteur sur une superficie de 2,8 km2. Une carte de vérité terrain des voies de communication nous a permis d’établir des données de référence issues d’une détection visuelle à laquelle sont confrontés les résultats de détection de SIGMA-ROUTES. Nos résultats confirment que la complexité radiométrique des images à haute résolution en milieu urbain bénéficie des prétraitements telles que la segmentation et la compensation d’histogramme uniformisant les surfaces routières. On constate aussi que les performances présentent une hypersensibilité aux variations de résolution alors que le passage entre nos trois résolutions (84, 168 et 210 cm) altère le taux de détection de pratiquement 15% sur les distances totales en concordance avec la référence et segmente spatialement de longs vecteurs intacts en plusieurs portions alternant entre les statuts intact, suspect et disparu. La détection des routes existantes en conformité avec la référence a atteint 78% avec notre plus efficace combinaison de résolution et de prétraitements d’images. Des problèmes chroniques de détection ont été repérés dont la présence de plusieurs segments sans assignation et ignorés du processus. Il y a aussi une surestimation de fausses détections assignées suspectes alors qu’elles devraient être identifiées intactes. Nous estimons, sur la base des mesures linéaires et des analyses spatiales des détections que l’assignation du statut intact devrait atteindre 90% de conformité avec la référence après divers ajustements à l’algorithme. La détection des nouvelles routes fut un échec sans égard à la résolution ou au rehaussement d’image. La recherche des nouveaux segments qui s’appuie sur le repérage de points potentiels de début de nouvelles routes en connexion avec les routes existantes génère un emballement de fausses détections navigant entre les entités non-routières. En lien avec ces incohérences, nous avons isolé de nombreuses fausses détections de nouvelles routes générées parallèlement aux routes préalablement assignées intactes. Finalement, nous suggérons une procédure mettant à profit certaines images rehaussées tout en intégrant l’intervention humaine à quelques phases charnières du processus. / In order to optimize and reduce the cost of road map updating, the Ministry of Natural Resources and Wildlife is considering exploiting high definition color aerial photography within a global automatic detection process. In that regard, Montreal based SYNETIX Inc, teamed with the University of Montreal Remote Sensing Laboratory (UMRSL) in the development of an application indented for the automatic detection of road networks on complex radiometric high definition imagery. This application named SIGMA-ROUTES is a derived module of a software called SIGMA0 earlier developed by the UMRSL for optic and radar imagery of 5 to 10 meter resolution. SIGMA-ROUTES road detections relies on a map guided filtering process that enables the filter to be driven along previously known road vectors and tagged them as intact, suspect or lost depending on the filtering responses. As for the new segments updating, the process first implies a detection of potential starting points for new roads within the filtering corridor of previously known road to which they should be connected. In that respect, it is a very challenging task to emulate the human visual filtering process and further distinguish potential starting points of new roads on complex radiometric high definition imagery. In this research, we intend to evaluate the application’s efficiency in terms of total linear distances of detected roads as well as the spatial location of inconsistencies on a 2.8 km2 test site containing 40 km of various road categories in a semi-urban environment. As specific objectives, we first intend to establish the impact of different resolutions of the input imagery and secondly establish the potential gains of enhanced images (segmented and others) in a preemptive approach of better matching the image property with the detection parameters. These results have been compared to a ground truth reference obtained by a conventional visual detection process on the bases of total linear distances and spatial location of detection. The best results with the most efficient combination of resolution and pre-processing have shown a 78% intact detection in accordance to the ground truth reference when applied to a segmented resample image. The impact of image resolution is clearly noted as a change from 84 cm to 210 cm resolution altered the total detected distances of intact roads of around 15%. We also found many roads segments ignored by the process and without detection status although they were directly liked to intact neighbours. By revising the algorithm and optimizing the image pre-processing, we estimate a 90% intact detection performance can be reached. The new segment detection is non conclusive as it generates an uncontrolled networks of false detections throughout other entities in the images. Related to these false detections of new roads, we were able to identify numerous cases of new road detections parallel to previously assigned intact road segments. We conclude with a proposed procedure that involves enhanced images as input combined with human interventions at critical level in order to optimize the final product. Mise à jour cartographique Rehaussement d’images Map updating High definition color aerial photography Automatic detection of road networks Enhanced images

Search results