41 |
Knowledge-based speech enhancementSrinivasan, Sriram January 2005 (has links)
Speech is a fundamental means of human communication. In the last several decades, much effort has been devoted to the efficient transmission and storage of speech signals. With advances in technology making mobile communication ubiquitous, communications anywhere has become a reality. The freedom and flexibility offered by mobile technology brings with it new challenges, one of which is robustness to acoustic background noise. Speech enhancement systems form a vital front-end for mobile telephony in noisy environments such as in cars, cafeterias, subway stations, etc., in hearing aids, and to improve the performance of speech recognition systems. In this thesis, which consists of four research articles, we discuss both single and multi-microphone approaches to speech enhancement. The main contribution of this thesis is a framework to exploit available prior knowledge about both speech and noise. The physiology of speech production places a constraint on the possible shapes of the speech spectral envelope, and this information s captured using codebooks of speech linear predictive (LP) coefficients obtained from a large training database. Similarly, information about commonly occurring noise types is captured using a set of noise codebooks, which can be combined with sound environment classi¯cation to treat different environments differently. In paper A, we introduce maximum-likelihood estimation of the speech and noise LP parameters using the codebooks. The codebooks capture only the spectral shape. The speech and noise gain factors are obtained through a frame-by-frame optimization, providing good performance in practical nonstationary noise environments. The estimated parameters are subsequently used in a Wiener filter. Paper B describes Bayesian minimum mean squared error estimation of the speech and noise LP parameters and functions there-of, while retaining the in- stantaneous gain computation. Both memoryless and memory-based estimators are derived. While papers A and B describe single-channel techniques, paper C describes a multi-channel Bayesian speech enhancement approach, where, in addition to temporal processing, the spatial diversity provided by multiple microphones s also exploited. In paper D, we introduce a multi-channel noise reduction technique motivated by blind source separation (BSS) concepts. In contrast to standard BSS approaches, we use the knowledge that one of the signals is speech and that the other is noise, and exploit their different characteristics. / QC 20100929
|
42 |
Improving the quality of speech in noisy environmentsParikh, Devangi Nikunj 06 November 2012 (has links)
In this thesis, we are interested in processing noisy speech signals that are meant to be heard by humans, and hence we approach the noise-suppression problem from a perceptual perspective. We develop a noise-suppression paradigm that is based on a model of the human auditory system, where we process signals in a way that is natural to the human ear. Under this paradigm, we transform an audio signal in to a perceptual domain, and processes the signal in this perceptual domain. This approach allows us to reduce the background noise and the audible artifacts that are seen in traditional noise-suppression algorithms, while preserving the quality of the processed speech. We develop a single- and dual-microphone algorithm based on this perceptual paradigm, and conduct subjecting tests to show that this approach outperforms traditional noise-suppression techniques. Moreover, we investigate the cause of audible artifacts that are generated as a result of suppressing the noise in noisy signals, and introduce constraints on the noise-suppression gain such that these artifacts are reduced.
|
43 |
Separação cega de fontes em tempo real utilizando FPGAFratini Filho, Oswaldo January 2017 (has links)
Orientador: Prof. Dr. Ricardo Suyama / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, 2017. / O metodo estatistico de Independent Component Analysis (ICA) e um dos mais
amplamente utilizados para solucionar o problema de Blind Source Separation (BSS)
que, junto a outros metodos de processamento de sinais, sao colocados a prova com o
aumento do numero das fontes de sinais e amostras disponiveis para processamento,
e sao a base de aplicacoes com requisitos de desempenho cada vez maiores.
O objetivo deste trabalho e realizar o estudo do metodo ICA e analise dos algoritmos
FastICA e Joint Approximate Diagonalization of Eigen-matrices (JADE)
implementados em Field-Programmable Gate Array (FPGA) e seu comportamento
quando variamos o numero de amostras das misturas e os numeros de iteracoes ou
updates. Outros trabalhos de pesquisa ja foram realizados com o objetivo de demonstrar
a viabilidade da implementacao de tais algoritmos em FPGA, mas pouco
apresentam sobre o metodo utilizado para definir detalhes de implementacao como
numero de amostradas utilizados, a razao da representacao numerica escolhida e
sobre o thoughtput alcancado.
A analise que este trabalho propos realizar, num primeiro momento, passa por
demonstrar o comportamento do core dos algoritmos quando implementados utilizando
diferentes representacoes numericas de ponto flutuante com precisao simples
(32 bits) e ponto fixo com diferentes numeros de amostras e fontes a serem estimadas,
por meio de simulacoes. Foi verificada a viabilidade desses serem utilizados
para atender aplicacoes que precisam resolver o problema de BSS com boa acuracia,
quando comparados com implementacoes dos mesmos algoritmos que se utilizaram
de uma representacao numerica de ponto flutuante com precisao dupla (64 bits).
Utilizando o Simulink R¿e a biblioteca DSP Builder R¿da Altera R¿para implementar
os modelos de cada algoritmo, foi possivel analisar outros aspectos importantes, em
busca de demonstrar a possibilidade da utilizacao de tais implementacoes em aplicacoes
com requisitos de tempo real, que necessitam de alto desempenho, utilizando
FPGA de baixo custo, como: a quantidade de recursos de FPGA necessarios na
implementacao de cada algoritmo, principalmente buscando minimizar a utilizacao
de blocos DSP, a latencia, e maximizar o throughput de processamento. / Independent Component Analysis (ICA) is one of the most widely used statistical
method to solve the problem of Blind Source Separation (BSS), which, along
with other signal processing methods, faces new challenges with the increasing the
number of signal sources and samples available for processing, being the base of
applications with increasing performance requirements.
The aim of this work is to study the FastICA and the Joint Approximate Diagonalization
of Eigen-matrices (JADE) algorithms and implement them in Field-
Programmable Gate Array (FPGA). Other researches have already been carried out
with the objective of demonstrating the feasibility of implementing such algorithms
in FPGA, but they present little about the methodology used and implementation
details such as the number of samples used, why the numerical representation was
chosen and the obtained thoughtput.
The analysis carried out in this work demonstrates the behavior of the core of
the algorithms when implemented using different representations, such as singleprecision
floating-point (32 bits) and fixed point with different numbers of samples
and sources to be estimated. It was verified these immplementations are able to solve
the BSS problem with good accuracy when compared with implementations of the
same algorithms that exmploy a double-precision floating-point representation (64
bits).
Using the Simulink R¿ and Alterafs R¿ DSP Builder R¿ library to implement the models
of each algorithm, it was possible to analyze other important aspects, in order
to demonstrate the possibility of using such implementations in applications with
real-time requirements that require high performance, using low cost FPGA, such
as: the necessary FPGA resources in the implementation of each algorithm, mainly
seeking to minimize the use of DSP blocks, latency, and to maximize the processing
throughput.
|
44 |
Parameter Estimation and Signal Processing Techniques for Operational Modal AnalysisCHAUHAN, SHASHANK 18 April 2008 (has links)
No description available.
|
45 |
Estimation of Atmospheric Phase Scintillation Via Decorrelation of Water Vapor Radiometer SignalsNessel, James Aaron January 2015 (has links)
No description available.
|
46 |
Κατασκευή μικροϋπολογιστικού συστήματος διαχωρισμού σημάτων με τον αλγόριθμο ICAΧονδρός, Παναγιώτης 13 October 2013 (has links)
Η διπλωματική εργασία αυτή αφορά την κατασκευή ενός μικροϋπολογιστικού συστήματος διαχωρισμού σημάτων. Ο διαχωρισμός των σημάτων γίνεται με βάση τη θεωρία της τεχνικής της Ανάλυσης Ανεξάρτητων Συνιστωσών. Αφού παρουσιαστεί η θεωρία της τεχνικής, παρουσιάζεται ο μικροελεγκτής ADuC 7026 που επελέγη για την υλοποίηση. Στη συνέχεια γίνεται η παρουσίαση του λογισμικού προσομοίωσης του μικροελεγκτή και παρατίθενται βασικά παραδείγματα για τον προγραμματισμό του. Τέλος, αναπτύσσονται, χωρίς τη χρήση περιφερειακών, και προσομοιώνονται, με τη χρήση περιφερειακών τρεις αλγόριθμοι, δυο εκδόσεις του FastICA και μια έκδοση του InfoMax. Οι αλγόριθμοι αυτοί αξιολογούνται ως προς τις επιδόσεις τους και εξάγονται τα συμπεράσματα. / This thesis deals with the construction of a microcomputer system to separate signals. The separation of the signals is based on the theory of the technique of Independent Component Analysis. The theory of the technique and the microcontroller ADuC 7026 chosen for implementation are presented. Then, follows the presentation of the software on which the microcontroller is simulated and basic examples of its programming are mentioned. Finally, three algorithms, two versions of FastICA and a version of InfoMax, are developed without the use of peripheral systems and simulated using peripheral systems. These algorithms are evaluated for their performance and conclusions are drawn.
|
47 |
Bekontaktis pulso matavimas naudojant internetinę vaizdo kamerą / Non-contact cardiac pulse measurement using web cameraSeniut, Konstantin 10 June 2011 (has links)
Baigiamajame magistro darbe yra nagrinėjamas bekontaktis pulso matavimo metodas. Darbo tikslams pasiekti naudota Logitech C310 internetinė vaizdo kamera. Įrašomo vaizdo dydis yra 640X480 pikselių. Filmavimo sparta – 15 kadrų per sekundę. Vaizdo įrašo ilgis – 30 sekundžių. Tiriamieji buvo filmuojami apie 0,5 m atstumu nuo kameros. Tiriamųjų amžius nuo 24 iki 64 metų. Vaizdas buvo įrašomas, esant įvairiam apšvietimui: tiek dienos metu, tiek šviečiant skirtingo galingumo lempoms. Rezultatams palyginti buvo naudojamas ant riešo uždedamas pulso matavimo prietaisas ReliOn, kurio veikimas pagrįstas kraujagyslėse pulsuojančio kraujo spaudimo kitimu. Išgautam pulso signalui apdoroti, palyginimui buvo panaudoti du nepriklausomų komponenčių analizės algoritmai: Fast ICA bei stSobi. Eksperimentams atlikti buvo naudojama C# programavimo kalba ir Matlab 2008 matematinis skaičiavimo paketas. / The thesis analyses the non-contact cardiac pulse measurement method. To achieve work main goals Logitech C310 web camera was used. Video resolution was 640X480 pixels. Video capture speed was 15 frames per second. Video length was 30 seconds. Distance from web camera to human face was ~ 0,5 m. Participant age varied from 24 to 64 years old. Video was captured with different light sources: sun, lamps with different power. For results comparison ReliOn handy pulse measurement device was used. Pulse signal was filtered using two independent component analysis algorithms: Fast ICA and stSobi. Experiments have been made using C# programming language and Matlab 2008 mathematical package.
|
48 |
Decomposition methods of NMR signal of complex mixtures : models ans applicationsToumi, Ichrak 28 October 2013 (has links)
L'objectif de ce travail était de tester des méthodes de SAS pour la séparation des spectres complexes RMN de mélanges dans les plus simples des composés purs. Dans une première partie, les méthodes à savoir JADE et NNSC ont été appliqué es dans le cadre de la DOSY , une application aux données CPMG était démontrée. Dans une deuxième partie, on s'est concentré sur le développement d'un algorithme efficace "beta-SNMF" . Ceci s'est montré plus performant que NNSC pour beta inférieure ou égale à 2. Etant donné que dans la littérature, le choix de beta a été adapté aux hypothèses statistiques sur le bruit additif, une étude statistique du bruit RMN de la DOSY a été faite pour obtenir une image plus complète de nos données RMN étudiées. / The objective of the work was to test BSS methods for the separation of the complex NMR spectra of mixtures into the simpler ones of the pure compounds. In a first part, known methods namely JADE and NNSC were applied in conjunction for DOSY , performing applications for CPMG were demonstrated. In a second part, we focused on developing an effective algorithm "beta- SNMF ". This was demonstrated to outperform NNSC for beta less or equal to 2. Since in the literature, the choice of beta has been adapted to the statistical assumptions on the additive noise, a statistical study of NMR DOSY noise was done to get a more complete picture about our studied NMR data.
|
49 |
Factor analysis of dynamic PET imagesCruz Cavalcanti, Yanna 31 October 2018 (has links)
La tomographie par émission de positrons (TEP) est une technique d'imagerie nucléaire noninvasive qui permet de quantifier les fonctions métaboliques des organes à partir de la diffusion d'un radiotraceur injecté dans le corps. Alors que l'imagerie statique est souvent utilisée afin d'obtenir une distribution spatiale de la concentration du traceur, une meilleure évaluation de la cinétique du traceur est obtenue par des acquisitions dynamiques. En ce sens, la TEP dynamique a suscité un intérêt croissant au cours des dernières années, puisqu'elle fournit des informations à la fois spatiales et temporelles sur la structure des prélèvements de traceurs en biologie \textit{in vivo}. Les techniques de quantification les plus efficaces en TEP dynamique nécessitent souvent une estimation de courbes temps-activité (CTA) de référence représentant les tissus ou une fonction d'entrée caractérisant le flux sanguin. Dans ce contexte, de nombreuses méthodes ont été développées pour réaliser une extraction non-invasive de la cinétique globale d'un traceur, appelée génériquement analyse factorielle. L'analyse factorielle est une technique d'apprentissage non-supervisée populaire pour identifier un modèle ayant une signification physique à partir de données multivariées. Elle consiste à décrire chaque voxel de l'image comme une combinaison de signatures élémentaires, appelées \textit{facteurs}, fournissant non seulement une CTA globale pour chaque tissu, mais aussi un ensemble des coefficients reliant chaque voxel à chaque CTA tissulaire. Parallèlement, le démélange - une instance particulière d'analyse factorielle - est un outil largement utilisé dans la littérature de l'imagerie hyperspectrale. En imagerie TEP dynamique, elle peut être très pertinente pour l'extraction des CTA, puisqu'elle prend directement en compte à la fois la non-négativité des données et la somme-à-une des proportions de facteurs, qui peuvent être estimées à partir de la diffusion du sang dans le plasma et les tissus. Inspiré par la littérature de démélange hyperspectral, ce manuscrit s'attaque à deux inconvénients majeurs des techniques générales d'analyse factorielle appliquées en TEP dynamique. Le premier est l'hypothèse que la réponse de chaque tissu à la distribution du traceur est spatialement homogène. Même si cette hypothèse d'homogénéité a prouvé son efficacité dans plusieurs études d'analyse factorielle, elle ne fournit pas toujours une description suffisante des données sousjacentes, en particulier lorsque des anomalies sont présentes. Pour faire face à cette limitation, les modèles proposés ici permettent un degré de liberté supplémentaire aux facteurs liés à la liaison spécifique. Dans ce but, une perturbation spatialement variante est introduite en complément d'une CTA nominale et commune. Cette variation est indexée spatialement et contrainte avec un dictionnaire, qui est soit préalablement appris ou explicitement modélisé par des non-linéarités convolutives affectant les tissus de liaisons non-spécifiques. Le deuxième inconvénient est lié à la distribution du bruit dans les images PET. Même si le processus de désintégration des positrons peut être décrit par une distribution de Poisson, le bruit résiduel dans les images TEP reconstruites ne peut généralement pas être simplement modélisé par des lois de Poisson ou gaussiennes. Nous proposons donc de considérer une fonction de coût générique, appelée $\beta$-divergence, capable de généraliser les fonctions de coût conventionnelles telles que la distance euclidienne, les divergences de Kullback-Leibler et Itakura-Saito, correspondant respectivement à des distributions gaussiennes, de Poisson et Gamma. Cette fonction de coût est appliquée à trois modèles d'analyse factorielle afin d'évaluer son impact sur des images TEP dynamiques avec différentes caractéristiques de reconstruction. / Thanks to its ability to evaluate metabolic functions in tissues from the temporal evolution of a previously injected radiotracer, dynamic positron emission tomography (PET) has become an ubiquitous analysis tool to quantify biological processes. Several quantification techniques from the PET imaging literature require a previous estimation of global time-activity curves (TACs) (herein called \textit{factors}) representing the concentration of tracer in a reference tissue or blood over time. To this end, factor analysis has often appeared as an unsupervised learning solution for the extraction of factors and their respective fractions in each voxel. Inspired by the hyperspectral unmixing literature, this manuscript addresses two main drawbacks of general factor analysis techniques applied to dynamic PET. The first one is the assumption that the elementary response of each tissue to tracer distribution is spatially homogeneous. Even though this homogeneity assumption has proven its effectiveness in several factor analysis studies, it may not always provide a sufficient description of the underlying data, in particular when abnormalities are present. To tackle this limitation, the models herein proposed introduce an additional degree of freedom to the factors related to specific binding. To this end, a spatially-variant perturbation affects a nominal and common TAC representative of the high-uptake tissue. This variation is spatially indexed and constrained with a dictionary that is either previously learned or explicitly modelled with convolutional nonlinearities affecting non-specific binding tissues. The second drawback is related to the noise distribution in PET images. Even though the positron decay process can be described by a Poisson distribution, the actual noise in reconstructed PET images is not expected to be simply described by Poisson or Gaussian distributions. Therefore, we propose to consider a popular and quite general loss function, called the $\beta$-divergence, that is able to generalize conventional loss functions such as the least-square distance, Kullback-Leibler and Itakura-Saito divergences, respectively corresponding to Gaussian, Poisson and Gamma distributions. This loss function is applied to three factor analysis models in order to evaluate its impact on dynamic PET images with different reconstruction characteristics.
|
50 |
Spatial separation of sound sources / Séparation spatiale des sources sonoresDong, Bin 14 April 2014 (has links)
La séparation aveugle de sources est une technique prometteuse pour l'identification, la localisation, et la classification des sources sonores. L'objectif de cette thèse est de proposer des méthodes pour séparer des sources sonores incohérentes qui peuvent se chevaucher à la fois dans les domaines spatial et fréquentiel par l'exploitation de l'information spatiale. De telles méthodes sont d'intérêt dans les applications acoustiques nécessitant l'identification et la classification des sources sonores ayant des origines physiques différentes. Le principe fondamental de toutes les méthodes proposées se décrit en deux étapes, la première étant relative à la reconstruction du champ source (comme par exemple à l'aide de l'holographie acoustique de champ proche) et la seconde à la séparation aveugle de sources. Spécifiquement, l'ensemble complexe des sources est d'abord décomposé en une combinaison linéaire de fonctions de base spatiales dont les coefficients sont définis en rétropropageant les pressions mesurées par un réseau de microphones sur le domaine source. Cela conduit à une formulation similaire, mais pas identique, à la séparation aveugle de sources. Dans la seconde étape, ces coefficients sont séparés en variables latentes décorrélées, affectées à des “sources virtuelles” incohérentes. Il est montré que ces dernières sont définies par une rotation arbitraire. Un ensemble unique de sources sonores est finalement résolu par la recherche de la rotation (par gradient conjugué dans la variété Stiefel des matrices unitaires) qui minimise certains critères spatiaux, tels que la variance spatiale, l'entropie spatiale, ou l'orthogonalité spatiale. Il en résulte la proposition de trois critères de séparation à savoir la “moindre variance spatiale”, la “moindre entropie spatiale”, et la “décorrélation spatiale”, respectivement. De plus, la condition sous laquelle la décorrélation classique (analyse en composantes principales) peut résoudre le problème est établit de une manière rigoureuse. Le même concept d'entropie spatiale, qui est au cœur de cette thèse, est également exploité dans la définition d'un nouveau critère, la courbe en L entropique, qui permet de déterminer le nombre de sources sonores actives sur le domaine source d'intérêt. L'idée consiste à considérer le nombre de sources qui réalise le meilleur compromis entre une faible entropie spatiale (comme prévu à partir de sources compactes) et une faible entropie statistique (comme prévu à partir d'une faible erreur résiduelle). / Blind source separation is a promising technique for the identification, localization, and ranking of sound sources. The aim of this dissertation is to offer methods for separating incoherent sound sources which may overlap in both the space and frequency domains by exploiting spatial information. This is found of interest in acoustical applications involving the identification and ranking of sound sources stemming from different physical origins. The fundamental principle of all proposed methods proceeds in two steps, the first one being reminiscent to source reconstruction (e.g. as in near-field acoustical holography) and the second one to blind source separation. Specifically, the source mixture is first expanded into a linear combination of spatial basis functions whose coefficients are set by backpropagating the pressures measured by an array of microphones to the source domain. This leads to a formulation similar, but no identical, to blind source separation. In the second step, these coefficients are blindly separated into uncorrelated latent variables, assigned to incoherent “virtual sources”. These are shown to be defined up to an arbitrary rotation. A unique set of sound sources is finally recovered by searching for that rotation (conjugate gradient descent in the Stiefel manifold of unitary matrices) which minimizes some spatial criteria, such as spatial variance, spatial entropy, or spatial orthogonality. This results in the proposal of three separation criteria coined “least spatial variance”, “least spatial entropy”, and “spatial decorrelation”, respectively. Meanwhile, the condition under which classical decorrelation (principal component analysis) can solve the problem is deduced in a rigorous way. The same concept of spatial entropy, which is central to the dissertation, is also exploited in defining a new criterion, the entropic L-curve, dedicated to determining the number of active sound sources on the source domain of interest. The idea consists in considering the number of sources that achieves the best compromise between a low spatial entropy (as expected from compact sources) and a low statistical entropy (as expected from a low residual error).
|
Page generated in 0.1367 seconds