Spelling suggestions: "subject:"fundamental frequency estimation"" "subject:"dundamental frequency estimation""
1 |
Statistical Spectral Parameter Estimation of Acoustic Signals with Applications to Byzantine MusicTsiappoutas, Kyriakos Michael 17 December 2011 (has links)
Digitized acoustical signals of Byzantine music performed by Iakovos Nafpliotis are used to extract the fundamental frequency of each note of the diatonic scale. These empirical results are then contrasted to the theoretical suggestions and previous empirical findings. Several parametric and non-parametric spectral parameter estimation methods are implemented. These include: (1) Phase vocoder method, (2) McAulay-Quatieri method, (3) Levinson-Durbin algorithm,(4) YIN, (5) Quinn & Fernandes Estimator, (6) Pisarenko Frequency Estimator, (7) MUltiple SIgnal Characterization (MUSIC) algorithm, (8) Periodogram method, (9) Quinn & Fernandes Filtered Periodogram, (10) Rife & Vincent Estimator, and (11) the Fourier transform. Algorithm performance was very precise. The psychophysical aspect of human pitch discrimination is explored. The results of eight (8) psychoacoustical experiments were used to determine the aural just noticeable difference (jnd) in pitch and deduce patterns utilized to customize acceptable performable pitch deviation to the application at hand. These customizations [Acceptable Performance Difference (a new measure of frequency differential acceptability), Perceptual Confidence Intervals (a new concept of confidence intervals based on psychophysical experiment rather than statistics of performance data), and one based purely on music-theoretical asymphony] are proposed, discussed, and used in interpretation of results. The results suggest that Nafpliotis' intervals are closer to just intonation than Byzantine theory (with minor exceptions), something not generally found in Thrasivoulos Stanitsas' data. Nafpliotis' perfect fifth is identical to the just intonation, even though he overstretches his octaveby fifteen (15)cents. His perfect fourth is also more just, as opposed to Stanitsas' fourth which is directionally opposite. Stanitsas' tendency to exaggerate the major third interval A4-F4 is still seen in Nafpliotis, but curbed. This is the only noteworthy departure from just intonation, with Nafpliotis being exactly Chrysanthian (the most exaggerated theoretical suggestion of all) and Stanitsas overstretching it even more than Nafpliotis and Chrysanth. Nafpliotis ascends in the second tetrachord more robustly diatonically than Stanitsas. The results are reported and interpreted within the framework of Acceptable Performance Differences.
2 |
Computationally efficient methods for polyphonic music transcriptionPertusa, Antonio 09 July 2010 (has links)
Este trabajo propone una serie de métodos eficientes para convertir una señal de audio musical polifónica (WAV, MP3) en una partitura (MIDI).
3 |
Robuste Spracherkennung unter raumakustischen UmgebungsbedingungenPetrick, Rico 14 January 2010 (has links) (PDF)
Bei der Überführung eines wissenschaftlichen Laborsystems zur automatischen Spracherkennung in eine reale Anwendung ergeben sich verschiedene praktische Problemstellungen, von denen eine der Verlust an Erkennungsleistung durch umgebende akustische Störungen ist. Im Gegensatz zu additiven Störungen wie Lüfterrauschen o. ä. hat die Wissenschaft bislang die Störung des Raumhalls bei der Spracherkennung nahezu ignoriert. Dabei besitzen, wie in der vorliegenden Dissertation deutlich gezeigt wird, bereits geringfügig hallende Räume einen stark störenden Einfluss auf die Leistungsfähigkeit von Spracherkennern.
Mit dem Ziel, die Erkennungsleistung wieder in einen praktisch benutzbaren Bereich zu bringen, nimmt sich die Arbeit dieser Problemstellung an und schlägt Lösungen vor. Der Hintergrund der wissenschaftlichen Aktivitäten ist die Erstellung von funktionsfähigen Sprachbenutzerinterfaces für Gerätesteuerungen im Wohn- und Büroumfeld, wie z.~B. bei der Hausautomation. Aus diesem Grund werden praktische Randbedingungen wie die Restriktionen von embedded Computerplattformen in die Lösungsfindung einbezogen.
Die Argumentation beginnt bei der Beschreibung der raumakustischen Umgebung und der Ausbreitung von Schallfeldern in Räumen. Es wird theoretisch gezeigt, dass die Störung eines Sprachsignals durch Hall von zwei Parametern abhängig ist: der Sprecher-Mikrofon-Distanz (SMD) und der Nachhallzeit T60. Um die Abhängigkeit der Erkennungsleistung vom Grad der Hallstörung zu ermitteln, wird eine Anzahl von Erkennungsexperimenten durchgeführt, die den Einfluss von T60 und SMD nachweisen. Weitere Experimente zeigen, dass die Spracherkennung kaum durch hochfrequente Hallanteile beeinträchtigt wird, wohl aber durch tieffrequente.
In einer Literaturrecherche wird ein Überblick über den Stand der Technik zu Maßnahmen gegeben, die den störenden Einfluss des Halls unterdrücken bzw. kompensieren können. Jedoch wird auch gezeigt, dass, obwohl bei einigen Maßnahmen von Verbesserungen berichtet wird, keiner der gefundenen Ansätze den o. a. praktischen Einsatzbedingungen genügt.
In dieser Arbeit wird die Methode Harmonicity-based Feature Analysis (HFA) vorgeschlagen. Sie basiert auf drei Ideen, die aus den Betrachtungen der vorangehenden Kapitel abgeleitet werden. Experimentelle Ergebnisse weisen die Verbesserung der Erkennungsleistung in halligen Umgebungen nach. Es werden sogar praktisch relevante Erkennungsraten erzielt, wenn die Methode mit verhalltem Training kombiniert wird. Die HFA wird gegen Ansätze aus der Literatur evaluiert, die ebenfalls praktischen Implementierungskriterien genügen. Auch Kombinationen der HFA und einigen dieser Ansätze werden getestet.
Im letzten Kapitel werden die beiden Basistechnologien Stimm\-haft-Stimmlos-Entscheidung und Grundfrequenzdetektion umfangreich unter Hallbedingungen getestet, da sie Voraussetzung für die Funktionsfähigkeit der HFA sind. Als Ergebnis wird dargestellt, dass derzeit für beide Technologien kein Verfahren existiert, das unter Hallbedingungen robust arbeitet. Es kann allerdings gezeigt werden, dass die HFA trotz der Unsicherheiten der Verfahren arbeitet und signifikante Steigerungen der Erkennungsleistung erreicht. / Automatic speech recognition (ASR) systems used in real-world indoor scenarios suffer from performance degradation if noise and reverberation conditions differ from the training conditions of the recognizer. This thesis deals with the problem of room reverberation as a cause of distortion in ASR systems. The background of this research is the design of practical command and control applications, such as a voice controlled light switch in rooms or similar applications. Therefore, the design aims to incorporate several restricting working conditions for the recognizer and still achieve a high level of robustness. One of those design restrictions is the minimisation of computational complexity to allow the practical implementation on an embedded processor.
One chapter comprehensively describes the room acoustic environment,
including the behavior of the sound field in rooms. It addresses the speaker room microphone (SRM) system which is expressed in the time domain as the room impulse response (RIR). The convolution of the RIR with the clean speech signal yields the reverberant signal at the microphone.
A thorough analysis proposes that the degree of the distortion caused by reverberation is dependent on two parameters, the reverberation time T60 and the speaker-to-microphone distance (SMD). To evaluate the dependency of the recognition rate on the degree of distortion, a number of experiments has been successfully conducted, confirming the above mentioned dependency of the two parameters, T60 and SMD. Further experiments have shown that ASR is barely affected by high-frequency reverberation, whereas low frequency reverberation has a detrimental effect on the recognition rate.
A literature survey concludes that, although several approaches exist which claim significant improvements, none of them fulfils the above mentioned practical implementation criteria. Within this thesis, a new approach entitled 'harmonicity-based feature analysis' (HFA) is proposed. It is based on three ideas that are derived in former chapters. Experimental results prove that HFA is able to enhance the recognition rate in reverberant environments. Even practical applicable results are achieved when HFA is combined with reverberant training. The method is further evaluated against three other approaches from the literature. Also combinations of methods are tested.
In a last chapter the two base technologies fundamental frequency (F0) estimation and voiced unvoiced decision (VUD) are evaluated in reverberant environments, since they are necessary to run HFA. This evaluation aims to find one optimal method for each of these technologies. The results show that all F0 estimation methods and also the VUD methods have a strong decreasing performance in reverberant environments. Nevertheless it is shown that HFA is able to deal with uncertainties of these base technologies as such that the recognition performance still improves.
4 |
Robuste Spracherkennung unter raumakustischen UmgebungsbedingungenPetrick, Rico 25 September 2009 (has links)
Bei der Überführung eines wissenschaftlichen Laborsystems zur automatischen Spracherkennung in eine reale Anwendung ergeben sich verschiedene praktische Problemstellungen, von denen eine der Verlust an Erkennungsleistung durch umgebende akustische Störungen ist. Im Gegensatz zu additiven Störungen wie Lüfterrauschen o. ä. hat die Wissenschaft bislang die Störung des Raumhalls bei der Spracherkennung nahezu ignoriert. Dabei besitzen, wie in der vorliegenden Dissertation deutlich gezeigt wird, bereits geringfügig hallende Räume einen stark störenden Einfluss auf die Leistungsfähigkeit von Spracherkennern.
Mit dem Ziel, die Erkennungsleistung wieder in einen praktisch benutzbaren Bereich zu bringen, nimmt sich die Arbeit dieser Problemstellung an und schlägt Lösungen vor. Der Hintergrund der wissenschaftlichen Aktivitäten ist die Erstellung von funktionsfähigen Sprachbenutzerinterfaces für Gerätesteuerungen im Wohn- und Büroumfeld, wie z.~B. bei der Hausautomation. Aus diesem Grund werden praktische Randbedingungen wie die Restriktionen von embedded Computerplattformen in die Lösungsfindung einbezogen.
Die Argumentation beginnt bei der Beschreibung der raumakustischen Umgebung und der Ausbreitung von Schallfeldern in Räumen. Es wird theoretisch gezeigt, dass die Störung eines Sprachsignals durch Hall von zwei Parametern abhängig ist: der Sprecher-Mikrofon-Distanz (SMD) und der Nachhallzeit T60. Um die Abhängigkeit der Erkennungsleistung vom Grad der Hallstörung zu ermitteln, wird eine Anzahl von Erkennungsexperimenten durchgeführt, die den Einfluss von T60 und SMD nachweisen. Weitere Experimente zeigen, dass die Spracherkennung kaum durch hochfrequente Hallanteile beeinträchtigt wird, wohl aber durch tieffrequente.
In einer Literaturrecherche wird ein Überblick über den Stand der Technik zu Maßnahmen gegeben, die den störenden Einfluss des Halls unterdrücken bzw. kompensieren können. Jedoch wird auch gezeigt, dass, obwohl bei einigen Maßnahmen von Verbesserungen berichtet wird, keiner der gefundenen Ansätze den o. a. praktischen Einsatzbedingungen genügt.
In dieser Arbeit wird die Methode Harmonicity-based Feature Analysis (HFA) vorgeschlagen. Sie basiert auf drei Ideen, die aus den Betrachtungen der vorangehenden Kapitel abgeleitet werden. Experimentelle Ergebnisse weisen die Verbesserung der Erkennungsleistung in halligen Umgebungen nach. Es werden sogar praktisch relevante Erkennungsraten erzielt, wenn die Methode mit verhalltem Training kombiniert wird. Die HFA wird gegen Ansätze aus der Literatur evaluiert, die ebenfalls praktischen Implementierungskriterien genügen. Auch Kombinationen der HFA und einigen dieser Ansätze werden getestet.
Im letzten Kapitel werden die beiden Basistechnologien Stimm\-haft-Stimmlos-Entscheidung und Grundfrequenzdetektion umfangreich unter Hallbedingungen getestet, da sie Voraussetzung für die Funktionsfähigkeit der HFA sind. Als Ergebnis wird dargestellt, dass derzeit für beide Technologien kein Verfahren existiert, das unter Hallbedingungen robust arbeitet. Es kann allerdings gezeigt werden, dass die HFA trotz der Unsicherheiten der Verfahren arbeitet und signifikante Steigerungen der Erkennungsleistung erreicht. / Automatic speech recognition (ASR) systems used in real-world indoor scenarios suffer from performance degradation if noise and reverberation conditions differ from the training conditions of the recognizer. This thesis deals with the problem of room reverberation as a cause of distortion in ASR systems. The background of this research is the design of practical command and control applications, such as a voice controlled light switch in rooms or similar applications. Therefore, the design aims to incorporate several restricting working conditions for the recognizer and still achieve a high level of robustness. One of those design restrictions is the minimisation of computational complexity to allow the practical implementation on an embedded processor.
One chapter comprehensively describes the room acoustic environment,
including the behavior of the sound field in rooms. It addresses the speaker room microphone (SRM) system which is expressed in the time domain as the room impulse response (RIR). The convolution of the RIR with the clean speech signal yields the reverberant signal at the microphone.
A thorough analysis proposes that the degree of the distortion caused by reverberation is dependent on two parameters, the reverberation time T60 and the speaker-to-microphone distance (SMD). To evaluate the dependency of the recognition rate on the degree of distortion, a number of experiments has been successfully conducted, confirming the above mentioned dependency of the two parameters, T60 and SMD. Further experiments have shown that ASR is barely affected by high-frequency reverberation, whereas low frequency reverberation has a detrimental effect on the recognition rate.
A literature survey concludes that, although several approaches exist which claim significant improvements, none of them fulfils the above mentioned practical implementation criteria. Within this thesis, a new approach entitled 'harmonicity-based feature analysis' (HFA) is proposed. It is based on three ideas that are derived in former chapters. Experimental results prove that HFA is able to enhance the recognition rate in reverberant environments. Even practical applicable results are achieved when HFA is combined with reverberant training. The method is further evaluated against three other approaches from the literature. Also combinations of methods are tested.
In a last chapter the two base technologies fundamental frequency (F0) estimation and voiced unvoiced decision (VUD) are evaluated in reverberant environments, since they are necessary to run HFA. This evaluation aims to find one optimal method for each of these technologies. The results show that all F0 estimation methods and also the VUD methods have a strong decreasing performance in reverberant environments. Nevertheless it is shown that HFA is able to deal with uncertainties of these base technologies as such that the recognition performance still improves.
5 |
Power Systems Model Developments for Power Qality Monitoring : Application to Fundamental Frequency and Unbalance Estimation / Contribution à la modélisation des systèmes électriques pour la surveillance de la qualité de l’énergie électrique : application à l’estimation de la fréquence fondamentale et du déséquilibrePhan, Anh Tuan 16 September 2016 (has links)
Les énergies renouvelables, l’énergie sous la forme électrique et son transport à l’aide de réseaux électriques intelligents représentent aujourd’hui des enjeux majeurs car ils ont de grands impacts environnementaux et sociétaux. Ainsi, la production, le transport et la gestion de l’énergie électrique, continuent toujours à susciter un intérêt croissant. Pour atteindre ces objectifs, plusieurs verrous technologiques doivent être levés. Au-delà des questions liées aux architectures des réseaux électriques, aux modèles, aux outils de dimensionnement, à la formalisation de caractéristiques et d’indicateurs, aux contraintes et aux critères, à la gestion et à la production décentralisée, la qualité de la puissance électrique est centrale pour la fiabilité de l’ensemble du système de distribution. Les perturbations affectent la qualité des signaux électriques et peuvent provoquer des conséquences graves sur les autres équipements connectés au réseau. Les travaux de cette thèse s’inscrivent dans ce contexte et de fait ils sont orientés vers le développement de modèles, d’indicateurs et de méthodes de traitement des signaux dédiés à la surveillance en temps-réel des performances des réseaux de distribution électrique.Cette thèse analyse la qualité de la puissance électrique, en prenant en compte plusieurs caractéristiques bien connues ainsi que leur pertinence. Les modèles des systèmes électriques et les méthodes de traitement du signal pour estimer leurs paramètres sont étudiés pour des applications en temps-réel de surveillance, de diagnostic et de contrôle sous diverses conditions. Parmi tous, la fréquence fondamentale est l’un des paramètres les plus importants pour caractériser un système de distribution électrique. En effet, sa valeur qui est censée être une constante, varie en permanence et reflète la dynamique de l’énergie électrique disponible. La fréquence peut également être affectée par certaines productions d’énergie renouvelable et peut être influencée par des mauvaises synchronisations de certains équipements. En outre, la puissance absorbée par les charges ou produite par des sources est généralement différente d’une phase à l’autre. Évidemment, la plupart des installations électriques existantes avec plusieurs phases, qu’elles soient résidentielles ou industrielles, travaillent dans des conditions déséquilibrées. Identifier les composantes symétriques de tension est dans ce cas un moyen pertinent pour quantifier le déséquilibre entre les phases d’un système électrique.De nouvelles représentations de type espace d’état et modélisant des systèmes électriques sont proposées pour estimer la fréquence fondamentale et pour identifier les composantes symétriques de tension des systèmes électriques triphasés et déséquilibrés. Le premier modèle d’espace d’état proposé considère la fréquence fondamentale comme connue ou obtenue par un autre estimateur. En contrepartie, il fournit les autres paramètres caractérisant le système électrique. Un second modèle d’état-espace est introduit. Il est original dans le sens où il ne nécessite aucune connaissance de la fréquence fondamentale. Une de ses variables d’état est directement reliée à la fréquence et permet donc de la déduire. En outre, ce nouvel espace d’état est parfaitement capable de représenter des systèmes électriques à trois phases équilibrés et non équilibrés. [...] / Renewable energy, electricity and smart grids are core subjects as they have great environmental and societal impacts. Thus, generating, transporting and managing electric energy, i.e., power, still continue to drive a growing interest. In order to properly achieve these goals, several locks must be removed. Beyond issues related to the distribution architecture, the formalization of models, sizing tools, features and indicators, constraints and criteria, decentralized generation and energy management, power quality is central for the whole grid’s reliability. Disturbances affect the power quality and can cause serious impact on other equipment connected to the grid. The work of this thesis is part of this context and focuses on the development of models, indicators, and signal processing methods for power quality monitoring in time-varying power distribution systems.This thesis analyzes the power quality including several well-known features and their relevance. Power system models and signal processing methods for estimating their parameters are investigated for the purpose of real-time monitoring, diagnostic and control tasks under various operating conditions. Among all, the fundamental frequency is one of the most important parameters of a power distribution system. Indeed, its value which is supposed to be a constant varies continuously and reflects the dynamic availability of electric power. The fundamental frequency can also be affected by renewable energy generation and by nasty synchronization of some devices. Moreover, the power absorbed by loads or produced by sources is generally different from one phase to the other one. Obviously, most of the existing residential and industrial electrical installations with several phases work under unbalanced conditions. Identifying the symmetrical components is therefore an efficient way to quantify the imbalance between the phases of a grid. New state-space representations of power systems are proposed for estimating the fundamental frequency and for identifying the voltage symmetrical components of unbalanced three-phase power systems. A first state-space representation is developed by supposing the fundamental frequency to be known or to be calculated by another estimator. In return, it provides other parameters and characteristics from the power system. Another original state-space model is introduced which does not require the fundamental frequency. Here, one state variable is a function of the frequency which can thus be deduced. Furthermore this new state-space model is perfectly are able to represent a three-phase power system in both balanced and unbalanced conditions. This not the case of lots of existing models. The advantage of the proposed state-space representation is that it gives directly access to physical parameters of the system, like the frequency and the amplitude and phase values of the voltage symmetrical components. Power systems parameters can thus be estimated in real-time by using the new state-space with an online estimation process like an Extended Kalman Filter (EKF). The digital implementation of the proposed methods presents small computational requirement, elegant recursive properties, and optimal estimations with Gaussian error statistics.The methods have been implemented and validated through various tests respecting real technical constraints and operating conditions. The methods can be integrated in active power filtering schemes or load-frequency control strategies to monitor power systems and to compensate for electrical disturbances.
Page generated in 0.4948 seconds