Spelling suggestions: "subject:"acoustics off epeech"" "subject:"acoustics off cpeech""
1 |
Development Of An Evaluation Tool For Use At The Design Stage Of Auditoria With Respect To Unassisted Speech ReinforcementMcMinn, Terrance January 1996 (has links)
This dissertation describes the development of an evaluation tool that can be used by an acoustican during the design stage of enclosures used for unassisted speech. Enclosures include lecture theatres, lecture halls and speech auditoriums. The tool is designed to enable Acousticians to be able to manipulate various acoustical parameters such as the geometry and the materials or construction selection to gauge the impact on speech performance. The tool can also be used to evaluate the performance of speech privacy within spaces using the Speech Transmission Index. Computer simulation tools have a number of advantages over existing methods such as physical scale models for this type of evaluation. Typical advantages are in the elimination of the difficult selection of materials with appropriate scale model acoustic performance, resolution of air absorption at scale model frequencies, reduced cost in development of the model, no storage space problems, ease of modifying and duplicating the model. Scale models also present difficulties in measuring some of the indices such as Speech Transmission Index. Whilst equipment can be purchased for the measurement of STI, scale model equivalents and the impact of the change in frequencies and modulations have not been researched or published. / Currently, there are only two methods of evaluating the Speech Transmission of an enclosure: Build a full size enclosure and test; or simulate mathematically to derive the performance. At the time this thesis was commenced there were no commercial simulation programs available that could derive Speech Transmission Index information. The evaluation tool has been implemented as a computer program, based on IBM PC type computers running Microsoft WINDOWS 3.1 or later. The implementation uses the image method for the 'ray trace' algorithm. This basic image method utilises the enhancements made by a number of authors. In particular the Transformation Matrix method and homogenous coordinates have been used to improve the speed of the algorithm. Pre-computation of mutually invisible planes allows trimming the number of possible combination of rays that need to be computed. Results of physical measurement from two case studies have been compared to results of the simulation. Good correlation between the simulations and the case studies were achieved for the Speech Transmission Index and RASTI values. The accuracy of the simulation,in terms of decay based indices, is limited by the lack of sufficient tail to the calculated number of rays. Further research and implementation of hybrid techniques utilising both the image method and more traditional ray-tracing algorithms to improve the quality of the calculated decay data are required. Investigation of techniques used in photo-realism 'ray-tracing' may result in far more realistic data which is the basic input to the Speech Transmission Index calculations.
|
2 |
Robuste Spracherkennung unter raumakustischen UmgebungsbedingungenPetrick, Rico 25 September 2009 (has links)
Bei der Überführung eines wissenschaftlichen Laborsystems zur automatischen Spracherkennung in eine reale Anwendung ergeben sich verschiedene praktische Problemstellungen, von denen eine der Verlust an Erkennungsleistung durch umgebende akustische Störungen ist. Im Gegensatz zu additiven Störungen wie Lüfterrauschen o. ä. hat die Wissenschaft bislang die Störung des Raumhalls bei der Spracherkennung nahezu ignoriert. Dabei besitzen, wie in der vorliegenden Dissertation deutlich gezeigt wird, bereits geringfügig hallende Räume einen stark störenden Einfluss auf die Leistungsfähigkeit von Spracherkennern.
Mit dem Ziel, die Erkennungsleistung wieder in einen praktisch benutzbaren Bereich zu bringen, nimmt sich die Arbeit dieser Problemstellung an und schlägt Lösungen vor. Der Hintergrund der wissenschaftlichen Aktivitäten ist die Erstellung von funktionsfähigen Sprachbenutzerinterfaces für Gerätesteuerungen im Wohn- und Büroumfeld, wie z.~B. bei der Hausautomation. Aus diesem Grund werden praktische Randbedingungen wie die Restriktionen von embedded Computerplattformen in die Lösungsfindung einbezogen.
Die Argumentation beginnt bei der Beschreibung der raumakustischen Umgebung und der Ausbreitung von Schallfeldern in Räumen. Es wird theoretisch gezeigt, dass die Störung eines Sprachsignals durch Hall von zwei Parametern abhängig ist: der Sprecher-Mikrofon-Distanz (SMD) und der Nachhallzeit T60. Um die Abhängigkeit der Erkennungsleistung vom Grad der Hallstörung zu ermitteln, wird eine Anzahl von Erkennungsexperimenten durchgeführt, die den Einfluss von T60 und SMD nachweisen. Weitere Experimente zeigen, dass die Spracherkennung kaum durch hochfrequente Hallanteile beeinträchtigt wird, wohl aber durch tieffrequente.
In einer Literaturrecherche wird ein Überblick über den Stand der Technik zu Maßnahmen gegeben, die den störenden Einfluss des Halls unterdrücken bzw. kompensieren können. Jedoch wird auch gezeigt, dass, obwohl bei einigen Maßnahmen von Verbesserungen berichtet wird, keiner der gefundenen Ansätze den o. a. praktischen Einsatzbedingungen genügt.
In dieser Arbeit wird die Methode Harmonicity-based Feature Analysis (HFA) vorgeschlagen. Sie basiert auf drei Ideen, die aus den Betrachtungen der vorangehenden Kapitel abgeleitet werden. Experimentelle Ergebnisse weisen die Verbesserung der Erkennungsleistung in halligen Umgebungen nach. Es werden sogar praktisch relevante Erkennungsraten erzielt, wenn die Methode mit verhalltem Training kombiniert wird. Die HFA wird gegen Ansätze aus der Literatur evaluiert, die ebenfalls praktischen Implementierungskriterien genügen. Auch Kombinationen der HFA und einigen dieser Ansätze werden getestet.
Im letzten Kapitel werden die beiden Basistechnologien Stimm\-haft-Stimmlos-Entscheidung und Grundfrequenzdetektion umfangreich unter Hallbedingungen getestet, da sie Voraussetzung für die Funktionsfähigkeit der HFA sind. Als Ergebnis wird dargestellt, dass derzeit für beide Technologien kein Verfahren existiert, das unter Hallbedingungen robust arbeitet. Es kann allerdings gezeigt werden, dass die HFA trotz der Unsicherheiten der Verfahren arbeitet und signifikante Steigerungen der Erkennungsleistung erreicht. / Automatic speech recognition (ASR) systems used in real-world indoor scenarios suffer from performance degradation if noise and reverberation conditions differ from the training conditions of the recognizer. This thesis deals with the problem of room reverberation as a cause of distortion in ASR systems. The background of this research is the design of practical command and control applications, such as a voice controlled light switch in rooms or similar applications. Therefore, the design aims to incorporate several restricting working conditions for the recognizer and still achieve a high level of robustness. One of those design restrictions is the minimisation of computational complexity to allow the practical implementation on an embedded processor.
One chapter comprehensively describes the room acoustic environment,
including the behavior of the sound field in rooms. It addresses the speaker room microphone (SRM) system which is expressed in the time domain as the room impulse response (RIR). The convolution of the RIR with the clean speech signal yields the reverberant signal at the microphone.
A thorough analysis proposes that the degree of the distortion caused by reverberation is dependent on two parameters, the reverberation time T60 and the speaker-to-microphone distance (SMD). To evaluate the dependency of the recognition rate on the degree of distortion, a number of experiments has been successfully conducted, confirming the above mentioned dependency of the two parameters, T60 and SMD. Further experiments have shown that ASR is barely affected by high-frequency reverberation, whereas low frequency reverberation has a detrimental effect on the recognition rate.
A literature survey concludes that, although several approaches exist which claim significant improvements, none of them fulfils the above mentioned practical implementation criteria. Within this thesis, a new approach entitled 'harmonicity-based feature analysis' (HFA) is proposed. It is based on three ideas that are derived in former chapters. Experimental results prove that HFA is able to enhance the recognition rate in reverberant environments. Even practical applicable results are achieved when HFA is combined with reverberant training. The method is further evaluated against three other approaches from the literature. Also combinations of methods are tested.
In a last chapter the two base technologies fundamental frequency (F0) estimation and voiced unvoiced decision (VUD) are evaluated in reverberant environments, since they are necessary to run HFA. This evaluation aims to find one optimal method for each of these technologies. The results show that all F0 estimation methods and also the VUD methods have a strong decreasing performance in reverberant environments. Nevertheless it is shown that HFA is able to deal with uncertainties of these base technologies as such that the recognition performance still improves.
|
3 |
The Aerodynamic, Glottographic, and Acoustic Effects of Clear Speech.Tahamtan, Mahdi 06 September 2022 (has links)
No description available.
|
Page generated in 0.2111 seconds