  The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.

Detecting Signal Corruptions in Voice Recordings for Speech Therapy / Igenkänning av Signalproblem i Röstinspelningar för Logopedi

Nylén, Helmer January 2021 (has links)
When recording voice samples from a patient in speech therapy the quality of the recording may be affected by different signal corruptions, for example background noise or clipping. The equipment and expertise required to identify small disturbances are not always present at smaller clinics. Therefore, this study investigates possible machine learning algorithms to automatically detect selected corruptions in speech signals, including infrasound and random muting. Five algorithms are analyzed: kernel substitution based Support Vector Machine, Convolutional Neural Network, Long Short-term Memory (LSTM), Gaussian Mixture Model based Hidden Markov Model and Generative Model based Hidden Markov Model. A tool to generate datasets of corrupted recordings is developed to test the algorithms in both single-label and multi-label settings. Mel-frequency Cepstral Coefficients are used as the main features. For each type of corruption different ways to increase the classification accuracy are tested, for example by using a Voice Activity Detector to filter out less relevant parts of the recording, changing the feature parameters, or using an ensemble of classifiers. The experiments show that a machine learning approach is feasible for this problem as a balanced accuracy of at least 75% is reached on all tested corruptions. While the single-label study gave mixed results with no algorithm clearly outperforming the others, in the multi-label case the LSTM in general performs better than other algorithms. Notably it achieves over 95% balanced accuracy on both white noise and infrasound. As the algorithms are trained only on spoken English phrases the usability of this tool in its current state is limited, but the experiments are easily expanded upon with other types of audio recordings, corruptions, features, or classification algorithms. / När en patients röst spelas in för analys i talterapi kan inspelningskvaliteten påverkas av olika signalproblem, till exempel bakgrundsljud eller klippning. Utrustningen och expertisen som behövs för att upptäcka små störningar finns dock inte alltid tillgänglig på mindre kliniker. Därför undersöker denna studie olika maskininlärningsalgoritmer för att automatiskt kunna upptäcka utvalda problem i talinspelningar, bland andra infraljud och slumpmässig utsläckning av signalen. Fem algoritmer analyseras: stödvektormaskin, Convolutional Neural Network, Long Short-term Memory (LSTM), Gaussian mixture model-baserad dold Markovmodell och generatorbaserad dold Markovmodell. Ett verktyg för att skapa datamängder med försämrade inspelningar utvecklas för att kunna testa algoritmerna. Vi undersöker separat fallen där inspelningarna tillåts ha en eller flera problem samtidigt, och använder framförallt en slags kepstralkoefficienter, MFCC:er, som särdrag. För varje typ av problem undersöker vi också sätt att förbättra noggrannheten, till exempel genom att filtrera bort irrelevanta delar av signalen med hjälp av en röstupptäckare, ändra särdragsparametrarna, eller genom att använda en ensemble av klassificerare. Experimenten visar att maskininlärning är ett rimligt tillvägagångssätt för detta problem då den balanserade träffsäkerheten överskrider 75%för samtliga testade störningar. Den delen av studien som fokuserade på enproblemsinspelningar gav inga resultat som tydde på att en algoritm var klart bättre än de andra, men i flerproblemsfallet överträffade LSTM:en generellt övriga algoritmer. Värt att notera är att den nådde över 95 % balanserad träffsäkerhet på både vitt brus och infraljud. Eftersom algoritmerna enbart tränats på engelskspråkiga, talade meningar så har detta verktyg i nuläget begränsad praktisk användbarhet. Däremot är det lätt att utöka dessa experiment med andra typer av inspelningar, signalproblem, särdrag eller algoritmer.

Zlomkooktává analýza akustických signálů / Fractional-Octave Analysis of Acoustic Signals

Ryšavý, Marek January 2016 (has links)
The diploma thesis is focused on design and optimalization of digital octave and fraction-octave band filters. This thesis describe the behavior of filters in systems with fixed point arithmetics and investigate the impact of quantization coefficients for frequency response of filter. Filters, whitch has been designed, are implemented into simple software in C. Designed filters are in accordance with standard IEC 61260.

Communication chez un oiseau à système socio-sexuel de type lek : étude des signaux acoustiques et visuels pendant la parade des mâles d'outarde houbara Chlamydotis undulata undulata / Communication in a lekking bird : study of visual and acoustic signals produced during male courtship of the North-African houbara bustard, Chlamydotis undulata undulata

Cornec, Clément 28 May 2015 (has links)
Dans un contexte de sélection sexuelle, les systèmes de communication permettant l’attraction et la stimulation du partenaire sexuel et la compétition entre individus du même sexe sont indispensables. Ceci est particulièrement vrai chez les espèces à système d’appariement polygyne de type lek, où les mâles rassemblés dans l’espace sont en compétition pour l’accès aux femelles. Chez notre sujet d’étude, l’outarde houbara nord-africaine les males réalisent des parades incluant des démonstrations visuelles et des vocalisations appelées booms, sur des sites espacés les uns des autres par des distances importantes dans un système qualifié de lek explosé. Notre objectif était d’étudier les systèmes de codage-décodage des informations exprimées durant la parade des mâles chez cette espèce. Nous avons démontré l’existence d’un codage de l’identité individuelle porté par des paramètres visuels et des paramètres acoustiques des vocalisations. Des associations significatives entre des paramètres des booms et des caractéristiques physiques et comportementales des mâles susceptibles de refléter leur qualité, ont également été mises en évidence. Ainsi, les mâles qui produisent les booms les plus graves avaient les masses les plus importantes et paradaient le plus intensément. Lorsque des interactions agonistiques étaient simulées expérimentalement en diffusant des leurres acoustiques, les mâles avaient des réponses comportementales différentes en fonction de la fréquence des booms diffusés. Ainsi le niveau fréquentiel des booms des autres mâles est effectivement perçu et décodé par les individus en compétition. Par ailleurs, plusieurs paramètres des booms sont génétiquement déterminés et héritables, et pourraient porter une information sur l’apparentement entre individus.Certains paramètres sont également liés à la consanguinité des individus. Nous avons montré également que les booms sont particulièrement bien adaptés à la communication à grande distance. En effet, les booms sont de très basse fréquence, se propagent à des distances supérieures à 640 m, et les paramètres supportant le codage-décodage de l’information sont résistants à la propagation et produits de manière redondante. Enfin, les signaux acoustiques et des signaux visuels et semblent agir en synergie (multimodalité) ce qui pourraient améliorer l’efficacité de la communication à grande distance. Ainsi notre étude a démontré que des informations complexes sont transmises durant la parade des mâles au travers de signaux acoustiques et visuels au sein d’un réseau de communication à grande distance. / Résumé en anglais ;In a context of sexual selection, the communication between individuals is essential to optimize both intra-sexual (competition between male) and inter-sexual (mate choice) processes. This is particularly true in species with lek mating systems, where both processes reach their full expression. The North African Houbara bustard, Chlamydotis undulata undulata, is a lekking bird where courting males aggregate in a so called ‘exploded-lek’, i.e. where aggregation is detectable only when mapped over a large area. During the breeding season, males perform a conspicuous and spectacular courtship including visual and acoustic (booms) signals. Our aim was to decipher the coding-decoding systems of the courtship in this species. We found that males can be individually discriminated on the basis of visual and acoustic parameters. The booms produced during the courtship are also related to males’ characteristics susceptible to reflect their quality. Individuals who produced the lowest frequency booms were those with the greatest weights and performed the highest intensity courtships. Playback experiment shows that the frequency content of the booms was perceived and decoded by males during agonistic interaction, leading to significantly different behavioural responses according to the frequency of the signals played back. Furthermore, several acoustic parameters of the booms are significantly heritable through genetic transmission and these parameters are also related to the level of inbreeding. Finally, we showed that the booms and the acoustic parameters supporting information are particularly well adapted to the transmission of information at long range as required in a long distance communication network constituted by an exploded lek. First, booms are of very low-frequency and propagate up to 640 m. Second, coding-decoding of information relies on sequentially redundant and propagation-resistant features. Third, acoustic signals are combined with visual signalling (multimodality) which may improve the long distance transmission of the information. This study brought evidence that complex information is conveyed by visual and acoustic signals during the courtship of males within a long distance network.

To be “Pavarotti” in a crowded concert hall? Song competition between bushcricket males in natural choruses.

Anichini, Marianna 19 August 2019 (has links)
Bei vielen Laubheuschreckenarten produzieren nur die Männchen Gesänge, hauptsächlich um arteigene Weibchen anzulocken und sich mit Rivalen zu messen. Die Produktion der durch sexuelle Selektion ausgewählten akustischen Signale kostet das singende Männchen Energie. Die Gesangsleistung kann aufgrund der unterschiedlichen Körperqualität von Männchen zu Männchen variieren, was zu relevanten Konsequenzen für das Ergebnis der sexuellen Selektion führt. In dieser Arbeit soll die Auswirkung sexueller Selektion auf sekundäre Merkmale der Männchen untersucht werden, wie die Größe der Organe zur Schallproduktion und die Struktur akustischer Signale. Der Fokus liegt dabei auf den Faktoren, die die Qualität des Signalgebers und die Zusammensetzung des sozialen Umfelds bestimmen. Um diese Ziele zu erreichen, werden zwei Laubheuschreckenarten Poecilimon ampliatus und Poecilimon v. veluchianus untersucht. Die morphologischen Befunde zeigen, dass die positive Selektion auf klangproduzierende Strukturen mit der Präferenz von Weibchen für schwerere Männchen übereinstimmt und daher Rückschlüsse von der Körpermasse der Männchen auf die Größe der schallerzeugenden Organe gezogen werden können. Die Ergebnisse der akustischen Daten betonen die entscheidende Relevanz der Kombination verschiedener Umweltfaktoren. Sie zeigen, wie Männchen auf akustische Signale reagieren, die von benachbarten Konkurrenten erzeugt werden, indem sie ihre Signalerzeugung kohärent an die Stärke der Konkurrenz und ihren persönlichen energetischen Status anpassen. Männchen beider Arten zeigen eine interindividuelle Variation in der Fähigkeit, ihre Signalproduktion anzupassen, die sowohl durch Faktoren wie die Körpermasse des Männchens und der Populationsdichte beeinflusst wird. In zukünftigen Untersuchungen könnte der Frage nachgegangen werden, wie Männchen in der Natur von ihrer Kondition abhängige Signale und alternative Verhaltensstrategien entwickeln. / Behaviours and structures related to mating are under sexual selection. Due to their costs, these traits honestly reflect the quality of the signaller. Using structures located on the wings, bushcricket males signal to attract females and repel rivals. Sound performance can vary between individuals of different body conditions, leading to relevant consequences for the outcome of sexual selection. This thesis aims to investigate the effect of sexual selection on secondary male traits, such as the size of sound production organs and the structure of acoustic signals. The focus is on the factors that determine the quality of the signaller and the composition of the social environment. To fulfil the aims, two bushcrickets species were used: Poecilimon ampliatus and Poecilimon v. veluchianus. In P. ampliatus, sexual selection plays a role in determining the size of morphological structures that are responsible for producing female-preferred acoustic signals. A positive relationship between body condition and size of sound-producing organs was found. Heavier and larger males had larger wing and longer stridulatory file with disproportionally longer and less dense stridulatory teeth. A further effect of sexual selection is highlighted during the acoustic contest. In both species, only heavy males shown plasticity in acoustic behaviour. Moreover, the sound produced in competition honestly reflects the males’ body condition. In P. ampliatus heavier males signal at higher effort than lighter males and increased their activity when the light rival was placed at a closer distance. In P. v. veluchianus heavy males increased their signal activity only when the number of light rivals increased. Future endeavour will be to study how males in nature evolve condition-dependent signalling and alternative behavioural strategies.

Étude sur les représentations continues de mots appliquées à la détection automatique des erreurs de reconnaissance de la parole / A study of continuous word representations applied to the automatic detection of speech recognition errors

Ghannay, Sahar 20 September 2017 (has links)
Nous abordons, dans cette thèse, une étude sur les représentations continues de mots (en anglais word embeddings) appliquées à la détection automatique des erreurs dans les transcriptions de la parole. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection automatique des erreurs dans les transcriptions automatiques, en exploitant les word embeddings. L’exploitation des embeddings repose sur l’idée que la détection d’erreurs consiste à trouver les possibles incongruités linguistiques ou acoustiques au sein des transcriptions automatiques. L’intérêt est donc de trouver la représentation appropriée du mot qui permet de capturer des informations pertinentes pour pouvoir détecter ces anomalies. Notre contribution dans le cadre de cette thèse porte sur plusieurs axes. D’abord, nous commençons par une étude préliminaire dans laquelle nous proposons une architecture neuronale capable d’intégrer différents types de descripteurs, y compris les embeddings. Ensuite, nous nous focalisons sur une étude approfondie des représentations continues de mots. Cette étude porte d’une part sur l’évaluation de différents types d’embeddings linguistiques puis sur leurs combinaisons. D’autre part, elle s’intéresse aux embeddings acoustiques de mots. Puis, nous présentons une étude sur l’analyse des erreurs de classifications, qui a pour objectif de percevoir les erreurs difficiles à détecter.Finalement, nous exploitons les embeddings linguistiques et acoustiques ainsi que l’information fournie par notre système de détections d’erreurs dans plusieurs cadres applicatifs. / My thesis concerns a study of continuous word representations applied to the automatic detection of speech recognition errors. Our study focuses on the use of a neural approach to improve ASR errors detection, using word embeddings. The exploitation of continuous word representations is motivated by the fact that ASR error detection consists on locating the possible linguistic or acoustic incongruities in automatic transcriptions. The aim is therefore to find the appropriate word representation which makes it possible to capture pertinent information in order to be able to detect these anomalies. Our contribution in this thesis concerns several initiatives. First, we start with a preliminary study in which we propose a neural architecture able to integrate different types of features, including word embeddings. Second, we propose a deep study of continuous word representations. This study focuses on the evaluation of different types of linguistic word embeddings and their combination in order to take advantage of their complementarities. On the other hand, it focuses on acoustic word embeddings. Then, we present a study on the analysis of classification errors, with the aim of perceiving the errors that are difficult to detect. Perspectives for improving the performance of our system are also proposed, by modeling the errors at the sentence level. Finally, we exploit the linguistic and acoustic embeddings as well as the information provided by our ASR error detection system in several downstream applications.

Multimediální podpora předmětu BSIS / Multimedia support of the course BSIS

Pasečný, Jan January 2011 (has links)
This paper takes aim at creating a consistent form of study materials, supplemented with illustrative examples, for Signals and systems subject. The thesis starts with basic characteristics of acoustic, image, biological and communication signals. Characteristics of linear signals and AD&DA conversion has been added to the next part and to complete the submission, discrete signals follow. Diploma thesis as a whole contains basic theoretical description of problematics, which it tries to supplement with interesting examples, connections, graphs and matlab scripts for illustrative presentation of mentioned problematics.

