61 |
Prise en compte de critères acoustiques pour la synthèse de la paroleRouibia, Soufiane 27 September 2006 (has links) (PDF)
Cette thèse s'inscrit dans le domaine de la synthèse vocale à partir du texte et traite plus articulièrement de la synthèse par corpus (SPC). Cette approche basée sur la concaténation de segments acoustiques contenus dans de grandes bases de données s'est peu à peu instaurée comme un standard. En effet, moyennant la sélection d'unités adaptées au contexte de synthèse, elle permet d'aboutir à un signal de parole dont le naturel peut être assez bien préservé. La qualité de la synthèse obtenue par la méthode par concaténation est étroitement liée d'une part au corpus de synthèse et d'autre part à l'algorithme de sélection des unités. Malgré le saut notable de qualité qu'a permis d'atteindre cette technologie, la SPC n'est pas capable de garantir une parole dont la qualité soit à peu près constante sur l'ensemble d'un énoncé. Ceci est en grande partie dû au manque de contrôle acoustique des systèmes de SPC actuels. L'objectif de cette thèse est donc d'introduire des mécanismes permettant un meilleur contrôle acoustique lors de la synthèse.<br /> <br />La méthode proposée consiste à effectuer une sélection sur la base d'une cible purement acoustique. Cette cible est déduite de modèles acoustiques - plus précisément des modèles de sénones - estimés lors d'une phase d'apprentissage. Dans un premier temps, nous proposons un algorithme de sélection basé uniquement sur cette cible acoustique. Puis la méthode de sélection est modifiée de manière à mieux contrôler l'information de fréquence fondamentale. Le module de sélection proposé est également combiné à un module de pré-sélection des unités, ce qui conduit à une diminution sensible de la complexité algorithmique sans dégradation perceptible des résultats. Des tests d'écoutes formels révèlent que la méthode proposée permet de réduire significativement les discontinuités acoustiques lors de la concaténation. La méthode proposée est également appliquée à la réduction de corpus acoustiques et conduit à une réduction de l'ordre de 60% de la base acoustique sans dégradation de la qualité de la parole produite.
|
62 |
Modèles à Facteurs Conditionnellement Hétéroscédastiques et à Structure Markovienne Cachée pour les Séries FinancièresSaidane, Mohamed 05 July 2006 (has links) (PDF)
Dans cette thèse nous proposons une nouvelle approche dans le cadre des modèles d'évaluation des actifs financiers permettant de tenir compte de deux aspects fondamentaux qui caractérisent la volatilité latente: co-mouvement des rendements financiers conditionnellement hétéroscédastiques et changement de régime. En combinant les modèles à facteurs conditionnellement hétéroscédastiques avec les modèles de chaîne de Markov cachés, nous dérivons un modèle multivarié localement linéaire et dynamique pour la segmentation et la prévision des séries financières. Nous considérons, plus précisément le cas où les facteurs communs suivent des processus GQARCH univariés. L'algorithme EM que nous avons développé pour l'estimation de maximum de vraisemblance et l'inférence des structures cachées est basé sur une version quasi-optimale du filtre de Kalman combinée avec une approximation de Viterbi. Les résultats obtenus sur des simulations, aussi bien que sur des séries financières sont prometteurs.
|
63 |
Etude de techniques de classement "Machines à vecteurs supports" pour la vérification automatique du locuteurKharroubi, Jamal 07 1900 (has links) (PDF)
Les SVM (Support Vector Machines) sont de nouvelles techniques d'apprentissage statistique proposées par V.Vapnik en 1995. Elles permettent d'aborder des problèmes très divers comme le classement, la régression, la fusion, etc... Depuis leur introduction dans le domaine de la Reconnaissance de Formes (RdF), plusieurs travaux ont pu montrer l'efficacité de ces techniques principalement en traitement d'image. L'idée essentielle des SVM consiste à projeter les données de l'espace d'entrée (appartenant à deux classes différentes) non-linéairement séparables dans un espace de plus grande dimension appelé espace de caractéristiques de façon à ce que les données deviennent linéairement séparables. Dans cet espace, la technique de construction de l'hyperplan optimal est utilisée pour calculer la fonction de classement séparant les deux classes. Dans ce travail de thèse, nous avons étudié les SVM comme techniques de classement pour la Vérification Automatique du Locuteur (VAL) en mode dépendant et indépendant du texte. Nous avons également étudié les SVM pour des tâches de fusion en réalisant des expériences concernant deux types de fusion, la fusion de méthodes et la fusion de modes. Dans le cadre du projet PICASSO, nous avons proposé un système de VAL en mode dépendant du texte utilisant les SVM dans une application de mots de passe publics. Dans ce système, une nouvelle modélisation basée sur la transcription phonétique des mots de passe a été proposée pour construire les vecteurs d'entrée pour notre classifieur SVM. En ce qui concerne notre étude des SVM en VAL en mode indépendant du texte, nous avons proposé des systèmes hybrides GMM-SVM. Dans ces systèmes, trois nouvelles représentations de données ont été proposées permettant de réunir l'efficacité des GMM en modélisation et les performances des SVM en décision. Ce travail entre dans le cadre de nos participations aux évaluations internationales NIST. Dans le cadre du projet BIOMET sur l'authentification biométrique mené par le GET (Groupe des Écoles de Télécommunications), nous avons étudié les SVM pour deux tâches de fusion. La première concerne la fusion de méthodes où nous avons fusionné les scores obtenus par les participants à la tâche ``One Speaker Detection'' aux évaluations NIST'2001. La seconde concerne la fusion de modes menée sur les scores obtenus sur les quatre différentes modalités de la base de données M2VTS. Les études que nous avons réalisées représentent une des premières tentatives d'appliquer les SVM dans le domaine de la VAL. Les résultats obtenus montrent que les SVM sont des techniques très efficaces et surtout très prometteuses que ce soit pour le classement ou la fusion.
|
64 |
Contributions à la reconnaissance automatique de la parole non-nativeBouselmi, Ghazi 12 November 2008 (has links) (PDF)
Le travail présenté dans cette thèse s'inscrit dans le cadre de la RAP non native. Les recherches que nous avons entreprises ont pour but d'aténuer l'impact des accents non natifs sur les performances des systèmes de RAP. Nous avons proposé une nouvelle approche pour la modélisation des prononciations non natives permettant de prendre en compte plusieurs accents étrangers. Cette approche automatique utilise un corpus de parole non native et deus ensembles de modèles acoustiques: le premier ensemble représente l'accent canonique de la langue cible et le deuxième représente l'accent étranger. Les modèles acoustiques du premier ensemble sont modifiés par l'ajout de nouveaux chemins d'états HMM. Cette approche nécessite la connaissance a priori de la langue d'origine des locuteurs. A cet égard, nous avons proposé une nouvelle approche pour la détection de la langue maternelle basée sur la détection des séquences discriminantes de phonèmes.
|
65 |
Modeling Stock Order Flows and Learning Market-Making from DataKim, Adlar J., Shelton, Christian R. 01 June 2002 (has links)
Stock markets employ specialized traders, market-makers, designed to provide liquidity and volume to the market by constantly supplying both supply and demand. In this paper, we demonstrate a novel method for modeling the market as a dynamic system and a reinforcement learning algorithm that learns profitable market-making strategies when run on this model. The sequence of buys and sells for a particular stock, the order flow, we model as an Input-Output Hidden Markov Model fit to historical data. When combined with the dynamics of the order book, this creates a highly non-linear and difficult dynamic system. Our reinforcement learning algorithm, based on likelihood ratios, is run on this partially-observable environment. We demonstrate learning results for two separate real stocks.
|
66 |
Continuous automatic classification of seismic signals of volcanic origin at Mt. Merapi, Java, IndonesiaOhrnberger, Matthias January 2001 (has links)
Aufgrund seiner nahezu kontinuierlichen eruptiven Aktivität zählt der Merapi zu den gefährlichsten Vulkanen der Welt. Der Merapi befindet sich im Zentralteil der dicht bevölkerten Insel Java (Indonesien). Selbst kleinere Ausbrüche des Merapi stellen deswegen eine große Gefahr für die ansässige Bevölkerung in der Umgebung des Vulkans dar. Die am Merapi beobachtete enge Korrelation zwischen seismischer und vulkanischer Aktivität erlaubt es, mit Hilfe der Überwachung der seismischen Aktivität Veränderungen des Aktivitätszustandes des Merapi zu erkennen. Ein System zur automatischen Detektion und Klassifizierung seismischer Ereignisse liefert einen wichtigen Beitrag für die schnelle Analyse der seismischen Aktivität. Im Falle eines bevorstehenden Ausbruchszyklus bedeutet dies ein wichtiges Hilfsmittel für die vor Ort ansässigen Wissenschaftler.<br />
In der vorliegenden Arbeit wird ein Mustererkennungsverfahren verwendet, um die Detektion und Klassifizierung seismischer Signale vulkanischen Urprunges aus den kontinuierlich aufgezeichneten Daten in Echtzeit zu bewerkstelligen. Der hier verwendete A nsatz der hidden Markov Modelle (HMM) wird motiviert durch die große Ähnlichkeit von seismischen Signalen vulkanischen Ursprunges und Sprachaufzeichnungen und den großen Erfolg, den HMM-basierte Erkennungssysteme in der automatischen Spracherkennung erlangt haben. <br />
Für eine erfolgreiche Implementierung eines Mustererkennungssytems ist es notwendig, eine geeignete Parametrisierung der Rohdaten vorzunehmen. Basierend auf den Erfahrungswerten seismologischer Observatorien wird ein Vorgehen zur Parametrisierung des seismischen Wellenfeldes auf Grundlage von robusten Analyseverfahren vorgeschlagen. Die Wellenfeldparameter werden pro Zeitschritt in einen reell-wertigen Mustervektor zusammengefasst. Die aus diesen Mustervektoren gebildete Zeitreihe ist dann Gegenstand des HMM-basierten Erkennungssystems. Um diskrete hidden Markov Modelle (DHMM) verwenden zu können, werden die Mustervektoren durch eine lineare Transformation und nachgeschaltete Vektor Quantisierung in eine diskrete Symbolsequenz überführt. Als Klassifikator kommt eine Maximum-Likelihood Testfunktion zwischen dieser Sequenz und den, in einem überwachten Lernverfahren trainierten, DHMMs zum Einsatz.<br />
Die am Merapi kontinuierlich aufgezeichneten seismischen Daten im Zeitraum vom 01.07. und 05.07.1998 sind besonders für einen Test dieses Klassifikationssystems geeignet. In dieser Zeit zeigte der Merapi einen rapiden Anstieg der Seismizität kurz bevor dem Auftreten zweier Eruptionen am 10.07. und 19.07.1998. Drei der bekannten, vom Vulkanologischen Dienst in Indonesien beschriebenen, seimischen Signalklassen konnten in diesem Zeitraum beobachtet werden. Es handelt sich hierbei um flache vulkanisch-tektonische Beben (VTB, h < 2.5 km), um sogenannte MP-Ereignisse, die in direktem Zusammenhang mit dem Wachstum des aktiven Lavadoms gebracht werden, und um seismische Ereignisse, die durch Gesteinslawinen erzeugt werden (lokaler Name: Guguran).<br />
Die spezielle Geometrie des digitalen seismischen Netzwerkes am Merapi besteht aus einer Kombination von drei Mini-Arrays an den Flanken des Merapi. Für die Parametrisierung des Wellenfeldes werden deswegen seismische Array-Verfahren eingesetzt. Die individuellen Wellenfeld Parameter wurden hinsichtlich ihrer Relevanz für den Klassifikationsprozess detailliert analysiert. Für jede der drei Signalklassen wurde ein Satz von DHMMs trainiert. Zusätzlich wurden als Ausschlussklassen noch zwei Gruppen von Noise-Modellen unterschieden.<br />
Insgesamt konnte mit diesem Ansatz eine Erkennungsrate von 67 % erreicht werden. Im Mittel erzeugte das automatische Klassifizierungssystem 41 Fehlalarme pro Tag und Klasse. Die Güte der Klassifikationsergebnisse zeigt starke Variationen zwischen den individuellen Signalklassen. Flache vulkanisch-tektonische Beben (VTB) zeigen sehr ausgeprägte Wellenfeldeigenschaften und, zumindest im untersuchten Zeitraum, sehr stabile Zeitmuster der individuellen Wellenfeldparameter. Das DHMM-basierte Klassifizierungssystem erlaubte für diesen Ereignistyp nahezu 89% richtige Entscheidungen und erzeugte im Mittel 2 Fehlalarme pro Tag.<br />
Ereignisse der Klassen MP und Guguran sind mit dem automatischen System schwieriger zu erkennen. 64% aller MP-Ereignisse und 74% aller Guguran-Ereignisse wurden korrekt erkannt. Im Mittel kam es bei MP-Ereignissen zu 87 Fehlalarmen und bei Guguran Ereignissen zu 33 Fehlalarmen pro Tag. Eine Vielzahl der Fehlalarme und nicht detektierten Ereignisse entstehen jedoch durch eine Verwechslung dieser beiden Signalklassen im automatischen Erkennnungsprozess. Dieses Ergebnis konnte aufgrund der ähnlichen Wellenfeldeigenschaften beider Signalklassen erklärt werden, deren Ursache vermutlich in den bekannt starken Einflüssen des Mediums entlang des Wellenausbreitungsweges in vulkanischen Gebieten liegen. <br />
Insgesamt ist die Erkennungsleistung des entwickelten automatischen Klassifizierungssystems als sehr vielversprechend einzustufen. Im Gegensatz zu Standardverfahren, bei denen in der Seismologie üblicherweise nur der Startzeitpunkt eines seismischen Ereignisses detektiert wird, werden in dem untersuchten Verfahren seismische Ereignisse in ihrer Gesamtheit erfasst und zudem im selben Schritt bereits klassifiziert. / Merapi volcano is one of the most active and dangerous volcanoes of the earth. Located in central part of Java island (Indonesia), even a moderate eruption of Merapi poses a high risk to the highly populated area. Due to the close relationship between the volcanic unrest and the occurrence of seismic events at Mt. Merapi, the monitoring of Merapi's seismicity plays an important role for recognizing major changes in the volcanic activity. An automatic seismic event detection and classification system, which is capable to characterize the actual seismic activity in near real-time, is an important tool which allows the scientists in charge to take immediate decisions during a volcanic crisis. <br />
In order to accomplish the task of detecting and classifying volcano-seismic signals automatically in the continuous data streams, a pattern recognition approach has been used. It is based on the method of hidden Markov models (HMM), a technique, which has proven to provide high recognition rates at high confidence levels in classification tasks of similar complexity (e.g. speech recognition). Any pattern recognition system relies on the appropriate representation of the input data in order to allow a reasonable class-decision by means of a mathematical test function. Based on the experiences from seismological observatory practice, a parametrization scheme of the seismic waveform data is derived using robust seismological analysis techniques. The wavefield parameters are summarized into a real-valued feature vector per time step. The time series of this feature vector build the basis for the HMM-based classification system. In order to make use of discrete hidden Markov (DHMM) techniques, the feature vectors are further processed by applying a de-correlating and prewhitening transformation and additional vector quantization. The seismic wavefield is finally represented as a discrete symbol sequence with a finite alphabet. This sequence is subject to a maximum likelihood test against the discrete hidden Markov models, learned from a representative set of training sequences for each seismic event type of interest.<br />
A time period from July, 1st to July, 5th, 1998 of rapidly increasing seismic activity prior to the eruptive cycle between July, 10th and July, 19th, 1998 at Merapi volcano is selected for evaluating the performance of this classification approach. Three distinct types of seismic events according to the established classification scheme of the Volcanological Survey of Indonesia (VSI) have been observed during this time period. Shallow volcano-tectonic events VTB (h < 2.5 km), very shallow dome-growth related seismic events MP (h < 1 km) and seismic signals connected to rockfall activity originating from the active lava dome, termed Guguran.<br />
The special configuration of the digital seismic station network at Merapi volcano, a combination of small-aperture array deployments surrounding Merapi's summit region, allows the use of array methods to parametrize the continuously recorded seismic wavefield. The individual signal parameters are analyzed to determine their relevance for the discrimination of seismic event classes. For each of the three observed event types a set of DHMMs has been trained using a selected set of seismic events with varying signal to noise ratios and signal durations. Additionally, two sets of discrete hidden Markov models have been derived for the seismic noise, incorporating the fact, that the wavefield properties of the ambient vibrations differ considerably during working hours and night time. <br />
A total recognition accuracy of 67% is obtained. The mean false alarm (FA) rate can be given by 41 FA/class/day. However, variations in the recognition capabilities for the individual seismic event classes are significant. Shallow volcano-tectonic signals (VTB) show very distinct wavefield properties and (at least in the selected time period) a stable time pattern of wavefield attributes. The DHMM-based classification performs therefore best for VTB-type events, with almost 89% recognition accuracy and 2 FA/day. <br />
Seismic signals of the MP- and Guguran-classes are more difficult to detect and classify. Around 64% of MP-events and 74% of Guguran signals are recognized correctly. The average false alarm rate for MP-events is 87 FA/day, whereas for Guguran signals 33 FA/day are obtained. However, the majority of missed events and false alarms for both MP and Guguran events are due to confusion errors between these two event classes in the recognition process. <br />
The confusion of MP and Guguran events is interpreted as being a consequence of the selected parametrization approach for the continuous seismic data streams. The observed patterns of the analyzed wavefield attributes for MP and Guguran events show a significant amount of similarity, thus providing not sufficient discriminative information for the numerical classification. The similarity of wavefield parameters obtained for seismic events of MP and Guguran type reflect the commonly observed dominance of path effects on the seismic wave propagation in volcanic environments.<br />
The recognition rates obtained for the five-day period of increasing seismicity show, that the presented DHMM-based automatic classification system is a promising approach for the difficult task of classifying volcano-seismic signals. Compared to standard signal detection algorithms, the most significant advantage of the discussed technique is, that the entire seismogram is detected and classified in a single step.
|
67 |
Nonlinearities and regime shifts in financial time seriesÅsbrink, Stefan E. January 1997 (has links)
This volume contains four essays on various topics in the field of financial econometrics. All four discuss the properties of high frequency financial data and its implications on the model choice when an estimate of the capital asset return volatility is in focus. The interest lies both in characterizing "stylized facts" in such series with time series models and in predicting volatility. The first essay, entitled A Survey of Recent Papers Considering the Standard & Poor 500 Composite Stock Index, presents recent empirical findings and stylized facts in the financial market from 1987 to 1996 and gives a brief introduction to the research field of capital asset return volatitlity models and properties of high frequency financial data. As the title indicates, the survey is restricted to research on the well known Standard & Poor 500 index. The second essay, with the title, Stylized Facts of Daily Return Series and the Hidden Markov Model, investigates the properties of the hidden Markov Model, HMM, and its capability of reproducing stylized facts of financial high frequency data. The third essay, Modelling the Conditional Mean and Conditional Variance: A combined Smooth Transition and Hidden Markov Approach with an Application to High Frequency Series, investigates the consequences of combining a nonlinear parameterized conditional mean with an HMM for the conditional variance when characterization of stylized facts is considered. Finally, the fourth essay entitled, Volatility Forecasting for Option Pricing on Exchange Rates and Stock Prices, investigates the volatility forecasting performance of some of the most frequently used capital asset return volatility models such as the GARCH with normal and t-distributed errors, the EGARCH and the HMM. The prediction error minimization approach is also investigated. Each essay is self-contained and could, in principle, be read in any order chosen by the reader. This, however, requires a working knowledge of the properties of the HMM. For readers less familiar with the research field the first essay may serve as an helpful introduction to the following three essays. / <p>Diss. Stockholm : Handelshögsk.</p>
|
68 |
Comparison Of Histograms Of Oriented Optical Flowbased Action Recogniton MethodsErcis, Firat 01 September 2012 (has links) (PDF)
In the task of human action recognition in uncontrolled video, motion features are used widely
in order to achieve subject and appearence invariance. We implemented 3 Histograms of
Oriented Optical Flow based method which have a common motion feature extraction phase.
We compute an optical flow field over each frame of the video. Then those flow vectors
are histogrammed due to angle values to represent each frame with a histogram. In order to
capture local motions, The bounding box of the subject is divided into grids and the angle
histograms of all grids are concetanated to obtain the final motion feature vector. Motion
Features are supplied to 3 dierent classification system alternatives containing clustering
combined with HMM, clustering with K-nearest neighbours and average histograms methods.
Three methods are implemented and results are evaluated over Weizmann and KTH datasets.
|
69 |
Efficient Methods for Automatic Speech RecognitionSeward, Alexander January 2003 (has links)
This thesis presents work in the area of automatic speech recognition (ASR). The thesis focuses on methods for increasing the efficiency of speech recognition systems and on techniques for efficient representation of different types of knowledge in the decoding process. In this work, several decoding algorithms and recognition systems have been developed, aimed at various recognition tasks. The thesis presents the KTH large vocabulary speech recognition system. The system was developed for online (live) recognition with large vocabularies and complex language models. The system utilizes weighted transducer theory for efficient representation of different knowledge sources, with the purpose of optimizing the recognition process. A search algorithm for efficient processing of hidden Markov models (HMMs) is presented. The algorithm is an alternative to the classical Viterbi algorithm for fast computation of shortest paths in HMMs. It is part of a larger decoding strategy aimed at reducing the overall computational complexity in ASR. In this approach, all HMM computations are completely decoupled from the rest of the decoding process. This enables the use of larger vocabularies and more complex language models without an increase of HMM-related computations. Ace is another speech recognition system developed within this work. It is a platform aimed at facilitating the development of speech recognizers and new decoding methods. A real-time system for low-latency online speech transcription is also presented. The system was developed within a project with the goal of improving the possibilities for hard-of-hearing people to use conventional telephony by providing speech-synchronized multimodal feedback. This work addresses several additional requirements implied by this special recognition task. / QC 20100811
|
70 |
Model Based Speech Enhancement and CodingZhao, David Yuheng January 2007 (has links)
In mobile speech communication, adverse conditions, such as noisy acoustic environments and unreliable network connections, may severely degrade the intelligibility and natural- ness of the received speech quality, and increase the listening effort. This thesis focuses on countermeasures based on statistical signal processing techniques. The main body of the thesis consists of three research articles, targeting two specific problems: speech enhancement for noise reduction and flexible source coder design for unreliable networks. Papers A and B consider speech enhancement for noise reduction. New schemes based on an extension to the auto-regressive (AR) hidden Markov model (HMM) for speech and noise are proposed. Stochastic models for speech and noise gains (excitation variance from an AR model) are integrated into the HMM framework in order to improve the modeling of energy variation. The extended model is referred to as a stochastic-gain hidden Markov model (SG-HMM). The speech gain describes the energy variations of the speech phones, typically due to differences in pronunciation and/or different vocalizations of individual speakers. The noise gain improves the tracking of the time-varying energy of non-stationary noise, e.g., due to movement of the noise source. In Paper A, it is assumed that prior knowledge on the noise environment is available, so that a pre-trained noise model is used. In Paper B, the noise model is adaptive and the model parameters are estimated on-line from the noisy observations using a recursive estimation algorithm. Based on the speech and noise models, a novel Bayesian estimator of the clean speech is developed in Paper A, and an estimator of the noise power spectral density (PSD) in Paper B. It is demonstrated that the proposed schemes achieve more accurate models of speech and noise than traditional techniques, and as part of a speech enhancement system provide improved speech quality, particularly for non-stationary noise sources. In Paper C, a flexible entropy-constrained vector quantization scheme based on Gaus- sian mixture model (GMM), lattice quantization, and arithmetic coding is proposed. The method allows for changing the average rate in real-time, and facilitates adaptation to the currently available bandwidth of the network. A practical solution to the classical issue of indexing and entropy-coding the quantized code vectors is given. The proposed scheme has a computational complexity that is independent of rate, and quadratic with respect to vector dimension. Hence, the scheme can be applied to the quantization of source vectors in a high dimensional space. The theoretical performance of the scheme is analyzed under a high-rate assumption. It is shown that, at high rate, the scheme approaches the theoretically optimal performance, if the mixture components are located far apart. The practical performance of the scheme is confirmed through simulations on both synthetic and speech-derived source vectors. / QC 20100825
|
Page generated in 0.0323 seconds