Spelling suggestions: "subject:"supervisé""
71 |
Interaction robot/environnement dans le cadre de la psychologie éco logique. Implémentation des affordancesHazan, Aurélien 11 December 2007 (has links) (PDF)
Comment un robot peut-il estimer si une tâche est réalisable ou pas dans un envi ronnement donné ? De nombreux travaux en robotique s'appuient pour répondre sur les affordances de la psychologie écologique. Apprendre quelles sont les actions permises nécessite selon nous d'apprendre les relations de dépendances locales et globales entre capteurs et effecteurs au cours de l'action.<br />Pour cela nous assimilons le robot à un réseau sensorimoteur aléatoire, et pour représenter son activité nous introduisons des mesures de dépendance probabilist es et statistiques. Celles-ci nous permettent de construire des matrices, graphes et complexes simpliciaux aléatoires dont nous étudions les propriétés spectrales, topologiques et homologiques.<br />Puis nous vérifions expérimentalement l'intérêt des outils proposés à l'aide d'un robot mobile simulé, autour de la capacité de pousser les objets de l'environnement, dans le cadre de tâches de classification supervisée et non supervisée.
|
72 |
Modèles graphiques évidentielsBoudaren, Mohamed El Yazid 12 January 2014 (has links) (PDF)
Les modélisations par chaînes de Markov cachées permettent de résoudre un grand nombre de problèmes inverses se posant en traitement d'images ou de signaux. En particulier, le problème de segmentation figure parmi les problèmes où ces modèles ont été le plus sollicités. Selon ces modèles, la donnée observable est considérée comme une version bruitée de la segmentation recherchée qui peut être modélisée à travers une chaîne de Markov à états finis. Des techniques bayésiennes permettent ensuite d'estimer cette segmentation même dans le contexte non-supervisé grâce à des algorithmes qui permettent d'estimer les paramètres du modèle à partir de l'observation seule. Les chaînes de Markov cachées ont été ultérieurement généralisées aux chaînes de Markov couples et triplets, lesquelles offrent plus de possibilités de modélisation tout en présentant des complexités de calcul comparables, permettant ainsi de relever certains défis que les modélisations classiques ne supportent pas. Un lien intéressant a également été établi entre les modèles de Markov triplets et la théorie de l'évidence de Dempster-Shafer, ce qui confère à ces modèles la possibilité de mieux modéliser les données multi-senseurs. Ainsi, dans cette thèse, nous abordons trois difficultés qui posent problèmes aux modèles classiques : la non-stationnarité du processus caché et/ou du bruit, la corrélation du bruit et la multitude de sources de données. Dans ce cadre, nous proposons des modélisations originales fondées sur la très riche théorie des chaînes de Markov triplets. Dans un premier temps, nous introduisons les chaînes de Markov à bruit M-stationnaires qui tiennent compte de l'aspect hétérogène des distributions de bruit s'inspirant des chaînes de Markov cachées M-stationnaires. Les chaînes de Markov cachée ML-stationnaires, quant à elles, considèrent à la fois la loi a priori et les densités de bruit non-stationnaires. Dans un second temps, nous définissons deux types de chaînes de Markov couples non-stationnaires. Dans le cadre bayésien, nous introduisons les chaînes de Markov couples M-stationnaires puis les chaînes de Markov couples MM-stationnaires qui considèrent la donnée stationnaire par morceau. Dans le cadre évidentiel, nous définissons les chaînes de Markov couples évidentielles modélisant l'hétérogénéité du processus caché par une fonction de masse. Enfin, nous présentons les chaînes de Markov multi-senseurs non-stationnaires où la fusion de Dempster-Shafer est employée à la fois pour modéliser la non-stationnarité des données (à l'instar des chaînes de Markov évidentielles cachées) et pour fusionner les informations provenant des différents senseurs (comme dans les champs de Markov multi-senseurs). Pour chacune des modélisations proposées, nous décrivons les techniques de segmentation et d'estimation des paramètres associées. L'intérêt de chacune des modélisations par rapport aux modélisations classiques est ensuite démontré à travers des expériences menées sur des données synthétiques et réelles
|
73 |
Apprentissage de vote de majorité pour la classification supervisée et l'adaptation de domaine : Approches PAC Bayésiennes et combinaison de similaritésMorvant, Emilie 18 September 2013 (has links)
De nombreuses applications font appel à des méthodes d'apprentissage capables de considérer différentes sources d'information (e.g. images, son, texte) en combinant plusieurs modèles ou descriptions. Cette thèse propose des contributions théoriquement fondées permettant de répondre à deux problématiques importantes pour ces méthodes :(i) Comment intégrer de la connaissance a priori sur des informations ?(ii) Comment adapter un modèle sur des données ne suivant pas la distribution des données d'apprentissage ?Une 1ère série de résultats en classification supervisée s'intéresse à l'apprentissage de votes de majorité sur des classifieurs dans un contexte PAC-Bayésien prenant en compte un a priori sur ces classifieurs. Le 1er apport étend un algorithme de minimisation de l'erreur du vote en classification binaire en permettant l'utilisation d'a priori sous la forme de distributions alignées sur les votants. Notre 2ème contribution analyse théoriquement l'intérêt de la minimisation de la norme opérateur de la matrice de confusion de votes dans un contexte de données multiclasses. La 2nde série de résultats concerne l'AD en classification binaire : le 3ème apport combine des fonctions similarités (epsilon,gamma,tau)-Bonnes pour inférer un espace rapprochant les distributions des données d'apprentissage et de test à l'aide de la minimisation d'une borne. Notre 4ème contribution propose une analyse PAC-Bayésienne de l'AD basée sur une divergence entre distributions. Nous en dérivons des garanties théoriques pour les votes de majorité et un algorithme adapté aux classifieurs linéaires minimisant cette borne. / Many applications make use of machine learning methods able to take into account different information sources (e.g. sounds, image, text) by combining different descriptors or models. This thesis proposes a series of contributions theoretically founded dealing with two mainissues for such methods:(i) How to embed some a priori information available?(ii) How to adapt a model on new data following a distribution different from the learning data distribution? This last issue is known as domain adaptation (DA).A 1st series of contributions studies the problem of learning a majority vote over a set of voters for supervised classification in the PAC-Bayesian context allowing one to consider an a priori on the voters. Our 1st contribution extends an algorithm minimizing the error of the majority vote in binary classification by allowing the use of an a priori expressed as an aligned distribution. The 2nd analyses theoretically the interest of the minimization of the operator norm of the confusion matrix of the votes in the multiclass setting. Our 2nd series of contributions deals with DA for binary classification. The 3rd result combines (epsilon,gamma,tau)-Good similarity functions to infer a new projection space allowing us to move closer the learning and test distributions by means of the minimization of a DA bound. Finally, we propose a PAC-Bayesian analysis for DA based on a divergence between distributions. This analysis allows us to derive guarantees for learning majority votes in a DA context, and to design an algorithm specialized to linear classifiers minimizing our bound.
|
74 |
Reducing development costs of large vocabulary speech recognition systems / Réduction des coûts de développement de systèmes de reconnaissance de la parole à grand vocabulaireFraga Da Silva, Thiago 29 September 2014 (has links)
Au long des dernières décennies, des importants avancements ont été réalisés dans le domaine de la reconnaissance de la parole à grand vocabulaire. Un des défis à relever dans le domaine concerne la réduction des coûts de développement nécessaires pour construire un nouveau système ou adapter un système existant à une nouvelle tâche, langue ou dialecte. Les systèmes de reconnaissance de la parole à l’état de l’art sont basés sur les principes de l’apprentissage statistique, utilisant l’information fournie par deux modèles stochastiques, un modèle acoustique (MA) et un modèle de langue (ML). Les méthodes standards utilisées pour construire ces modèles s’appuient sur deux hypothèses de base : les jeux de données d’apprentissage sont suffisamment grands, et les données d’apprentissage correspondent bien à la tâche cible. Il est bien connu qu’une partie importante des coûts de développement est dû à la préparation des corpora qui remplissent ces deux conditions, l’origine principale des coûts étant la transcription manuelle des données audio. De plus, pour certaines applications, notamment la reconnaissance des langues et dialectes dits "peu dotés", la collecte des données est en soi une mission difficile. Cette thèse a pour but d’examiner et de proposer des méthodes visant à réduire le besoin de transcriptions manuelles des données audio pour une tâche donnée. Deux axes de recherche ont été suivis. Dans un premier temps, des méthodes d’apprentissage dits "non-supervisées" sont explorées. Leur point commun est l’utilisation des transcriptions audio obtenues automatiquement à l’aide d’un système de reconnaissance existant. Des méthodes non-supervisées sont explorées pour la construction de trois des principales composantes des systèmes de reconnaissance. D’abord, une nouvelle méthode d’apprentissage non-supervisée des MAs est proposée : l’utilisation de plusieurs hypothèses de décodage (au lieu de la meilleure uniquement) conduit à des gains de performance substantiels par rapport à l’approche standard. L’approche non-supervisée est également étendue à l’estimation des paramètres du réseau de neurones (RN) utilisé pour l’extraction d’attributs acoustiques. Cette approche permet la construction des modèles acoustiques d’une façon totalement non-supervisée et conduit à des résultats compétitifs en comparaison avec des RNs estimés de façon supervisée. Finalement, des méthodes non-supervisées sont explorées pour l’estimation des MLs à repli (back-off ) standards et MLs neuronaux. Il est montré que l’apprentissage non-supervisée des MLs conduit à des gains de performance additifs (bien que petits) à ceux obtenus par l’apprentissage non-supervisée des MAs. Dans un deuxième temps, cette thèse propose l’utilisation de l’interpolation de modèles comme une alternative rapide et flexible pour la construction des MAs pour une tâche cible. Les modèles obtenus à partir d’interpolation se montrent plus performants que les modèles de base, notamment ceux estimés à échantillons regroupés ou ceux adaptés à la tâche cible. Il est montré que l’interpolation de modèles est particulièrement utile pour la reconnaissance des dialectes peu dotés. Quand la quantité de données d’apprentissage acoustiques du dialecte ciblé est petite (2 à 3 heures) ou même nulle, l’interpolation des modèles conduit à des gains de performances considérables par rapport aux méthodes standards. / One of the outstanding challenges in large vocabulary automatic speech recognition (ASR) is the reduction of development costs required to build a new recognition system or adapt an existing one to a new task, language or dialect. The state-of-the-art ASR systems are based on the principles of the statistical learning paradigm, using information provided by two stochastic models, an acoustic (AM) and a language (LM) model. The standard methods used to estimate the parameters of such models are founded on two main assumptions : the training data sets are large enough, and the training data match well the target task. It is well-known that a great part of system development costs is due to the construction of corpora that fulfill these requirements. In particular, manually transcribing the audio data is the most expensive and time-consuming endeavor. For some applications, such as the recognition of low resourced languages or dialects, finding and collecting data is also a hard (and expensive) task. As a means to lower the cost required for ASR system development, this thesis proposes and studies methods that aim to alleviate the need for manually transcribing audio data for a given target task. Two axes of research are explored. First, unsupervised training methods are explored in order to build three of the main components of ASR systems : the acoustic model, the multi-layer perceptron (MLP) used to extract acoustic features and the language model. The unsupervised training methods aim to estimate the model parameters using a large amount of automatically (and inaccurately) transcribed audio data, obtained thanks to an existing recognition system. A novel method for unsupervised AM training that copes well with the automatic audio transcripts is proposed : the use of multiple recognition hypotheses (rather than the best one) leads to consistent gains in performance over the standard approach. Unsupervised MLP training is proposed as an alternative to build efficient acoustic models in a fully unsupervised way. Compared to cross-lingual MLPs trained in a supervised manner, the unsupervised MLP leads to competitive performance levels even if trained on only about half of the data amount. Unsupervised LM training approaches are proposed to estimate standard back-off n-gram and neural network language models. It is shown that unsupervised LM training leads to additive gains in performance on top of unsupervised AM training. Second, this thesis proposes the use of model interpolation as a rapid and flexible way to build task specific acoustic models. In reported experiments, models obtained via interpolation outperform the baseline pooled models and equivalent maximum a posteriori (MAP) adapted models. Interpolation proves to be especially useful for low resourced dialect ASR. When only a few (2 to 3 hours) or no acoustic data truly matching the target dialect are available for AM training, model interpolation leads to substantial performance gains compared to the standard training methods.
|
75 |
An XML document representation method based on structure and content : application in technical document classification / An XML document representation method based on structure and content : application in technical document classificationChagheri, Samaneh 27 September 2012 (has links)
L’amélioration rapide du nombre de documents stockés électroniquement représente un défi pour la classification automatique de documents. Les systèmes de classification traditionnels traitent les documents en tant que texte plat, mais les documents sont de plus en plus structurés. Par exemple, XML est la norme plus connue et plus utilisée pour la représentation de documents structurés. Ce type des documents comprend des informations complémentaires sur l'organisation du contenu représentées par différents éléments comme les titres, les sections, les légendes etc. Pour tenir compte des informations stockées dans la structure logique, nous proposons une approche de représentation des documents structurés basée à la fois sur la structure logique du document et son contenu textuel. Notre approche étend le modèle traditionnel de représentation du document appelé modèle vectoriel. Nous avons essayé d'utiliser d'information structurelle dans toutes les phases de la représentation du document: -procédure d'extraction de caractéristiques, -La sélection des caractéristiques, -Pondération des caractéristiques. Notre deuxième contribution concerne d’appliquer notre approche générique à un domaine réel : classification des documents techniques. Nous désirons mettre en œuvre notre proposition sur une collection de documents techniques sauvegardés électroniquement dans la société CONTINEW spécialisée dans l'audit de documents techniques. Ces documents sont en format représentations où la structure logique est non accessible. Nous proposons une solution d’interprétation de documents pour détecter la structure logique des documents à partir de leur présentation physique. Ainsi une collection hétérogène en différents formats de stockage est transformée en une collection homogène de documents XML contenant le même schéma logique. Cette contribution est basée sur un apprentissage supervisé. En conclusion, notre proposition prend en charge l'ensemble de flux de traitements des documents partant du format original jusqu’à la détermination de la ses classe Dans notre système l’algorithme de classification utilisé est SVM. / Rapid improvement in the number of documents stored electronically presents a challenge for automatic classification of documents. Traditional classification systems consider documents as a plain text; however documents are becoming more and more structured. For example, XML is the most known and used standard for structured document representation. These documents include supplementary information on content organization represented by different elements such as title, section, caption etc. We propose an approach on structured document classification based on both document logical structure and its content in order to take into account the information present in logical structure. Our approach extends the traditional document representation model called Vector Space Model (VSM). We have tried to integrate structural information in all phases of document representation construction: -Feature extraction procedure, -Feature selection, -Feature weighting. Our second contribution concerns to apply our generic approach to a real domain of technical documentation. We desire to use our proposition for classifying technical documents electronically saved in CONTINEW; society specialized in technical document audit. These documents are in legacy format in which logical structure is inaccessible. Then we propose an approach for document understanding in order to extract documents logical structure from their presentation layout. Thus a collection of heterogeneous documents in different physical presentations and formats is transformed to a homogenous XML collection sharing the same logical structure. Our contribution is based on learning approach where each logical element is described by its physical characteristics. Therefore, our proposal supports whole document transformation workflow from document’s original format to being classified. In our system SVM has been used as classification algorithm.
|
76 |
Analyse du capitalisme social sur Twitter / Social capitalism on Twitter : a surveyDugué, Nicolas 29 June 2015 (has links)
Le sociologue Bourdieu définit le capital social comme : "L’ensemble des ressources actuelles ou potentielles qui sont liées à la possession d’un réseau durable de relations". Sur Twitter, les abonnements, mentions et retweets créent un réseau de relations pour chaque utilisateur dont les ressources sont l’obtention d’informations pertinentes, la possibilité d’être lu, d’assouvir un besoin narcissique, de diffuser efficacement des messages.Certains utilisateurs Twitter -appelés capitalistes sociaux - cherchent à maximiser leur nombre d’abonnements pour maximiser leur capital social. Nous introduisons leurs techniques, basées sur l’échange d’abonnements et l’utilisation de hashtags dédiés. Afin de mieux les étudier, nous détaillons tout d’abord une méthode pour détecter à l’échelle du réseau ces utilisateurs en se basant sur leurs abonnements et abonnés. Puis, nous montrons avec un compte Twitter automatisé que ces techniques permettent de gagner efficacement des abonnés et de se faire beaucoup retweeter. Nous établissons ensuite que ces dernières permettent également aux capitalistes sociaux d’occuper des positions qui leur accordent une bonne visibilité dans le réseau. De plus, ces méthodes rendent ces utilisateurs influents aux yeux des principaux outils de mesure. Nous mettons en place une méthode de classification supervisée pour détecter avec précision ces utilisateurs et ainsi produire un nouveau score d’influence. / Bourdieu, a sociologist, defines social capital as : "The set of current or potential ressources linked to the possession of a lasting relationships network". On Twitter,the friends, followers, users mentionned and retweeted are considered as the relationships network of each user, which ressources are the chance to get relevant information, to beread, to satisfy a narcissist need, to spread information or advertisements. We observethat some Twitter users that we call social capitalists aim to maximize their follower numbers to maximize their social capital. We introduce their methods, based on mutual subscriptions and dedicated hashtags. In order to study them, we first describe a large scaledetection method based on their set of followers and followees. Then, we show with an automated Twitter account that their methods allow to gain followers and to be retweeted efficiently. Afterwards, we bring to light that social capitalists methods allows these users to occupy specific positions in the network allowing them a high visibility.Furthermore, these methods make these users influent according to the major tools. Wethus set up a classification method to detect accurately these user and produce a newinfluence score.
|
77 |
Contribution à la reconnaissance non-intrusive d'activités humaines / Contribution to the non-intrusive gratitude of human activitiesTrabelsi, Dorra 25 June 2013 (has links)
La reconnaissance d’activités humaines est un sujet de recherche d’actualité comme en témoignent les nombreux travaux de recherche sur le sujet. Dans ce cadre, la reconnaissance des activités physiques humaines est un domaine émergent avec de nombreuses retombées attendues dans la gestion de l’état de santé des personnes et de certaines maladies, les systèmes de rééducation, etc.Cette thèse vise la proposition d’une approche pour la reconnaissance automatique et non-intrusive d’activités physiques quotidiennes, à travers des capteurs inertiels de type accéléromètres, placés au niveau de certains points clés du corps humain. Les approches de reconnaissance d’activités physiques étudiées dans cette thèse, sont catégorisées en deux parties : la première traite des approches supervisées et la seconde étudie les approches non-supervisées. L’accent est mis plus particulièrement sur les approches non-supervisées ne nécessitant aucune labellisation des données. Ainsi, nous proposons une approche probabiliste pour la modélisation des séries temporelles associées aux données accélérométriques, basée sur un modèle de régression dynamique régi par une chaine de Markov cachée. En considérant les séquences d’accélérations issues de plusieurs capteurs comme des séries temporelles multidimensionnelles, la reconnaissance d’activités humaines se ramène à un problème de segmentation jointe de séries temporelles multidimensionnelles où chaque segment est associé à une activité. L’approche proposée prend en compte l’aspect séquentiel et l’évolution temporelle des données. Les résultats obtenus montrent clairement la supériorité de l’approche proposée par rapport aux autres approches en termes de précision de classification aussi bien des activités statiques et dynamiques, que des transitions entre activités. / Human activity recognition is currently a challengeable research topic as it can be witnessed by the extensive research works that has been conducted recently on this subject. In this context, recognition of physical human activities is an emerging domain with expected impacts in the monitoring of some pathologies and people health status, rehabilitation procedures, etc. In this thesis, we propose a new approach for the automatic recognition of human activity from raw acceleration data measured using inertial wearable sensors placed at key points of the human body. Approaches studied in this thesis are categorized into two parts : the first one deals with supervised-based approaches while the second one treats the unsupervised-based ones. The proposed unsupervised approach is based upon joint segmentation of multidimensional time series using a Hidden Markov Model (HMM) in a multiple regression context where each segment is associated with an activity. The model is learned in an unsupervised framework where no activity labels are needed. The proposed approach takes into account the sequential appearance and temporal evolution of data. The results clearly show the satisfactory results of the proposed approach with respect to other approaches in terms of classification accuracy for static, dynamic and transitional human activities
|
78 |
Caractérisation de tissus cutanés superficiels hypertrophiques par spectroscopie multimodalité in vivo : instrumentation, extraction et classification de données multidimensionnelle / Characterization of hypertrophic scar tissues by multimodal spectroscopy in vivo : Instrumentation, Extraction and Classification of multidimensional datasLiu, Honghui 18 April 2012 (has links)
L'objectif de ce travail de recherche est le développement, la mise au point et la validation d'une méthode de spectroscopie multi-modalités en diffusion élastique et autofluorescence pour caractériser des tissus cutanés cicatriciels hypertrophiques in vivo. Ces travaux sont reposés sur trois axes. La première partie des travaux présente l'instrumentation : développement d'un système spectroscopique qui permet de réaliser des mesures de multimodalités in vivo de manière automatique et efficace. Des procédures métrologiques sont mise en place pour caractériser le système développé et assurer la repétabilité les résultats de mesure. La deuxième partie présente une étude préclinique. Un modèle animal et un protocole expérimental ont été mises en place pour créer des cicatrices hypertrophiques sur lesquelles nous pouvons recueillir des spectres à analyser. La troisième partie porte sur la classification des spectres obtenus. Elle propose des méthodes algorithmiques pour débruiter et corriger les spectres mesurés, pour extraire automatiquement des caractéristiques spectrales interprétables et pour sélectionner un sous-ensemble de caractéristiques "optimales" en vue d'une classification efficace. Les résultats de classification réalisée respectivement par trois méthodes (k-ppv, ADL et RNA) montrent que la faisabilité d'utiliser la spectroscopie bimodale pour la caractérisation de ce type de lésion cutané. Par ailleurs, les caractéristiques sélectionnées par notre méthode montrent que la cicatrisation hypertrophique implique un changement de structure tissulaire et une variation de concentration de porphyrine / This research activity aims at developing and validating a multimodal system combining diffuse reflectance spectroscopy and autofluorescence spectroscopy in characterizing hypertrophic scar tissues in vivo. The work relies on three axes. The first part concerns the development of an automatic system which is suitable for multimodal spectroscopic measurement. A series of calibration procedures are carried out for ensuring the reliability of the measurement result. The second part presents a preclinical study on an animal model (rabbit ear). An experimental protocol was implemented in order to create hypertrophic scars on which we can collect spectra to analyze. The third part deals with the classification problem on the spectra obtained. It provides a series of algorithmic methods for denoising and correcting the measured spectra, for automatically extracting some interpretable spectral features and for selecting an optimal subset for classification. The classification results arched using respectively 3 different classifiers (knn, LDA and ANN) show the ability of bimodal spectroscopy in characterization of the topic skin lesion. Furthermore, the features selected my selection method indicate that the hypertrophic scarring may involve a change in tissue structure and in the concentration of porphyrins embedded in the epidermis
|
79 |
Contribution à la détection et à l'analyse des signaux EEG épileptiques : débruitage et séparation de sources / Contribution to the detection and analysis of epileptic EEG signals : denoising and source separationRomo Vazquez, Rebeca del Carmen 24 February 2010 (has links)
L'objectif principal de cette thèse est le pré-traitement des signaux d'électroencéphalographie (EEG). En particulier, elle vise à développer une méthodologie pour obtenir un EEG dit "propre" à travers l'identification et l'élimination des artéfacts extra-cérébraux (mouvements oculaires, clignements, activité cardiaque et musculaire) et du bruit. Après identification, les artéfacts et le bruit doivent être éliminés avec une perte minimale d'information, car dans le cas d'EEG, il est de grande importance de ne pas perdre d'information potentiellement utile à l'analyse (visuelle ou automatique) et donc au diagnostic médical. Plusieurs étapes sont nécessaires pour atteindre cet objectif : séparation et identification des sources d'artéfacts, élimination du bruit de mesure et reconstruction de l'EEG "propre". A travers une approche de type séparation aveugle de sources (SAS), la première partie vise donc à séparer les signaux EEG dans des sources informatives cérébrales et des sources d'artéfacts extra-cérébraux à éliminer. Une deuxième partie vise à classifier et éliminer les sources d'artéfacts et elle consiste en une étape de classification supervisée. Le bruit de mesure, quant à lui, il est éliminé par une approche de type débruitage par ondelettes. La mise en place d'une méthodologie intégrant d'une manière optimale ces trois techniques (séparation de sources, classification supervisée et débruitage par ondelettes) constitue l'apport principal de cette thèse. La méthodologie développée, ainsi que les résultats obtenus sur une base de signaux d'EEG réels (critiques et inter-critiques) importante, sont soumis à une expertise médicale approfondie, qui valide l'approche proposée / The goal of this research is the electroencephalographic (EEG) signals preprocessing. More precisely, we aim to develop a methodology to obtain a "clean" EEG through the extra- cerebral artefacts (ocular movements, eye blinks, high frequency and cardiac activity) and noise identification and elimination. After identification, the artefacts and noise must be eliminated with a minimal loss of cerebral activity information, as this information is potentially useful to the analysis (visual or automatic) and therefore to the medial diagnosis. To accomplish this objective, several pre-processing steps are needed: separation and identification of the artefact sources, noise elimination and "clean" EEG reconstruction. Through a blind source separation (BSS) approach, the first step aims to separate the EEG signals into informative and artefact sources. Once the sources are separated, the second step is to classify and to eliminate the identified artefacts sources. This step implies a supervised classification. The EEG is reconstructed only from informative sources. The noise is finally eliminated using a wavelet denoising approach. A methodology ensuring an optimal interaction of these three techniques (BSS, classification and wavelet denoising) is the main contribution of this thesis. The methodology developed here, as well the obtained results from an important real EEG data base (ictal and inter-ictal) is subjected to a detailed analysis by medical expertise, which validates the proposed approach
|
80 |
Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole / Acoustic model structuring for improving automatic speech recognition performanceGorin, Arseniy 26 November 2014 (has links)
Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la thèse. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités. Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différentes sources de variabilité (âge, sexe, accent et bruit) / This thesis focuses on acoustic model structuring for improving HMM-Based automatic speech recognition. The structuring relies on unsupervised clustering of speech utterances of the training data in order to handle speaker and channel variability. The idea is to split the data into acoustically similar classes. In conventional multi-Modeling (or class-Based) approach, separate class-Dependent models are built via adaptation of a speaker-Independent model. When the number of classes increases, less data becomes available for the estimation of the class-Based models, and the parameters are less reliable. One way to handle such problem is to modify the classification criterion applied on the training data, allowing a given utterance to belong to more than one class. This is obtained by relaxing the classification decision through a soft margin. This is investigated in the first part of the thesis. In the main part of the thesis, a novel approach is proposed that uses the clustered data more efficiently in a class-Structured GMM. Instead of adapting all HMM-GMM parameters separately for each class of data, the class information is explicitly introduced into the GMM structure by associating a given density component with a given class. To efficiently exploit such structured HMM-GMM, two different approaches are proposed. The first approach combines class-Structured GMM with class-Dependent mixture weights. In this model the Gaussian components are shared across speaker classes, but they are class-Structured, and the mixture weights are class-Dependent. For decoding an utterance, the set of mixture weights is selected according to the estimated class. In the second approach, the mixture weights are replaced by density component transition probabilities. The approaches proposed in the thesis are analyzed and evaluated on various speech data, which cover different types of variability sources (age, gender, accent and noise)
|
Page generated in 0.3812 seconds