• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 63
  • 19
  • 5
  • 1
  • 1
  • Tagged with
  • 90
  • 90
  • 69
  • 32
  • 27
  • 23
  • 22
  • 20
  • 13
  • 11
  • 11
  • 10
  • 10
  • 10
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
81

Collecter, Transcrire, Analyser : quand la machine assiste le linguiste dans son travail de terrain / Collecting, Transcribing, Analyzing : Machine-Assisted Linguistic Fieldwork

Gauthier, Elodie 30 March 2018 (has links)
Depuis quelques décennies, de nombreux scientifiques alertent au sujet de la disparition des langues qui ne cesse de s'accélérer.Face au déclin alarmant du patrimoine linguistique mondial, il est urgent d'agir afin de permettre aux linguistes de terrain, a minima, de documenter les langues en leur fournissant des outils de collecte innovants et, si possible, de leur permettre de décrire ces langues grâce au traitement des données assisté par ordinateur.C'est ce que propose ce travail, en se concentrant sur trois axes majeurs du métier de linguiste de terrain : la collecte, la transcription et l'analyse.Les enregistrements audio sont primordiaux, puisqu'ils constituent le matériau source, le point de départ du travail de description. De plus, tel un instantané, ils représentent un objet précieux pour la documentation de la langue. Cependant, les outils actuels d'enregistrement n'offrent pas au linguiste la possibilité d'être efficace dans son travail et l'ensemble des appareils qu'il doit utiliser (enregistreur, ordinateur, microphone, etc.) peut devenir encombrant.Ainsi, nous avons développé LIG-AIKUMA, une application mobile de collecte de parole innovante, qui permet d'effectuer des enregistrements directement exploitables par les moteurs de reconnaissance automatique de la parole (RAP). Les fonctionnalités implémentées permettent d'enregistrer différents types de discours (parole spontanée, parole élicitée, parole lue) et de partager les enregistrements avec les locuteurs. L'application permet, en outre, la construction de corpus alignés << parole source (peu dotée)-parole cible (bien dotée) >>, << parole-image >>, << parole-vidéo >> qui présentent un intérêt fort pour les technologies de la parole, notamment pour l'apprentissage non supervisé.Bien que la collecte ait été menée de façon efficace, l'exploitation (de la transcription jusqu'à la glose, en passant par la traduction) de la totalité de ces enregistrements est impossible, tant la tâche est fastidieuse et chronophage.Afin de compléter l'aide apportée aux linguistes, nous proposons d'utiliser des techniques de traitement automatique de la langue pour lui permettre de tirer partie de la totalité de ses données collectées. Parmi celles-ci, la RAP peut être utilisée pour produire des transcriptions, d'une qualité satisfaisante, de ses enregistrements.Une fois les transcriptions obtenues, le linguiste peut s'adonner à l'analyse de ses données. Afin qu'il puisse procéder à l'étude de l'ensemble de ses corpus, nous considérons l'usage des méthodes d'alignement forcé. Nous démontrons que de telles techniques peuvent conduire à des analyses linguistiques fines. En retour, nous montrons que la modélisation de ces observations peut mener à des améliorations des systèmes de RAP. / In the last few decades, many scientists were concerned with the fast extinction of languages. Faced with this alarming decline of the world's linguistic heritage, action is urgently needed to enable fieldwork linguists, at least, to document languages by providing them innovative collection tools and to enable them to describe these languages. Machine assistance might be interesting to help them in such a task.This is what we propose in this work, focusing on three pillars of the linguistic fieldwork: collection, transcription and analysis.Recordings are essential, since they are the source material, the starting point of the descriptive work. Speech recording is also a valuable object for the documentation of the language.The growing proliferation of smartphones and other interactive voice mobile devices offer new opportunities for fieldwork linguists and researchers in language documentation. Field recordings should also include ethnolinguistic material which is particularly valuable to document traditions and way of living. However, large data collections require well organized repositories to access the content, with efficient file naming and metadata conventions.Thus, we have developed LIG-AIKUMA, a free Android app running on various mobile phones and tablets. The app aims to record speech for language documentation, over an innovative way.It includes a smart generation and handling of speaker metadata as well as respeaking and parallel audio data mapping.LIG-AIKUMA proposes a range of different speech collection modes (recording, respeaking, translation and elicitation) and offers the possibility to share recordings between users. Through these modes, parallel corpora are built such as "under-resourced speech - well-resourced speech", "speech - image", "speech - video", which are also of a great interest for speech technologies, especially for unsupervised learning.After the data collection step, the fieldwork linguist transcribes these data. Nonetheless, it can not be done -currently- on the whole collection, since the task is tedious and time-consuming.We propose to use automatic techniques to help the fieldwork linguist to take advantage of all his speech collection. Along these lines, automatic speech recognition (ASR) is a way to produce transcripts of the recordings, with a decent quality.Once the transcripts are obtained (and corrected), the linguist can analyze his data. In order to analyze the whole collection collected, we consider the use of forced alignment methods. We demonstrate that such techniques can lead to fine evaluation of linguistic features. In return, we show that modeling specific features may lead to improvements of the ASR systems.
82

Modélisation pour la reconnaissance continue de la langue française parlée complétée à l'aide de méthodes avancées d'apprentissage automatique / Modeling for Continuous Cued Speech Recognition in French using Advanced Machine Learning Methods

Liu, Li 11 September 2018 (has links)
Cette thèse de doctorat traite de la reconnaissance automatique du Langage français Parlé Complété (LPC), version française du Cued Speech (CS), à partir de l’image vidéo et sans marquage de l’information préalable à l’enregistrement vidéo. Afin de réaliser cet objectif, nous cherchons à extraire les caractéristiques de haut niveau de trois flux d’information (lèvres, positions de la main et formes), et fusionner ces trois modalités dans une approche optimale pour un système de reconnaissance de LPC robuste. Dans ce travail, nous avons introduit une méthode d’apprentissage profond avec les réseaux neurono convolutifs (CNN)pour extraire les formes de main et de lèvres à partir d’images brutes. Un modèle de mélange de fond adaptatif (ABMM) est proposé pour obtenir la position de la main. De plus, deux nouvelles méthodes nommées Modified Constraint Local Neural Fields (CLNF Modifié) et le model Adaptive Ellipse Model ont été proposées pour extraire les paramètres du contour interne des lèvres (étirement et ouverture aux lèvres). Le premier s’appuie sur une méthode avancée d’apprentissage automatique (CLNF) en vision par ordinateur. Toutes ces méthodes constituent des contributions significatives pour l’extraction de caractéristiques du LPC. En outre, en raison de l’asynchronie des trois flux caractéristiques du LPC, leur fusion est un enjeu important dans cette thèse. Afin de le résoudre, nous avons proposé plusieurs approches, y compris les stratégies de fusion au niveau données et modèle avec une modélisation HMM dépendant du contexte. Pour obtenir le décodage, nous avons proposé trois architectures CNNs-HMMs. Toutes ces architectures sont évaluées sur un corpus de phrases codées en LPC en parole continue sans aucun artifice, et la performance de reconnaissance CS confirme l’efficacité de nos méthodes proposées. Le résultat est comparable à l’état de l’art qui utilisait des bases de données où l’information pertinente était préalablement repérée. En même temps, nous avons réalisé une étude spécifique concernant l’organisation temporelle des mouvements de la main, révélant une avance de la main en relation avec l’emplacement dans la phrase. En résumé, ce travail de doctorat propose les méthodes avancées d’apprentissage automatique issues du domaine de la vision par ordinateur et les méthodologies d’apprentissage en profondeur dans le travail de reconnaissance CS, qui constituent un pas important vers le problème général de conversion automatique de CS en parole audio. / This PhD thesis deals with the automatic continuous Cued Speech (CS) recognition basedon the images of subjects without marking any artificial landmark. In order to realize thisobjective, we extract high level features of three information flows (lips, hand positions andshapes), and find an optimal approach to merging them for a robust CS recognition system.We first introduce a novel and powerful deep learning method based on the ConvolutionalNeural Networks (CNNs) for extracting the hand shape/lips features from raw images. Theadaptive background mixture models (ABMMs) are also applied to obtain the hand positionfeatures for the first time. Meanwhile, based on an advanced machine learning method Modi-fied Constrained Local Neural Fields (CLNF), we propose the Modified CLNF to extract theinner lips parameters (A and B ), as well as another method named adaptive ellipse model. Allthese methods make significant contributions to the feature extraction in CS. Then, due tothe asynchrony problem of three feature flows (i.e., lips, hand shape and hand position) in CS,the fusion of them is a challenging issue. In order to resolve it, we propose several approachesincluding feature-level and model-level fusion strategies combined with the context-dependentHMM. To achieve the CS recognition, we propose three tandem CNNs-HMM architectureswith different fusion types. All these architectures are evaluated on the corpus without anyartifice, and the CS recognition performance confirms the efficiency of our proposed methods.The result is comparable with the state of the art using the corpus with artifices. In parallel,we investigate a specific study about the temporal organization of hand movements in CS,especially about its temporal segmentation, and the evaluations confirm the superior perfor-mance of our methods. In summary, this PhD thesis applies the advanced machine learningmethods to computer vision, and the deep learning methodologies to CS recognition work,which make a significant step to the general automatic conversion problem of CS to sound.The future work will mainly focus on an end-to-end CNN-RNN system which incorporates alanguage model, and an attention mechanism for the multi-modal fusion.
83

La reconnaissance automatisée des nannofossiles calcaires du Cénozoïque / The automatic recognition of the calcareous nannofossils of the Cenozoic

Barbarin, Nicolas 14 March 2014 (has links)
SYRACO est un SYstème de Reconnaissance Automatisée des COccolithes, développé à son origine par Luc Beaufort et Denis Dollfus à partir de 1995 et plus récemment avec Yves Gally. L'utilité d'un tel système est de permettre aux spécialistes un gain de temps majeur dans l'acquisition et le traitement des données. Dans ce travail, le système a été amélioré techniquement et sa reconnaissance a été étendue aux nannofossiles calcaires du Cénozoïque. Ce système fait le tri entre les nannofossiles et les non-nannofossiles avec une efficacité respectivement estimée à 75% et 90 %. Il s'appuie sur une nouvelle base d'images de référence d'espèces datant de l'Eocène Supérieur aux espèces vivantes, ce qui représente des centaines d'espèces avec une forte variabilité morphologique. Il permet de réaliser une classification en 39 morphogroupes par la combinaison de réseaux de neurones artificiels avec des modèles statistiques. Les résultats sont présentés sous forme de comptages automatisés, de données morphométriques (taille, masse...) et de mosaïques d'images. Il peut ainsi être utilisé pour des analyses biostratigraphiques et paléocéanographiques. / SYRACO is an automated recognition system of coccoliths, originally developed since 1995 by Luc Beaufort and Denis Dollfus, and more recently with the help of Yves Gally. The main purpose of this system is for specialists to save time in the acquisition and treatment of data. By this recent work, the system has been technically improved and its ability of recognition has been extended to calcareous nannofossils of the Cenozoic Era. It sorts nannofossils and non-nannofossils with a reliability respectively estimated to 75% and 90%. It is based on a new reference images database of species from the Upper Eocene up to living species. This represents hundreds of species with a high morphological variability. It leads to the establishment of a classification arranged in 39 morphogroups, combining artificial neural networks to statistical models. The results are presented as automated counting, morphometrical data (size, mass...) and mosaics of images. Those results can be valuable in biostratigraphical and paleoceanographical analyses.
84

Variation phonologique régionale en interaction conversationnelle / Mental representations of regional phonological variation in conversational interaction

Aubanel, Vincent 21 January 2011 (has links)
C'est dans l'interaction sociale, lieu d'occurrence premier du langage parlé (Local, 2003) que la parole est apprise, qu'elle est produite quotidiennement et qu'elle évolue. De nouvelles approches interdisciplinaires de l'étude de la parole, notamment la sociophonétique ou les récents développements de l'interaction conversationnelle, ouvrent de nouvelles perspectives dans la modélisation du traitement de la parole. Une question centrale à cette entreprise est la caractérisation des représentations mentales associées aux sons de la parole. Pour traiter cette question, nous utilisons l'approche exemplariste du traitement de la parole, qui propose que les sons de la parole sont mémorisés en incorporant des informations contextuelles détaillées. Nous présentons une nouvelle tâche interactionnelle, GMUP (pour "Group ’em up"), destinée à recueillir les réalisations de matériel phonologique finement contrôlé produit par deux interactants dans un cadre expérimental écologiquement valide. Les variables phonologiques décrivent les différences existant entre deux variétés de français parlé, le français standard et le français méridional. Des outils de reconnaissance automatique de la parole ont été développés pour évaluer la convergence phonétique, observable de l'évolution des représentations mentales, à deux niveaux de granularité : au niveau catégoriel de la variable phonologique et au niveau plus fin, subphonémique. L’emploi de mesures acoustiques détaillées à grande échelle permet de caractériser finement les différences inter-individuelles dans l'évolution de la forme des réalisations acoustiques associées aux représentations mentales en interaction conversationnelle. / It is in social interaction, the primary site of the occurrence of spoken language (Local, 2003) that speech is learned, that it is produced everyday and that it evolves. New interdisciplinary approaches to the study of speech, particularly in sociophonetics and in recent developments in conversational interaction, open new avenues for modeling speech processing. A central question in this enterprise relates to the caracterization of the mental representations of speech sounds. We address this question using the exemplarist approach of speech processing, which proposes that speech sounds are stored in memory along with detailed contextual information. We present a new interactional task, GMUP (which stands for "Group ’em up"), designed to collect realizations of highly-controlled phonological material produced by two interactants in an ecologically valid experimental setting. The phonological variables describe differences between two varieties of spoken French, Northern French and Southern French. Automatic speech recognition tools were developed to evaluate phonetic convergence, an observable of the evolution of the mental representations of speech, at two levels of granularity: at the categorical level of the phonological variable and at a more fine-grained, subphonemic level. The use of large-scale detailed acoustic measures allows us to finely caracterize interindividual differences in the evolution of the acoustic realizations associated with the mental representations of speech in conversational interaction.
85

El aporte del rehablado off-line a la transcripción asistida de corpus orales

Rufino Morales, Marimar 04 1900 (has links)
Cette recherche aborde un des grands défis liés à l'étude empirique des phénomènes linguistiques : l'optimisation des ressources matérielles et humaines pour la transcription. Pour ce faire, elle met en relief l’intérêt de la redite off-line, une méthode de transcription vocale à l’aide d’un logiciel de reconnaissance automatique de la parole inspirée du sous-titrage vocal pour les émissions de télé. La tâche de transcrire la parole spontanée est ardue et complexe; on doit rendre compte de tous les constituants de la communication : linguistiques, extralinguistiques et paralinguistiques, et ce, en dépit des difficultés que posent la parole spontanée, les autocorrections, les hésitations, les répétitions, les variations, les phénomènes de contact. Afin d’évaluer le travail nécessaire pour générer un produit de qualité ont été transcrites par redite une sélection d’interviews du Corpus oral de la langue espagnole à Montréal (COLEM), qui reflète toutes les variétés d'espagnol parlées à Montréal (donc en contact avec le français et l'anglais). La qualité des transcriptions a été évaluée en fonction de leur exactitude, étant donné que plus elles sont exactes, moins le temps de correction est long. Afin d'obtenir des pourcentages d’exactitude plus fidèles à la réalité –même s’ils sont inférieurs à ceux d'autres recherches– ont été pris en compte non seulement les mots incorrectement ajoutés, supprimés ou substitués, mais aussi liées aux signes de ponctuation, aux étiquettes descriptives et aux marques typographiques propres aux conventions de transcription du COLEM. Le temps nécessaire à la production et à la correction des transcriptions a aussi été considéré. Les résultats obtenus ont été comparés à des transcriptions manuelles (dactylographiées) et à des transcriptions automatiques. La saisie manuelle offre la flexibilité nécessaire pour obtenir le niveau d’exactitude requis pour la transcription, mais ce n'est ni la méthode la plus rapide ni la plus rigoureuse. Quant aux transcriptions automatiques, aucune ne remplit de façon satisfaisante les conditions requises pour gagner du temps ou réduire les efforts de révision. On a aussi remarqué que les performances de la reconnaissance automatique de la parole fluctuaient au gré des locuteurs et locutrices et des caractéristiques des enregistrements, causant des écarts considérables dans le temps de correction des transcriptions. Ce sont les transcriptions redites, effectuées en temps réel, qui donnent les résultats les plus stables; et celles qui ont été effectuées avec un logiciel installé sur l'ordinateur sont supérieures aux autres. Puisqu’elle permet de minimiser la variabilité des signaux acoustiques, de fournir les indicateurs pour la représentation de la construction dialogique et de favoriser la reconnaissance automatique du vocabulaire issu de la variation de l'espagnol ainsi que d'autres langues, la méthode de redite ne demande en moyenne que 9,2 minutes par minute d'enregistrement du COLEM, incluant la redite en temps réel et deux révisions effectuées par deux personnes différentes à partir de l’audio. En complément, les erreurs qui peuvent se manifester dans les transcriptions obtenues à l’aide de la technologie intelligente ont été catégorisées, selon qu’il s’agisse de non-respect de l'orthographe ou de la protection des données, d’imprécisions dans la segmentation des unités linguistiques, dans la représentation écrite des mécanismes d'interruption de la séquence de parole, dans la construction dialogique ou dans le lexique. / This research addresses one of the major challenges associated with the empirical study of linguistic phenomena: the optimization of material and human transcription resources. To do so, it highlights the value of off-line respeaking, a method of voice-assisted transcription using automatic speech recognition (ASR) software modelled after voice subtitling for television broadcasts. The task of transcribing spontaneous speech is an arduous and complex one; we must account for all the components of communication: linguistic, extralinguistic and paralinguistic, notwithstanding the difficulties posed by spontaneous speech, self-corrections, hesitations, repetitions, variations and contact phenomena. To evaluate the work required to generate a quality product, a selection of interviews from the Spoken Corpus of the Spanish Language in Montreal (COLEM), which reflects all the varieties of Spanish spoken in Montreal (i.e., in contact with French and English), were transcribed through respeaking. The quality of the transcriptions was evaluated for accuracy, since the more accurate they were, the less time was needed for correction. To obtain accuracy percentages that are closer to reality –albeit lower than those obtained in other research– we considered not only words incorrectly added, deleted, or substituted, but also issues related to punctuation marks, descriptive labels, and typographical markers specific to COLEM transcription conventions. We also considered the time required to produce and correct the transcriptions. The results obtained were compared with manual (typed) and automatic transcriptions. Manual input offers the flexibility needed to achieve the level of accuracy required for transcription, but it is neither the fastest nor the most rigorous method. As for automatic transcriptions, none fully meets the conditions required to save time or reduce editing effort. It has also been noted that the performance of automatic speech recognition fluctuates according to the speakers and the characteristics of the recordings, causing considerable variations in the time needed to correct transcriptions. The most stable results were obtained with respoken transcriptions made in real time, and those made with software installed on the computer were better than others. Since it minimizes the variability of acoustic signals, provides indicators for the representation of dialogical construction, and promotes automatic recognition of vocabulary derived from variations in Spanish as well as other languages, respeaking requires an average of only 9.2 minutes for each minute of COLEM recording, including real-time respeaking and two revisions made from the audio by two different individuals. In addition, the ASR errors have been categorized, depending on whether they concern misspelling or non-compliance with data protection, inaccuracies in the segmentation of linguistic units, in the written representation of speech interruption mechanisms, in dialogical construction or in the lexicon. / Esta investigación se centra en uno de los grandes retos que acompañan al estudio empírico de los fenómenos lingüísticos: la optimización de recursos materiales y humanos para transcribir. Para ello, propone el rehablado off-line, un método de transcripción vocal asistido por una herramienta de reconocimiento automático del habla (RAH) inspirado del subtitulado vocal para programas audiovisuales. La transcripción del habla espontánea es un trabajo intenso y difícil, que requiere plasmar todos los niveles de la comunicación lingüística, extralingüística y paralingüística, con sus dificultades exacerbadas por los retos propios del habla espontánea, como la autocorrección, la vacilación, la repetición, la variación o los fenómenos de contacto. Para medir el esfuerzo que conlleva lograr un producto de calidad, primero se rehablaron una serie de grabaciones del Corpus oral de la lengua española en Montreal (COLEM), que refleja todas las variedades del español en contacto con el francés y el inglés. La calidad de las transcripciones se midió en relación con la exactitud: a mayor exactitud, menor tiempo necesario para la corrección. Se contabilizaron las palabras eliminadas, insertadas y sustituidas incorrectamente; pero también computaron los signos de puntuación, las etiquetas descriptivas y demás marcas tipográficas de las convenciones de transcripción del COLEM; los resultados serían inferiores a los de otros trabajos, pero también más realistas. Asimismo, se consideró el tiempo necesario para producir y corregir las transcripciones. Los resultados se compararon con transcripciones mecanografiadas (manuales) y automáticas. La mecanografía brinda flexibilidad para producir el nivel de detalle de transcripción requerido, pero no es el método más rápido, ni el más exacto. Ninguna de las transcripciones automáticas reúne las condiciones satisfactorias para ganar tiempo ni disminuir esfuerzo. Además, el rendimiento de la tecnología de RAH es muy diferente para determinados hablantes y grabaciones, haciendo fluctuar excesivamente el tiempo de corrección entre una entrevista y otra. Todas las transcripciones rehabladas se hacen en tiempo real y brindan resultados más estables. Las realizadas con un programa instalado en la computadora, que puede editarse, son superiores a las demás. Gracias a las acciones para minimizar la variación en las señales acústicas, suministrar claves de representación de la mecánica conversacional y complementar el reconocimiento automático del léxico en cualquier variedad del español, y en otras lenguas, las transcripciones de las entrevistas del COLEM se rehablaron y se revisaron dos veces con el audio por dos personas en un promedio de 9,2 minutos por minuto de grabación. Adicionalmente, se han categorizado los errores que pueden aparecer en las transcripciones realizadas con la tecnología de RAH según sean infracciones a la ortografía o a la protección de datos, errores de segmentación de las unidades del habla, de representación gráfica de los recursos de interrupción de la cadena hablada, del andamiaje conversacional o de cualquier elemento léxico.
86

Réseaux de neurones profonds appliqués à la compréhension de la parole / Deep learning applied to spoken langage understanding

Simonnet, Edwin 12 February 2019 (has links)
Cette thèse s'inscrit dans le cadre de l'émergence de l'apprentissage profond et aborde la compréhension de la parole assimilée à l'extraction et à la représentation automatique du sens contenu dans les mots d'une phrase parlée. Nous étudions une tâche d'étiquetage en concepts sémantiques dans un contexte de dialogue oral évaluée sur le corpus français MEDIA. Depuis une dizaine d'années, les modèles neuronaux prennent l'ascendant dans de nombreuses tâches de traitement du langage naturel grâce à des avancées algorithmiques ou à la mise à disposition d'outils de calcul puissants comme les processeurs graphiques. De nombreux obstacles rendent la compréhension complexe, comme l'interprétation difficile des transcriptions automatiques de la parole étant donné que de nombreuses erreurs sont introduites par le processus de reconnaissance automatique en amont du module de compréhension. Nous présentons un état de l'art décrivant la compréhension de la parole puis les méthodes d'apprentissage automatique supervisé pour la résoudre en commençant par des systèmes classiques pour finir avec des techniques d'apprentissage profond. Les contributions sont ensuite exposées suivant trois axes. Premièrement, nous développons une architecture neuronale efficace consistant en un réseau récurent bidirectionnel encodeur-décodeur avec mécanisme d’attention. Puis nous abordons la gestion des erreurs de reconnaissance automatique et des solutions pour limiter leur impact sur nos performances. Enfin, nous envisageons une désambiguïsation de la tâche de compréhension permettant de rendre notre système plus performant. / This thesis is a part of the emergence of deep learning and focuses on spoken language understanding assimilated to the automatic extraction and representation of the meaning supported by the words in a spoken utterance. We study a semantic concept tagging task used in a spoken dialogue system and evaluated with the French corpus MEDIA. For the past decade, neural models have emerged in many natural language processing tasks through algorithmic advances or powerful computing tools such as graphics processors. Many obstacles make the understanding task complex, such as the difficult interpretation of automatic speech transcriptions, as many errors are introduced by the automatic recognition process upstream of the comprehension module. We present a state of the art describing spoken language understanding and then supervised automatic learning methods to solve it, starting with classical systems and finishing with deep learning techniques. The contributions are then presented along three axes. First, we develop an efficient neural architecture consisting of a bidirectional recurrent network encoder-decoder with attention mechanism. Then we study the management of automatic recognition errors and solutions to limit their impact on our performances. Finally, we envisage a disambiguation of the comprehension task making the systems more efficient.
87

Automatic target recognition using passive bistatic radar signals. / Reconnaissance automatique de cibles par utilisation de signaux de radars passifs bistatiques

Pisane, Jonathan 04 April 2013 (has links)
Dans cette thèse, nous présentons la conception, le développement et le test de trois systèmes de reconnaissance automatique de cibles (ATR) visant à reconnaître des avions non-coopératifs, c’est-à-dire des avions ne fournissant par leur identité, en utilisant des signaux de radars passifs bistatiques. Les radars passifs bistatiques utilisent un ou plusieurs émetteurs d’opportunité (déjà présents sur le terrain), avec des fréquences allant jusqu’à 1 GHz pour les émetteurs considérés ici, et un ou plusieurs récepteurs déployés par le gestionnaire du système et non-colocalisés avec les émetteurs. Les seules informations utilisées sont les signaux réfléchis sur les avions et les signaux directement reçus qui sont tous les deux collectés par le récepteur, quelques informations concernant l’émetteur, et la configuration géométrique du radar bistatique.Les trois systèmes ATR que nous avons construits utilisent respectivement les images radar, les surfaces équivalentes radar (SER) complexes bistatiques et les SER réelles bistatiques. Nous utilisons des données acquises soit sur des modèles d’avions placés en chambre anéchoique à l’ONERA, soit sur des avions réels en utilisant un banc d’essai bistatique consistant en un émetteur VOR et un récepteur basé sur la radio-logicielle (SDR), et que nous avons déployé aux alentours de l’aéroport d’Orly. Nous décrivons d’abord la phénoménologie radar pertinente pour notre problème ainsi que les fondements mathématiques pour la dérivation de la SER bistatique d’un objet, et pour la construction d’images radar d’un objet.Nous utilisons deux méthodes pour la classification de cibles en classes prédéfinies : les arbres extrêmement aléatoires (extra-trees) et les méthodes de sous-espaces. Une caractéristique-clé de notre approche est que nous divisons le problème de reconnaissance global en un ensemble de sous-problèmes par décomposition de l’espace des paramètres (fréquence, polarisation, angle d’aspect et angle bistatique) en régions. Nous construisons un classificateur par région.Nous validons en premier lieu la méthode des extra-trees sur la base de données MSTAR, composée d’images radar de véhicules terrestres. Ensuite, nous testons cette méthode sur des images radar d’avions que nous avons construites à partir des données acquises en chambre anéchoique. Nous obtenons un pourcentage de classification allant jusqu’à 99%. Nous testons ensuite la méthode de sous-espaces sur les SER bistatiques (complexes et réelles) des avions que nous avons extraits des données de chambre anéchoique. Nous obtenons un pourcentage de classification allant jusqu’à 98%, avec des variations suivant la fréquence, la polarisation, l’angle d’aspect, l’angle bistatique et le nombre de paires émetteur-récepteur utilisées. Nous testons enfin la méthode de sous-espaces sur les SER bistatiques (réelles) extraites des signaux acquis par le banc d’essai déployé à Orly. Nous obtenons une probabilité de classification de 82%, avec des variations suivant l’angle d’aspect et l’angle bistatique. On a donc démontré dans cette thèse que l’on peut reconnaitre des cibles aériennes à partir de leur SER acquise en utilisant des signaux de radars passifs bistatiques. / We present the design, development, and test of three novel, distinct automatic target recognition (ATR) systems for the recognition of airplanes and, more specifically, non-cooperative airplanes, i.e. airplanes that do not provide information when interrogated, in the framework of passive bistatic radar systems. Passive bistatic radar systems use one or more illuminators of opportunity (already present in the field), with frequencies up to 1 GHz for the transmitter part of the systems considered here, and one or more receivers, deployed by the persons managing the system, and not co-located with the transmitters. The sole source of information are the signal scattered on the airplane and the direct-path signal that are collected by the receiver, some basic knowledge about the transmitter, and the geometrical bistatic radar configuration. The three distinct ATR systems that we built respectively use the radar images, the bistatic complex radar cross-section (BS-RCS), and the bistatic radar cross-section (BS-RCS) of the targets. We use data acquired either on scale models of airplanes placed in an anechoic, electromagnetic chamber or on real-size airplanes using a bistatic testbed consisting of a VOR transmitter and a software-defined radio (SDR) receiver, located near Orly airport, France. We describe the radar phenomenology pertinent for the problem at hand, as well as the mathematical underpinnings of the derivation of the bistatic RCS values and of the construction of the radar images.For the classification of the observed targets into pre-defined classes, we use either extremely randomized trees or subspace methods. A key feature of our approach is that we break the recognition problem into a set of sub-problems by decomposing the parameter space, which consists of the frequency, the polarization, the aspect angle, and the bistatic angle, into regions. We build one recognizer for each region. We first validate the extra-trees method on the radar images of the MSTAR dataset, featuring ground vehicles. We then test the method on the images of the airplanes constructed from data acquired in the anechoic chamber, achieving a probability of correct recognition up to 0.99.We test the subspace methods on the BS-CRCS and on the BS-RCS of the airplanes extracted from the data acquired in the anechoic chamber, achieving a probability of correct recognition up to 0.98, with variations according to the frequency band, the polarization, the sector of aspect angle, the sector of bistatic angle, and the number of (Tx,Rx) pairs used. The ATR system deployed in the field gives a probability of correct recognition of $0.82$, with variations according to the sector of aspect angle and the sector of bistatic angle.
88

Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems / Utilisation de modèles gaussiens pour l'adaptation au locuteur de réseaux de neurones profonds dans un contexte de modélisation acoustique pour la reconnaissance de la parole

Tomashenko, Natalia 01 December 2017 (has links)
Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les modèles du système et les données liées à un locuteur ou un canal acoustique particulier. Il existe deux types dominants de modèles acoustiques utilisés en RAP : les modèles de mélanges gaussiens (GMM) et les réseaux de neurones profonds (DNN). L'approche par modèles de Markov cachés (HMM) combinés à des GMM (GMM-HMM) a été l'une des techniques les plus utilisées dans les systèmes de RAP pendant de nombreuses décennies. Plusieurs techniques d'adaptation ont été développées pour ce type de modèles. Les modèles acoustiques combinant HMM et DNN (DNN-HMM) ont récemment permis de grandes avancées et surpassé les modèles GMM-HMM pour diverses tâches de RAP, mais l'adaptation au locuteur reste très difficile pour les modèles DNN-HMM. L'objectif principal de cette thèse est de développer une méthode de transfert efficace des algorithmes d'adaptation des modèles GMM aux modèles DNN. Une nouvelle approche pour l'adaptation au locuteur des modèles acoustiques de type DNN est proposée et étudiée : elle s'appuie sur l'utilisation de fonctions dérivées de GMM comme entrée d'un DNN. La technique proposée fournit un cadre général pour le transfert des algorithmes d'adaptation développés pour les GMM à l'adaptation des DNN. Elle est étudiée pour différents systèmes de RAP à l'état de l'art et s'avère efficace par rapport à d'autres techniques d'adaptation au locuteur, ainsi que complémentaire. / Differences between training and testing conditions may significantly degrade recognition accuracy in automatic speech recognition (ASR) systems. Adaptation is an efficient way to reduce the mismatch between models and data from a particular speaker or channel. There are two dominant types of acoustic models (AMs) used in ASR: Gaussian mixture models (GMMs) and deep neural networks (DNNs). The GMM hidden Markov model (GMM-HMM) approach has been one of the most common technique in ASR systems for many decades. Speaker adaptation is very effective for these AMs and various adaptation techniques have been developed for them. On the other hand, DNN-HMM AMs have recently achieved big advances and outperformed GMM-HMM models for various ASR tasks. However, speaker adaptation is still very challenging for these AMs. Many adaptation algorithms that work well for GMMs systems cannot be easily applied to DNNs because of the different nature of these models. The main purpose of this thesis is to develop a method for efficient transfer of adaptation algorithms from the GMM framework to DNN models. A novel approach for speaker adaptation of DNN AMs is proposed and investigated. The idea of this approach is based on using so-called GMM-derived features as input to a DNN. The proposed technique provides a general framework for transferring adaptation algorithms, developed for GMMs, to DNN adaptation. It is explored for various state-of-the-art ASR systems and is shown to be effective in comparison with other speaker adaptation techniques and complementary to them.
89

Etude des caractéristiques de la langue vietnamienne en vue de sa synthèse et de sa reconnaissance automatique. Aspects statiques et dynamiques

Nguyen, Viet Son 15 December 2009 (has links) (PDF)
Le travail présenté dans le cadre de cette thèse vise à étudier de manière approfondie les caractéristiques des voyelles longues et brèves et des consonnes finales du vietnamien, non seulement en statique mais aussi en dynamique, en calculant en particulier les vitesses de transitions formantiques. Deux ensembles consonnes voyelles ont été analysés : (C1)V1C2, avec C2 l'une des trois consonnes finales /p, t, k/ et (C1)V1V2 avec les voyelles longues et brèves correspondantes. L'objectif de l'analyse est de permettre la mise en évidence de caractéristiques spécifiques qui sont alors testées en synthèse. Pour étudier les voyelles longues, les voyelles brèves et les trois consonnes finales /p, t, k/ dans les contextes (C1)V1C2 et (C1)V1V2, nous avons fait deux corpus : un premier corpus avec quatre locuteurs vietnamiens pour étudier la partie centrale de la voyelle (la durée, les formants F1, F2, F3), les transitions V1C2 et V1V2 (durées de transition, pentes des transitions formantiques, valeurs du début de la transition formantique), et la partie finale (durée de la semi-voyelle finale) ; un deuxième corpus avec huit locuteurs (quatre hommes et quatre femmes) nous a permis d'étudier l'équation du locus pour les consonnes finales /p, t, k/. A partir des résultats analysés, nous avons réalisé des tests statistiques et des tests de perception (avec dix auditeurs vietnamiens, cinq hommes et cinq femmes). Les résultats d'analyse, les résultats statistiques et les résultats perceptifs nous permettent de mieux comprendre la production des voyelles vietnamiennes et des trois consonnes finales vietnamiennes /p, t, k/ comme résumés ci-dessous : (1) Dans la langue vietnamienne, il y a trois séries de voyelles longues et brèves /a, ӑ/, /ɤ, ɤ̆/, /ɔ, ɔ̆/ qui sont acoustiquement proches dans le plan F1-F2, mais se distinguent par leur durée, les pentes des formants transitionnels et la durée de la semi-voyelle V2 (dans le contexte des syllabes V1V2). Les durées des transitions V1C2 et V1V2 ne varient pas en fonction de la nature de la voyelle longue ou brève. (2) Les trois consonnes finales /p, t, k/ se terminent par un silence sans burst. Pour les syllabes (C1)V1C2, en comparant les consonnes finales C2 dans un même contexte d'une voyelle précédente V1, bien qu'il n'y a aucune différence de leurs caractéristiques acoustiques statiques (la durée de la transition, et les valeurs au début de la transition formantique), leurs caractéristiques acoustiques dynamiques (la pente des formants transitionnels) sont significativement distinctes et permettent aux vietnamiens de reconnaitre ces trois consonnes finales. (3) Nous avons obtenu les équations du locus avec une linéarité excellente et un bon regroupement des points autour des droites de régression. Les lieux d'articulation des 3 consonnes finales occlusives /p, t, k/ sont bien distincts. On ne trouve aucun effet du ton sur les équations du locus des consonnes finales. Les résultats de ces travaux phonétiques sont ensuite validés à l'aide des systèmes de synthèse (SMART (Synthesis with a Model of Anthropomorphic Region and Tract) et DRM (Distinctive Region Model)).
90

Contributions à l'étude et à la reconnaissance automatique de la parole en Fongbe / Contributions to the study of automatic speech recognitionon Fongbe

Laleye, Frejus Adissa Akintola 10 December 2016 (has links)
L'une des difficultés d'une langue peu dotée est l'inexistence des services liés aux technologies du traitement de l'écrit et de l'oral. Dans cette thèse, nous avons affronté la problématique de l'étude acoustique de la parole isolée et de la parole continue en Fongbe dans le cadre de la reconnaissance automatique de la parole. La complexité tonale de l'oral et la récente convention de l'écriture du Fongbe nous ont conduit à étudier le Fongbe sur toute la chaîne de la reconnaissance automatique de la parole. En plus des ressources linguistiques collectées (vocabulaires, grands corpus de texte, grands corpus de parole, dictionnaires de prononciation) pour permettre la construction des algorithmes, nous avons proposé une recette complète d'algorithmes (incluant des algorithmes de classification et de reconnaissance de phonèmes isolés et de segmentation de la parole continue en syllabe), basés sur une étude acoustique des différents sons, pour le traitement automatique du Fongbe. Dans ce manuscrit, nous avons aussi présenté une méthodologie de développement de modèles accoustiques et de modèles du langage pour faciliter la reconnaissance automatique de la parole en Fongbe. Dans cette étude, il a été proposé et évalué une modélisation acoustique à base de graphèmes (vu que le Fongbe ne dispose pas encore de dictionnaire phonétique) et aussi l'impact de la prononciation tonale sur la performance d'un système RAP en Fongbe. Enfin, les ressources écrites et orales collectées pour le Fongbe ainsi que les résultats expérimentaux obtenus pour chaque aspect de la chaîne de RAP en Fongbe valident le potentiel des méthodes et algorithmes que nous avons proposés. / One of the difficulties of an unresourced language is the lack of technology services in the speech and text processing. In this thesis, we faced the problematic of an acoustical study of the isolated and continous speech in Fongbe as part of the speech recognition. Tonal complexity of the oral and the recent agreement of writing the Fongbe led us to study the Fongbe throughout the chain of an automatic speech recognition. In addition to the collected linguistic resources (vocabularies, large text and speech corpus, pronunciation dictionaries) for building the algorithms, we proposed a complete recipe of algorithms (including algorithms of classification and recognition of isolated phonemes and segmentation of continuous speech into syllable), based on an acoustic study of the different sounds, for Fongbe automatic processing. In this manuscript, we also presented a methodology for developing acoustic models and language models to facilitate speech recognition in Fongbe. In this study, it was proposed and evaluated an acoustic modeling based on grapheme (since the Fongbe don't have phonetic dictionary) and also the impact of tonal pronunciation on the performance of a Fongbe ASR system. Finally, the written and oral resources collected for Fongbe and experimental results obtained for each aspect of an ASR chain in Fongbe validate the potential of the methods and algorithms that we proposed.

Page generated in 0.0702 seconds