• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 26
  • 7
  • 4
  • 3
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 52
  • 20
  • 19
  • 15
  • 8
  • 7
  • 7
  • 6
  • 6
  • 6
  • 6
  • 6
  • 6
  • 6
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Analyzing symbols in architectural floor plans via traditional computer vision and deep learning approaches

Rezvanifar, Alireza 13 December 2021 (has links)
Architectural floor plans are scale-accurate 2D drawings of one level of a building, seen from above, which convey structural and semantic information related to rooms, walls, symbols, textual data, etc. They consist of lines, curves, symbols, and textual markings, showing the relationships between rooms and all physical features, required for the proper construction or renovation of the building. First, this thesis provides a thorough study of state-of-the-art on symbol spotting methods for architectural drawings, an application domain providing the document image analysis and graphic recognition communities with an interesting set of challenges linked to the sheer complexity and density of embedded information, that have yet to be resolved. Second, we propose a hybrid method that capitalizes on strengths of both vector-based and pixel-based symbol spotting techniques. In the description phase, the salient geometric constituents of a symbol are extracted by a variety of vectorization techniques, including a proposed voting-based algorithm for finding partial ellipses. This enables us to better handle local shape irregularities and boundary discontinuities, as well as partial occlusion and overlap. In the matching phase, the spatial relationship between the geometric primitives is encoded via a primitive-aware proximity graph. A statistical approach is then used to rapidly yield a coarse localization of symbols within the plan. Localization is further refined with a pixel-based step implementing a modified cross-correlation function. Experimental results on the public SESYD synthetic dataset and real-world images demonstrate that our approach clearly outperforms other popular symbol spotting approaches. Traditional on-the-fly symbol spotting methods are unable to address the semantic challenge of graphical notation variability, i.e. low intra-class symbol similarity, an issue that is particularly important in architectural floor plan analysis. The presence of occlusion and clutter, characteristic of real-world plans, along with a varying graphical symbol complexity from almost trivial to highly complex, also pose challenges to existing spotting methods. Third, we address all the above issues by leveraging recent advances in deep learning-based neural networks and adapting an object detection framework based on the YOLO (You Only Look Once) architecture. We propose a training strategy based on tiles, avoiding many issues particular to deep learning-based object detection networks related to the relatively small size of symbols compared to entire floor plans, aspect ratios, and data augmentation. Experimental results demonstrate that our method successfully detects architectural symbols with low intra-class similarity and of variable graphical complexity, even in the presence of heavy occlusion and clutter. / Graduate
32

Optimalizace rozpoznávání řeči pro mobilní zařízení / Optimization of Voice Recognition for Mobile Devices

Tomec, Martin January 2010 (has links)
This work deals with optimization of keyword spotting algorithms   on processor architecture ARM Cortex-A8. At first it describes this    architecture and especially the NEON unit for vector computing.   In addition it briefly describes keyword spotting algorithms and also there is proposed optimization of these algorithms for described architecture. Main part of this work is implementation of these optimizations and analysis of their impact on performance.
33

A Novel Approach for Continuous Speech Tracking and Dynamic Time Warping. Adaptive Framing Based Continuous Speech Similarity Measure and Dynamic Time Warping using Kalman Filter and Dynamic State Model

Khan, Wasiq January 2014 (has links)
Dynamic speech properties such as time warping, silence removal and background noise interference are the most challenging issues in continuous speech signal matching. Among all of them, the time warped speech signal matching is of great interest and has been a tough challenge for the researchers. An adaptive framing based continuous speech tracking and similarity measurement approach is introduced in this work following a comprehensive research conducted in the diverse areas of speech processing. A dynamic state model is introduced based on system of linear motion equations which models the input (test) speech signal frame as a unidirectional moving object along the template speech signal. The most similar corresponding frame position in the template speech is estimated which is fused with a feature based similarity observation and the noise variances using a Kalman filter. The Kalman filter provides the final estimated frame position in the template speech at current time which is further used for prediction of a new frame size for the next step. In addition, a keyword spotting approach is proposed by introducing wavelet decomposition based dynamic noise filter and combination of beliefs. The Dempster’s theory of belief combination is deployed for the first time in relation to keyword spotting task. Performances for both; speech tracking and keyword spotting approaches are evaluated using the statistical metrics and gold standards for the binary classification. Experimental results proved the superiority of the proposed approaches over the existing methods. / The appendices files are not available online.
34

Qualifizierung von FE-Prozessmodellen zur Inbetriebnahme von Karosserieziehwerkzeugen

Penter, Lars 21 February 2017 (has links) (PDF)
Die Analyse des Standes der Technik zu Simulationsmethoden im Werkzeugentwicklungsprozess zeigt die breiten Bestrebungen ganzheitliche Modelle zur Abbildung der Maschinen- und Werkzeugeigenschaften in der Prozesssimulation zu schaffen um die Werkzeuginbetriebnahme in Zukunft in die virtuelle Welt überführen zu können. Dabei werden die Einflüsse wie die Stößelkippung unter Last, die Durchbiegung der Werkzeugaufspannplatten, die Verformung des Ziehkissens und die elastische Nachgiebigkeit der Werkzeuge separat betrachtet. Es konnte kein Simulationsmodell identifiziert werden, welche alle relevanten Eigenschaften der Werkzeuge und der Maschinen zu einem Gesamtmodell vereint. Zudem fehlten Modellierungsansätze für wesentliche Teilaspekte einer ganzheitlichen Abbildung der Wechselwirkungen von Maschine, Werkzeug und Prozess. Insbesondere ist dabei die systematische Untersuchung zur Abbildung des Pinolentragbildes sowohl örtlich als auch über dem Pressenhub und der versteifende Einfluss der Werkzeugführung zu nennen. Mit der vorliegenden Arbeit konnte ein ganzheitliches FE-Prozessmodell mit den wesentlichen elastischen Eigenschaften der Maschine und der Werkzeuge erstellt werden. Wichtig ist dabei insbesondere die systematische Abbildung relevanter mechanischer Ziehkissenstrukturen als Ersatzmodell und die Integration der tatsächlichen Ziehkissenkraft im Prozessmodell. Bekannte Modellierungsansätze wie z.B. die Abbildung der Kippsteifigkeit des Stößelsystems und die Berücksichtigung der Durchbiegung der Werkzeugaufspannplatten wurden weiterentwickelt und in das Gesamtmodell implementiert. Für jedes Ersatzmodell wurde eine Strategie zur Modellerstellung und zur zweckmäßigen Parametrierung mit dem Ziel eines minimalen Zeit- und Kostenaufwandes vorgeschlagen. Die elastische Modellierung der Werkzeuge wurde mit einer systematischen Vorgehensweise hinterlegt und zeigt bei konsequenter Anwendung signifikant reduzierte Berechnungszeiten. Die Berücksichtigung der Ziehstäbe erfolgt in dieser Arbeit aufgrund der Einschränkungen des verwendeten FE-Solvers als Strukturmodell. Zusätzlich wurde ein Modellierungsansatz vorgestellt, welcher die analytische Berücksichtigung der Ziehstäbe auf elastischen Werkzeugstrukturen ermöglicht. Damit steht jetzt ein Prozessmodell mit den relevanten Maschinen- und Werkzeugeigenschaften zur Verfügung, welches durch eine einfache Parametrierung auf die jeweilige Prozess-Maschinen-Konfiguration angepasst werden kann. Dies ermöglicht eine deutlich genauere Abbildung des Pinolentragbildes, der daraus resultierenden Niederhalterdruckverteilung und damit des Materialeinzuges in die Matrize. Dieses erweiterte Prozessmodell ist damit in der Lage eine virtuelle Inbetriebnahme der Werkzeuge zu unterstützen und in Zukunft eine weitere Verkürzung des Inbetriebnahmeprozesses zu ermöglichen.
35

Phonemic variability and confusability in pronunciation modeling for automatic speech recognition / Variabilité et confusabilité phonémique pour les modèles de prononciations au sein d’un système de reconnaissance automatique de la parole

Karanasou, Panagiota 11 June 2013 (has links)
Cette thèse aborde les problèmes de variabilité et confusabilité phonémique du point de vue des modèles de prononciation pour un système de reconnaissance automatique de la parole. En particulier, plusieurs directions de recherche sont étudiées. Premièrement, on développe des méthodes de conversion automatique de graphème-phonème et de phonème-phonème. Ces méthodes engendrent des variantes de prononciation pour les mots du vocabulaire, ainsi que des prononciations et des variantes de prononciation, pour des mots hors-vocabulaire. Cependant, ajouter plusieurs prononciations par mot au vocabulaire peut introduire des homophones (ou quasi-homophones) et provoquer une augmentation de la confusabilité du système. Une nouvelle mesure de cette confusabilité est proposée pour analyser et étudier sa relation avec la performance d’un système de reconnaissance de la parole. Cette “confusabilité de prononciation” est plus élevée si des probabilités pour les prononciations ne sont pas fournies et elle peut potentiellement dégrader sérieusement la performance d’un système de reconnaissance de la parole. Il convient, par conséquent, qu’elle soit prise en compte lors de la génération de prononciations. On étudie donc des approches d’entraînement discriminant pour entraîner les poids d’un modèle de confusion phonémique qui autorise différentes facons de prononcer un mot tout en contrôlant le problème de confusabilité phonémique. La fonction objectif à optimiser est choisie afin de correspondre à la mesure de performance de chaque tâche particulière. Dans cette thèse, deux tâches sont étudiées: la tâche de reconnaissance automatique de la parole et la tâche de détection de mots-clés. Pour la reconnaissance automatique de la parole, une fonction objectif qui minimise le taux d’erreur au niveau des phonèmes est adoptée. Pour les expériences menées sur la détection de mots-clés, le “Figure of Merit” (FOM), une mesure de performance de la détection de mots-clés, est directement optimisée. / This thesis addresses the problems of phonemic variability and confusability from the pronunciation modeling perspective for an automatic speech recognition (ASR) system. In particular, several research directions are investigated. First, automatic grapheme-to- phoneme (g2p) and phoneme-to-phoneme (p2p) converters are developed that generate alternative pronunciations for in-vocabulary as well as out-of-vocabulary (OOV) terms. Since the addition of alternative pronunciation may introduce homophones (or close homophones), there is an increase of the confusability of the system. A novel measure of this confusability is proposed to analyze it and study its relation with the ASR performance. This pronunciation confusability is higher if pronunciation probabilities are not provided and can potentially severely degrade the ASR performance. It should, thus, be taken into account during pronunciation generation. Discriminative training approaches are, then, investigated to train the weights of a phoneme confusion model that allows alternative ways of pronouncing a term counterbalancing the phonemic confusability problem. The objective function to optimize is chosen to correspond to the performance measure of the particular task. In this thesis, two tasks are investigated, the ASR task and the KeywordSpotting (KWS) task. For ASR, an objective that minimizes the phoneme error rate is adopted. For experiments conducted on KWS, the Figure of Merit (FOM), a KWS performance measure, is directly maximized.
36

Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits

Thomas, S. 12 July 2012 (has links) (PDF)
Malgré l'entrée récente de notre monde dans l'ère du tout numérique, de nombreux documents manuscrits continuent à s'échanger, obligeant nos sociétés et administrations à faire face au traitement de ces masses de documents. Le traitement automatique de ces documents nécessite d'accéder à un échantillon inconnu mais pertinent de leur contenu et implique de prendre en compte trois points essentiels : la segmentation du document en entités comparable à l'information recherchée, la reconnaissance de ces entités recherchées et le rejet des entités non pertinentes. Nous nous démarquons des approches classiques de lecture complète de documents et de détection de mots clés en parallélisant ces trois traitements en une approche d'extraction d'information. Une première contribution réside dans la conception d'un modèle de ligne générique pour l'extraction d'information et l'implémentation d'un système complet à base de modèles de Markov cachés (MMC) construit autour de ce modèle. Le module de reconnaissance cherche, en une seule passe, à discriminer l'information pertinente, caractérisée par un ensemble de requêtes alphabétiques, numériques ou alphanumériques, de l'information non pertinente, caractérisée par un modèle de remplissage. Une seconde contribution réside dans l'amélioration de la discrimination locale des observations des lignes par l'utilisation d'un réseau de neurones profond. Ce dernier permet également d'inférer une représentation de haut niveau des observations et donc d'automatiser le processus d'extraction des caractéristiques. Il en résulte un système complet, générique et industrialisable, répondant à des besoins émergents dans le domaine de la lecture automatique de documents manuscrits : l'extraction d'informations complexes dans des documents non-contraints.
37

Logo detection, recognition and spotting in context by matching local visual features / Détection, reconnaissance et localisation de logo dans un contexte avec appariement de caractéristiques visuelles locales

Le, Viet Phuong 08 December 2015 (has links)
Cette thèse présente un framework pour le logo spotting appliqué à repérer les logos à partir de l’image des documents en se concentrant sur la catégorisation de documents et les problèmes de récupération de documents. Nous présentons également trois méthodes de matching par point clé : le point clé simple avec le plus proche voisin, le matching par règle des deux voisins les plus proches et le matching par deux descripteurs locaux à différents étapes de matching. Les deux derniers procédés sont des améliorations de la première méthode. En outre, utiliser la méthode de classification basée sur la densité pour regrouper les correspondances dans le framework proposé peut aider non seulement à segmenter la région candidate du logo mais également à rejeter les correspondances incorrectes comme des valeurs aberrantes. En outre, afin de maximiser la performance et de localiser les logos, un algorithme à deux étages a été proposé pour la vérification géométrique basée sur l’homographie avec RANSAC. Comme les approches fondées sur le point clé supposent des approches coûteuses, nous avons également investi dans l’optimisation de notre framework. Les problèmes de séparation de texte/graphique sont étudiés. Nous proposons une méthode de segmentation de texte et non-texte dans les images de documents basée sur un ensemble de fonctionnalités puissantes de composants connectés. Nous avons appliqué les techniques de réduction de dimensionnalité pour réduire le vecteur de descripteurs locaux de grande dimension et rapprocher les algorithmes de recherche du voisin le plus proche pour optimiser le framework. En outre, nous avons également mené des expériences pour un système de récupération de documents sur les documents texte et non-texte segmentés et l'algorithme ANN. Les résultats montrent que le temps de calcul du système diminue brusquement de 56% tandis que la précision diminue légèrement de près de 2,5%. Dans l'ensemble, nous avons proposé une approche efficace et efficiente pour résoudre le problème de spotting des logos dans les images de documents. Nous avons conçu notre approche pour être flexible pour des futures améliorations. Nous croyons que notre travail peut être considéré comme une étape sur la voie pour résoudre le problème de l’analyse complète et la compréhension des images de documents. / This thesis presents a logo spotting framework applied to spotting logo images on document images and focused on document categorization and document retrieval problems. We also present three key-point matching methods: simple key-point matching with nearest neighbor, matching by 2-nearest neighbor matching rule method and matching by two local descriptors at different matching stages. The last two matching methods are improvements of the first method. In addition, using a density-based clustering method to group the matches in our proposed spotting framework can help not only segment the candidate logo region but also reject the incorrect matches as outliers. Moreover, to maximize the performance and to locate logos, an algorithm with two stages is proposed for geometric verification based on homography with RANSAC. Since key-point-based approaches assume costly approaches, we have also invested to optimize our proposed framework. The problems of text/graphics separation are studied. We propose a method for segmenting text and non-text in document images based on a set of powerful connected component features. We applied dimensionality reduction techniques to reduce the high dimensional vector of local descriptors and approximate nearest neighbor search algorithms to optimize our proposed framework. In addition, we have also conducted experiments for a document retrieval system on the text and non-text segmented documents and ANN algorithm. The results show that the computation time of the system decreases sharply by 56% while its accuracy decreases slightly by nearly 2.5%. Overall, we have proposed an effective and efficient approach for solving the problem of logo spotting in document images. We have designed our approach to be flexible for future improvements by us and by other researchers. We believe that our work could be considered as a step in the direction of solving the problem of complete analysis and understanding of document images.
38

Qualifizierung von FE-Prozessmodellen zur Inbetriebnahme von Karosserieziehwerkzeugen

Penter, Lars 04 August 2016 (has links)
Die Analyse des Standes der Technik zu Simulationsmethoden im Werkzeugentwicklungsprozess zeigt die breiten Bestrebungen ganzheitliche Modelle zur Abbildung der Maschinen- und Werkzeugeigenschaften in der Prozesssimulation zu schaffen um die Werkzeuginbetriebnahme in Zukunft in die virtuelle Welt überführen zu können. Dabei werden die Einflüsse wie die Stößelkippung unter Last, die Durchbiegung der Werkzeugaufspannplatten, die Verformung des Ziehkissens und die elastische Nachgiebigkeit der Werkzeuge separat betrachtet. Es konnte kein Simulationsmodell identifiziert werden, welche alle relevanten Eigenschaften der Werkzeuge und der Maschinen zu einem Gesamtmodell vereint. Zudem fehlten Modellierungsansätze für wesentliche Teilaspekte einer ganzheitlichen Abbildung der Wechselwirkungen von Maschine, Werkzeug und Prozess. Insbesondere ist dabei die systematische Untersuchung zur Abbildung des Pinolentragbildes sowohl örtlich als auch über dem Pressenhub und der versteifende Einfluss der Werkzeugführung zu nennen. Mit der vorliegenden Arbeit konnte ein ganzheitliches FE-Prozessmodell mit den wesentlichen elastischen Eigenschaften der Maschine und der Werkzeuge erstellt werden. Wichtig ist dabei insbesondere die systematische Abbildung relevanter mechanischer Ziehkissenstrukturen als Ersatzmodell und die Integration der tatsächlichen Ziehkissenkraft im Prozessmodell. Bekannte Modellierungsansätze wie z.B. die Abbildung der Kippsteifigkeit des Stößelsystems und die Berücksichtigung der Durchbiegung der Werkzeugaufspannplatten wurden weiterentwickelt und in das Gesamtmodell implementiert. Für jedes Ersatzmodell wurde eine Strategie zur Modellerstellung und zur zweckmäßigen Parametrierung mit dem Ziel eines minimalen Zeit- und Kostenaufwandes vorgeschlagen. Die elastische Modellierung der Werkzeuge wurde mit einer systematischen Vorgehensweise hinterlegt und zeigt bei konsequenter Anwendung signifikant reduzierte Berechnungszeiten. Die Berücksichtigung der Ziehstäbe erfolgt in dieser Arbeit aufgrund der Einschränkungen des verwendeten FE-Solvers als Strukturmodell. Zusätzlich wurde ein Modellierungsansatz vorgestellt, welcher die analytische Berücksichtigung der Ziehstäbe auf elastischen Werkzeugstrukturen ermöglicht. Damit steht jetzt ein Prozessmodell mit den relevanten Maschinen- und Werkzeugeigenschaften zur Verfügung, welches durch eine einfache Parametrierung auf die jeweilige Prozess-Maschinen-Konfiguration angepasst werden kann. Dies ermöglicht eine deutlich genauere Abbildung des Pinolentragbildes, der daraus resultierenden Niederhalterdruckverteilung und damit des Materialeinzuges in die Matrize. Dieses erweiterte Prozessmodell ist damit in der Lage eine virtuelle Inbetriebnahme der Werkzeuge zu unterstützen und in Zukunft eine weitere Verkürzung des Inbetriebnahmeprozesses zu ermöglichen.:I. Inhaltsverzeichnis I II. Formelzeichen und Abkürzungen V II.1. Formelzeichen V II.2. Abkürzungen VI 1 Einführung 2 2 Stand der Technik 4 2.1 Modellierung des Blechwerkstoffes 6 2.1.1 Strukturelle und funktionale Abbildung 6 2.1.2 Ermittlung der Parameterwerte 9 2.2 Reibungsverhältnisse in der Kontaktfuge 10 2.2.1 Strukturelle und funktionale Abbildung 11 2.2.2 Ermittlung der Parameterwerte 11 2.3 Karosserieziehwerkzeuge 12 2.3.1 Prinzip und Bedeutung für den Umformprozess 12 2.3.2 Wechselwirkungen im Gesamtsystem Presse-Werkzeug-Prozess 15 2.3.3 Strukturelle und funktionale Abbildung in der FE-Prozesssimulation 16 2.3.4 Ermittlung der Parameterwerte 18 2.4 Pressen der Blechumformung 18 2.4.1 Prinzip und Bedeutung für den Umformprozess 18 2.4.2 Wechselwirkungen im Gesamtsystem Presse-Werkzeug-Prozess 22 2.4.3 Strukturelle und funktionale Abbildung der Maschine in der Prozesssimulation 26 2.4.4 Ermittlung von Pressenparameter 30 2.5 Werkzeugentwicklung und -inbetriebnahme 33 2.5.1 Werkzeuginbetriebnahme 34 2.5.2 Simulationsmethoden zur Unterstützung der Werkzeugeinarbeitung 35 2.6 Defizite in der FE-Prozesssimulation des Karosserieziehprozesses 36 3 Zielstellung, Abgrenzung und Vorgehensweise 38 4 Modellerweiterung Werkzeug 40 4.1 Simulationsumgebung 40 4.2 Virtuelles Testwerkzeug 40 4.3 Elastische Werkzeugstruktur 43 4.4 Werkzeuganbindung an umliegende Strukturen 48 4.4.1 Matrize und Stempel 48 4.4.2 Niederhalter 48 4.4.3 Abbildung der Ziehstäbe auf elastisch modellierten Werkzeugen 50 4.5 Die Werkzeugführung 54 4.5.1 Analytische Berechnung der Wirkung der Werkzeugführung 54 4.5.2 Messtechnische Berücksichtigung 56 4.5.3 Bewertung der Modellierungsansätze 56 4.6 Zwischenfazit zur Modellerweiterung der Werkzeuge 58 5 Modellerweiterung Maschine 60 5.1 Messung der Stößel- und Tischdurchbiegung 60 5.2 Ersatzmodellierung und Parametrierung 61 5.3 Überlagerung von Stößelkippung und -durchbiegung 64 5.4 Berücksichtigung der Tischdurchbiegung 67 5.5 Modellstrukturen zur Berücksichtigung der ZK-Mechanik 67 5.6 Kippelastischer Modellierungsansatz 70 5.6.1 1-Punktziehkissen mit Führung 70 5.6.2 2- und 4-Punktziehkissen 72 5.6.3 Ziehkissen mit mehr als 4 Druckpunkten 73 5.7 Elastische Abbildung des Druckkastens 74 5.7.1 Strukturmodell des Druckkastens 74 5.7.2 Ersatzmodell des Druckkastens 76 5.8 Modellstrukturen zur Berücksichtigung der Krafterzeugung 78 5.8.1 Ziehkissenkraft als wegabhängige Größe 79 5.8.2 Ziehkissen-Istkraft als Verhaltensmodell 80 5.8.3 Integration eines reduzierten Anlagenmodells 80 5.9 Ableitung einer Standardparametrierung 84 5.10 Zwischenfazit zu Modellerweiterungen Presse 85 6 Anwendung der Modellerweiterungen auf Versuchsumgebung 88 6.1 Versuchsumgebung 88 6.1.1 Versuchsmaschine 88 6.1.2 Blechwerkstoffe 89 6.1.3 Versuchswerkzeug 91 6.1.4 Messwerterfassung 92 6.2 Modellierung des Blechwerkstoffes 95 6.3 Reibungsverhältnis zwischen Blech und Werkzeug 96 6.4 Modellerweiterungen Werkzeug 98 6.4.1 Modellerstellung 98 6.4.2 Einflussanalyse der elastischen Werkzeugeigenschaften 99 6.5 Modellerweiterung Maschine 100 6.5.1 Berücksichtigung der elastischen Eigenschaften des Stößelsystems 100 6.5.2 Berücksichtigung der Ziehkissenmechanik 105 6.5.3 Validierung der erweiterten FE-Prozessmodelle 109 6.6 Modellbewertung anhand Grenzformänderungsdiagramme 112 6.7 Modellierung der Regelabweichungen der Ziehkissenzylinderkräfte 113 6.8 Anwendung der Standardparametrierung 116 7 Anwendungsbeispiele für die Werkzeugentwicklung 118 7.1 Werkzeugkonstruktion am Beispiel der Fertigungstoleranzen 118 7.2 Werkzeuginbetriebnahme 120 7.2.1 Ermittlung der Zylindersollkräfte auf Mehrpunktziehkissen 121 7.2.2 Virtuelles Tuschieren der Werkzeughälften 123 8 Zusammenfassung 126 9 Literatur 128 III. Anhang 136
39

Query By Example Keyword Spotting

Sunde Valfridsson, Jonas January 2021 (has links)
Voice user interfaces have been growing in popularity and with them an interest for open vocabulary keyword spotting. In this thesis we focus on one particular approach to open vocabulary keyword spotting, query by example keyword spotting. Three types of query by example keyword spotting approaches are described and evaluated: sequence distances, speech to phonemes and deep distance learning. Evaluation is done on a series of custom tasks designed to measure a variety of aspects. The Google Speech Commands benchmark is used for evaluation as well, this to make it more comparable to existing works. From the results, the deep distance learning approach seem most promising in most environments except when memory is very constrained; in which sequence distances might be considered. The speech to phonemes methods is lacking in the usability evaluation. / Röstgränssnitt har växt i populäritet och med dem ett intresse för öppenvokabulärnyckelordsigenkänning. I den här uppsatsen fokuserar vi på en specifik form av öppenvokabulärnyckelordsigenkänning, den s.k nyckelordsigenkänning- genom- exempel. Tre typer av nyckelordsigenkänning- genom- exempel metoder beskrivs och utvärderas: sekvensavstånd, tal till fonem samt djupavståndsinlärning. Utvärdering görs på konstruerade uppgifter designade att mäta en mängd olika aspekter hos metoderna. Google Speech Commands data används för utvärderingen också, detta för att göra det mer jämförbart mot existerade arbeten. Från resultaten framgår det att djupavståndsinlärning verkar mest lovande förutom i miljöer där resurser är väldigt begränsade; i dessa kan sekvensavstånd vara av intresse. Tal till fonem metoderna visar brister i användningsuvärderingen.
40

Síťový interface k detektoru klíčových slov / Network Interface for Keyword Spotting System

Skotnica, Martin Unknown Date (has links)
A considerable part of the research in computer science is dedicated to speech recognition as the speech-controlled systems become useful in many applications. One of them is the keyword spotting which makes possible to find words in audio data. Such a detector is developed at BUT Faculty of Information Technology. The goal of this work is to propose a network interface to this keyword detector based on client/server architecture. Client connects to the server and sends audio data. Server runs keyword detector with this received data and sends the result of keyword spotting back to client. Finally client visualizes the result and interact with user.

Page generated in 0.0804 seconds