Spelling suggestions: "subject:"ivectors"" "subject:"biovectors""
1 |
Estudio comparativo de técnicas para robustez de sistemas de verificación de locutor texto independienteFredes Sandoval, Josué Abraham January 2015 (has links)
Ingeniero Civil Electricista / Las técnicas de biometría son métodos automáticos de verificación o reconocimiento de la
identidad de una persona basándose en una característica fisiológica o de comportamiento.
En este marco se encuentra la tarea de verificación de locutor, que es el proceso de verificar
la identidad de una persona basada en su señal de voz.
Un sistema de verificación de locutor usualmente es entrenado bajo ciertas condiciones
de grabación o de canal de comunicación, y utilizar el sistema bajo otras condiciones de canal
puede ser problemático. Debido a esto se han desarrollado diversas técnicas para cancelar
o compensar el efecto del ruido y del canal, y así hacer la tecnología más robusta. En los
últimos años se han propuesto nuevas técnicas basadas en análisis factorial que intentan
modelar el efecto del canal de comunicación sobre la señal de voz.
En este trabajo se analizan en detalle dos sistemas de análisis factorial: Joint Factor
Analysis o JFA, y Total Variability Front-End Factor Analysis más conocido como i-Vectors.
Se implementaron ambos sistemas para ser integrados al conjunto de softwares para ve-
rificación de locutor del Laboratorio de Procesamiento y Transmisión de Voz, LPTV, de la
Universidad de Chile.
Los sistemas implementados se validaron usando un software de referencia que tiene
rendimiento state-of-the-art. Al utilizar las mismas condiciones iniciales de entrenamiento,
los sistemas JFA e i-Vectors desarrollados para el LPTV igualaron el rendimiento del software de referencia, validando así su implementación.
|
2 |
Speaker Recognition Based on Long Temporal Context / Speaker Recognition Based on Long Temporal ContextFér, Radek January 2014 (has links)
Tato práce se zabývá extrakcí vhodných příznaků pro rozpoznávání řečníka z delších časových úseků. Po představení současných technik pro extrakci takových příznaků navrhujeme a popisujeme novou metodu pracující v časovém rozsahu fonémů a využívající známou techniku i-vektorů. Velké úsilí bylo vynaloženo na nalezení vhodné reprezentace temporálních příznaků, díky kterým by mohly být systémy pro rozpoznávání řečníka robustnější, zejména modelování prosodie. Náš přístup nemodeluje explicitně žádné specifické temporální parametry řeči, namísto toho používá kookurenci řečových rámců jako zdroj temporálních příznaků. Tuto techniku testujeme a analyzujeme na řečové databázi NIST SRE 2008. Z výsledků bohužel vyplývá, že pro rozpoznávání řečníka tato technika nepřináší očekávané zlepšení. Tento fakt diskutujeme a analyzujeme ke konci práce.
|
3 |
Una contribució al càlcul de valors i vectors propis i a l'anàlisi de l'escalabilitatRoyo Vallés, Dolors 27 January 1999 (has links)
El càlcul de valors i vectors propis és un nucli computacional que forma part de diverses aplicacions de tipus científic i tècnic que requereixen una potència de càlcul molt gran. Aquestes aplicacions no poden resoldre's en sistemes monoprocessadors perquè aquests sistemes no proporcionen la potència de càlcul suficient per resoldre el problema amb un temps raonable. Una solució possible a aquest problema és la utilització de sistemes paral·lels.El contingut d'aquest treball pot dividir-se en quatre parts ben diferenciades; en les tres primeres parts dels valors i vectors propis en sistemes multicomputadors amb diferents topologies: hipercub, malla i torus; en l'última part del treball es proposa una metodologia d'anàlisis de l'escalabilitat de sistemes paral·lels.- En la primera part del treball es proposen un conjunt d'algorismes paral·lels per hipercubs: BR segmentat, alfa-optimal i Grau-4. Tots aquests algorismes es basen en l'algorisme Block Recursive proposat a [42]. Els nous algorismes proposats tenen la capacitat d'utilitzar de forma més eficient el potencial paral·lelisme de comunicacions que ofereix una arquitectura multiple-port amb els que s'aconsegueix una reducció del cost de la comunicació considerable respecte al cost de comunicació de l'algorisme original.- En la segona part del treball es proposa un nou algorisme amb una topologia de comunicació en malla bidimensional (2D). Aquest algorimse l'hem anomenat algorisme 2D. Es veurà que aquest nou algorisme aconsegueix reduir el cost total considerablement respecte als algorismes que han estat proposats per altres autors per malles i torus.- En la tercera part, s'estudia l'eficiència de l'algorisme BR-segmentat (algorisme amb una topologia de comunicació en hipercub proposat en la primera part de la tesi) un cop mapejat en un multicomputador amb una topologia en malla o en torus. A l'hora de realitzar el mapeig s'ha aplicat i ampliat una metodologia desenvolupada en el grup de treball que ens permet realitzar el mapeig de forma eficient i sistemàtic d'una topologia en hipercub a una topologia en malla o torus. El cost de la comunicació del nou algorisme es compara amb el cost de l'algorisme 2D proposat en la segona part del treball.- Finalment, en l'última part d'aquest treball es proposa una metodologia d'anàlisi de l'escalabilitat de sistemes paral·lels orientada a l'usuari final del sistema. S'utilitza l'algorisme 2D mapejat en una línia per mostrar un exemple d'aplicació de la metodologia.
|
4 |
Analyse de l’environnement sonore pour le maintien à domicile et la reconnaissance d’activités de la vie courante, des personnes âgées / Sound analysis oh the environment for healthcare and recognition of daily life activities for the elderlyRobin, Maxime 17 April 2018 (has links)
L’âge moyen de la population française et européenne augmente, cette constatation apporte de nouveaux enjeux techniques et sociétaux, les personnes âgées étant les personnes les plus fragiles et les plus vulnérables, notamment du point de vue des accidents domestiques et en particulier des chutes. C’est pourquoi de nombreux projets d’aide aux personnes âgées : techniques, universitaires et commerciaux ont vu le jour ces dernières années. Ce travail de thèse a été effectué sous convention Cifre, conjointement entre l’entreprise KRG Corporate et le laboratoire BMBI (Biomécanique et Bio-ingénierie) de l’UTC (Université de technologie de Compiègne). Elle a pour objet de proposer un capteur de reconnaissance de sons et des activités de la vie courante, dans le but d’étoffer et d’améliorer le système de télé-assistance déjà commercialisé par la société. Plusieurs méthodes de reconnaissance de parole ou de reconnaissance du locuteur ont déjà été éprouvées dans le domaine de la reconnaissance de sons, entre autres les techniques : GMM (Modèle de mélange gaussien–Gaussian Mixture Model), SVM-GSL (Machine à vecteurs de support, GMM-super-vecteur à noyau linéaire – Support vector machine GMM Supervector Linear kernel) et HMM (Modèle de Markov caché – Hidden Markov Model). De la même manière, nous nous sommes proposés d’utiliser les i-vecteurs pour la reconnaissance de sons. Les i-vecteurs sont utilisés notamment en reconnaissance de locuteur, et ont révolutionné ce domaine récemment. Puis nous avons élargi notre spectre, et utilisé l’apprentissage profond (Deep Learning) qui donne actuellement de très bon résultats en classification tous domaines confondus. Nous les avons tout d’abord utilisés en renfort des i-vecteurs, puis nous les avons utilisés comme système de classification exclusif. Les méthodes précédemment évoquées ont également été testées en conditions bruités puis réelles. Ces différentes expérimentations nous ont permis d’obtenir des taux de reconnaissance très satisfaisants, les réseaux de neurones en renfort des i-vecteurs et les réseaux de neurones seuls étant les systèmes ayant la meilleure précision, avec une amélioration très significative par rapport aux différents systèmes issus de la reconnaissance de parole et de locuteur. / The average age of the French and European population is increasing; this observation brings new technical and societal challenges. Older people are the most fragile and vulnerable, especially in terms of domestic accidents and specifically falls. This is why many elderly people care projects : technical, academic and commercial have seen the light of day in recent years. This thesis work wasc arried out under Cifre agreement, jointly between the company KRG Corporate and the BMBI laboratory (Biomechanics and Bioengineering) of the UTC (Université of Technologie of Compiègne). Its purpose is to offer a sensor for sound recognition and everyday activities, with the aim of expanding and improving the tele-assistance system already marketed by the company. Several speech recognition or speaker recognition methods have already been proven in the field of sound recognition, including GMM (Modèle de mélange gaussien – Gaussian Mixture Model), SVM-GSL (Machine à vecteurs de support, GMM-super-vecteur à noyau linéaire – Support vector machine GMM Supervector Linear kernel) and HMM (Modèle de Markov caché – Hidden Markov Model). In the same way, we proposed to use i-vectors for sound recognition. I-Vectors are used in particular in speaker recognition, and have revolutionized this field recently. Then we broadened our spectrum, and used Deep Learning, which currently gives very good results in classification across all domains. We first used them to reinforce the i-vectors, then we used them as our exclusive classification system. The methods mentioned above were also tested under noisy and then real conditions. These different experiments gaves us very satisfactory recognition rates, with neural networks as reinforcement for i-vectors and neural networks alone being the most accurate systems, with a very significant improvement compared to the various speech and speaker recognition systems.
|
Page generated in 0.0261 seconds