• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Emotion recognition from speech using prosodic features

Väyrynen, E. (Eero) 29 April 2014 (has links)
Abstract Emotion recognition, a key step of affective computing, is the process of decoding an embedded emotional message from human communication signals, e.g. visual, audio, and/or other physiological cues. It is well-known that speech is the main channel for human communication and thus vital in the signalling of emotion and semantic cues for the correct interpretation of contexts. In the verbal channel, the emotional content is largely conveyed as constant paralinguistic information signals, from which prosody is the most important component. The lack of evaluation of affect and emotional states in human machine interaction is, however, currently limiting the potential behaviour and user experience of technological devices. In this thesis, speech prosody and related acoustic features of speech are used for the recognition of emotion from spoken Finnish. More specifically, methods for emotion recognition from speech relying on long-term global prosodic parameters are developed. An information fusion method is developed for short segment emotion recognition using local prosodic features and vocal source features. A framework for emotional speech data visualisation is presented for prosodic features. Emotion recognition in Finnish comparable to the human reference is demonstrated using a small set of basic emotional categories (neutral, sad, happy, and angry). A recognition rate for Finnish was found comparable with those reported in the western language groups. Increased emotion recognition is shown for short segment emotion recognition using fusion techniques. Visualisation of emotional data congruent with the dimensional models of emotion is demonstrated utilising supervised nonlinear manifold modelling techniques. The low dimensional visualisation of emotion is shown to retain the topological structure of the emotional categories, as well as the emotional intensity of speech samples. The thesis provides pattern recognition methods and technology for the recognition of emotion from speech using long speech samples, as well as short stressed words. The framework for the visualisation and classification of emotional speech data developed here can also be used to represent speech data from other semantic viewpoints by using alternative semantic labellings if available. / Tiivistelmä Emootiontunnistus on affektiivisen laskennan keskeinen osa-alue. Siinä pyritään ihmisen kommunikaatioon sisältyvien emotionaalisten viestien selvittämiseen, esim. visuaalisten, auditiivisten ja/tai fysiologisten vihjeiden avulla. Puhe on ihmisten tärkein tapa kommunikoida ja on siten ensiarvoisen tärkeässä roolissa viestinnän oikean semanttisen ja emotionaalisen tulkinnan kannalta. Emotionaalinen tieto välittyy puheessa paljolti jatkuvana paralingvistisenä viestintänä, jonka tärkein komponentti on prosodia. Tämän affektiivisen ja emotionaalisen tulkinnan vajaavaisuus ihminen-kone – interaktioissa rajoittaa kuitenkin vielä nykyisellään teknologisten laitteiden toimintaa ja niiden käyttökokemusta. Tässä väitöstyössä on käytetty puheen prosodisia ja akustisia piirteitä puhutun suomen emotionaalisen sisällön tunnistamiseksi. Työssä on kehitetty pitkien puhenäytteiden prosodisiin piirteisiin perustuvia emootiontunnistusmenetelmiä. Lyhyiden puheenpätkien emotionaalisen sisällön tunnistamiseksi on taas kehitetty informaatiofuusioon perustuva menetelmä käyttäen prosodian sekä äänilähteen laadullisten piirteiden yhdistelmää. Lisäksi on kehitetty teknologinen viitekehys emotionaalisen puheen visualisoimiseksi prosodisten piirteiden avulla. Tutkimuksessa saavutettiin ihmisten tunnistuskykyyn verrattava automaattisen emootiontunnistuksen taso käytettäessä suppeaa perusemootioiden joukkoa (neutraali, surullinen, iloinen ja vihainen). Emootiontunnistuksen suorituskyky puhutulle suomelle havaittiin olevan verrannollinen länsieurooppalaisten kielten kanssa. Lyhyiden puheenpätkien emotionaalisen sisällön tunnistamisessa saavutettiin taas parempi suorituskyky käytettäessä fuusiomenetelmää. Emotionaalisen puheen visualisoimiseksi kehitetyllä opetettavalla epälineaarisella manifoldimallinnustekniikalla pystyttiin tuottamaan aineistolle emootion dimensionaalisen mallin kaltainen visuaalinen rakenne. Mataladimensionaalisen kuvauksen voitiin edelleen osoittaa säilyttävän sekä tutkimusaineiston emotionaalisten luokkien että emotionaalisen intensiteetin topologisia rakenteita. Tässä väitöksessä kehitettiin hahmontunnistusmenetelmiin perustuvaa teknologiaa emotionaalisen puheen tunnistamiseksi käytettäessä sekä pitkiä että lyhyitä puhenäytteitä. Emotionaalisen aineiston visualisointiin ja luokitteluun kehitettyä teknologista kehysmenetelmää käyttäen voidaan myös esittää puheaineistoa muidenkin semanttisten rakenteiden mukaisesti.
2

The Realisation of Prominence in Three Varieties of Standard Spoken Finnish

Ylitalo, R. (Riikka) 26 May 2009 (has links)
Abstract The central goal of this study was to study how contrastive accent is realised phonetically in three regional varieties of Standard Spoken Finnish. Speakers from the Oulu, Turku and Tampere regions produced unaccented and contrastively accented versions of the target words. Fundamental frequencies and segment durations were measured in all the target words, and in the contrastively accented versions also the temporal distance of the F0 peak from word onset. In the unaccented words, F0 fluctuations were very small, indicating once more that in Finnish, too, mere word stress is not realised tonally. In the words with CV.CV(X) structure, the lengthening of segment durations due to stress was restricted to the initial syllable in Tampere, whereas in Oulu and Turku the lengthening extended to the second syllable. The width of the fall-rise F0 pattern realising contrastive accent was in all word structures widest in the Oulu variety, and the narrowest in the Tampere variety. In the Turku variety CV.CV(X) words, the F0 peak occurred further away from word onset than in any other words investigated. The differences in segment durations among the varieties were similar in the unaccented words and in the contrastively accented ones, with one exception: the duration of V1 in the unaccented CV.CV(X) words was the same across the varieties, but in the contrastively accented CV.CV(X) words the duration of V1 was shorter in the Turku variety than in the other varieties. The durational ratio of V1 and V2 in the Turku variety – as in the Oulu variety – was different from the durational ratio in the Tampere variety: in Turku and Oulu V2 had a longer duration than V1, whereas in Tampere V1 had a longer duration than V2. This confirms earlier observations that Turku and Oulu belong to regions in which the V2 of CV.CV(X) words is half-long (longer than V1), but Tampere does not. However, the present study shows that the relative half-long duration of the V2 of CV.CV(X) words is achieved differently in Turku and Oulu: in Turku through the short duration of V1, but in Oulu through the long duration of V2. / Tiivistelmä Tämän tutkimuksen keskeisin tavoite oli selvittää, miten kontrastiivinen aksentti toteutuu foneettisesti kolmelta eri suomen murrealueelta kotoisin olevien yleiskielisessä puheessa. Oulun, Turun ja Tampereen seuduilta kotoisin olevat koehenkilöt tuottivat tutkimuksen jokaisesta kohdesanasta sekä aksentoimattoman että kontrastiivisesti aksentoidun esiintymän. Tuotetuista kohdesanoista mitattiin perustaajuuksia, äännesegmenttien kestot sekä kontrastiivisesti aksentoituiduista sanoista F0:n huipun etäisyys sanan alusta. Aksentoimattomissa sanoissa F0:n muutokset olivat kaikissa tutkituissa suomen varieteeteissa erittäin vähäisiä, mikä taas kerran todisti, ettei suomessakaan pelkkä sanapaino toteudu tonaalisesti. Sanapainon toteutumisessa kestojen avulla oli varieteettien välisiä eroja CV.CV(X)-rakenteisissa sanoissa: Tampereen varieteetissa sanapainon toteutumisala rajoittui ensimmäiseen tavuun, mutta Turun ja Oulun varieteeteissa se ulottui myös toiseen tavuun. Kontrastiivista aksenttia toteuttavan F0:n nousu–lasku-kuvion laajuus oli kaiken rakenteisissa kohdesanoissa suurin Oulun varieteetissa, pienempi Turun varieteetissa ja kaikkein pienin Tampereen varieteetissa. Muutoin kontrastiivisen aksentin toteutumisessa F0:n avulla oli huomattavia varieteettien välisiä eroja vain CV.CV(X)-rakenteisissa sanoissa: Turun varieteetin CV.CV(X)-sanoissa F0:n huippukohta sijaitsi kauempana sanan alusta kuin kaikissa muissa tutkituissa sanoissa, eli kauempana kuin muun rakenteisissa Turun varieteetin sanoissa ja kaiken rakenteisissa Oulun ja Tampereen varieteettien sanoissa. Varieteettien väliset segmenttien kestoerot olivat samat aksentoimattomissa ja kontrastiivisesti aksentoiduissa sanoissa, lukuun ottamatta sitä, että CV.CV(X)-rakenteisten sanojen V1:n kestossa ei aksentoimattomissa sanoissa ollut varieteettien välisiä eroja, mutta kontrastiivisesti aksentoiduissa sanoissa kyseisen segmentin kesto oli lyhempi Turun varieteetissa kuin muissa varieteeteissa. Tällä tavoin Turun varieteetin kontrastiivisesti aksentoiduissa CV.CV(X)-sanoissa toteutui V1:n ja V2:n kestosuhde, joka – samoin kuin Oulun varieteetin vastaava kestosuhde – poikkeaa Tampereen varieteetin vastaavasta kestosuhteesta: Turussa ja Oulussa V2 on V1:tä pitempikestoinen, Tampereella päinvastoin V1:n kesto on V2:n kestoa suurempi. Tämä vahvistaa ne aiempien tutkimusten tulokset, että Turku ja Oulu ovat ns. puolipidennysmurteiden aluetta, mutta Tampere ei. Kuitenkin tämä tutkimus osoitti, että kontrastiivisesti aksentoitujen sanojen puolipidennys saadaan Turun varieteetissa aikaan pikemminkin lyhytkestoisen V1:n kuin pitkäkestoisen V2:n avulla, kun taas Oulun varieteetissa puolipidennys syntyy nimenomaan pitkäkestoisen V2:n avulla. Kaiken kaikkiaan suurin osa tutkimuksessa todetuista varieteettien välisistä selvistä perustaajuus- ja kestoeroista koski CV.CV(X)-rakenteisia sanoja, jotka ovatkin erikoinen suomen sanatyyppi yksimoraisen ensi tavunsa vuoksi.

Page generated in 0.0365 seconds