1 |
Speech perception and auditory performance in hearing-impaired adults with a multichannel cochlear implantVälimaa, T. (Taina) 27 September 2002 (has links)
Abstract
This work was aimed at studying speech perception and auditory
performance in the everyday lives of Finnish-speaking postlingually
severely or profoundly hearing-impaired adults before and after receiving
a multichannel cochlear implant. The association between the formal speech
perception results and auditory performance in everyday life was also
determined, and an effort was made to define how well a smaller sample
represents the nationwide results.
The patient series comprised a nationwide retrospective survey
(N = 67), in which data on hearing level and word recognition were requested
from the hospitals, and a prospective sample from the city of Oulu (N = 20),
in whom hearing level, sentence, word and phoneme recognition and phoneme
confusions were examined using standardised audiometric measures and
formal speech perception tests in a study with a prospective repeated
measure design. Categories of auditory performance in everyday life were
assessed in both samples.
The median sound field hearing level at frequencies of 0.5, 1, 2 and
4 kHz for the subjects in the nationwide survey one year after
the switch-on of the implant was comparable to the level of mild hearing
impairment. All the subjects achieved at least some open-set word recognition auditorily
only (mean 71%, 95% CI 61-81%). The results in the Oulu sample were in
line with the nationwide survey. A majority of the subjects (31/40) was
able to understand conversation without speechreading one year after
switch-on.
Sentence recognition by the subjects in the Oulu sample improved
most during the initial six months after the switch-on of the implant,
whereas word and phoneme recognition improved steadily during the two-year
follow-up period. Estimated average sentence recognition after two years
was 89% (95% CI 71 to 106%), word recognition 73% (95% CI 58 to 87%),
syllable recognition 53% (95% CI 42 to 63%), vowel recognition 80% (95% CI
68 to 92%) and consonant recognition 67% (95% CI 57 to 76%). Confusion of
phonemes took place more in the direction a spectral energy distribution
at higher frequencies. The association between auditory performance in
everyday life and the formal speech perception tests was high
(rs > 0.81, p < 0.0001).
Systematic prospective assessment of speech perception with tests of
differing difficulty is recommended for the follow-up of adult cochlear
implant users. / Tiivistelmä
Tämän työn tarkoituksena oli tutkia suomenkielisten,
kielen oppimisen jälkeen vaikean tai erittäin vaikean kuulovian
saaneiden aikuisten kuulon tasoa, puheen vastaanottoa ja kuulon
toiminnallista tasoa monikanavaisen sisäkorvaistutteen avulla.
Tutkimuksessa selvitettiin myös, miten puheen vastaanottoa mittaavat
testit kuvaavat selviytymistä arkipäivän
elämässä sisäkorvaistutteen mahdollistaman kuulon
avulla. Tarkoituksena oli myös määrittää,
millä tavalla pieni otos edustaa kansallisia tuloksia.
Tutkimuksessa on retrospektiivinen kansallinen otos (N=67) ja
prospektiivinen Oulun otos (N=20). Kansallisessa otoksessa tiedot kuulon
tasosta ja sanojen tunnistuskyvystä kerättiin
yliopistosairaaloista koehenkilöiden sairauskertomuksista. Oulun
otoksessa kuulon tasoa, sekä lauseiden, sanojen ja
äänteiden tunnistuskykyä ja äänteiden
sekoittuvuuksia tutkittiin audiometrian ja puheenvastaanottoa mittaavien
testien avulla kahden vuoden seurannan aikana. Kuulon toiminnallista tasoa
arvioitiin kuulon toiminnallisen tason luokituksella molemmissa
otoksissa.
Kansallisen otoksen koehenkilöiden kuulokynnysten mediaani
äänikentässä sisäkorvaistutteella taajuuksilla
0,5, 1, 2 ja 4 kHz oli verrattavissa lievän kuulovian tasoon vuosi
sisäkorvaistutteen käyttöönoton jälkeen. Kaikki
koehenkilöt kykenivät tunnistamaan vähintään
joitain sanoja pelkästään kuulonvaraisesti (keskiarvo 71 %,
95 %:n luottamusväli 61-81 %). Oulun otoksen ja kansallisen otoksen
tulokset olivat yhteneväiset. Vuosi sisäkorvaistutteen
käyttöönoton jälkeen suurin osa (31/40)
koehenkilöistä pystyi keskustelemaan ilman huulioluvun tukea
hiljaisessa ympäristössä.
Oulun otoksen koehenkilöiden lauseiden tunnistuskyky parani
eniten ensimmäisten kuuden kuukauden aikana. Sanojen ja
äänteiden tunnistuskyky parani koko kahden vuoden seurannan
ajan. Kaksi vuotta sisäkorvaistutteen käyttöönoton
jälkeen, estimoitu keskimääräinen lauseiden
tunnistusprosentti oli 89 % (95 %:n luottamusväli 71-106 %), sanojen
tunnistusprosentti oli 73 % (95 %:n luottamusväli 58-87 %), tavujen
tunnistusprosentti oli 53 % (95 %:n luottamusväli 42-63 %), vokaalien
tunnistusprosentti oli 80 % (95 %:n luottamusväli 68-92 %) ja
konsonanttien tunnistusprosentti oli 67 % (95 %:n luottamusväli 57-76
%). Koehenkilöt sekoittivat vokaaleja ja konsonantteja useimmiten
spektraaliselta energialtaan läheisimpään suuremmille
taajuuksille sijoittuvaan äänteeseen. Kuulon toiminnallisen
tason luokituksen ja puheen vastaanottoa mittaavien testien välinen
korrelaatio oli korkea (rs
> 0.81, p < 0.0001).
Sisäkorvaistutteen saavien aikuisten kuulon tason ja puheen
vastaanottokyvyn systemaattinen seuranta vaikeudeltaan eritasoisten
testien avulla on tärkeää monipuolisen kuntoutuksen
suunnittelun tueksi.
|
2 |
Learning discriminative models from structured multi-sensor data for human context recognitionSuutala, J. (Jaakko) 17 June 2012 (has links)
Abstract
In this work, statistical machine learning and pattern recognition methods were developed and applied to sensor-based human context recognition. More precisely, we concentrated on an effective discriminative learning framework, where input-output mapping is learned directly from a labeled dataset. Non-parametric discriminative classification and regression models based on kernel methods were applied. They include support vector machines (SVM) and Gaussian processes (GP), which play a central role in modern statistical machine learning. Based on these established models, we propose various extensions for handling structured data that usually arise from real-life applications, for example, in a field of context-aware computing.
We applied both SVM and GP techniques to handle data with multiple classes in a structured multi-sensor domain. Moreover, a framework for combining data from several sources in this setting was developed using multiple classifiers and fusion rules, where kernel methods are used as base classifiers. We developed two novel methods for handling sequential input and output data. For sequential time-series data, a novel kernel based on graphical presentation, called a weighted walk-based graph kernel (WWGK), is introduced. For sequential output labels, discriminative temporal smoothing (DTS) is proposed. Again, the proposed algorithms are modular, so different kernel classifiers can be used as base models. Finally, we propose a group of techniques based on Gaussian process regression (GPR) and particle filtering (PF) to learn to track multiple targets.
We applied the proposed methodology to three different human-motion-based context recognition applications: person identification, person tracking, and activity recognition, where floor (pressure-sensitive and binary switch) and wearable acceleration sensors are used to measure human motion and gait during walking and other activities. Furthermore, we extracted a useful set of specific high-level features from raw sensor measurements based on time, frequency, and spatial domains for each application. As a result, we developed practical extensions to kernel-based discriminative learning to handle many kinds of structured data applied to human context recognition. / Tiivistelmä
Tässä työssä kehitettiin ja sovellettiin tilastollisen koneoppimisen ja hahmontunnistuksen menetelmiä anturipohjaiseen ihmiseen liittyvän tilannetiedon tunnistamiseen. Esitetyt menetelmät kuuluvat erottelevan oppimisen viitekehykseen, jossa ennustemalli sisääntulomuuttujien ja vastemuuttujan välille voidaan oppia suoraan tunnetuilla vastemuuttujilla nimetystä aineistosta. Parametrittomien erottelevien mallien oppimiseen käytettiin ydinmenetelmiä kuten tukivektorikoneita (SVM) ja Gaussin prosesseja (GP), joita voidaan pitää yhtenä modernin tilastollisen koneoppimisen tärkeimmistä menetelmistä. Työssä kehitettiin näihin menetelmiin liittyviä laajennuksia, joiden avulla rakenteellista aineistoa voidaan mallittaa paremmin reaalimaailman sovelluksissa, esimerkiksi tilannetietoisen laskennan sovellusalueella.
Tutkimuksessa sovellettiin SVM- ja GP-menetelmiä moniluokkaisiin luokitteluongelmiin rakenteellisen monianturitiedon mallituksessa. Useiden tietolähteiden käsittelyyn esitetään menettely, joka yhdistää useat opetetut luokittelijat päätöstason säännöillä lopulliseksi malliksi. Tämän lisäksi aikasarjatiedon käsittelyyn kehitettiin uusi graafiesitykseen perustuva ydinfunktio sekä menettely sekventiaalisten luokkavastemuuttujien käsittelyyn. Nämä voidaan liittää modulaarisesti ydinmenetelmiin perustuviin erotteleviin luokittelijoihin. Lopuksi esitetään tekniikoita usean liikkuvan kohteen seuraamiseen. Menetelmät perustuvat anturitiedosta oppivaan GP-regressiomalliin ja partikkelisuodattimeen.
Työssä esitettyjä menetelmiä sovellettiin kolmessa ihmisen liikkeisiin liittyvässä tilannetiedon tunnistussovelluksessa: henkilön biometrinen tunnistaminen, henkilöiden seuraaminen sekä aktiviteettien tunnistaminen. Näissä sovelluksissa henkilön asentoa, liikkeitä ja astuntaa kävelyn ja muiden aktiviteettien aikana mitattiin kahdella erilaisella paineherkällä lattia-anturilla sekä puettavilla kiihtyvyysantureilla. Tunnistusmenetelmien laajennuksien lisäksi jokaisessa sovelluksessa kehitettiin menetelmiä signaalin segmentointiin ja kuvaavien piirteiden irroittamiseen matalantason anturitiedosta. Tutkimuksen tuloksena saatiin parannuksia erottelevien mallien oppimiseen rakenteellisesta anturitiedosta sekä erityisesti uusia menettelyjä tilannetiedon tunnistamiseen.
|
3 |
Embedded computer vision methods for human activity recognitionMatilainen, M. (Matti) 29 August 2017 (has links)
Abstract
The way how people interact with machines will change in the future. Long have been the traditional ways – mouse and keyboard – the primary interface between man and computer. Recently, the voice and gesture controlled interfaces have been introduced in many devices but they have not yet become very popular.
One possible direction where human-computer interfaces can go is to be able to completely hide the interface from the user and allow him or her to interact with the machines in a way that is more natural to human. This thesis introduces a smart living space concept that is a small step towards that direction. The interfacing is assumed to be done unnoticeably to the user via a wireless sensor network that is monitoring the user and analysing his or her behaviour and also using a hand held mobile device which can be used to control the system.
A system for human body part segmentation is presented. The system is applied in various applications related to person identification from one’s gait and unusual activity detection. The system is designed to work robustly when the data streams provided by the sensor network are noisy. This increases the usefulness of the system in home environments where the person using the interface is either occluded by the static objects in the room or is interacting with any movable objects.
The second part of the proposed smart living space concept is the mobile device carried by the user. Two methods that can be used in a hand gesture-based UI are proposed. A database for training such methods is proposed. / Tiivistelmä
Tapa jolla ihmiset käyttävät tietokonetta on muuttumassa. Hiiri ja näppäimistö ovat olleet jo pitkään yleisimmät tavat, joilla tietokoneita on ohjattu. Uusia tapoja ohjata tietokonetta on kehitetty, mutta ne eivät ole vielä syrjäyttäneet perinteisiä menetelmiä täysin.
Yksi todennäköinen muutos tulevaisuudessa on se, että käyttöliittymät sulautetaan ympäristöön ja sen myötä tehdään käyttökokemuksesta luonnollisempi ihmiselle. Tässä väitöskirjassa esitellään järjestelmä, joka muuttaa ihmisen elinympäristön älykkääksi. Langaton kameraverkko analysoi automaattisesti huoneen tapahtumia ja käyttäjä kontrolloi järjestelmää eleohjatulla mobiililaitteella.
Väitöskirjassa esitellään menetelmä ihmisen ruumiinosien tunnistukseen, jota sovelletaan myös ihmisen tunnistukseen kävelytyylistä ja epänormaalien aktiviteettien tunnistukseen. Menetelmää suunnitellessa on painotettu sitä, että se toimisi myös silloin, kun käytettävissä on vain huonolaatuista ja kohinaista videodataa. Kohinaa aiheuttaa kotiympäristöissä erityisesti huonekalut, jotka osittain peittävät näkymää ja tavarat, joita huoneessa oleskeleva ihminen saattaa siirrellä.
Toinen osa väitöskirjaa käsittelee mobiililaitteen ohjausta käsielein ja esittelee kaksi menetelmää, joilla tällainen käyttöliittymä on mahdollista toteuttaa. Toisen menetelmän opetuksessa käytetty käsitietokanta ja tietokannan vertailutulokset julkaistaan.
|
4 |
Human motion detection and gesture recognition using computer vision methodsLiu, X. (Xin) 21 February 2019 (has links)
Abstract
Gestures are present in most daily human activities and automatic gestures analysis is a significant topic with the goal of enabling the interaction between humans and computers as natural as the communication between humans. From a computer vision perspective, a gesture analysis system is typically composed of two stages, the low-level stage for human motion detection and the high-level stage for understanding human gestures. Therefore, this thesis contributes to the research on gesture analysis from two aspects, 1) Detection: human motion segmentation from video sequences, and 2) Understanding: gesture cues extraction and recognition.
In the first part of this thesis, two sparse signal recovery based human motion detection methods are presented. In real videos the foreground (human motions) pixels are often not randomly distributed but have the group properties in both spatial and temporal domains. Based on this observation, a spatio-temporal group sparsity recovery model is proposed, which explicitly consider the foreground pixels' group clustering priors of spatial coherence and temporal contiguity. Moreover, a pixel should be considered as a multi-channel signal. Namely, if a pixel is equal to the adjacent ones that means all the three RGB coefficients should be equal. Motivated by this observation, a multi-channel fused Lasso regularizer is developed to explore the smoothness of multi-channels signals.
In the second part of this thesis, two human gesture recognition methods are presented to resolve the issue of temporal dynamics, which is crucial to the interpretation of the observed gestures. In the first study, a gesture skeletal sequence is characterized by a trajectory on a Riemannian manifold. Then, a time-warping invariant metric on the Riemannian manifold is proposed. Furthermore, a sparse coding for skeletal trajectories is presented by explicitly considering the labelling information, with the aim to enforcing the discriminant validity of the dictionary. In the second work, based on the observation that a gesture is a time series with distinctly defined phases, a low-rank matrix decomposition model is proposed to build temporal compositions of gestures. In this way, a more appropriate alignment of hidden states for a hidden Markov model can be achieved. / Tiivistelmä
Eleet ovat läsnä useimmissa päivittäisissä ihmisen toiminnoissa. Automaattista eleiden analyysia tarvitaan laitteiden ja ihmisten välisestä vuorovaikutuksesta parantamiseksi ja tavoitteena on yhtä luonnollinen vuorovaikutus kuin ihmisten välinen vuorovaikutus. Konenäön näkökulmasta eleiden analyysijärjestelmä koostuu ihmisen liikkeiden havainnoinnista ja eleiden tunnistamisesta. Tämä väitöskirjatyö edistää eleanalyysin-tutkimusta erityisesti kahdesta näkökulmasta: 1) Havainnointi - ihmisen liikkeiden segmentointi videosekvenssistä. 2) Ymmärtäminen - elemarkkerien erottaminen ja tunnistaminen.
Väitöskirjan ensimmäinen osa esittelee kaksi liikkeen havainnointi menetelmää, jotka perustuvat harvan signaalin rekonstruktioon. Videokuvan etualan (ihmisen liikkeet) pikselit eivät yleensä ole satunnaisesti jakautuneita vaan niillä toisistaan riippuvia ominaisuuksia spatiaali- ja aikatasolla tarkasteltuna. Tähän havaintoon perustuen esitellään spatiaalis-ajallinen harva rekonstruktiomalli, joka käsittää etualan pikseleiden klusteroinnin spatiaalisen koherenssin ja ajallisen jatkuvuuden perusteella. Lisäksi tehdään oletus, että pikseli on monikanavainen signaali (RGB-väriarvot). Pikselin ollessa samankaltainen vieruspikseliensä kanssa myös niiden värikanava-arvot ovat samankaltaisia. Havaintoon nojautuen kehitettiin kanavat yhdistävä lasso-regularisointi, joka mahdollistaa monikanavaisen signaalin tasaisuuden tutkimisen.
Väitöskirjan toisessa osassa esitellään kaksi menetelmää ihmisen eleiden tunnistamiseksi. Menetelmiä voidaan käyttää eleiden ajallisen dynamiikan ongelmien (eleiden nopeuden vaihtelu) ratkaisemiseksi, mikä on ensiarvoisen tärkeää havainnoitujen eleiden oikein tulkitsemiseksi. Ensimmäisessä menetelmässä ele kuvataan luurankomallin liikeratana Riemannin monistossa (Riemannian manifold), joka hyödyntää aikavääristymille sietoista metriikkaa. Lisäksi esitellään harvakoodaus (sparse coding) luurankomallien liikeradoille. Harvakoodaus perustuu nimiöintitietoon, jonka tavoitteena on varmistua koodisanaston keskinäisestä riippumattomuudesta. Toisen menetelmän lähtökohtana on havainto, että ele on ajallinen sarja selkeästi määriteltäviä vaiheita. Vaiheiden yhdistämiseen ehdotetaan matala-asteista matriisihajotelmamallia, jotta piilotilat voidaan sovittaa paremmin Markovin piilomalliin (Hidden Markov Model).
|
Page generated in 0.0531 seconds