• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 24
  • 11
  • Tagged with
  • 35
  • 24
  • 23
  • 14
  • 14
  • 13
  • 10
  • 9
  • 9
  • 8
  • 7
  • 7
  • 7
  • 6
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.


Al Attar, Haidar, Melle, Ghada January 2009 (has links)
People with disabilities constitute a big group of Internet users. Due to great advances in adaptive technology for people with disabilities more and more disabled will have access to Internet. For that reason it is extremely important for a web developer to be aware of different disabilities that complicate or prevent using Internet, different adaptive technologies that facilitate using Internet and different methods, both in design and programming, that make Internet accessible for people with disabilities. In this report we have dealt with three problems: • Which types of disabilities that complicate or prevent using Internet? • Which types of adaptive technologies are available concerning using Internet? • How can a web developer or programmer increase the accessibility to Internet for people with disabilities?To investigate how disabled people use adaptive technologies and which difficulties they experience when using Internet we have interviewed people with various types of disabilities.

EasyReport App : Vad rapportskrivning med tal till text kan ha för påverkan på kommunikationen och arbetet hos vaktmästare / EasyReport App : What affect report creation with speech to text can have on the communication and work flow among janitors

von Uthmann, Andreas, Ljungcrantz, Sofie January 2022 (has links)
Denna artikel har som syfte att studera vilken effekt röstigenkänning kan ha på dokumentationen och samarbetet mellan vaktmästare i EOS-Hallen i Lund. Studien är uppbyggd på forskningsmetoden design och creation. En applikation byggdes för vaktmästarna med hjälp av Microsofts röstigenkänningstjänst. För att samla in data från vaktmästarna genomfördes observationer och intervjuer. Observationerna utfördes på 4 vaktmästare under 2 timmar av deras normala arbetsdagar. Från observationerna och intervjuerna som genomfördes efter observationerna visade det sig att röstigenkänning välkomnades av vaktmästarna. De upplevde att samarbetet mellan kollegorna förbättrades och dokumentationen blev effektivare, mer frekvent och mer detaljerad. / This article has the objective to study the effect voice recognition can have on the documentation and team work for janitors in EOS-Hallen in Lund. The study is built up on design and creation. An application was built for the janitors with the help of Microsoft’s voice recognition service. To gather data from the janitors, observations and interviews were conducted. The observations were conducted on 4 janitors for 2 hours during their normal work days. From the observations and the interviews conducted after the observations showed that voice recognition was welcomed by the janitors. They felt that the team work between the colleagues improved and the documentation became faster, more frequent and more detailed.

En utvärdering av tjänster för taligenkänning och textsammanfattning och möjligheter att skapa undertexter i filmer. / An evaluation of services for speech recognition and text summarizationand the ability to create subtitles in movies.

Kjerrström, Linus, Pham Huy, Hoang January 2022 (has links)
Att skapa undertexter till filmer är idag ett hantverk som är en tidskrävande process. Företaget Firstlight Media textar cirka 200 filmer per vecka helt manuellt och var av en film tar cirka 4–6 timmar att färdigställa. Skulle man kunna automatisera delar av processen för att undertexta filmer finns det möjlighet att spara resurser. Arbetet gick ut på att utvärdera om det är möjligt att automatisera vissa delar i processen för att undertexta filmer. För att undersöka detta gjordes en litteraturstudie på tidigare arbeten som gjorts inom områdena för automatisk taligenkänning och textsammanfattning. Efter studien testades ett antal tjänster för både taligenkänning och textsammanfattning på tre olika filmer för att utvärdera ifall tjänsterna anses lämpliga att använda vid undertextning av filmer. Testandet av tjänsterna ledde till en analys av resultaten som visade att textsammanfattning ej var lämpligt dock var taligenkänning till viss del användbart för att automatisera transkribering av det talade språket i filmerna. / Creating subtitles for movies is today a handcraft that is a time-consuming process. The company Firstlight Media creates subtitles for around 200 movies per week manuelly where each movie usually takes around 4 – 6 hours to finish. If steps in the subtitling process could be automated, then there is the possibilty of saving resources.  The work consisted of evaluating whether it is possible to automate parts of the process for subtitling movies. To analyze this, a literature study was done on previous work done in the areas of automatic speech recognition and text summary. After the study, a few services for both speech recognition and text summarizers were tested on three different movies to evaluate whether the services are considered suitable to use while subtitling movies. The testing of the services led to an analysis of the results which showed that text summarizer was not suitable, however, speech recognition was to some extent useful for automating the transcription of the spoken language in the movies.

Remote User Testing of Dictation Tools : A study investigating which factors impact the user experience of a dictation tool / Användartestning av dikteringsverktyg på distans : En undersökning av vilka faktorer som påverkar användarupplevelsen av ett dikteringsverktyg

Helmisaari, My January 2021 (has links)
Lately, Automatic Speech Recognition (ASR) has improved in both performance and popularity and today the technology can be found in many different products, often in the form of a Voice User Interface (VUI). There are numerous factors to consider when developing a system using this technology. It is essential to comprehend both the user’s experience of using the product and the performance of the ASR. In terms of the user experience, only the user can tell you what is important, which is why user testing is a necessary part of further development. In this study, a test was designed to perform a comprehensive remote user test of the dictation feature Notebook Voice Control in the product BIOVIA Notebook. The aim of the user test was to understand what factors affect the performance of the feature, and when a user is satisfied. To carry out the tests a web-application was designed, created, and deployed. The web-application was integrated with the API of the product being tested and guided the participants through the tests as well as captured the test data. From the test results, it was clear that accurate recognition was highly important in terms of user satisfaction. In order to produce an accurate dictation, dictating in your native language seemed to be a success factor as well as having dictation experience. If you lack dictation experience, training appears to help. The errors that were the most remarkable in the tests and would need immediate attention were errors in the categories of numbers, abbreviations, units, and field-specific words. The issue of the time spent correcting errors was raised, and for some, this was what made them argue that the tool was currently not useful. The majority were positive towards the tool but wanted it to be a bit better, or perhaps they just have to practice using it a bit more. / På senaste tiden har taligenkänning ökat i både träffsäkerhet samt popularitet. Idag är tekniken implementerad i en rad olika produkter, ofta i form av ett röstanvändargränssnitt. Under utvecklingen av ett system som använder denna sorts teknik finns det ett antal faktorer att tänka på. Det är väsentligt att förstå både användarens upplevelse samt hur bra taligenkänningen är. Beträffande användarupplevelsen är det endast användaren som kan berätta vad som är viktigt, vilket är varför användartester är en nödvändig del av vidareutvecklingen. I denna studie designades ett användartest för att utföra en fullständigt utvärdering av dikteringsverktyget Notebook Voice Control som nyligen implementerats i produkten BIOVIA Notebook. Målet med testerna var att förstå vilka faktorer som påverkar träffsäkerheten av taligenkänningen samt när användaren är nöjd med verktyget. För att genomföra testerna skapades en webb-baserad applikation där testerna utfördes. Applikationen var integrerad i den testade produkten via dess API och applikationens uppgift vara att leda deltagarna genom testerna samt fånga testdata. Från resultatet av testerna var det påtagligt att en träffsäker taligenkänning var mycket betydelsefull för att användarna skulle vara nöjda. För att få en så korrekt transkribering av dikteringen som möjligt fanns det två tydliga faktorer som påverkade mest: att vara en erfaren dikterare samt att diktera på sitt modersmål. Om du inte är en erfaren dikterare verkar övning hjälpa med att förbättra dina dikteringsresultat. Av de felaktigheter som uppstod under dikteringarna, var de väsentliga numeriska värden, förkortningar, enheter samt ämnesspecifika ord enligt deltagarna. Dessa felaktigheter var sådana som deltagarna tyckte var tvungna att rättas till på en gång. Tiden som läggs på att rätta fel togs också upp som ett problem, på grund av detta tyckte ett antal deltagare att dikteringsverktyget inte var användbart i nuläget. Majoriteten var dock positiva till verktyget men ville att det skulle vara lite bättre för att använda det, eller så behövde de kanske öva lite mer.

Googles röstgränssnitts lämplighet för användning i en röstbaserad medicinteknisk tjänst / The Suitability of Google Speech API for Use in a Voice-Based Medical Device Service

Eivinsson, Tova, Saleh, Mariam January 2022 (has links)
I detta projekt har Googles röstgränssnitt (eng: Google Cloud Speech API) utvärderats utifrån syftet att skapa ett program som ska identifiera en person baserat på dess röst. Detta projekt gjordes tillsammans med ett företager Call Knut vars mål är att utforma en tjänst som bygger på AI teknik som ska ringa upp till äldre. Eftersom tjänsten riktar sig mot äldre vill företaget Call Knut ha ett program som kan identifiera de äldre baserat på rösten.  Ett program skapades med hjälp av Googles röstgränssnitt för att transkribera och urskilja två röster i en ljudfil. Därefter samlades det in ljudfiler från olika personer i ett brett åldersspann och ljudfilerna kombinerades. De kombinerade ljudfilerna analyserades sedan för att kunna verifiera om Googles röstgränssnitt är optimalt för ändamålet. I 29,2 % av de kombinerade ljudfilerna lyckades Googles röstgränssnitt med att både urskilja och transkribera. Totalt misslyckades Googles röstgränssnitt med 70,8 % av inmatningarna.  Vår slutsats blev att Googles röstgränssnitt inte är lämpligt att använda för att utveckla Call Knuts planerade tjänst där rösturskiljningen måste fungera med hög precision. Vidare utvecklingsarbete rekommenderas att fokusera på att testa andra program eller röstgränssnitt. / In this project, the Google Speech API has been evaluated based on the purpose of creating a program that will identify a person based on their voice. This project is done together with a company called Call Knut whose goal is to design a service based on AI technology that will call the elderly. Since the service is aimed at the elderly, Call Knut wants a program that can identify the elderly based on their voice.  An application was created using the Google Speech API to transcribe and distinguish two voices in an audio file. Then audio files were collected from different people in a wide age range and audio files were combined. The combined audio files were then analyzed to verify whether the Google Cloud interface is optimal for the purpose. In 29.2 % of the combined audio files Google Speech API managed to both distinguish two voices and transcribe what they said. In total, Google Speech API failed with 70.8 % of the entries.  Our conclusion was that Google's voice interface is not suitable to use to develop Call Knut’s planned service where voice recognition must work with high precision. Further development work is recommended to focus on testing other programs or voice interfaces.

Domain Adaptation with N-gram Language Models for Swedish Automatic Speech Recognition : Using text data augmentation to create domain-specific n-gram models for a Swedish open-source wav2vec 2.0 model / Domänanpassning Med N-gram Språkmodeller för Svensk Taligenkänning : Datautökning av text för att skapa domänspecifika n-gram språkmodeller för en öppen svensk wav2vec 2.0 modell

Enzell, Viktor January 2022 (has links)
Automatic Speech Recognition (ASR) enables a wide variety of practical applications. However, many applications have their own domain-specific words, creating a gap between training and test data when used in practice. Domain adaptation can be achieved through model fine-tuning, but it requires domain-specific speech data paired with transcripts, which is labor intensive to produce. Fortunately, the dependence on audio data can be mitigated to a certain extent by incorporating text-based language models during decoding. This thesis explores approaches for creating domain-specific 4-gram models for a Swedish open-source wav2vec 2.0 model. The three main approaches extend a social media corpus with domain-specific data to estimate the models. The first approach utilizes a relatively small set of in-domain text data, and the second approach utilizes machine transcripts from another ASR system. Finally, the third approach utilizes Named Entity Recognition (NER) to find words of the same entity type in a corpus to replace with in-domain words. The 4-gram models are evaluated by the error rate (ERR) of recognizing in-domain words in a custom dataset. Additionally, the models are evaluated by the Word Error Rate (WER) on the Common Voice test set to ensure good overall performance. Compared to not having a language model, the base model improves the WER on Common Voice by 2.55 percentage points and the in-domain ERR by 6.11 percentage points. Next, adding in-domain text to the base model results in a 2.61 WER improvement and a 10.38 ERR improvement over not having a language model. Finally, adding in-domain machine transcripts and using the NER approach results in the same 10.38 ERR improvement as adding in-domain text but slightly less significant WER improvements of 2.56 and 2.47, respectively. These results contribute to the exploration of state-of-the-art Swedish ASR and have the potential to enable the adoption of open-source ASR models for more use cases. / Automatisk taligenkänning (ASR) möjliggör en mängd olika praktiska tillämpningar. Men många tillämpningsområden har sin egen uppsättning domänspecifika ord vilket kan skapa problem när en taligenkänningsmodell används på data som skiljer sig från träningsdatan. Taligenkänningsmodeller kan anpassas till nya domäner genom fortsatt träning med taldata, men det kräver tillgång till domänspecifik taldata med tillhörande transkript, vilket är arbetskrävande att producera. Lyckligtvis kan beroendet av ljuddata mildras till viss del genom användande av textbaserade språkmodeller tillsammans med taligenkänningsmodellerna. Detta examensarbete utforskar tillvägagångssätt för att skapa domänspecifika 4-gram-språkmodeller för en svensk wav2vec 2.0-modell som tränats av Kungliga Biblioteket. Utöver en basmodell så används tre huvudsakliga tillvägagångssätt för att utöka en korpus med domänspecifik data att träna modellerna från. Det första tillvägagångssättet använder en relativt liten mängd domänspecifik textdata, och det andra tillvägagångssättet använder transkript från ett annat ASR-system (maskintranskript). Slutligen använder det tredje tillvägagångssättet Named Entity Recognition (NER) för att hitta ord av samma entitetstyp i en korpus som sedan ersätts med domänspecifika ord. Språkmodellerna utvärderas med ett nytt domänspecifikt evalueringsdataset samt på testdelen av Common Voice datasetet. Jämfört med att inte ha en språkmodell förbättrar basmodellen Word Error Rate (WER) på Common Voice med 2,55 procentenheter och Error Rate (ERR) inom domänen med 6,11 procentenheter. Att lägga till domänspecifik text till basmodellens korpus resulterar i en 2,61 WER-förbättringochen10,38 ERR-förbättring jämfört med att inte ha en språkmodell. Slutligen, att lägga till domänspecifika maskintranskript och att använda NER-metoden resulterar i samma 10.38 ERR-förbättringar som att lägga till domänspecifik text men något mindre WER-förbättringar på 2.56 respektive 2.47 procentenheter. Den här studien bidrar till svensk ASR och kan möjliggöra användandet av öppna taligenkänningsmodeller för fler användningsområden.

VATS : Voice-Activated Targeting System / VATS : Röstaktiverat Identifieringssystem

MELLO, SIMON January 2020 (has links)
Machine learning implementations in computer vision and speech recognition are wide and growing; both low- and high-level applications being required. This paper takes a look at the former and if basic implementations are good enough for real-world applications. To demonstrate this, a simple artificial neural network coded in Python and already existing libraries for Python are used to control a laser pointer via a servomotor and an Arduino, to create a voice-activated targeting system. The neural network trained on MNIST data consistently achieves an accuracy of 0.95 ± 0.01 when classifying MNIST test data, but also classifies captured images correctly if noise-levels are low. This also applies to the speech recognition, rarely giving wrong readings. The final prototype achieves success in all domains except turning the correctly classified images into targets that the Arduino can read and aim at, failing to merge the computer vision and speech recognition. / Maskininlärning är viktigt inom röstigenkänning och datorseende, för både små såväl som stora applikationer. Syftet med det här projektet är att titta på om enkla implementationer av maskininlärning duger för den verkligen världen. Ett enkelt artificiellt neuronnät kodat i Python, samt existerande programbibliotek för Python, används för att kontrollera en laserpekare via en servomotor och en Arduino, för att skapa ett röstaktiverat identifieringssystem. Neuronnätet tränat på MNIST data når en precision på 0.95 ± 0.01 när den försöker klassificera MNIST test data, men lyckas även klassificera inspelade bilder korrekt om störningen är låg. Detta gäller även för röstigenkänningen, då den sällan ger fel avläsningar. Den slutliga prototypen lyckas i alla domäner förutom att förvandla bilder som klassificerats korrekt till mål som Arduinon kan läsa av och sikta på, vilket betyder att prototypen inte lyckas sammanfoga röstigenkänningen och datorseendet.

Speech to Text for Swedish using KALDI / Tal till text, utvecklandet av en svensk taligenkänningsmodell i KALDI

Kullmann, Emelie January 2016 (has links)
The field of speech recognition has during the last decade left the re- search stage and found its way in to the public market. Most computers and mobile phones sold today support dictation and transcription in a number of chosen languages.  Swedish is often not one of them. In this thesis, which is executed on behalf of the Swedish Radio, an Automatic Speech Recognition model for Swedish is trained and the performance evaluated. The model is built using the open source toolkit Kaldi.  Two approaches of training the acoustic part of the model is investigated. Firstly, using Hidden Markov Model and Gaussian Mixture Models and secondly, using Hidden Markov Models and Deep Neural Networks. The later approach using deep neural networks is found to achieve a better performance in terms of Word Error Rate. / De senaste åren har olika tillämpningar inom människa-dator interaktion och främst taligenkänning hittat sig ut på den allmänna marknaden. Många system och tekniska produkter stöder idag tjänsterna att transkribera tal och diktera text. Detta gäller dock främst de större språken och sällan finns samma stöd för mindre språk som exempelvis svenskan. I detta examensprojekt har en modell för taligenkänning på svenska ut- vecklas. Det är genomfört på uppdrag av Sveriges Radio som skulle ha stor nytta av en fungerande taligenkänningsmodell på svenska. Modellen är utvecklad i ramverket Kaldi. Två tillvägagångssätt för den akustiska träningen av modellen är implementerade och prestandan för dessa två är evaluerade och jämförda. Först tränas en modell med användningen av Hidden Markov Models och Gaussian Mixture Models och slutligen en modell där Hidden Markov Models och Deep Neural Networks an- vänds, det visar sig att den senare uppnår ett bättre resultat i form av måttet Word Error Rate.

Gaze Assisted Ergonomics : Means of expediting computer usage for the physically impaired / Ögonassisterad ergonomi : Medel för att möjliggöra datoranvändning för rörelsehindrade

Cicek, Simon January 2014 (has links)
The degree project explores the interaction between computers and users who, due to physical impairments are unable to use computer mice and/or keyboards. The users are given alternative means of input,namely eye tracking and speech recognition. The interactions are studied using experiments that are based on the Wizard of Oz-method.The project also includes development of a framework used during the experiments and interfaces that are based on the results of the experiments. It is shown that eye tracking and speech recognition has the potential to allow a user full and efficient usage of a computer, without the need for a computer mouse or keyboard. / Examensarbetet utforskar interaktionen mellan datorer och användare som på grund av någon form av funktionsnedsättning inte kan använda datormöss och/eller tangentbord. Användarna får tillgång till alternativamedel för inmatning, nämligen ögonstyrning och taligenkänning.Interaktionen studeras genom att utföra experiment som är baserade på Wizard of Oz-metoden. Examensarbetet inkluderar även utvecklingenav ett ramverk som används under experimenten samt prototyper på grafiska gränssnitt som baseras på resultaten av experimenten. Det visasatt dessa alternativa medel för inmatning har potentialen att ge en användare full och effektiv användning av en dator, utan behov för en datormus eller ett tangentbord.

Taligenkänningens för- och nackdelar : En kvalitativ studie utifrån ett vårdadministrativt perspektiv

Klarén, Linnéa, Jonsson, Kajsa January 2022 (has links)
Region Jönköpings län står inför ett införande av taligenkänning där målet är att effektivisera hälso- och sjukvården. Taligenkänning möjliggör för vårdpersonal att tala in patientjournalan­teck­ningar i journalsystemet och direkt få det skrivet i text utan att en vårdadministratör eller lä­karsekreterare behöver transkribera. Syftet med denna studie är att utforska för- och nackdelar med taligenkänning och att försöka besvara de frågor som vårdadministrativ personal ute i Region Jönköpings län kan tänkas ha inför införandet. I studien så har kvalitativa metoder använts eftersom vi ville förstå och tolka människors handlingar, upplevelser, tankar och syn på verkligenheten. Vi har använt oss av intervjuer samt digitala enkäter och på så sätt samlat in information från både vårdadministrativ personal och sakkunniga inom taligenkänning.      Resultatet visar att en större del av de vårdadministratörer och läkarsekreterare som besvarade enkäten ser minst en nackdel med införandet av taligenkänning. De uttrycker att de saknar in­formation kring taligenkänning och många känner oro över hur det ska påverka deras arbetssi­tuation i framtiden. Enligt de sakkunniga innebär taligenkänning en effektivisering av hälso- och sjukvården som gynnar både personal och patienter. De menar att den vårdadministrativa personalen inte behöver oroa sig över framtiden då deras profession kommer att behövas lika mycket om inte mer, men att arbetet kommer att förändras och delvis ersättas av andra administra­tiva arbetsuppgifter.        I studien så kom vi fram till att taligenkänning frigör tid för den vårdadministrativa personalen, vilket i sin tur ger behandlare mer tid till patientbesök. Patientjournalsanteckningar hamnar på plats direkt vilket effektiviserar vården och stärker patientsäkerheten. TIK innehåller dessutom många hjälpmedel som bidrar till en minskning av bland annat felstavningar. Nackdelarna med TIK är enligt studien att arbetsredskapet inte passar alla behandlare och att språkkvaliteten i patientjournalen riskerar att försämras då vårdadministrativ personal inte längre ser över den. / The Jönköping County Region is about to introduce the use of speech recognition and the purpose of this is to make healthcare more efficient. Speech recognition enables healthcare professionals to directly speak medical records into the medical record system and have it written in text, without the need for a healthcare administrator or medical secretary to transcribe. The purpose of this study is to explore the pros and cons of speech recognition and to try to answer the questions that healthcare administrative personnel in the Jönköping County Region may have before the introduction.   The study was conducted with the use of qualitative methods because we wanted to understand and interpret people's actions, experiences, thoughts, and views of reality. We have conducted interviews and digital surveys to collected information from both healthcare administrative personnel and experts on speech recognition.   The results show that a larger part of the healthcare administrators and medical secretaries who answered the survey see at least one disadvantage with the introduction of speech recognition. They express that they lack information about speech recognition, and many are worried about how it will affect their work situation in the future. According to the experts, speech recognition is going to make healthcare more effective by providing benefits for both personnel and patients. They believe that the healthcare administrative personnel should not worry about the future as their profession will be needed just as much if not more, but that the work tasks will change and be partially replaced by other administrative tasks.   In the study, we concluded that speech recognition frees up time for the healthcare administrative personnel, which in turn gives healthcare professionals more time for patients. Medical records end up in the medical journal immediately, which streamlines healthcare and improves patient safety. TIK also contains many tools that contribute to a reduction of misspellings, among other things. According to the study, the disadvantages of TIK are that the work tool does not suit all healthcare professionals and that the language quality in the medical records risks deteriorating as healthcare administrative personnel no longer review them. / <p>Examensarbete i Vårdadministration; 20 yhp</p>

Page generated in 0.0643 seconds