Spelling suggestions: "subject:"röstigenkänning"" "subject:"bröstigenkänning""
1 |
Utveckling av ett transkriberingsverktygRoos, Johan, Stedt, Patrik January 2007 (has links)
<p>Detta arbete handlar om utvecklingen av ett verktyg tänkt att användas vid transkribering av digitalt inspelade intervjuer. Arbetet var av kreativ natur vilket innebär att de flesta problem löstes genom att beskriva idéer och utföra dessa praktiskt. Detta resulterade i ett datorprogram där den större delen av den utarbetade funktionaliteten har implementerats, dock ej röstigenkänning.</p>
|
2 |
Utveckling av ett transkriberingsverktygRoos, Johan, Stedt, Patrik January 2007 (has links)
Detta arbete handlar om utvecklingen av ett verktyg tänkt att användas vid transkribering av digitalt inspelade intervjuer. Arbetet var av kreativ natur vilket innebär att de flesta problem löstes genom att beskriva idéer och utföra dessa praktiskt. Detta resulterade i ett datorprogram där den större delen av den utarbetade funktionaliteten har implementerats, dock ej röstigenkänning.
|
3 |
Röstigenkänning med Movidius Neural Compute Stick / Voice recognition with Movidius Neural Compute StickVidmark, Stefan January 2018 (has links)
Företaget Omicron Ceti AB köpte en Intel Movidius Neural Compute Stick (NCS), som är en usb-enhet där neurala nätverk kan laddas in för att processa data. Min uppgift blev att studera hur NCS används och göra en guide med exempel. Med TensorFlow och hjälpbiblioteket TFLearn gjordes först ett testnätverk för att prova hela kedjan från träning till användning med NCS. Sedan tränades ett nätverk att kunna klassificera 14 olika ord. En mängd olika utformningar på nätverket testades, men till slut hittades ett exempel som blev en bra utgångspunkt och som efter lite justering gav en träffsäkerhet på 86% med testdatat. Vid inläsning i mikrofon så blev resultatet lite sämre, med 67% träffsäkerhet. Att processa data med NCS tog längre tid än med TFLearn men använde betydligt mindre CPU-kraft. I mindre system såsom en Raspberry Pi går det däremot inte ens att använda TensorFlow/TFLearn, så huruvida det är värt att använda NCS eller inte beror på det specifika användningsscenariot. / Omicron Ceti AB company had an Intel Movidius Neural Compute Stick (NCS), which is a usb device that may be loaded with neural networks to process data. My assignment was to study how NCS is used and to make a guide with examples. Using TensorFlow and the TFLearn help library a test network was made for the purpose of trying the work pipeline, from network training to using the NCS. After that a network was trained to classify 14 different words. Many different configurations of the network were tried, until a good example was found that was expanded upon until an accuracy of 86% with the test data was reached. The accuracy when speaking into a microphone was a bit worse at 67%. To process data with the NCS took a longer time than with TFLearn but used a lot less CPU power. However it’s not even possible to use TensorFlow/TFLearn in smaller systems like a Raspberry Pi, so whether it’s worth using the NCS depends on the specific usage scenario.
|
4 |
Dialekter och röstigenkänning : Ett röstigenkännings-API:s förmåga att uppfatta svenska dialekters kännetecken och röstkombinationer / Dialects and speech recognition. : A speech recognition API:s ability to understand the characteristics and combination of sounds in Swedish dialectsNilsson, Jonas, Larsson, Daniel January 2015 (has links)
Allt eftersom utvecklingen går framåt inom applikationer och system så förändras också sättet på vilket vi interagerar med systemet på. Hittills har navigering och användning av applikationer och system mestadels skett med händerna och då genom mus och tangentbord. På senare tid så har navigering via touch-skärmar och rösten blivit allt mer vanligt. Då man ska styra en applikation med hjälp av rösten är det viktigt att vem som helst kan styra applikationen, oavsett vilken dialekt man har. För att kunna se hur korrekt ett röstigenkännings-API (Application Programming Interface) uppfattar svenska dialekter så initierades denna studie med dokumentstudier om dialekters kännetecken och ljudkombinationer. Dessa kännetecken och ljudkombinationer låg till grund för de ord vi valt ut till att testa API:et med. Varje dialekt fick alltså ett ord uppbyggt för att vara extra svårt för API:et att uppfatta när det uttalades av just den aktuella dialekten. Därefter utvecklades en prototyp, närmare bestämt en android-applikation som fungerade som ett verktyg i datainsamlingen. Då arbetet innehåller en prototyp och en undersökning så valdes Design and Creation Research som forskningsstrategi med datainsamlingsmetoderna dokumentstudier och observationer för att få önskat resultat. Data samlades in via observationer med prototypen som hjälpmedel och med hjälp av dokumentstudier. Det empiriska data som registrerats via observationerna och med hjälp av applikationen påvisade att vissa dialekter var lättare för API:et att uppfatta korrekt. I vissa fall var resultaten väntade då vissa ord uppbyggda av ljudkombinationer i enlighet med teorin skulle uttalas väldigt speciellt av en viss dialekt. Ibland blev det väldigt låga resultat på just dessa ord men i andra fall förvånansvärt höga. Slutsatsen vi drog av detta var att de ord vi valt ut med en baktanke om att de skulle få låga resultat för den speciella dialekten endast visade sig stämma vid två tillfällen. Det var istället det ord innehållande sje- och tje-ljud som enligt teorin var gemensamma kännetecken för alla dialekter som fick lägst resultat överlag. / As the development of applications and systems progress so does the ways in which we interact with the application or system. So far, the navigation and usage of applications and systems have been made by hand, through keyboard and a mouse. Recently navigation through touch-screens and voice has been more common. When you are going to navigate the application with your voice, it´s crucial that anyone can navigate the application despite their dialect. To be able to see how a voice recognition API (Application Programming Interface) understands Swedish dialects a study on the characteristics on Swedish dialects were made. These characteristics and combinations of sound were the foundation to the words used for testing the API. Each dialect got a specific word that were supposed to be difficult for the API to understand when the word was pronounced by the actual dialect. A prototype of an android application was developed as a tool for data generation. This thesis contains a prototype and a research and therefore the strategy used for this thesis is Design & Creation Research, with document studies and observation as data generation methods to achieve the desired result. The data were collected through observations with the prototype as a tool and also through studies of documents. Our empirical data that has been registered through the observations and with the help of the application proved that some dialects were easier to understand correctly by the API. In some cases the results were expected because some words were made of combinations of sounds according to the theory that were going to be pronounced in a special way from a certain dialect. Some of the results were low on these certain words but in some other cases the results were surprisingly high. The conclusion we drew from this was that the words we chose with the intention of making it hard for the API to understand only proved to be working on two separate occasions. It was the word containing the combination of the sounds "sje" and "tje" that had common characteristics to all dialects, according to the theory, that got the lowest result.
|
5 |
“OK Google, vad kan du göra?” : En undersökning av sambandet mellan mentala modeller och användning av röstgränssnitt / “OK Google, what can you do?” : An examination of the connection between mental models and voice user interface usageKrantz, Frida January 2020 (has links)
Research relating to VUIs (voice user interface) such as voice assistants like Siri, Google Home, and Alexa has mostly been focused on general usage, error handling, and privacy concerns. This study focuses on mental models in relation to VUI - how users' presumptions about scope and how VUIs work match the reality. Specifically, this study aims to find out how mental models of VUIs form and evolve as well as whether or not mental models of VUIs affect usage. An online survey directed towards Google Home users showed its respondents, mainly identified as early adopters and primary users, showcasing a good mental model of Google Home together with frequent and varied usage as well as self-expressed knowledge. Due to suspected distortion of results caused by recruiting from an interest group on Facebook, study results are not considered to be representative to the population (VUI users in Sweden). This study showed that users base their mental models of VUIs around conventions found in human-to-human conversation and that these mental models evolve through feedback and error handling and can be improved by users exploring and testing more use cases for the VUI.
|
6 |
Michelangelo speaks : Voice controlled CNC plotter / Michelangelos verk : Röststyrd CNC-ritrobotKarlsson, Marcus, Maroof, Havan January 2022 (has links)
CNC machines offer numerous advantages over conventional machining. It can be implemented in several ways and one such implementation is a drawing machine. In this bachelor thesis a voice controlled CNC plotter was designed, constructed and programmed. In order to create a better understanding of CNC and voice recognition, research questions were established and studied. The questions were mainly related to drawing speed as well as quality and accuracy of the voice recognition. The hardware of the plotter was mostly built out of 3D-printed parts as well as stepper motors, threaded rods and couplers for the movement system. The software of the plotter consisted of Arduino code, where instructions were written to make, for instance, the appropriate motor move. Tests were executed to gather data that later on were analysed. The analysis showed that the stepper motors and couplers had the greatest impact on the drawing speed as well as showing that the quality decreased when the speed increased. Furthermore the analysis showed that the voice recognition module achieved a high level of accuracy, however only when males spoke as it could not detect female voices. / CNC maskiner har flera fördelar jämfört med konventionella maskiner. De kan implementeras på en mängd olika sätt, exempelvis i en rit robot. I detta kandidatexamensarbete konstruerades och programmerades en röststyr dritrobot. För att erhålla en bättre uppfattning om CNC och röststyrning har två forskningsfrågor undersökts. Frågorna behandlar rithastighet, kvalite samt noggrannhet av röstigenkänningsmodulen. Hårdvaran består för det mesta av 3D-printade komponenter och gängade stänger som utgör rörelse systemet av roboten. Mjukvaran består endast av Arduino kod som innehåller instruktioner för exempelvis vilken motor som ska rotera. Flera experiment utfördes för att erhålla data som därefter analyserades. Analysen visade att stegmotorerna och axelkopplingarna hade störst påverkan på rithastigheten som i sin tur var en stor påverkande faktor för ritkvaliten. Ytterliggare analys visade att röstkortet hade hög noggrannhet men bara när en man talade då det inte kunde tolka kvinnliga röster.
|
7 |
Vad Innebär Det Att Skriva I Skolan? : Diktera – en digital möjlighet i en lärmiljö för allaToresson, Anna-Karin January 2021 (has links)
This is a study of quantitative and qualitative methods that aims to gain increased knowledge about primary school students and what it means to write. The study examines if dictation provides a digital opportunity in a learning environment for everyone. The study is a case study. The study has a mixed-methods design with an explanatory Sequential Design. The study is based on empirical methods that consists of two quantitative and two qualitative methods. The quantitative methods are measurement of LIX value of student texts and the students' grades. The qualitative methods are a questionnaire to seven students in eighth grade and a semi-structured interview with a teacher. The study's theoretical framework rests on a socio-cultural perspective, with Vygotsky's theories about language and communication and Säljö´s thoughts about artefacts and dictation as a writing tool. The study uses a hermeneutic perspective to describe the qualitative parts of the study. This perspective is used to describe an interaction between theory and method analysis that provides an opportunity for a deeper understanding. The results of the study show that students think that dictation is a functional writing tool. The results from the questionnaire show that students think it is important to plan their writing before dictation. Furthermore, students discover that they must adapt their voice to the dictation program. By learning the software, the students´ develop their writing ability. Finally, students note that the processing is different and requires different strategies for correcting than traditional writing does. Perhaps the biggest obstacle in itself is that the transcriber needs to have access to a quiet place. The knowledge contribution that is added to the problem area and previous research is a deeper understanding of the factors that affect students' writing through dictation. The study is important and relevant to the teaching profession and contributes to the fact that dictation can be a way of writing for students. The experiences from this study can be a support for teachers in developing their schools´ learning environment. Coupled with teachers' broad repertoire in writing and writing development, this will give more students the opportunity to reach approved knowledge requirements in Swedish compulsory school as Nilholm assert. / <p>Digital presentation</p>
|
8 |
M8 the Four-legged Robot / M8 den fyrbenta robotenANFLO, FREDRIK January 2020 (has links)
In recent times robots are becoming more and more common. They are everywhere. Walking, running, swimming, flying and many of them have much in common with the creatures inhabiting this planet. A lot of it in order to make them appeal more to us, instead of simply being portrayed as stone cold machines. Continuing on the path evolution has laid out before us seems to be a wise decision to make, aspiring to efficiently utilize our knowledge about science and engineering with the vision of improving our future. With the intention to simulate a four legged animal and evaluate the means of interacting with one´s surrounding, a quadruped locomotion system together with two types of sound and voice interacting systems have been assessed. A demonstrator was built to test the real world problems and decide what kind of interacting that is most beneficial. The results indicate that voice commands and speech recognition, rather than sounds from the environment are more practical and robust as a way of interacting with one´s surroundings. / På senare tider har robotar blivit mer och mer vanliga. De är överallt. Gående, springande, simmande, flygande och många av dem har mycket gemensamt med de varelser som lever på denna jord. Mycket av detta för att tilltala oss mer, istället för att framstå som enbart iskalla maskiner. Att fortsätta på den väg som evolutionen har lagt framför oss verkar vara ett vist beslut att ta, i strävan efter att effektivt utnyttja våra kunskaper i vetenskap och ingenjörskonst med visionen om att förbättra vår framtid. Med målet att simulera ett fyrbent djur och utvärdera möjligheterna till att interagera med ens omgivning, har ett fyrbent förflyttningssystem tillsammans med två typer av ljud och röstsystem tagits fram. En prototyp kontruerades för att testa de problem som uppstår i den verkliga värden och för att kunna bedöma vilket sätt att interagera som visar vara sig mest fördelaktigt. Resultaten indikerar att röstkommandon och röstigenkänning, snarare än ljuddetektion från omgivningen är mer praktiska och robusta som ett sätt att interagera med sin närmiljö.
|
9 |
Anställdas inställning till biometrisk autentisering : En studie på svenska små- och medelstora företag / Employees' attitude to biometric authenticationKarlsson, Jakob, Malmberg, Sebastian January 2022 (has links)
Denna studie undersöker anställdas inställning till BA som MFA-metod på svenska SMF, även vilken BA-metod som anses lämpligast för användning. Tidigare studier har främst fokuserat på större organisationer och företag med kvantitativa forskningsmetoder. Därav har denna studie valt att undersöka SMF med en kvalitativ inriktning i formen av en semistrukturerad intervjustudie. Studien genomförde totalt nio intervjuer från varierande företag med respondenter aven mängd olika arbetsroller. Utifrån dessa intervjuer kunde flera teman identifieras, dessa användes för att dra slutsatser kring användarens inställning och vilken BA-metod som föredras i företagskontext. Teman som identifierades utgjorde grunden förde anställdas inställning, exempelvis vilka positiva och negativa aspekter de anställda kunde se med BA som MFA. Resultaten visade att de anställda generellt sett var positivt inställda till BA som MFA-metod och att de flesta kunde tänka sig implementera detta på sin arbetsplats. Av fingeravtryck, röstigenkänning,ansiktsigenkänning och irisskanning föredrog respondenterna fingeravtryck som BA-metod i företagskontext. Studien valde att inte fokusera på företag som redan implementerat BA som MFA. Applikationer och program som anställda använder där BA erbjuds anses inte som att företaget implementerat BA som MFA. / This study examines employees' attitudes towards BA (Biometric Authentication) as an MFA (Multi-Factor Authentication) method at Swedish SMEs, as well as which BA method is considered most suitable for use. Previous studies have focused on larger organizations and companies with quantitative research methods. Therefore, this study has chosen to examine SMEs with a qualitative focus by conducting semistructured interviews. The study conducted a total of nine interviews from various companies with respondents from a variety of work roles. Based on these interviews, several themes could be identified, these were used to draw conclusions about the employees’ attitude and which BA method is preferred in a business context. Themes that were identified formed the basis for the employees' attitude, for example what positive and negative aspects the employees could see with BA as MFA. The results showed that the employees were generally positive about BA as an MFA method and that most could imagine implementing this in their workplace. Focusing on fingerprints, voice recognition, face recognition and iris scanning, the respondents preferred fingerprints as a BA method. The study chose not to focus on companies that have already implemented BA as MFA. Applications and programs that employees use where BA is offered are not considered that the company has implemented BA as MFA.
|
10 |
Kan datorer höra fåglar? / Can Computers Hear Birds?Movin, Andreas, Jilg, Jonathan January 2019 (has links)
Ljudigenkänning möjliggörs genom spektralanalys, som beräknas av den snabba fouriertransformen (FFT), och har under senare år nått stora genombrott i samband med ökningen av datorprestanda och artificiell intelligens. Tekniken är nu allmänt förekommande, i synnerhet inom bioakustik för identifiering av djurarter, en viktig del av miljöövervakning. Det är fortfarande ett växande vetenskapsområde och särskilt igenkänning av fågelsång som återstår som en svårlöst utmaning. Även de främsta algoritmer i området är långt ifrån felfria. I detta kandidatexamensarbete implementerades och utvärderades enkla algoritmer för att para ihop ljud med en ljuddatabas. En filtreringsmetod utvecklades för att urskilja de karaktäristiska frekvenserna vid fem tidsramar som utgjorde basen för jämförelsen och proceduren för ihopparning. Ljuden som användes var förinspelad fågelsång (koltrast, näktergal, kråka och fiskmås) så väl som egeninspelad mänsklig röst (4 unga svenska män). Våra resultat visar att framgångsgraden normalt är 50–70%, den lägsta var fiskmåsen med 30% för en liten databas och den högsta var koltrasten med 90% för en stor databas. Rösterna var svårare för algoritmen att särskilja, men de hade överlag framgångsgrader mellan 50% och 80%. Dock gav en ökning av databasstorleken generellt inte en ökning av framgångsgraden. Sammanfattningsvis visar detta kandidatexamensarbete konceptbeviset bakom fågelsångigenkänning och illustrerar såväl styrkorna som bristerna av dessa enkla algoritmer som har utvecklats. Algoritmerna gav högre framgångsgrad än slumpen (25%) men det finns ändå utrymme för förbättring eftersom algoritmen vilseleddes av ljud av samma frekvenser. Ytterligare studier behövs för att bedöma den utvecklade algoritmens förmåga att identifiera ännu fler fåglar och röster. / Sound recognition is made possible through spectral analysis, computed by the fast Fourier transform (FFT), and has in recent years made major breakthroughs along with the rise of computational power and artificial intelligence. The technology is now used ubiquitously and in particular in the field of bioacoustics for identification of animal species, an important task for wildlife monitoring. It is still a growing field of science and especially the recognition of bird song which remains a hard-solved challenge. Even state-of-the-art algorithms are far from error-free. In this thesis, simple algorithms to match sounds to a sound database were implemented and assessed. A filtering method was developed to pick out characteristic frequencies at five time frames which were the basis for comparison and the matching procedure. The sounds used were pre-recorded bird songs (blackbird, nightingale, crow and seagull) as well as human voices (4 young Swedish males) that we recorded. Our findings show success rates typically at 50–70%, the lowest being the seagull of 30% for a small database and the highest being the blackbird at 90% for a large database. The voices were more difficult for the algorithms to distinguish, but they still had an overall success rate between 50% and 80%. Furthermore, increasing the database size did not improve success rates in general. In conclusion, this thesis shows the proof of concept and illustrates both the strengths as well as short-comings of the simple algorithms developed. The algorithms gave better success rates than pure chance of 25% but there is room for improvement since the algorithms were easily misled by sounds of the same frequencies. Further research will be needed to assess the devised algorithms' ability to identify even more birds and voices.
|
Page generated in 0.0831 seconds