• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • 1
  • Tagged with
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Google Books Ngram Viewer – nya möjligheter för den ryska korpusforskningen eller bara "More of the Same"?

Bryngelson, Andreas January 2016 (has links)
I detta arbete undersöks sökverktyget Ngram Viewer och dess ryska delkorpus, innehållande totalt drygt 67 miljarder ord från närmre 600 000 böcker, utgivna mellan 1607 och 2009. Arbetet består av tre huvudsakliga delar; en översiktligt jämförande undersökning av andra ryskspråkiga korpusar, därefter en mindre litteraturstudie av tidigare forskning genomförd med hjälp av den ryska delkorpusen i Ngram Viewer och slutligen egna tester och pilotundersökningar av densamma. Syftet med uppsatsen är framförallt att undersöka Ngram Viewers möjligheter och begränsningar i en större kontext av korpusforskning. Pilotstudierna i Ngram Viewer fokuserar framförallt på relationen mellan begreppen русский och российский (och därmed indirekt förhållandet mellan Русь och Россия‏), bland annat genom jämförelse med tidigare studier (Griščenko, 2013, 2014a). En av de viktigaste insikterna från arbetets första två delar är korpusens bristande funktioner vad gäller hantering av skrivtecken som avskaffades vid den ryska stavningsreformen 1917. Pilotundersökningarna i arbetets tredje del avgränsas därför främst till material från åren 1900–2008. Att de lingvistiska annotationerna i korpusen uteslutande är automatiskt genererade samt att man inte har direkt tillgång till korpusens källmaterial utgör också viktiga faktorer som begränsar Ngram Viewers användningsområde. / В этой работе изучается корпус и инструмент Google Books Ngram Viewer и как можно использовать корпус для исследования исторических изменений русского языка. Русский подкорпус Ngram Viewer содержит около 67 миллионов слов из почти 600 000 книг, изданных 1607–2009 гг.   Исследование состоит из трех частей. В первой части сравнивается Ngram Viewer с другими корпусами русского языка. Во второй части предлагается обзор научной литературы относительно Ngram Viewer, и его русского подкорпуса. В третьей части приводятся собственные пилотажные исследования с помощью Ngram Viewer. Прежде всего, рассматривается использование слов русский и российский, в частности, по сравнению с исследованиями Грищенко 2013 и 2014а.   Мы пришли к выводу, что Ngram Viewer в первую очередь может быть использован как инструмент количественного анализа русского языка 20-ого и 21-ого веков. По техническим причинам корпус оказался менее полезным для изучения более древних текстов (до орфографической реформы 1917 г.).
2

Domain Adaptation with N-gram Language Models for Swedish Automatic Speech Recognition : Using text data augmentation to create domain-specific n-gram models for a Swedish open-source wav2vec 2.0 model / Domänanpassning Med N-gram Språkmodeller för Svensk Taligenkänning : Datautökning av text för att skapa domänspecifika n-gram språkmodeller för en öppen svensk wav2vec 2.0 modell

Enzell, Viktor January 2022 (has links)
Automatic Speech Recognition (ASR) enables a wide variety of practical applications. However, many applications have their own domain-specific words, creating a gap between training and test data when used in practice. Domain adaptation can be achieved through model fine-tuning, but it requires domain-specific speech data paired with transcripts, which is labor intensive to produce. Fortunately, the dependence on audio data can be mitigated to a certain extent by incorporating text-based language models during decoding. This thesis explores approaches for creating domain-specific 4-gram models for a Swedish open-source wav2vec 2.0 model. The three main approaches extend a social media corpus with domain-specific data to estimate the models. The first approach utilizes a relatively small set of in-domain text data, and the second approach utilizes machine transcripts from another ASR system. Finally, the third approach utilizes Named Entity Recognition (NER) to find words of the same entity type in a corpus to replace with in-domain words. The 4-gram models are evaluated by the error rate (ERR) of recognizing in-domain words in a custom dataset. Additionally, the models are evaluated by the Word Error Rate (WER) on the Common Voice test set to ensure good overall performance. Compared to not having a language model, the base model improves the WER on Common Voice by 2.55 percentage points and the in-domain ERR by 6.11 percentage points. Next, adding in-domain text to the base model results in a 2.61 WER improvement and a 10.38 ERR improvement over not having a language model. Finally, adding in-domain machine transcripts and using the NER approach results in the same 10.38 ERR improvement as adding in-domain text but slightly less significant WER improvements of 2.56 and 2.47, respectively. These results contribute to the exploration of state-of-the-art Swedish ASR and have the potential to enable the adoption of open-source ASR models for more use cases. / Automatisk taligenkänning (ASR) möjliggör en mängd olika praktiska tillämpningar. Men många tillämpningsområden har sin egen uppsättning domänspecifika ord vilket kan skapa problem när en taligenkänningsmodell används på data som skiljer sig från träningsdatan. Taligenkänningsmodeller kan anpassas till nya domäner genom fortsatt träning med taldata, men det kräver tillgång till domänspecifik taldata med tillhörande transkript, vilket är arbetskrävande att producera. Lyckligtvis kan beroendet av ljuddata mildras till viss del genom användande av textbaserade språkmodeller tillsammans med taligenkänningsmodellerna. Detta examensarbete utforskar tillvägagångssätt för att skapa domänspecifika 4-gram-språkmodeller för en svensk wav2vec 2.0-modell som tränats av Kungliga Biblioteket. Utöver en basmodell så används tre huvudsakliga tillvägagångssätt för att utöka en korpus med domänspecifik data att träna modellerna från. Det första tillvägagångssättet använder en relativt liten mängd domänspecifik textdata, och det andra tillvägagångssättet använder transkript från ett annat ASR-system (maskintranskript). Slutligen använder det tredje tillvägagångssättet Named Entity Recognition (NER) för att hitta ord av samma entitetstyp i en korpus som sedan ersätts med domänspecifika ord. Språkmodellerna utvärderas med ett nytt domänspecifikt evalueringsdataset samt på testdelen av Common Voice datasetet. Jämfört med att inte ha en språkmodell förbättrar basmodellen Word Error Rate (WER) på Common Voice med 2,55 procentenheter och Error Rate (ERR) inom domänen med 6,11 procentenheter. Att lägga till domänspecifik text till basmodellens korpus resulterar i en 2,61 WER-förbättringochen10,38 ERR-förbättring jämfört med att inte ha en språkmodell. Slutligen, att lägga till domänspecifika maskintranskript och att använda NER-metoden resulterar i samma 10.38 ERR-förbättringar som att lägga till domänspecifik text men något mindre WER-förbättringar på 2.56 respektive 2.47 procentenheter. Den här studien bidrar till svensk ASR och kan möjliggöra användandet av öppna taligenkänningsmodeller för fler användningsområden.
3

N-Grams as a Measure of Naturalness and Complexity

Randák, Richard January 2019 (has links)
We live in a time where software is used everywhere. It is used even for creating other software by helping developers with writing or generating new code. To do this properly, metrics to measure software quality are being used to evaluate the final code. However, they are sometimes too costly to compute, or simply don't have the expected effect. Therefore, new and better ways of software evaluation are needed. In this research, we are investigating the usage of the statistical approaches used commonly in the natural language processing (NLP) area. In order to introduce and evaluate new metrics, a Java N-gram language model is created from a large Java language code corpus. Naturalness, a method-level metric, is introduced and calculated for chosen projects. The correlation with well-known software complexity metrics are calculated and discussed. The results, however, show that the metric, in the form that we have defined it, is not suitable for software complexity evaluation since it is highly correlated with a well-known metric (token count), which is much easier to compute. Different definition of the metric is suggested, which could be a target of future study and research.

Page generated in 0.049 seconds