Global ETD Search

1	Cuckoo Filter Probabilistic Password Similarity Detection Degerfeldt, Anton January 2024 (has links) Authentication in digital systems is still prominently done through passwords. These passwords should simultaneously be easy to remember, unique, and change over time. Humans, however, have a limited ability to remember complex passwords. To make this easier, users often adopt schemes where a base word is only modified slightly. While such schemes can easily fulfil basic password requirements based on length or the symbols used, they can leave users vulnerable. Leaked passwords, even expired ones, can be exploited by malicious actors and a single compromised account can cascade to multiple services. We propose a v-gram based approach to detect similarity with a set of passwords, which could be used to improve user password habits. The proposed scheme utilizes a Cuckoo Filter, which allows for inherent obfuscation of the stored passwords and the integration of encryption techniques natively. The system could for example be embedded in a password manager to inform users when they are using a password that is too similar to a previous password. This work comprises an analysis of several aspects of the system in order to assess its suitability. A Cuckoo Filter using a single byte fingerprint for each v-gram can achieve load factors exceeding 95%, while maintaining a false positivity rate of less than 3%. The computational cost of guessing a password based on the information stored within the filter is relatively low. While the false positivity rate of the filter and the size of the alphabet have an impact, they are only logarithmically proportional to the cost, and the attack is considered a significant vulnerability. Nevertheless, the proposed system can be a viable alternative for detecting similarity between passwords — if configured correctly — and could be used to guide user behaviour to more secure password habits. cuckoo filter bloom filter password similarity string similarity ngram n-gram Computer Sciences Datavetenskap (datalogi)
2	Google Books Ngram Viewer – nya möjligheter för den ryska korpusforskningen eller bara "More of the Same"? Bryngelson, Andreas January 2016 (has links) I detta arbete undersöks sökverktyget Ngram Viewer och dess ryska delkorpus, innehållande totalt drygt 67 miljarder ord från närmre 600 000 böcker, utgivna mellan 1607 och 2009. Arbetet består av tre huvudsakliga delar; en översiktligt jämförande undersökning av andra ryskspråkiga korpusar, därefter en mindre litteraturstudie av tidigare forskning genomförd med hjälp av den ryska delkorpusen i Ngram Viewer och slutligen egna tester och pilotundersökningar av densamma. Syftet med uppsatsen är framförallt att undersöka Ngram Viewers möjligheter och begränsningar i en större kontext av korpusforskning. Pilotstudierna i Ngram Viewer fokuserar framförallt på relationen mellan begreppen русский och российский (och därmed indirekt förhållandet mellan Русь och Россия‏), bland annat genom jämförelse med tidigare studier (Griščenko, 2013, 2014a). En av de viktigaste insikterna från arbetets första två delar är korpusens bristande funktioner vad gäller hantering av skrivtecken som avskaffades vid den ryska stavningsreformen 1917. Pilotundersökningarna i arbetets tredje del avgränsas därför främst till material från åren 1900–2008. Att de lingvistiska annotationerna i korpusen uteslutande är automatiskt genererade samt att man inte har direkt tillgång till korpusens källmaterial utgör också viktiga faktorer som begränsar Ngram Viewers användningsområde. / В этой работе изучается корпус и инструмент Google Books Ngram Viewer и как можно использовать корпус для исследования исторических изменений русского языка. Русский подкорпус Ngram Viewer содержит около 67 миллионов слов из почти 600 000 книг, изданных 1607–2009 гг. Исследование состоит из трех частей. В первой части сравнивается Ngram Viewer с другими корпусами русского языка. Во второй части предлагается обзор научной литературы относительно Ngram Viewer, и его русского подкорпуса. В третьей части приводятся собственные пилотажные исследования с помощью Ngram Viewer. Прежде всего, рассматривается использование слов русский и российский, в частности, по сравнению с исследованиями Грищенко 2013 и 2014а. Мы пришли к выводу, что Ngram Viewer в первую очередь может быть использован как инструмент количественного анализа русского языка 20-ого и 21-ого веков. По техническим причинам корпус оказался менее полезным для изучения более древних текстов (до орфографической реформы 1917 г.). Ngram Viewer Russian corpus linguistics culturomics big data Ngram Viewer ryska korpus lingvistik kulturomik "big data" Specific Languages Studier av enskilda språk General Language Studies and Linguistics
3	Domain Adaptation with N-gram Language Models for Swedish Automatic Speech Recognition : Using text data augmentation to create domain-specific n-gram models for a Swedish open-source wav2vec 2.0 model / Domänanpassning Med N-gram Språkmodeller för Svensk Taligenkänning : Datautökning av text för att skapa domänspecifika n-gram språkmodeller för en öppen svensk wav2vec 2.0 modell Enzell, Viktor January 2022 (has links) Automatic Speech Recognition (ASR) enables a wide variety of practical applications. However, many applications have their own domain-specific words, creating a gap between training and test data when used in practice. Domain adaptation can be achieved through model fine-tuning, but it requires domain-specific speech data paired with transcripts, which is labor intensive to produce. Fortunately, the dependence on audio data can be mitigated to a certain extent by incorporating text-based language models during decoding. This thesis explores approaches for creating domain-specific 4-gram models for a Swedish open-source wav2vec 2.0 model. The three main approaches extend a social media corpus with domain-specific data to estimate the models. The first approach utilizes a relatively small set of in-domain text data, and the second approach utilizes machine transcripts from another ASR system. Finally, the third approach utilizes Named Entity Recognition (NER) to find words of the same entity type in a corpus to replace with in-domain words. The 4-gram models are evaluated by the error rate (ERR) of recognizing in-domain words in a custom dataset. Additionally, the models are evaluated by the Word Error Rate (WER) on the Common Voice test set to ensure good overall performance. Compared to not having a language model, the base model improves the WER on Common Voice by 2.55 percentage points and the in-domain ERR by 6.11 percentage points. Next, adding in-domain text to the base model results in a 2.61 WER improvement and a 10.38 ERR improvement over not having a language model. Finally, adding in-domain machine transcripts and using the NER approach results in the same 10.38 ERR improvement as adding in-domain text but slightly less significant WER improvements of 2.56 and 2.47, respectively. These results contribute to the exploration of state-of-the-art Swedish ASR and have the potential to enable the adoption of open-source ASR models for more use cases. / Automatisk taligenkänning (ASR) möjliggör en mängd olika praktiska tillämpningar. Men många tillämpningsområden har sin egen uppsättning domänspecifika ord vilket kan skapa problem när en taligenkänningsmodell används på data som skiljer sig från träningsdatan. Taligenkänningsmodeller kan anpassas till nya domäner genom fortsatt träning med taldata, men det kräver tillgång till domänspecifik taldata med tillhörande transkript, vilket är arbetskrävande att producera. Lyckligtvis kan beroendet av ljuddata mildras till viss del genom användande av textbaserade språkmodeller tillsammans med taligenkänningsmodellerna. Detta examensarbete utforskar tillvägagångssätt för att skapa domänspecifika 4-gram-språkmodeller för en svensk wav2vec 2.0-modell som tränats av Kungliga Biblioteket. Utöver en basmodell så används tre huvudsakliga tillvägagångssätt för att utöka en korpus med domänspecifik data att träna modellerna från. Det första tillvägagångssättet använder en relativt liten mängd domänspecifik textdata, och det andra tillvägagångssättet använder transkript från ett annat ASR-system (maskintranskript). Slutligen använder det tredje tillvägagångssättet Named Entity Recognition (NER) för att hitta ord av samma entitetstyp i en korpus som sedan ersätts med domänspecifika ord. Språkmodellerna utvärderas med ett nytt domänspecifikt evalueringsdataset samt på testdelen av Common Voice datasetet. Jämfört med att inte ha en språkmodell förbättrar basmodellen Word Error Rate (WER) på Common Voice med 2,55 procentenheter och Error Rate (ERR) inom domänen med 6,11 procentenheter. Att lägga till domänspecifik text till basmodellens korpus resulterar i en 2,61 WER-förbättringochen10,38 ERR-förbättring jämfört med att inte ha en språkmodell. Slutligen, att lägga till domänspecifika maskintranskript och att använda NER-metoden resulterar i samma 10.38 ERR-förbättringar som att lägga till domänspecifik text men något mindre WER-förbättringar på 2.56 respektive 2.47 procentenheter. Den här studien bidrar till svensk ASR och kan möjliggöra användandet av öppna taligenkänningsmodeller för fler användningsområden. Automatic Speech Recognition Domain Adaptation Language Models Ngram Models Wav2vec2 Taligenkänning Domänanpassning Språkmodeller N-gramModeller Wav2vec2 Computer Sciences Datavetenskap (datalogi)
4	N-Grams as a Measure of Naturalness and Complexity Randák, Richard January 2019 (has links) We live in a time where software is used everywhere. It is used even for creating other software by helping developers with writing or generating new code. To do this properly, metrics to measure software quality are being used to evaluate the final code. However, they are sometimes too costly to compute, or simply don't have the expected effect. Therefore, new and better ways of software evaluation are needed. In this research, we are investigating the usage of the statistical approaches used commonly in the natural language processing (NLP) area. In order to introduce and evaluate new metrics, a Java N-gram language model is created from a large Java language code corpus. Naturalness, a method-level metric, is introduced and calculated for chosen projects. The correlation with well-known software complexity metrics are calculated and discussed. The results, however, show that the metric, in the form that we have defined it, is not suitable for software complexity evaluation since it is highly correlated with a well-known metric (token count), which is much easier to compute. Different definition of the metric is suggested, which could be a target of future study and research. language model language processing ngram naturalness java code complexity software quality static analysis code metrics Software Engineering Programvaruteknik Computer Sciences Datavetenskap (datalogi)

1

Page generated in 0.0313 seconds