• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 17
  • 6
  • 3
  • 3
  • 2
  • 2
  • 1
  • Tagged with
  • 34
  • 27
  • 9
  • 8
  • 7
  • 7
  • 7
  • 7
  • 7
  • 6
  • 6
  • 6
  • 6
  • 6
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Analyse dialectométrique des parlers berbères de Kabylie / Dialectometric analysis of Berber dialects of Kabylia

Guerrab, Saïd 11 February 2014 (has links)
Cette étude est une analyse dialectométrique des parlers berbères de Kabylie. Le présent travail inclut un échantillon de 168 parlers kabyles répartis sur tout le territoire kabylophone. Le corpus analysé compte 130 entrées (lexèmes et syntagmes) recueillies dans chacune des variétés prises en compte. Nous avons opté pour la méthode Levenshtein afin de calculer la distance entre les variantes. Nous avons choisi l’algorithme de Ward’s Method pour regrouper les variétés. Nous avons testé trois méthodes pour calculer la distance entre les sons : la méthode binaire, la distance d’Euclide et la distance de Manhattan. L’analyse des résultats nous a permis de montrer le continuum dialectal en Kabylie et de classifier les parlers kabyles en cinq zones infradialectales principales. / This study is a dialectometric analysis of Berber dialects of Kabylia. This work includes a sample of 168 Kabyle dialects spread across the Kabyle territory. The analyzed corpus includes 130 entries (lexemes and phrases) collected in each of the varieties considered. We opted for the Levenshtein method to calculate the distance between the variants. We chose the algorithm of Ward's Method for grouping varieties. We tested three methods to calculate the distance between the sounds: the binary method, the Euclidean distance and the Manhattan distance. The analysis of the results allowed us to show the dialect continuum in Kabylia and classify Kabyle dialects into five mains areas.
2

Kontrola pravopisu v českých textech / Spelling check in the czech texts

Bureš, Stanislav January 2011 (has links)
The Master‘s thesis deals with spell checking in the czech texts. It also contains an overview of the most used phonetic algorithms, including their properties and it deals with focus on metric methods, which are used to compare two words. The second part of this thesis deals with implementation of selected algorithms to the spell checker software and demonstration its spell - checking function in czech texts. The last part of this thesis deals about building context – sensitive algorithm, which is performs text correction.
3

Hierarkisk klustring av klickströmmar : En metodik för identifiering av användargrupper

Schorn, Björn January 2022 (has links)
Nasdaq utvecklar och tillhandahåller mjukvarulösningar för clearinghus. Det finns ett intresse för att utveckla en fördjupad förståelse för hur funktionaliteten av produkten används. En möjlighet för detta är att använda sig av hierarkisk klustring av klickströmmar från webbgränssnittet. Denna rapport utvecklar ett tillvägagångsätt för en sådan klustring och tillämpar den på ett redan befintligt dataset av klickströmsloggar. Att använda sig av ett euklidiskt avståndsmått kan fungera för enklare klustringar så som gruppering av produktsidor. För en djupare analys av användarbeteendet genom en klustring av sessioner ger dock Damerau-Levenshtein bättre resultat då det även tar hänsyn till i vilken ordningsföljd sidvisningarna för respektive session sker. / Nasdaq develops and provides software solutions for clearing houses. There is an interest in developing an in-depth understanding of how the functionality of this product is used. One possibility for this is to use hierarchical clustering of click streams from the web interface. This report develops a methodology for such clustering and applies it to an already existing dataset of clickstream logs. Using a Euclidean distance measure can work for simpler clusters such as grouping product pages. For a deeper analysis of user behavior through a clustering of sessions, however, Damerau–Levenshtein gives better results as it also takes into account the order of the pages visited within the sessions.
4

Analyse verschiedener Distanzmetriken zur Messung des Anonymisierungsgrades theta

Eisoldt, Martin, Neise, Carsten, Müller, Andreas 23 August 2019 (has links)
Das bereits existierende Konzept zur Bewertung der Anonymisierung von Testdaten wird in dieser Arbeit weiter untersucht. Dabei zeigen sich die Vor- und Nachteile gegenüber bereits existierenden Distanzmetriken. Weiterführend wird untersucht, welchen Einfluss Parameteränderungen auf die Ergebnisse haben.
5

WordHunch : Server kommunikation och Datahantering i MySQL och Java / WordHunch : Server communications and Data Management in MySQL and Java

Waora, Dushant Singh January 2015 (has links)
Målet med detta projekt var att utforma en kommunikation och databassystem för ett multiplayer ordbaserat spel åt Tweakers HB. Tweakers HB är ett produktbolag som utvecklar mobila applikationer där Wordhunch är en utav deras produkter. Systemet är en webbaserad API som stöds av en databas system för att kunna hantera olika aspekter av ett multiplayer ordbaserat spel. API: et kommer att användas av en Android applikation som utvecklas av andra utvecklare på Tweakers HB. Kommunikationssystemet har tagits fram med Extreme Programming samt testdriven utveckling. Utvecklingen skedde med välkända och beprövade metoder för att kunna säkerställa att ett system med hög kvalitet levereras. Båda system utnyttjar gamla och vältestade verktyg så som MySQL för databashantering medan REST-arkitektur används för kommunikationssystem. I slutet av utvecklingen uppfylldes alla ställda krav. System klarar av prestandakravet enligt de tester som utfördes. Under testning har flera komplikationer uppstått som inte var kända under utvecklingen eller före som t.ex. ta fram det korrekta ord när ett felstavat ord har skickats in. / The goal of the project was to design a communication and database system for a multiplayer word based game for Tweakers HB. Tweakers HB is a company that develops mobile applications, where WordHunch is one of their products. The product itself is a web based API which is supported by a database system for handling different areas of a multiplayer based mobile game. The API will be used by the other developers of Tweakers HB for communication between Server and multiple Android and iOS mobiles. The system is a fully accomplished system. The system has been produced using Extreme programming. Development was done with well-known and proven methods to ensure that a system of high-quality was delivered. Both systems utilizes old and well tested products like MySQL for database management while REST architecture style for API system. At the end of the project all requirements were met. The system passed all the required tests conducted and will be able to handle large quantity of incoming traffic from Android and iOS mobile devices, according to tests. During testing multiple issues came up which were neither known before the production or under production for ex. retrieving the correct word when a misspelled word has been submitted.
6

Implementation and evaluation of a text extraction tool for adverse drug reaction information

Dahlberg, Gunnar January 2010 (has links)
Inom ramen för Världshälsoorganisationens (WHO:s) internationella biverkningsprogram rapporterar sjukvårdspersonal och patienter misstänkta läkemedelsbiverkningar i form av spontana biverkningsrapporter som via nationella myndigheter skickas till Uppsala Monitoring Centre (UMC). Hos UMC lagras rapporterna i VigiBase, WHO:s biverkningsdatabas. Rapporterna i VigiBase analyseras med hjälp av statistiska metoder för att hitta potentiella samband mellan läkemedel och biverkningar. Funna samband utvärderas i flera steg där ett tidigt steg i utvärderingen är att studera den medicinska litteraturen för att se om sambandet redan är känt sedan tidigare (tidigare kända samband filtreras bort från fortsatt analys). Att manuellt leta efter samband mellan ett visst läkemedel och en viss biverkan är tidskrävande. I den här studien har vi utvecklat ett verktyg för att automatiskt leta efter medicinska biverkningstermer i medicinsk litteratur och spara funna samband i ett strukturerat format. I verktyget har vi implementerat och integrerat funktionalitet för att söka efter medicinska biverkningar på olika sätt (utnyttja synonymer,ta bort ändelser på ord, ta bort ord som saknar betydelse, godtycklig ordföljd och stavfel). Verktygets prestanda har utvärderats på manuellt extraherade medicinska termer från SPC-texter (texter från läkemedels bipacksedlar) och på biverkningstexter från Martindale (medicinsk referenslitteratur för information om läkemedel och substanser) där WHO-ART- och MedDRA-terminologierna har använts som källa för biverkningstermer. Studien visar att sofistikerad textextraktion avsevärt kan förbättra identifieringen av biverkningstermer i biverkningstexter jämfört med en ordagrann extraktion. / Background: Initial review of potential safety issues related to the use of medicines involves reading and searching existing medical literature sources for known associations of drug and adverse drug reactions (ADRs), so that they can be excluded from further analysis. The task is labor demanding and time consuming. Objective: To develop a text extraction tool to automatically identify ADR information from medical adverse effects texts. Evaluate the performance of the tool’s underlying text extraction algorithm and identify what parts of the algorithm contributed to the performance. Method: A text extraction tool was implemented on the .NET platform with functionality for preprocessing text (removal of stop words, Porter stemming and use of synonyms) and matching medical terms using permutations of words and spelling variations (Soundex, Levenshtein distance and Longest common subsequence distance). Its performance was evaluated on both manually extracted medical terms (semi-structuredtexts) from summary of product characteristics (SPC) texts and unstructured adverse effects texts from Martindale (i.e. a medical reference for information about drugs andmedicines) using the WHO-ART and MedDRA medical term dictionaries. Results: For the SPC data set, a verbatim match identified 72% of the SPC terms. The text extraction tool correctly matched 87% of the SPC terms while producing one false positive match using removal of stop words, Porter stemming, synonyms and permutations. The use of the full MedDRA hierarchy contributed the most to performance. Sophisticated text algorithms together contributed roughly equally to the performance. Phonetic codes (i.e. Soundex) is evidently inferior to string distance measures (i.e. Levenshtein distance and Longest common subsequence distance) for fuzzy matching in our implementation. The string distance measures increased the number of matched SPC terms, but at the expense of generating false positive matches. Results from Martindaleshow that 90% of the identified medical terms were correct. The majority of false positive matches were caused by extracting medical terms not describing ADRs. Conclusion: Sophisticated text extraction can considerably improve the identification of ADR information from adverse effects texts compared to a verbatim extraction.
7

Password strength and memorability

Julkunen, Hanna, Ceder Molander, Josefin January 2016 (has links)
The society today is dependent on information technology and with the help of the technologymakes it easier to access information. Due to the constantly growing network environment,various techniques of accessing and handling information have developed. One of the mostused solutions to access and protect information is by using a password. The purpose of apassword is to protect sensitive and important data from unauthorized users who intentionallyor accidentally access the system. This can lead to unsolicited modifications of the original dataas well as unauthorized access of confidential information. Humans are those who design theinformation security, but at the same time the ones who are the weakest link in the securitychain. To prevent unauthorized access it is important to have a strong and tamper proofpassword. A good password should be easy to remember, hard to guess by others and bedifficult to predict by a person or software. The goal in this study is to find a good balancebetween a memorable and a secured password. The study will compare three types ofconstructions for password, own set, modified dictionary and association against each other tofind the one which is the strongest and the most memorable.
8

Spell checker for a Java Application / Stavningskontroll till en Java-applikation

Viktorsson, Arvid, Kyrychenko, Illya January 2020 (has links)
Many text-editor users depend on spellcheckers to correct their typographical errors. The absence of a spellchecker can create a negative experience for the user. In today's advanced technological environment spellchecking is an expected feature. 2Consiliate Business Solutions owns a Java application with a text-editor which does not have a spellchecker. This project aims to investigate and implement available techniques and algorithms for spellcheckers and automated word correction. During implementation, the techniques were tested for their performance and the best solutions were chosen for this project. All the techniques were gathered from earlier written literature on the topic and implemented in Java using default Java libraries. Analysis of the results proves that it is possible to create a complete spellchecker combining available techniques and that the quality of a spellchecker largely depends on a well defined dictionary.
9

Automatisk yrkeskodning med rättstavning och textkategorisering / Automatic survey coding with spell checking and text categorization

Westermark, Max January 2015 (has links)
Statistiska Centralbyrån (SCB) samlar in data i form av enkätundersökningar. Dessa data måste sedan kodas med olika klassifikationer för att kunna användas i statistikproduktion. En sådan klassifikation är Socioekonomisk indelning (SEI). Denna rapport behandlar hur man automatiskt kan SEI-koda sådana enkätundersökningar så att varje enkät tilldelas en SEI-kod. SCB:s nuvarande algoritm kodar ca 50% av enkäterna och bygger på att det yrke som är angivet i enkäten finns med i ett lexikon. Om yrket inte finns med kan enkäten inte kodas. Målet med detta arbete är att hitta bättre algoritmer som klarar av att koda fler enkäter. Som alternativ presenteras två algoritmer, en som bygger på rättstavning och en som bygger på textkategorisering med maskininlärning. Rättstavningsalgoritmen försöker rättstava de inkommna yrkena och sedan jämföra mot det lexikon som SCB använder. Denna algoritm lyckas koda något fler enkäter än vad originalalgoritmen klarar av. Hur stor förbättringen blir beror på hur många felstavningar det finns bland enkätdatat. Maskininlärningsalgoritmen representerar enkäterna med en bag-of-words-modell som sedan tränar en Stödvektormaskin. Då problemet har multipla klasser används en En-mot-alla metod för att hantera detta. Vi drar slutsatsen att en kombination av de tre nämnda algoritmerna presterar bäst. Den största svårigheten är att kunna koda många enkäter men samtidigt bibehålla en hög precision. När algoritmerna kombineras kompletterar de också varandra. Både rättstavningsalgoritmen och maskininlärningsalgoritmen förbättrar därför kodningsprestandan jämfört med den ursprungliga algoritmen.
10

Rozpoznávání podobností souborů na základě chování / Program Similarity Recognition Based on Behaviour Analysis

Otočka, Dávid January 2009 (has links)
The goal of this master thesis was to design an algorithm that will be able to measure the difference between two programs based on their behavioral description. For the algorithm needs, the Levenshtein distance method between two strings and NCD method, were used. Both methods have their implementation approach and test result described. This term also discusses various methods of program analysis in virtual machine environment, as well as explanation of some basic concepts regarding malware analysis.

Page generated in 0.0389 seconds