Spelling suggestions: "subject:"databehandling"" "subject:"databehandlings""
31 |
Design av verktyg för snabb utläsning och analys av flygprovdata från radarRiiga, Felix, Larsson, Mathias January 2016 (has links)
Detta arbete har utförts med uppdrag från företaget Saab. Syftet har varit att analysera och utvärdera ett program som läser ut data från radarenheten som sitter i Saabs stridsflygplan Gripen. Programmet som har analyserats är nyligen framtaget och är fortfarande under utveckling. Genom att använda ett flertal mätverktyg och en mindre mängd olika testdata har programmet analyserats för att se om det har tillräcklig prestanda med avseende på tidsåtgång vid inläsning av data och minnesanvändning vid bearbetning av data samt om den underliggande arkitekturen lämpar sig för framtida utveckling. Resultatet av mätningarna presenteras i denna rapport i form av tabeller och diagram och visar att programmet både tids- och minnesmässigt har brister som bör åtgärdas. Arkitekturen är sund och går i huvudsak att bygga vidare på. / The work leading to this thesis was carried out at Saab AB. The purpose of the thesis was to analyse and evaluate a tool for the reading of data from the Saab Gripen radar unit. The tool is still a work in progress. By utilising several different measurement tools and a set of test files the radar data tool was evaluated with respect to timing performance, and memory usage. The underlying architecture of the tool was also investigated for its sustainability in future development. The results of these evaluations presented in this report show that the tool leaves a lot to be desired in the areas of time taken and memory usage and as such, future improvements are needed. The architecture is deemed sustainable and suitable for future use.
|
32 |
Detektion av handskrivna ordobjekt i inskannade dokumentRydberg, Jonatan January 2012 (has links)
I denna rapport presenteras ett sätt att detektera handskrivna ordobjekt i inskannade dokument. Rapporten belyser också några av de problem som förekommer vid detektion av handskrivna ordobjekt. Detektionen görs med hjälp av en indelning av bilden i rektangulära regioner. Därefter används enmaskininlärningsalgoritm för att klassificera regionerna som antingen handskriven text eller övrigt. För att klassificera en region behövs mätvärden för en region, såsom area, som en algoritm kan använda. De flesta som testas och används i denna rapport har använts tidigare för att detektera handskriven text. En del är modifierade från tidigare använda mätvärden. Resultaten visar att att det går att detektera handskrivna ordobjekt med en föreslagna metoden. Resultaten är dock inte lika goda som flertalet andra inom området, några olika orsaker diskuteras. Rapporten visar även att klassificeringen av en region får ett statistiskt signifikant högre resultat om algoritmen som använts har tränats på andra regioner i samma dokument. Detta resultat är viktigt när en algoritm ska utvärderas. Att viktning av träningsdata kan användas för att manipulera precision och recall för de fyra algoritmer som används bekräftas. Detta gör det möjligt att skapa ett precision-recall-diagram för att jämföra olika maskininlärningsalgoritmer. En sådan jämförelse mellan fyra olika typer av algoritmer visar att det är liten skillnad mellan två beslutsträd och ett neuralt nätvärk. Den sista algoritmen, en stödvektormaskin, klarade uppgiften sämst.
|
33 |
Språkteknologi för myndigheters hemsidor : En studie av verktyg som kan underlätta för personer som inte har svenska som modersmål att självständigt använda e-tjänsterNilsson, Karin January 2011 (has links)
På svenska myndigheter arbetar man aktivt med att erbjuda sina kunder möjligheter att göra ärenden via Internet. Försäkringskassans egna studier tyder dock på att personer som inte har svenska som modersmål är en grupp som i stället väljer att komma in på kontoren för att utföra sina ärenden, även om ärendena är relativt enkla. Den här studien undersöker hur språkteknologiska hjälpmedel skulle kunna underlätta för den här gruppen att använda tjänster på Internet. För att ta reda på hur nysvenskar själva ser på sin kontakt med myndigheter hölls fokusgrupper där deras erfarenheter diskuterades. Fokusgrupperna resulterade i tre scenarier som illustrerar hur situationer där en person med språksvårigheter försöker göra sina ärenden på Internet skulle kunna se ut. Några olika språkteknologiska verktyg och hur de skulle kunna användas på Internet diskuteras mot bakgrund av scenarierna. För ett av verktygen, automatisk sammanfattning, utfördes en användarundersökning där sammanfattningar framställda med ett automatiskt sammanfattningsprogram jämfördes. Användning av textsammanfattning som stöd för nysvenskars användning av e-tjänster analyseras och diskuteras.
|
34 |
Estimating Post-Editing Effort with Translation Quality FeaturesSagemo, Oscar January 2016 (has links)
No description available.
|
35 |
Textuella särdrag som kvalitet : En studie om att automatiskt mäta kvalitet i teknisk dokumentationHantosi Albertsson, Sarah January 2015 (has links)
Denna uppsats har undersökt vilka textuella särdrag som upplevs som brott emot kvalitet för den tekniska dokumentationen internt på Saab och hur särdrag som valts enligt experters bedömning kan evalueras automatiskt. Uppsatsen har med hjälp av data som genererats ur en deltagande design föreslagit en ny automatisk metod för att undersöka kvalitet i teknisk dokumentation. Tekniska skribenter och redaktörer deltog för att besvara uppsatsens första fråga och resultatet ifrån detta är en samling textuella särdrag som är möjliga att kvantifiera. Ur samlingen valdes fyra textuella särdrag som sedan undersökts genom programmering med syfte att evaluera textens läsbarhet, textens unikhet och dess syntaktiska struktur genom dependensparsning och dependenslängd som ett värde för kvalitet. Kvalitetsvärdet som systemet genererar anses validerat. Uppsatsen visar därmed att det finns goda möjligheter att använda mått som en del i en kvalitetsbedömning för teknisk dokumentation.
|
36 |
Abbreviation Expansion in Swedish Clinical Text : Using Distributional Semantic Models and Levenshtein Distance NormalizationTengstrand, Lisa January 2014 (has links)
In the medical domain, especially in clinical texts, non-standard abbreviations are prevalent, which impairs readability for patients. To ease the understanding of the physicians' notes, abbreviations need to be identified and expanded into their original forms. This thesis presents a distributional semantic approach to find candidates of the original form of the abbreviation, which is combined with Levenshtein distance to choose the correct candidate among the semantically related words. The method is applied to radiology reports and medical journal texts, and a comparison is made to general Swedish. The results show that the correct expansion of the abbreviation can be found in 40% of the cases, an improvement by 24 percentage points compared to the baseline (0.16), and an increase by 22 percentage points compared to using word space models alone (0.18).
|
37 |
Identifying Base Noun Phrases by Means of Recurrent Neural Networks : Using Morphological and Dependency FeaturesWang, Tonghe January 2020 (has links)
Noun phrases convey key information in communication and are of interest in NLP tasks. A base NP is defined as the headword and left-hand side modifiers of a noun phrase. In this thesis, we identify base NPs in Universal Dependencies treebanks in English and French using an RNN architecture.The data of this thesis consist of three multi-layered treebanks in which each sentence is annotated in both constituency and dependency formalisms. To build our training data, we find base NPs in the constituency layers and project them onto the dependency layer by labeling corresponding tokens. For input features, we devised 18 configurations of features available in UD annotation. We train RNN models with LSTM and GRU cells with different numbers of epochs on these configurations of features.Tested on monolingual and bilingual test sets, our models delivered satisfactory token-based F1 scores (92.70% on English, 94.87% on French, 94.29% on bilingual test set). The most predicative configuration of features is found out to be pos_dep_parent_child_morph, which covers 1) dependency relations between the current token, its syntactic head, its leftmost and rightmost syntactic dependents; 2) PoS tags of these tokens; and 3) morphological features of the current token.
|
38 |
Specificity Prediction for Sentences in Press ReleasesHe, Tiantian January 2020 (has links)
Specificity is an important factor to text analysis. While much research on sentence specificity experiments upon news, very little is known about press releases. Our study is devoted to specificity in press releases, which are journalistic documents that companies share with the press and other media outlets. In this research, we analyze press releases about digital transformation written by pump companies, and develop tools for automatic measurement of sentence specificity. The goal of the research is to 1) explore the effects of data combination, 2) analyze features for specificity prediction, and 3) compare the effectiveness of classification and probability estimation. Through our experiment on various combinations of training data, we find that adding news data to the model effectively improves probability estimation, but the effects on classification are not noticeable. In terms of features, we find that the sentence length plays an essential role in specificity prediction. We remove twelve insignificant features, and this modification results in a model running faster as well as achieving comparable scores. We also find that both classification and probability estimation have drawbacks. With regard to probability estimation, models can score well by only making predictions around the threshold. Binary classification depends on the threshold, and threshold setting requires consideration. Besides, classification scores cannot sift out models that make unreliable judgement about high and low specificity sentences.
|
39 |
Clustering Short Texts: Categorizing Initial Utterances from Customer Service Dialogue AgentsHang, Sijia January 2021 (has links)
Text classification involves labeled data, which is not always available, or requires expensive manual labour.User-generated short texts are being produced in abundance in customer service sectors through transcripts of phone calls or chats online. This kind of unstructured textual data can be noisy and thus poses challenges to unsupervised classification methods developed for standard documents such as news articles.This thesis project explores some possible methods of unsupervised classification of user-generated short texts in Swedish on a real-world dataset of short texts collected from first utterances in a Conversational Interactive Voice Response solution. Such texts represent a spectrum of sub domains that customer service representative may handle, but are not extensively explored in the literature. We experiment with three types of pretrained word embeddings as text representation methods, and two clustering algorithms on two representative, but different, subsets of the data as well as the full dataset. The experimental results show that the static fastText embeddings are better suited than state-of-the-art contextual embeddings, such as those derived from BERT, at representing noisy short texts for clustering. In addition, we conduct manual (re-)labeling of selected subsets of the data as an exploratory analysis of the dataset and it shows that the provided labels are not reliable for meaningful evaluation.Furthermore, as the data often covers several overlapping concepts in a narrow domain, the existing pretrained embeddings are not effective at capturing the nuanced differences and the clustering algorithms do not separate the data points that fit the operational objectives according to provided labels. Nevertheless, our qualitative analysis shows that unsupervised clustering algorithms could contribute to the goal of minimizing manual efforts in the data labeling process to a certain degree in the preprocessing step, but more could be achieved in a semi-supervised ``human-in-the-loop'' manner.
|
40 |
Transfer Learning for Multilingual Offensive Language Detection with BERTCasula, Camilla January 2020 (has links)
The popularity of social media platforms has led to an increase in user-generated content being posted on the Internet. Users, masked behind what they perceive as anonymity, can express offensive and hateful thoughts on these platforms, creating a need to detect and filter abusive content. Since the amount of data available on the Internet is impossible to analyze manually, automatic tools are the most effective choice for detecting offensive and abusive messages. Academic research on the detection of offensive language on social media has been on the rise in recent years, with more and more shared tasks being organized on the topic. State-of-the-art deep-learning models such as BERT have achieved promising results on offensive language detection in English. However, multilingual offensive language detection systems, which focus on several languages at once, have remained underexplored until recently. In this thesis, we investigate whether transfer learning can be useful for improving the performance of a classifier for detecting offensive speech in Danish, Greek, Arabic, Turkish, German, and Italian. More specifically, we first experiment with using machine-translated data as input to a classifier. This allows us to evaluate whether machine translated data can help classification. We then experiment with fine-tuning multiple pre-trained BERT models at once. This parallel fine-tuning process, named multi-channel BERT (Sohn and Lee, 2019), allows us to exploit cross-lingual information with the goal of understanding its impact on the detection of offensive language. Both the use of machine translated data and the exploitation of cross-lingual information could help the task of detecting offensive language in cases in which there is little or no annotated data available, for example for low-resource languages. We find that using machine translated data, either exclusively or mixed with gold data, to train a classifier on the task can often improve its performance. Furthermore, we find that fine-tuning multiple BERT models in parallel can positively impact classification, although it can lead to robustness issues for some languages.
|
Page generated in 0.0629 seconds