Spelling suggestions: "subject:"språkteknologi"" "subject:"språkteknologin""
241 |
Den offentliga dagboken : Vilka uttrycksmedel använder sig gymnasieungdomar av på dagboksbloggar? / The public diary : What means of expression do high school students use in their diary blogs?Karlsson, Jessica January 2008 (has links)
<p> </p><p>Internet har sedan starten öppnat nya portar för kommunikation. En av de allra populäraste just nu är att blogga. Att uttrycka sig språkligt har kommit att bli så mycket mer än bara att använda sig av ord. På bloggen ges möjlighet att tillföra bild, film, färg och att använda olika typografiska medel, såsom att kursivera eller göra text fetstilt. Element som alla bidrar till hur text tolkas.</p><p>Utifrån fjorton dagboksbloggar och totalt 289 blogginlägg har min uppsats syftat till att undersöka hur framställning på dessa bloggar, tillhörande gymnasieelever, skett.</p><p>Mina frågeställningar jag utgått ifrån lyder:</p><ul type="disc"><li>Hur använder sig gymnasieungdomar av olika uttrycksmedel för att estetiskt och kreativt skapa ett blogginlägg på så kallade dagboksbloggar?</li></ul><p>- Hur används rubriksättning, bild, film, färg och olika stilformat på texten för att skapa kommunikation och olika uttryck på blogginläggen?</p><ul type="disc"><li>Hur förhåller sig gymnasieungdomars dagboksblogg till den traditionella dagboken vad det gäller utformning och kommunikationsmöjligheter?</li></ul><p>Genom en strukturalistisk analys, med utgångspunkt hos Jurij Lotman, har jag gripit mig an blogginläggen på olika plan där jag både undersökt detaljer i texten och övergripande utformning. Jag har funnit att dagboksbloggen och dagboken skiljer sig på flera plan. Främst i fråga om kommunikationen som sker öppet på dagboksbloggen. Språkligt utmärker sig bloggen främst genom att ord och meningar betonas genom fetstilt och kursiv text, både för att göra texten mer lättövergriplig men också för att betona uttryck. Smileys och andra känslouttryck visar i sin tur hur ungdomarna undviker missförstånd på ett sätt som inte kräver bearbetning av texten. Jag vill säga att uppsatsen visar på hur en vidgad syn på språklighet och kommunikation idag är nödvändig, i och med de nya medel som tillkommit i dagens IT-samhälle.</p><p> </p> / <p> </p><p>Internet has since the beginning widened the form of communication. In recent times one of the most popular form is via blogs.</p><p>To express yourself has become more than words. The blogs give you the ability to add pictures, videos, colors and more. You are also able to use typological medium like italic and bold types. All these elements contribute to how the text is read and interpreted.</p><p>From 14 different diary blogs written by high school students and 289 posts in total my thesis intend to study which method of fabrications these blogs use.</p><p>The question formulations I have based my thesis on are:</p><p>· How do high school students use different ways of expressions to esthetical and creatively create posts at the so called diary blogs?</p><p>- How does headlining, pictures, film, colour and different typological medium being used to create communication and different expression on the posts?</p><p>· How does the diary blog relate to the traditional diary regarding the formation and forms of communication?</p><p>Through a structuralistic analysis method based on Jurij Lotman’s analysis I’ve approached the posts on different levels, where I examine details in the text but also the structure. I’ve found that the diary blog and the diary separate from each other on several plans, foremost the way of communication which is overt in a diary blog. Linguistically the diary blog distinguish itself from diaries by the way to be able to emphasize words or a sentence with italic and bold types. Smileys and different kinds of emotional forms of expressions are used by the blogger to avoid misconceptions.</p><p>The thesis has proven that a widening way of looking at linguistic and communications are necessary due to the new medium that comes with the IT.</p><p> </p>
|
242 |
Answer Triggering Mechanisms in Neural Reading Comprehension-based Question Answering SystemsTrembczyk, Max January 2019 (has links)
We implement a state-of-the-art question answering system based on Convolutional Neural Networks and Attention Mechanisms and include four different variants of answer triggering that have been discussed in recent literature. The mechanisms are included in different places in the architecture and work with different information and mechanisms. We train, develop and test our models on the popular SQuAD data set for Question Answering based on Reading Comprehension that has in its latest version been equipped with additional non-answerable questions that have to be retrieved by the systems. We test the models against baselines and against each other and provide an extensive evaluation both in a general question answering task and in the explicit performance of the answer triggering mechanisms. We show that the answer triggering mechanisms all clearly improve the model over the baseline without answer triggering by as much as 19.6% to 31.3% depending on the model and the metric. The best performance in general question answering shows a model that we call Candidate:No, that treats the possibility that no answer can be found in the document as just another answer candidate instead of having an additional decision step at some place in the model's architecture as in the other three mechanisms. The performance on detecting the non-answerable questions is very similar in three of the four mechanisms, while one performs notably worse. We give suggestions which approach to use when a more or less conservative approach is desired, and discuss suggestions for future developments.
|
243 |
Word2vec2syn : Synonymidentifiering med Word2vec / Word2vec2syn : Synonym Identification using Word2vecPettersson, Tove January 2019 (has links)
Inom NLP (eng. natural language processing) är synonymidentifiering en av de språkvetenskapliga utmaningarna som många antar. Fodina Language Technology AB är ett företag som skapat ett verktyg, Termograph, ämnad att samla termer inom företag och hålla den interna språkanvändningen konsekvent. En metodkombination bestående av språkteknologiska strategier utgör synonymidentifieringen och Fodina önskar ett större täckningsområde samt mer dynamik i framtagningsprocessen. Därav syftade detta arbete till att ta fram en ny metod, utöver metodkombinationen, för just synonymidentifiering. En färdigtränad Word2vec-modell användes och den inbyggda funktionen för cosinuslikheten användes för att få fram synonymer och skapa kluster. Modellen validerades, testades och utvärderades i förhållande till metodkombinationen. Valideringen visade att modellen skattade inom ett rimligt mänskligt spann i genomsnitt 60,30 % av gångerna och Spearmans korrelation visade på en signifikant stark korrelation. Testningen visade att 32 % av de bearbetade klustren innehöll matchande synonymförslag. Utvärderingen visade att i de fall som förslagen inte matchade så var modellens synonymförslag korrekta i 5,73 % av fallen jämfört med 3,07 % för metodkombinationen. Den interna reliabiliteten för utvärderarna visade på en befintlig men svag enighet, Fleiss Kappa = 0,19, CI(0,06, 0,33). Trots viss osäkerhet i resultaten påvisas ändå möjligheter för vidare användning av word2vec-modeller inom Fodinas synonymidentifiering. / One of the main challenges in the field of natural language processing (NLP) is synonym identification. Fodina Language Technology AB is the company behind the tool, Termograph, that aims to collect terms and provide a consistent language within companies. A combination of multiple methods from the field of language technology constitutes the synonym identification and Fodina would like to improve the area of coverage and increase the dynamics of the working process. The focus of this thesis was therefore to evaluate a new method for synonym identification beyond the already used combination. Initially a trained Word2vec model was used and for the synonym identification the built-in-function for cosine similarity was applied in order to create clusters. The model was validated, tested and evaluated relative to the combination. The validation implicated that the model made estimations within a fair human-based range in an average of 60.30% and Spearmans correlation indicated a strong significant correlation. The testing showed that 32% of the processed synonym clusters contained matching synonym suggestions. The evaluation showed that the synonym suggestions from the model was correct in 5.73% of all cases compared to 3.07% for the combination in the cases where the clusters did not match. The interrater reliability indicated a slight agreement, Fleiss’ Kappa = 0.19, CI(0.06, 0.33). Despite uncertainty in the results, opportunities for further use of Word2vec-models within Fodina’s synonym identification are nevertheless demonstrated.
|
244 |
Word Clustering in an Interactive Text Analysis Tool / Klustring av ord i ett interaktivt textanalysverktygGränsbo, Gustav January 2019 (has links)
A central operation of users of the text analysis tool Gavagai Explorer is to look through a list of words and arrange them in groups. This thesis explores the use of word clustering to automatically arrange the words in groups intended to help users. A new word clustering algorithm is introduced, which attempts to produce word clusters tailored to be small enough for a user to quickly grasp the common theme of the words. The proposed algorithm computes similarities among words using word embeddings, and clusters them using hierarchical graph clustering. Multiple variants of the algorithm are evaluated in an unsupervised manner by analysing the clusters they produce when applied to 110 data sets previously analysed by users of Gavagai Explorer. A supervised evaluation is performed to compare clusters to the groups of words previously created by users of Gavagai Explorer. Results show that it was possible to choose a set of hyperparameters deemed to perform well across most data sets in the unsupervised evaluation. These hyperparameters also performed among the best on the supervised evaluation. It was concluded that the choice of word embedding and graph clustering algorithm had little impact on the behaviour of the algorithm. Rather, limiting the maximum size of clusters and filtering out similarities between words had a much larger impact on behaviour.
|
245 |
Fria och öppna programvaror inom kommunal verksamhet : Vägen mot öppna standarder? / Free- and open source software in municipalities : The way towards open standards?Hanson, Malin, Larsson, Mikael January 2009 (has links)
<p>This report deals with the attitudes within municipalities of open source software and open standards and if open source software may be an option to gain open standards. The aim has been to find out if open source software and open standards would be able to solve the lock-in problems that municipalities have against proprietary software. The study is conducted as an exploratory, inductive and qualitative study with depth interviews of subjectively selected informants as data collection method. A literature review has also been implemented by the relevant books and articles. Some economic determinants of municipalities to make use of open source software have not been considered in this study. The informants used in this study are all IT managers in a Swedish municipality and our key informants have been selected in a subjective manner based on the expertise they have in the subject. The conclusions drawn were that municipalities have been difficult to define standards and open standards, and that they do not automatically see the connection between open standards and open software. They also see different areas of interest for standardization.</p> / <p>Denna rapport tar upp kommuners inställning till öppna program och öppna standarder och om öppen programvara kan vara ett alternativ för att få öppna standarder. Syftet har varit att ta reda på om öppna program och öppna standarder skulle kunna lösa de problem som kommuner har med inlåsningar mot proprietär programvara. Studien är genomförd som en explorativ, induktiv och kvalitativ studie med djupintervju av subjektivt utvalda informanter som datainsamlingsmetod. En litteraturgranskning har också genomförts av relevanta böcker och artiklar. Några ekonomiska faktorer för kommuner att använda sig av öppen programvara har inte beaktats i denna studie. De informanter som använts i denna studie är alla ITchefer inom någon svensk kommun och nyckelinformanterna har valts ut på ett subjektivt sätt utifrån den expertkunskap de besitter inom ämnet. Slutsatserna som drogs var att kommuner har svårt att definiera standarder och öppna standarder, och att de inte med automatik ser kopplingen mellan öppna standarder och öppen programvara. De ser också olika områden som intressanta för en standardisering.</p>
|
246 |
Attitydanalys av svenska produktomdömen – behövs språkspecifika verktyg? / Sentiment Analysis of Swedish Product Reviews – Are Language-specific Tools Necessary?Glant, Oliver January 2018 (has links)
Sentiment analysis of Swedish data is often performed using English tools and machine. This thesis compares using a neural network trained on Swedish data with a corresponding one trained on English data. Two datasets were used: approximately 200,000 non-neutral Swedish reviews from the company Prisjakt Sverige AB, one of the largest annotated datasets used for Swedish sentiment analysis, and 1,000,000 non-neutral English reviews from Amazon.com. Both networks were evaluated on 11,638 randomly selected reviews, in Swedish and in English machine translation. The test set had the same overrepresentation of positive reviews as the Swedish dataset (84% were positive). The results suggest that English tools can be used with machine translation for sentiment analysis of Swedish reviews, without loss of classification ability. However, the English tool required 33% more training data to achieve maximum performance. Evaluation on the unbalanced test set required extra consideration regarding statistical measures. F1-measure turned out to be reliable only when calculated for the underrepresented class. It then showed a strong correlation with the Matthews correlation coefficient, which has been found to be more reliable. This warrants further investigation into whether the correlation is valid for all different balances, which would simplify comparison between studies. / Attitydanalys av svensk data sker i många fall genom maskinöversättning till engelska för att använda tillgängliga analysverktyg. I den här uppsatsen undersöktes skillnaden mellan användning av ett neuronnät tränat på svensk data och av motsvarande neuronnät tränat på engelsk data. Två datamängder användes: cirka 200 000 icke-neutrala svenska produktomdömen från Prisjakt Sverige AB, en av de största annoterade datamängder som använts för svensk attitydanalys, och 1 000 000 icke-neutrala engelskaproduktomdömen från Amazon.com. Båda versionerna av neuronnätet utvärderades på 11 638 slumpmässigt utvalda svenska produktomdömen, i original och maskinöversatta till engelska. Testmängden hade samma överrepresentation av positiva omdömen som den svenska datamängden (84% positiva omdömen). Resultaten tyder på att engelska verktyg med hjälp av maskinöversättning kan användas för attitydanalys av svenska produktomdömen med bibehållen klassificeringsförmåga, dock krävdes cirka 33% större träningsdata för att det engelska verktyget skulle uppnå maximal klassificeringsförmåga. Utvärdering på den obalanserade datamängden visade sig ställa särskilda krav på de statistiska mått som användes. F1-värde fungerade tillfredsställande endast när det beräknades för den underrepresenterade klassen. Det korrelerade då starkt med Matthews korrelationskoefficient, som tidigare funnits vara ett pålitligare mått. Om korrelationen gäller vid alla olika balanser skulle jämförelser mellan olika studiers resultat underlättas, något som bör undersökas.
|
247 |
Natural language processing in cross-media analysisWoldemariam, Yonas Demeke January 2018 (has links)
A cross-media analysis framework is an integrated multi-modal platform where a media resource containing different types of data such as text, images, audio and video is analyzed with metadata extractors, working jointly to contextualize the media resource. It generally provides cross-media analysis and automatic annotation, metadata publication and storage, searches and recommendation services. For on-line content providers, such services allow them to semantically enhance a media resource with the extracted metadata representing the hidden meanings and make it more efficiently searchable. Within the architecture of such frameworks, Natural Language Processing (NLP) infrastructures cover a substantial part. The NLP infrastructures include text analysis components such as a parser, named entity extraction and linking, sentiment analysis and automatic speech recognition. Since NLP tools and techniques are originally designed to operate in isolation, integrating them in cross-media frameworks and analyzing textual data extracted from multimedia sources is very challenging. Especially, the text extracted from audio-visual content lack linguistic features that potentially provide important clues for text analysis components. Thus, there is a need to develop various techniques to meet the requirements and design principles of the frameworks. In our thesis, we explore developing various methods and models satisfying text and speech analysis requirements posed by cross-media analysis frameworks. The developed methods allow the frameworks to extract linguistic knowledge of various types and predict various information such as sentiment and competence. We also attempt to enhance the multilingualism of the frameworks by designing an analysis pipeline that includes speech recognition, transliteration and named entity recognition for Amharic, that also enables the accessibility of Amharic contents on the web more efficiently. The method can potentially be extended to support other under-resourced languages.
|
248 |
Automatisk kvalitetskontroll av terminologi i översättningar / Automatic quality checking of terminology in translationsEdholm, Lars January 2007 (has links)
Kvalitet hos översättningar är beroende av korrekt användning av specialiserade termer, som kan göra översättningen lättare att förstå och samtidigt minska tidsåtgång och kostnader för översättningen (Lommel, 2007). Att terminologi används konsekvent är viktigt, och något som bör granskas vid en kvalitetskontroll av exempelvis översatt dokumentation (Esselink, 2000). Det finns idag funktioner för automatisk kontroll av terminologi i flera kommersiella program. Denna studie syftar till att utvärdera sådana funktioner, då ingen tidigare större studie av detta har påträffats. För att få en inblick i hur kvalitetskontroll sker i praktiken genomfördes först två kvalitativa intervjuer med personer involverade i detta på en översättningsbyrå. Resultaten jämfördes med aktuella teorier inom området och visade på stor överensstämmelse med vad exempelvis Bass (2006) förespråkar. Utvärderingarna inleddes med en granskning av täckningsgrad hos en verklig termdatabas jämfört med subjektivt markerade termer i en testkorpus baserad på ett autentiskt översättningsminne. Granskningen visade dock på relativt låg täckningsgrad. För att öka täckningsgraden modifierades termdatabasen, bland annat utökades den med längre termer ur testkorpusen. Därefter kördes fyra olika programs funktion för kontroll av terminologi i testkorpusen jämfört med den modifierade termdatabasen. Slutligen modifierades även testkorpusen, där ett antal fel placerades ut för att få en mer idealiserad utvärdering. Resultaten i form av larm för potentiella fel kategoriserades och bedömdes som riktiga eller falska larm. Detta utgjorde basen för mått på kontrollernas precision och i den sista utvärderingen även deras recall. Utvärderingarna visade bland annat att det för terminologi i översättningar på engelska - svenska var mest fördelaktigt att matcha termdatabasens termer som delar av ord i översättningens käll- och målsegment. På så sätt kan termer med olika böjningsformer fångas utan stöd för språkspecifik morfologi. En orsak till många problem vid matchningen var utseendet på termdatabasens poster, som var mer anpassat för mänskliga översättare än för maskinell läsning. Utifrån intervjumaterialet och utvärderingarnas resultat formulerades rekommendationer kring införandet av verktyg för automatisk kontroll av terminologi. På grund av osäkerhetsfaktorer i den automatiska kontrollen motiveras en manuell genomgång av dess resultat. Genom att köra kontrollen på stickprov som redan granskats manuellt ur andra aspekter, kan troligen en lämplig omfattning av resultat att gå igenom manuellt erhållas. Termdatabasens kvalitet är avgörande för dess täckningsgrad för översättningar, och i förlängningen också för nyttan med att använda den för automatisk kontroll. / Quality in translations depends on the correct use of specialized terms, which can make the translation easier to understand as well as reduce the required time and costs for the translation (Lommel, 2007). Consistent use of terminology is important, and should be taken into account during quality checks of for example translated documentation (Esselink, 2000). Today, several commercial programs have functions for automatic quality checking of terminology. The aim of this study is to evaluate such functions since no earlier major study of this has been found. To get some insight into quality checking in practice, two qualitative interviews were initially carried out with individuals involved in this at a translation agency. The results were compared to current theories in the subject field and revealed a general agreement with for example the recommendations of Bass (2006). The evaluations started with an examination of the recall for a genuine terminology database compared to subjectively marked terms in a test corpus based on an authentic translation memory. The examination however revealed a relatively low recall. To increase the recall the terminology database was modified, it was for example extended with longer terms from the test corpus. After that, the function for checking terminology in four different commercial programs was run on the test corpus using the modified terminology database. Finally, the test corpus was also modified, by planting out a number of errors to produce a more idealized evaluation. The results from the programs, in the form of alarms for potential errors, were categorized and judged as true or false alarms. This constitutes a base for measures of precision of the checks, and in the last evaluation also of their recall. The evaluations showed that for terminology in translations of English to Swedish, it was advantageous to match terms from the terminology database using partial matching of words in the source and target segments of the translation. In that way, terms with different inflected forms could be matched without support for languagespecific morphology. A cause of many problems in the matching process was the form of the entries in the terminology database, which were more suited for being read by human translators than by a machine. Recommendations regarding the introduction of tools for automatic checking of terminology were formulated, based on the results from the interviews and evaluations. Due to factors of uncertainty in the automatic checking, a manual review of its results is motivated. By running the check on a sample that has already been manually checked in other aspects, a reasonable number of results to manually review can be obtained. The quality of the terminology database is crucial for its recall on translations, and in the long run also for the value of using it for automatic checking.
|
249 |
Phonotactic Structures in Swedish : A Data-Driven ApproachHultin, Felix January 2017 (has links)
Ever since Bengt Sigurd laid out the first comprehensive description of Swedish phonotactics in 1965, it has been the main point of reference within the field. This thesis attempts a new approach, by presenting a computational and statistical model of Swedish phonotactics, which can be built by any corpus of IPA phonetic script. The model is a weighted trie, represented as a finite state automaton, where states are phonemes linked by transitions in valid phoneme sequences, which adds the benefits of being probabilistic and expressible by regular languages. It was implemented using the Nordisk Språkteknologi (NST) pronunciation lexicon and was used to test against a couple of rulesets defined in Sigurd relating to initial two consonant clusters of phonemes and phoneme classes. The results largely agree with Sigurd's rules and illustrated the benefits of the model, in that it effectively can be used to pattern match against phonotactic information using regular expression-like syntax. / Ända sedan Bengt Sigurd lade fram den första övergripande beskrivningen av svensk fonotax 1965, så har den varit den främsta referenspunkten inom fältet. Detta examensarbete försöker sig på en ny infallsvinkel genom att presentera en beräkningsbar och statistisk modell av svensk fonotax som kan byggas med en korpus av fonetisk skrift i IPA. Modellen är en viktad trie, representerad som en ändlig automat, vilket har fördelarna av att vara probabilistisk och kunna beskrivas av reguljära språk. Den implementerades med hjälp av uttalslexikonet från Nordisk Språkteknologi (NST) och användes för att testa ett par regelgrupper av initiala två-konsonant kluster av fonem och fonemklasser definierad av Sigurd. Resultaten stämmer till större del överens med Sigurds regler och visar på fördelarna hos modellen, i att den effektivt kan användas för att matcha mönster av fonotaktisk information med hjälp av en liknande syntax för reguljära uttryck.
|
250 |
Fria och öppna programvaror inom kommunal verksamhet : Vägen mot öppna standarder? / Free- and open source software in municipalities : The way towards open standards?Hanson, Malin, Larsson, Mikael January 2009 (has links)
This report deals with the attitudes within municipalities of open source software and open standards and if open source software may be an option to gain open standards. The aim has been to find out if open source software and open standards would be able to solve the lock-in problems that municipalities have against proprietary software. The study is conducted as an exploratory, inductive and qualitative study with depth interviews of subjectively selected informants as data collection method. A literature review has also been implemented by the relevant books and articles. Some economic determinants of municipalities to make use of open source software have not been considered in this study. The informants used in this study are all IT managers in a Swedish municipality and our key informants have been selected in a subjective manner based on the expertise they have in the subject. The conclusions drawn were that municipalities have been difficult to define standards and open standards, and that they do not automatically see the connection between open standards and open software. They also see different areas of interest for standardization. / Denna rapport tar upp kommuners inställning till öppna program och öppna standarder och om öppen programvara kan vara ett alternativ för att få öppna standarder. Syftet har varit att ta reda på om öppna program och öppna standarder skulle kunna lösa de problem som kommuner har med inlåsningar mot proprietär programvara. Studien är genomförd som en explorativ, induktiv och kvalitativ studie med djupintervju av subjektivt utvalda informanter som datainsamlingsmetod. En litteraturgranskning har också genomförts av relevanta böcker och artiklar. Några ekonomiska faktorer för kommuner att använda sig av öppen programvara har inte beaktats i denna studie. De informanter som använts i denna studie är alla ITchefer inom någon svensk kommun och nyckelinformanterna har valts ut på ett subjektivt sätt utifrån den expertkunskap de besitter inom ämnet. Slutsatserna som drogs var att kommuner har svårt att definiera standarder och öppna standarder, och att de inte med automatik ser kopplingen mellan öppna standarder och öppen programvara. De ser också olika områden som intressanta för en standardisering.
|
Page generated in 0.0457 seconds