• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 25
  • 8
  • Tagged with
  • 33
  • 33
  • 33
  • 15
  • 12
  • 10
  • 7
  • 6
  • 6
  • 6
  • 5
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.

Compound Processing for Phrase-Based Statistical Machine Translation

Stymne, Sara January 2009 (has links)
<p>In this thesis I explore how compound processing can be used to improve phrase-based statistical machine translation (PBSMT) between English and German/Swedish. Both German and Swedish generally use closed compounds, which are written as one word without spaces or other indicators of word boundaries. Compounding is both common and productive, which makes it problematic for PBSMT, mainly due to sparse data problems.</p><p>The adopted strategy for compound processing is to split compounds into their component parts before training and translation. For translation into Swedish and German the parts are merged after translation. I investigate the effect of different splitting algorithms for translation between English and German, and of different merging algorithms for German. I also apply these methods to a different language pair, English--Swedish. Overall the studies show that compound processing is useful, especially for translation from English into German or Swedish. But there are improvements for translation into English as well, such as a reduction of unknown words.</p><p>I show that for translation between English and German different splitting algorithms work best for different translation directions. I also design and evaluate a novel merging algorithm based on part-of-speech matching, which outperforms previous methods for compound merging, showing the need for information that is carried through the translation process, rather than only external knowledge sources such as word lists. Most of the methods for compound processing were originally developed for German. I show that these methods can be applied to Swedish as well, with similar results.</p>

Generalized Hebbian Algorithm for Dimensionality Reduction in Natural Language Processing

Gorrell, Genevieve January 2006 (has links)
The current surge of interest in search and comparison tasks in natural language processing has brought with it a focus on vector space approaches and vector space dimensionality reduction techniques. Presenting data as points in hyperspace provides opportunities to use a variety of welldeveloped tools pertinent to this representation. Dimensionality reduction allows data to be compressed and generalised. Eigen decomposition and related algorithms are one category of approaches to dimensionality reduction, providing a principled way to reduce data dimensionality that has time and again shown itself capable of enabling access to powerful generalisations in the data. Issues with the approach, however, include computational complexity and limitations on the size of dataset that can reasonably be processed in this way. Large datasets are a persistent feature of natural language processing tasks. This thesis focuses on two main questions. Firstly, in what ways can eigen decomposition and related techniques be extended to larger datasets? Secondly, this having been achieved, of what value is the resulting approach to information retrieval and to statistical language modelling at the ngram level? The applicability of eigen decomposition is shown to be extendable through the use of an extant algorithm; the Generalized Hebbian Algorithm (GHA), and the novel extension of this algorithm to paired data; the Asymmetric Generalized Hebbian Algorithm (AGHA). Several original extensions to the these algorithms are also presented, improving their applicability in various domains. The applicability of GHA to Latent Semantic Analysisstyle tasks is investigated. Finally, AGHA is used to investigate the value of singular value decomposition, an eigen decomposition variant, to ngram language modelling. A sizeable perplexity reduction is demonstrated.

Dialogue Behavior Management in Conversational Recommender Systems

Wärnestål, Pontus January 2007 (has links)
This thesis examines recommendation dialogue, in the context of dialogue strategy design for conversational recommender systems. The purpose of a recommender system is to produce personalized recommendations of potentially useful items from a large space of possible options. In a conversational recommender system, this task is approached by utilizing natural language recommendation dialogue for detecting user preferences, as well as for providing recommendations. The fundamental idea of a conversational recommender system is that it relies on dialogue sessions to detect, continuously update, and utilize the user's preferences in order to predict potential interest in domain items modeled in a system. Designing the dialogue strategy management is thus one of the most important tasks for such systems. Based on empirical studies as well as design and implementation of conversational recommender systems, a behavior-based dialogue model called bcorn is presented. bcorn is based on three constructs, which are presented in the thesis. It utilizes a user preference modeling framework (preflets) that supports and utilizes natural language dialogue, and allows for descriptive, comparative, and superlative preference statements, in various situations. Another component of bcorn is its message-passing formalism, pcql, which is a notation used when describing preferential and factual statements and requests. bcorn is designed to be a generic recommendation dialogue strategy with conventional, information-providing, and recommendation capabilities, that each describes a natural chunk of a recommender agent's dialogue strategy, modeled in dialogue behavior diagrams that are run in parallel to give rise to coherent, flexible, and effective dialogue in conversational recommender systems. Three empirical studies have been carried out in order to explore the problem space of recommendation dialogue, and to verify the solutions put forward in this work. Study I is a corpus study in the domain of movie recommendations. The result of the study is a characterization of recommendation dialogue, and forms a base for a first prototype implementation of a human-computer recommendation dialogue control strategy. Study II is an end-user evaluation of the acorn system that implements the dialogue control strategy and results in a verification of the effectiveness and usability of the dialogue strategy. There are also implications that influence the refinement of the model that are used in the bcorn dialogue strategy model. Study III is an overhearer evaluation of a functional conversational recommender system called CoreSong, which implements the bcorn model. The result of the study is indicative of the soundness of the behavior-based approach to conversational recommender system design, as well as the informativeness, naturalness, and coherence of the individual bcorn dialogue behaviors. / I denna avhandling undersöks rekommendationsdialog med avseende på utformningen av dialogstrategier f¨or konverserande rekommendationssystem. Syftet med ett rekommendationssystem är att generera personaliserade rekommendationer utifrån potentiellt användbara domänobjekt i stora informationsrymder. I ett konverserande rekommendationssystem angrips detta problem genom att utnyttja naturligt språkk och dialog för att modellera användarpreferenser, liksom för att ge rekommendationer. Grundidén med konverserande rekommendationssystem är att utnyttja dialogsessioner för att upptäcka, uppdatera och utnyttja en användares preferenser för att förutsäga användarens intresse för domänobjekten som modelleras i ett system. Utformningen av dialogstrategihantering är därför en av de viktigaste uppgifterna för sådana system. Baserat på empiriska studier, liksom på utformning och implementering av konverserande rekommendationssystem, presenteras en beteendebaserad dialogmodell som kallas bcorn. bcorns bas utgörs av tre konstruktioner, vilka alla presenteras i denna avhandling. bcorn utnyttjar ett preferensmodelleringsramverk (preflets) som stöder och anv¨ander sig av naturligt språk i dialog och tillåter deskriptiva, komparativa och superlativa preferensuttryck i olika situationer. Den andra komponenten i bcorn är dess interna meddelande-formalism pcql, som är en notation som kan beskriva preferens- och faktiska påståenden och frågor. bcorn är utformat som en generell rekommendationshanteringsstrategi med konventionella, informationsgivande och rekommenderande förmågor, som var och en beskriver naturliga delar av en rekommendationsagents dialogstrategi. Dessa delar modelleras i dialogbeteendediagram som exekveras parallellt för att ge upphov till koherent, flexibel och effektiv dialog i konverserande rekommendationssystem. Tre empiriska studier har utförts för att utforska problemkomplexet som utgör rekommendationsdialog och för att verifiera de lösningar som tagits fram inom ramen för detta arbete. Studie I är en korpusstudie i filmrekommendationsdomänen. Studien resulterar i en karakteristik av rekommendationsdialog, och utgör basen för en första prototyp av dialoghanteringsstrategi för rekommendationsdialog mellan människa och dator. Studie II är en slutanvändarutvärdering av systemet acorn som implementerar denna dialoghanteringsstrategi och resulterar i en verifiering av effektivitet och användbarhet av strategin. Studien resulterar också i implikationer som påverkar utformningen av den modell som används i bcorn. Studie III är en medhörningsutvärdering av det funktionella konverserande rekommendationssystemet CoreSong, som implementerar bcorn-modellen. Resultatet av studien indikerar att det beteendebaserade angreppssättet är funktionellt och att de olika dialogbeteendena i bcorn ger upphov till h¨og informationskvalitet, naturlighet och koherens i rekommendationsdialog.

Creation of a customised character recognition application

Sandgren, Frida January 2005 (has links)
This master’s thesis describes the work in creating a customised optical character recognition (OCR) application; intended for use in digitisation of theses submitted to the Uppsala University in the 18th and 19th centuries. For this purpose, an open source software called Gamera has been used for recognition and classification of the characters in the documents. The software provides specific algorithms for analysis of heritage documents and is designed to be used as a tool for creating domain-specific (i.e. customised) recognition applications. By using the Gamera classifier training interface, classifier data was created which reflects the characters in the particular theses. The data can then be used in automatic recognition of ‘new’ characters, by loading it into one of Gamera’s classifiers. The output of Gamera are sets of classified glyphs (i.e. small images of characters), stored in an XML-based format. However, as OCR typically involves translation of images of text into a machine-readable format, a complementary OCR-module was needed. For this purpose, an external Gamera module for page segmentation was modified and used. In addition, a script for control of the OCR-process was created, which initiates the page segmentation on Gamera classified glyphs. The result is written to text files. Finally, in a test for recognition accuracy, one of the theses was used for creation of training data and for test of data. The result from the test show an average accuracy rate of 82% and that there is a need for a better pre-processing module which removes more noise from the images, as well as recognises different character sizes in the images before they are run by the OCR-process.

Classification into Readability Levels : Implementation and Evaluation

Larsson, Patrik January 2006 (has links)
The use for a readability classification model is mainly as an integrated part of an information retrieval system. By matching the user's demands of readability to the documents with the corresponding readability, the classification model can further improve the results of, for example, a search engine. This thesis presents a new solution for classification into readability levels for Swedish. The results from the thesis are a number of classification models. The models were induced by training a Support Vector Machines classifier on features that are established by previous research as good measurements of readability. The features were extracted from a corpus annotated with three readability levels. Natural Language Processing tools for tagging and parsing were used to analyze the corpus and enable the extraction of the features from the corpus. Empirical testings of different feature combinations were performed to optimize the classification model. The classification models render a good and stable classification. The best model obtained a precision score of 90.21\% and a recall score of 89.56\% on the test-set, which is equal to a F-score of 89.88. / Uppsatsen beskriver utvecklandet av en klassificeringsmodell för Svenska texter beroende på dess läsbarhet. Användningsområdet för en läsbaretsklassificeringsmodell är främst inom informationssökningssystem. Modellen kan öka träffsäkerheten på de dokument som anses relevanta av en sökmotor genom att matcha användarens krav på läsbarhet med de indexerade dokumentens läsbarhet. Resultatet av uppsatsen är ett antal modeller för klassificering av text beroende på läsbarhet. Modellerna har tagits fram genom att träna upp en Support Vector Machines klassificerare, på ett antal särdrag som av tidigare forskning har fastslagits vara goda mått på läsbarhet. Särdragen extraherades från en korpus som är annoterad med tre läsbarhetsnivåer. Språkteknologiska verktyg för taggning och parsning användes för att möjliggöra extraktionen av särdragen. Särdragen utvärderades empiriskt i olika särdragskombinationer för att optimera modellerna. Modellerna testades och utvärderades med goda resultat. Den bästa modellen hade en precision på 90,21 och en recall på 89,56, detta ger en F-score som är 89,88. Uppsatsen presenterar förslag på vidareutveckling samt potentiella användningsområden.

Rättssäker Textanalys

Svensson, Henrik, Lindqvist, Kalle January 2019 (has links)
Digital språkbehandling (natural language processing) är ett forskningsområde inom vilketdet ständigt görs nya framsteg. En betydande del av den textanalys som sker inom dettafält har som mål att uppnå en fullgod tillämpning kring dialogen mellan människa ochdator. I denna studie vill vi dock fokusera på den inverkan digital språkbehandling kan hapå den mänskliga inlärningsprocessen. Vårt praktiska testområde har också en framtidainverkan på en av de mest grundläggande förutsättningarna för ett rättssäkert samhälle,nämligen den polisiära rapportskrivningen.Genom att skapa en teoretisk idébas som förenar viktiga aspekter av digital språk-behandling och polisrapportskrivning samt därefter implementera dem i en pedagogiskwebbplattform ämnad för polisstudenter är vi av uppfattningen att vår forskning tillförnågot nytt inom det datavetenskapliga respektive det samhällsvetenskapliga fälten.Syftet med arbetet är att verka som de första stegen mot en webbapplikation somunderstödjer svensk polisdokumentation. / Natural language processing is a research area in which new advances are constantly beingmade. A significant portion of text analyses that takes place in this field have the aim ofachieving a satisfactory application in the dialogue between human and computer. In thisstudy, we instead want to focus on what impact natural language processing can have onthe human learning process.Simultaneously, the context for our research has a future impact on one of the mostbasic principles for a legally secure society, namely the writing of the police report.By creating a theoretical foundation of ideas that combines aspects of natural languageprocessing as well as official police report writing and then implementing them in aneducational web platform intended for police students, we are of the opinion that ourresearch adds something new in the computer science and sociological fields.The purpose of this work is to act as the first steps towards a web application thatsupports the Swedish police documentation.

Den offentliga dagboken : Vilka uttrycksmedel använder sig gymnasieungdomar av på dagboksbloggar? / The public diary : What means of expression do high school students use in their diary blogs?

Karlsson, Jessica January 2008 (has links)
<p> </p><p>Internet har sedan starten öppnat nya portar för kommunikation. En av de allra populäraste just nu är att blogga. Att uttrycka sig språkligt har kommit att bli så mycket mer än bara att använda sig av ord. På bloggen ges möjlighet att tillföra bild, film, färg och att använda olika typografiska medel, såsom att kursivera eller göra text fetstilt. Element som alla bidrar till hur text tolkas.</p><p>Utifrån fjorton dagboksbloggar och totalt 289 blogginlägg har min uppsats syftat till att undersöka hur framställning på dessa bloggar, tillhörande gymnasieelever, skett.</p><p>Mina frågeställningar jag utgått ifrån lyder:</p><ul type="disc"><li>Hur använder sig gymnasieungdomar av olika uttrycksmedel för att estetiskt och kreativt skapa ett blogginlägg på så kallade dagboksbloggar?</li></ul><p>-          Hur används rubriksättning, bild, film, färg och olika stilformat på texten för att skapa kommunikation och olika uttryck på blogginläggen?</p><ul type="disc"><li>Hur förhåller sig gymnasieungdomars dagboksblogg till den traditionella dagboken vad det gäller utformning och kommunikationsmöjligheter?</li></ul><p>Genom en strukturalistisk analys, med utgångspunkt hos Jurij Lotman, har jag gripit mig an blogginläggen på olika plan där jag både undersökt detaljer i texten och övergripande utformning. Jag har funnit att dagboksbloggen och dagboken skiljer sig på flera plan. Främst i fråga om kommunikationen som sker öppet på dagboksbloggen. Språkligt utmärker sig bloggen främst genom att ord och meningar betonas genom fetstilt och kursiv text, både för att göra texten mer lättövergriplig men också för att betona uttryck. Smileys och andra känslouttryck visar i sin tur hur ungdomarna undviker missförstånd på ett sätt som inte kräver bearbetning av texten. Jag vill säga att uppsatsen visar på hur en vidgad syn på språklighet och kommunikation idag är nödvändig, i och med de nya medel som tillkommit i dagens IT-samhälle.</p><p> </p> / <p> </p><p>Internet has since the beginning widened the form of communication. In recent times one of the most popular form is via blogs.</p><p>To express yourself has become more than words. The blogs give you the ability to add pictures, videos, colors and more. You are also able to use typological medium like italic and bold types. All these elements contribute to how the text is read and interpreted.</p><p>From 14 different diary blogs written by high school students and 289 posts in total my thesis intend to study which method of fabrications these blogs use.</p><p>The question formulations I have based my thesis on are:</p><p>·         How do high school students use different ways of expressions to esthetical and creatively create posts at the so called diary blogs?</p><p>-          How does headlining, pictures, film, colour and different typological medium being used to create communication and different expression on the posts?</p><p>·         How does the diary blog relate to the traditional diary regarding the formation and forms of communication?</p><p>Through a structuralistic analysis method based on Jurij Lotman’s analysis I’ve approached the posts on different levels, where I examine details in the text but also the structure. I’ve found that the diary blog and the diary separate from each other on several plans, foremost the way of communication which is overt in a diary blog. Linguistically the diary blog distinguish itself from diaries by the way to be able to emphasize words or a sentence with italic and bold types. Smileys and different kinds of emotional forms of expressions are used by the blogger to avoid misconceptions.</p><p>The thesis has proven that a widening way of looking at linguistic and communications are necessary due to the new medium that comes with the IT.</p><p> </p>

Video Game Vocabulary : The effect of video games on Swedish learners‟ word comprehension

Laveborn, Joel January 2009 (has links)
<p>Video games are very popular among children in the Western world. This study was done in order to investigate if video games had an effect on 49 Swedish students‟ comprehension of English words (grades 7-8). The investigation was based on questionnaire and word test data. The questionnaire aimed to measure with which frequency students were playing video games, and the word test aimed to measure their word comprehension in general. In addition, data from the word test were used to investigate how students explained the words. Depending on their explanations, students were categorized as either using a “video game approach” or a “dictionary approach” in their explanations.</p><p>The results showed a gender difference, both with regard to the frequency of playing and what types of games that were played. Playing video games seemed to increase the students‟ comprehension of English words, though there was no clear connection between the frequency with which students were playing video games and the choice of a dictionary or video game approach as an explanation.</p>

Persons with functional difficulties as resources in ICT design processes

Persson, Hans January 2008 (has links)
<p>Denna avhandling har sin grund i mina erfarenheter av att arbete med människor som har funktionsnedsättningar. Vanligtvis är denna grupp den sista en producent ser som sina kunder. Det är ganska vanligt att producenter gör olika produkter(produkter och tjänster) för personer med funktionsnedsättningar och en för andra. Om man istället, i designarbetet utgår från synsättet att de flesta personer vid någon tidpunkt och/eller plats har funktionssvårigheter så blir den potentiella kundgruppen större för produkten.</p><p>Ursprunget för avhandlingen är ett projekt, vilket drevs av PTS (Post och Telestyrelsen), med syfte att identifiera vilka typer av stöd eller anpassningar personer med intellektuella funktionsnedsättningar har för att använda bredbandsbaserade tjänster. Resultatet i projektet pekade ut ett antal svårighetsområden där flertalet av dessa svårighetsområden inte var unika för denna grupp.</p><p>Utifrån resultat i ovanstående projekt togs det fram en test-, utvärderings- och designmodell (TED-modellen) där ett av stegen använde en ”indikatorgrupp”. Syftet med modellen är att identifiera och ge underlag för att prioritera vilka svårighetsområden det fortsatta designarbetet skall fokuseras på. Indikatorgruppen består av individer med funktionssvårigheter som är relevanta i sammanhanget. Modellen tar vara på möjligheterna i ”design för alla” för att göra att göra bättre produkter för människorna.</p><p>De empiriska studierna i denna uppsats är gjorda inom två områden. Den första är i ett designsammanhang, där fem olika hemsidor skulle tas fram och den andra är runt en studie av tre olika affärsarbetsplatser, där kassafunktionen var i fokus för studien.</p><p>Resultatet i denna uppsats pekar ut en möjlig inriktning för en designmetodologi, vars målsättning är att få fram bättre produkter för en större grupp. Utgångspunkten är att använda människors olikheter som en möjlighet och inte som ett problem.</p><p>Individer med funktionella svårigheter är en resurs för att finna nya innovationer vilket jag har benämnt ”the Lead of Need”. Med detta menar jag att individer med funktionella svårigheter, som har ett behov, en ide för en lösning, men inte har möjlighet att förverkliga denna. Om vi kan organisera en mötesplats för individer med ”the Lead of Need”, designers och utvecklare så har vi skapat ett ”Living lab” för nya innovationer.</p> / <p>This thesis has its roots in my experiences of working with people who have some forms of disability. Usually this group is the last group producers consider as their customers. It is quite common that producers make different products (and services) for individuals with disabilities and for others. If one instead takes the position, in the design work, that most people have some functional difficulties at some point in time or in place, then the potential customer group becomes larger for the product in question.</p><p>The origin of this thesis is a project run by the Swedish Post and Telecom Agency (PTS), aiming to identify what kind of support or adaptation people with intellectual disabilities needs when using broadband based services. The result of the project pointed out areas of difficulties. Most areas of difficulties were not unique for this group.</p><p>From the result of the PTS-project, a design and evaluation model (TED-model) was built, where one of the steps involved the use of an “indicator group”. The aim for this step is to identify and give basis for prioritizing areas of difficulty that the continued design work should focus on. The indicator group consists of individuals with functional difficulties relevant in a specified context. This method uses the possibilities of “design for all” as facilitator to design better products for more people.</p><p>The empirical studies in this thesis were carried out within two areas. The first study was made in a design project, where five different web sites were to be designed, and the second one dealt with three different business workplaces in which the cashier workplaces was in focus.</p><p>The results of this thesis point out a possible direction of a design methodology, whose objective is to create better products for larger group of people. The starting point is to use people's differences as a possibility for design, and not a problem.</p><p>Individuals with functional difficulties constitute a resource for finding new innovations, which I have termed “the Lead of Need”. With this I mean individuals with functional difficulties, who have a need, an idea for a solution, but not the possibility to make it happen. If we can organise a meeting ground for individuals with “the Lead of Need”, designers, and developers, we will have created a “living lab” for new innovations.</p>

Attitydanalys av svenska produktomdömen – behövs språkspecifika verktyg? / Sentiment Analysis of Swedish Product Reviews – Are Language-specific Tools Necessary?

Glant, Oliver January 2018 (has links)
Sentiment analysis of Swedish data is often performed using English tools and machine. This thesis compares using a neural network trained on Swedish data with a corresponding one trained on English data. Two datasets were used: approximately 200,000 non-neutral Swedish reviews from the company Prisjakt Sverige AB, one of the largest annotated datasets used for Swedish sentiment analysis, and 1,000,000 non-neutral English reviews from Amazon.com. Both networks were evaluated on 11,638 randomly selected reviews, in Swedish and in English machine translation. The test set had the same overrepresentation of positive reviews as the Swedish dataset (84% were positive). The results suggest that English tools can be used with machine translation for sentiment analysis of Swedish reviews, without loss of classification ability. However, the English tool required 33% more training data to achieve maximum performance. Evaluation on the unbalanced test set required extra consideration regarding statistical measures. F1-measure turned out to be reliable only when calculated for the underrepresented class. It then showed a strong correlation with the Matthews correlation coefficient, which has been found to be more reliable. This warrants further investigation into whether the correlation is valid for all different balances, which would simplify comparison between studies. / Attitydanalys av svensk data sker i många fall genom maskinöversättning till engelska för att använda tillgängliga analysverktyg. I den här uppsatsen undersöktes skillnaden mellan användning av ett neuronnät tränat på svensk data och av motsvarande neuronnät tränat på engelsk data. Två datamängder användes: cirka 200 000 icke-neutrala svenska produktomdömen från Prisjakt Sverige AB, en av de största annoterade datamängder som använts för svensk attitydanalys, och 1 000 000 icke-neutrala engelskaproduktomdömen från Amazon.com. Båda versionerna av neuronnätet utvärderades på 11 638 slumpmässigt utvalda svenska produktomdömen, i original och maskinöversatta till engelska. Testmängden hade samma överrepresentation av positiva omdömen som den svenska datamängden (84% positiva omdömen). Resultaten tyder på att engelska verktyg med hjälp av maskinöversättning kan användas för attitydanalys av svenska produktomdömen med bibehållen klassificeringsförmåga, dock krävdes cirka 33% större träningsdata för att det engelska verktyget skulle uppnå maximal klassificeringsförmåga. Utvärdering på den obalanserade datamängden visade sig ställa särskilda krav på de statistiska mått som användes. F1-värde fungerade tillfredsställande endast när det beräknades för den underrepresenterade klassen. Det korrelerade då starkt med Matthews korrelationskoefficient, som tidigare funnits vara ett pålitligare mått. Om korrelationen gäller vid alla olika balanser skulle jämförelser mellan olika studiers resultat underlättas, något som bör undersökas.

Page generated in 0.1277 seconds