1 |
Modèle de vérification grammaticale automatique gauche-droite / Model for automated left-right grammar checkingSouque, Agnès 12 December 2014 (has links)
Nous proposons un modèle de vérification grammaticale automatique gauche-droite issu de l'analyse d'un corpus d'erreurs tapuscrites. Les travaux menés en psychologie cognitive ont montré que le processus de révision procède au travers de la confrontation d'une attente à un résultat. Ainsi, la détection d'une erreur grammaticale reposerait, chez l'humain, sur une attente du réviseur non comblée. Ce principe est à la base du modèle que nous avons élaboré. Pour faciliter la gestion des attentes du point de vue traitement numérique, nous convions deux concepts courants en TAL : le principe d'unification et la segmentation en chunks. Le premier est particulièrement adapté à la vérification des accords et le second constitue une unité de calcul intermédiaire permettant de définir des bornes simplifiant la recherche d'incohérences grammaticales. Enfin, l'originalité de ce modèle réside dans une analyse gauche-droite construite au fur et à mesure de la lecture/écriture. / This thesis presents a model for automated left-right grammar checking based on analysis of a corpus of typescript errors. Studies in cognitive psychology have shown that the revision process works by confronting expectations with results. For humans, detecting a grammatical error therefore relies on an unfulfilled expectation on the part of the revisor. The model presented here is based on this principle. In order to deal with expectations from the point of view of computational processing, two common concepts in NLP are called upon: the unification principle and chunk segmentation. The former is particularly adapted to checking agreements, while the latter provides an intermediate computational unit to delimit, and therefore simplify, detection of grammatical inconsistencies. Finally, the model?s originality lies in the left-right analysis it provides, which is constructed as the text is produced/read.
|
2 |
Detecting and Diagnosing Grammatical Errors for Beginning Learners of German: From Learner Corpus Annotation to Constraint Satisfaction ProblemsBoyd, Adriane Amelia 06 January 2012 (has links)
No description available.
|
3 |
L'atténuation statistique des surdétections d'un correcteur grammatical symboliqueGotti, Fabrizio 02 1900 (has links)
Les logiciels de correction grammaticale commettent parfois des détections illégitimes (fausses alertes), que nous appelons ici surdétections. La présente étude décrit les expériences de mise au point d’un système créé pour identifier et mettre en sourdine les surdétections produites par le correcteur du français conçu par la société Druide informatique. Plusieurs classificateurs ont été entraînés de manière supervisée sur 14 types de détections faites par le correcteur, en employant des traits couvrant di-verses informations linguistiques (dépendances et catégories syntaxiques, exploration du contexte des mots, etc.) extraites de phrases avec et sans surdétections. Huit des 14 classificateurs développés sont maintenant intégrés à la nouvelle version d’un correcteur commercial très populaire. Nos expériences ont aussi montré que les modèles de langue probabilistes, les SVM et la désambiguïsation sémantique améliorent la qualité de ces classificateurs. Ce travail est un exemple réussi de déploiement d’une approche d’apprentissage machine au service d’une application langagière grand public robuste. / Grammar checking software sometimes erroneously flags a correct word sequence as an error, a problem we call overdetection in the present study. We describe the devel-opment of a system for identifying and filtering out the overdetections produced by the French grammar checker designed by the firm Druide Informatique. Various fami-lies of classifiers have been trained in a supervised way for 14 types of detections flagged by the grammar checker, using features that capture diverse linguistic phe-nomena (syntactic dependency links, POS tags, word context exploration, etc.), extracted from sentences with and without overdetections. Eight of the 14 classifiers we trained are now part of the latest version of a very popular commercial grammar checker. Moreover, our experiments have shown that statistical language models, SVMs and word sense disambiguation can all contribute to the improvement of these classifiers. This project is a striking illustration of a machine learning component suc-cessfully integrated within a robust, commercial natural language processing application.
|
4 |
Utilisation de méthodes linguistiques pour la détection et la correction automatisées d'erreurs produites par des francophones écrivant en anglais / Using linguistic methods for the automatic detection and correction of errors produced by French speakers writing in EnglishGarnier, Marie 19 September 2014 (has links)
Le point de départ de cette recherche est le constat des difficultés persistantes rencontrées par les francophones de niveau intermédiaire à avancé lors de la production de textes en anglais, dans des contextes personnels ou professionnels. Les premiers outils utilisés pour remédier à ces erreurs, les correcteurs grammaticaux automatiques, ne prennent pas en compte de nombreuses erreurs produites par les francophones utilisant l'anglais, notamment car ces correcteurs sont rarement adaptés à un public ayant l'anglais comme L2. Nous proposons d'identifier précisément les difficultés rencontrées par ce public cible à partir du relevé des erreurs dans un corpus adapté, et d'élaborer une modélisation linguistique des erreurs et des corrections à apporter. Cette modélisation est fondée sur une analyse linguistique approfondie des phénomènes concernés, à partir d'indications grammaticales, d'études de corpus, et de l'analyse des segments erronés. La validité de l'utilisation de méthodes linguistiques est établie par l'implémentation informatique des règles de détection et de correction, suivie de l'évaluation des résultats de l'application de ces règles sur des corpus d'anglais L1 et L2. / The starting point of this research is the observation that French speakers writing in English in personal or professional contexts still encounter grammatical difficulties, even at intermediate to advanced levels. The first tools they can reach for to correct those errors, automatic grammar checkers, do not offer corrections for a large number of the errors produced by French-speaking users of English, especially because those tools are rarely designed for L2 users. We propose to identify the difficulties encountered by these speakers through the detection of errors in a representative corpus, and to create a linguistic model of errors and corrections. The model is the result of the thorough linguistic analysis of the phenomena at stake, based on grammatical information available in reference grammars, corpus studies, and the analysis of erroneous segments. The validity of the use of linguistic methods is established through the implementation of detection and correction rules in a functional platform, followed by the evaluation of the results of the application of those rules on L1 and L2 English corpora.
|
5 |
PLPrepare: A Grammar Checker for Challenging CasesHoyos, Jacob 01 May 2021 (has links)
This study investigates one of the Polish language’s most arbitrary cases: the genitive masculine inanimate singular. It collects and ranks several guidelines to help language learners discern its proper usage and also introduces a framework to provide detailed feedback regarding arbitrary cases. The study tests this framework by implementing and evaluating a hybrid grammar checker called PLPrepare. PLPrepare performs similarly to other grammar checkers and is able to detect genitive case usages and provide feedback based on a number of error classifications.
|
6 |
Developing and Evaluating Language Tools for Writers and Learners of SwedishKnutsson, Ola January 2005 (has links)
Skrivande och skrivet språk är idag en viktig del av många människors liv, i datorns ordbehandlare, i e-postprogram och i chattkanaler på Internet. Skrivet språk har blivit mer eller mindre en förutsättning för människors dagliga kommunikation. Denna utveckling av samhället leder till ökade behov av att på olika sätt hantera text. En teknologi som har stor potential att hjälpa människor med skrivande och skrivet språk är språkteknologi. I denna avhandling ligger fokus på olika språkverktyg vars avsikt är att stödja skribenter och de som lär sig svenska bland annat genom att skriva. Ett språkverktyg som har utvecklats och utvärderats i avhandlingen är språkgranskningsverktyget Granska. I arbetet med Granska har fokus legat på utvecklingen av regelspråk, granskningsregler och generella analysregler samt utvärdering av dessa. Granska kombinerar en statistisk grundanalys av ordens ordklasser med regelbaserade metoder för sökning av grammatiska fel och frasanalys. I utvecklingen av granskningsreglerna är dragkampen mellan felaktiga utpekningar av fel, så kallade falska alarm, och uteblivna utpekningar av fel, det största enskilda problemet. Dragkampen uppstår genom att det är svårt att hitta många fel utan att också göra en del felaktiga utpekningar. Språkverktyg för skrivande kan i stort sett utvärderas på två sätt: med fokus på texten eller på den som skriver. I denna avhandling har båda typerna av utvärdering utförts med såväl modersmålskribenter som skribenter med svenska som andraspråk. I en första textbaserad utvärdering visade det sig att textgenre spelar stor roll för Granskas resultat. Ett vanligt fel i en textgenre förekommer nästan inte alls i en annan. Detta innebär att det blir mycket svårt för programmet att inte avge några falska alarm i de texter där feltypen saknas. I en andra textbaserad utvärdering jämfördes Granska och en kommersiell grammatikkontroll på texter från andraspråksskribenter. Den kommersiella grammatikkontrollen visade sig att ha bättre träffsäkerhet, men upptäckte färre fel än Granska. En första mindre användarstudie utfördes med Granska och fem erfarna skribenter. Syfte med studien var att utveckla Granska i linje med skribenters behov vid revision av text. Resultatet indikerade att användarna inte hade några problem med att välja mellan olika feldiagnoser om ett av ersättningsförslagen var korrekt. Falska alarm verkade vara av varierande svårighetsgrad: falska alarm från stavningskontrollen är mer eller mindre ofarliga, medan falska alarm från granskningen av mer komplicerade feltyper kan försvåra revisionsarbetet för användaren. Granska utvecklades från början för erfarna skribenter med svenska som modersmål, men allteftersom arbetet har fortskridit har även skribenter med svenska som andraspråk blivit en allt viktigare användargrupp. I detta arbete har diskussionen om granskningsmetod blivit mer och mer central. Även om gruppen andraspråksskribenter är mycket heterogen, så innehåller den här gruppens texter generellt sett mer fel, och i många fall fler fel i samma mening. Detta gör granskningsproblemet betydligt svårare. För det första så blir det svårare att avgöra ordens ordklass och frastillhörighet när flera fel finns i samma mening, och därmed har programmet allt mindre att hänga upp den grundläggande språkliga analysen på. För det andra är det svårare att konstruera granskningsregler för fel vars natur är svår att förutsäga på förhand. För att förbättra den grundläggande språkanalysen utvecklades programmet GTA, som gör en frasanalys och satsgränsigenkänning. GTA utvecklades ur de generella analysregler som redan fanns i Granska. GTA designades för att klara av att analysera texter som innehåller vissa avvikelser från språkets norm, t.ex. inkongruens. För att ta reda på hur väl programmet klarade av mindre avvikelser i form av stavfel utvärderades GTA och även två program för ordklassanalys på texter med olika andel stavfel. GTA bygger till mycket stor del på att identifikationen av ordklass fungerar för att fraser och satsgränser skall analyseras korrekt. Detta bekräftas också i utvärderingen, där det visade sig att GTA klarar sig bra så länge som den underliggande ordklassanalysen klarar att hantera avvikelser i texten. En viktig faktor för att klara språkliga avvikelser, i form av stavfel, är en fungerande metod för att hantera ord som är okända för programmet. Nya metoder för språkgranskning har undersökts i samarbete med andra forskare, och där har avhandlingens bidrag varit i form av transformationsregler i den statistiska språkgranskaren ProbGranska. Dessa regler visade sig vid en utvärdering avsevärt förbättra ProbGranskas säkerhet när det gällde att identifiera grammatiska problem. I utvecklingen av språkgranskaren SnålGranska har avhandlingen bidragit med idéer till dess grundläggande algoritm. Denna algoritm bygger på att träna ett maskininlärningsprogram på konstgjorda fel i avsaknad av en korpus med många uppmärkta autentiska fel. För att komma vidare med utvecklingen av språkverktyg för andraspråksskribenter genomfördes en längre fältstudie vid ett svenskt universitet. Syftet var att studera användningen av Granska i autentiska skrivuppgifter som studenterna genomförde i en avancerad kurs i svenska som främmande språk. Sexton studenter med olika språklig och kulturell bakgrund deltog i studien. En viktig del av studien utgjordes av studenternas bedömningar av Granskas alarm. Bedömningarna gjordes på en betygsskala från 1 till 5. Studenternas texter samlades också in i två versioner; en version före och en efter användningen av programmet. Denna metod gjorde det möjligt att studera i vilken grad studenterna följde Granskas råd, och huruvida dåliga eller bra råd från programmet fick höga eller låga betyg. Mest alarmerande var att dåliga råd angående ordföljd alltid fick högsta betyg. Andra ofta lämpliga råd dömdes ut för att beskrivningen av dessa feltyper, t.ex. anmärkningar om saknade tempusböjda verb och uteblivna subjekt, var svåra att förstå samt att de saknade ersättningsförslag. En viktig insikt från fältstudien var att Granska eller liknade verktyg inte är det enda verktyg som andraspråksskribenter behöver när de skriver text. Denna insikt tillsammans med andra resultat från fältstudien mynnade ut i flera designprinciper för program med fokus på andraspråksskribenter. Dessa designprinciper användes sedan i utformningen av språkmiljön Grim. Grim är en ordbehandlingsmiljö med olika interaktiva språkverktyg integrerade: Granska, GTA, den statistiska språkgranskaren ProbGranska, lexikonet Lexin med åtta olika språkpar, konkordansgränssnitt mot stora textmängder från korpusen Parole, och en ordböjningsfunktion. I Grim kan användaren arbeta med egna eller andras texter, och få återkoppling på språkets former från Granska och GTA, undersöka ords användning i autentiska texter samt få en ökad förståelse av målspråket genom integrerade tvåspråkiga lexikon. / Writing and written language play today an increasingly important part in many people’s lives. Written language has become more or less a prerequisite for daily communication. This development of society leads to increased needs for tools that can help humans in dealing with text. A technology that has a potential to aid people with writing and written language is language technology. In this thesis, the focus is on language tools based on language technology that can aid writers and learners of Swedish. A language tool that has been developed and evaluated in the thesis is the grammar checker Granska. The thesis work on Granska includes the design of its rule language, and the development of grammar checking rules for common error types in Swedish. In addition, rules for phrase analysis and clause boundary detection have been developed constituting a partial and shallow parser called GTA. Language tools for writing can mainly be evaluated in two ways: with focus on text or with focus on the writer. In this thesis, both types of evaluations have been carried out both with native writers and second language writers. The first textual evaluation of Granska showed that the genre has a strong influence on the result. In a second evaluation, Granska was compared with a commercial grammar checker on second language writers’ texts. Granska found more errors, but with a lower precision. A third evaluation focused on the general text analyzers, which Granska relies on, in this case a statistical word class analyzer and the parser GTA. These programs were evaluated on texts where spelling errors were introduced, in order to test the programs’ robustness. Results showed that as long as the word class analyzer is robust the parser GTA would also be robust. In a first formative user study with Granska and five participants, results suggested that several and competing error diagnoses and correction proposals are not a problem for the users as long as there exist at least one accurate correction proposal. Moreover, false alarms from the spelling checker seemed to pose a limited problem for the users, but false alarms on more complicated error types might disturb the revision process of the users. In order to improve the design of language tools for second language writers a field study was carried out at a Swedish university. Sixteen students with different linguistic and cultural backgrounds participated in the study. The objective was to study the use of Granska in students’ free writing. The results indicated that although most alarms from Granska are accurate, lack of feedback and misleading feedback are problems for second language writers. The results also suggested that providing the students with feedback on different aspects of their interlanguage, not only errors, and facilitating the processes of language exploration and reflection are important processes to be supported in second-language learning environments. These insights were used as design principles in the design and development of an interactive language environment called Grim. This program includes a basic word processor, in which the user can get feedback on linguistic code features from different language tools such as Granska and GTA. In addition, other tools are available for the user to explore language use in authentic texts and to achieve lexical comprehension through bilingual dictionaries. / QC 20100428
|
Page generated in 0.0965 seconds