Spelling suggestions: "subject:"[een] CORPUS ANNOTATION"" "subject:"[enn] CORPUS ANNOTATION""
1 |
Assessing the impact of manual corrections in the Groningen Meaning Bank / Assessing the impact of manual corrections in the Groningen Meaning BankWeck, Benno January 2016 (has links)
The Groningen Meaning Bank (GMB) project develops a corpus with rich syntactic and semantic annotations. Annotations in GMB are generated semi-automatically and stem from two sources: (i) Initial annotations from a set of standard NLP tools, (ii) Corrections/refinements by human annotators. For example, on the part-of-speech level of annotation there are currently 18,000 of those corrections, so called Bits of Wisdom (BOWs). For applying this information to boost the NLP processing we experiment how to use the BOWs in retraining the part-of-speech tagger and found that it can be improved to correct up to 70% of identified errors within held-out data. Moreover an improved tagger helps to raise the performance of the parser. Preferring sentences with a high rate of verified tags in retraining has proven to be the most reliable way. With a simulated active learning experiment using Query-by-Uncertainty (QBU) and Query-by- Committee (QBC) we proved that selectively sampling sentences for retraining yields better results with less data needed than random selection. In an additional pilot study we found that a standard maximum-entropy part-of-speech tagger can be augmented so that it uses already known tags to enhance its tagging decisions on an entire sequence without retraining a new model first. Powered by...
|
2 |
Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado / Extending sentiment analysis resources using semi-supervised learningBrum, Henrico Bertini 23 March 2018 (has links)
O grande volume de dados que temos disponíveis em ambientes virtuais pode ser excelente fonte de novos recursos para estudos em diversas tarefas de Processamento de Linguagem Natural, como a Análise de Sentimentos. Infelizmente é elevado o custo de anotação de novos córpus, que envolve desde investimentos financeiros até demorados processos de revisão. Nossa pesquisa propõe uma abordagem de anotação semissupervisionada, ou seja, anotação automática de um grande córpus não anotado partindo de um conjunto de dados anotados manualmente. Para tal, introduzimos o TweetSentBR, um córpus de tweets no domínio de programas televisivos que possui anotação em três classes e revisões parciais feitas por até sete anotadores. O córpus representa um importante recurso linguístico de português brasileiro, e fica entre os maiores córpus anotados na literatura para classificação de polaridades. Além da anotação manual do córpus, realizamos a implementação de um framework de aprendizado semissupervisionado que faz uso de dados anotados e, de maneira iterativa, expande o mesmo usando dados não anotados. O TweetSentBR, que possui 15:000 tweets anotados é assim expandido cerca de oito vezes. Para a expansão, foram treinados modelos de classificação usando seis classificadores de polaridades, assim como foram avaliados diferentes parâmetros e representações a fim de obter um córpus confiável. Realizamos experimentos gerando córpus expandidos por cada classificador, tanto para a classificação em três polaridades (positiva, neutra e negativa) quanto para classificação binária. Avaliamos os córpus gerados usando um conjunto de held-out e comparamos a FMeasure da classificação usando como treinamento os córpus anotados manualmente e semiautomaticamente. O córpus semissupervisionado que obteve os melhores resultados para a classificação em três polaridades atingiu 62;14% de F-Measure média, superando a média obtida com as avaliações no córpus anotado manualmente (61;02%). Na classificação binária, o melhor córpus expandido obteve 83;11% de F1-Measure média, superando a média obtida na avaliação do córpus anotado manualmente (79;80%). Além disso, simulamos nossa expansão em córpus anotados da literatura, medindo o quão corretas são as etiquetas anotadas semi-automaticamente. Nosso melhor resultado foi na expansão de um córpus de reviews de produtos que obteve FMeasure de 93;15% com dados binários. Por fim, comparamos um córpus da literatura obtido por meio de supervisão distante e nosso framework semissupervisionado superou o primeiro na classificação de polaridades binária em cross-domain. / The high volume of data available in the Internet can be a good resource for studies of several tasks in Natural Language Processing as in Sentiment Analysis. Unfortunately there is a high cost for the annotation of new corpora, involving financial support and long revision processes. Our work proposes an approach for semi-supervised labeling, an automatic annotation of a large unlabeled set of documents starting from a manually annotated corpus. In order to achieve that, we introduced TweetSentBR, a tweet corpora on TV show programs domain with annotation for 3-point (positive, neutral and negative) sentiment classification partially reviewed by up to seven annotators. The corpus is an important linguistic resource for Brazilian Portuguese language and it stands between the biggest annotated corpora for polarity classification. Beyond the manual annotation, we implemented a semi-supervised learning based framework that uses this labeled data and extends it using unlabeled data. TweetSentBR corpus, containing 15:000 documents, had its size augmented in eight times. For the extending process, we trained classification models using six polarity classifiers, evaluated different parameters and representation schemes in order to obtain the most reliable corpora. We ran experiments generating extended corpora for each classifier, both for 3-point and binary classification. We evaluated the generated corpora using a held-out subset and compared the obtained F-Measure values with the manually and the semi-supervised annotated corpora. The semi-supervised corpus that obtained the best values for 3-point classification achieved 62;14% on average F-Measure, overcoming the results obtained by the same classification with the manually annotated corpus (61;02%). On binary classification, the best extended corpus achieved 83;11% on average F-Measure, overcoming the results on the manually corpora (79;80%). Furthermore, we simulated the extension of labeled corpora in literature, measuring how well the semi-supervised annotation works. Our best results were in the extension of a product review corpora, achieving 93;15% on F1-Measure. Finally, we compared a literature corpus which was labeled by using distant supervision with our semi-supervised corpus, and this overcame the first in binary polarity classification on cross-domain data.
|
3 |
Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado / Extending sentiment analysis resources using semi-supervised learningHenrico Bertini Brum 23 March 2018 (has links)
O grande volume de dados que temos disponíveis em ambientes virtuais pode ser excelente fonte de novos recursos para estudos em diversas tarefas de Processamento de Linguagem Natural, como a Análise de Sentimentos. Infelizmente é elevado o custo de anotação de novos córpus, que envolve desde investimentos financeiros até demorados processos de revisão. Nossa pesquisa propõe uma abordagem de anotação semissupervisionada, ou seja, anotação automática de um grande córpus não anotado partindo de um conjunto de dados anotados manualmente. Para tal, introduzimos o TweetSentBR, um córpus de tweets no domínio de programas televisivos que possui anotação em três classes e revisões parciais feitas por até sete anotadores. O córpus representa um importante recurso linguístico de português brasileiro, e fica entre os maiores córpus anotados na literatura para classificação de polaridades. Além da anotação manual do córpus, realizamos a implementação de um framework de aprendizado semissupervisionado que faz uso de dados anotados e, de maneira iterativa, expande o mesmo usando dados não anotados. O TweetSentBR, que possui 15:000 tweets anotados é assim expandido cerca de oito vezes. Para a expansão, foram treinados modelos de classificação usando seis classificadores de polaridades, assim como foram avaliados diferentes parâmetros e representações a fim de obter um córpus confiável. Realizamos experimentos gerando córpus expandidos por cada classificador, tanto para a classificação em três polaridades (positiva, neutra e negativa) quanto para classificação binária. Avaliamos os córpus gerados usando um conjunto de held-out e comparamos a FMeasure da classificação usando como treinamento os córpus anotados manualmente e semiautomaticamente. O córpus semissupervisionado que obteve os melhores resultados para a classificação em três polaridades atingiu 62;14% de F-Measure média, superando a média obtida com as avaliações no córpus anotado manualmente (61;02%). Na classificação binária, o melhor córpus expandido obteve 83;11% de F1-Measure média, superando a média obtida na avaliação do córpus anotado manualmente (79;80%). Além disso, simulamos nossa expansão em córpus anotados da literatura, medindo o quão corretas são as etiquetas anotadas semi-automaticamente. Nosso melhor resultado foi na expansão de um córpus de reviews de produtos que obteve FMeasure de 93;15% com dados binários. Por fim, comparamos um córpus da literatura obtido por meio de supervisão distante e nosso framework semissupervisionado superou o primeiro na classificação de polaridades binária em cross-domain. / The high volume of data available in the Internet can be a good resource for studies of several tasks in Natural Language Processing as in Sentiment Analysis. Unfortunately there is a high cost for the annotation of new corpora, involving financial support and long revision processes. Our work proposes an approach for semi-supervised labeling, an automatic annotation of a large unlabeled set of documents starting from a manually annotated corpus. In order to achieve that, we introduced TweetSentBR, a tweet corpora on TV show programs domain with annotation for 3-point (positive, neutral and negative) sentiment classification partially reviewed by up to seven annotators. The corpus is an important linguistic resource for Brazilian Portuguese language and it stands between the biggest annotated corpora for polarity classification. Beyond the manual annotation, we implemented a semi-supervised learning based framework that uses this labeled data and extends it using unlabeled data. TweetSentBR corpus, containing 15:000 documents, had its size augmented in eight times. For the extending process, we trained classification models using six polarity classifiers, evaluated different parameters and representation schemes in order to obtain the most reliable corpora. We ran experiments generating extended corpora for each classifier, both for 3-point and binary classification. We evaluated the generated corpora using a held-out subset and compared the obtained F-Measure values with the manually and the semi-supervised annotated corpora. The semi-supervised corpus that obtained the best values for 3-point classification achieved 62;14% on average F-Measure, overcoming the results obtained by the same classification with the manually annotated corpus (61;02%). On binary classification, the best extended corpus achieved 83;11% on average F-Measure, overcoming the results on the manually corpora (79;80%). Furthermore, we simulated the extension of labeled corpora in literature, measuring how well the semi-supervised annotation works. Our best results were in the extension of a product review corpora, achieving 93;15% on F1-Measure. Finally, we compared a literature corpus which was labeled by using distant supervision with our semi-supervised corpus, and this overcame the first in binary polarity classification on cross-domain data.
|
4 |
Facilitating Corpus Annotation by Improving Annotation AggregationFelt, Paul L 01 December 2015 (has links) (PDF)
Annotated text corpora facilitate the linguistic investigation of language as well as the automation of natural language processing (NLP) tasks. NLP tasks include problems such as spam email detection, grammatical analysis, and identifying mentions of people, places, and events in text. However, constructing high quality annotated corpora can be expensive. Cost can be reduced by employing low-cost internet workers in a practice known as crowdsourcing, but the resulting annotations are often inaccurate, decreasing the usefulness of a corpus. This inaccuracy is typically mitigated by collecting multiple redundant judgments and aggregating them (e.g., via majority vote) to produce high quality consensus answers. We improve the quality of consensus labels inferred from imperfect annotations in a number of ways. We show that transfer learning can be used to derive benefit from out-dated annotations which would typically be discarded. We show that, contrary to popular preference, annotation aggregation models that take a generative data modeling approach tend to outperform those that take a condition approach. We leverage this insight to develop csLDA, a novel annotation aggregation model that improves on the state of the art for a variety of annotation tasks. When data does not permit generative data modeling, we identify a conditional data modeling approach based on vector-space text representations that achieves state-of-the-art results on several unusual semantic annotation tasks. Finally, we identify a family of models capable of aggregating annotation data containing heterogenous annotation types such as label frequencies and labeled features. We present a multiannotator active learning algorithm for this model family that jointly selects an annotator, data items, and annotation type.
|
5 |
Annotating figurative languageBeyer, Stefan, Di Biase-Dyson, Camilla, Wagenknecht, Nina 20 April 2016 (has links) (PDF)
Whereas past and current digital projects in ancient language studies have been concerned with the annotation of linguistic elements and metadata, there is now an increased interest in the annotation of elements above the linguistic level that are determined by context – like figurative language. Such projects bring their own set of problems (the automatisation of annotation is more difficult, for instance), but also allow us to develop new ways of examining the data. For this reason, we have attempted to take an already annotated database of Ancient Egyptian texts and develop a complementary tagging layer rather than starting from scratch with a new database. In this paper, we present our work in developing a metaphor annotation layer for the Late Egyptian text database of Projet Ramsès (Université de Liège) and in so doing address more general questions: 1) How to ‚tailor-make’ annotation layers to fit other databases? (Workflow) 2) How to make annotations that are flexible enough to be altered in the course of the annotation process? (Project design) 3) What kind of potential do such layers have for integration with existing and future annotations? (Sustainability)
|
6 |
Le développement de corpus annotés pour la langue arabe / Building annotated corpora for the Arabic languageZaghouani, Wajdi 06 January 2015 (has links)
L’objectif de cette thèse est de montrer les différentes facettes de l’annotation de corpus dans la langue arabe. Nous présentons nos travaux scientifiques sur l’annotation de corpus et sur la création de ressources lexicales dans la langue arabe. D’abord, nous discutons des méthodes, des difficultés linguistiques, des guides d’annotation, de l’optimisation de l’effort d’annotation, ainsi que de l’adaptation à la langue arabe de procédures d’annotation existantes. Ensuite, nous montrons la complémentarité entre les différentes couches d’annotation. Enfin, nous illustrons l’importance de ces travaux pour le traitement automatique des langues en illustrant quelques exemples de ressources et d’applications. / The goal of this thesis is to show the various aspects of corpus annotation in the Arabic language. We present our publications on corpus annotation and lexical resources creation in the Arabic language. First, we discuss the methods, the language difficulties, the annotation guidelines, the annotation effort optimization limits and how we adapted some of the existing annotation procedures to the Arabic language. Furthermore, we show the complementarity between the different layers of annotations. Finally, we illustrate the importance of our work for natural language processing by illustrating some examples of resources and applications.
|
7 |
Redações do ENEM: estudo dos desvios da norma padrão sob a perspectiva de corpos / ENEM essays: a study of deviations from the standard norm from a corpus perspective.Pinheiro, Gisele Montilha 27 March 2008 (has links)
Desvios da norma padrão, comumente chamados de \"erros\", são fatos comuns na escrita dos aprendizes da variante culta de uma língua materna como o português brasileiro. Tratados como um \"mal a ser combatido\", eles são, na verdade, importantes indícios do processo de assimilação da escrita culta pelo falante nativo. Revelam qual a tendência da transformação que naturalmente ocorre numa língua, demonstrando, por exemplo, a obsolência das gramáticas tradicionais, que não aceitam determinadas construções já muito freqüentes. Mas seria possível detectar algum padrão desses desvios? Haveria desvios típicos de um determinado perfil de redatores? Essas indagações motivaram a presente investigação, que se baseou na concepção de que esses estudos são de natureza empírica, comprometidos com a noção de que a língua funciona tal como um sistema probabilístico, de onde é possível prever tendências, por exemplo, de mudança. Falamos, pois, de uma investigação à luz da Lingüística de Corpus. Composto de redações do Exame Nacional do Ensino Médio (ENEM), edição de 2002, cedidas pelo Instituto Nacional de Estudos e Pesquisas Educacionais (INEP) juntamente com determinados traços do perfil dos redatores, construímos um corpus que foi batizado de Corvo, e se ocupou de uma faixa específica de textos: a de pior desempenho no ENEM no quesito domínio da norma culta. Observamos, desse modo, textos em que, supostamente, há freqüência maior de desvios e maior variedade de tipos de desvios. Nossa metodologia de pesquisa apoiou-se no uso do revisor gramatical automático ReGra, bastante popular no país e que auxilia o usuário no uso correto do português culto padrão. Além disso, construímos um material próprio de detecção e classificação dos desvios gramaticais, aumentando a capacidade de tratamento automático dos textos. Assim, foi possível gerar uma versão do corpus anotada em desvios, i.e., os textos apresentam indicações de quando e qual tipo de desvios ocorrem. Como resultado temos um mapeamento do Corvo; ou seja, um panorama dos desvios típicos de um determinado tip o de perfil de redator. Constatamos a deficiência ortográfica como o traço típico do grupo de indivíduos investigado, mas, sobretudo, que a ortografia é motor para o pleno funcionamento de uma revisão gramatical automática. O revisor ReGra mostrou-se incapaz de processar satisfatoriamente textos desse tipo de redator, mas, ainda assim, comprovou que esses textos apresentam desvios gramaticais de tratamento complexo, cuja intervenção do revisor, se acontece, pouco altera na qualidade geral dos mesmos. Com respeito à tipologia de desvio, pudemos constatar a validade da tipologia aplicada na pesquisa, que advém do ReGra e, portanto, está à margem das discussões teóricas ortodoxas. De fato, há recorrência de tipos de desvios, e isso numa freqüência que nos autoriza admitir a fraca assimilação de certas regras gramaticais tomadas como básicas (p.ex., a pontuação, a concordância e a regência). Constatamos, com relação ao perfil de redatores, que textos com maior potencial para a revisão da escrita, i.e., aqueles que alteram significativamente a qualidade textual com interferências pontuais de revisão, são justamente os produzidos pelos concluintes do ensino médio e não pelos egressos. / Deviations from the standard norm, usually called \'mistakes\', are common events in writing pieces of language learners speakers of a native language such as Brazilian Portuguese. They are treated as \'an evil that must be fought\'. They are, in fact, important evidence of the acquisition process of writing in the standard norm by the native speaker. They reveal the transformation trend, which normally occurs in a language, showing, for instance, the obsolescence of traditional grammars that do not accept certain patterns, which are frequent nonetheless. However, is it possible to identify a pattern in these deviations? Are there common deviations among a certain profile of students? These are the questions motivating this study, which is based on the concept that these investigations are empirical in nature, and are marked by the notion that language operates as a probabilistic system, in which it is possible to forecast trends of change, for example. We are, therefore, speaking of an investigation in the light of Corpus Linguistics. We compiled a corpus of essays written during the National Middle Education Exam (ENEM) carried out in 2002. These essays were obtained with the National Institute for Research in Education (INEP) together with the profile of the students. The corpus was called Corvo, and it is made up of a certain bracket of texts: those having obtained the worst performance rate in the ENEM in the standard norm category. We observed, therefore, texts in which there are, allegedly, a greater frequency of deviations and a greater variety of kinds of deviations. The research methodology was supported by the electronic grammar checker - ReGra - which is very popular in the country, and helps the user in writing standard Portuguese correctly. In addition, we built a specific tool for identifying and classifying grammar deviations, thus, increasing the ability to treat the texts electronically. Therefore, it was possible to generate an annotated version of the corpus according to the deviations, i.e., the texts were annotated according to when and what kind of deviations they presented. As a result, we have a mapping of the Corvo; that is, a view of the common deviations of students belonging to a certain profile. We identified poor spelling as a common feature of the group, but, above all, that spelling is the engine enabling a full grammatical check to operate. The ReGra grammar checker was not able to satisfactorily process these kinds of texts, but, even so, it proved that these texts presented complex grammar deviations, and the intervention of the checker, when it is applied, little alters their overall quality. In regard to deviation typology, we identified the validity of the typology used in this study, which results from the ReGra and, therefore, lies in the outskirts of orthodox theoretical discussions. In fact, certain kinds of deviations reoccur at a frequency that enables us to admit a poor assimilation of certain grammatical rules considered basic (e.g., punctuation, agreement and use of prepositions). We found that in regard to the profile of the students, texts with a greater writing check potential, that is, a check that would significantly improve text quality through individual checking interferences, are te xts produced by students who finished middle education and not those produced by students who are finishing the course.
|
8 |
Investigação de modelos de coerência local para sumários multidocumento / Investigation of local coherence models for multri-document summariesDias, Márcio de Souza 10 May 2016 (has links)
A sumarização multidocumento consiste na tarefa de produzir automaticamente um único sumário a partir de um conjunto de textos derivados de um mesmo assunto. É imprescindível que seja feito o tratamento de fenômenos que ocorrem neste cenário, tais como: (i) a redundância, a complementaridade e a contradição de informações; (ii) a uniformização de estilos de escrita; (iii) tratamento de expressões referenciais; (iv) a manutenção de focos e perspectivas diferentes nos textos; (v) e a ordenação temporal das informações no sumário. O tratamento de tais fenômenos contribui significativamente para que seja produzido ao final um sumário informativo e coerente, características difíceis de serem garantidas ainda que por um humano. Um tipo particular de coerência estudado nesta tese é a coerência local, a qual é definida por meio de relações entre enunciados (unidades menores) em uma sequência de sentenças, de modo a garantir que os relacionamentos contribuirão para a construção do sentido do texto em sua totalidade. Partindo do pressuposto de que o uso de conhecimento discursivo pode melhorar a avaliação da coerência local, o presente trabalho propõe-se a investigar o uso de relações discursivas para elaborar modelos de coerência local, os quais são capazes de distinguir automaticamente sumários coerentes dos incoerentes. Além disso, um estudo sobre os erros que afetam a Qualidade Linguística dos sumários foi realizado com o propósito de verificar quais são os erros que afetam a coerência local dos sumários, se os modelos de coerência podem identificar tais erros e se há alguma relação entre os modelos de coerência e a informatividade dos sumários. Para a realização desta pesquisa foi necessário fazer o uso das informações semântico-discursivas dos modelos CST (Cross-document Structure Theory) e RST (Rhetorical Structure Theory) anotadas no córpus, de ferramentas automáticas, como o parser Palavras e de algoritmos que extraíram informações do córpus. Os resultados mostraram que o uso de informações semântico-discursivas foi bem sucedido na distinção dos sumários coerentes dos incoerentes e que os modelos de coerência implementados nesta tese podem ser usados na identificação de erros da qualidade linguística que afetam a coerência local. / Multi-document summarization is the task of automatically producing a single summary from a collection of texts derived from the same subject. It is essential to treat many phenomena, such as: (i) redundancy, complementarity and contradiction of information; (ii) writing styles standardization; (iii) treatment of referential expressions; (iv) text focus and different perspectives; (v) and temporal ordering of information in the summary. The treatment of these phenomena contributes to the informativeness and coherence of the final summary. A particular type of coherence studied in this thesis is the local coherence, which is defined by the relationship between statements (smallest units) in a sequence of sentences. The local coherence contributes to the construction of textual meaning in its totality. Assuming that the use of discursive knowledge can improve the evaluation of the local coherence, this thesis proposes to investigate the use of discursive relations to develop local coherence models, which are able to automatically distinguish coherent summaries from incoherent ones. In addition, a study on the errors that affect the Linguistic Quality of the summaries was conducted in order to verify what are the errors that affect the local coherence of summaries, as well as if the coherence models can identify such errors, and whether there is any relationship between coherence models and informativenessof summaries. For thisresearch, it wasnecessary theuseof semantic-discursive information of CST models (Cross-document Structure Theory) and RST (Rhetorical Structure Theory) annoted in the corpora, automatic tools, parser as Palavras, and algorithms that extract information from the corpus. The results showed that the use of semantic-discursive information was successful on the distinction between coherent and incoherent summaries, and that the information about coherence can be used in error detection of linguistic quality that affect the local coherence.
|
9 |
Redações do ENEM: estudo dos desvios da norma padrão sob a perspectiva de corpos / ENEM essays: a study of deviations from the standard norm from a corpus perspective.Gisele Montilha Pinheiro 27 March 2008 (has links)
Desvios da norma padrão, comumente chamados de \"erros\", são fatos comuns na escrita dos aprendizes da variante culta de uma língua materna como o português brasileiro. Tratados como um \"mal a ser combatido\", eles são, na verdade, importantes indícios do processo de assimilação da escrita culta pelo falante nativo. Revelam qual a tendência da transformação que naturalmente ocorre numa língua, demonstrando, por exemplo, a obsolência das gramáticas tradicionais, que não aceitam determinadas construções já muito freqüentes. Mas seria possível detectar algum padrão desses desvios? Haveria desvios típicos de um determinado perfil de redatores? Essas indagações motivaram a presente investigação, que se baseou na concepção de que esses estudos são de natureza empírica, comprometidos com a noção de que a língua funciona tal como um sistema probabilístico, de onde é possível prever tendências, por exemplo, de mudança. Falamos, pois, de uma investigação à luz da Lingüística de Corpus. Composto de redações do Exame Nacional do Ensino Médio (ENEM), edição de 2002, cedidas pelo Instituto Nacional de Estudos e Pesquisas Educacionais (INEP) juntamente com determinados traços do perfil dos redatores, construímos um corpus que foi batizado de Corvo, e se ocupou de uma faixa específica de textos: a de pior desempenho no ENEM no quesito domínio da norma culta. Observamos, desse modo, textos em que, supostamente, há freqüência maior de desvios e maior variedade de tipos de desvios. Nossa metodologia de pesquisa apoiou-se no uso do revisor gramatical automático ReGra, bastante popular no país e que auxilia o usuário no uso correto do português culto padrão. Além disso, construímos um material próprio de detecção e classificação dos desvios gramaticais, aumentando a capacidade de tratamento automático dos textos. Assim, foi possível gerar uma versão do corpus anotada em desvios, i.e., os textos apresentam indicações de quando e qual tipo de desvios ocorrem. Como resultado temos um mapeamento do Corvo; ou seja, um panorama dos desvios típicos de um determinado tip o de perfil de redator. Constatamos a deficiência ortográfica como o traço típico do grupo de indivíduos investigado, mas, sobretudo, que a ortografia é motor para o pleno funcionamento de uma revisão gramatical automática. O revisor ReGra mostrou-se incapaz de processar satisfatoriamente textos desse tipo de redator, mas, ainda assim, comprovou que esses textos apresentam desvios gramaticais de tratamento complexo, cuja intervenção do revisor, se acontece, pouco altera na qualidade geral dos mesmos. Com respeito à tipologia de desvio, pudemos constatar a validade da tipologia aplicada na pesquisa, que advém do ReGra e, portanto, está à margem das discussões teóricas ortodoxas. De fato, há recorrência de tipos de desvios, e isso numa freqüência que nos autoriza admitir a fraca assimilação de certas regras gramaticais tomadas como básicas (p.ex., a pontuação, a concordância e a regência). Constatamos, com relação ao perfil de redatores, que textos com maior potencial para a revisão da escrita, i.e., aqueles que alteram significativamente a qualidade textual com interferências pontuais de revisão, são justamente os produzidos pelos concluintes do ensino médio e não pelos egressos. / Deviations from the standard norm, usually called \'mistakes\', are common events in writing pieces of language learners speakers of a native language such as Brazilian Portuguese. They are treated as \'an evil that must be fought\'. They are, in fact, important evidence of the acquisition process of writing in the standard norm by the native speaker. They reveal the transformation trend, which normally occurs in a language, showing, for instance, the obsolescence of traditional grammars that do not accept certain patterns, which are frequent nonetheless. However, is it possible to identify a pattern in these deviations? Are there common deviations among a certain profile of students? These are the questions motivating this study, which is based on the concept that these investigations are empirical in nature, and are marked by the notion that language operates as a probabilistic system, in which it is possible to forecast trends of change, for example. We are, therefore, speaking of an investigation in the light of Corpus Linguistics. We compiled a corpus of essays written during the National Middle Education Exam (ENEM) carried out in 2002. These essays were obtained with the National Institute for Research in Education (INEP) together with the profile of the students. The corpus was called Corvo, and it is made up of a certain bracket of texts: those having obtained the worst performance rate in the ENEM in the standard norm category. We observed, therefore, texts in which there are, allegedly, a greater frequency of deviations and a greater variety of kinds of deviations. The research methodology was supported by the electronic grammar checker - ReGra - which is very popular in the country, and helps the user in writing standard Portuguese correctly. In addition, we built a specific tool for identifying and classifying grammar deviations, thus, increasing the ability to treat the texts electronically. Therefore, it was possible to generate an annotated version of the corpus according to the deviations, i.e., the texts were annotated according to when and what kind of deviations they presented. As a result, we have a mapping of the Corvo; that is, a view of the common deviations of students belonging to a certain profile. We identified poor spelling as a common feature of the group, but, above all, that spelling is the engine enabling a full grammatical check to operate. The ReGra grammar checker was not able to satisfactorily process these kinds of texts, but, even so, it proved that these texts presented complex grammar deviations, and the intervention of the checker, when it is applied, little alters their overall quality. In regard to deviation typology, we identified the validity of the typology used in this study, which results from the ReGra and, therefore, lies in the outskirts of orthodox theoretical discussions. In fact, certain kinds of deviations reoccur at a frequency that enables us to admit a poor assimilation of certain grammatical rules considered basic (e.g., punctuation, agreement and use of prepositions). We found that in regard to the profile of the students, texts with a greater writing check potential, that is, a check that would significantly improve text quality through individual checking interferences, are te xts produced by students who finished middle education and not those produced by students who are finishing the course.
|
10 |
Investigação de modelos de coerência local para sumários multidocumento / Investigation of local coherence models for multri-document summariesMárcio de Souza Dias 10 May 2016 (has links)
A sumarização multidocumento consiste na tarefa de produzir automaticamente um único sumário a partir de um conjunto de textos derivados de um mesmo assunto. É imprescindível que seja feito o tratamento de fenômenos que ocorrem neste cenário, tais como: (i) a redundância, a complementaridade e a contradição de informações; (ii) a uniformização de estilos de escrita; (iii) tratamento de expressões referenciais; (iv) a manutenção de focos e perspectivas diferentes nos textos; (v) e a ordenação temporal das informações no sumário. O tratamento de tais fenômenos contribui significativamente para que seja produzido ao final um sumário informativo e coerente, características difíceis de serem garantidas ainda que por um humano. Um tipo particular de coerência estudado nesta tese é a coerência local, a qual é definida por meio de relações entre enunciados (unidades menores) em uma sequência de sentenças, de modo a garantir que os relacionamentos contribuirão para a construção do sentido do texto em sua totalidade. Partindo do pressuposto de que o uso de conhecimento discursivo pode melhorar a avaliação da coerência local, o presente trabalho propõe-se a investigar o uso de relações discursivas para elaborar modelos de coerência local, os quais são capazes de distinguir automaticamente sumários coerentes dos incoerentes. Além disso, um estudo sobre os erros que afetam a Qualidade Linguística dos sumários foi realizado com o propósito de verificar quais são os erros que afetam a coerência local dos sumários, se os modelos de coerência podem identificar tais erros e se há alguma relação entre os modelos de coerência e a informatividade dos sumários. Para a realização desta pesquisa foi necessário fazer o uso das informações semântico-discursivas dos modelos CST (Cross-document Structure Theory) e RST (Rhetorical Structure Theory) anotadas no córpus, de ferramentas automáticas, como o parser Palavras e de algoritmos que extraíram informações do córpus. Os resultados mostraram que o uso de informações semântico-discursivas foi bem sucedido na distinção dos sumários coerentes dos incoerentes e que os modelos de coerência implementados nesta tese podem ser usados na identificação de erros da qualidade linguística que afetam a coerência local. / Multi-document summarization is the task of automatically producing a single summary from a collection of texts derived from the same subject. It is essential to treat many phenomena, such as: (i) redundancy, complementarity and contradiction of information; (ii) writing styles standardization; (iii) treatment of referential expressions; (iv) text focus and different perspectives; (v) and temporal ordering of information in the summary. The treatment of these phenomena contributes to the informativeness and coherence of the final summary. A particular type of coherence studied in this thesis is the local coherence, which is defined by the relationship between statements (smallest units) in a sequence of sentences. The local coherence contributes to the construction of textual meaning in its totality. Assuming that the use of discursive knowledge can improve the evaluation of the local coherence, this thesis proposes to investigate the use of discursive relations to develop local coherence models, which are able to automatically distinguish coherent summaries from incoherent ones. In addition, a study on the errors that affect the Linguistic Quality of the summaries was conducted in order to verify what are the errors that affect the local coherence of summaries, as well as if the coherence models can identify such errors, and whether there is any relationship between coherence models and informativenessof summaries. For thisresearch, it wasnecessary theuseof semantic-discursive information of CST models (Cross-document Structure Theory) and RST (Rhetorical Structure Theory) annoted in the corpora, automatic tools, parser as Palavras, and algorithms that extract information from the corpus. The results showed that the use of semantic-discursive information was successful on the distinction between coherent and incoherent summaries, and that the information about coherence can be used in error detection of linguistic quality that affect the local coherence.
|
Page generated in 0.0442 seconds