Spelling suggestions: "subject:"córpus dde aprendizagem"" "subject:"córpus dde aprendizado""
1 |
Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos / Scientific writing in portuguese by hispanic speaking: linguistic-computational resources based on alignments methods of parallel textTorres, Lianet Sepúlveda 24 September 2015 (has links)
O número de estrangeiros interessados em aprender o português tem aumentado na última década, em consequência do crescimento da economia brasileira e do aumento da presença de multinacionais no Brasil. Esse fato se mostra pelo aumento do número de inscritos no exame de proficiência de português CELPE-Bras e de estudantes estrangeiros que ingressam nas universidades brasileiras. A maioria destes estudantes são de língua espanhola e precisam escrever seus textos acadêmicos em português. A proximidade das línguas portuguesa e espanhola apresenta-se tanto como um elemento positivo quanto como um obstáculo, pois oculta as diferenças e impede o domínio da língua portuguesa, mantendo, na fala e na escrita em português, interferências do espanhol. O maior número destas interferências acontece no nível lexical. Uma das alternativas para tratar os problemas em textos de aprendizes de uma língua é o emprego de ferramentas computacionais de pós-processamento e de suporte ao processo de escrita. No entanto, o número de recursos e ferramentas disponíveis para auxiliar a escrita de português como língua estrangeira é muito reduzido, diferentemente do cenário para a língua inglesa. Esta pesquisa propôs a criação de recursos e ferramentas de suporte à escrita no nível lexical como primeiro passo para a melhoria da qualidade linguística dos textos em português produzidos pelos nativos do espanhol. A Linguística de Córpus foi utilizada como metodologia para viabilizar a análise de erros de aprendizes. As ferramentas de auxílio utilizam léxicos bilíngues compilados por meio de técnicas de tradução, baseadas em alinhamento de córpus paralelos. Dado o número insuficiente de erros previamente anotados para suportar a detecção automática de erros, esta pesquisa propôs métodos baseados em modelo língua e na geração artificial de erros. A geração de erros artificiais se apresentou como um método eficiente para predizer erros lexicais dos aprendizes. As contribuições obtidas com a metodologia baseada em tradução automática para gerar auxílios à escrita entre línguas próximas, considerando a análise de erros lexicais extraídos de córpus de aprendizes, foco desta pesquisa, são: (i) do ponto de vista teórico, o levantamento e quantificação dos principais problemas causados pelas marcas do espanhol, deixadas nos textos acadêmicos em português escritos por nativos do espanhol; (ii) do ponto de vista de geração automática de recursos linguísticos, léxicos bilíngues de cognatos e falsos cognatos; léxico bilíngue de marcadores discursivos; léxico de expressões formulaicas que aparecem nos textos científicos e léxico bilíngue de verbos relacionados com pesquisa científica em português e, (iii) do ponto de vista da criação de subsídios para a área de auxílio à escrita científica, o projeto e avaliação de auxílios para suportar a escrita científica em português por nativos do espanhol. / In the last decade, as a result of Brazilian economic growth and the increased presence of multinationals in the country, the interest of foreigners in learning Portuguese rose. This fact is also noted by the number of students enrolled in the Portuguese proficiency exam, CELPE-Bras and the number of foreigner students entering at the Brazilian Universities. Most of these students are Spanish speakers and need to write the dissertation or thesis in Portuguese. The similarity between Portuguese and Spanish is considered as a positive element that often becomes an obstacle, because similarity and closeness frequently conceal differences and hinder learners from mastering the Portuguese, keeping interferences from their native Spanish both when speaking and writing in Portuguese. The largest number of this interference occurs at the lexical level. One alternative to deal with errors of second language learners is the use of computational post-edit tools and tools to support the writing process. However, the number of resources and tools available to help improve Portuguese writing as a foreign language is very small, unlike the scenario into English. This research proposed the creation of resources and writing support tools at the lexical level as a first step to improving the linguistic quality of the texts produced by Portuguese native Spanish. Corpus linguistics was used as a methodology to enable the learners error analysis. The writing support tools use bilingual lexicons compiled through translation techniques based on alignment parallel corpus. Given the insufficient number of errors previously annotated to support automatic error detection, this research proposed methods based on language model and artificial generation of errors. The generation of artificial errors introduced himself as an efficient method for predicting lexical errors of learners. The contributions obtained with the methodology based on automatic translation to generate written supports between similar languages, considering lexical error, extracted by the analysis of learners corpus, focus of this research are: (i) the theoretical point of view, the survey and quantification of the main problems caused by the Spanish marks, left in the academic texts written in Portuguese by native Spanish; (ii) the automatic generation of language resources point of view, bilingual lexicons of cognates and false cognates; bilingual lexicon of discourse markers; bilingual lexicon of formulaic expressions that appear in scientific texts and bilingual lexicon of verbs related to scientific research in Portuguese and, (iii) the point of view of creating subsidies for the area of support scientific writing, design and evaluation of aid to support scientific writing in Portuguese by native Spanish speakers.
|
2 |
Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos / Scientific writing in portuguese by hispanic speaking: linguistic-computational resources based on alignments methods of parallel textLianet Sepúlveda Torres 24 September 2015 (has links)
O número de estrangeiros interessados em aprender o português tem aumentado na última década, em consequência do crescimento da economia brasileira e do aumento da presença de multinacionais no Brasil. Esse fato se mostra pelo aumento do número de inscritos no exame de proficiência de português CELPE-Bras e de estudantes estrangeiros que ingressam nas universidades brasileiras. A maioria destes estudantes são de língua espanhola e precisam escrever seus textos acadêmicos em português. A proximidade das línguas portuguesa e espanhola apresenta-se tanto como um elemento positivo quanto como um obstáculo, pois oculta as diferenças e impede o domínio da língua portuguesa, mantendo, na fala e na escrita em português, interferências do espanhol. O maior número destas interferências acontece no nível lexical. Uma das alternativas para tratar os problemas em textos de aprendizes de uma língua é o emprego de ferramentas computacionais de pós-processamento e de suporte ao processo de escrita. No entanto, o número de recursos e ferramentas disponíveis para auxiliar a escrita de português como língua estrangeira é muito reduzido, diferentemente do cenário para a língua inglesa. Esta pesquisa propôs a criação de recursos e ferramentas de suporte à escrita no nível lexical como primeiro passo para a melhoria da qualidade linguística dos textos em português produzidos pelos nativos do espanhol. A Linguística de Córpus foi utilizada como metodologia para viabilizar a análise de erros de aprendizes. As ferramentas de auxílio utilizam léxicos bilíngues compilados por meio de técnicas de tradução, baseadas em alinhamento de córpus paralelos. Dado o número insuficiente de erros previamente anotados para suportar a detecção automática de erros, esta pesquisa propôs métodos baseados em modelo língua e na geração artificial de erros. A geração de erros artificiais se apresentou como um método eficiente para predizer erros lexicais dos aprendizes. As contribuições obtidas com a metodologia baseada em tradução automática para gerar auxílios à escrita entre línguas próximas, considerando a análise de erros lexicais extraídos de córpus de aprendizes, foco desta pesquisa, são: (i) do ponto de vista teórico, o levantamento e quantificação dos principais problemas causados pelas marcas do espanhol, deixadas nos textos acadêmicos em português escritos por nativos do espanhol; (ii) do ponto de vista de geração automática de recursos linguísticos, léxicos bilíngues de cognatos e falsos cognatos; léxico bilíngue de marcadores discursivos; léxico de expressões formulaicas que aparecem nos textos científicos e léxico bilíngue de verbos relacionados com pesquisa científica em português e, (iii) do ponto de vista da criação de subsídios para a área de auxílio à escrita científica, o projeto e avaliação de auxílios para suportar a escrita científica em português por nativos do espanhol. / In the last decade, as a result of Brazilian economic growth and the increased presence of multinationals in the country, the interest of foreigners in learning Portuguese rose. This fact is also noted by the number of students enrolled in the Portuguese proficiency exam, CELPE-Bras and the number of foreigner students entering at the Brazilian Universities. Most of these students are Spanish speakers and need to write the dissertation or thesis in Portuguese. The similarity between Portuguese and Spanish is considered as a positive element that often becomes an obstacle, because similarity and closeness frequently conceal differences and hinder learners from mastering the Portuguese, keeping interferences from their native Spanish both when speaking and writing in Portuguese. The largest number of this interference occurs at the lexical level. One alternative to deal with errors of second language learners is the use of computational post-edit tools and tools to support the writing process. However, the number of resources and tools available to help improve Portuguese writing as a foreign language is very small, unlike the scenario into English. This research proposed the creation of resources and writing support tools at the lexical level as a first step to improving the linguistic quality of the texts produced by Portuguese native Spanish. Corpus linguistics was used as a methodology to enable the learners error analysis. The writing support tools use bilingual lexicons compiled through translation techniques based on alignment parallel corpus. Given the insufficient number of errors previously annotated to support automatic error detection, this research proposed methods based on language model and artificial generation of errors. The generation of artificial errors introduced himself as an efficient method for predicting lexical errors of learners. The contributions obtained with the methodology based on automatic translation to generate written supports between similar languages, considering lexical error, extracted by the analysis of learners corpus, focus of this research are: (i) the theoretical point of view, the survey and quantification of the main problems caused by the Spanish marks, left in the academic texts written in Portuguese by native Spanish; (ii) the automatic generation of language resources point of view, bilingual lexicons of cognates and false cognates; bilingual lexicon of discourse markers; bilingual lexicon of formulaic expressions that appear in scientific texts and bilingual lexicon of verbs related to scientific research in Portuguese and, (iii) the point of view of creating subsidies for the area of support scientific writing, design and evaluation of aid to support scientific writing in Portuguese by native Spanish speakers.
|
3 |
Erros de escrita em inglês por brasileiros: identificação, classificação e variação entre níveisDantas, Wendel Mendes 17 May 2012 (has links)
Made available in DSpace on 2016-04-28T18:22:32Z (GMT). No. of bitstreams: 1
Wendel Mendes Dantas.pdf: 2248359 bytes, checksum: d5c27ce03f0a60ff11f719e7ba0ce737 (MD5)
Previous issue date: 2012-05-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The aim of this study was to identify and classify errors found in Brazilian English learners s written tasks. The questions which guide this research are: Which are the most common errors in COBRA-7_recorte? ; What is the error variation among course levels for learners found in COBRA-7_recorte? and Which course level shows the highest error diversity in COBRA-7_recorte?". The main theoretical underpinning for the research is provided by Corpus Linguistics, an area devoted to the collection and criterious analysis of data collected from texts in electronic formar, and, specifically, by research on learner corpora. the corpora used in this research were the Corpus of Contemporary American English (COCA) (consultation corpus) and a sample of COBRA-7 (COBRA-7_recorte), the study corpus, compiled from the writings of adult learners enrolled in a network of schools which teach English as a foreign language in the state of São Paulo, and which have been produced between 2009 and 2010. The data have been collected from the institution's online server in 2011. Results have shown that the most common errors found in the analysis corpus are: wrong lexical choice, tense and aspect use, use of determiners, and wrong use of questions, negatives or auxiliaries. They have also revealed that pre-intermediate course level has the highest quantity and diversity of errors, probably because it is a level at which learners are exposed to diverse verbal tenses. Finally, this study has also shown that although wrong lexical choice, particularly the replacement of prepositions or particiles by words from the same or other grammatical categories, seem to be a problem for learners, this difficulty tends to decrease along the course, unlike errors of verbal tense and aspect use, which tend to increase / O trabalho tem como objetivo identificar e classificar os erros na escrita de aprendizes brasileiros de inglês. As perguntas que norteiam a pesquisa são: Quais os erros mais comuns no córpus COBRA-7_recorte? ; Qual a variação de erro entre os níveis de curso dos aprendizes no córpus COBRA-7_recorte? e Qual nível de curso apresenta maior diversidade de erros no córpus COBRA-7_recorte? . Esta pesquisa encontrou suporte teórico na Linguística de Córpus, área que se dedica à coleta e análise criteriosa de dados de textos em formato digital, e especificamente nas pesquisas dedicadas a córpus de aprendizes. Os córpora empregados na pesquisa foram o Corpus of Contemporary American English (COCA) (córpus de consulta) e uma amostra do COBRA-7 (córpus de estudo), compilado a partir de redações de aprendizes adultos matriculados em uma rede de escolas de inglês como língua estrangeira do estado de São Paulo, produzidas entre 2009 e 2010. Os dados foram coletados de um servidor online da própria instituição em 2011. Os resultados indicaram que os erros mais comuns encontrados no córpus de análise referem-se a: má escolha lexical, uso de tempo e aspecto verbal, uso de determinantes, e uso inadequado de questões, negações ou auxiliares. Revelaram também que o nível de curso pré-intermediário apresenta as maiores quantidade e diversidade de erros, provavelmente por se tratar de um nível no qual os aprendizes são expostos a tempos verbais diversos. Por fim, mostraram que embora a má escolha lexical, sobretudo a substituição de preposições ou conjunções por outras ou pelas mesmas classes gramaticais constitua um problema para os aprendizes, essa dificuldade diminui ao longo do curso, ao contrário do erro no uso dos tempos e aspecto verbais, que tende a aumentar
|
Page generated in 0.0497 seconds