Global ETD Search

11	VoTec: a construção de vocabulários eletrônicos para aprendizes de tradução / VoTec: the construction of electronic vocabularies for translation learners Fromm, Guilherme 31 January 2008 (has links) O presente trabalho visa descrever a construção de um Vocabulário Técnico Online, denominado VoTec e disponibilizado em uma página da Internet, para aprendizes de Tradução. São discutidos vários modelos de obras similares que serviram de base para o desenvolvimento do mesmo. O VoTec é uma ferramenta que se vale de corpora técnicos para a construção de seus verbetes e de um banco de dados (ambos exaustivamente descritos) para o seu funcionamento. São apresentados, também, o resultado de duas pesquisas realizadas com tradutores: uma com profissionais da área, para colher suas opiniões sobre obras terminográficas em geral, e outra com aprendizes, para colher suas opiniões após o uso da ferramenta. A inovação proposta pela ferramenta é a possibilidade de customização de seus modos de apresentação na tela e as formas de busca no banco de dados. O modo de apresentação possibilita duas formas de visualização da microestrutura: a normal, formatada como os dicionários impressos, e a descritiva, uma forma própria dos dicionários eletrônicos, em que a microestrutura é descrita de forma hierárquica. A consulta ao banco de dados pode ser feita de três modos diferentes: total, tradutor e modular. A consulta total disponibiliza praticamente todos os campos existentes no banco de dados; a do tradutor apresenta os campos que se destacaram na pesquisa realizada com os profissionais da área; a modular é montada de acordo com as necessidades tradutórias do consulente, isto é, ele pode visualizar ou não cada campo disponível no banco de dados. Além dessas consultas ligadas ao banco, a página do VoTec disponibiliza, também, links para pesquisa externa em páginas pertinentes, como dicionários e enciclopédias online. / The present work aims at describing the construction of an Online Technical Vocabulary, to be known as VoTec and available on an Internet site for Translation learners. Many similar models are discussed and taken into account in its development. The VoTec is a tool that relies on a technical corpora and a data bank (both exhaustively described) to build up the entries available at the site. The results of two researches with translators are also shown: one with the professionals in the area, to collect their opinions about terminographical reference works in general, and another one with the learners, to elicit their opinions on the tool after they had their first contact with it. The innovation proposed by the tool is the possibility of customizing the display of its screens and the searches the data bank make available. The screen display offers two ways to view the microstructure: the normal one, similar to a paperback dictionary model, and the descriptive one, typical of electronic dictionaries, where the microstructure is described in a hierarchical way. The data bank can be searched in three different ways: total, translator and modulated. The total search shows almost all the fields available in the data bank; the translator one shows the fields that were highlighted by the professional translators in one of the researches; the modulated one is built up according to the user\'s translation necessities, that is, he/she can choose which field or fields of the data bank will be shown. Besides these searches which access the data bank, the VoTec page also offers links to external searches in related webpages, such as online dictionaries and encyclopedias. Corpus Linguistics Ensino da Tradução Information Technology Lingüística de Corpus Tecnologia da Informação Terminografia Terminography Terminologia Terminology Translation Training
12	Corpop : um corpus de referência do português popular escrito do Brasil Pasqualini, Bianca Franco January 2018 (has links) Esta tese propõe um corpus do Português popular brasileiro escrito, denominado CorPop, com textos selecionados com base no nível de letramento médio dos leitores do país. As bases teórico-metodológicas do CorPop são interdisciplinares e inserem-se no âmbito dos Estudos da Linguagem e disciplinas afins, como Estudos do Léxico e Linguística de Corpus, Linguística Textual e Psicolinguística, dialogando também com estudos de Processamento de Língua Natural. Desse modo, esta investigação abriga-se na Linha de Pesquisa Lexicografia, Terminologia e Tradução: Relações Textuais do PPG-Letras-UFRGS, e nosso recorte, por isso, tende ao destaque para o Léxico. O desenvolvimento do CorPop deu-se através da compilação de dados sobre o nível de letramento dos leitores brasileiros e das características que poderiam compor um padrão de simplicidade textual em um corpus de textos adequados a esses leitores. Tais dados foram coletados das pesquisas do Indicador de Alfabetismo Funcional (INAF) e Retratos da Leitura no Brasil, além de um questionário com leitores. Os textos selecionados para o CorPop são (1) textos do jornalismo popular do Projeto PorPopular (jornal Diário Gaúcho), consumido maciçamente pelas classes C e D, que é o leitor médio brasileiro; (2) textos e autores mais lidos pelos respondentes das últimas edições da pesquisa Retratos da Leitura no Brasil; (3) coleção “É Só o Começo” (adaptação de clássicos da literatura brasileira para leitores com baixo letramento, adaptação esta realizada por linguistas); (4) textos do jornal Boca de Rua, produzido por pessoas em situação de rua, com baixa escolaridade e baixo letramento; e (5) textos do Diário da Causa Operária, imprensa operária brasileira produzida também por pessoas dentro da faixa média de letramento do país. Realizamos, após a coleta, preparação e processamento dos textos do corpus, uma série de experimentos com a lista bruta de frequências e com a lista de frequências lematizada do CorPop. Os resultados obtidos mostram aplicações promissoras do CorPop em diversas tarefas linguísticas, desde simplificação de textos até uso como vocabulário controlado para redação de paráfrases definitórias em dicionários e comprovam que um corpus pequeno pode ter a mesma validade que um corpus de grandes proporções. / This thesis proposes a corpus of Brazilian popular Portuguese written, called CorPop, with texts selected based on the average level of literacy of the country 's readers. CorPop's theoretical and methodological bases are interdisciplinary and fall within the scope of Language Studies and related disciplines, such as Corpus Lexicon and Linguistics Studies, Textual Linguistics and Psycholinguistics, and also dialogues with Natural Language Processing studies. Thus, this research is housed in the Lexicography, Terminology and Translation Research Line: Textual Relations of PPG-Letras-UFRGS, and our cut, therefore, tends to highlight the Lexicon. The development of CorPop took place through the compilation of data about the level of literacy of Brazilian readers and the characteristics that could compose a standard of textual simplicity in a corpus of texts suitable for these readers. These data were collected from the surveys of the Indicator of Functional Literacy (INAF) and Reading Portraits in Brazil, as well as a questionnaire with readers. The texts selected for CorPop are (1) texts of the popular journalism of the PorPopular Project (newspaper Diário Gaúcho), massively consumed by the C and D classes, which is the average Brazilian reader; (2) texts and authors most read by the respondents of the last editions of the research Retratos da Leitura no Brasil; (3) collection "É Só o Começo" (adaptation of classics from Brazilian literature to readers with low literacy, adaptation by linguists); (4) texts of the newspaper Boca de Rua, produced by street people, with low schooling and low literacy; and (5) texts of the Diário da Causa Operária, the Brazilian working press produced also by people within the average literacy range of the country. After the collection, preparation and processing of the texts of the corpus, a series of experiments with the crude list of frequencies and the list of frequencies typed in CorPop. The results obtained show promising applications of CorPop in several linguistic tasks, such as text simplification and use as controlled vocabulary for writing definitions in dictionaries. Also, CorPop proves that a small corpus can have the same validity as a corpus of large proportions. Língua portuguesa Leitura : Compreensão Lingüística de corpus Corpus of popular Brazilian Portuguese Corpus linguistics Text simplification
13	Extração de redes léxicos-semânticas do português em um corpus de turismo Murakami, Thiery Okuyama Silva January 2011 (has links) Orientadora: Margarethe Born Steinberger-Elias / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós graduação em Engenharia da Informação, 2011. LINGÜÍSTICA DE CORPUS redes léxico-semânticas,turismo
14	Modelagem lingüística comparada em corpora de desastres naturais : explorando técnicas e métodos Lacerda, Glaucia Dutra January 2012 (has links) Orientador: Margarethe Born Steinberger-Elias / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Engenharia da Informação, 2012 LINGÜÍSTICA DE CORPUS REDES LÉXICO-SEMÂNTICAS LINGUÍSTICA COMPUTACIONAL COMUNICAÇÃO DE DESASTRES
15	Cafés do Brasil: estudo de variantes em português e inglês na língua falada / Brazilian Coffee: Portuguese and English Variants in the spoken language Luciana Latarini Ginezi 28 January 2008 (has links) O objetivo deste trabalho é analisar a ocorrência de variantes terminológicas na linguagem de especialidade do Café e verificar a possibilidade de se construir um produto terminológico bilíngüe baseado na oralidade. Inspirado no trabalho profissional de interpretação consecutiva e intermitente, o estudo utiliza corpora falados, uma vez que podemos estabelecer uma relação clara entre a oralidade e a interpretação, modalidade oral da tradução. Todas as dificuldades encontradas na construção dos corpora falados são explicitadas e algumas sugestões são feitas para futuras pesquisas. A pesquisa segue os princípios da Lingüística de Corpus (LC), tanto na elaboração dos corpora como também na análise dos dados, essa com o uso da ferramenta computacional WordSmith Tools, agilizando o processo e dando a ele confiabilidade. O estudo justifica-se pela importância do conhecimento de variantes terminológicas nas línguas de especialidade e na sua modalidade falada, por intérpretes e por profissionais da área e, também, pelas possibilidades oferecidas pela LC para a pesquisa socioterminológica na oralidade. Assim, compilamos dois corpora falados monolíngües, um em português do Brasil e outro em inglês de países diversos, com o tema Café, subdividido em colheita e processamento, composto por entrevistas face-a-face da pesquisadora com profissionais da área cafeeira e por conversações entre profissionais, em ambas as línguas. Também construímos um corpus bilíngüe, composto por interpretações entre falantes de inglês e de português. Em seguida, analisamos os dados dos corpora, buscando encontrar variantes. Ao final do trabalho, elaboramos um vocabulário bilíngüe a partir dos dados coletados e das análises efetuadas. / The aim of this research is to analyze the presence of terminological variants in the specialty language of coffee and to verify the possibility of building a bilingual vocabulary based on spoken language. The study is guided by the consecutive or liaison interpreting and the use of spoken corpora, once we can establish a close relation between spoken language and interpreting, oral mode of translation. Several difficulties were faced in order to build the spoken corpora, and they are presented with some suggestions for future research. The principles of Corpus Linguistics are followed to the corpora design, as well corpora exploration, using Mike Scott\'s WordSmith Tools. The study is significant due to the knowledge of terminological variants in spoken language, by interpreters and professional workers at a specialty area, and also to the possibilities Corpus Linguistics offers to a socioterminological research at spoken variety. Two monolingual spoken corpora were compiled, one in Brazilian Portuguese and the other in English spoken world-wide. The main topic is Coffee, divided in harvest and processing, with face to face interviews as well as conversations among coffee professionals, in both languages. An interpreting corpus is also included in the work, between Portuguese and English speakers. After analysis, we present a bilingual vocabulary of spoken language, including the variants found for most of the terms. Café Língua falada Lingüística de corpus Socioterminologia Variantes Coffee Corpus Linguistics Socioterminology Spoken language Variants
16	O corpus do jornal: variação lingüística, gêneros e dimensões da imprensa diária escrita H., Kauffmann, Carlos 27 October 2005 (has links) Made available in DSpace on 2016-04-28T18:22:17Z (GMT). No. of bitstreams: 1 Diss_Kauffmann_BDTD.pdf: 767594 bytes, checksum: acdbea5026138293e8463608f349d1f1 (MD5) Previous issue date: 2005-10-27 / nenhum / O objetivo desta pesquisa é identificar empiricamente semelhanças e diferenças de natureza lingüística nos textos e entre os gêneros de um jornal de expressão do Brasil. Para a sua consecução, foram empregados os recursos teóricos-metodológicos proporcionados pela Lingüística de Corpus (BIBER, 1988; SINCLAIR, 1991; KENNEDY, 1998; BERBER SARDINHA, 2004a). Coletou-se uma amostra que representa a língua portuguesa do Brasil tal como é utilizada contemporaneamente na imprensa diária escrita de prestígio nacional. Ela se compõe de uma semana construída com sete edições aleatoriamente sorteadas, entre as publicadas em 2003 pela "Folha de S.Paulo", totalizando um corpus de estudo de 1.431 textos (493.780 palavras). O corpus jornalístico foi etiquetado automaticamente com o etiquetador morfossintático VISL para a língua portuguesa (BICK, 2005), de alta precisão. A metodologia escolhida para estudar o corpus foi a Análise Multidimensional (BIBER, 1988; LEE, 2000). Seu procedimento estatístico chave, a Análise Fatorial, busca encontrar grupos co-ocorrentes de características e categorias lingüísticas (ou "variáveis"). Das 19 variáveis selecionadas para a extração fatorial inicial, 14 delas compuseram a solução fatorial final. Foram extraídos dois fatores, interpretados em termos de suas funções comunicativas subjacentes - os eixos dimensionais "Narrativo versus Expositivo" e "Argumentativo versus Informativo". O trabalho propõe uma tipologia dos gêneros presentes no jornal, baseada em uma revisão da literatura da área de Estudos de Comunicação (MARQUES DE MELO, 1994 e outras fontes). Ela permitiu a classificação do corpus de estudo e a atribuição de escores, com os quais foi possível mapear os gêneros ao longo das dimensões. Essa perspectiva refinou tipologias anteriores, na medida em que ela não é apresentada de forma dicotômica, mas de acordo com as posições que os gêneros ocupam em relação às dimensões identificadas Lingüística de corpus Imprensa - Brasil Jornalismo - Brasil
17	A lingüística de corpus a serviço do tradutor: proposta de um dicionário de culinária voltado para a produção textual / Corpus linguistics at the translator\'s service: proposal of an online dictionary of culinary aiming at text production Teixeira, Elisa Duarte 01 December 2008 (has links) Os dicionários sempre foram e ainda são uma das principais ferramentas da tarefa tradutória. No entanto, a terminografia parece não ter se beneficiado ainda de forma sistemática, pelo menos no Brasil, da estreita relação entre dicionários técnicos e esse público-alvo específico e cada vez mais expressivo: os tradutores técnicos. Na área da Culinária, por exemplo, cuja demanda por traduções tem crescido regularmente no país, os dicionários disponíveis no par de línguas inglês-português, ainda que possam contribuir para a compreensão do texto original, não dão qualquer informação sobre como os termos são, de fato, usados em textos reais na área, ou seja, não auxiliam o tradutor numa etapa fundamental da atividade tradutória: a produção textual na língua de chegada. Nossa tese é a de que um dicionário que procure atender as necessidades de produção textual do tradutor deve concentrar-se nos aspectos que caracterizam o texto técnico do ponto de vista da tradução, isto é, deve descrever e propor equivalentes ou soluções tradutórias para as Unidades de Tradução Especializadas (UTEs) presentes nesses textos, com as quais o tradutor da área se depara freqüentemente em sua prática, sejam elas terminológicas ou não. A Lingüística de Corpus (L.C.), abordagem empirista que vê a língua como um sistema probabilístico, tem se dedicado à identificação de padrões léxico-gramaticais recorrentes na linguagem por meio da observação de textos autênticos organizados sob a forma de corpora eletrônicos. É, portanto, a área de estudos que julgamos fornecer os subsídios teóricos e metodológicos mais adequados para compilar as UTEs a partir de textos reais. Para abrigar essas unidades, apresentamos uma proposta de dicionário online bidirecional inglês-português voltado para o tradutor da área técnica da Culinária. As etapas seguidas no desenvolvimento deste trabalho estão organizadas em seis capítulos. O primeiro trata de aspectos teórico-práticos da tradução técnica e discute o papel da terminologia na prática tradutória. O segundo examina as especificidades do trabalho do tradutor da área da Culinária no Brasil e caracteriza a receita culinária , foco de nosso estudo, como gênero e tipologia textual. No terceiro capítulo, as bases teóricas e metodológicas da L.C. são apresentadas, bem como os critérios de coleta do corpus que servirá de base para a identificação das UTEs. O Capítulo IV descreve a etapa de exploração desse corpus: primeiramente, apresentamos o estudo em que é feito um levantamento manual de padrões léxicogramaticais usando o programa WordSmith Tools; em seguida, descrevemos uma metodologia de extração semi-automática de UTEs no corpus. O Capítulo V apresenta nossa proposta do Dicionário Online de Culinária bidirecional para Tradutores, descrevendo sua macro- e microestrutura. O Capítulo VI apresenta nossas considerações finais. Os resultados obtidos em nosso trabalho demonstram que a L.C., se usada não apenas como metodologia, mas como abordagem teórica na exploração de corpora especializados, permite elaborar dicionários mais úteis e confiáveis para o tradutor, pois leva em consideração quaisquer padrões associativos entre palavras cuja probabilidade de ocorrer em textos representativos da área seja alta fato que justifica plenamente a inclusão desses padrões num dicionário voltado para o tradutor-produtorde- textos. / Dictionaries have always been and still are one of the main tools for the translator s task. Nevertheless, terminography does not seem to have systematically benefited, at least in Brazil, from the close relation between technical dictionaries and this increasingly significant and particular target audience: technical translators. In the field of Culinary, for instance, which has witnessed a growing demand for translations in Brazil, much as the dictionaries available for the English-Portuguese language pair may contribute to the understanding of the source text, they still do not provide any information on how the terms are actually used in real texts. In other words, they do not help the translator in a crucial step of the translation activity: text production in the target language. The thesis advanced here is that a dictionary which seeks to meet the needs of a translator s text production should focus on the aspects which characterize technical texts from the point of view of translation itself, that is, it should describe and propose translation equivalents or suggestions for the Specialized Translation Units (STUs) occurring in these texts, which the translator in the area often comes across in her/his practice, whether they are terminological or not. Corpus Linguistics (CL), an empirical approach which regards language as a probabilistic system, has devoted itself to the identification of recurring lexico-grammatical patterns in language by observing authentic texts organized as electronic corpora. It is, therefore, the field of studies we deem capable of providing the most adequate theoretical and methodological support to extract the STUs from real texts. In order to embrace these units, a proposal of an online bidirectional English-Portuguese dictionary is presented, which is aimed at the technical Culinary translator. The steps followed in the development of this study were organized in six chapters. The first deals with the theoretical and practical aspects of technical translation and discusses the role of terminology in translation practice. The second examines the specificities of the Culinary translator s job in Brazil and characterizes the culinary recipe , the focus of this study, in terms of text genre and typology. In the third chapter, the theoretical and methodological foundations of CL are presented, as well as the criteria used in the compilation of the corpus to be used for the identification of the STUs. Chapter IV describes the exploration of this corpus: first, we present the study in which a manual search of lexico-grammatical patterns using the WordSmith Tools program is carried out; next, a methodology for semi-automatic extraction of STUs in the corpus is described. Chapter V presents our proposal for a bidirectional online Culinary Dictionary for Translators, describing its macro- and microstructure. Chapter VI contains the final considerations. The results obtained in this study bear witness to the fact that CL, if used not only as a methodology, but as a theoretical approach in the investigation of specialized corpora, enables the production of more useful and trustworthy dictionaries for the translator, for it takes into account any association patterns between words with a probability of occurrence in representative texts in the field a fact which strongly supports the inclusion of these patterns in a dictionary aimed at the translator-producer-of-texts Bilingual dictionaries Corpus linguistics Culinária Culinary Dicionários bilíngües Lingüística de corpus Technical translation Terminologia Terminology Tradução técnica
18	La modalitat de l'acció. Anàlisi empírica, reformulació teòrica i representació computacional Coll-Florit, Marta 29 May 2009 (has links) En aquesta tesi es proposa un model de classificació i representació de la informació aspectual que és vàlid tant per a les aproximacions teòriques com per als models aplicats, com és el cas de la lexicografia computacional. Les principals contribucions d'aquest model es poden sintetitzar en tres punts bàsics. En primer lloc, és un model que dóna compte dels diferents graus de restricció que s'estableixen entre aspecte lèxic i context oracional, així com capta la naturalesa gradual i els efectes de prototipicitat consubstancials a la modalitat de l'acció, tot oferint un cercle de contigüitat de les categories aspectuals que obre noves vies per a entendre la relació i el canvi entre categories. En segon lloc, es caracteritza el fenomen de la polisèmia aspectual i, de manera més específica, la relació que s'estableix entre modalitat de l'acció i restriccions de selecció. D'aquesta manera, s'ofereix un criteri addicional per a la distinció de sentits verbals, una de les necessitats bàsiques dels recursos per al Processament del Llenguatge Natural. Finalment, i de manera més rellevant, és un model que s'ha validat empíricament a partir de tècniques pròpies de la lingüística de corpus i d'experiments psicolingüístics. / This thesis presents a new model of aspectual classification and representation which is valid for theoretical approaches as well as for applied models, such as computational lexicography. The main contributions of this work can be summarized in three basic points. Firstly, it accounts for different constraint degrees in the interaction between lexical aspect and sentential context, while sheding light on the gradual nature and inherent prototipicity effects of Aktionsart, thus offering a contiguous circle of aspectual categories which opens new ways for understanding the shift between categories. Secondly, aspectual polysemy, and more specifically the relationship between Aktionsart and selectional restrictions, is accounted for, allowing the formulation of new criteria in order to distinguish verbal senses, which is one of the main needs of Natural Language Processing resources. Finally, and more interestingly, this model has been validated empirically by means of corpus linguistic techniques and psycholinguistic experiments. experiments psicolingüístics lingüística cognitiva modalitat de l'acció aspecte semàntica verbal lingüística de corpus representació computacional Lingüística General 81
19	Corpop : um corpus de referência do português popular escrito do Brasil Pasqualini, Bianca Franco January 2018 (has links) Esta tese propõe um corpus do Português popular brasileiro escrito, denominado CorPop, com textos selecionados com base no nível de letramento médio dos leitores do país. As bases teórico-metodológicas do CorPop são interdisciplinares e inserem-se no âmbito dos Estudos da Linguagem e disciplinas afins, como Estudos do Léxico e Linguística de Corpus, Linguística Textual e Psicolinguística, dialogando também com estudos de Processamento de Língua Natural. Desse modo, esta investigação abriga-se na Linha de Pesquisa Lexicografia, Terminologia e Tradução: Relações Textuais do PPG-Letras-UFRGS, e nosso recorte, por isso, tende ao destaque para o Léxico. O desenvolvimento do CorPop deu-se através da compilação de dados sobre o nível de letramento dos leitores brasileiros e das características que poderiam compor um padrão de simplicidade textual em um corpus de textos adequados a esses leitores. Tais dados foram coletados das pesquisas do Indicador de Alfabetismo Funcional (INAF) e Retratos da Leitura no Brasil, além de um questionário com leitores. Os textos selecionados para o CorPop são (1) textos do jornalismo popular do Projeto PorPopular (jornal Diário Gaúcho), consumido maciçamente pelas classes C e D, que é o leitor médio brasileiro; (2) textos e autores mais lidos pelos respondentes das últimas edições da pesquisa Retratos da Leitura no Brasil; (3) coleção “É Só o Começo” (adaptação de clássicos da literatura brasileira para leitores com baixo letramento, adaptação esta realizada por linguistas); (4) textos do jornal Boca de Rua, produzido por pessoas em situação de rua, com baixa escolaridade e baixo letramento; e (5) textos do Diário da Causa Operária, imprensa operária brasileira produzida também por pessoas dentro da faixa média de letramento do país. Realizamos, após a coleta, preparação e processamento dos textos do corpus, uma série de experimentos com a lista bruta de frequências e com a lista de frequências lematizada do CorPop. Os resultados obtidos mostram aplicações promissoras do CorPop em diversas tarefas linguísticas, desde simplificação de textos até uso como vocabulário controlado para redação de paráfrases definitórias em dicionários e comprovam que um corpus pequeno pode ter a mesma validade que um corpus de grandes proporções. / This thesis proposes a corpus of Brazilian popular Portuguese written, called CorPop, with texts selected based on the average level of literacy of the country 's readers. CorPop's theoretical and methodological bases are interdisciplinary and fall within the scope of Language Studies and related disciplines, such as Corpus Lexicon and Linguistics Studies, Textual Linguistics and Psycholinguistics, and also dialogues with Natural Language Processing studies. Thus, this research is housed in the Lexicography, Terminology and Translation Research Line: Textual Relations of PPG-Letras-UFRGS, and our cut, therefore, tends to highlight the Lexicon. The development of CorPop took place through the compilation of data about the level of literacy of Brazilian readers and the characteristics that could compose a standard of textual simplicity in a corpus of texts suitable for these readers. These data were collected from the surveys of the Indicator of Functional Literacy (INAF) and Reading Portraits in Brazil, as well as a questionnaire with readers. The texts selected for CorPop are (1) texts of the popular journalism of the PorPopular Project (newspaper Diário Gaúcho), massively consumed by the C and D classes, which is the average Brazilian reader; (2) texts and authors most read by the respondents of the last editions of the research Retratos da Leitura no Brasil; (3) collection "É Só o Começo" (adaptation of classics from Brazilian literature to readers with low literacy, adaptation by linguists); (4) texts of the newspaper Boca de Rua, produced by street people, with low schooling and low literacy; and (5) texts of the Diário da Causa Operária, the Brazilian working press produced also by people within the average literacy range of the country. After the collection, preparation and processing of the texts of the corpus, a series of experiments with the crude list of frequencies and the list of frequencies typed in CorPop. The results obtained show promising applications of CorPop in several linguistic tasks, such as text simplification and use as controlled vocabulary for writing definitions in dictionaries. Also, CorPop proves that a small corpus can have the same validity as a corpus of large proportions. Língua portuguesa Leitura : Compreensão Lingüística de corpus Corpus of popular Brazilian Portuguese Corpus linguistics Text simplification
20	As formações x-inho nas modalidades oral e escrita: um estudo contrastivo baseado na lingüística de corpus / The suffix "inho" in spoken and written discourse:a contrastive study based on corpus linguistics Marcos Antônio Gonçalves 13 February 2006 (has links) As formações x-inho são descritas, na maioria das gramáticas de Língua Portuguesa como contendo noções dimensiva e afetiva. Entretanto, essas mesmas gramáticas não incluem os fatores extraligüísticos e contextuais nos quais os anunciadores estão inseridos quando optam por uma formação em x-inho. Sob esta perspectiva, tem-se no presente trabalho, o objetivo de investigar a produtividade das formações x-inho em dois corpora eletrônicos: um oral, subdividido em dois subcorpora contendo respectivamente narrativas e descrições e um escrito, oriundo exclusivamente das variadas seções e cadernos de um jornal de grande circulação e qualidade. A dissertação quantifica as ocorrências das formações x-inho em cada um dos corpora. Em seguida cada uma dessas ocorrências é analisada para se verificar que tipo de noção (dimensiva, afetiva positiva ou negativa, intensificadora, etc) ela contem. Por fim são contrastados os dados de freqüência e dispersão de cada uma das noções encontradas para cada um dos corpora. A metodologia de nossa análise está centrada na área de investigação lingüística denominada Lingüística de corpus, que serve de base para que os dados colhidos sejam analisados e interpretados. / The items ending in -inho are described in the majority of grammars of Portuguese as conveying two notions, namely affect and dimension. However, the same grammars do not seem to include either the extralinguistic or contextual factors in which speakers are inserted when they opt for a word ending in -inho. The aim of the present work thus is to investigate the productivity of such items in two electronic corpora: one of an oral nature which is further subdivided into two sub-corpora containing narratives and descriptions and a second one compiled exclusively from the various sections of a widely read quality newspaper. The dissertation quantifies the various instances of items ending in inho in each of the corpora. Next, each of these occurrences is analysed and classified to check which notion (dimentio,positive affect, negative affect, intensification) they convey. Last the results of both frequency and dispension counts are contrasted for each of the corpora. The methodology of our analyses is centered on the area known as Corpus Linguistics, which provides a basis for the data to be compiled and interpreted. Lingüística de corpus Sufixo Análise lingüística Modalidades da língua Modality of linguistics Corpus linguistics Suffix Linguistics analysis LINGUISTICA

Search results