Spelling suggestions: "subject:"lingüística dde corpus"" "subject:"lingüística dee corpus""
51 |
Bases teórico-metodológicas para elaboração de um glossário bilíngue (português-inglês) de treinamento de força : subsídios para o tradutorDornelles, Márcia dos Santos January 2015 (has links)
O terminógrafo, ao elaborar um produto terminográfico bilíngue para tradutores, deve preocupar-se não só em repertoriar, nas duas línguas, os termos próprios de uma (sub)área do conhecimento, mas também em apresentá-los inseridos em suas combinatórias típicas, ou seja, associados aos elementos que a eles se combinam em nível sintagmático, de forma recorrente nos textos daquela especialidade. Isso porque o tradutor precisa produzir um texto de chegada adequado ao padrão de linguagem em foco, de forma a espelhar o modus dicendi daquele campo. Assim, seu texto soará natural à comunidade de leitores, evitando-se ruídos na comunicação. Diante da falta de produtos terminográficos bilíngues sobre Treinamento de Força (TF), dirigido a tradutores, esta investigação tem como objetivo central apresentar bases teórico-metodológicas para a elaboração de um glossário português-inglês da terminologia do TF. Esse glossário é aqui apresentado como um protótipo, uma amostra de um todo, destinado a auxiliar especialmente tradutores brasileiros que trabalhem na direção português→inglês, mas que pode ser aproveitado também por pesquisadores e estudantes dessa temática que precisem produzir artigos científicos em inglês. Ele inclui guia do usuário, uma árvore de domínio em português do TF, lista de termos em português e 30 exemplares de fichas terminológicas em formato estendido. Outro objetivo do estudo é oferecer uma descrição do comportamento dos termos em português e inglês, e das unidades fraseológicas especializadas (UFE) eventivas (BEVILACQUA, 2003; 2004) em português no âmbito dos artigos científicos sobre TF. Como referencial teórico, valemo-nos dos princípios da Teoria Comunicativa da Terminologia (TCT) e dos fundamentos e diretrizes da Linguística de Corpus (LC). Seguir a TCT (CABRÉ, 1999a; 1999b; 2001a; 2001b; 2003; 2009) implica adotar o termo como objeto central de estudo e concebê-lo, antes de tudo, como uma unidade lexical da língua natural que adquire valor especializado dentro de um contexto especializado, segundo critérios semânticos, discursivos e pragmáticos. Seguir a LC (BIBER, 2012; BERBER SARDINHA, 2004) implica uma visão probabilística da língua, pressupondo que, embora muitos traços linguísticos sejam possíveis teoricamente, não ocorrem com a mesma frequência. Ganham realce no estudo os temas da variação terminológica, da tradução funcional e do artigo científico como gênero especializado. Nosso corpus de estudo é constituído de 70 artigos de periódicos científicos de destaque no âmbito do TF, escritos originalmente em português e inglês. São, portanto, dois subcorpora, um em cada língua, que são comparáveis. Para exploração e análise do corpus, utilizamos o software AntConc (ANTHONY, 2011), especialmente as funcionalidades keyword list, n-grams e concordance. Como material de apoio, utilizamos livros-texto e artigos científicos de referência sobre TF, um glossário particular pré-existente de Educação Física, a Terminologia Anatômica Internacional, o Google Acadêmico, o Wikipédia, entre outros. Também contamos com a colaboração de dois consultores especialistas em TF. A pesquisa contempla, então, uma parte teórica e uma parte aplicada que se inter-relacionam e se inserem na dupla face da Terminologia, visto que há uma descrição de uma linguagem especializada a partir de um dado ponto de vista teórico e o desenho de um produto concreto. / When designing a bilingual terminographic product for translators, a terminographer must be concerned not only with including, in both languages, the specific terms of a (sub)field of knowledge, but also with presenting these terms within their typical phraseological structures, that is, associated with the elements they combine with syntagmatically and recurrently in the texts of that domain. This is because a translator needs to produce a target text appropriate to the language pattern in focus, so as to reflect the modus dicendi of that specialized field. In this way, the text produced will sound much more natural to the community of readers, thereby avoiding noise in communication. Given the lack of bilingual terminographic products on Strength Training (ST), addressed to translators, the main purpose of this research study is to provide theoretical and methodological foundations for the development of a Portuguese-English glossary of ST terminology. This glossary is presented here as a prototype – a sample of a whole – especially designed to assist Brazilian translators working in the Portuguese to English direction, but it can also be useful for researchers and students of this subject to produce scientific papers in English. It includes a user guide, a domain tree of ST in Portuguese, a list of terms in Portuguese, and 30 sample terminology records in extended format. Another objective of the study is to provide a description of the behavior of terms in Portuguese and English, and of eventive specialized phraseological units (BEVILACQUA, 2003; 2004) in Portuguese on ST scientific articles. As theoretical framework, we based on the principles of the Communicative Theory of Terminology (CTT) and on the foundations and guidelines of Corpus Linguistics (CL). Following CTT (CABRÉ, 1999a; 1999b; 2001a; 2001b; 2003; 2009) implies adopting the term as the central object of study and conceiving it, first of all, as a lexical unit of natural language that acquires specialized value within a specialized context, according to semantic, discursive and pragmatic criteria. Following CL (BIBER, 2012; BERBER SARDINHA, 2004) implies a probabilistic viewpoint of language, assuming that, although many linguistic features are possible theoretically, they do not occur with the same frequency. The topics of terminological variation, functional approach to translation, and the scientific article as a specialized genre are also highlighted in the study. Our corpus consists of 70 articles from leading scientific journals on ST, originally written in Portuguese and English. They are two comparable subcorpora, one in each language. For the exploration and analysis of the corpus, we used the AntConc software (ANTHONY, 2011), especially the tools keyword list, n-grams and concordance. As support material, we used textbooks and reference scientific papers on ST, a pre-existing personal glossary of Physical Education, the International Anatomical Terminology, Google Scholar, Wikipedia, among others. We also had the collaboration of two expert consultants in ST. Therefore, the research embraces a theoretical part and an applied part that interrelate and fall into the double face of Terminology, since there is a description of a specialized language from a given theoretical point of view and the design of a concrete product.
|
52 |
Leitura, tradução e medidas de complexidade textual em contos da literatura para leitores com letramento básicoPasqualini, Bianca Franco January 2012 (has links)
Este trabalho trata dos temas da complexidade textual e de padrões de legibilidade a partir de um enfoque computacional, situando o tema em meio à descrição de textos originais e traduzidos, aproveitando postulados teóricos da Tradutologia, da Linguística de Corpus e do Processamento de Línguas Naturais. Investigou-se a suposição de que há traduções de literatura em língua inglesa produzidas no Brasil que tendem a gerar textos mais complexos do que seus originais, tendo como parâmetro o leitor brasileiro médio, cuja proficiência de leitura situa-se em nível básico. Para testar essa hipótese, processamos, usando as ferramentas Coh-Metrix e Coh-Metrix-Port, um conjunto de contos literários de vários autores em língua inglesa e suas traduções para o português brasileiro, e, como contraste, um conjunto de contos de autores brasileiros publicados na mesma época e suas traduções para o inglês. As ferramentas Coh-Metrix e Coh-Metrix-Port calculam parâmetros de coesão, coerência e inteligibilidade textual em diferentes níveis linguísticos, e as métricas estudadas foram as linguística e gramaticalmente equivalentes entre as duas línguas. Foi realizado também um teste estatístico (t-Student), para cada métrica e entre as traduções, para avaliar a diferença entre as médias significativas dentre resultados obtidos. Por fim, são introduzidas tecnologias tipicamente usadas em Linguística Computacional, como a Aprendizagem de Máquina (AM), para o aprofundamento da análise. Os resultados indicam que as traduções para o português produziram textos mais complexos do que seus textos-fonte em algumas das medidas analisadas, e que tais traduções não são adequadas para leitores com nível de letramento básico. Além disso, o índice Flesch de legibilidade mostrou-se como a medida mais discriminante entre textos traduzidos do inglês para o português brasileiro e textos escritos originalmente em português. Conclui-se que é importante: a) revisar equivalências de medidas de complexidade entre o sistema Coh-Metrix para o inglês e para o português; b) propor medidas específicas das línguas estudadas; e c) ampliar os critérios de adequação para além do nível lexical. / This work analyzes textual complexity and readability patterns from a computational perspective, situating the problem through the description of original and translated texts, based on Translation Studies, Corpus Linguistics and Natural Language Processing theoretical postulates. We investigated the hypothesis that there are English literature translations made in Brazil that tend to generate more complex texts than their originals, considering – as parameter – the typical Brazilian reader, whose reading skills are at a basic level according to official data. To test this hypothesis, we processed –using the Coh-Metrix and Coh-Metrix-Port tools – a set of literary short stories by various authors in English and their translations into Brazilian Portuguese, and – as contrast – a set of short stories by Brazilian literature authors from the same period and their translations into English. The Coh-Metrix and Coh-Metrix-Port tools calculate cohesion, coherence and textual intelligibility parameters at different linguistic levels, and the metrics studied were the linguistic and grammatical equivalents between the two languages. We also carried out a statistical test (t-test) for each metric, and between translations, to assess whether the difference between the mean results are significant. Finally, we introduced Computational Linguistics methods such as Machine Learning, to improve the results obtained with the mentioned tools. The results indicate that translations into Portuguese are more complex than their source texts in some of the measures analyzed and they are not suitable for readers with basic reading skills. We conclude that it is important to: a) review complexity metrics of equivalence between Coh-Metrix system for English and Portuguese; b) propose specific metrics for the languages studied, and c) expand the criteria of adaptation beyond the lexical level.
|
53 |
Do internetês ao léxico da escrita dos jovens no OrkutBisognin, Tadeu Rossato January 2008 (has links)
Ce travail décrit des caractéristiques de l’écrit employées dans des textes de messages et des dépositions au site de rapports Orkut. Cette écrite c’est une des varietés de l’internetês et le point de départ pour la description c’est la fréquence du vocabulaire. Le support théorique de la recherche est doné par la Linguistique du Corpus, qui analyse avec l’aide de l’ordinateur l’usage de la langue dans des textes réels a fin d’observer de façon empirique les formes gramaticales possibles utilisées par les parleurs. Les corpora analysés ont été: 1) corpus de l’étude formés par des dépositions et messages avec 553.875 mots, 2) corpora de référence formés par échantillons de langue écrite et orale avec 1.289.949 mots, et 3) corpora de contraste composés par des textes scolaires, journalistiques et didactiques, au total de 571.090 mots. Les corpora ont été analysés l’instrument WordSmith Tools, employé par des études en Linguistique du Corpus. Parmi les regularités et les spécifites des donnés examinés, on a remarqué la richesse du vocabulaire dans des textes des internautes aux mots les plus fréquents, aux variations orthographiques y inclus par des régions du Brésil representées dans neuf subcorpora, aux indices d’oralisation sur l’écrite et à la variété de forme et contennue. La recherche a conclu que l’internetês est une expression graphique avec des modifications ortographiques de environ 20% de son lexique, avec des variations touchant à la richesse du vocabulaire dans des différentes régions du pays. Cette variation a été plus grande dans des textes de messages. On a remarqué que les diferences de richesse vocabulaire entre les textes de Orkut, les rédactions scolaires et les textes journalistiques primés ne sont pas significatives. Ce qui signifie afirmer que le vocabulaire des internautes n’est pas pauvre à propos de la richesse lexical. À l’égard de la fréquence, les mots de l’écrite d’Orkut sont semblables aux mots d’un continuum oú l’oralité et l’écrite se fondent. Le travail postule que l’internetês, comme il est representé au Orkut, est un dialecte diastratique, un sociolecte des jeunes internautes avec un peu des traits qui repercutent sur l’écrite scolaire. À la fin, la recherche suggère comme l’écrite examinée peut être explorée en classe. / Este trabalho descreve características da escrita empregada em textos de recados (scraps) e de depoimentos (testimonials) do site de relacionamentos Orkut. Essa escrita é tomada como uma das variedades do internetês e o ponto de partida para a descrição é a freqüência dos itens de vocabulário. O suporte teórico para a pesquisa é dado pela Lingüística de Corpus, área que analisa com auxílio do computador os padrões de uso da língua em grandes conjuntos de textos reais, para observar de modo empírico as formas gramaticais possíveis e prováveis utilizadas pelos falantes. Os corpora analisados foram 1) corpus de estudo formado por depoimentos e recados com 553.875 palavras, 2) corpora de referência formados por amostras de língua escrita e falada compostos de 1.289.949 palavras e 3) corpora de contraste compostos de textos escolares, jornalísticos e didáticos, totalizando 571.090 palavras. Analisaram-se os corpora com a ferramenta WordSmith Tools, empregada pelos estudos em Lingüística de Corpus. Entre as regularidades e especificidades dos dados sob exame, deu-se maior atenção à riqueza vocabular presente nos textos dos internautas, às palavras mais freqüentes, às variações ortográficas - inclusive por regiões do Brasil demonstradas em nove subcorpora -, aos indícios de oralização sobre a escrita e à variedade de forma e conteúdo. A pesquisa permitiu concluir que o internetês é basicamente uma expressão gráfica com alterações ortográficas presentes em torno de 20% de seu léxico, com variações quanto à riqueza vocabular em diferentes regiões do país, variação essa maior nos scraps do que nos depoimentos. Percebeu-se que não são significativas as diferenças de riqueza vocabular entre textos do Orkut e os de redações escolares e de textos jornalísticos premiados, não podendo ser o vocabulário dos internautas considerado pobre no quesito riqueza lexical. Quanto à freqüência, as palavras da escrita do Orkut mostraram-se bastante similares às do português falado, de modo que o internetês se apresenta num continuum em que a oralidade e escrita se fundem. O trabalho postula que o internetês, tal como representado no Orkut, é um dialeto diastrático, um socioleto dos internautas jovens, com alguns poucos traços repercutindo sobre a escrita escolar. Na sua parte final, a pesquisa traz sugestões sobre como a escrita sob exame pode ser explorada em atividades em sala de aula.
|
54 |
Estudio de las peculiaridades de la terminología en el entorno académico del EEES en ruso y en españolPolyakova Nesterenko, Oksana 16 December 2013 (has links)
La presente investigación se ha centrado en el estudio de las peculiaridades de la terminología en el entorno académico del Espacio Europeo de Enseñanza Superior en ruso y en español. El Proceso de Bolonia ha cobrado un protagonismo especial desde la apuesta de la Unión Europea por la unificación del estándar educativo junto con la incorporación al mismo de los países extracomunitarios. La Federación Rusa se ha integrado en la plataforma común en el año 2003, pero pocas soluciones se han aportado al vacío terminológico español-ruso en el dominio universitario. A raíz de esta motivación se han planteado los principales objetivos del trabajo que consisten en la detección de las dificultades existentes en la gestión terminológica académica bilingüe y la propuesta de soluciones prácticas. Para alcanzar estos objetivos ha sido necesario seguir un proceso compuesto por varias fases:
En primer lugar, se ha procedido a la revisión de la literatura de las materias teóricas sobre las que se fundamentará el estudio: la terminología, la lingüística de corpus y las lenguas de especialidad. Dicha etapa ha servido para formar una sólida base doctrinal cuyos postulados permitirán posteriormente ejercer las labores empíricas con el mejor criterio.
En segundo lugar se ha procedido a establecer unos principios metodológicos básicos, aplicarlos a la recopilación de datos, obteniendo así una base de datos terminológica en ruso y español, con la realización del consecuente análisis de la terminología. Entre las particularidades examinadas muestra por muestra cabe destacar la equivalencia, la sinonimia y la abreviación por su influencia en la toma de decisiones de los mediadores lingüístico-culturales.
Por tanto, y tratándose de una equiparación del lenguaje académico en el marco de dos entornos políticos, sociales, culturales y lingüísticos diferentes, la actual tesis doctoral ha analizado 700 conceptos especializados dobles (registros terminológicos bilingües). Las nuevas tecnologías, empleadas a lo largo de las etapas, han facilitado la visualización organizativa de la sección teórica y bibliográfica a la vez que resultaron imprescindibles en la gestión y análisis de datos.
En el trascurso de elaboración de la tesis se ha detectado la tipología documental de los textos universitarios y se ha propuesto una clasificación común, se ha recopilado un corpus y se ha extraído la terminología. Asimismo, los términos analizados componen un glosario especializado, creando una fuente de consulta fiable para los traductores profesionales. La metodología propia del proyecto de investigación puede emplearse en otros dominios temáticos, constituyendo así una apuesta de futuro.
Palabras clave: gestión documental e informativa especializada; terminología; lexicografía; lenguas de especialidad; traducción; lingüística de corpus; Espacio Europeo de Educación Superior. / Polyakova Nesterenko, O. (2013). Estudio de las peculiaridades de la terminología en el entorno académico del EEES en ruso y en español [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/34509
|
55 |
Redações do ENEM: estudo dos desvios da norma padrão sob a perspectiva de corpos / ENEM essays: a study of deviations from the standard norm from a corpus perspective.Pinheiro, Gisele Montilha 27 March 2008 (has links)
Desvios da norma padrão, comumente chamados de \"erros\", são fatos comuns na escrita dos aprendizes da variante culta de uma língua materna como o português brasileiro. Tratados como um \"mal a ser combatido\", eles são, na verdade, importantes indícios do processo de assimilação da escrita culta pelo falante nativo. Revelam qual a tendência da transformação que naturalmente ocorre numa língua, demonstrando, por exemplo, a obsolência das gramáticas tradicionais, que não aceitam determinadas construções já muito freqüentes. Mas seria possível detectar algum padrão desses desvios? Haveria desvios típicos de um determinado perfil de redatores? Essas indagações motivaram a presente investigação, que se baseou na concepção de que esses estudos são de natureza empírica, comprometidos com a noção de que a língua funciona tal como um sistema probabilístico, de onde é possível prever tendências, por exemplo, de mudança. Falamos, pois, de uma investigação à luz da Lingüística de Corpus. Composto de redações do Exame Nacional do Ensino Médio (ENEM), edição de 2002, cedidas pelo Instituto Nacional de Estudos e Pesquisas Educacionais (INEP) juntamente com determinados traços do perfil dos redatores, construímos um corpus que foi batizado de Corvo, e se ocupou de uma faixa específica de textos: a de pior desempenho no ENEM no quesito domínio da norma culta. Observamos, desse modo, textos em que, supostamente, há freqüência maior de desvios e maior variedade de tipos de desvios. Nossa metodologia de pesquisa apoiou-se no uso do revisor gramatical automático ReGra, bastante popular no país e que auxilia o usuário no uso correto do português culto padrão. Além disso, construímos um material próprio de detecção e classificação dos desvios gramaticais, aumentando a capacidade de tratamento automático dos textos. Assim, foi possível gerar uma versão do corpus anotada em desvios, i.e., os textos apresentam indicações de quando e qual tipo de desvios ocorrem. Como resultado temos um mapeamento do Corvo; ou seja, um panorama dos desvios típicos de um determinado tip o de perfil de redator. Constatamos a deficiência ortográfica como o traço típico do grupo de indivíduos investigado, mas, sobretudo, que a ortografia é motor para o pleno funcionamento de uma revisão gramatical automática. O revisor ReGra mostrou-se incapaz de processar satisfatoriamente textos desse tipo de redator, mas, ainda assim, comprovou que esses textos apresentam desvios gramaticais de tratamento complexo, cuja intervenção do revisor, se acontece, pouco altera na qualidade geral dos mesmos. Com respeito à tipologia de desvio, pudemos constatar a validade da tipologia aplicada na pesquisa, que advém do ReGra e, portanto, está à margem das discussões teóricas ortodoxas. De fato, há recorrência de tipos de desvios, e isso numa freqüência que nos autoriza admitir a fraca assimilação de certas regras gramaticais tomadas como básicas (p.ex., a pontuação, a concordância e a regência). Constatamos, com relação ao perfil de redatores, que textos com maior potencial para a revisão da escrita, i.e., aqueles que alteram significativamente a qualidade textual com interferências pontuais de revisão, são justamente os produzidos pelos concluintes do ensino médio e não pelos egressos. / Deviations from the standard norm, usually called \'mistakes\', are common events in writing pieces of language learners speakers of a native language such as Brazilian Portuguese. They are treated as \'an evil that must be fought\'. They are, in fact, important evidence of the acquisition process of writing in the standard norm by the native speaker. They reveal the transformation trend, which normally occurs in a language, showing, for instance, the obsolescence of traditional grammars that do not accept certain patterns, which are frequent nonetheless. However, is it possible to identify a pattern in these deviations? Are there common deviations among a certain profile of students? These are the questions motivating this study, which is based on the concept that these investigations are empirical in nature, and are marked by the notion that language operates as a probabilistic system, in which it is possible to forecast trends of change, for example. We are, therefore, speaking of an investigation in the light of Corpus Linguistics. We compiled a corpus of essays written during the National Middle Education Exam (ENEM) carried out in 2002. These essays were obtained with the National Institute for Research in Education (INEP) together with the profile of the students. The corpus was called Corvo, and it is made up of a certain bracket of texts: those having obtained the worst performance rate in the ENEM in the standard norm category. We observed, therefore, texts in which there are, allegedly, a greater frequency of deviations and a greater variety of kinds of deviations. The research methodology was supported by the electronic grammar checker - ReGra - which is very popular in the country, and helps the user in writing standard Portuguese correctly. In addition, we built a specific tool for identifying and classifying grammar deviations, thus, increasing the ability to treat the texts electronically. Therefore, it was possible to generate an annotated version of the corpus according to the deviations, i.e., the texts were annotated according to when and what kind of deviations they presented. As a result, we have a mapping of the Corvo; that is, a view of the common deviations of students belonging to a certain profile. We identified poor spelling as a common feature of the group, but, above all, that spelling is the engine enabling a full grammatical check to operate. The ReGra grammar checker was not able to satisfactorily process these kinds of texts, but, even so, it proved that these texts presented complex grammar deviations, and the intervention of the checker, when it is applied, little alters their overall quality. In regard to deviation typology, we identified the validity of the typology used in this study, which results from the ReGra and, therefore, lies in the outskirts of orthodox theoretical discussions. In fact, certain kinds of deviations reoccur at a frequency that enables us to admit a poor assimilation of certain grammatical rules considered basic (e.g., punctuation, agreement and use of prepositions). We found that in regard to the profile of the students, texts with a greater writing check potential, that is, a check that would significantly improve text quality through individual checking interferences, are te xts produced by students who finished middle education and not those produced by students who are finishing the course.
|
56 |
A terminologia do ecoturismo como espelho de diferentes visões: agências de turismo, ambientalistas e governo / The Ecotourism´s terminology: a comparison between the way three distinct areas see it -t ravel agencies, environmental organizations and the governmentMartins, Josimeire Cristina 11 June 2007 (has links)
O objetivo desta pesquisa é estabelecer uma comparação entre o modo como três setores distintos relacionados à área de ecoturismo - agências de turismo, entidades ambientalistas e órgãos governamentais - buscam propagar suas idéias, e como isso pode se refletir na forma como denominam suas atividades e nos conceitos com relação a essa área. Para que esse objetivo fosse atingido, foi compilado um corpus comparável em português e inglês com textos autênticos dos três setores mencionados a partir de sites brasileiros e neozelandeses. Os dados foram levantados com o uso de uma ferramenta computacional para análise lingüística, o WordSmith Tools. Este trabalho está embasado em três áreas - Lingüística de Corpus, Terminologia e Turismo - e possibilitou uma reflexão a respeito do processo de extração de termos utilizando-se a Lingüística de Corpus, demonstrando como esse procedimento pode auxiliar a tornar a pesquisa lingüística e a extração de termos mais precisa e confiável, oferecendo contribuições relevantes para o processo tradutório, o ensino de línguas para fins específicos e a produção de glossários e dicionários terminológicos. / The aim of this study is to establish a comparison between the way three distinct areas related to Ecotourism - travel agencies, environmental organizations and the government - try to spread their ideas, which is reflected in the way they name their activities and the concepts they adopt concerning ecotourism. In order to achieve our goals, a comparable Portuguese and English corpus was compiled with authentic texts from Brazilian and Newzeland sites in the three areas mentioned. The data was obtained with the use of a computational tool for linguistics analysis, the WordSmith Tools. This study is grounded in three areas: Corpus Linguistics, Terminology and Tourism and enabled a reflection about the process of term extraction with the help of Corpus Linguistics, showing how this procedure can help making linguistic research and term extraction more precise and reliable, and how, in turn, this can offer useful contributions to the translation process, the teaching of language for specific purposes and the production of glossaries and terminological dictionaries.
|
57 |
Corpus linguistico e a aquisicao de falsos cognatos em espanhol como lingua estrangeiraAlonso, Maria Cibele Gonzalez Pellizzari 28 September 2006 (has links)
Made available in DSpace on 2016-04-28T18:23:20Z (GMT). No. of bitstreams: 1
CD 1 - LAEL - Maria Cibele G P Alonso.pdf: 3701503 bytes, checksum: 1000e0c56e11bc1810c274fbb8340ced (MD5)
Previous issue date: 2006-09-28 / The main aim of this study was the use of Corpus Linguistics to design
teaching material for Brazilian students learning Spanish as a foreign language.
Corpus Linguistics is an area of linguistic studies dedicated to the
collection and exploration of computer corpora, i.e., large electronic collections
of linguistic data carefully collected that form the basis of language or linguistic
variety.
More specifically, the study presented here was motivated by the
necessity of offering one alternative to the learning of false cognates to my
Spanish students and teachers and authors of foreign language materials. The
principal aim is to focus on the false cognates in Spanish. This was done from
the point of view of Brazilian students, since the majority of materials merely cite
false cognates. In this study we analyzed the most important patterns of the 10
most frequent false cognates taken from a vocabulary list derived from the
analysis of 4 Spanish as foreign language books. From the description of these
patterns, we prepared teaching activities.
The research questions investigated in the study are: (1) What are the
most important patterns of each false cognate? (2) What are most frequent
meanings of the false cognates? (3) How can a linguistic corpus help to solve
the linguistic interference caused by false cognates?
The corpus used in this study was CREA Reference corpus of actual
Spanish from Spanish Real Academic, with 160 million words approximately.
The analysis showed that a simple translation of false cognates was not
enough to enable to their adequate acquisition; we tried to show students the
different possibilities of use that false cognates have in context. The activities
we suggested are an alternative to learning/teaching that can be adapted to the
communicative approach. They can also facilitate discovering process and
problems solution, considering that the student is able to build his own
knowledge.
The study presented here will hopefully have made a contribution to
teaching Spanish as a foreign language from Corpus Linguistics perspective,
helping to close the gap between Spanish Language teaching in the Brazilian
context and Corpus based classroom materials / Constituiu objeto central deste trabalho, por meio da utilização de
instrumentos da Lingüística de Corpus, tais como concordâncias e descrição de
língua baseada em padrões, a preparação de atividades destinadas ao ensino
de falsos cognatos em espanhol como língua estrangeira (E/LE).
A Lingüística de Corpus é uma área da Lingüística que se ocupa da
coleta e da exploração de corpora , isto é, de conjuntos de dados lingüísticos -
cuidadosamente coletados - que servem de base para a pesquisa de uma
língua ou variedade lingüística. Trata-se da exploração da linguagem por meio
de evidências empíricas, obtidas por computador.
O trabalho que ora se apresenta foi motivado pela necessidade de
oferecer a meus alunos de espanhol, a professores e a autores de livros
didáticos mais uma alternativa para a aprendizagem dos falsos cognatos.
Constituiu propósito fundamental do trabalho enfocar a aquisição - por
parte de alunos brasileiros - dos falsos cognatos em espanhol como língua
estrangeira, visto que a maioria dos livros didáticos se dedica tão-somente à
citação desses itens, ou seja, à menção dos deslizes lingüísticos que os alunos
costumam cometer durante suas produções, não se evidenciando, portanto,
uma preocupação no sentido de se sanarem tais deslizes.
No presente estudo, analisaram-se os padrões mais importantes dos 10
(dez) falsos cognatos mais freqüentes de uma lista de léxico básico mínimo,
elaborada após análise de 4 (quatro) livros didáticos de espanhol como língua
estrangeira. A partir da descrição desses padrões, organizaram-se atividades
didáticas.
Propuseram-se as seguintes questões de pesquisa:
1) Quais os padrões mais recorrentes de cada um dos 10 (dez) falsos
cognatos em espanhol?
2) Quais os significados mais freqüentes dos falsos cognatos
analisados?
3) Como um corpus lingüístico pode auxiliar na resolução das
interferências lingüísticas causadas pelos falsos cognatos?
O corpus empregado na pesquisa para a obtenção das linhas de concordância analisadas foi o CREA - Corpus de Referência do Espanhol Atual
da Real Academia Espanhola -, com aproximadamente 160 milhões de
palavras.
Chegou-se à conclusão de que uma eficaz aquisição e apropriação dos
falsos cognatos não exige a mera tradução dos mesmos. Há isso sim de
se oferecer ao aluno as diversas possibilidades de usos e significados que um
falso cognato pode assumir em função do contexto em que está inserido.
As atividades elaboradas representam uma alternativa de modelo de
ensino e aprendizagem que pode estar em perfeita conformidade com os
enfoques comunicativos, além de facilitar os processos de descoberta e
resolução de problemas, levando-se em conta que o aluno é capaz de construir
seu próprio conhecimento.
Dada a quase ausência de estudos baseados em Lingüística de Corpus
para o ensino de espanhol como Língua Estrangeira, a presente pesquisa
assume a pretensão de contribuir com a área da Lingüística de Corpus no
ensino do espanhol como língua estrangeira
|
58 |
Metáforas do líder empresarial e histórico: uma abordagem baseada em corpusRodrigues, Agnes dos Santos Scaramuzzi 10 July 2007 (has links)
Made available in DSpace on 2016-04-28T18:23:32Z (GMT). No. of bitstreams: 1
Agnes dos Santos Scaramuzzi Rodrigues.pdf: 914037 bytes, checksum: 09d927669b18d6b386fffa399538f2cc (MD5)
Previous issue date: 2007-07-10 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The aim of this research study was to look at the language of leadership in some areas such
as politics, war, religion and business, across a large span of time by means of the analysis
of corpora. The specific objectives are: first, to observe the recurrence of use across
leaders, and second to identify the conceptual metaphors that underline the speech of the
leaders.
Our main theoretical support is Corpus Linguistics, which can be defined as an area that is
concerned with the collection and the exploration of corpora, or linguistic data sets
(BERBER SARDINHA, 2004: 3).
In addition to Corpus Linguistics, the study presented here drew on conceptual metaphors
(according to Lakoff and Johnson, 1980 / 2002). The central claim is that conceptual
metaphors structure the way we conceive the world.
The corpora used in the research were formed by samples of the discourse of the following
people: Hitler, Getúlio D. Vargas, Napoleon Bonaparte, Saint Paul, five executives, two
consultants and a president of a local company. The number of words of the corpus is of
317,757 words (tokens), that is, a medium-sized corpus.
The results indicated, in answer to the first research question, that the words found in the
corpus with higher metaphorical probability across the majority of the leaders were ten:
time ; had ; life ; name ; example ; fact ; to be ; company and work . Of these
words two were analyzed in depth: time and life . In relation to the second question, for
the word time we found the following metaphors conceptual: TIME IS AN INDETERMINATE
AMOUNT; TIME IS INDETERMINATE SPACE and TIME IS A VALUABLE POSSESSION, and for the
word life we found: CULTURE IS AN ORGANISM; THE ECONOMY IS AN ORGANISM; POLITICS
IS AN ORGANISM; POLITICAL CAREER IS AN ORGANISM; A PROFESSION IS AN ORGANISM; THE
NATION IS AN ORGANISM and INSTITUTIONS ARE ORGANISMS.
In view of these findings, we concluded, first, that the words time and life are resources
for the expression of leadership. The analysis of the data revealed in the analyses of the
agreements we observe that 43.96% of the occurrences of time and 51.70% of the
occurrences of life were metaphorical. Moreover, our findings indicate similarities
between the discourse of the leaders in different spheres of human activity. Thus, we
assume that these similarities can be considered a characteristic of the discourse of
leadership / O objetivo geral desta pesquisa é estudar a linguagem de liderança em várias áreas de
atuação humana: política; militar; religião e negócios, em épocas diferentes pelo viés da
metáfora e por meio da análise de corpora. Os objetivos específicos são: observar a
recorrência de uso metafórico das palavras pela maioria dos líderes e identificar aquelas
com maior probabilidade de usos metafóricos e, a partir dessas palavras, identificar que
metáforas conceptuais são realizadas no discurso dos líderes.
Adotamos como suporte teórico a Lingüística de Corpus definida como uma área de
pesquisa que se ocupa da coleta e da exploração de corpora, ou conjunto de dados
lingüísticos textuais coletados criteriosamente, com o propósito de servirem para a
pesquisa de uma língua ou variedade lingüística dedicando-se à exploração da
linguagem , escrita ou oral, por meio de evidências empíricas extraídas de computador
(BERBER SARDINHA, 2004: 3).
A Teoria da Metáfora Conceptual de Lakoff e Johnson (1980 / 2002) foi outra área de
pesquisa que fundamentou este estudo. Essa teoria propõe que nosso sistema conceptual é
regido por meio das metáforas, até mesmo nossas atividades cotidianas são orientadas por
elas.
Os corpora empregados foram: Subcorpus Histórico e Subcorpus Empresarial. O
Subcorpus Histórico foi composto por: Hitler, Getúlio D. Vargas, Napoleão Bonaparte e
São Paulo. O Subcorpus Empresarial por: cinco executivos, dois consultores e um
presidente de empresa nacional. O número de palavras do corpus é de 317.757 palavras,
isto é, um corpus médio.
Os resultados indicaram que as palavras encontradas no corpus com maior probabilidade
metafórica de usos entre a maioria dos líderes são dez: tempo ; tinha ; vida ; nome ;
exemplo fato ; ser ; empresa e trabalho . Dessas palavras, duas foram analisadas
detalhadamente, sendo: tempo e vida . Para a palavra tempo , encontramos as seguintes
metáforas conceptuais: TEMPO É QUANTIDADE INDETERMINADA; TEMPO É ESPAÇO
INDETERMINADO e TEMPO É UM BEM VALIOSO e para a palavra vida encontramos metáforas
do organismo, isto é, A CULTURA; A ECONOMIA; A POLÍTICA; A CARREIRA POLÍTICA; A
PROFISSÃO; A NAÇÃO, todas entendidas como organismos, por exemplo, A INSTITUIÇÃO É
UM ORGANISMO.
Concluímos que as palavras tempo e vida são recursos de expressão da liderança. Nas
análises das concordâncias, observamos que 43,96% das ocorrências de tempo eram
metafóricas e que 51,70% das ocorrências de vida também o eram
|
59 |
Os lexical bundles na busca por semelhanças em um documento do setor farmacêutico / Lexical bundles searching similarities in a document of pharmaceutical sectorMazza, Luciene Novais 29 July 2009 (has links)
Made available in DSpace on 2016-04-28T18:24:09Z (GMT). No. of bitstreams: 1
Luciene Novais Mazza.pdf: 2077236 bytes, checksum: ab60b489f57494f9b4bd86ae30c618c1 (MD5)
Previous issue date: 2009-07-29 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / The present study explored a specific document of the pharmaceutical segment called Site Master File through the investigation of words combinations defined as lexical bundles (Biber et al.,1999). The aim of the study was to draw out the bundles so that to verify the degree of conformity of the linguistic features the use of lexical bundles may achieve, as being part of a document organized in a similar way, produced by different authors at different locations around the world. The theoretical-methodological approach was developed on the principles of Corpus Linguistics (Stubbs, 1996; Scott and Tribble, 2006; Berber Sardinha and Barbara, 2008; amongst others), an approach that makes use of a vast variety of authentic texts of language in use supported by computational tools. We compiled for this study fifteen samples of the Site Master File document stored in machine-readable form that belong to the same multinational pharmaceutical company based in Europe, which has more than a hundred of plants situated across the world. The Site Master File is a document prepared by pharmaceutical manufacturers that contains specific information about the quality assurance, the production and quality control of pharmaceutical manufacturing operations carried out at a named site/plant in order to be submitted to a regulatory authority. In addition, all documents must be officially certified in English. The analysis of the corpus data was performed to extract three-word bundles by using scripting languages such as Perl and Cygwin. Besides, a computer application was also designed to provide the cross-reference of data. The results of data analysis showed that although the samples of Site Master File bring a large range of similarity in its organization, we have not found regularity on the use of recurrent lexical bundles across the Site Master File documents. Thus, considering the absences of common lexical bundles across documents, we observed that, in each operating area of the pharmaceutical business unit there are some typical characteristics in relation to the type of product manufactured in the site, the processes engaged in the unit pharmaceutical operations as well as the geographic nearness relationships to the linguistic choices made by the different authors. Therefore, this study offers a contribution to the knowledge of variation in English use in preparing the Site Master File by authors allocated in a specific site. Moreover, the present study involves further research into the field of English for Specific Purposes based on corpora and into the studies of terminology / O objetivo deste trabalho foi examinar o documento Site Master File do setor farmacêutico a partir da investigação de uma combinação de palavras denominada lexical bundles (Biber et al. 1999) com o propósito de verificar o grau de conformidade com elementos lingüísticos que um documento com a mesma organização estrutural, escrita por diferentes autores em diferentes partes do mundo pode atingir. A presente pesquisa teve como principal suporte teórico e metodológico a Lingüística de Corpus (Stubbs, 1996; Scott e Tribble, 2006; Berber Sardinha e Barbara, 2008; entre outros), uma abordagem que permite investigar como a língua ocorre naturalmente no discurso por meio de ferramentas computacionais. Para esta investigação foram compilados quinze exemplares do documento Site Master File pertencente a um mesmo grupo farmacêutico multinacional com sede na Europa e com unidades de negócios espalhadas em mais de 100 países. O documento Site Master File é um conjunto de textos produzidos pelas indústrias farmacêuticas para atender as exigências de garantia e controle da qualidade dos medicamentos, a fim de se obter certificação internacional junto aos órgãos de vigilância sanitária. Ademais, todos os documentos devem ser oficialmente produzidos em língua inglesa. Para a análise dos dados foram utilizadas as linguagens de programação Perl e Cygwin, como também foi desenvolvido um aplicativo para gerar a extração dos lexical bundles de três palavras. Os resultados da análise dos dados indicaram, que embora o documento Site Master File apresente semelhanças em sua organização, não há uma regularidade de lexical bundles recorrentes entre as amostras dos quinze exemplares. Assim, dessa ausência de bundles semelhantes, foi possível observar traços característicos do tipo de negócio que cada unidade da empresa está envolvida, dos processos e produtos fabricados e, ainda, a relação da proximidade geográfica com as escolhas lingüísticas feitas pelos autores. Portanto, este estudo além de contribuir para o conhecimento das variações de uso da língua inglesa por autores de diferentes localidades na elaboração do documento Site Master File, também implica em futuras pesquisas no ensino de línguas para fins específicos baseado em corpora e nos estudos sobre terminologia
|
60 |
Autenticidade em livros didáticos para o ensino de inglês como língua estrangeira: um estudo diacrônico sob a perspectiva da Linguística de CorpusContrera, Solange 06 May 2010 (has links)
Made available in DSpace on 2016-04-28T18:24:16Z (GMT). No. of bitstreams: 1
Solange Contrera.pdf: 2749850 bytes, checksum: 872ee389d66d45fe5e452144a28da49a (MD5)
Previous issue date: 2010-05-06 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / The main aim of this researcher was to verify whether, in modern English teaching
books, authentic bundles were used or not, and whether, in books of the last
decades, in a diachronic perspective, if it was done or not. The main theoretical
underpinning for the research is provided by Corpus Linguistic, which is the area that
is concerned with the collection and analysis of criteriously selected corpora, which
could be read by computers with the aim of linguistic research. The researcher was
also based on the theoretical underpinning of the Teaching Approaches known as:
(1) audiolingual; (2) communicative; and (3) corpus Informed to investigate the use of
authentic language in the development of the English books. The research questions
investigated in this study were: (1) to the analysis of convergent and divergent lexical
bundles in this study corpus, (2) to discover which is the frequency of those lexical
bundles; (3) to the analysis the convergent and divergent bundles in each text of the
English books; and (4) and to verify which are the books composed by a degree of
superior linguistic authenticity in relation to the others investigated. The corpora
selected for the research are as follows: (a) the study of corpus, formed by five
English books designed for a foreign language, for the intermediate level, composed
of 25.485 words; (b) the reference corpora: British National Corpus (BNC), composed
of 100 million words, and the Google Corpus, composed of 1 trillion words. The
researcher analyzed, the degree of authenticity in the constancy of the language
used in the English books analyzed -some that were, and others that are still in use in
English teaching bringing a contribution to the Corpus Linguistics field / A pesquisadora teve como objetivo principal verificar se os autores de livros
didáticos atuais e voltados para o ensino de língua inglesa, de fato, empregam
lexicogramática autêntica e se os autores de livros didáticos de décadas passadas,
numa perspectiva diacrônica, também o fizeram. Para tanto, encontrou suporte
teórico na Lingüística de Corpus, uma área cujos pesquisadores se preocupam com
a coleta e com exploração criteriosas de corpora em formatos legíveis por
computador com o objetivo de pesquisar uma língua. A pesquisadora
fundamentou-se também nos pressupostos teóricos das abordagens de ensino de
língua estrangeira conhecidas como (1) audiolingualismo, (2) comunicativismo e (3)
informada por corpus para investigar o uso de língua autêntica no desenvolvimento
dos livros didáticos. As questões de pesquisa norteadoras deste estudo concernem
(1) à análise de pacotes lexicais convergentes e divergentes no corpus de estudo,
(2) à descoberta de qual é a freqüência desses pacotes lexicais, (3) à análise dos
pacotes convergentes e dos divergentes em cada texto dos livros didáticos e, por
fim, (4) à constatação de quais são os livros compostos por um grau de
autenticidade lingüística superior em relação aos demais investigados. Os corpora
selecionados para a pesquisa são estes: (a) o corpus de estudo, formado por cinco
livros didáticos para o ensino de inglês como língua estrangeira, para o nível
intermediário, compostos por 25.485 palavras, e (b) os corpora de referência: o
British National Corpus (BNC), composto por 100 milhões de palavras, e o Google
Corpus, composto por 1 trilhão de palavras. A pesquisadora almejou, ao analisar o
grau de autenticidade da língua constante desses livros didáticos uns que foram, e
outros que ainda são utilizados no ensino de inglês trazer uma contribuição para a
área da Lingüística de Corpus
|
Page generated in 0.1518 seconds