Spelling suggestions: "subject:"lingüística dde corpus."" "subject:"lingüística dee corpus.""
31 |
Estudio crítico lingüístico de publicaciones periodísticas sobre la crisis financiera en EspañaGadea Boronat, Lucía 06 November 2017 (has links)
This thesis focuses on the linguistic study of publications on the financial crisis in Spain. It is a socioeconomic event that has impacted greatly on Spanish society and has generated a barrage of information that we have used as a documentary source. Our research has sought to examine the language used in newspaper articles about the financial crisis in Spain. The first objective was the compilation of a corpus of texts (3.2 million words), the Corpus of the Financial Crisis (CCF). It is sufficiently representative to develop a methodology for studying real samples of journalistic language about the financial crisis in Spain in a natural year (2012). The corpus, based on newspaper articles from El País and El Mundo, is a reflection of political bipartisanship in Spain at that moment in time. The possibilities, offered by the improvement in new technologies, with new digital formats have favoured the compilation, linked grouping, classification and analysis of journalistic texts. In this way, a specialized written corpus of newspaper articles has been designed and developed. The corpus is written text (newspaper articles), specialized (economic domain), synchronous (year 2012), closed, tag-coded and finite.
We review the contributions of communication science theorists to show that the written work, which is sometimes instinctively carried out by journalists, has a theoretical argument behind it. We check how journalists elaborate information, across different genres, and how theories of communication influence them. We also show how information has been affected by the new forms of transmission of news, that is to say, with the expansion of social networks. It is often the case that more importance is given to the emotions generated by a story than to the facts themselves. We can verify how language is used as vehicle of knowledge exchange between government and society.
Corpus Linguistics has provided the methodological basis for this thesis: we have reviewed the most relevant theoretical concepts and compared the different criteria when compiling, designing and analyzing a corpus. Computational analysis of the CCF began with the quantitative study of texts (frequencies, keywords, concordance lines, placements, recurrent patterns and clusters) to then carry out manually a more qualitative approach through the analysis and interpretation of individual texts. Our priority was to detect the semantic load and the stylistic resources contained in the publications on the financial crisis. For this reason, the social actors of the crisis (the twelve personalities of the public sphere with the highest rates of occurrence in each quarter of 2012) have been the thread of our corpus analysis. The method designed and implemented has provided evidence on certain semantic categories that co-appear with these entities. We have identified nuances in the message through evaluative labels and have detected terms, phrases and sentences that often realize rich ideologically loaded expressions in the texts.
The final stages of the research have consisted in the manual analysis of complete texts (macrostructure and evaluative language) in order to establish a categorization of the sentiments expressed through different rhetorical figures. The creation of a journalistic corpus and its computational and linguistic analysis allows us to detect and analyze the evaluative language present in the texts, which are realized explicitly or implicitly and unmask evidences about political and ideological thinking. Detailed readings of full texts (editorials and letters to the director) show the intention and ideological position of the authors regarding the financial crisis. / Esta tesis se centra en el estudio lingüístico de publicaciones sobre la crisis financiera en España. Se trata de un acontecimiento que ha impactado sobremanera en la sociedad española y que ha generado un aluvión de información que hemos aprovechado como fuente documental. La investigación desde sus inicios persiguió radiografiar el lenguaje utilizado en artículos sobre la crisis financiera. El primer objetivo ha sido realizar una recopilación de textos con los que se ha elaborado un corpus lingüístico, el Corpus de la Crisis Financiera (CCF), lo suficientemente representativo (3,2 millones de palabras) para desarrollar una metodología de estudio de muestras reales del lenguaje periodístico sobre la crisis financiera en España en un año natural (2012) en las dos publicaciones de referencia (reflejo del bipartidismo político) por aquel entonces, El País y El Mundo. Las posibilidades que aporta el avance de las nuevas tecnologías, con los nuevos formatos digitales han favorecido la compilación, agrupación vinculada, clasificación y análisis de los textos periodísticos. De este modo, se ha elaborado un corpus especializado, a partir de textos escritos, monolingüe, sincrónico (año 2012), cerrado, codificado mediante etiquetas y finito.
Revisamos las aportaciones de los teóricos de las ciencias de la comunicación para demostrar que el trabajo de redacción, que en ocasiones los periodistas realizan de manera instintiva, tiene detrás de sí toda una argumentación teórica. Comprobamos cómo los periodistas elaboran las informaciones, a través de distintos géneros, y cómo influyen en ellos las teorías de la comunicación. También cómo se han visto afectadas las informaciones por las nuevas formas de transmisión de las noticias, es decir, con la expansión de las redes sociales. Es el caso, por ejemplo, de la posverdad, en que se da más importancia a las emociones que genera una noticia que a los hechos en sí. Podremos comprobar cómo el lenguaje empleado es el vehículo de intercambio de conocimiento entre el Gobierno y la sociedad.
La Lingüística de Corpus ha proporcionado la base metodológica de trabajo: hemos revisado los conceptos teóricos más relevantes y comparado los diferentes criterios a la hora de recopilar, diseñar y analizar un corpus. El análisis del CCF comenzó con el estudio cuantitativo de sus textos (frecuencias, palabras clave, líneas de concordancia, colocaciones, patrones recurrentes y clústeres) de manera automática con herramientas informáticas para, a continuación, desarrollar la interpretación cualitativa. Nuestro fin prioritario fue detectar la carga semántica y los recursos estilísticos contenidos en las publicaciones sobre la crisis financiera. Para ello, los actores sociales de la crisis (las doce personalidades del ámbito público con mayores índices de aparición en cada trimestre del año 2012) han constituido el hilo conductor del análisis del CCF. El método diseñado e implementado ha proporcionado evidencias sobre determinadas categorías semánticas que co-aparecen con estas entidades. Se han identificado matices en el mensaje a través de etiquetas evaluativas y se han detectado términos, frases y oraciones que confieren al texto gran expresividad.
Las últimas fases de la investigación han consistido en al análisis manual de textos completos (macroestructura y lenguaje evaluativo) para poder establecer una categorización de los sentimientos expresados mediante diferentes mecanismos y figuras retóricas. La creación de un corpus periodístico y su análisis informático y lingüístico nos permite detectar y analizar el lenguaje evaluativo presente en los textos de forma explícita o implícita y desenmascarar evidencias sobre pensamiento político e ideológico. Este último objetivo se alcanza ya al final de la investigación en que la lectura pormenorizada de textos completos (editoriales y cartas al director) muestra la int / Aquesta tesi se centra en l'estudi lingüístic de publicacions sobre la crisi financera a Espanya. És un esdeveniment que ha causat un gran impacte en la societat espanyola i ha generat una allau d'informació que hem aprofitat com a font documental. La investigació des dels seus inicis va tractar de radiografiar el llenguatge utilitzat en la premsa econòmica. El primer objectiu ha estat realitzar una recopilació de textos amb els quals s'ha elaborat un corpus lingüístic, el Corpus de la Crisi Financera (CCF), prou representatiu (3,2 milions de paraules) com per desenvolupar una metodologia d'estudi de mostres reals del llenguatge periodístic sobre la crisi financera a Espanya en un any natural (2012) en les dues publicacions de referència (reflex del bipartidisme polític) com han estat, El País i El Mundo. Les possibilitats que aporta el progrés de les noves tecnologies, amb els nous formats digitals, han afavorit la compilació, agrupació vinculada, classificació i anàlisi dels textos periodístics. D'aquesta manera, s'ha elaborat un corpus especialitzat, a partir de textos escrits, monolingüe, sincrònic (any 2012), tancat, codificat mitjançant etiquetes i finit.
Fem una revisió de les aportacions dels teòrics de les ciències de la comunicació per demostrar que el treball de redacció, que en ocasions els periodistes realitzen de manera instintiva, té com a rerefons tota una argumentació teòrica. Comprovem com els periodistes elaboren les informacions a través de diferents gèneres, i com influeixen en ells les teories de la comunicació. També com s'han vist afectades les informacions per les noves formes de transmissió de les notícies, és a dir, amb l'expansió de les xarxes socials. És el cas, per exemple, de la posveritat, on es dóna més importància a les emocions que genera una notícia que als fets en si. Podrem comprovar com el llenguatge emprat és el vehicle d'intercanvi de coneixement entre el Govern i la societat.
La Lingüística de Corpus ha proporcionat la base metodològica de treball: hem revisat els conceptes teòrics més rellevants i comparat els diferents criteris a l'hora de recopilar, dissenyar i analitzar un corpus. L'anàlisi del CCF va començar amb l'estudi quantitatiu dels seus textos (freqüències, paraules clau, línies de concordança, col·locacions, patrons recurrents i clústers) de manera automàtica amb eines informàtiques per a, a continuació, desenvolupar la interpretació qualitativa. La finalitat primera va ser detectar la càrrega semàntica i els recursos estilístics continguts en les publicacions sobre la crisi financera. Per aquesta raó, els actors socials de la crisi (les dotze personalitats de l'àmbit públic amb majors índexs d'aparició en cada trimestre de l'any 2012) han estat el fil conductor de l'anàlisi del CCF. El mètode dissenyat i implementat ha proporcionat evidències sobre determinades categories semàntiques que coapareixen amb aquestes entitats. S'han identificat matisos en el missatge a través d'etiquetes d'avaluació i s'han detectat termes, frases i oracions que confereixen al text gran expressivitat.
Les últimes fases de la recerca han consistit en l'anàlisi manual de textos complets (macroestructura i llenguatge avaluatiu) per tal de poder establir una categorització dels sentiments expressats mitjançant diferents mecanismes i figures retòriques. La creació d'un corpus periodístic i la seva anàlisi informàtica i lingüística ens permet detectar i analitzar el llenguatge avaluatiu present en els textos de manera explícita o implícita i desemmascarar evidències sobre pensament polític i ideològic. Aquest últim objectiu s'aconsegueix ja al final de la investigació quan la lectura detallada de textos complets (editorials i cartes al director) mostra la intenció i posició dels autors respecte a la crisi financera. / Gadea Boronat, L. (2017). Estudio crítico lingüístico de publicaciones periodísticas sobre la crisis financiera en España [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/90514
|
32 |
Palavra freqüente, pronúncia diferente: a lingüística de corpus auxiliando o ensino da pronúncia do inglês como língua estrangeiraFerreira, Elias 23 March 2006 (has links)
Made available in DSpace on 2016-04-28T18:23:09Z (GMT). No. of bitstreams: 1
Final.pdf: 2147775 bytes, checksum: 2b6454397325153144057fa09ed1ee27 (MD5)
Previous issue date: 2006-03-23 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Este trabalho tem como objetivo descobrir quais são os vocábulos da língua inglesa que apresentam uma relação atípica entre a ortografia e a pronúncia e que têm freqüência de uso relevante, observada por meio de um corpus.
O resultado deste trabalho poderá ter posterior aplicação na formação de professores brasileiros de inglês, orientando a preparação dos mesmos em relação à área de pronúncia de vocábulos a partir da forma escrita, indicando quais palavras necessitam receber maior atenção durante o processo de formação acadêmica, atuando assim como um trabalho de referência
|
33 |
As passivas na produção escrita de brasileiros aprendizes de Espanhol como língua estrangeira / The passive in the written production of brazilian students who learn Spanish as a foreign languageBenivaldo Jose de Araujo Junior 22 March 2007 (has links)
As construções passivas no Português Brasileiro e no Espanhol apresentam tanto tendências comuns, quanto assimetrias. Este trabalho tem o propósito de investigar os efeitos desse fenômeno na aquisição/aprendizagem de Espanhol por estudantes brasileiros. Inicialmente, propõe-se uma descrição das construções passivas nas duas línguas. Em seguida, faz-se uma análise contrastiva dessas construções no Português Brasileiro e no Espanhol. Finalmente, investiga-se o comportamento das construções passivas (sobretudo as perifrásticas e as lexicais) na produção escrita de brasileiros aprendizes de Espanhol língua estrangeira. Os resultados obtidos na análise dos corpora sugerem algumas hipóteses sobre os fatores que possivelmente influenciam a preferência dos aprendizes por determinadas construções em detrimento de outras / Passive constructions in Brazilian Portuguese and Spanish present both common tendencies and assimetries. The aim of this project is to investigate the effects of such phenomenon on Spanish acquisition/learning process by brazilian students. Initially, a description of passive constructions is proposed for both languages. After that, a contrastive analysis is made of those constructions in Brazilian Portuguese and Spanish. Finally, the behavior of passive constructions is analyzed in the written production of brazilian students who learn Spanish as a foreign language. Results from corpora analysis suggest some hypotheses on the factors which possibly influence learners\' choices for certain constructions to the detriment of others
|
34 |
As passivas na produção escrita de brasileiros aprendizes de Espanhol como língua estrangeira / The passive in the written production of brazilian students who learn Spanish as a foreign languageAraujo Junior, Benivaldo Jose de 22 March 2007 (has links)
As construções passivas no Português Brasileiro e no Espanhol apresentam tanto tendências comuns, quanto assimetrias. Este trabalho tem o propósito de investigar os efeitos desse fenômeno na aquisição/aprendizagem de Espanhol por estudantes brasileiros. Inicialmente, propõe-se uma descrição das construções passivas nas duas línguas. Em seguida, faz-se uma análise contrastiva dessas construções no Português Brasileiro e no Espanhol. Finalmente, investiga-se o comportamento das construções passivas (sobretudo as perifrásticas e as lexicais) na produção escrita de brasileiros aprendizes de Espanhol língua estrangeira. Os resultados obtidos na análise dos corpora sugerem algumas hipóteses sobre os fatores que possivelmente influenciam a preferência dos aprendizes por determinadas construções em detrimento de outras / Passive constructions in Brazilian Portuguese and Spanish present both common tendencies and assimetries. The aim of this project is to investigate the effects of such phenomenon on Spanish acquisition/learning process by brazilian students. Initially, a description of passive constructions is proposed for both languages. After that, a contrastive analysis is made of those constructions in Brazilian Portuguese and Spanish. Finally, the behavior of passive constructions is analyzed in the written production of brazilian students who learn Spanish as a foreign language. Results from corpora analysis suggest some hypotheses on the factors which possibly influence learners\' choices for certain constructions to the detriment of others
|
35 |
Dubliners\' sob a lupa da lingüística de corpus: uma contribuição para a análise e a avaliação da tradução literária / Dubliners\' s under the Corpus Linguistics: a contribution to the evaluation of literary translationGonçalves, Lourdes Bernardes 08 November 2006 (has links)
Esta tese procura demonstrar a valiosa contribuição da Lingüística de Corpus na análise do texto literário e na avaliação da tradução literária. O corpus é formado pelos textos de Dubliners (1914), uma coletânea de contos de James Joyce, e duas traduções dessa obra, ambas intituladas Dublinenses, uma de Hamilton Trevisan (1964), a outra de José Roberto O Shea (1993). Primeiramente é apresentado um panorama da Lingüística de Corpus, especialmente como uma abordagem que apresenta interfaces com os Estudos da Tradução e a Análise Literária. Em seguida é feita uma análise da obra original e, logo após, uma avaliação das traduções. Para constatar a efetiva contribuição da Lingüística de Corpus, a análise do texto original e das traduções foi realizada seguindo duas abordagens diferentes, a não computacional e a computacional. Os dados levantados foram comparados, o que permitiu estabelecer que a Lingüística de Corpus de fato representa uma abordagem que traz significativa contribuição aos processos de análise do texto literário e à avaliação de traduções literárias. Assim, foi proposto um modelo híbrido de avaliação de tradução literária, que combina características da abordagem tradicional e da Lingüística de Corpus. Esse modelo foi testado com quatro contos de Dubliners. / This thesis aims at demonstrating the valuable contribution of Corpus Linguistics in the analysis of literary texts and in the evaluation of literary translation. The selected texts are Dubliners (1914), a collection of short stories by James Joyce, and two translations thereof, both entitled Dublinenses, one by Hamilton Trevisan (1964), and the other by José Roberto O Shea (1993). Firstly, an analysis of the original work is carried out and, after that, the evaluation of translations. In order to verify the effective contribution of Corpus Linguistics, an analysis of the original text and its translations was performed, using two different approaches, a non computational as well as a computational one. The data thus obtained were compared and, as a result, it could be established that Corpus Linguistics really represents an approach which makes a significant contribution to the processes of literary text analysis and the evaluation of literary translations. Therefore, a model for the evaluation of literary translations was proposed, bringing together characteristics of the traditional approach and that of Corpus Linguistics. This model was then tested on four short stories from Dubliners.
|
36 |
Aproximación terminográfica al lenguaje de la piedra natural: propuesta de sistematización para la elaboración de un diccionario traductológicoVargas-Sierra, Chelo 16 May 2005 (has links)
No description available.
|
37 |
A Corpus Linguistics and Critical Discourse Analysis of Violance in the Grimm's Fairy Tales CollectionAlcantud Diaz, Maria 14 December 2011 (has links)
The main objective of the present thesis is to show the results achieved after investigating the presence of violence in the brothers Grimm’s fairy tales collection. After reviewing how the brothers Grimm’s fairy tales collection, a discourse aimed at adults, suffered a transformation and ended up being aimed at children, I explored whether the presence of violence in the brothers Grimm’s fairy tales collection could be empirically demonstrated by means of a Corpus Linguistics analysis. By doing this, I was able to show that classical readings aimed at children might be reclassified empirically and objectively after having analysed their content using a multidisciplinary approach. The framework for analysis is a combination of (i) corpus-based approaches (Biber et al 1998, Scott 2001 and Stubbs 1996, 2002); (ii) Systemic Functional Linguistics (transitivity analysis) (Berry 1977, 1989, Downing 1996:186, Downing and Locke 2006:120-167 and Halliday 1994: 106-175) and (iii) Critical Discourse Analysis (Van Dijk 1997, 2000, 2001, 2003, 2004, Widdicombe 1998 and Wodak & Meyer 2002-2009). The present study might provide a new insight into the violent content in the brothers Grimm’s fairy tales collection, as well as into the possible effects that these may have on children.
In order to carry out a study of violence I have first paid attention to the type of verbal processes that appear in the corpus in order to find out who is inflicting violence upon who and then, I have studied the transitivity shifts, that is, verbal processes, and the participants and circumstances that are part of the corpus selected for the analysis, The Grimm Corpus. By doing this, it was my intention to find out whether power and violence were intrinsically related in them.
In sum, my main objective was to find out the relationship between verbal processes and socially-constructed meaning related to power in these tales. By doing this, I intended to shed some light on the power relations that may help feature the characters in these tales and the consequences these power relations might have on the potential addressees.
In order to carry out this research, I have divided the current article into five sections: firstly, I have reviewed how the literature aimed at children appeared during the 17th and 18th, centuries as a kind of game for adults in the midst of an aristocratic society where there was no demand for children’s books. The tales, then, became nursery tales by the 19th century; mainly due to an increasing market demand for children’s literature but their violent content remained as this study will demonstrate. In the last part of this stage, we will shed some light on the violent content of the brothers Grimm’s fairy tales collection.
Section two introduces the concept violence and its different types. Sections three and four, presents a theoretical background dealing with the notions related to Corpus Linguistics (CL), Critical Discourse Analysis (CDA) and Systemic Functional Linguistcs (SFL). Additionally, I present a brief explanation of how the combination of these approaches, have, in my opinion, contributed to clarify the relationship between social identity and the power that features the characters in the tales.
The fifth part provides a concise explanation about the hypotheses and research methodology. The sixth part of my study is devoted to showing the detailed analyses and results achieved in the present thesis.
Finally, chapter 7 depicts the concluding remarks and some pointers for further research. The results confirmed the initial hypothesis and provided some useful and interesting insights into the different kinds of identities related to violence found in fairy tales which come from oral tradition. / El principal objetivo de esta tesis es mostrar los resultados obtenidos tras investigar la presencia de violencia en un corpus compuesto por una selección de 22 cuentos pertenecientes a la colección de cuentos de los hermanos Grimm. Después de revisar cómo la colección de cuentos de los hermanos Grimm, una colección que nació como un proyecto filológico destinado a preservar la tradición alemana, se transformó en literatura para niños, he investigado cómo la presencia de violencia en esta colección de cuentos puede ser identificada empíricamente por medio de un análisis multidisciplinar compuesto por un análisis de procesos verbales (Berry 1977, 1989, Downing and Locke 2006 y Halliday 1994), un análisis de corpus (Biber et al 1998, Scott 2010 y Stubbs 1996) y un análisis del discurso (Antaki y Widdicombe 1998a/b, Fairclough 1989-2003, Tajfel 1974, Sacks 1974, Van Dijk 1997-2004 y Wodak & Meyer 2002-2009). Con este estudio, pretendo demostrar que las lecturas destinadas a niños que provienen de tradición oral podrían se reclasificadas siguiendo los mismos criterios de clasificación que se utiliza hoy en día en todas las lecturas destinadas a niños, es decir, criterios relacionados con el contenido y el vocabulario, entre otros valores, tras analizar los resultados obtenidos en este estudio. Por otro lado, mi segundo objetivo ha sido el estudio del papel que representan los principales participantes en los cuentos de los Grimm en relación a los procesos verbales encontrados. Este estudio se ha realizado con el propósito de identificar las categorías (en cuanto a status social y/o familiar) a las que pertenecen dichos participantes con el objetivo de comprobar si hay una relación entre status social, poder y violencia en estos cuentos de tradición oral. Es decir, si los personajes de estos cuentos cometen actos violentos respaldados por su identidad social y/o familiar, lo que les da poder sobre otros personajes. Los resultados obtenidos confirmaron la hipótesis inicial proporcionando datos útiles e interesantes en cuanto a la identidad de los participantes involucrados en el corpus de los hermanos Grimm y, por tanto, de algunos de los valores que se están transmitiendo a los receptores potenciales, es decir, los niños.
|
38 |
Leitura, tradução e medidas de complexidade textual em contos da literatura para leitores com letramento básicoPasqualini, Bianca Franco January 2012 (has links)
Este trabalho trata dos temas da complexidade textual e de padrões de legibilidade a partir de um enfoque computacional, situando o tema em meio à descrição de textos originais e traduzidos, aproveitando postulados teóricos da Tradutologia, da Linguística de Corpus e do Processamento de Línguas Naturais. Investigou-se a suposição de que há traduções de literatura em língua inglesa produzidas no Brasil que tendem a gerar textos mais complexos do que seus originais, tendo como parâmetro o leitor brasileiro médio, cuja proficiência de leitura situa-se em nível básico. Para testar essa hipótese, processamos, usando as ferramentas Coh-Metrix e Coh-Metrix-Port, um conjunto de contos literários de vários autores em língua inglesa e suas traduções para o português brasileiro, e, como contraste, um conjunto de contos de autores brasileiros publicados na mesma época e suas traduções para o inglês. As ferramentas Coh-Metrix e Coh-Metrix-Port calculam parâmetros de coesão, coerência e inteligibilidade textual em diferentes níveis linguísticos, e as métricas estudadas foram as linguística e gramaticalmente equivalentes entre as duas línguas. Foi realizado também um teste estatístico (t-Student), para cada métrica e entre as traduções, para avaliar a diferença entre as médias significativas dentre resultados obtidos. Por fim, são introduzidas tecnologias tipicamente usadas em Linguística Computacional, como a Aprendizagem de Máquina (AM), para o aprofundamento da análise. Os resultados indicam que as traduções para o português produziram textos mais complexos do que seus textos-fonte em algumas das medidas analisadas, e que tais traduções não são adequadas para leitores com nível de letramento básico. Além disso, o índice Flesch de legibilidade mostrou-se como a medida mais discriminante entre textos traduzidos do inglês para o português brasileiro e textos escritos originalmente em português. Conclui-se que é importante: a) revisar equivalências de medidas de complexidade entre o sistema Coh-Metrix para o inglês e para o português; b) propor medidas específicas das línguas estudadas; e c) ampliar os critérios de adequação para além do nível lexical. / This work analyzes textual complexity and readability patterns from a computational perspective, situating the problem through the description of original and translated texts, based on Translation Studies, Corpus Linguistics and Natural Language Processing theoretical postulates. We investigated the hypothesis that there are English literature translations made in Brazil that tend to generate more complex texts than their originals, considering – as parameter – the typical Brazilian reader, whose reading skills are at a basic level according to official data. To test this hypothesis, we processed –using the Coh-Metrix and Coh-Metrix-Port tools – a set of literary short stories by various authors in English and their translations into Brazilian Portuguese, and – as contrast – a set of short stories by Brazilian literature authors from the same period and their translations into English. The Coh-Metrix and Coh-Metrix-Port tools calculate cohesion, coherence and textual intelligibility parameters at different linguistic levels, and the metrics studied were the linguistic and grammatical equivalents between the two languages. We also carried out a statistical test (t-test) for each metric, and between translations, to assess whether the difference between the mean results are significant. Finally, we introduced Computational Linguistics methods such as Machine Learning, to improve the results obtained with the mentioned tools. The results indicate that translations into Portuguese are more complex than their source texts in some of the measures analyzed and they are not suitable for readers with basic reading skills. We conclude that it is important to: a) review complexity metrics of equivalence between Coh-Metrix system for English and Portuguese; b) propose specific metrics for the languages studied, and c) expand the criteria of adaptation beyond the lexical level.
|
39 |
Do internetês ao léxico da escrita dos jovens no OrkutBisognin, Tadeu Rossato January 2008 (has links)
Ce travail décrit des caractéristiques de l’écrit employées dans des textes de messages et des dépositions au site de rapports Orkut. Cette écrite c’est une des varietés de l’internetês et le point de départ pour la description c’est la fréquence du vocabulaire. Le support théorique de la recherche est doné par la Linguistique du Corpus, qui analyse avec l’aide de l’ordinateur l’usage de la langue dans des textes réels a fin d’observer de façon empirique les formes gramaticales possibles utilisées par les parleurs. Les corpora analysés ont été: 1) corpus de l’étude formés par des dépositions et messages avec 553.875 mots, 2) corpora de référence formés par échantillons de langue écrite et orale avec 1.289.949 mots, et 3) corpora de contraste composés par des textes scolaires, journalistiques et didactiques, au total de 571.090 mots. Les corpora ont été analysés l’instrument WordSmith Tools, employé par des études en Linguistique du Corpus. Parmi les regularités et les spécifites des donnés examinés, on a remarqué la richesse du vocabulaire dans des textes des internautes aux mots les plus fréquents, aux variations orthographiques y inclus par des régions du Brésil representées dans neuf subcorpora, aux indices d’oralisation sur l’écrite et à la variété de forme et contennue. La recherche a conclu que l’internetês est une expression graphique avec des modifications ortographiques de environ 20% de son lexique, avec des variations touchant à la richesse du vocabulaire dans des différentes régions du pays. Cette variation a été plus grande dans des textes de messages. On a remarqué que les diferences de richesse vocabulaire entre les textes de Orkut, les rédactions scolaires et les textes journalistiques primés ne sont pas significatives. Ce qui signifie afirmer que le vocabulaire des internautes n’est pas pauvre à propos de la richesse lexical. À l’égard de la fréquence, les mots de l’écrite d’Orkut sont semblables aux mots d’un continuum oú l’oralité et l’écrite se fondent. Le travail postule que l’internetês, comme il est representé au Orkut, est un dialecte diastratique, un sociolecte des jeunes internautes avec un peu des traits qui repercutent sur l’écrite scolaire. À la fin, la recherche suggère comme l’écrite examinée peut être explorée en classe. / Este trabalho descreve características da escrita empregada em textos de recados (scraps) e de depoimentos (testimonials) do site de relacionamentos Orkut. Essa escrita é tomada como uma das variedades do internetês e o ponto de partida para a descrição é a freqüência dos itens de vocabulário. O suporte teórico para a pesquisa é dado pela Lingüística de Corpus, área que analisa com auxílio do computador os padrões de uso da língua em grandes conjuntos de textos reais, para observar de modo empírico as formas gramaticais possíveis e prováveis utilizadas pelos falantes. Os corpora analisados foram 1) corpus de estudo formado por depoimentos e recados com 553.875 palavras, 2) corpora de referência formados por amostras de língua escrita e falada compostos de 1.289.949 palavras e 3) corpora de contraste compostos de textos escolares, jornalísticos e didáticos, totalizando 571.090 palavras. Analisaram-se os corpora com a ferramenta WordSmith Tools, empregada pelos estudos em Lingüística de Corpus. Entre as regularidades e especificidades dos dados sob exame, deu-se maior atenção à riqueza vocabular presente nos textos dos internautas, às palavras mais freqüentes, às variações ortográficas - inclusive por regiões do Brasil demonstradas em nove subcorpora -, aos indícios de oralização sobre a escrita e à variedade de forma e conteúdo. A pesquisa permitiu concluir que o internetês é basicamente uma expressão gráfica com alterações ortográficas presentes em torno de 20% de seu léxico, com variações quanto à riqueza vocabular em diferentes regiões do país, variação essa maior nos scraps do que nos depoimentos. Percebeu-se que não são significativas as diferenças de riqueza vocabular entre textos do Orkut e os de redações escolares e de textos jornalísticos premiados, não podendo ser o vocabulário dos internautas considerado pobre no quesito riqueza lexical. Quanto à freqüência, as palavras da escrita do Orkut mostraram-se bastante similares às do português falado, de modo que o internetês se apresenta num continuum em que a oralidade e escrita se fundem. O trabalho postula que o internetês, tal como representado no Orkut, é um dialeto diastrático, um socioleto dos internautas jovens, com alguns poucos traços repercutindo sobre a escrita escolar. Na sua parte final, a pesquisa traz sugestões sobre como a escrita sob exame pode ser explorada em atividades em sala de aula.
|
40 |
Bases teórico-metodológicas para elaboração de um glossário bilíngue (português-inglês) de treinamento de força : subsídios para o tradutorDornelles, Márcia dos Santos January 2015 (has links)
O terminógrafo, ao elaborar um produto terminográfico bilíngue para tradutores, deve preocupar-se não só em repertoriar, nas duas línguas, os termos próprios de uma (sub)área do conhecimento, mas também em apresentá-los inseridos em suas combinatórias típicas, ou seja, associados aos elementos que a eles se combinam em nível sintagmático, de forma recorrente nos textos daquela especialidade. Isso porque o tradutor precisa produzir um texto de chegada adequado ao padrão de linguagem em foco, de forma a espelhar o modus dicendi daquele campo. Assim, seu texto soará natural à comunidade de leitores, evitando-se ruídos na comunicação. Diante da falta de produtos terminográficos bilíngues sobre Treinamento de Força (TF), dirigido a tradutores, esta investigação tem como objetivo central apresentar bases teórico-metodológicas para a elaboração de um glossário português-inglês da terminologia do TF. Esse glossário é aqui apresentado como um protótipo, uma amostra de um todo, destinado a auxiliar especialmente tradutores brasileiros que trabalhem na direção português→inglês, mas que pode ser aproveitado também por pesquisadores e estudantes dessa temática que precisem produzir artigos científicos em inglês. Ele inclui guia do usuário, uma árvore de domínio em português do TF, lista de termos em português e 30 exemplares de fichas terminológicas em formato estendido. Outro objetivo do estudo é oferecer uma descrição do comportamento dos termos em português e inglês, e das unidades fraseológicas especializadas (UFE) eventivas (BEVILACQUA, 2003; 2004) em português no âmbito dos artigos científicos sobre TF. Como referencial teórico, valemo-nos dos princípios da Teoria Comunicativa da Terminologia (TCT) e dos fundamentos e diretrizes da Linguística de Corpus (LC). Seguir a TCT (CABRÉ, 1999a; 1999b; 2001a; 2001b; 2003; 2009) implica adotar o termo como objeto central de estudo e concebê-lo, antes de tudo, como uma unidade lexical da língua natural que adquire valor especializado dentro de um contexto especializado, segundo critérios semânticos, discursivos e pragmáticos. Seguir a LC (BIBER, 2012; BERBER SARDINHA, 2004) implica uma visão probabilística da língua, pressupondo que, embora muitos traços linguísticos sejam possíveis teoricamente, não ocorrem com a mesma frequência. Ganham realce no estudo os temas da variação terminológica, da tradução funcional e do artigo científico como gênero especializado. Nosso corpus de estudo é constituído de 70 artigos de periódicos científicos de destaque no âmbito do TF, escritos originalmente em português e inglês. São, portanto, dois subcorpora, um em cada língua, que são comparáveis. Para exploração e análise do corpus, utilizamos o software AntConc (ANTHONY, 2011), especialmente as funcionalidades keyword list, n-grams e concordance. Como material de apoio, utilizamos livros-texto e artigos científicos de referência sobre TF, um glossário particular pré-existente de Educação Física, a Terminologia Anatômica Internacional, o Google Acadêmico, o Wikipédia, entre outros. Também contamos com a colaboração de dois consultores especialistas em TF. A pesquisa contempla, então, uma parte teórica e uma parte aplicada que se inter-relacionam e se inserem na dupla face da Terminologia, visto que há uma descrição de uma linguagem especializada a partir de um dado ponto de vista teórico e o desenho de um produto concreto. / When designing a bilingual terminographic product for translators, a terminographer must be concerned not only with including, in both languages, the specific terms of a (sub)field of knowledge, but also with presenting these terms within their typical phraseological structures, that is, associated with the elements they combine with syntagmatically and recurrently in the texts of that domain. This is because a translator needs to produce a target text appropriate to the language pattern in focus, so as to reflect the modus dicendi of that specialized field. In this way, the text produced will sound much more natural to the community of readers, thereby avoiding noise in communication. Given the lack of bilingual terminographic products on Strength Training (ST), addressed to translators, the main purpose of this research study is to provide theoretical and methodological foundations for the development of a Portuguese-English glossary of ST terminology. This glossary is presented here as a prototype – a sample of a whole – especially designed to assist Brazilian translators working in the Portuguese to English direction, but it can also be useful for researchers and students of this subject to produce scientific papers in English. It includes a user guide, a domain tree of ST in Portuguese, a list of terms in Portuguese, and 30 sample terminology records in extended format. Another objective of the study is to provide a description of the behavior of terms in Portuguese and English, and of eventive specialized phraseological units (BEVILACQUA, 2003; 2004) in Portuguese on ST scientific articles. As theoretical framework, we based on the principles of the Communicative Theory of Terminology (CTT) and on the foundations and guidelines of Corpus Linguistics (CL). Following CTT (CABRÉ, 1999a; 1999b; 2001a; 2001b; 2003; 2009) implies adopting the term as the central object of study and conceiving it, first of all, as a lexical unit of natural language that acquires specialized value within a specialized context, according to semantic, discursive and pragmatic criteria. Following CL (BIBER, 2012; BERBER SARDINHA, 2004) implies a probabilistic viewpoint of language, assuming that, although many linguistic features are possible theoretically, they do not occur with the same frequency. The topics of terminological variation, functional approach to translation, and the scientific article as a specialized genre are also highlighted in the study. Our corpus consists of 70 articles from leading scientific journals on ST, originally written in Portuguese and English. They are two comparable subcorpora, one in each language. For the exploration and analysis of the corpus, we used the AntConc software (ANTHONY, 2011), especially the tools keyword list, n-grams and concordance. As support material, we used textbooks and reference scientific papers on ST, a pre-existing personal glossary of Physical Education, the International Anatomical Terminology, Google Scholar, Wikipedia, among others. We also had the collaboration of two expert consultants in ST. Therefore, the research embraces a theoretical part and an applied part that interrelate and fall into the double face of Terminology, since there is a description of a specialized language from a given theoretical point of view and the design of a concrete product.
|
Page generated in 0.1843 seconds