Spelling suggestions: "subject:"corpora"" "subject:"korpora""
41 |
Levantamento dos padrões léxico-gramaticais do inglês para aviação: um estudo vetorado pela Linguística de Corpus / Analysis of lexical-grammar patterns of aviation English: a study vectored by Corpus LinguisticsPrado, Malila Carvalho de Almeida 10 February 2015 (has links)
A OACI (Organização de Aviação Civil Internacional), órgão que estabelece regulamentações na aviação civil em nível mundial, define o inglês para aviação como uma junção entre a Fraseologia Aeronáutica sublinguagem empregada por pilotos e controladores de tráfego aéreo em comunicações radiotelefônicas em situações rotineiras e o inglês comum (plain English), utilizado quando a Fraseologia Aeronáutica não se mostra suficiente. Após averiguar que acidentes aéreos foram agravados por falhas de comunicação, a OACI passou a exigir dos profissionais supracitados uma licença para operações internacionais. Para tal licenciamento, é requerida uma avaliação de proficiência linguística, prescrita no Manual de Implementação de Proficiência Linguística, ou DOC 9835, publicado pela OACI em 2004. A partir de então, o inglês aeronáutico teve seu grau de importância elevado e começou a ser avaliado em países ao redor do mundo, por governos e/ou por instituições internacionais, e, nos últimos anos, foram publicados materiais didáticos que se propõem a atender a essa nova demanda. Identificando a falta de autenticidade nesses materiais, e um descompasso entre a definição proposta pela OACI e o Glossário de Estruturas Básicas e Complexas adicionado à segunda edição do DOC 9835 (ICAO, 2010), buscamos no aporte teórico da Linguística de Corpus uma metodologia para a descrição do plain English utilizado em contextos aeronáuticos em uso real. Assim, o objetivo desta pesquisa é apresentar um estudo descritivo da linguagem utilizada por controladores de tráfego aéreo e pilotos em comunicações radiotelefônicas em situações anormais; para atingi-lo, compilamos um corpus falado extraído desse contexto. A partir desse corpus, analisamos, primeiramente, os padrões fraseológicos no entorno de cinco itens lexicais runway [pista], aircraft [aeronave], emergency [emergência], fuel [combustível] e engine [motor] , que foram evidenciados como as palavras de conteúdo mais frequentes no corpus de estudo. Contrastamos, em seguida, nossos resultados com o Glossário de Estruturas do próprio DOC 9835. Nossos resultados apontam que, assim como recomendado pela OACI, o inglês para aviação é simples e objetivo, não correspondendo ao tipo de linguagem sugerida no referido anexo nem ao conteúdo programático dos materiais didáticos utilizados atualmente. / ICAO (International Civil Aviation Organization), a specialized agency which regulates civil aviation worldwide, defines aviation English as a combination of Aeronautical Phraseology a sublanguage used by air traffic controllers and pilots in radiotelephony communications in routine situations and plain English, used when Phraseology does not suffice. After verifying that air crashes were aggravated by miscommunications, ICAO started requesting a proficiency level accredited in the licenses of these two professionals when operating internationally. To obtain this license, applicants are required to take a proficiency exam, prescribed in the Manual of Implementation of Proficiency Requirements, or DOC 9835, published by ICAO in 2004. Since then, aviation English has reached a higher level of importance, and started being evaluated by governments and institutions throughout the world and, in the last years, coursebooks have been published with the objective of meeting those needs. Having identified a lack of authenticity in such materials, as well as an imbalance between the definition of aviation English in DOC 9835 and the Glossary of Basic and Complex Structures added to its second edition (ICAO, 2010), we used Corpus Linguistics as a methodology to investigate this language for special purposes in its real environment. Therefore, this research presents a description of the language used by air traffic controllers and pilots in radiotelephony communications when in abnormal situations. To achieve our goals, we compiled a spoken corpus extracted from this context. For this study, we primarily investigated the phraseological patterns in the surroundings of five lexical items runway, aircraft, emergency, fuel and engine , chosen because of their high frequency status in our corpus. We then contrasted our results with the Glossary attached to DOC 9835, which suggests a list of grammar structures on which the assessment and training of aviation English should be based. This research concludes with a demonstration of the simplicity, objectiveness and clarity of the plain English identified in our corpus, which does not correlate with the structures recommended in the Glossary nor with the language explored in coursebooks published to this end.
|
42 |
A identificação de termos de Maçonaria simbólica usando corpora comparáveisVeiga, Alexandre Trigo 16 September 2014 (has links)
Made available in DSpace on 2016-04-28T18:22:55Z (GMT). No. of bitstreams: 1
Alexandre Trigo Veiga.pdf: 1466775 bytes, checksum: 8e4e9f53a00dd032cb2884acc23dcdcf (MD5)
Previous issue date: 2014-09-16 / The present research was developed in order to present an alternative methodology for
gathering and identifying terms from a specific area of studies in comparable corpora in
Portuguese and English using computer tools designed for linguistic analysis. The selected
specific area is Symbolic Freemasonry and the compiled corpora for this study are manuals
and rituals used by freemasons during their works that are available in the Internet. The
computer tools used for this research are the WordSmith Tools 6.0, the zExtractor and the
SketchEngine. The terms identified as a result of this research will provide relevant data for
developing a bilingual glossary of Symbolic Freemasonry to aid translators and proof-readers
who specialize in masonic works / Esta pesquisa foi desenvolvida com o objetivo de apresentar uma metodologia alternativa para
reunir e identificar termos de uma área específica em corpora comparáveis em português e
inglês usando ferramentas computacionais de análise linguística. A área escolhida é a de
Maçonaria Simbólica e os corpora compilados para este estudo são manuais e rituais
utilizados pelos maçons em seus trabalhos disponíveis na Internet. As ferramentas
computacionais usadas nesta pesquisa são o WordSmith Tools 6.0, o zExtractor e o
SketchEngine. Os termos identificados como resultado desta pesquisa fornecerão dados
relevantes para a elaboração de um glossário bilíngue para auxiliar tradutores e revisores que
se especializam em obras maçônicas
|
43 |
Uma análise qualitativa de marcadores culturais em dois corpora paralelos de traduções jurídicas de direito privado de português para inglês e de inglês para português / A qualitative analysis of the translation of referential (extra-linguistic) and stylistic cultural markers in two parallel corpora containing documents from the area of private law, one with originals in Brazilian Portuguese and translations in English and the other with originals in English and translations in Brazilian PortugueseMoraes, Naomi James Sutcliffe de 04 May 2007 (has links)
Esta tese apresenta uma análise qualitativa da tradução de marcadores culturais referenciais (extra-lingüísticos) e estilísticos (convenções lingüísticas) em dois corpora paralelos de documentos da área de direito privado, um com originais em português brasileiro e traduções em inglês e o outro com originais em inglês e traduções em português brasileiro. Os corpora não contêm traduções de aprendizes. Dividiu-se os marcadores em categorias temáticas para identificar tendências de abordagem. As análises incluíram classificação das soluções tradutórias através das modalidades de Aubert (2005), com modificações, e graus de aproximação do receptor ao texto original. Dois corpora comparáveis em inglês e português também foram coletados e utilizados para servir como uma referência para questões estilísticas / This dissertation is a qualitative analysis of the translation of referential (extra-linguistic) and stylistic cultural markers in two parallel corpora containing documents from the area of private law, one with originals in Brazilian Portuguese and translations in English and the other with originals in English and translations in Brazilian Portuguese. The corpora contain translations performed by professionals, not students of translation. The cultural markers were categorized thematically to allow identification of translation strategy trends. The analyses included classification of translation solutions using the modalities of Aubert (2005), with modifications, and degrees of approximation between the receptor and the original text. Two comparable corpora in English and Brazilian Portuguese were also compiled and used as a reference for stylistic questions
|
44 |
Uma análise qualitativa de marcadores culturais em dois corpora paralelos de traduções jurídicas de direito privado de português para inglês e de inglês para português / A qualitative analysis of the translation of referential (extra-linguistic) and stylistic cultural markers in two parallel corpora containing documents from the area of private law, one with originals in Brazilian Portuguese and translations in English and the other with originals in English and translations in Brazilian PortugueseNaomi James Sutcliffe de Moraes 04 May 2007 (has links)
Esta tese apresenta uma análise qualitativa da tradução de marcadores culturais referenciais (extra-lingüísticos) e estilísticos (convenções lingüísticas) em dois corpora paralelos de documentos da área de direito privado, um com originais em português brasileiro e traduções em inglês e o outro com originais em inglês e traduções em português brasileiro. Os corpora não contêm traduções de aprendizes. Dividiu-se os marcadores em categorias temáticas para identificar tendências de abordagem. As análises incluíram classificação das soluções tradutórias através das modalidades de Aubert (2005), com modificações, e graus de aproximação do receptor ao texto original. Dois corpora comparáveis em inglês e português também foram coletados e utilizados para servir como uma referência para questões estilísticas / This dissertation is a qualitative analysis of the translation of referential (extra-linguistic) and stylistic cultural markers in two parallel corpora containing documents from the area of private law, one with originals in Brazilian Portuguese and translations in English and the other with originals in English and translations in Brazilian Portuguese. The corpora contain translations performed by professionals, not students of translation. The cultural markers were categorized thematically to allow identification of translation strategy trends. The analyses included classification of translation solutions using the modalities of Aubert (2005), with modifications, and degrees of approximation between the receptor and the original text. Two comparable corpora in English and Brazilian Portuguese were also compiled and used as a reference for stylistic questions
|
45 |
Ensino-aprendizagem de léxico em espanhol como língua estrangeira (E/LE) por meio de corpora (as palavras polissêmicas nos livros didáticos)Alonso, Maria Cibele Gonzalez Pellizzari 28 August 2013 (has links)
Made available in DSpace on 2016-04-28T18:22:42Z (GMT). No. of bitstreams: 1
Maria Cibele Gonzalez Pellizzari Alonso.pdf: 20660490 bytes, checksum: 3275d5ad9a3b4ab5d2c7fc502bf40572 (MD5)
Previous issue date: 2013-08-28 / The lexicon is one of the aspects that students of a foreign language have most difficult with. Despite the fact that one can make phonetic, grammatical, pragmatic mistakes and still be understood, communication may be compromised by the misuses of vocabulary. Thus, we observe that the lexicon cannot be neglected in the process of teaching and learning because students often present, even at an advanced level, poor range and appropriacy of lexicon, which impairs their proper use of the language.
Therefore, the target of this research is the study of the process of teaching and learning the lexicon, more specifically, the polysemous words that are present in the textbooks of Spanish as a Foreign Language (E / LE), because we believe that knowing the several meanings of such words helps students extend their range and appropriacy of lexicon.
Consequently, this research found theoretical support in Corpus Linguistics, specifically in the area of corpus-based research which is concerned with the process of teaching and learning foreign languages (Sánchez, 1995; SINCLAIR, 1991, Halliday 2002 BERBER SARDINHA, 2004).
The proposed questions were:
1. Are the meanings of polysemous words which are present in textbooks the most frequent ones on a daily basis?
2. What is the importance of the textbook in the process of teaching and learning the lexicon?
3. Do students use resources other than the textbook in order to extend their range of vocabulary (in this particular case, the different meanings of polysemous words)?
4. Do the activities developed with concordance lines contribute to the learning of new meanings of polysemous words?
The corpora used in the research were: 1) a corpus of texts elaborated from four textbooks E / LE, 2) two corpora with essays written by twelve students (informants), developed at different moments, and 3) a corpus of reference, CREA ( Reference Corpus del Español Actual), the Royal Spanish Academy.
In response to the research questions, the results indicated that students may
use different resources to acquire and extend their lexicon, but the textbook is the main one. Nevertheless, it was observed in this study that the lexicon presented in textbooks does not necessarily involve the actual colloquial language used on a daily basis. Hence, the authors of the textbooks need to devote more attention to the lexicon they will present in their materials. Moreover, teachers can collaborate in this task by supplementing the book with activities. For this, we suggest the use of activities designed with lines of agreement, contributing effectively to the acquisition of the lexicon.
All in all, these findings bring a contribution to the field of teaching-learning E / LE through corpora, helping to fill the gap in the work specifically with the teaching of polysemous words in Spanish as a foreign language. There were no studies in this field up to this moment and therefore, the aim of this research is to make a unique contribution / O léxico é um dos aspectos que apresentam maior dificuldade aos estudantes de uma língua estrangeira, pois podemos cometer erros fonéticos, gramaticais, pragmáticos e ser compreendidos, mas muitos dos usos incorretos de vocabulário prejudicam a comunicação. Assim sendo, observamos que o léxico não pode ser trabalhado de maneira secundária no processo de ensino-aprendizagem, pois os estudantes apresentam, muitas vezes, inclusive em um nível avançado, um léxico pobre, o que os prejudica.
Dessa forma, constituiu objeto central deste trabalho o estudo sobre o ensino-aprendizagem do léxico, mais especificamente, das palavras polissêmicas que aparecem nos livros didáticos de espanhol como língua estrangeira (E/LE), pois acreditamos que conhecer os vários significados das mesmas contribui para a ampliação do universo lexical dos estudantes.
Para tanto, o trabalho encontrou suporte teórico na Linguística de Corpus, mais especificamente, na área de pesquisa baseada em corpus que se preocupa com o ensino-aprendizagem de línguas estrangeiras (SÁNCHEZ, 1995; SINCLAIR, 1991; HALLIDAY, 2002, BERBER SARDINHA, 2004).
As questões de pesquisa propostas foram as seguintes:
1. O(s) significado(s) das palavras polissêmicas que aparece(m) nos livros didáticos é(são) o(s) mais frequente(s) no dia a dia?
2. Qual a importância do livro didático no processo de ensino-aprendizagem do léxico?
3. Os estudantes utilizam outros recursos, além do livro didático, para ampliar seu léxico, neste caso específico, os diferentes significados das palavras polissêmicas?
4. As atividades elaboradas com linhas de concordância contribuem para a aprendizagem de novos significados das palavras polissêmicas?
Os corpora empregados na pesquisa foram: 1) um corpus elaborado a partir dos textos de quatro livros didáticos de E/LE; 2) dois corpora com redações de doze informantes, elaboradas em diferentes momentos; e 3) um corpus de referência, CREA (Corpus de Referencia del Español Actual), da Real Academia Espanhola.
Os resultados indicaram, em resposta às perguntas de pesquisa, que os estudantes podem utilizar diferentes recursos para adquirir e ampliar seu léxico, mas o livro didático é o principal deles. Não obstante, observou-se, neste estudo, que o léxico apresentado nos livros didáticos nem sempre representa a língua em uso. Por isso, os autores dos livros didáticos precisam dedicar mais atenção ao léxico que vai introduzir em seus materiais, e, por outro lado, os professores podem colaborar nessa tarefa complementando o livro com atividades. Para isso, sugerimos a utilização de atividades elaboradas com linhas de concordância, que contribuem de forma eficaz para a aquisição do léxico.
Tais achados, portanto, trazem uma contribuição para a área de ensino-aprendizagem de E/LE por meio de corpora, ajudando a preencher a lacuna existente especificamente nos trabalhos com o ensino de palavras polissêmicas em espanhol como língua estrangeira. Até o momento, não havia estudos nessa área, e, portanto, esta pesquisa espera ter-lhe feito uma contribuição origina
|
46 |
Levantamento dos padrões léxico-gramaticais do inglês para aviação: um estudo vetorado pela Linguística de Corpus / Analysis of lexical-grammar patterns of aviation English: a study vectored by Corpus LinguisticsMalila Carvalho de Almeida Prado 10 February 2015 (has links)
A OACI (Organização de Aviação Civil Internacional), órgão que estabelece regulamentações na aviação civil em nível mundial, define o inglês para aviação como uma junção entre a Fraseologia Aeronáutica sublinguagem empregada por pilotos e controladores de tráfego aéreo em comunicações radiotelefônicas em situações rotineiras e o inglês comum (plain English), utilizado quando a Fraseologia Aeronáutica não se mostra suficiente. Após averiguar que acidentes aéreos foram agravados por falhas de comunicação, a OACI passou a exigir dos profissionais supracitados uma licença para operações internacionais. Para tal licenciamento, é requerida uma avaliação de proficiência linguística, prescrita no Manual de Implementação de Proficiência Linguística, ou DOC 9835, publicado pela OACI em 2004. A partir de então, o inglês aeronáutico teve seu grau de importância elevado e começou a ser avaliado em países ao redor do mundo, por governos e/ou por instituições internacionais, e, nos últimos anos, foram publicados materiais didáticos que se propõem a atender a essa nova demanda. Identificando a falta de autenticidade nesses materiais, e um descompasso entre a definição proposta pela OACI e o Glossário de Estruturas Básicas e Complexas adicionado à segunda edição do DOC 9835 (ICAO, 2010), buscamos no aporte teórico da Linguística de Corpus uma metodologia para a descrição do plain English utilizado em contextos aeronáuticos em uso real. Assim, o objetivo desta pesquisa é apresentar um estudo descritivo da linguagem utilizada por controladores de tráfego aéreo e pilotos em comunicações radiotelefônicas em situações anormais; para atingi-lo, compilamos um corpus falado extraído desse contexto. A partir desse corpus, analisamos, primeiramente, os padrões fraseológicos no entorno de cinco itens lexicais runway [pista], aircraft [aeronave], emergency [emergência], fuel [combustível] e engine [motor] , que foram evidenciados como as palavras de conteúdo mais frequentes no corpus de estudo. Contrastamos, em seguida, nossos resultados com o Glossário de Estruturas do próprio DOC 9835. Nossos resultados apontam que, assim como recomendado pela OACI, o inglês para aviação é simples e objetivo, não correspondendo ao tipo de linguagem sugerida no referido anexo nem ao conteúdo programático dos materiais didáticos utilizados atualmente. / ICAO (International Civil Aviation Organization), a specialized agency which regulates civil aviation worldwide, defines aviation English as a combination of Aeronautical Phraseology a sublanguage used by air traffic controllers and pilots in radiotelephony communications in routine situations and plain English, used when Phraseology does not suffice. After verifying that air crashes were aggravated by miscommunications, ICAO started requesting a proficiency level accredited in the licenses of these two professionals when operating internationally. To obtain this license, applicants are required to take a proficiency exam, prescribed in the Manual of Implementation of Proficiency Requirements, or DOC 9835, published by ICAO in 2004. Since then, aviation English has reached a higher level of importance, and started being evaluated by governments and institutions throughout the world and, in the last years, coursebooks have been published with the objective of meeting those needs. Having identified a lack of authenticity in such materials, as well as an imbalance between the definition of aviation English in DOC 9835 and the Glossary of Basic and Complex Structures added to its second edition (ICAO, 2010), we used Corpus Linguistics as a methodology to investigate this language for special purposes in its real environment. Therefore, this research presents a description of the language used by air traffic controllers and pilots in radiotelephony communications when in abnormal situations. To achieve our goals, we compiled a spoken corpus extracted from this context. For this study, we primarily investigated the phraseological patterns in the surroundings of five lexical items runway, aircraft, emergency, fuel and engine , chosen because of their high frequency status in our corpus. We then contrasted our results with the Glossary attached to DOC 9835, which suggests a list of grammar structures on which the assessment and training of aviation English should be based. This research concludes with a demonstration of the simplicity, objectiveness and clarity of the plain English identified in our corpus, which does not correlate with the structures recommended in the Glossary nor with the language explored in coursebooks published to this end.
|
47 |
Étude sur l'équivalence de termes extraits automatiquement d'un corpus parallèle : contribution à l'extraction terminologique bilingueLe Serrec, Annaïch January 2008 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
48 |
Analyse comparative de l'équivalence terminologique en corpus parallèle et en corpus comparable : application au domaine du changement climatiqueLe Serrec, Annaïch 04 1900 (has links)
Les travaux entrepris dans le cadre de la présente thèse portent sur l’analyse de l’équivalence terminologique en corpus parallèle et en corpus comparable. Plus spécifiquement, nous nous intéressons aux corpus de textes spécialisés appartenant au domaine du changement climatique. Une des originalités de cette étude réside dans l’analyse des équivalents de termes simples. Les bases théoriques sur lesquelles nous nous appuyons sont la terminologie textuelle (Bourigault et Slodzian 1999) et l’approche lexico-sémantique (L’Homme 2005).
Cette étude poursuit deux objectifs. Le premier est d’effectuer une analyse comparative de l’équivalence dans les deux types de corpus afin de vérifier si l’équivalence terminologique observable dans les corpus parallèles se distingue de celle que l’on trouve dans les corpus comparables. Le deuxième consiste à comparer dans le détail les équivalents associés à un même terme anglais, afin de les décrire et de les répertorier pour en dégager une typologie.
L’analyse détaillée des équivalents français de 343 termes anglais est menée à bien grâce à l’exploitation d’outils informatiques (extracteur de termes, aligneur de textes, etc.) et à la mise en place d’une méthodologie rigoureuse divisée en trois parties. La première partie qui est commune aux deux objectifs de la recherche concerne l’élaboration des corpus, la validation des termes anglais et le repérage des équivalents français dans les deux corpus. La deuxième partie décrit les critères sur lesquels nous nous appuyons pour comparer les équivalents des deux types de corpus. La troisième partie met en place la typologie des équivalents associés à un même terme anglais.
Les résultats pour le premier objectif montrent que sur les 343 termes anglais analysés, les termes présentant des équivalents critiquables dans les deux corpus sont relativement peu élevés (12), tandis que le nombre de termes présentant des similitudes d’équivalence entre les corpus est très élevé (272 équivalents identiques et 55 équivalents non critiquables). L’analyse comparative décrite dans ce chapitre confirme notre hypothèse selon laquelle la terminologie employée dans les corpus parallèles ne se démarque pas de celle des corpus comparables.
Les résultats pour le deuxième objectif montrent que de nombreux termes anglais sont rendus par plusieurs équivalents (70 % des termes analysés). Il est aussi constaté que ce ne sont pas les synonymes qui forment le groupe le plus important des équivalents, mais les quasi-synonymes. En outre, les équivalents appartenant à une autre partie du discours constituent une part importante des équivalents. Ainsi, la typologie élaborée dans cette thèse présente des mécanismes de l’équivalence terminologique peu décrits aussi systématiquement dans les travaux antérieurs. / The research undertaken for this thesis concerns the analysis of terminological equivalence in a parallel corpus and a comparable corpus. More specifically, we focus on specialized texts related to the domain of climate change. A unique aspect of this study is based on the analysis of the equivalents of single word terms. The theoretical frameworks on which we rely are the terminologie textuelle (Bourigault et Slodzian 1999) and the lexico-sémantique approaches (L’Homme 2005).
This study has two objectives. The first is to perform a comparative analysis of terminological equivalents in the two types of corpora in order to verify if the equivalents found in the parallel corpus are different from the ones observed in the comparable corpora. The second is to compare in detail equivalents associated with a same English term, in order to describe them and define a typology.
A detailed analysis of the French equivalents of 343 English terms is carried out with the help of computer tools (term extractor, text aligner, etc.) and the establishment of a rigorous methodology divided into three parts. The first part, common to both objectives of the research concerns the elaboration of the corpus, the validation of the English terms and the identification of the French equivalents in the two corpora. The second part describes the criteria on which we rely to compare the equivalents of the two types of corpora. The third part sets up the typology of equivalents associated with a same English term.
The results for the first objective shows that of the 343 English words analyzed, terms with equivalents that can be criticized in both corpora are relatively low in number (12), while the number of terms with similar equivalences between the two corpora is very high (272 identical and 55 equivalents not objectionable). The analysis described in this chapter confirms our hypothesis that terminology used in parallel corpora does not differ from that used in comparable corpora.
The results of the second objective show that many English terms are rendered by several equivalents (70% of analyzed terms). It is also noted that synonyms are not the largest group of equivalents but near-synonyms. Also, equivalents from another part of speech constitute an important part of the equivalents analyzed. Thus, the typology developed in this thesis presents terminological equivalent mechanisms rarely described as systematically in previous work.
|
49 |
Étude des procédés d’explicitation dans les traductions anglais-français de textes environnementauxKalinichenko, Tetiana M. 06 1900 (has links)
S.O. / Le présent mémoire vise à faire l’étude des procédés d’explicitation dans les traductions anglais-français de textes spécialisés de l’environnement. Plus précisément, notre but est d’identifier l'éventail de ces procédés d'explicitation, de faire leur analyse, de les classifier et de proposer quelques pistes quant aux causes possibles de l’explicitation dans la traduction.
Nous présentons d’abord quelques travaux antérieurs qui ont porté sur l’explicitation dans des corpus de langue générale et dans des corpus spécialisés. Notre recherche a ceci de particulier qu’elle porte sur l’explicitation dans un corpus spécialisé, plus particulièrement dans des textes du domaine de l’environnement. L’explicitation est peu étudiée dans les textes spécialisés et, à notre connaissance, aucune étude n’a porté sur l’explicitation dans des textes environnementaux.
Pour notre recherche, nous avons élaboré d’abord un corpus de textes anglais-français portant sur l’environnement. Notre corpus a ensuite été aligné au moyen de l’aligneur LogiTerm Pro. Cet aligneur nous permet de créer un corpus aligné qui est utile pour observer les manifestations d’explicitation. Les stratégies d'explicitation identifiées et classées par Pápai (2004) ont servi de base à notre propre classement.
Nous avons découvert que les procédés d’explicitation se produisent à cinq niveaux : des relations logiques et visuelles, lexical et grammatical, syntaxiques I et II, textuel et extralinguistique. Le nombre total de procédés d’explicitation que nous avons identifiés est de 13. Le plus grand nombre de cas d’explicitations (445) se situe au niveau lexical et grammatical. Parmi les cas d’explicitations au niveau lexical et grammatical, le remplissage d’ellipses sémantiques présente le nombre le plus élevé de cas (186) dans notre corpus spécialisé. L’explicitation au niveau syntaxique I s’observe dans 173 cas; l’explicitation au niveau des relations logiques et visuelles s’observe dans 101 cas; l’explication au niveau syntaxique II a été relevée dans 50 cas. Enfin, l’explication se produit au niveau textuel et extralinguistique dans 37 cas. Après avoir observé notre corpus et d’après les résultats obtenus, nous avons pu constater que le nombre et la variété d’explicitations étaient élevés dans les traductions anglais-français de textes spécialisés environnementaux. / This work aims to study the explicitation strategies in English-French translations of specialized texts related to the field of environment. More specifically, our goal is to identify the range of these explicitation strategies, analyze and classify them. We will also offer some explanations of possible causes of explicitation in translation.
First, we present some previous work on explicitation in general language corpora and in specialized corpora. A particularity of our own research is that it focuses on explicitation in a specialized corpus, more specifically in texts in the field of environment. Explicitation has seldom been studied in specialized texts and, to our knowledge, no study focused on explicitation in environmental texts.
For our research, we compiled a corpus of English-French environment texts. Our corpus was then aligned using the aligner LogiTerm Pro. This aligner allows us to create aligned corpora that are useful to observe the linguistic instances of explicitation. The explicitation strategies identified and classified by Pápai (2004) have served as the basis for our own analysis.
We found that the explicitation strategies occur at five levels: logical and visual relations, lexical and grammatical, syntactic I and II, textual and extra-linguistic. The total number of explicitation strategies that we have identified is 13. The largest number of explicitation instances (445) occurs on the lexical and grammatical level. Among explicitation instances on the lexical and grammatical level, filling semantic ellipses present the highest number of instances (186) in our specialized corpus. Explicitation on the syntactic level I was observed in 173 instances; explicitation on the logical and visual relations level in 101 instances; explicitation on the syntactic level II was found in 50 instances. Finally, explicitation occurred on the textual and extra-linguistic level in 37 instances. After observing our corpus and according to the results obtained, we have found that the number and variety of instances of explicitation are high in English-French translations of specialized texts in the field of the environment.
|
50 |
Alignement de phrases parallèles dans des corpus bruitésLamraoui, Fethi 07 1900 (has links)
La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention
de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art.
Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de
données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%.
Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la
procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que
de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur. / Current statistical machine translation systems require parallel corpora in large quantities, and typically obtain such corpora through automatic alignment at the sentence level: a text and its translation . The alignment of parallel corpora has received a lot of attention in the eighties and is largely considered to be a solved problem in the community. We show that this is not the case and propose an alignment technique that we compare to the state-of-the-art aligners.
Our technique is simple, fast and can handle large amounts of data. It often produces
better results than state-of-the-art. We analyze the robustness of our alignment technique across different text genres and noise level. For this, our experiments are divided into two main parts. In the first part, we measure the alignment quality on BAF corpus with up to 60% of noise. In the second part, we use the Europarl corpus and revisit the alignment procedure with which it has been prepared; we show that better SMT performance can be obtained using our alignment technique.
|
Page generated in 0.0356 seconds