Global ETD Search

151	Elaboração de material didático voltado aos alunos de inglês para os negócios com base na linguística de corpus Rampaso, Marianne 24 November 2016 (has links) Submitted by Filipe dos Santos (fsantos@pucsp.br) on 2016-12-06T18:31:12Z No. of bitstreams: 1 Marianne Rampaso.pdf: 2219129 bytes, checksum: 43a76101d3a068a312f002d3a4e9f002 (MD5) / Made available in DSpace on 2016-12-06T18:31:12Z (GMT). No. of bitstreams: 1 Marianne Rampaso.pdf: 2219129 bytes, checksum: 43a76101d3a068a312f002d3a4e9f002 (MD5) Previous issue date: 2016-11-24 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This study aimed at developing corpus-based teaching materials for Business English students in a private one-to-one class setting. We analyzed the Business English Corpus (Nelson, 2000) in order to find out the most distinctive lexicogramatical and semantic features in Business English area, including both a Sinclairean style analysis of collocations (Sinclair, 1991) and a Biberean style multidimensional analysis of the various registers represented in the corpus (Biber,1988). The theoretical framework for the research was based on Corpus Linguistics, which is an area that is devoted to the study of the language in use through principled collections of spoken and written texts stored on computer (BERBER SARDINHA, 2004; 2009, 2011). In addition,the theoretical framework also included insights on how to use corpora in language teaching from Sinclair (1991; 2004a; 2004b), Johns (1991), Berber Sardinha (2011) and Biber (1988;1999).These insights refer to the exploration of corpora in language teaching through the identification and analysis of lexicogramatical patterns of the language in use and the identification of the lexicogramatical and semantic features in the registers. The results of the corpus analysis showed a great variety of language patterns across the Business English registers. A selection of the patterns found was used in the development of teaching materials, which were then used in class with a particular student. The use of the materials was tracked and documented in a journal, which was later analyzed through a Content Analysis (Bardin, 1977), thereby revealing some of the major ways in which the student and the teacher both interacted with each other and with the materials. The interpretation of this interaction shed new light on how corpora can be used for English language teaching in general and for one-to-one tuition in Business English / Esta pesquisa teve como objetivo principal a elaboração de material didático baseado em corpus voltado aos alunos de inglês para os negócios (IN) em um contexto de aulas particulares individuais. Realizamos a análise do Business English Corpus- BEC (Nelson, 2000) a fim de descobrirmos as características lexicogramaticais e semânticas mais salientes no contexto de IN, incluindo tanto a análise de colocações na perspectiva de Sinclair (1991) quanto na perspectiva da Análise Multidimensional dos vários registros representados no corpus (Biber,1988). Para tanto, encontramos suporte teórico principal na Linguística de Corpus, uma área que se ocupa do estudo da língua em uso através de coletâneas de textos escritos e de transcrição de fala armazenados em computador (BERBER SARDINHA, 2004; 2009, 2011). O arcabouço teórico desta pesquisa também incluiu percepções sobre como utilizar os corpora no ensino através das propostas de Sinclair (1991; 2004a; 2004b), Johns (1991), Berber Sardinha (2011) e Biber (1988;1999). Estas percepções são referentes à exploração de corpora no ensino de línguas por meio da identificação e análise de padrões lexicogramaticais da língua em uso e da identificação das características lexicogramaticais e semânticas dos registros. Os resultados da análise do corpus mostraram que há uma grande variedade de padrões de linguagem referentes aos registros de IN. Uma seleção dos padrões encontrados foi utilizada no desenvolvimento de materiais de ensino, que foram usados em sala com um aluno particular. A utilização dos materiais foi acompanhada e documentada em um diário reflexivo, que foi, posteriormente, analisado à luz da Análise de Conteúdo (Bardin, 1977), revelando, dessa forma, como professora e aluno interagiram um com o outro e com os materiais. A interpretação de tal interação ampliou a compreensão sobre como os corpora podem ser usados no ensino de língua inglesa em geral e no ensino de IN na modalidade de aulas particulares individuais Linguística de corpus Inglês para os negócios Corpus Linguistics Teaching of English Foreign Language and Business English
152	A incidência do princípio idiomático e do princípio da escolha aberta na produção escrita de alunos brasileiros de inglês como língua estrangeira Gil, Cristina Borges 16 March 2017 (has links) Submitted by Filipe dos Santos (fsantos@pucsp.br) on 2017-03-23T13:09:34Z No. of bitstreams: 1 Cristina Borges Gil.pdf: 4736864 bytes, checksum: cc77f5e1e500d6c09793301a52d46456 (MD5) / Made available in DSpace on 2017-03-23T13:09:34Z (GMT). No. of bitstreams: 1 Cristina Borges Gil.pdf: 4736864 bytes, checksum: cc77f5e1e500d6c09793301a52d46456 (MD5) Previous issue date: 2017-03-16 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The aim of this research is to find evidence of both the idiom principle and the open-choice principle in the written production of Brazilian students of English as a foreign language. The theoretical basis of this study is Corpus Linguistics, an area which supports the research and the study of language in use, and which is based on the view of language as a probabilistic system. Sinclair (1991, 2004) sees language as a probabilistic system with two complementary principles: the idiom principle and the open-choice principle. The idiom principle has to do with the use of sequence of words which are at least partly prefabricated and that are appropriate in a given context. The open-choice principle is a way of seeing the language in which the only restriction to lexical choices is grammaticalness. The methodology consisted of the collection of a written corpus of Brazilian students of English as a foreign language and the subsequent analysis of all the sequences of words used in each text of the corpus. This procedure, known as ‘collocation tracking’, was introduced by Berber Sardinha (2014a). The findings point out that the two principles coexist in the texts as proposed by Sinclair. In addition, they also reveal nuances in the principles described by him in the written production of the learners. We called them idiom principle I and II, and open-choice principle I and II. The study presented here intended to have made an original contribution to Corpus Linguistics and to the study of Learner Corpora as it carried out a descriptive investigation of learner language and observed variant forms of the principles which are not found in texts written by educated native speakers / Esta pesquisa tem como objetivo principal detectar indícios do princípio idiomático e do princípio da escolha aberta na produção escrita de alunos brasileiros em inglês como língua estrangeira. A base teórica desta investigação é a Linguística de Corpus, uma área que proporciona a pesquisa, o estudo e a exploração da língua em uso e que se baseia na visão probabilística da linguagem. Sinclair (1991, 2004) considera a linguagem como sistema probabilístico a partir de dois princípios complementares: o idiomático e o da escolha aberta. O princípio idiomático diz respeito ao uso de sequências de palavras que são, pelo menos em parte, pré-fabricadas e adequadas para o contexto no qual se inserem. Já o princípio da escolha aberta diz respeito ao uso de sequências de palavras que seguem o modelo abertura-e-enchimento, combinadas a partir de regras gramaticais. A metodologia consistiu da coleta de um corpus de escrita de aprendizes brasileiros de inglês e do subsequente exame de todas as sequências de palavras de cada um dos textos do corpus, comparando-as com um corpus de referência representativo da língua em questão, o inglês. Esse procedimento, conhecido por rastreamento de colocações, foi introduzido por Berber Sardinha (2014a). A análise dos resultados indicou que os dois princípios coexistem nos textos analisados, como aventado por Sinclair (1991). Além disso, também revelou que há nas redações dos aprendizes nuances nos dois princípios propostos por Sinclair (1991), que denominamos princípio idiomático tipo I e II, e princípio da escolha aberta tipo I e II. A pesquisa pretende dar uma contribuição original à Linguística de Corpus, assim como à Linguística de Corpus de Aprendiz, à medida que foi realizada uma investigação descritiva da linguagem do aprendiz baseada em corpora e observado variantes dos princípios nos textos dos aprendizes que não se encontram em textos de falantes nativos letrados da língua Linguística de corpus Princípio idiomático Corpus linguistics Learner corpora Idiom principle
153	A linguagem dos reality TV shows norte-americanos: análise e classificação Araújo, Rafael Fonseca de 30 March 2017 (has links) Submitted by Filipe dos Santos (fsantos@pucsp.br) on 2017-04-06T12:50:58Z No. of bitstreams: 1 Rafael Fonseca de Araújo.pdf: 9767748 bytes, checksum: 9ba35e483f432ff6315a1d92099ab469 (MD5) / Made available in DSpace on 2017-04-06T12:50:58Z (GMT). No. of bitstreams: 1 Rafael Fonseca de Araújo.pdf: 9767748 bytes, checksum: 9ba35e483f432ff6315a1d92099ab469 (MD5) Previous issue date: 2017-03-30 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / This thesis presents a Multi-dimensional (MD) analysis (Biber, 1988 et seq.) of a Corpus of American Reality TV Shows (CARTS). Reality television can be described as unscripted television shows with non-professional actors being observed by cameras in preconfigured environments (Kavka, 2012) and despite of being a relatively new TV genre is a cornerstone of contemporary US television programming, since according to some critics it has remade television culture (Murray and Quellette 2004). The major goal of the study was to provide a lexical-grammatical description of the verbal language of Reality TV shows by investigating a corpus of 780 texts taken from 39 popular American Reality TV shows, totaling over 6 million tokens. The specific goals were to compare CARTS against the four dimensions of general English register variation as well as against the five dimensions of American television register variation (Berber Sardinha;; Veirano Pinto, in press). CARTS texts were classified into four main program types (Competition, Documentary, Talent and Professional, and Transformation) and into 13 sub-program types, namely, celebrities, dating, gamedoc, docusoap, hidden cameras, reality sitcoms, business, cooking, fashion, performing, expert guidance, self-improvement and social experimental. The corpus was balanced so that each major category had the same number of texts. CARTS was tagged for part of speech with the Biber Tagger and analyzed by the Bibber Tag Count which calculated the normalized frequencies of the 128 linguistics features considered in the research. The results present the additive MD analysis by showing how reality TV shows are similar or different from others spoken and written English registers (from Biber seminal 1988 study), as well as how the various manifestations of Reality TV compare to television registers on US. Since there is no precedent for studies within Corpus Linguistics dedicated to researching the lexical-grammatical profile of Reality TV Shows in a multidimensional perspective, this research intends to fill this gap / O presente trabalho apresenta uma Análise Multidimensional (BIBER, 1988 et seq.) do Corpus of American Reality TV Shows (CARTS). Reality TV shows podem ser descritos como programas de televisão sem roteiro, com atores não profissionais sendo observados por câmeras em ambiente pré-configurados (KAVKA, 2012) e apesar de ser um gênero de televisão relativamente novo é considerado um marco na programação da televisão nos EUA, uma vez que reinventou a cultura da televisão (MURRAY e QUELLETTE, 2004). O principal objetivo do estudo é fornecer uma descrição dos padrões léxico-gramaticais da linguagem verbal dos Reality TV shows. Os objetivos específicos foram comparar o CARTS com as cinco principais dimensões de variação da Língua Inglesa (BIBER, 1988 et seq.), bem como em contraste com as quatro dimensões de variação de registro da televisão norte-americana (BERBER SARDINHA e VEIRANO PINTO, no prelo). O CARTS é formado por 780 textos extraídos de 39 reality TV shows norte-americanos populares, totalizando cerca de 6 milhões de palavras. Os textos do corpus foram classificados em quatro principais categorias Competição, Documentário, Talento e Profissão, e Transformação que, por sua vez, foram subdivididas em 13 subcategorias nomeadas: celebridades, namoro, jogo-documentário, novela-documentário, câmeras escondidas e portáteis, reality sitcom, business, culinária, moda, artistas de palco, orientação de especialistas, melhoria pessoal e experimento social. O corpus foi balanceado para que cada categoria tivesse a mesma quantidade de textos, etiquetado gramaticalmente com o Biber Tagger e processado pelo Biber Tag Count que calcula a frequência normalizada das 128 variáveis linguísticas consideradas no estudo. Os resultados da Análise Multidimensional demonstram como os reality TV shows se assemelham ou se diferenciam dos demais registros da Língua Inglesa propostos por Biber (1988) em seu estudo seminal, tal como as várias manifestações de Reality TV se comparam aos registros da televisão norte-americana. Uma vez que não há precedentes de estudos, dentro da Linguística de Corpus, dedicados à investigação do perfil léxico- gramatical dos reality TV shows em uma perspectiva multidimensional, a presente pesquisa pretende preencher esta lacuna Reality-Shows (Programas de televisão) Reality TV shows norte-americanos Linguística de corpus Corpus of American Reality TV Shows Corpus linguistics
154	Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil DOMINGUES, Miriam Lúcia Campos Serra 21 October 2011 (has links) Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T13:27:50Z No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T13:28:30Z (GMT) No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-01T13:28:30Z (GMT). No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2011 / A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável. / Part-of-speech tagging is a basic task required by many applications of natural language processing, such as parsing and machine translation, and by applications of speech processing, for example, speech synthesis. This task consists of tagging words in a sentence with their grammatical categories. Although these applications require taggers with greater precision, the state of the art taggers still achieved accuracy of 96 to 97%. In this thesis, corpus and software resources are investigated for the development of a tagger with accuracy above of that of the state of the art for the Brazilian Portuguese language. Based on a hybrid solution that combines probabilistic tagging with rule-based tagging, the proposed thesis focuses on an exploratory study on the tagging method, size, quality, tag set, and the textual genre of the corpora available for training and testing, and evaluates the disambiguation of new or out-of-vocabulary words found in texts to be tagged. Four corpora were used in experiments: CETENFolha, Bosque CF 7.4, Mac-Morpho, and Selva Científica. The proposed tagging model was based on the use of the method of transformation-based learning (TBL) to which were added three strategies combined in a architecture that integrates the outputs (tagged texts) of two free tools, Treetagger and -TBL, with the modules that were added to the model. In the tagger model trained with Mac-Morpho corpus of journalistic genre, tagging accuracy rates of 98.05% on Mac-Morpho test set and 98.27% on Bosque CF 7.4 were achieved, both of journalistic genres. The performance of the proposed hybrid model tagger was also evaluated in the texts of Selva Científica Corpus, of the scientific genre. Needs of adjustments in the tagger and in corpora were identified and, as result, accuracy rates of 98.07% in Selva Científica, 98.06% in the text set of Mac-Morpho, and 98.30% in the texts of the Bosque CF 7.4 have been achieved. These results are significant because the accuracy rates achieved are higher than those of the state of the art, thus validating the proposed model to obtain a more reliable part-of-speech tagger. Etiquetagem morfossintática Linguística computacional Linguística de corpus
155	Fraseologia jurídico-comercial e proposta de um glossário de colocações especializadas trilíngue baseado em corpus / Legal-commercial phraseology and a proposal of a corpus-based trilingual glossary of specialized collocations Rocha, Jean Michel Pimentel [UNESP] 17 February 2017 (has links) Submitted by Jean Michel Pimentel Rocha null (jeanpimentel_sp@yahoo.com.br) on 2017-03-13T00:13:35Z No. of bitstreams: 1 Dissertação de Mestrado - Jean Michel Pimentel Rocha.pdf: 7641896 bytes, checksum: 2633c2aa0b97f8ba1b6073618c876b12 (MD5) / Approved for entry into archive by LUIZA DE MENEZES ROMANETTO (luizamenezes@reitoria.unesp.br) on 2017-03-17T15:07:10Z (GMT) No. of bitstreams: 1 rocha_jmp_me_sjrp.pdf: 7641896 bytes, checksum: 2633c2aa0b97f8ba1b6073618c876b12 (MD5) / Made available in DSpace on 2017-03-17T15:07:10Z (GMT). No. of bitstreams: 1 rocha_jmp_me_sjrp.pdf: 7641896 bytes, checksum: 2633c2aa0b97f8ba1b6073618c876b12 (MD5) Previous issue date: 2017-02-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Esta pesquisa, ancorada no aporte teórico da Linguística de Corpus e da Fraseologia, áreas cujo diálogo tem possibilitado a descrição e análise de padrões linguísticos, em especial os lexicais, a partir de corpora, teve por objetivo desenvolver um estudo teórico-metodológico acerca dos procedimentos necessários ao levantamento e à análise sintático-morfológica, léxico-semântica e tradutológica das colocações especializadas extraídas do corpus paralelo, em inglês e em espanhol, constituído pelos anuários (1968-2010) da UNCITRAL (Comissão das Nações Unidas para o Direito do Comércio Internacional); e de dois corpora comparáveis em português: um compilado pela ferramenta BootCat Front End (ZANCHETTA; BARONI; BERNARDINI, 2011) e, outro, pela coleta de textos online da área do Direito Comercial Internacional. Com base neste estudo, determinamos as colocações funcionalmente equivalentes (TOGNINI-BONELLI; MANCA, 2004) em português e elaboramos uma proposta de glossário trilíngue nas direções tradutórias inglês>espanhol>português, na área supracitada. Extraímos cerca de 200 bases candidatas a integrar o glossário, orientando-nos pelo método N-gram/cluster analysis e cooccurrence analysis (GRANGER, PAQUOT, 2008), mais especificamente, pela utilização das ferramentas Concord, Keywords e Wordlist do programa WordSmith Tools (SCOTT, 2012). Dessas, elegemos a base contract como modelo de análise a ser aplicada às demais. As colocações que dela se desdobram, estruturam-se, do ponto de vista sintático-morfológico, em colocações nominais, adjetivais e verbais. Quanto aos aspectos léxico-semânticos e tradutológicos, observamos muitos casos de variação colocacional, principalmente, nos níveis lexical e morfossintático, ora estruturando-se em um sintagma preposicionado ora em um sintagma nominal. Notamos, ainda, colocações, nas línguas portuguesa e espanhola, que apresentaram empréstimos em pelo menos um de seus constituintes. Além disso, há um grande número de colocações com similaridade ortográfica entre as línguas. Em nossas análises, defendemos que as colocações especializadas e suas variantes lexicais não podem ser perfeitamente sinônimas, já que não podemos afirmar categoricamente que uma substitui a outra em qualquer contexto. Conforme os dados analisados, as colocações especializadas podem estabelecer entre si uma relação parassinonímica, isto é, compartilham semas em comum. Argumentamos, também, que há uma relação de equivalência funcional entre as colocações descritas nos idiomas investigados, considerando que elas permeiam o léxico jurídico-comercial de línguas distintas, fruto de distintas tradições linguístico-culturais, o que pode acarretar mudanças de significado, por vezes sutis, que não permitem entendê-las como totalmente equivalentes. A pesquisa que se apresenta é de relevância para a fraseologia jurídico-comercial, pois a descrição dos padrões sintagmáticos, léxico-semânticos e tradutológicos das colocações pode auxiliar no reconhecimento das características linguísticas da área, visto que poucos são os trabalhos desenvolvidos, especialmente em relação às colocações especializadas e colocações especializadas estendidas. Ademais, o resultado prático, isto é, a proposta de glossário de colocações, poderá trazer contribuições aos tradutores, aprendizes e demais interessados na tradução e redação de documentos nas línguas estudadas. / This research, anchored in the theoretical background of Corpus Linguistics and Phraseology, areas whose dialogue has enabled descriptions and analysis of linguistic patterns, especially the corpus-based lexical ones, aimed at the development of a theoretical and methodological study on the necessary procedures for the extraction, syntactic-morphological, lexical-semantic and translational analysis of specialized collocations from a parallel corpus in English and Spanish, consisting of the UNCITRAL (United Nations Commission on International Trade Law) yearbooks (1968 – 2010); and from two comparable corpora in Portuguese: one of them compiled using the BootCat Front End tools (ZANCHETTA; BARONI; BERNARDINI, 2011) and the other one by collecting online texts from the field of International Trade Law. On the basis of that, we determined the functionally equivalents collocations (TOGNINI-BONELLI; MANCA, 2004) in Portuguese and elaborated a proposal for a trilingual glossary in the translation directions English>Spanish>Portuguese in the above area. We extracted about 200 bases candidates to be included in the glossary entries, guided by the N-gram/cluster and cooccurrence analysis methods (GRANGER, PAQUOT, 2008), more specifically, by the use of the tools Concord, Keywords and Wordlist of the software WordSmith Tools (SCOTT, 2012). Among the 200 extracted candidates, we chose the base contract as an analytical model to be applied to the others. The collocations of this base are structured, from a syntactic-morphological point of view, in nominal, adjectival and verbal collocations. Regarding the lexical-semantic and translational aspects, there are several cases of collocational variation. They vary mainly in the lexical and morphosyntactic levels and are structured in prepositional and noun phrases. We also observed collocations, in Portuguese and Spanish, which have words borrowed from English in at least one of its constituents. In addition, there are a large number of collocations which have orthographic similarities among the languages. In our analysis, we defend that specialized collocations and its lexical variants cannot be seen as perfect synonyms, since we cannot state categorically that one can replace the other in any context. According to the data, specialized collocations may establish among themselves a parasynonymic relationship, that is, they share semes in common. We also argue that there may be a functionally equivalence among the collocations described, considering the fact that they involve the legal and commercial lexicon of distinct languages, resulted from distinct linguistic and cultural traditions, which can entail changes, even though subtle, in their meanings that cannot allow us to understand them as fully equivalents. The research presented is relevant to the legal and commercial phraseology, as the description of syntagmatic and lexical-semantic patterns as well as translational aspects of collocations can aid in the recognition of linguistic features of the area, since there are few works developed, especially regarding specialized and extended collocations. Moreover, its practical outcome, that is, the glossary proposal can also bring contributions to translators, learners and other interested parties in the translation and editing of documents in the languages studied. Direito comercial internacional Linguística de corpus Fraseologia Colocações especializadas Glossário de colocações trilíngue International trade law Corpus linguistics Phraseology Specialized collocations Trilingual glossary of collocations
156	Arquitetura de um dicionário: modelo lexicográfico eletrônico pedagógico bilíngue italiano-português para aprendizes brasileiros / Architecture of a dictionary: Italian-Portuguese bilingual pedagogic electronic lexicographical model for Brazilian learners Cristina Fioretti 07 December 2012 (has links) O principal objetivo desta dissertação é a elaboração da arquitetura de um dicionário eletrônico off-line em CD-ROM, pedagógico, bilíngue italiano-português, para aprendizes brasileiros adultos. Iniciando-se pela representatividade lexical nos dicionários, procurou-se abordar os critérios de eleição dos corpora de base em sua preparação e a consequente seleção de verbetes, indicativos do público-alvo destes dicionários. Após esta introdução ilustrativa feita com exemplos reais de escolhas lexicais no decorrer da história dos dicionários monolíngues e bilíngues na esfera da língua italiana e portuguesa, enfatizaram-se o valor da língua oral para os aprendizes bem como as recentes pesquisas nesta direção. No âmbito da lexicografia crítica, fez-se necessária a criação de uma metodologia de análise apropriada, aplicada a diferentes dicionários existentes, principalmente aos que utilizam mídias eletrônicas, elaborando-se formulários específicos com vistas à padronização e otimização deste processo de avaliação, e à criação de futuros produtos lexicográficos. A princípio tais formulários foram elaborados como um meio para se alcançar o objetivo final, mas acabaram se transformando naturalmente em uma nova meta criativa. O alcance da verificação foi sendo ampliado para que se pudesse catalogar qualquer dicionário, principalmente quanto às suas informações gerais, macroestrutura, microestrutura (denominadas aqui preferencialmente macroarquitetura e microarquitetura), e possibilidades e recursos oferecidos pelo formato eletrônico. A partir destes resultados, sugere-se uma proposta do modelo teórico selecionado, apresentado na forma de telasexemplo para CD-ROM, considerando-se que a estrutura digital seja uma ferramenta imprescindível à didática do ensino de línguas estrangeiras. / This dissertation\'s main objective is the development of the architecture of an off-line pedagogic, bilingual Italian-Portuguese electronic dictionary on CD-ROM for Brazilian adult learners. Starting at the lexical representation in dictionaries, it was sought to address their base corpora selection criteria and subsequent entry selection, indicative of their target audience. After this illustrative introduction made with real examples of lexical choices in the course of the history of monolingual and bilingual dictionaries for Italian and Portuguese language, emphasis was given to the value of oral language to learners, as well as the recent research in this field. As part of the critical lexicography, it was necessary to create an appropriate methodology of analysis applied to various existing dictionaries, especially to those using electronic media, and to develop specific forms having in view the standardization and optimization of this evaluation process and the creation of future lexicographical \'products\'. At first these forms were prepared as a way to achieve the ultimate goal, but eventually it naturally became a new creative aim. The scope of the verification was expanded so that one could categorize any dictionary, especially regarding its general information, macrostructure, microstructure (preferably called here \'macroarchitecture\' and \'microarchitecture\'), and the resources and possibilities offered by electronic format. From these results, it is suggested a proposal of the selected theoretical model, presented as example-screens for CD-ROM, considering that the digital infrastructure is an indispensable tool to the didactic teaching of foreign languages. Dicionário eletrônico Lexicografia crítica Lexicografia pedagógica Linguística de corpus Corpus linguistics Critical lexicography Electronic dictionary Italian-portuguese bilingual dictionary Pedagogic lexicography
157	Práticas integrativas e complementares: análise de corpora e glossário bilíngue português/inglês para tradutores / Complementary and Integrative Practices: corpora analysis and bilingual glossary Portuguese/English for translators Luana Mara Almeida Teixeira 08 December 2017 (has links) A busca por saúde e bem-estar é intrínseca ao ser humano. Além da medicina convencional ou alopática, existem numerosas modalidades terapêuticas consideradas parte da Medicina Complementar e Alternativa (MCA). No Brasil, essas terapias foram chamadas Práticas Integrativas e Complementares (PIC), definidas pela Portaria nº 971, de 3 de maio de 2006 do Ministério da Saúde. Embora sejam amplamente utilizadas com apoio da Organização Mundial da Saúde, faltam materiais de suporte aos tradutores sobre esse tema. Dessa forma, procuramos desenvolver um glossário bilíngue português brasileiro/inglês britânico dessa área de especialidade, por meio da compilação de corpora comparáveis nos dois idiomas, escolhendo textos representativos sobre essa temática. Para a realização desse trabalho, utilizamos como referenciais teóricos a Linguística de Corpus e a Terminologia Bilíngue. Como ferramenta computacional usamos o WordSmith Tools. Após a compilação dos corpora, utilizando artigos acadêmicos, livros, textos de sites institucionais e legislação, examinamos a linguagem utilizada na área de PIC e extraímos os termos pertinentes à pesquisa por meio de uma análise quantitativa e qualitativa. Verificamos a ocorrência de termos simples, compostos, complexos e siglas. Em seguida, buscamos os equivalentes em língua inglesa para os termos selecionados. Nem todos os equivalentes foram encontrados no corpus em inglês, portanto, realizamos nova busca usando a web como corpus. Explicitamos a macroestrutura e a microestrutura propostas e apresentamos a primeira versão do glossário, com exemplos de contextos de uso autêntico em ambos os idiomas. Propusemo-nos também a buscar os equivalentes em inglês para uma terapia desenvolvida no Brasil cuja terminologia ainda não tivesse sido vertida para o inglês. Foi escolhida a terapia floral baseada na alquimia, da qual elaboramos um corpus, extraímos os termos mais representativos e buscamos os equivalentes em inglês por meio de pesquisas pontuais. Elaboramos um glossário ilustrado de plantas utilizadas na produção das essências florais utilizadas nessa terapia. Esperamos contribuir com um material de apoio inicial aos tradutores da área de PIC, além de incentivar o desenvolvimento de novas pesquisas sobre essa lingua de especialidade. / The search for health and well-being is intrinsic to the human being. In addition to conventional or allopathic medicine, there are numerous therapeutic modalities considered part of Complementary and Alternative Medicine (CAM). In Brazil, these therapies are called Complementary and Integrative Practices (CIP), defined by Ministry of Health Ordinance No. 971 of May 3, 2006. Although widely used with support from the World Health Organization, there is a lack of reference terminological materials for translators on this topic. Thus, we seek to develop a Brazilian Portuguese/British English bilingual glossary of this area of expertise, by compiling comparable corpora in both languages, choosing representative texts on this topic. In order to carry out this work, we used as theoretical references Corpus Linguistics and Bilingual Terminology. As a computational tool we used WordSmith Tools. After the compilation of corpora, using academic articles, books, texts of institutional websites and legislation, we examined the language used in the area of CIP and extracted the related terms to the research through a quantitative and qualitative analysis. We verified the occurrence of simple terms, compound terms, complex terms and acronyms. Next, we searched for English equivalents of the selected terms. Not all of the equivalents were found in the English corpus, so we performed a new search using the web as a corpus. Then, we explained the proposed macrostructure and microstructure and presented the first version of the glossary, with examples of contexts of authentic use in both languages. We also proposed to seek equivalents in English for a therapy developed in Brazil whose terminology had not yet been translated into English. Alchemy based flower essences therapy was chosen, from which we developed a corpus, extracted the most representative terms and searched for equivalents in English through a one-on-one research. We developed an illustrated glossary of plants used in the production of the flower essences used in this therapy. We hope to contribute an initial reference material to translators in the area of CIP, as well as encouraging the development of new research on this specialized language. Florais Linguística de corpus Medicina complementar e alternativa Práticas Integrativas e Complementares Terminologia bilíngue Bilingual terminology Complementary and alternative medicine Complementary and Integrative Practices Corpus linguistics Flower essences
158	eDictor: da plataforma para a nuvem / eDictor: from platform to the cloud Luiz Henrique Lima Veronesi 04 February 2015 (has links) Neste trabalho, apresentamos uma nova proposta para edição de textos que fazem parte de um corpus eletrônico. Partindo do histórico de desenvolvimento do corpus Tycho Brahe e da ferramenta eDictor, propõe-se a análise de todo o processo de trabalho de criação de um corpus para obter uma forma de organização da informação mais concisa e sem redundâncias, através do uso de um único repositório de informações contendo os dados textuais e morfossintáticos do texto. Esta forma foi atingida através da criação de uma estrutura de dados baseada em unidades mínimas chamadas tokens e blocos de unidades chamados chunks. A relação entre os tokens e os chunks, da forma como considerada neste trabalho, é capaz de guardar a informação de como o texto é estruturado em sua visualização (página, parágrafos, sentenças) e na sua estrutura sintática em árvores. A base de análise é composta por todos os arquivos pertencentes ao catálogo de textos do corpus Tycho Brahe. Através desta análise, foi possível chegar a elementos genéricos que se relacionam, desconstruindo o texto e criando uma relação de pontos de início e fim relativos às palavras (tokens) e não seguindo sua forma linear. A introdução do conceito de orientação a objetos possibilitou a criação de uma relação entre unidades ainda menores que o token, os split tokens que também são tokens, pois herdam as características do elemento mais significativo, o token. O intuito neste trabalho foi buscar uma forma com o menor número possível de atributos buscando diminuir a necessidade de se criar atributos específicos demais ou genéricos de menos. Na busca deste equilíbrio, foi verificada a necessidade de se criar um atributo específico para o chunk sintático, um atributo de nível que indica a distância de um nó da árvore para o nó raiz. Organizada a informação, o acesso a ela se torna mais simples e parte-se para definição da interface do usuário. A tecnologia web disponível permite que elementos sejam posicionados na tela reproduzindo a visualização que ocorre no livro e também permite que haja uma independência entre um e outro elemento. Esta independência é o que permite que a informação trafegue entre o computador do usuário e a central de processamento na nuvem sem que o usuário perceba. O processamento ocorre em background, utilizando tecnologias assíncronas. A semelhança entre as tecnologias html e xml introduziu uma necessidade de adaptação da informação para apresentação ao usuário. A solução apresentada neste trabalho é pensada de forma a atribuir aos tokens informações que indiquem que eles fazem parte de um chunk. Assim, não seriam as palavras que pertencem a uma sentença, mas cada palavra que possuiria um pedaço de informação que a faz pertencente à sentença. Esta forma de se pensar muda a maneira como a informação é exibida. / In this work, we present a new proposal for text edition organized under an electronic corpus. Starting from Tycho Brahe corpus development history and the eDictor tool, we propose to analyze the whole work process of corpus creation in order to obtain a more concise and less redudant way of organizing information by using a single source repository for textual and morphosyntactic data. This single source repository was achieved by the creation of a data structure based on minimal significative units called tokens and grouping units named chunks. The relationship between tokens and chunks, in the way considered on this work, allows storage of information about how the text is organized visually (pages, paragraphs, sentences) and on how they are organized syntactically as represented by syntactic trees. All files referred to the Tycho Brahe corpus catalog were used as base for analysis. That way, it was possible to achieve generic elements that relate to each other in a manner that the text is deconstructed by using relative pointers to each token in the text instead of following the usual linear form. The introduction of oriented-object conception made the creation of relationship among even smaller units possible, they are the split tokens, but split tokens are also tokens, as they inherit characteristics from the most significative element (the token). The aim here was being attributeless avoiding the necessity of too specific or too vague attributes. Looking for that balance, it was verified the necessity of creating a level attribute for syntactic data that indicates the distance of a tree node to its root node. After information is organized, access to it become simpler and then focus is turned to user-interface definition. Available web technology allows the use of elements that may be positioned on the screen reproducing the way the text is viewed within a book and it also allows each element to be indepedent of each other. This independence is what allows information to travel between user computer and central processing unit at the cloud without user perception. Processing occurs in background using asynchronous technology. Resemblance between html and xml introduced a necessity of adaption to present the information to the user. The adopted solution in this work realizes that tokens must contain the information about the chunk to which they belong. So this is not a point of view where words belong to sentences, but that each word have a piece of information that make them belong to the sentence. This subtile change of behavioring changes the way information is displayed. Arquitetura web Corpus anotado Corpus eletrônico Edição filológica digital Linguística computacional Linguística de corpus Annotated corpus Computational linguistics Corpus linguistics Electronic corpus Philological digital edition Web architecture
159	Análise morfossintática das construções-Wh no português falado em Cabo Verde / Morphosyntactic analysis of the Wh-constructions in the Portuguese spoken in Cape Verde Francisco João Lopes 04 May 2017 (has links) Esta Tese, intitulada Análise morfossintática das construções-Q no português falado em Cabo Verde (PCV), consiste na primeira descrição e análise morfossintática do grupo de construções denominada na literatura como construções-Wh e seus respectivos subgrupos construções relativas, interrogativas-Wh e construções clivadas no português falado em Cabo Verde (doravante PCV). A descrição e análise apresentadas são: (i) feitas a partir de um conjunto de corpora inéditos, coletados durante três trabalhos de campo, realizados de acordo com as técnicas da linguística de campo; e (ii) embasadas na Teoria da Gramática, sob a perspectiva minimalista de derivação por fases phases (CHOMSKY, 1995, 2000, 2001, 2005, 2008). Os resultados obtidos corroboram a proposta inicial de que: (i) os falantes caboverdianos possuem diferentes graus de competência linguística em PCV. Esta variedade linguística ainda que não língua primeira dos caboverdianos, entra para vida destes, ainda que apenas nas competências auditiva e perceptiva, desde a primeira infância; (ii) o processo de educação formal desenvolve, posteriormente, as competências leitura e escrita, buscando aproximar a gramática do PCV da do Português Europeu, em um processo que gera resultados diferentes, a nível individual, dependendo do grau de uso do PCV pelo falante caboverdiano; (iii) a análise das construções-Wh corroboram o PCV como uma variedade autóctone da língua portuguesa em formação, em estreita relação de contato linguístico e cuja origem pode ser traçada como sendo concomitante ao crioulo caboverdiano (doravante CCV); (iv) nos aspectos gramaticais em que o PCV se diverge do PE, ainda que convergentes com o CCV, não podem ser tomadas, categoricamente, como casos de transferências do CCV para o PCV, pois tais fenômenos são observados também em outras variedades da língua portuguesa no mundo. Na parte de análise são apresentadas propostas derivacionais para as relativas, interrogativas-Wh e construções clivadas. No que diz respeito às clivadas, é feita uma proposta derivacional monoclausal, que consiste na reformulação da proposta apresentada por um grupo de pesquisadores que divergem da proposta tradicional que se vê na literatura para esse tipo de sentenças. / This Thesis, entitled \"Morphosyntactic analysis of the Wh-constructions in the Portuguese spoken in Cape Verde (PCV)\", consists of the first morphosyntactic description and analysis of a group of construction called Wh-construction in the literature and their subgroups relative constructions, Wh-interrogatives and cleft constructions in the Portuguese spoken in Cape Verde Islands (hereinafter PCV). The analysis and description presented are: (i) done from a set of an original group of corpora collected during three field works, carried out in accordance with the techniques of field linguistics; and (ii) based on Grammar Theory, under the minimalist perspective of derivation by phases - (Chomsky, 1995, 2000, 2001, 2005, 2008). The results obtained corroborate the initial proposal that: (i) the Cape Verdean speakers present different degrees of linguistic competence in PCV. This linguistic variety, although not the first language of the Cape Verdeans, enters their lives, although only in the auditory and perceptive skills, from early childhood; (ii) the formal education process later develops the reading and writing skills, aiming to bring the grammar of the PCV closer to European Portuguese, in a process that generates different results at the individual level, depending on the degree of use of the PCV by the Cape Verdean speaker; (iii) The analysis of the Wh-constructions corroborate the PCV as an autochthonous variety of the Portuguese language in formation, in close relation of linguistic contact and whose origin can be traced as concomitant with that of the CCV; (iv) with regards to the grammatical aspects in which the PCV diverges from the Europiam Portuguese, although convergent with the CVC, cannot be taken categorically as cases of \'transfer\' from the CCV to the PCV, since such phenomena are also observed in other varieties of the Portuguese language in the world. In the part of analysis are presented derivational proposals for the relative, interrogatives-Wh and cleft constructions. With regard to the clefts, a derivational monoclausal proposal is made, which consists of the reformulation of the proposal presented by a group of researchers that diverge from the traditional proposal that is seen in the literature for this type of sentences. Análise morfossintática Construções-Wh Contato linguístico Linguística de corpus Português falado em Cabo Verde Language acquisition Linguistic contact Morphosyntactic analysis The Portuguese spoken in Cape Verde Wh-Constructions
160	Linguística de corpus e autenticidade de livros didáticos: o caso do português como língua estrangeira (PLE) Ferreira, Telma de Lurdes São Bento 13 September 2010 (has links) Made available in DSpace on 2016-04-28T18:22:10Z (GMT). No. of bitstreams: 1 Telma de Lurdes Sao Bento Ferreira.pdf: 1966548 bytes, checksum: 4927002dcad2829f0a024191c2c1990d (MD5) Previous issue date: 2010-09-13 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This study aims to show the results of an analysis of a textbook, of which I am coauthor, for the teaching of Portuguese as a Foreign Language (PFL) (Fernandes et al., 2008). The main aim of the research was the investigation of indicative aspects of authenticity in the teaching material analyzed, starting from the premise that even non-authentic texts may show characteristic elements of authenticity, and that these elements can be detected using the methods from Corpus Linguistics. As such, this research is based on Corpus Linguistics and the concepts of authenticity (Berber Sardinha, 2007; Nunan, 1989), idiomaticity (Sinclair, 1991), and lexical bundles (Biber et al., 1999). We developed and applied a methodology for identification of authenticity in corpora that, in summary, is based on the lexico-grammatical analysis of the texts involved in a search for patterns that might provide evidence of authenticity (or otherwise) of teaching material, given that the frequency and quantity of the patterns found are expected to reflect the actual usage of language. Results indicated that not every non-authentic text is a bad example of lexicogrammar, since this kind of text included in the teaching material showed many instances of lexical bundles recurrent in authentic language. At the same time, the mere fact of being authentic does not guarantee that the lexical bundles contained in a text are typical of spoken or written language. The research aims to contribute to the area since to date there has been no research focusing the analysis of authenticity in teaching materials for PFL / Esta pesquisa pretende mostrar os resultados da análise de um material didático, de cuja autoria participo, para o ensino de Português como Língua Estrangeira (PLE) (Fernandes et al., 2008). A pesquisa teve como objetivo principal a investigação dos aspectos indicativos de autenticidade do material didático analisado, partindo do pressuposto de que mesmo textos não autênticos podem apresentar elementos característicos de autenticidade e que tais elementos podem ser detectados por meio de metodologia de Linguística de Corpus. Para tanto, a pesquisa está embasada na Linguística de Corpus e nos conceitos de autenticidade (Berber Sardinha, 2007; Nunan, 1989), idiomaticidade (Sinclair, 1991) e de pacotes lexicais (Biber et al., 1999). Desenvolvemos e aplicamos uma metodologia de identificação de autenticidade em corpora, que, em síntese, baseia-se na análise da lexicogramática dos textos envolvidos em busca dos padrões que possam fornecer evidências de autenticidade (ou não) do material didático, visto que se espera que a frequência e a quantidade dos padrões encontrados reflita o uso real da linguagem. Os resultados da análise indicaram que nem todo texto não autêntico é um mau exemplo de lexicogramática, visto que os textos não autênticos do material didático apresentaram muitas ocorrências de pacotes lexicais recorrentes na linguagem autêntica. Ao mesmo tempo, o simples fato de ser autêntico não garante que os pacotes lexicais que o texto contenha sejam típicos da linguagem falada ou escrita. A pesquisa pretende contribuir para a área visto que não há, até o momento, nenhuma pesquisa que enfoque a análise de autenticidade em materiais didáticos para o ensino de PLE Linguística de corpus Pacotes lexicais Corpus linguistics Lexical bundles

Search results