Spelling suggestions: "subject:"lingüística dde corpus"" "subject:"lingüística dee corpus""
91 |
Gramática y diccionario : las construcciones con se en las entradas verbales del diccionario de español como lengua extranjeraRenau Araque, Irene 20 November 2012 (has links)
La presente tesis doctoral aborda los usos de se, su tratamiento en los diccionarios románicos actuales y su representación en un diccionario de aprendizaje de español como lengua extranjera. Su objetivo principal es proponer un modelo de representación para verbos que muestren estos usos. Para ello, se atenderán los siguientes aspectos:
El estado de la cuestión tanto en los estudios de gramática (capítulo 2) como en los lexicográficos (capítulo 3).
La representación de los usos pronominales en los diccionarios románicos actuales, en concreto los de aprendizaje de segunda lengua (capítulo 4).
El análisis sistemático de los usos de se en el corpus, enfocado desde la perspectiva de la Theory of Norms and Exploitations y el Corpus Pattern Analysis de Hanks (2004) (capítulos 5 y 6).
La elaboración de un modelo de entrada lexicográfica verbal que contenga usos con se para un diccionario de ELE (capítulo 7).
Los resultados de la tesis son principalmente la elaboración de una base de datos sobre verbos con usos pronominales (capítulo 6, SCPA) y de un prototipo de 20 entradas lexicográficas de los mismos verbos analizados con CPA (capítulo 7). / The present Ph.D. thesis studied the uses of the Spanish particle se, its treatment by current romance dictionaries and its representation in a dictionary for learners of Spanish as a foreign language. The main objective is to propose a model for the representation of the verbs that present the use of se. For this, the following aspects will be analysed:
The review of related work in grammar studies (chapter 2) as well as lexicography (chapter 3).
The representation of pronominal uses in the current romance dictionaries, particularly in those for learners of Spanish as a second language (chapter 4).
The systematic analysis of se in corpora from the perspective of Hanks’ (2004) theory of Norms and Exploitations and Corpus Patterns Analysis (chapter 5 and 6).
The elaboration of a model of a verbal lexical entry for a dictionary of Spanish as a second language containing uses of se (chapter 7).
The results of the thesis are mainly the elaboration of a database on Spanish pronominal verbs (chapter 6, Spanish CPA) and of a prototype of 20 lexical entries with the same verbs analysed with CPA (chapter 7).
|
92 |
O uso dos verbos modais em manuais de aviação em inglês : um estudo baseado em corpusSarmento, Simone January 2008 (has links)
Este trabalho trata do uso dos verbos modais em manuais de aviação em inglês sob uma perspectiva da lingüística de corpus. O objetivo é gerar subsídios que permitam elaborar materiais didáticos que reflitam as estruturas lingüísticas como aparecem em seu contexto de uso. Parte-se da hipótese de que o uso dos verbos modais no corpus de estudo apresenta peculiaridades com relação à freqüência de ocorrência, estrutura sintática e sentidos. O corpus de estudo é composto de três manuais técnicos da aeronave BOEING 737, sendo dois manuais de operações destinados a pilotos e um manual de manutenção destinado a mecânicos. A pesquisa é realizada em três etapas. Na primeira etapa é realizado um contraste entre o corpus de estudo, um corpus de referência de inglês geral e um corpus de contraste composto de manuais de sistemas operacionais para computadores pessoais. Esse contraste visa a verificar as diferenças de ocorrências entre os verbos modais e as suas estruturas sintáticas. Depois, são realizadas comparações entre os três manuais que compõem o corpus de estudo também com relação às freqüências dos modais e suas estruturas sintáticas. Na terceira etapa são verificadas as colocações principais de cada VM no manual de manutenção e em um dos manuais de operações. Outro objetivo desta investigação é contrastar o manual de manutenção e um livro didático que tem por objetivo ensinar inglês técnico para mecânicos de aeronaves. Nesse sentido, é feita uma análise do livro no que tange os verbos modais e sugeridas algumas modificações. O trabalho reúne referenciais teóricos da Lingüística de Corpus, Lingüística das Linguagens Especializadas e Verbos Modais. Os resultados do trabalho mostram que há diferenças entre a presença dos modais nos três corpora pesquisados e principalmente entre os três manuais que compõe o corpus de estudo. O estudo mostra a importância de realizar pesquisas baseadas em corpus para revelar as peculiaridades de uma linguagem especializada e assim fornecer subsídios para a elaboração de material didático com propósitos específicos mais de acordo com as necessidades do público alvo. / This thesis is about the use of modal verbs in aviation manuals in the light of corpus linguistics. The goal is to gather subsides to enable the creation of classroom material which presents the linguistic structures as they appear in their natural context. The hypothesis is that the use of modal verbs in the corpus has peculiarities in terms of frequency, syntactic patterns, and meanings. The aviation corpus is composed of three manuals from the BOEING 737 aircraft: two operations manuals directed to pilots and one maintenance manual directed to mechanics. The research has been carried out in three stages. In the first stage, the aviation corpus is contrasted to a reference corpus and another specialized corpus composed of personal computer operational systems. Such contrast aims at verifying the differences in the number of modal tokens and their syntactic patterns. In the second stage, the three manuals that make up the aviation corpus are compared in terms of modal frequencies and their syntactic patterns. In the third stage, the main collocations of each modal are checked. This thesis also aims at contrasting the maintenance manual and a course book designed to teach aviation English to mechanics. Thus, an analysis of the modal verbs in the course book is carried out and changes to the book are suggested. This thesis brings together theoretical assumptions from Corpus Linguistics, the Linguistics of Specialized languages and Modal Verbs. The results point out that there are differences in the use of modal verbs in the three investigated corpora and mainly among the three manuals that compose the aviation corpus. This study shows the importance of corpus based research to reveal the peculiarities of a specialized language and, therefore, provide input to produce specific pedagogical material which better meets the needs of the target public.
|
93 |
Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-BrasEvers, Aline January 2013 (has links)
Este trabalho trata dos temas da proficiência em português como língua adicional e da detecção de padrões lexicais e coesivos a partir de um enfoque computacional, situando o tema em meio à descrição de textos produzidos no contexto do exame de proficiência Celpe- Bras de 2006-1. Fazendo uso de pressupostos teórico-metodológicos da Linguística de Corpus, da Linguística Textual e do Processamento de Língua Natural, investigou-se a hipótese de que seria possível classificar, de modo automático, textos submetidos ao exame conforme níveis de proficiência pré-estabelecidos. Por meio do processamento de 177 textos previamente avaliados por corretores humanos em seis níveis (Iniciante, Básico, Intermediário, Intermediário Superior, Avançado e Avançado Superior), usou-se o Aprendizado de Máquina (AM) supervisionado para cotejar padrões lexicais e coesivos capazes de distinguir os níveis sob estudo. Para o cotejo dos padrões, a ferramenta Coh-Metrix-Port – que calcula parâmetros de coesão, coerência e inteligibilidade textual – foi utilizada. Cada um dos textos foi processado na ferramenta; para o AM, os resultados da ferramenta Coh-Metrix-Port foram usados como atributos, os níveis de proficiência como classes e os textos como instâncias. As etapas de processamento do corpus foram: 1) digitação do corpus; 2) processamento individual dos textos na ferramenta Coh-Metrix-Port; 3) análise usando AM – Algoritmo J48 – e os seis níveis de proficiência; 4) nova análise usando AM e duas novas classes: textos sem certificação (Iniciante e Básico) e com certificação (Intermediário, Intermediário Superior, Avançado e Avançado Superior). Avançado e Avançado Superior). Apesar do tamanho reduzido do corpus, foi possível identificar os seguintes atributos distintivos entre os textos da amostra: número de palavras, medida de riqueza lexical, número de parágrafos, incidência de conectivos negativos, incidência de adjetivos e Índice Flesch. Chegou-se a um classificador capaz de separar dois conjuntos de texto (SEM e COM CERTIFICAÇÃO) através das métricas utilizadas (fmeasure de 70%). / This research analyzes Portuguese proficiency from a computational perspective, studying texts submitted to the Brazilian Portuguese proficiency exam Celpe-Bras (Certificate of Proficiency in Portuguese for Foreigners). The study was based on Corpus Linguistics, Textual Linguistics, and Natural Language Processing. We investigated the hypothesis that it would be possible to predict second language proficiency using Machine Learning (ML), measures given by a NLP tool (Coh-Metrix-Port), and a corpus of texts previously classified by human raters. The texts (177) were previously classified as Beginner, Elementary, Intermediate, Upper Intermediate, Advanced, and Upper Advanced. After preparation, they were processed by Coh-Metrix-Port, a tool that calculates cohesion, coherence, and textual readability at different linguistic levels. The output of this tool provided 48 measures that were used as attributes, the proficiency levels given by raters were considered classes, and the 177 were considered instances for ML purposes. The algorithm J48 was used with this set of texts, providing a Decision Tree that classified the six levels of proficiency. The results for this analysis were not conclusive; because of that, we performed a new analysis with a new set of texts: two classes, one with texts that did not receive certificate (Beginner and Elementary) and the other with texts that did receive the certificate (Intermediate, Upper Intermediate, Advanced, and Upper Advanced). Despite the small size of the corpus, we were able to identify the following distinguishing attributes: number of words, type token ratio, number of paragraphs, incidence of negative connectives, incidence of adjectives, and Flesch Index. The classifier was able to separate these two last sets of texts with a F-measure of 70%.
|
94 |
Unidades fraseológicas especializadas: colocações e colocações estendidas em contratos sociais e estatutos sociais traduzidos no modo juramentado e não-juramentadoOrenha, Adriane [UNESP] 26 May 2009 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:32:45Z (GMT). No. of bitstreams: 0
Previous issue date: 2009-05-26Bitstream added on 2014-06-13T20:24:00Z : No. of bitstreams: 1
orenha_a_dr_sjrp.pdf: 2083225 bytes, checksum: d8f591d9558b95f175aa9e7d6591f835 (MD5) / Esta pesquisa visa realizar um estudo a respeito dos termos, colocações e colocações especializadas estendidas presentes em contratos sociais e estatutos sociais que representam os corpora de pesquisa. Nesta pesquisa, também observaremos as semelhanças e diferenças nos corpora de traduções jurídicas e juramentadas, no que concerne ao uso desses termos e padrões lexicais, assim como apontaremos aqueles que são mais frequentemente empregados em documentos do tipo contrato social e estatuto social. A investigação baseia-se na abordagem interdisciplinar dos Estudos da Tradução Baseados em Corpus, da Linguística de Corpus, da Fraseologia, de modo mais específico das colocações, das colocações especializadas e das unidades fraseológicas especializadas. A Terminologia, por meio de seus pressupostos teóricos, também traz sua contribuição para a pesquisa, assim como os trabalhos sobre a tradução juramentada. Uma das motivações que delineia este estudo reside no fato de a tradução juramentada ser considerada de grande relevância nas relações comerciais, sociais e jurídicas entre as nações. Para realizar este estudo, compilamos um corpus de estudo (CE1) constituído por contratos sociais e estatutos sociais traduzidos no modo juramentado, nas direções tradutórias inglês português e português inglês, extraídos de Livros de Registro de Traduções, pertencentes a tradutores juramentados credenciados pela Junta Comercial de dois Estados brasileiros; e um corpus de estudo (CE2) formado por documentos de mesma natureza traduzidos sem o processo de juramentação, nas mesmas direções tradutórias. Além destes corpora, construímos dois corpora comparáveis, formados pelos referidos documentos originalmente escritos em português e em inglês. Os resultados desta pesquisa mostraram várias semelhanças, no tocante aos termos empregados em documentos traduzidos... / This investigation aims at carrying out a study on terms, collocations and extended specialized collocations present in articles of incorporation/articles of organization/articles of association and bylaws that represent our research corpora. We will also observe similarities and differences in sworn and legal translation corpora, which concerns the use of such terms and lexical patterns, as well as point out the ones which are more frequently used in the focused documents. This research derives its theoretical and methodological sources from Corpus-Based Translation Studies, Corpus Linguistics, Phraseology, more specifically from collocations, specialized collocations and specialized phraseological units (SPUs). Terminology, from its theoretical standpoint, also offers its contribution to this study, as well as essays on sworn translation. One of the aspects that motivates this study is the fact that sworn translation is considered to be of great relevance to commercial, social and legal relations among nations. To conduct this research, we compiled a study corpus (CE1) composed of articles of incorporation/articles of organization/articles of association and bylaws submitted to the process of sworn translation in the English Portuguese and Portuguese English directions, excerpted from the Books of Sworn Translation Records, made available by five Brazilian sworn translators, duly sworn by the Board of Trade of two Brazilian States; a study corpus (CE2) made up of documents of the same nature not submitted to the process of sworn translation, in the same translation directions. Besides these corpora, we also built two comparable corpora formed by the referred documents originally written in Portuguese and in English. The results obtained in this research showed some similarities which refer to the terms used in documents submitted to the process of sworn translation... (Complete abstract click electronic access below)
|
95 |
O uso dos verbos modais em manuais de aviação em inglês : um estudo baseado em corpusSarmento, Simone January 2008 (has links)
Este trabalho trata do uso dos verbos modais em manuais de aviação em inglês sob uma perspectiva da lingüística de corpus. O objetivo é gerar subsídios que permitam elaborar materiais didáticos que reflitam as estruturas lingüísticas como aparecem em seu contexto de uso. Parte-se da hipótese de que o uso dos verbos modais no corpus de estudo apresenta peculiaridades com relação à freqüência de ocorrência, estrutura sintática e sentidos. O corpus de estudo é composto de três manuais técnicos da aeronave BOEING 737, sendo dois manuais de operações destinados a pilotos e um manual de manutenção destinado a mecânicos. A pesquisa é realizada em três etapas. Na primeira etapa é realizado um contraste entre o corpus de estudo, um corpus de referência de inglês geral e um corpus de contraste composto de manuais de sistemas operacionais para computadores pessoais. Esse contraste visa a verificar as diferenças de ocorrências entre os verbos modais e as suas estruturas sintáticas. Depois, são realizadas comparações entre os três manuais que compõem o corpus de estudo também com relação às freqüências dos modais e suas estruturas sintáticas. Na terceira etapa são verificadas as colocações principais de cada VM no manual de manutenção e em um dos manuais de operações. Outro objetivo desta investigação é contrastar o manual de manutenção e um livro didático que tem por objetivo ensinar inglês técnico para mecânicos de aeronaves. Nesse sentido, é feita uma análise do livro no que tange os verbos modais e sugeridas algumas modificações. O trabalho reúne referenciais teóricos da Lingüística de Corpus, Lingüística das Linguagens Especializadas e Verbos Modais. Os resultados do trabalho mostram que há diferenças entre a presença dos modais nos três corpora pesquisados e principalmente entre os três manuais que compõe o corpus de estudo. O estudo mostra a importância de realizar pesquisas baseadas em corpus para revelar as peculiaridades de uma linguagem especializada e assim fornecer subsídios para a elaboração de material didático com propósitos específicos mais de acordo com as necessidades do público alvo. / This thesis is about the use of modal verbs in aviation manuals in the light of corpus linguistics. The goal is to gather subsides to enable the creation of classroom material which presents the linguistic structures as they appear in their natural context. The hypothesis is that the use of modal verbs in the corpus has peculiarities in terms of frequency, syntactic patterns, and meanings. The aviation corpus is composed of three manuals from the BOEING 737 aircraft: two operations manuals directed to pilots and one maintenance manual directed to mechanics. The research has been carried out in three stages. In the first stage, the aviation corpus is contrasted to a reference corpus and another specialized corpus composed of personal computer operational systems. Such contrast aims at verifying the differences in the number of modal tokens and their syntactic patterns. In the second stage, the three manuals that make up the aviation corpus are compared in terms of modal frequencies and their syntactic patterns. In the third stage, the main collocations of each modal are checked. This thesis also aims at contrasting the maintenance manual and a course book designed to teach aviation English to mechanics. Thus, an analysis of the modal verbs in the course book is carried out and changes to the book are suggested. This thesis brings together theoretical assumptions from Corpus Linguistics, the Linguistics of Specialized languages and Modal Verbs. The results point out that there are differences in the use of modal verbs in the three investigated corpora and mainly among the three manuals that compose the aviation corpus. This study shows the importance of corpus based research to reveal the peculiarities of a specialized language and, therefore, provide input to produce specific pedagogical material which better meets the needs of the target public.
|
96 |
Conectores pluriverbais em espanhol: proposta de tratamento lexicográfico em um dicionário pedagógico semibilíngue / Conectores pluriverbales en español: propuesta de tratamiento lexicográfico en un diccionario pedagógico semibilingüeSilva, Sérgio Tiago da [UNESP] 30 May 2016 (has links)
Submitted by Sérgio Tiago da Silva null (stletras@gmail.com) on 2016-07-26T22:04:30Z
No. of bitstreams: 1
Dissertacao Mestrado_Sergio Tiago da Silva_Conectores Pluriverbais_2016.pdf: 1752310 bytes, checksum: 72c19d7b6a8b3245c75d3e3b52c1eaf2 (MD5) / Approved for entry into archive by Ana Paula Grisoto (grisotoana@reitoria.unesp.br) on 2016-07-29T13:47:23Z (GMT) No. of bitstreams: 1
silva_st_me_arafcl.pdf: 1752310 bytes, checksum: 72c19d7b6a8b3245c75d3e3b52c1eaf2 (MD5) / Made available in DSpace on 2016-07-29T13:47:23Z (GMT). No. of bitstreams: 1
silva_st_me_arafcl.pdf: 1752310 bytes, checksum: 72c19d7b6a8b3245c75d3e3b52c1eaf2 (MD5)
Previous issue date: 2016-05-30 / O Brasil tem como países vizinhos Argentina, Bolívia, Colômbia, Paraguai, Peru, Uruguai e Venezuela, além de Chile e Equador que também estão na América do Sul; em todos eles o Espanhol é a língua oficial. Dessa forma, faz-se necessário conhecer o idioma desses países, pois cada vez mais indivíduos de localidades diferentes se comunicam, tanto informalmente como em relações de trabalho e negócios, que são mais formais. Por esse motivo, o espanhol vem sendo ensinado desde a década de 40 no Brasil. Contudo, a partir de 2005, o ensino dessa língua tornou-se obrigatório no Brasil. Esse fator nos motivou a realizar uma pesquisa que pudesse contribuir com o ensino do Espanhol em nosso país. Isto posto, nos dedicamos a estudar os marcadores discursivos, mais especificamente os conectores pluriverbais, que são elementos utilizados na elaboração de um texto escrito, pois, essas partículas discursivas propiciam, também, a coesão e a coerência textual. Nosso objetivo ao estudar esses conectores é elaborar uma proposta de tratamento lexicográfico dessas estruturas em um Dicionário Pedagógico Semibilíngue para a produção de textos. Logo, sob a égide das teorias e práticas da lexicografia pedagógica semibilíngue, descrevemos e analisamos como dois dicionários bilíngues e um semibilíngue - Português-Espanhol - presentes em nosso mercado, registram os conectores. Verificamos, assim, que as informações que constam nessas obras lexicográficas não são suficientes para atender às necessidades dos aprendizes brasileiros para produzir textos em Espanhol. Por conseguinte, a partir de dois corpora textuais, um do Português Brasileiro (PB) e outro do Espanhol (Europeu (EE) e Americano (EA)), selecionamos os conectores e observamos os contextos nos quais ocorrem nos corpora bem como a frequência de tais ocorrências. Elaboramos, assim, uma proposta de tratamento lexicográfico de conectores pluriverbais em um dicionário pedagógico semibilíngue para a produção de textos no par de línguas Português-Espanhol. / Brazil has as neighbors Argentina, Bolívia, Colômbia, Paraguai, Peru, Uruguai and Venezuela, with Chile and Ecuador, also in South America; all of these countries have Spanish as the official language. It is therefore necessary to know the language of these countries, as more individuals from different places communicate with each other, both informally and in business settings wich are more formal. For this reason, Spanish has been taught since the 1940s in our country, and from 2005 the teaching of this language has been mandatory in Brazil. This factor motivated us to conduct research that could contribute to the teaching of Spanish in our country. That said, we are dedicated to study the discourse markers, specifically multi-verbal connectors, which are elements used in the preparation of a written text, because these discursive particles also provide cohesion and textual coherence. Our aim to study these connectors is to propose a semi-bilingual lexicographical treatment of these structures in a Pedagogical Dictionary for the production of texts. Here, on the basis of the theories and practices of semi-bilingual pedagogical lexicography, we describe and analyze how two bilingual and semi-bilingual (Portuguese-Spanish) dictionaries, present in our market, record the connectors. We found that the information contained in these lexicographical works are not sufficient to meet the needs of Brazilian learners to produce texts in Spanish. Therefore, from two textual corpora, one Brazilian Portuguese (BP) and the other Spanish (European (EE) and American (EA)), we select the connectors and observe the contexts in which they occur in the corpora and the frequency of such occurrences. We then developed a proposed lexicographical treatment of multi-verbal connectors in a semi-bilingual pedagogical dictionary for the production of texts in paired Portuguese-Spanish languages. / Brasil tiene como países vecinos Argentina, Bolivia, Colombia, Paraguay, Perú, Uruguay y Venezuela, y Chile y Ecuador, que también se encuentran en América del Sur; en todos ellos el español es el idioma oficial. Por lo tanto, es necesario conocer la lengua de estos países, pues más y más personas se comunican de diferentes lugares, tanto de manera informal como en las relaciones de trabajo y negócios que son más formales. Por esta razón, el español se ha enseñado desde los años 40 en nuestro país. Sin embargo, a partir de 2005, la enseñanza de esta lengua se hizo obligatoria la oferta en Brasil. Este factor nos ha motivado para llevar a cabo una investigación que podría contribuir a la enseñanza de español en nuestro país. Dicho esto, nos hemos dedicado a estudiar los marcadores del discurso, específicamente los conectores pluriverbales, que son elementos que se utilizan en la elaboración de un texto escrito, debido a que estas partículas discursivas proporcionan también la cohesión y coherencia textual. Nuestro objetivo de estudiar estos conectores es elaborar una propuesta de tratamiento lexicográfico semibilíngüe de estas estructuras. Así, bajo la égide de las teorías y prácticas de la lexicografía pedagógica semibilíngüe, hemos descrito y analizado como dos diccionarios bilingües y un semibilíngüe - Portugués-Español - presentes en nuestro mercado, registran los conectores. Comprobamos, por lo tanto, que las informaciones contenidas en estas obras lexicográficas no son suficientes para satisfacer las necesidades de los estudiantes brasileños que desean producir textos en español. Por conseguiente, a partir de dos corpora textuales, un del Portugués de Brasil (PB) y otro del Español (Europeo (EE) y Americano (EA)), seleccionamos los conectores y observamos los contextos en los que estos ocurren en los corpora y la frecuencia de estas ocurrencias para elabora, así, una propuesta de tratamiento lexicográfico de conectores pluriverbales en un diccionario semibilíngue pedagógico para la producción de textos en el par de lenguas Portugués-Español.
|
97 |
Apresentação do discurso das ex-presidentas Dilma e Cristina: Uma análise descritiva em corpus jornalístico paralelo bidirecional português e espanhol / El discurso referido de las ex presidentas Dilma y Cristina: Una análisis descriptiva en corpus periodístico paralelo y bidireccional portugués y españolFreitas, Thamara Luciana Borges. 31 January 2018 (has links)
Esta pesquisa de mestrado foi desenvolvida no Programa de Pós-Graduação em Estudos Linguísticos (PPGEL) do Instituto de Letras e Linguísticas (ILEEL) da Universidade Federal de Uberlândia (UFU), vinculada à linha de pesquisa: Teoria, descrição e análise linguística, sob a orientação do professor doutor Ariel Novodvorski. Está embasada nas teorias dos Estudos descritivos (PERINI, 2008; 2010), da Linguística Sistêmico-Funcional (HALLIDAY; MATHIESSEN, 2004; 2014), da Apresentação do discurso (LEECH; SHORT, 1981; 2007; SEMINO; SHORT, 2004) e dos Estudos da tradução (HURTADO ALBIR, 2008). Propõe-se a analisar: 1) a apresentação da fala, da escrita e do pensamento da expresidenta do Brasil, Dilma Rousseff, no jornal Folha de São Paulo; 2) a apresentação da fala, da escrita e do pensamento da ex-presidenta da Argentina, Cristina Kirchner, no jornal Clarín; e 3) contrastar os resultados a partir de um corpus jornalístico paralelo e bidirecional de conteúdo político, contendo textos compreendidos entre os anos 2013 e 2015. Para isso, utilizamos, também, a Linguística de Corpus (LC) (BERBER SARDINHA, 2004; 2009; PARODI, 2010), como abordagem metodológica para coleta, armazenamento e preparação do corpus de estudo a ser processado por meio das ferramentas do programa computacional WordSmith Tools versão 6,0 (SCOTT, 2012). / Esta investigación de maestría fue desarrollada en el programa de posgrado en estudios lingüísticos (PPGEL) del Instituto de Letras y Lingüísticas (ILEEL) de la Universidad Federal de Uberlândia (UFU), vinculada a la línea de pesquisa: Teoría, descripción y análisis lingüística, orientada por el profesor doctor Ariel Novodvorski. Está embazada en las teorías de los Estudios descriptivos (PERINI, 2008; 2010), de la Lingüística Sistémico-Funcional (HALLIDAY; MATHIESSEN, 2004; 2014), del Discurso Referido (LEECH; SHORT, 1981; 2007; SEMINO; SHORT, 2004) y de los Estudios en traducción (HURTADO ALBIR, 2008). Se propone analizar: 1) la presentación del habla, de la escrita y del pensamiento de la expresidenta de Brasil Dilma Rousseff en el periódico Folha de São Paulo; 2) la presentación del habla, de la escrita y del pensamiento de la expresidenta de Argentina Cristina Kirchner en el periódico Clarín; y 3) contrastar los resultados a partir de un corpus periodístico paralelo y bidireccional de contenido político, compuesto por textos originales y traducidos entre los años 2013 y 2015. En ese sentido, nuestro corpus de estudio es paralelo y bidireccional, permitiendo análisis contrastivos entre originales y sus respectivas traducciones e, incluso, entre los textos originales y entre los traducidos, en cada una de las lenguas. Para eso, utilizaremos, también, la Linguística de Corpus (LC) (BERBER SARDINHA, 2004; 2009; PARODI, 2010) como abordaje metodológico, para el compilado, almacenado y preparación del corpus de estudio a ser procesado por medio de las herramientas del programa computacional WordSmith Tools versión 6.0 (SCOTT, 2012). / Dissertação (Mestrado)
|
98 |
Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-BrasEvers, Aline January 2013 (has links)
Este trabalho trata dos temas da proficiência em português como língua adicional e da detecção de padrões lexicais e coesivos a partir de um enfoque computacional, situando o tema em meio à descrição de textos produzidos no contexto do exame de proficiência Celpe- Bras de 2006-1. Fazendo uso de pressupostos teórico-metodológicos da Linguística de Corpus, da Linguística Textual e do Processamento de Língua Natural, investigou-se a hipótese de que seria possível classificar, de modo automático, textos submetidos ao exame conforme níveis de proficiência pré-estabelecidos. Por meio do processamento de 177 textos previamente avaliados por corretores humanos em seis níveis (Iniciante, Básico, Intermediário, Intermediário Superior, Avançado e Avançado Superior), usou-se o Aprendizado de Máquina (AM) supervisionado para cotejar padrões lexicais e coesivos capazes de distinguir os níveis sob estudo. Para o cotejo dos padrões, a ferramenta Coh-Metrix-Port – que calcula parâmetros de coesão, coerência e inteligibilidade textual – foi utilizada. Cada um dos textos foi processado na ferramenta; para o AM, os resultados da ferramenta Coh-Metrix-Port foram usados como atributos, os níveis de proficiência como classes e os textos como instâncias. As etapas de processamento do corpus foram: 1) digitação do corpus; 2) processamento individual dos textos na ferramenta Coh-Metrix-Port; 3) análise usando AM – Algoritmo J48 – e os seis níveis de proficiência; 4) nova análise usando AM e duas novas classes: textos sem certificação (Iniciante e Básico) e com certificação (Intermediário, Intermediário Superior, Avançado e Avançado Superior). Avançado e Avançado Superior). Apesar do tamanho reduzido do corpus, foi possível identificar os seguintes atributos distintivos entre os textos da amostra: número de palavras, medida de riqueza lexical, número de parágrafos, incidência de conectivos negativos, incidência de adjetivos e Índice Flesch. Chegou-se a um classificador capaz de separar dois conjuntos de texto (SEM e COM CERTIFICAÇÃO) através das métricas utilizadas (fmeasure de 70%). / This research analyzes Portuguese proficiency from a computational perspective, studying texts submitted to the Brazilian Portuguese proficiency exam Celpe-Bras (Certificate of Proficiency in Portuguese for Foreigners). The study was based on Corpus Linguistics, Textual Linguistics, and Natural Language Processing. We investigated the hypothesis that it would be possible to predict second language proficiency using Machine Learning (ML), measures given by a NLP tool (Coh-Metrix-Port), and a corpus of texts previously classified by human raters. The texts (177) were previously classified as Beginner, Elementary, Intermediate, Upper Intermediate, Advanced, and Upper Advanced. After preparation, they were processed by Coh-Metrix-Port, a tool that calculates cohesion, coherence, and textual readability at different linguistic levels. The output of this tool provided 48 measures that were used as attributes, the proficiency levels given by raters were considered classes, and the 177 were considered instances for ML purposes. The algorithm J48 was used with this set of texts, providing a Decision Tree that classified the six levels of proficiency. The results for this analysis were not conclusive; because of that, we performed a new analysis with a new set of texts: two classes, one with texts that did not receive certificate (Beginner and Elementary) and the other with texts that did receive the certificate (Intermediate, Upper Intermediate, Advanced, and Upper Advanced). Despite the small size of the corpus, we were able to identify the following distinguishing attributes: number of words, type token ratio, number of paragraphs, incidence of negative connectives, incidence of adjectives, and Flesch Index. The classifier was able to separate these two last sets of texts with a F-measure of 70%.
|
99 |
Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-BrasEvers, Aline January 2013 (has links)
Este trabalho trata dos temas da proficiência em português como língua adicional e da detecção de padrões lexicais e coesivos a partir de um enfoque computacional, situando o tema em meio à descrição de textos produzidos no contexto do exame de proficiência Celpe- Bras de 2006-1. Fazendo uso de pressupostos teórico-metodológicos da Linguística de Corpus, da Linguística Textual e do Processamento de Língua Natural, investigou-se a hipótese de que seria possível classificar, de modo automático, textos submetidos ao exame conforme níveis de proficiência pré-estabelecidos. Por meio do processamento de 177 textos previamente avaliados por corretores humanos em seis níveis (Iniciante, Básico, Intermediário, Intermediário Superior, Avançado e Avançado Superior), usou-se o Aprendizado de Máquina (AM) supervisionado para cotejar padrões lexicais e coesivos capazes de distinguir os níveis sob estudo. Para o cotejo dos padrões, a ferramenta Coh-Metrix-Port – que calcula parâmetros de coesão, coerência e inteligibilidade textual – foi utilizada. Cada um dos textos foi processado na ferramenta; para o AM, os resultados da ferramenta Coh-Metrix-Port foram usados como atributos, os níveis de proficiência como classes e os textos como instâncias. As etapas de processamento do corpus foram: 1) digitação do corpus; 2) processamento individual dos textos na ferramenta Coh-Metrix-Port; 3) análise usando AM – Algoritmo J48 – e os seis níveis de proficiência; 4) nova análise usando AM e duas novas classes: textos sem certificação (Iniciante e Básico) e com certificação (Intermediário, Intermediário Superior, Avançado e Avançado Superior). Avançado e Avançado Superior). Apesar do tamanho reduzido do corpus, foi possível identificar os seguintes atributos distintivos entre os textos da amostra: número de palavras, medida de riqueza lexical, número de parágrafos, incidência de conectivos negativos, incidência de adjetivos e Índice Flesch. Chegou-se a um classificador capaz de separar dois conjuntos de texto (SEM e COM CERTIFICAÇÃO) através das métricas utilizadas (fmeasure de 70%). / This research analyzes Portuguese proficiency from a computational perspective, studying texts submitted to the Brazilian Portuguese proficiency exam Celpe-Bras (Certificate of Proficiency in Portuguese for Foreigners). The study was based on Corpus Linguistics, Textual Linguistics, and Natural Language Processing. We investigated the hypothesis that it would be possible to predict second language proficiency using Machine Learning (ML), measures given by a NLP tool (Coh-Metrix-Port), and a corpus of texts previously classified by human raters. The texts (177) were previously classified as Beginner, Elementary, Intermediate, Upper Intermediate, Advanced, and Upper Advanced. After preparation, they were processed by Coh-Metrix-Port, a tool that calculates cohesion, coherence, and textual readability at different linguistic levels. The output of this tool provided 48 measures that were used as attributes, the proficiency levels given by raters were considered classes, and the 177 were considered instances for ML purposes. The algorithm J48 was used with this set of texts, providing a Decision Tree that classified the six levels of proficiency. The results for this analysis were not conclusive; because of that, we performed a new analysis with a new set of texts: two classes, one with texts that did not receive certificate (Beginner and Elementary) and the other with texts that did receive the certificate (Intermediate, Upper Intermediate, Advanced, and Upper Advanced). Despite the small size of the corpus, we were able to identify the following distinguishing attributes: number of words, type token ratio, number of paragraphs, incidence of negative connectives, incidence of adjectives, and Flesch Index. The classifier was able to separate these two last sets of texts with a F-measure of 70%.
|
100 |
Es femenino ponerse crema : Adjetivos que denotan género analizados desde la perspectiva contrastiva entre las variantes peninsular y mexicano del español y el sueco / It´s femenine to use lotion : Adjectives that denote gender analyzed from a contrastive perspective between the Mexican and peninsular varieties of Spanish, and SwedishJohansen, Josef January 2012 (has links)
Este estudio es un análisis de algunos adjetivos que denotan género desde una perspectiva contrastiva en el que se estudian ejemplos de tres regiones: México, España y Suecia. Es un estudio de lingüística de corpus donde el uso y significado de unos lexemas que denotan género se analizan mediante sus concordancias y se compara entre las regiones lingüísticas indicadas. Los usos potenciales encontrados de estos lexemas se pueden dividir en dos categorías principales: el uso relacional que indica una relación entre un concepto indicado en el contexto con uno de los géneros; y el uso caracterizador que indica una relación entre un concepto indicado y un conjunto de características que constituye uno de los estereotipos de los géneros. Además, existen contextos donde estos usos se mezclan y el significado incluye tanto referencias a las características estereotipadas como estrategias para asociar un concepto con uno de los géneros. El estudio incluye una profundización en el uso caracterizador y los estereotipos a los que alude. Las diferencias lingüísticas se han encontrado sobre todo en el uso relacional; en español se tiende a favorecer el uso de estos adjetivos en una mayor cantidad de contextos; mientras el uso relacional en sueco se predomina por el uso que atribuye género a un referente. Desde la perspectiva contrastiva el uso caracterizador ha resultado particularmente similar puesto que estos lexemas funcionan como los polos de un eje antónimo que deriva de la dicotomía de los géneros sociales. / This study is an analysis of adjectives that denote gender from a contrastive perspective between two varieties of Spanish, namely those of Spain and Mexico, and Swedish. It’s a study of electronic corpuses where usage and meaning of a number of adjectives is analysed by means of concordances and compared between these linguistic regions. The types of potential usage included in these lexical unities can be separated in two major categories: relational usage – that relates a concept indicated in context with one of the genders; and stereotypical usage – that relates the indicated concept with a set of characteristics that form the gender stereotypes. There are also contexts where these usages mix and include both stereotyped characteristics and forms of associating a concept with any of the genders. The study also includes an analysis of the stereotypes to which we refer in making use of these expressions. Language based differences have been encountered principally in the relational usage where Spanish has a tendency to use adjectives in more differentiated contexts, whereas, in Swedish, meaning is dominated by relational usage to indicate gender of a referent. The stereotypical usage is strikingly similar as these words function as poles on an antonymic scale of gender that derivate from the dichotomy that constitutes social gender relations.
|
Page generated in 0.1002 seconds