• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 172
  • 11
  • 11
  • 11
  • 11
  • 11
  • 4
  • 1
  • 1
  • 1
  • Tagged with
  • 179
  • 94
  • 86
  • 58
  • 54
  • 42
  • 37
  • 36
  • 33
  • 26
  • 26
  • 24
  • 24
  • 23
  • 23
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
131

[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO

ELVIS ALVES DE SOUZA 29 May 2023 (has links)
[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank – for the oil and gas domain. The development of the resource is seen from two perspectives: on the linguistic side, we study the grammatical literature and make linguistically motivated decisions to ensure the quality of corpus annotation; on the computational side, we evaluate the resource considering its usefulness for natural language processing (NLP). Resources like PetroGold receive special importance in the current context, where statistical NLP has benefited from domain-specific gold-standard resources to train machine learning models. However, the treebank is also useful for tasks such as evaluating rule-based annotation systems and for linguistic studies. PetroGold was annotated according to the guidelines of the Universal Dependencies project, having as theoretical assumptions the idea that the annotation of a corpus is an interpretative process, on the one hand, and using the empirical linguistics paradigm, on the other. In addition to describing the annotation itself, we apply some methods to find errors in the annotation of treebanks and present a tool created specifically for searching, editing and evaluating annotated corpora. Finally, we evaluate the impact of revising each of the treebank linguistic categories on the automatic learning of a model powered by PetroGold and make the third version of the corpus publicly available, which, when performing an intrinsic evaluation for a model using the corpus, achieves metrics up to 2.55 perecent better than the previous version.
132

[pt] O POTENCIAL DIDÁTICO DO SAMBA-EXALTAÇÃO NO ENSINO DE PORTUGUÊS COMO SEGUNDA LÍNGUA PARA ESTRANGEIROS / [en] THE DIDACTIC POTENTIAL OF EXULTATION SAMBA IN THE TEACHING OF PORTUGUESE AS A SECOND LANGUAGE TO FOREIGNERS

DEISE DULCE BARRETO DE LEMOS 18 May 2022 (has links)
[pt] O presente estudo se propôs a investigar as possibilidades de uso do gênero musical samba-exaltação como ferramenta didática em aulas de Português como Segunda Língua para Estrangeiros. Ressaltamos que nosso enfoque se voltou aos sambas-exaltação provenientes das agremiações carnavalescas as quais promovem desfiles de escolas de samba durante os festejos do carnaval, celebração conhecida internacionalmente. Iniciamos o estudo tendo em mente o objetivo de observar as identidades dos sujeitos presentes nos sambas-exaltação, música que faz parte do carnaval e possui forte representatividade para os brasileiros frequentadores de escolas de samba. Defendemos que a leitura desse gênero textual pode ser uma ferramenta para conhecer as subjetividades do brasileiro nesse contexto, compreendendo, outrossim, sua relação com o carnaval protagonizado pelas escolas de samba e as razões que o levam a fazer parte deste grupo social. Realizamos uma análise qualitativa, de cunho exploratório, em sambas-exaltação de escolas provenientes das cinco regiões do Brasil, contemplando diferentes cidades: Rio de Janeiro, São Paulo, Recife, Corumbá, Uruguaiana e Manaus. A fim de esmiuçar as letras, organizamos a pesquisa em quatro categorias, investigadas separadamente: Relação estabelecida entre o sujeito e a escola; Relação estabelecida entre passado e presente; Sentimentos que conectam o sujeito à escola; Relação entre sujeito e espaço. Os resultados finais indicam o potencial do gênero musical para o ensino de Português como Segunda Língua para Estrangeiros, razão pela qual propomos que seja uma possível ferramenta de trabalho disponível para o docente. Concluímos que as letras estudadas oferecem um rico recurso para unir o ensino da gramática e do léxico aos processos de (des)construção da imagem que o estrangeiro pode realizar sobre os brasileiros, ressaltando que o samba-exaltação revela identidades e emoções compartilhadas coletivamente pelos componentes, nos bastidores do carnaval, longe do espetáculo. Como referencial teórico, baseamo-nos nas concepções de Cultura abordadas por Hall (1959), Singer (2000), Laraia (2002), Williams (2007) e Hofstede, Hofstede e Minkov (2010). Para tratar de Interculturalidade, contamos com as abordagens de Peterson (2004), Bennett (1998) e Hofstede, Hofstede e Minkov (2010). As noções de Identidade são embasadas nas perspectivas de Bauman (2005). / [en] The present study aimed to investigate the possibilities of using exultation samba as a didactic tool in classes of Portuguese as a Second Language for Foreigners. We emphasize here that our focus turned to exultation sambas from carnival associations which promote samba school parades during the carnival festivities, a celebration known internationally. This study was designed to observe the identities of subjects who are part of exultation samba, a kind of music that is deeply representative of Brazilian carnival. We argue that reading the lyrics of this textual genre can be a tool to understand the subjectivity of Brazilians in this context and their reasons for participating in this social group. We conducted qualitative and exploratory analysis with exultation sambas that represent samba schools from five regions of Brazil, looking at different Brazilian cities: Rio de Janeiro, São Paulo, Recife, Corumbá, Uruguaiana and Manaus. Considering our objectives of observing the lyrics, we organized the research into four categories, investigated separately: Relation established between the subject and the samba school, Relation established between past and present, Feelings that connect subject and samba school, Relation between subject and space. The final results indicate the potential of exultation samba to teaching Portuguese as a Second Language to Foreigners, which is the reason why we propose that exultation samba is a possible tool for teachers. We conclude that the lyrics studied offer a rich resource to unite the teaching of grammar and lexicon to the processes of (de)construction of the understanding that the foreigner has about Brazilians. It emphasizes that the exultation samba reveals identities and emotions shared collectively by the components, backstage at carnival, away from the show. As a theoretical framework, we are based on the conceptions of Culture addressed by Hall (1959), Singer (2000), Laraia (2002), Williams (2007) and Hofstede, Hofstede and Minkov (2010). To deal with Interculturality, we rely on the approaches of Peterson (2004), Bennett (1998) and Hofstede, Hofstede and Minkov (2010). The notions of Identity are based on Bauman s (2005) perspectives.
133

The Perception and Production of Portuguese Mid-Vowels by Native Speakers of American English

Kendall, Richard Ryan 20 March 2004 (has links) (PDF)
This thesis examines the difficulties that beginning and advanced American learners of Portuguese have correctly perceiving and producing the Portuguese mid-vowels {o} and {e}. The beginning learners were enrolled in their second semester of Portuguese and had rudimentary knowledge of Portuguese. The advanced learners had all lived in Brazil for nearly two years and were enrolled in a more advanced Portuguese course. To test for production, informants were asked to read a group of sentences that contained one hundred occurrences of the Portuguese mid-vowels. Each production occurrence was evaluated as being correct or incorrect by linguistically trained native Brazilians. To test for perception, informants were evaluated on their ability to distinguish between tokens (individual vowel sounds) spoken in context by native Brazilian speakers. These tokens used to test perception were recorded in a professional recording studio in Brazil. The study found that beginning and advanced learners had difficulty perceiving and correctly producing the Portuguese mid-vowels. In the perception study, beginners scored 70% on the {o} section and 68% on the {e} section, for a combined score of 69%. The advanced learners scored 78% on the {o} section and 78% on {e} section, for an average score of 78%. In the production study, the advanced learners scored an average of 42% on the open vowels and 84% on the closed vowels. The beginners scored 23% on the open vowels and 97% on the closed vowels. The most striking finding in the study was that advanced learners scored lower on the closed vowel production section than did the beginners. This was due to a hypercorrection phenomenon in the advanced learners. The advanced learners, once they learned that open vowels exist in Portuguese, seemed to produce them sporadically in their speech. They tended to open many vowels that should have been closed. Beginners, however, rarely used any open vowels in their speech. Beginners showed a strong correlation between perception and production capabilities. Advanced learners, however, did not demonstrate a strong perception-production correlation. The author of this thesis can be contacted at richard@medlar.com
134

[pt] O LÉXICO DA BELEZA E DA FEIURA EM LÍNGUA PORTUGUESA EM UM CORPUS LITERÁRIO / [en] THE LEXICON OF BEAUTY AND UGLINESS IN PORTUGUESE LANGUAGE IN A LITERARY CORPUS

MICHELLE PAIVA MARINHO 07 June 2022 (has links)
[pt] Este trabalho busca descrever o léxico do belo e do feio, em língua portuguesa, partindo de informações de dicionários para realizar buscas em um grande corpus de textos literários. Especificamente, o trabalho faz uso dos corpora anotados acessíveis pelo projeto AC/DC (Acesso a corpora/ Disponibilização de corpora), para, a partir de padrões que levam em conta itens lexicais do campo da beleza e da feiura, revelar aquilo que, em língua portuguesa, é considerado belo e, também, o que é considerado feio. Realizado em dois momentos distintos, o presente trabalho utilizou um dicionário digital e um físico, em seu primeiro momento, a fim de se levantar o vocabulário da língua portuguesa que circunscrevesse os campos semânticos da beleza e da feiura e o corpus Literateca, no segundo momento, o que permitiu a observação dos contextos recorrentes para os itens lexicais de cada campo. Por fim, além da descrição e análise dos dados encontrados, é elaborado um panorama cultural que tenta explicar tais ocorrências nas circunstâncias em que aparecem. / [en] This work seeks to describe the lexicon of the beautiful and the ugly, in portuguese, using information from dictionaries to search a large corpus of literary texts. Specifically, the work makes use of the annotated corpora accessible by the AC/DC Project (Access to corpora/ Availability of corpora), in order to, from patterns that take into account lexical items in the field of beauty and ugliness, reveal what, in portuguese language, is considered beautiful and, also, what is considered ugly. Carried out in two different moments, the present work used a digital dictionary and a physical dictionary, in its first moment, in order to get the vocabulary of the portuguese language that circumscribes the semantic fields of beauty and ugliness and the Literateca corpus, in the second moment, which allowed the observation of the recurrent contexts for the lexical items of each field. Finally, in addition to the description and analysis of the data found, a cultural panorama is elaborated that tries to explain such occurences in the circumstances in which they appear.
135

[pt] A COMPREENSÃO DE REFLEXIVOS E PRONOMINAIS POR CRIANÇAS FALANTES DE PORTUGUÊS BRASILEIRO / [en] THE COMPREHENSION OF REFLEXIVES AND PRONOMINALS BY BRAZILIAN PORTUGUESE-SPEAKING CHILDREN

MICHELLE FRYDMAN PERELMUTER 20 October 2020 (has links)
[pt] Esta dissertação focaliza a compreensão de reflexivos e pronominais de terceira pessoa por crianças adquirindo o Português Brasileiro (PB), examinando os efeitos das restrições dos princípios A e B da Teoria da Ligação, sob uma perspectiva psicolinguística, que leva em conta a acessibilidade relativa dos possíveis antecedentes dessas formas na memória de trabalho no processamento de sentenças/discurso. Toma-se como referência a teoria da reflexividade de Reinhart e Reuland (1993), por ser compatível com um procedimento de aquisição de formas reflexivas como variáveis ligadas via identificação de predicados reflexivos na interface semântica. A distribuição do reflexivo e de pronominais clíticos/tônicos no PB é considerada. Três experimentos de identificação de imagens com crianças (3-7 anos) e um experimento-piloto com adultos são relatados. Os resultados dos experimentos 1 e 2 sugerem o reconhecimento de se como sinalizador de um predicado reflexivo desde cedo; sua interpretação local em orações encaixadas aos 5 anos; e suscetibilidade à presença de um elemento interveniente no domínio de ligação. Os resultados do experimento 3 (com adultos e crianças) indicam que a marcação de reflexividade fora da grade verbal pela anáfora si, particularmente com o intensificador mesmo(a), e por ele(a) mesmo(a) favorecem a recuperação do sujeito local. Em relação ao tônico ele, o tópico do discurso foi o mais acessível para os adultos, e o sujeito local, para as crianças. Apresenta-se um tratamento teórico que integra a expressão de reflexividade com acessibilidade na interpretação do pronome tônico em posição de objeto no PB. / [en] This dissertation focuses on the comprehension of the 3rd person reflexive and referential pronouns by Brazilian Portuguese-speaking children. The constraints of the Principles A and B of the Biding Theory are considered from a psycholinguistic perspective, which takes into account the relative accessibility of potential antecedents of those forms in the working memory during sentence/discourse processing. The reflexivity theory (Reinhart and Reuland,1993) is a major reference, for being compatible with a language acquisition procedure whereby reflexive forms are represented as bound anaphors via the identification of reflexive predicates at the semantic interface. The distribution of anaphors and clitic/stressed pronominals in BP is considered. Three picture identification experiments with children (3-7 years old) and one with adults are reported. The results of the Experiments 1 and 2 suggest that se is recognized as a reflexivity marker at an early age; that 5 year olds interpret it locally in embedded clauses; and children s susceptibility to the presence of an intervening element in the binding domain. The results of Experiment 3 (with adults and children) suggest that the marking of reflexivity by si (a non-verbal argument anaphor, mainly with the intensifier mesmo), and ele(a) mesmo(a) favor local interpretation. Regarding the stressed pronoun, it was verified the main clause subject is the most accessible antecedent for adults and the local subject is the most accessible antecedent for children. A theoretical account is presented, which integrates reflexivity and the accessibility of the 3rd person object stressed pronoun in in BP.
136

[pt] DA EXUMAÇÃO DOS FANTASMAS COLONIAIS OU O OLHAR SOBRE UMA IDENTIDADE CULTURAL PORTUGUESA A PARTIR DA OBRA CINEMATOGRÁFICA DE PEDRO COSTA / [en] THE EXHUMATION OF COLONIAL GHOSTS OR THE GAZE UPON A PORTUGUESE CULTURAL IDENTITY IN THE CINEMATOGRAPHIC WORK OF PEDRO COSTA

THIAGO FONSECA ORTMAN 07 December 2020 (has links)
[pt] A presente dissertação tem como objetivo realizar uma leitura estético-política da obra do diretor português Pedro Costa. Orientada pelas narrativas, pela mise-enscène e pelos modos de produção do cinema do realizador, ela pretende discorrer e tensionar questões acerca da colonialidade que perpassa Portugal e o continente europeu no século XXI. A partir desta obra que é enfocada nas Fontainhas, bairro lisboeta de emigrados cabo-verdianos que foi demolido pelo estado português, objetiva-se compreender o trabalho estético e político de dois filmes acompanharam este processo: No quarto da Vanda (2000) e Juventude em marcha (2006), além da realização posterior à demolição das Fontainhas: Cavalo Dinheiro (2014). Filmes que apontam para as fantasmagorias dos processos coloniais, buscando assim, trazer as suas personagens como agentes centrais dos procedimentos de fabulação do real de tais apontamentos. / [en] This dissertation aims to carry out an aesthetic-political reading of Portuguese film director Pedro Costa s work. Guided by the filmmaker s narratives, mise-enscène, and cinematic production style, the intention is to reflect on and stress questions related to coloniality that have penetrated Portugal and the European continent in the 21st century. With a body of work focussed on Fontainhas, a Lisbon neighborhood of Cape Verdean immigrants demolished by the Portuguese state, this study aims to understand the aesthetic and political work of two films that accompanied this process: In Vanda s Room (2000) and Colossal Youth (2006), in addition to the film completed after the demolition of Fontainhas: Horse Money (2014). These films point out the phantasmagorias of the colonial processes, seeking, as a result, to bring forth the characters as central agents in the fabling process of the real events noted.
137

[pt] MECANISMOS, ESTRATÉGIAS E PROCEDIMENTOS DE ESCRITA EM ALDEIA NOVA, DE MANUEL DA FONSECA / [en] WRITING MECHANISMS, STRATEGIES AND PROCEDURES IN ALDEIA NOVA, BY MANUEL DA FONSECA

FABIO DA FONSECA MOREIRA 04 December 2020 (has links)
[pt] A fim de promover mais amplamente e sem qualquer prejuízo para a definição de uma fisionomia do projeto neorrealista para a produção literária e cultural do século XX, esta tese tem como proposta investigar, teórica e criticamente, a produção literária do escritor Manuel da Fonseca. Através da obra Aldeia Nova (1942), poder-se-á verificar como a realidade é apreendida e reconsiderada na ficção de Manuel da Fonseca, assim como a utilização da palavra reflete o modo como o autor interpreta a realidade. Nesta perspectiva, destacaremos, também, como o ideal neorrealista é reproduzido nos espaços e nas ações dos personagens de Manuel da Fonseca. Como consequência dessa investigação e à medida em que se desate o nó que poderia aliar o projeto neorrealista a uma proposta compromissada do literário com um aparente desinvestimento em estratégias de escrita em prol de resultados pedagógicos mais eficientes, este estudo buscará, por fim, legitimar a produção literária e intelectual do escritor Manuel da Fonseca como um projeto marcado por uma nova prática de escrita e pelo compromisso político. / [en] In order to propose the definition of a physiognomy of the neorealist project for the literary and cultural production of the 20th century in a broader way and without any undermining, this thesis aims to investigate the writer Manuel da Fonseca through a theoretical and critical approach. Throughout Aldeia Nova (1942) it is possible to verify how reality is apprehended and reconsidered in Manuel da Fonseca s fictional work, as well as the use of the word as a reflection of the way the author interprets reality. In this perspective, we will also highlight how the neorealist ideal is reproduced in the spaces and actions of Manuel da Fonseca s characters. As a consequence of this investigation and as we untie the knot which could link the neorealist project to a committed proposal by the literary with an apparent disinvestment in writing strategies in favour of more efficient pedagogical results, this study will ultimately seek to legitimize the literary and intellectual production of the writer Manuel da Fonseca as an enterprise marked by a new writing method and political commitment.
138

[pt] DE PERÍFRASES E NÃO PERÍFRASES: UM CONTINUUM SEMÂNTICOSINTÁTICO DAS ESTRUTURAS VERBO + PREPOSIÇÃO + INFINITIVO E SUA APLICAÇÃO AO ENSINO DE PL2E / [en] ON PERIPHRASES AND NON-PERIPHRASES: A SEMANTIC-SYNTACTIC CONTINUUM OF THE VERB + PREPOSITION + INFINITIVE STRUCTURES AND ITS APPLICATION TO THE PSL/PFL TEACHING PROCESS

LUCAS REZENDE ALMEIDA 14 July 2021 (has links)
[pt] A presente tese descreve as estruturas de infinitivo desde uma abordagem semântica, baseada nas perífrases verbais, até uma abordagem sintática, baseada no complemento e na formação morfológica do primeiro verbo, com o objetivo de auxiliar no ensino de Português como Segunda Língua para Estrangeiros (PL2E). Para tanto, utilizamos a Linguística de Corpus através da plataforma digital Linguateca, na seleção randômica de dados tanto quantitativos quanto qualitativos que descrevem esse fenômeno verbal. Por meio de autores como Almeida (1980), Travaglia (2014), Barroso (1960), Pontes (1973), Fernandes (1983) e Luft (2003), conseguimos conceituar as perífrases verbais e suas dependências morfossemânticas e morfossintáticas, apresentando os valores aspectuais e modais que as envolvem, e caracterizar os diferentes cenários que tornam os verbos semanticamente independentes. Cento e setenta e duas estruturas verbais são divididas em dois grandes grupos: trinta e seis são consideradas perífrases verbais e as demais cento e trinta e seis configuram um grupo em que os verbos não possuem uma relação semântica entre si devido a fatores sintáticos, como as orações reduzidas; a fatores lexicais, como as expressões cristalizadas; a limitações da própria pesquisa, como as formas em desuso; e por fim a fatores morfológicos, como a forma nominal particípio passado. Em seguida, propomos uma sequência didática para alunos de nível intermediário e avançado de PL2E a fim de ilustrar a transposição dessas estruturas do discurso acadêmico para o discurso pedagógico. Concluímos que boa parte das estruturas de infinitivo mais proeminentes em língua portuguesa em nosso corpus possuem uma independência semântica entre os verbos, e que os motivos que as levam a serem consideradas ou não como perífrases verbais estão mais relacionados às flutuações semânticas dessas estruturas do que a fenômenos sintáticos. / [en] This dissertation describes the infinitive structures from a semantic approach, based on verbal periphrases, to a syntactic one, based on the complement and morphological formation of the first verb, in order to assist the Portuguese as a Second/Foreign Language (PSL/PFL) teaching process. For that, we use Corpus Linguistics through the digital platform Linguateca for the random selection of both quantitative and qualitative data that describe this verbal phenomenon. Based on authors such as Almeida (1980), Travaglia (2014), Barroso (1960), Pontes (1973), Fernandes (1983) and Luft (2003), we were able to conceptualize verbal periphrases and their morphosemantic and morphosyntactic dependence, presenting the aspectual and modal values that involve it, and to characterize the different scenarios that produce semantically independent verbs. One hundred and seventy-two verbal structures are divided into two large groups: thirty-six are considered verbal periphrases and one hundred and thirty-six constitute a group in which the verbs do not hold a semantic relationship between each other due to syntactic factors, such as reduced sentences; due to lexical factors, such as crystallized expressions; due to limitations of the research itself, such as forms in disuse; and due to morphological factors, such as the past participle nominal form. Then, we propose a didactic sequence for advanced PSL/PFL students in order to illustrate the transition from the academic discourse of these structures to the pedagogical discourse. We conclude that the Portuguese prominent infinitive structures in our corpus do not hold a semantic independence between verbs and the reasons that lead them to be considered or not as verbal periphrases are more related to the semantic fluctuations of these structures than to syntactic phenomena.
139

[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE / [pt] SUMARIZAÇÃO DE ARTIGOS CIENTÍFICOS EM PORTUGUÊS NO DOMÍNIO DA SAÚDE

DAYSON NYWTON C R DO NASCIMENTO 30 October 2023 (has links)
[pt] Neste trabalho, apresentamos um estudo sobre o fine-tuning de um LLM (Modelo de Linguagem Amplo ou Large Language Model) pré-treinado para a sumarização abstrativa de textos longos em português. Para isso, construímos um corpus contendo uma coleção de 7.450 artigos científicos na área de Ciências da Saúde em português. Utilizamos esse corpus para o fine-tuning do modelo BERT pré-treinado para o português brasileiro (BERTimbau). Em condições semelhantes, também treinamos um segundo modelo baseado em Memória de Longo Prazo e Recorrência (LSTM) do zero, para fins de comparação. Nossa avaliação mostrou que o modelo ajustado obteve pontuações ROUGE mais altas, superando o modelo baseado em LSTM em 30 pontos no F1-score. O fine-tuning do modelo pré-treinado também se destaca em uma avaliação qualitativa feita por avaliadores a ponto de gerar a percepção de que os resumos gerados poderiam ter sido criados por humanos em uma coleção de documentos específicos do domínio das Ciências da Saúde. / [en] In this work, we present a study on the fine-tuning of a pre-trained Large Language Model for abstractive summarization of long texts in Portuguese. To do so, we built a corpus gathering a collection of 7,450 public Health Sciences papers in Portuguese. We fine-tuned a pre-trained BERT model for Brazilian Portuguese (the BERTimbau) with this corpus. In a similar condition, we also trained a second model based on Long Short-Term Memory (LSTM) from scratch for comparison purposes. Our evaluation showed that the fine-tuned model achieved higher ROUGE scores, outperforming the LSTM based by 30 points for F1-score. The fine-tuning of the pre-trained model also stands out in a qualitative evaluation performed by assessors, to the point of generating the perception that the generated summaries could have been created by humans in a specific collection of documents in the Health Sciences domain.
140

[pt] AQUISIÇÃO DA LINGUAGEM COM INPUT VARIÁVEL: O CASO DA CONCORDÂNCIA DE NÚMERO NO PORTUGUÊS BRASILEIRO / [en] LANGUAGE ACQUISITION BASED ON VARIABLE INPUT: THE CASE OF NUMBER AGREEMENT IN BRAZILIAN PORTUGUESE

ANA PAULA DA SILVA PASSOS JAKUBOW 17 February 2022 (has links)
[pt] Esta tese investiga como as crianças que vivem no Rio de Janeiro (Rio) lidam com input variável no que concerne às marcas morfofonológicas de concordância de número em Português Brasileiro (PB). Em PB, o plural pode ser expresso apenas no determinante (D) (não-redundante, variedade não-padrão) ou em todos os elementos que concordam com D (redundante, variedade padrão). O grau de variação é influenciado pelo nível de escolaridade e pelo nível socioeconômico (NSE) do falante: quanto mais escolarizado o falante é, mais marcas de plural são produzidas (NARO, 1981; NARO; SCHERRE, 2015; SCHERRE; NARO, 1998). O Rio é um ambiente de contato entre variedades, já que pessoas de diferentes NSE interagem cotidianamente. Sugere-se que input variável resulta em aquisição e representação de traços morfofonológicos pertinentes à expressão da redundância da concordância de número plural subespecificados (cf. ROORYCK, 1994) no léxico. Assume-se que a gradual especificação dessas informações depende de fatores sociais, o que pode acarretar uma espécie de bilinguismo. Um experimento de produção induzida por repetição foi conduzido com crianças em idade pré- escolar de escolas pública e particular, no qual possíveis combinações de concordância foram manipuladas a fim de verificar se há diferença entre a performance dos dois grupos, uma vez que tipo de escola é tomado como variável social (ALVES; SOARES; XAVIER, 2014). Os resultados demonstram que ambos os grupos apresentam variação, mas diferem na produção das variedades não- padrão: Pub apresenta respostas não-padrão com mais frequência que Priv. No momento da codificação morfofonológica, na produção da linguagem, o acesso aos morfemas armazenados em uma espécie de Pool of Variants (ADGER, 2007), sofreria influência de fatores sociais e de frequência (LEVELT, 1999). A marca de plural obrigatória no determinante é explicada pelo viés sintático e pelo viés do processamento via um modelo de computação online para a produção da linguagem (CORRÊA; AUGUSTO, 2007, 2011), assumindo transferência para as interfaces em fases (CHESI, 2007) e que o DP em PB possui duas fases (PICALLO, 2017). O efeito de escolaridade na variação da concordância de número é verificado com dados de crianças do 6º ano de escolas pública e particular também no subúrbio do Rio. Os resultados mostram um efeito de tipo de escola/SES, em que Priv produz respostas padrão mais frequentemente que Pub. Além disso, foi verificado um efeito de desempenho escolar com os alunos de 6º ano de uma mesma escola pública: Pub A (bom desempenho acadêmico) é menos sujeito à variação do que Pub B (desempenho escolar regular). De maneira geral, os resultados do 6º ano indicam interação entre NSE e desempenho escolar em um continuum gradiente de produção de concordância de número: Priv > Pub A > Pub B. Adicionalmente, um teste de habilidades linguísticas (MABILIN II (CORRÊA, 2000)) buscou verificar habilidades dos alunos de 6º ano em extrair informação de número gramaticalmente relevante na compreensão e na produção do PB pelo grupo Pub B, visto que este grupo do 6º ano apresentou performance similar ao grupo de pré-escolares da escola pública, apesar da diferença de idade entre os dois grupos. Os resultados dos experimentos são discutidos em termos de um contexto bi/multilíngue: a) falantes de PB adquirem as duas variedades simultaneamente, como na aquisição bilíngue simultânea (MEISEL, 1994); b) um bom desempenho escolar pode melhorar a consciência metalinguística do falante, permitindo code-switching entre as variedades, dependendo do nível de proficiência em cada uma delas (CRAIG; WASHINGTON, 2004); c) um bom desempenho escolar e NSE alto podem resultar em uma espécie de bilinguismo passivo ou bidialetalismo passivo em relação às formas não-redundantes (see CORNIPS, 2014). Por fim, os resultados são discutidos em termos de um continuum multilíngue, caracterizado, em um extremo, como uma gramática subespecificada e, em outro, duas gramáticas separadas, acessadas de maneira independente. Esta tese, portanto, está inserida em um campo interdisciplinar com vistas a conciliar sociolinguística, psicolinguística e teorias linguísticas formais. / [en] This thesis investigates how children growing up in Rio de Janeiro city (Rio) deal with variable input regarding the morphophonological expression of number agreement in Brazilian Portuguese (BP). Plural in BP may be expressed only in the determiner (non-redundant, non-standard variety) or in all agreeing elements (redundant, standard variety). The level of variation is influenced by social factors such as level of education and socioeconomic status (SES): the more educated the speaker is, the more redundancy is morphologically expressed (NARO, 1981; NARO; SCHERRE, 2015; SCHERRE; NARO, 1998). In Rio, these varieties co- exist, given that people from different SES interact on a daily basis. It is proposed that exposure to variable input yields underspecification (ADGER, 2006; ADGER; SMITH, 2010). In the case of number agreement in BP, it is suggested that variation results in underspecification (see ROORYCK, 1994) of morphophonological features in the lexicon pertaining to plural agreement redundancy. We hypothesize that there is a level of bilingualism regulated by SES in number agreement in BP: gradual specification of morphophonological information is dependent on social factors, resulting in a sort of bilingualism. An elicited production task was carried out with preschoolers, from both private (Priv) and public (Pub) schools in Rio’s suburban area, in order to verify whether preschoolers exhibit preference for any of the morphophonological expressions of number agreement; type of school is taken as a social variable (ALVES; SOARES; XAVIER, 2014). Results show that preschoolers exhibit a considerable level of variation. However, they differ in terms of production of non-standard varieties, being Pub more likely to produce non- standard forms than Priv. It is argued that during morphophonological encoding in language production, the access to morphemes stored in a Pool of Variants (ADGER, 2007) becomes subject to frequency (LEVELT, 1999) and influence of social factors. Obligatory plural marking in the determiner is explained both from the perspective of language knowledge and its representation and from an online computational model for language production (CORRÊA; AUGUSTO, 2007, 2011), assuming a two-phase DP (PICALLO, 2017) which is phase-based transferred (CHESI, 2007) to morphophonological encoding. The effect of schooling/ literacy in number agreement variation is also verified with Priv and Pub 6th graders. Results show an effect of type of school/ SES in which Priv produces more standard responses than Pub. Additionally, an effect of overall academic performance was obtained among Pub 6th graders from the same school: Pub A (above-average academic performance) are less subject to variation than Pub B (below-average academic performance). Overall, 6th graders results show that academic performance and SES interact in a gradient continuum of number agreement redundancy production: Priv > Pub A > Pub B. Furthermore, a test of assessment of linguistic abilities regarding number agreement, MABILIN II (CORRÊA, 2000), verified whether Pub B 6th graders are able to process grammatical information pertaining to number, given that their performance was similar to Pub preschoolers, despite their age difference. Preschoolers and 6th graders results are discussed in terms of bi/multilingual-like contexts: a) BP speakers acquire both varieties simultaneously, as in Bilingual First Language Acquisition (MEISEL, 1994); b) Good academic performance may enhance metalinguistic awareness allowing for code-switching depending on the level of proficiency in one of the varieties (CRAIG; WASHINGTON, 2004); c) good academic performance and higher SES may result in a sort of passive bilingualism or passive bidialectalism regarding the non-standard forms (see CORNIPS, 2014). Finally, preschoolers and 6th graders results are discussed in terms of a multilingual continuum, characterized as underspecification as variation within one grammar in one extreme to access to different, independent specified grammars in another extreme. More broadly, this thesis is inserted in an interdisciplinary field, combining sociolinguistics, psycholinguistics and theoretical formal linguistics.

Page generated in 0.0472 seconds