Global ETD Search

11	Geração multi-parametrizada de corpora linguísticos Silva, Nayara Rosy Felix da 31 August 2015 (has links) Fundação de Apoio a Pesquisa e à Inovação Tecnológica do Estado de Sergipe - FAPITEC/SE / Não informado. / O desenvolvimento de software de Processamento de Linguagem Natural (PLN) é altamente dependente da boa qualidade do que chamamos de corpus Linguístico. Um corpus é uma coleção de textos processáveis pelo computador, mas produzidos dentro de um ambiente comunicativo natural. Essa dependência advém do fato de que a maior parte do trabalho realizado com PLN hoje em dia está relacionado ao uso de técnicas de Aprendizado de Máquina para criação de modelos de linguagem. Para sistemas que permitem correção automática e previsão de palavras e sentenças, por exemplo, modelos linguísticos são gerados a partir de um corpus de texto a partir de transcrições usando N-Gram. Infelizmente, corpora linguísticos em português do Brasil não são abundantes e sua confecção não é uma tarefa trivial. Um caminho para a confecção de corpus linguísticos em Português é a confecção de CrawlersWeb. Focused Crawlers, em particular, têm o propósito de coletar páginas da Web que sejam relevantes a um tópico ou interesse específico do usuário. FocusedCrawlers existentes ainda não atendem completamente a necessidades específicas e toda potencialidade de um sistema de PLN. Esta dissertação de mestrado se propõe a contribuir com o Estado da Arte ao propor uma ferramenta para a confecção automática de corpora bem representativos ao objetivo do usuário que possam ser balanceados em respeito a fatores tais como tipo de coleta, domínio, língua, formalidade do discurso e rotulação do texto. A ferramenta permite ainda que etapas de pós-processamento sejam realizadas, como por exemplo limpeza do corpus, construção de um modelo de linguagem e de um modelo de entidades nomeadas. Dois corpora foram criados em duas formas de coleta distintas: por dados da Web (corpus Vaza- Barris) ou por dados do Twitter (corpus Poxim). O corpus VazaBarris possui 86 milhões de palavras e o Poxim possui 3 milhões de palavras. Estes corpora foram avaliados por meio da criação de modelo de linguagem e comparação com dois outros corpora em Português. Os resultados mostram que Poxim alcançou o melhor valor de perplexidade. Poxim também traz maior contribuição quando interpolado com algum outro corpus. Além dos corpora, foi criado um método de coleta automática para streaming de dados, utilizando o algoritmo de Relevance Feedback. Segundo os resultados, utilizar Relevance Feedback para a coleta dos dados melhorou o valor de perplexidade com o corpus coletado inicialmente. Um terceiro corpus foi criado para rotulação de Entidades Nomeadas, o Paramopama. O Paramopama é uma versão estendida PtBR do corpus WikiNer, com inclusão das entidades Pessoa, Localização, Organização e Tempo. Os resultados mostram que o Paramopama apresentou melhoria para as métricas de Precisão, Cobertura e Medida-F na comparação com outros três corpora do Estado da Arte. Computação Software (desenvolvimento) Linguística (processamento de dados) Princípios e parâmetros (linguística) Computing Software development
12	O parametro de composição e aquisição/aprendizagem de L2 / The compounding parameter and L2 aquisition/learning Marcelino, Marcello 26 February 2007 (has links) Orientadores: Mary Aizawa Kato, Ruth Lopes / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-08-10T09:24:27Z (GMT). No. of bitstreams: 1 Marcelino_Marcello_D.pdf: 794651 bytes, checksum: 13f0b04e19ffc8fe1aeff46021733ca4 (MD5) Previous issue date: 2007 / Resumo: Esta tese investiga o Parâmetro de Composição (PC) conforme formulado por Snyder (1995) e seu papel na aquisição/aprendizagem de inglês por aprendizes brasileiros. A definição positiva do PC [+] permite a uma língua marcar livremente qualquer item lexical da classe aberta como [+Afixal] e conseqüentemente, detonar toda uma série de propriedades relacionadas (cluster), a saber, composição nominal (N+N), estruturas resultativas (ER), construções V+partícula (V+PRT), construções com objeto duplo (DOC) e isolamento de preposição (PrepStr), entre outras. Diante da aparente existência, em PB, de algumas estruturas semelhantes às do inglês, proponho-me a investigar as seguintes questões: (i) através de comparação entre o PB e o inglês, é possível trazer evidências de que todas as propriedades resultantes da definição positiva do PC, ou pelo menos parte delas estão ligadas ao mesmo parâmetro? (ii) se houver tal parâmetro, a aquisição do inglês como L2 apresenta semelhanças com a aquisição de L1 em relação ao comportamento relativo ao mesmo parâmetro? Após comparação e análise das cinco estruturas propostas, descobri que nenhuma delas, nem mesmo as com correlato estrutural superficial, resulta, no PB, da definição positiva do PC. N+N em PB exemplifica um tipo de composição nominal não recursivo com rigidez de significado; as ERs encontradas em PB são do tipo semântico e não correspondem às versões sintáticas licenciadas pelo PC [+]; estruturas V+PRT e COD são inexistentes; por fim, PB apresenta estruturas com ausência de preposição, que resultam de um diferente arranjo de itens especificados na numeração, diferentemente de estruturas com isolamento de preposição, que são exemplos de predicados complexos decorrentes de Reanálise. Em relação à aquisição das cinco propriedades do PC, sugiro, após análise dos dados de um experimento, que a aquisição das propriedades do (PC) em L2 não é semelhante à sua aquisição em L1. Em L2, as propriedades nucleares (resultativas, V+Partícula,) parecem ter sido adquiridas pelos falantes avançados, possivelmente via imersão. As estruturas não nucleares (COD e PrepStr) juntamente com a estrutura nuclear N+N foram aprendidas via instrução formal. Essas últimas parecem permanecer disponíveis na forma de conhecimento lingüístico consciente / Abstract: This dissertation investigates the Compounding Parameter (CP) as formulated by Snyder (1995) and its role in the acquisition/learning of English by Brazilian learners. The positive setting of the CP [+] allows a given language to freely mark any open-class lexical item as [+Affixal] and consequently trigger a cluster of related properties, namely N+N compounding (N+N), resultative structures (RS), V+Particle (V+PRT) constructions, double object constructions (DOC) and preposition stranding (PrepStr), among others. Upon the apparent existence of structures in Brazilian Portuguese (BP) that resemble some of those in English, namely RS and PrepStr, I set out to explore the following questions: (i) does the comparison between Brazilian Portuguese and English offer evidence that all the properties attributed to the positive setting of the CP, or part of them, follow from the same parameter? (ii) assuming the existence of this parameter, are there any similarities between L1 and L2 acquisition as far as the CP is concerned? After the comparison and analysis of the five related properties, I found out that none of the structures, even the superficially identical looking ones, resulted from the positive setting of the CP. N+N in BP is a result of non recursive N+N compounding with lexically rigid meaning; the RSs found in BP are semantic resultatives that do not correspond to the syntactic versions of the CP-positively valued ones; the V+Particle and DOC constructions are nonexistent; finally, BP offers prepositionless structures that result from a different array of items specified in the numeration, differently from the Reanalysis of V+Preposition, which allows the preposition to be stranded in English. As for the acquisition of the five CP properties, I suggest, after analyzing the data of an experimental study, that the L2 acquisition processes differ from those of the L1 in that the non-nuclear properties (DOC and PrepStr) along with the nuclear property N+N seem to have been learned via formal instruction (ordered input, explicit positive and negative evidence) and remain available as conscious linguistic knowledge. The nuclear properties (RS and V+PRT), on the other hand, seem to have been acquired by the highly proficient L2 English speakers, probably via immersion / Doutorado / Doutor em Linguística Parmetros de composição (Linguistica) Aquisição da segunda linguagem Predicados complexos Princípios e parâmetros (Linguística) Sintaxe (Gramatica) Compounding parameter (linguistic) Second language acquisition Complex predicates Principles and parameters (Linguistics) Syntax (Gramatica)
13	Portugues brasileiro como segunda lingua : um estudo sobre o sujeito nulo / Brazilian portuguese as a second language : a null subject study Xavier, Gildete Rocha 31 August 2006 (has links) Orientadores: Mary Aizawa Kato, Maria Cecilia Perroni / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-08-07T21:34:01Z (GMT). No. of bitstreams: 1 Xavier_GildeteRocha_D.pdf: 1279433 bytes, checksum: 16b8a9f21d756dac70208dc8ab02e2b7 (MD5) Previous issue date: 2006 / Resumo: Este estudo objetiva investigar como se dá a aquisição do sujeito nulo do português brasileiro (PB) como segunda língua (L2) por adultos estrangeiros, falantes nativos de Inglês e Italiano em situação de imersão total. A pesquisa desenvolve-se no âmbito da gramática gerativa, dentro do quadro da Teoria de Princípios e Parâmetros (Chomsky 1981,1986) e do Programa Minimalista (Chomsky, 1993, 1995, 2000). As questões da pesquisa estão relacionadas à questão do acesso à Gramática Universal (GU), por aprendizes de L2. Mais especificamente, procurou-se investigar se os sujeitos aqui analisados têm acesso à GU e, em caso afirmativo, qual seria a forma desse acesso. Os resultados da análise dos dados confirmaram a) a hipótese de acesso direto à GU, através do uso do valor default do parâmetro pro-drop = sujeitos nulos ou preenchidos + a forma verbal unipessoal, nas produções dos falantes de inglês e italiano em fase inicial de aquisição e, b) a hipótese do acesso indireto à GU, via LI, nas produções dos sujeitos falantes de inglês e italiano em fase não inicial de aquisição. Além disso, considerando que as línguas pro-drop não constituem um único tipo, levantou-se a hipótese de que, com base nos dados do input, os aprendizes vão apresentar o pro-drop do PB, a partir da aquisição da concordância dessa língua, o que se confirmou. A tese confirma a hipótese do "bilingüismo universal" de Roeper (1999), não apenas para o estágio inicial, mas para os estágios intermediário e final / Abstract: The aim of this study is to investigate the acquisition of the null subject in Brazilian Portuguese (BP) as a second language (L2) by native adult speakers of English and Italian in a situation of total immersion. The research was developed within the framework of the Principles and Parameters Theory (Chomsky 1981, 1986) and the Minimalist Program, Chomsky, 1993, 1995,2000). The research attempted to investigate whether the L2 leaders have access to Universal Grammar (UG) and what the form of that access would be. The results of the analysis confirmed a) the hypothesis of direct access to UG, through the use of the prcxlrop parameter's default value = null or overt subjects + the one-person agreement verbal form, in the production of English and Italian speakers in the initial phase of acquisition and, b) the hypothesis of indirect access to UG through LI, in the production of the English and Italian speakers in the non-initial phase of acquisition. Considering that prodrop languages do not constitute a single type, it was hypothesized that, based upon data from the input, the leamers would present the prcxlrop of BP, starting by the acquisition of the agreement in that language, which was confirmed. The analysis confirms the "universal bilingualism" hypothesis (Roeper, 1999), not only for the initial stage of acquisition, but also for the intermediate and final stages / Doutorado / Linguistica / Doutor em Linguística Aquisição de linguagem Gramática gerativa Aquisição da segunda linguagem Princípios e parâmetros (Linguística) Language acquisition Second language acquisition Generative grammar Null subject Principles and parameters (Linguistics)

Page generated in 0.1332 seconds