Spelling suggestions: "subject:"morfosintáctico"" "subject:"sintática""
1 |
Consciência Morfossintática Versus Habilidades de Compreensão e Decodificação em Crianças DisléxicasMelo, Lays Santana de Bastos 09 September 2016 (has links)
Submitted by Glauber Assunção Moreira (glauber.a.moreira@gmail.com) on 2018-08-21T12:53:50Z
No. of bitstreams: 1
Tese - Lays Santana de Bastos Melo.pdf: 5885281 bytes, checksum: 686f5e6f6645f01a710c812f4b99d83b (MD5) / Approved for entry into archive by Setor de Periódicos (per_macedocosta@ufba.br) on 2018-08-21T17:20:25Z (GMT) No. of bitstreams: 1
Tese - Lays Santana de Bastos Melo.pdf: 5885281 bytes, checksum: 686f5e6f6645f01a710c812f4b99d83b (MD5) / Made available in DSpace on 2018-08-21T17:20:25Z (GMT). No. of bitstreams: 1
Tese - Lays Santana de Bastos Melo.pdf: 5885281 bytes, checksum: 686f5e6f6645f01a710c812f4b99d83b (MD5) / RESUMO
O objetivo central desta pesquisa foi descrever o desempenho de leitura dos disléxicos, especificamente quanto às habilidades de decodificação e compreensão, investigando as relações com seus respectivos níveis de consciência morfossintática. A pesquisa seguiu o aporte teórico da Psicologia Cognitiva, concordando com a definição oferecida pela Associação Brasileira de Dislexia (2014) segundo a qual este transtorno pode ser definido como uma desordem específica de linguagem de origem constitucional, caracterizada por um problema na decodificação de palavras isoladas, ocasionada pela dificuldade de relacionar fonemas aos grafemas – hipótese do déficit fonológico. Considerando que tal déficit é modular, ou seja, outros processamentos linguísticos podem permanecer funcionalmente intactos, perguntou-se como se caracteriza o desempenho de disléxicos quanto às habilidades morfossintáticas e se elas podem influenciar os escores de leitura. Integram a amostra 14 sujeitos disléxicos, na faixa etária entre 08 e 15 anos, tratados no Centro de Referência em Distúrbios de Aprendizagem e Dislexia da Universidade Federal do Rio de Janeiro. A metodologia englobou a aplicação da Prova de Consciência Sintática - PCS (CAPOVILLA; CAPOVILLA, 2009), do Teste de Competência de Leitura Silenciosa de Palavras e Pseudopalavras - TCLPP (CAPOVILLA; CAPOVILLA, 2010), de uma tarefa de facilitação contextual na leitura (teste de Cloze) (SANTOS, 2005) e de uma tarefa de memória verbal (REGO, 1995), que atuou como medida de controle. Os resultados demonstraram que tanto em relação à faixa etária quanto em relação à série, os sujeitos da pesquisa, em sua maioria, situaram-se acima da média esperada da PCS. Verificou-se também que quanto maiores seus valores, maiores os escores no TCLPP e no Cloze. Observou-se ainda que os escores totais da PCS estão mais relacionados com as habilidades de leitura em contexto (Teste de Cloze) do que com as palavras isoladas (TCLPP) e o desempenho dos sujeitos em memória verbal não influenciou nos resultados obtidos, visto que, de forma geral, se encontraram nos padrões de normalidade. Concluiu-se que, a despeito do déficit de consciência fonológica, as crianças disléxicas possuem um desempenho relativamente adequado em consciência morfossintática, o que implica que os programas de remediação deste grupo não devem incluir unicamente estratégias envolvendo habilidades fonológicas, mas também de consciência morfossintática, visando constituir meio compensatório das suas dificuldades. / ABSTRACT
The main objective of this research was to describe the reading performance of dyslexics, specifically regarding the decoding and comprehension skills by investigating the relations with their respective levels of morphosyntactic awareness. The research followed the theory of Cognitive Psychology, according to the definition offered by the Brazilian Association of Dyslexia (2009) that this is a language disorder and it has a constitutional origin, characterized by a problem in decoding single words, caused by the difficulty of linking phonemes to graphemes - hypothesis of phonological deficit. Considering that this is a modular deficit, i.e. other language processing may remain functionally intact, the problem focused on how the performance of dyslexics was in terms of morphosyntactic skills and whether this could influence reading scores. The sample included 14 dyslexic subjects, aged from 08 to 15 years, treated at the Centro de Referência em Distúrbios de Aprendizagem e Dislexia da Universidade Federal do Rio de Janeiro. The methodology involved the application of Prova de Consciência Sintática (Syntactic Awareness Task) - PCS (CAPOVILLA, CAPOVILLA, 2009), Teste de Competência de Leitura Silenciosa de Palavras e Pseudopalavras (Silent Words and Pseudowords Reading Competence) - TCLPP (CAPOVILLA, CAPOVILLA, 2010), a contextual facilitation reading test (Cloze Test) (SANTOS, 2005) and a verbal memory test (REGO, 1995), which served as a control measure. Results showed that both in terms of age as well as of school level subjects, generally, were above the expected PCS average. It was also found that the higher these scores reached, the higher scores were attained in the TCLPP and the Cloze Test. Another important outcome was that the overall PCS scores were mostly related to reading in context abilities (Cloze Test) rather than in isolated word (TCLPP), and subjects performance in verbal memory was not influencial, as results were within normal range. We may conclude, then, that in spite of the phonological deficit, dyslexics children display relatively adequate performance in terms of morphosyntactic awareness, which implies that reabilitation programs should not only include phonologically based strategies, but also focus on morphosyntactic awareness abilities in order to create a compensatory means to deal with their limitations.
|
2 |
Modelagem de contextos para aprendizado automático aplicado à análise morfossintática / Modeling contexts for automatic learning applied to morphosyntactic analysisKepler, Fábio Natanael 28 May 2010 (has links)
A etiquetagem morfossintática envolve atribuir às palavras de uma sentença suas classes morfossintáticas de acordo com os contextos em que elas aparecem. Cadeias de Markov de Tamanho Variável (VLMCs, do inglês \"Variable-Length Markov Chains\") oferecem uma forma de modelar contextos maiores que trigramas sem sofrer demais com a esparsidade de dados e a complexidade do espaço de estados. Mesmo assim, duas palavras do português apresentam um alto grau de ambiguidade: \'que\' e \'a\'. O número de erros na etiquetagem dessas palavras corresponde a um quarto do total de erros cometidos por um etiquetador baseado em VLMCs. Além disso, essas palavras parecem apresentar dois diferentes tipos de ambiguidade: um dependendo de contexto não local e outro de contexto direito. Exploramos maneiras de expandir o modelo baseado em VLMCs através do uso de diferentes modelos e métodos, a fim de atacar esses problemas. As abordagens mostraram variado grau de sucesso, com um método em particular (aprendizado guiado) se mostrando capaz de resolver boa parte da ambiguidade de \'a\'. Discutimos razões para isso acontecer. Com relação a \'que\', ao longo desta tese propusemos e testamos diversos métodos de aprendizado de informação contextual para tentar desambiguá-lo. Mostramos como, em todos eles, o nível de ambiguidade de \'que\' permanece praticamente constante. / Part-of-speech tagging involves assigning to words in a sentence their part-of-speech class based on the contexts they appear in. Variable-Length Markov Chains (VLMCs) offer a way of modeling contexts longer than trigrams without suffering too much from data sparsity and state space complexity. Even so, two words in Portuguese show a high degree of ambiguity: \'que\' and \'a\'. The number of errors tagging these words corresponds to a quarter of the total errors made by a VLMC-based tagger. Moreover, these words seem to show two different types of ambiguity: one depending on non-local context and one on right context. We searched ways of expanding the VLMC-based model with a number of different models and methods in order to tackle these issues. The approaches showed variable degrees of success, with one particular method (Guided Learning) solving much of the ambiguity of \'a\'. We explore reasons why this happened. Rega rding \'que\', throughout this thesis we propose and test various methods for learning contextual information in order to try to disambiguate it. We show how, in all of them, the level of ambiguity shown by \'que\' remains practically c onstant.
|
3 |
Modelagem de contextos para aprendizado automático aplicado à análise morfossintática / Modeling contexts for automatic learning applied to morphosyntactic analysisFábio Natanael Kepler 28 May 2010 (has links)
A etiquetagem morfossintática envolve atribuir às palavras de uma sentença suas classes morfossintáticas de acordo com os contextos em que elas aparecem. Cadeias de Markov de Tamanho Variável (VLMCs, do inglês \"Variable-Length Markov Chains\") oferecem uma forma de modelar contextos maiores que trigramas sem sofrer demais com a esparsidade de dados e a complexidade do espaço de estados. Mesmo assim, duas palavras do português apresentam um alto grau de ambiguidade: \'que\' e \'a\'. O número de erros na etiquetagem dessas palavras corresponde a um quarto do total de erros cometidos por um etiquetador baseado em VLMCs. Além disso, essas palavras parecem apresentar dois diferentes tipos de ambiguidade: um dependendo de contexto não local e outro de contexto direito. Exploramos maneiras de expandir o modelo baseado em VLMCs através do uso de diferentes modelos e métodos, a fim de atacar esses problemas. As abordagens mostraram variado grau de sucesso, com um método em particular (aprendizado guiado) se mostrando capaz de resolver boa parte da ambiguidade de \'a\'. Discutimos razões para isso acontecer. Com relação a \'que\', ao longo desta tese propusemos e testamos diversos métodos de aprendizado de informação contextual para tentar desambiguá-lo. Mostramos como, em todos eles, o nível de ambiguidade de \'que\' permanece praticamente constante. / Part-of-speech tagging involves assigning to words in a sentence their part-of-speech class based on the contexts they appear in. Variable-Length Markov Chains (VLMCs) offer a way of modeling contexts longer than trigrams without suffering too much from data sparsity and state space complexity. Even so, two words in Portuguese show a high degree of ambiguity: \'que\' and \'a\'. The number of errors tagging these words corresponds to a quarter of the total errors made by a VLMC-based tagger. Moreover, these words seem to show two different types of ambiguity: one depending on non-local context and one on right context. We searched ways of expanding the VLMC-based model with a number of different models and methods in order to tackle these issues. The approaches showed variable degrees of success, with one particular method (Guided Learning) solving much of the ambiguity of \'a\'. We explore reasons why this happened. Rega rding \'que\', throughout this thesis we propose and test various methods for learning contextual information in order to try to disambiguate it. We show how, in all of them, the level of ambiguity shown by \'que\' remains practically c onstant.
|
4 |
Leis de Escala nos gastos com saneamento básico: dados do SIOP e DOU / Scaling Patterns in Basic Sanitation Expenditure: data from SIOP and DOURibeiro, Ludmila Deute 14 March 2019 (has links)
A partir do final do século 20, o governo federal criou vários programas visando a ampliação de acesso ao saneamento básico. Embora esses programas tenham trazido o abastecimento de água potável e a coleta de resíduos sólidos para a maioria dos municípios brasileiros, o esgotamento sanitário ainda está espacialmente concentrado na região Sudeste e nas áreas mais urbanizadas. Para explicar esse padrão espacialmente concentrado, é frequentemente assumido que o tamanho das cidades realmente importa para o saneamento básico, especialmente para o esgotamento sanitário. De fato, à medida que as cidades crescem em tamanho, devemos esperar economias de escala no volume de infraestrutura de saneamento. Economias de escala na infra-estrutura implicam uma redução nos custos de saneamento básico, de forma proporcional ao tamanho da cidade, levando também a uma (esperada) relação de lei de escala (ou de potência) entre os gastos com saneamento básico e o tamanho da cidade. Usando a população, N(t), como medida do tamanho da cidade no momento t, a lei de escala para infraestrutura assume o formato Y(t) = Y0N(t)β onde β ≈ 0.8 < 1, Y denota o volume de infraestrutura e Y0 é uma constante. Diversas propriedades das cidades, desde a produção de patentes e renda até a extensão da rede elétrica, são funções de lei de potência do tamanho da população com expoentes de escalamento, β, que se enquadram em classes distintas. As quantidades que refletem a criação de riqueza e a inovação têm β ≈ 1.2 > 1 (retornos crescentes), enquanto aquelas responsáveis pela infraestrutura exibem β ≈ 0.8 < 1 (economias de escala). Verificamos essa relação com base em dados extraídos do Sistema Integrado de Planejamento e Orçamento (SIOP), que abrangem transferências com recursos não onerosos, previstos na Lei Orçamentária Anual (LOA), na modalidade saneamento básico. No conjunto, os valores estimados de β mostram redução das transferências da União Federal para saneamento básico, de forma proporcional ao tamanho dos municípios beneficiários. Para a dotação inicial, valores programados na LOA, estimado foi de aproximadamente: 0.63 para municípios com população superior a dois mil habitantes; 0.92 para municípios acima de vinte mil habitantes; e 1.18 para municípios com mais de cinquenta mil habitantes. A segunda fonte de dados identificada foi o Diário Oficial da União (DOU), periódico do governo federal para publicação de atos oficiais. Os dados fornecidos pelo DOU referem-se aos recursos não onerosos e também aos empréstimos com recursos do Fundo de Garantia por Tempo de Serviço (FGTS). Para extração dos dados textuais foram utilizadas técnicas de Processamento de Linguagem Natural(PLN). Essas técnicas funcionam melhor quando os algoritmos são alimentados com anotações - metadados que fornecem informações adicionais sobre o texto. Por isso geramos uma base de dados, a partir de textos anotados do DOU, para treinar uma rede LSTM bidirecional aplicada à etiquetagem morfossintática e ao reconhecimento de entidades nomeadas. Os resultados preliminares obtidos dessa forma estão relatados no texto / Starting in the late 20th century, the Brazilian federal government created several programs to increase the access to water and sanitation. However, although these programs made improvements in water access, sanitation was generally overlooked. While water supply, and waste collection are available in the majority of the Brazilian municipalities, the sewage system is still spatially concentrated in the Southeast region and in the most urbanized areas. In order to explain this spatially concentrated pattern it is frequently assumed that the size of cities does really matter for sanitation services provision, specially for sewage collection. As a matter of fact, as cities grow in size, one should expect economies of scale in sanitation infrastructure volume. Economies of scale in sanitation infrastructure means a decrease in basic sanitation costs, proportional to the city size, leading also to a (expected) power law relationship between the expenditure on sanitation and city size.Using population, N(t), as the measure of city size at time t, power law scaling for infrastructure takes the form Y(t) = Y0N(t)β where β ≈ 0.8 < 1, Y denotes infrastructure volume and is a constant. Many diverse properties of cities from patent production and personal income to electrical cable length are shown to be power law functions of population size with scaling exponents, β, that fall into distinct universality classes. Quantities reflecting wealth creation and innovation have β ≈ 1.2 > 1 (increasing returns), whereas those accounting for infrastructure display β ≈ 0.8 < 1 (economies of scale). We verified this relationship using data from federal government databases, called Integrated Planning and Budgeting System, known as SIOP. SIOP data refers only to grants, funds given to municipalities by the federal government to run programs within defined guidelines. Preliminary results from SIOP show decrease in Federal Grants to Brazilian Municipalities, proportional to the city size. For the initial budget allocation, β was found to be roughly 0.63 for municipalities above twenty thousand inhabitants; to be roughly 0.92 for municipalities above twenty thousand inhabitants; and to be roughly 1.18 for municipalities above fifty thousand inhabitants. The second data source is DOU, government journal for publishing official acts. DOU data should give us information not only about grants, but also about FGTS funds for basic sanitation loans. In order to extract data from DOU we have applied Natural Language Processing (NLP) tools. These techniques often work better when the algorithms are provided with annotations metadata that provides additional information about the text. In particular, we fed a database with annotations into a bidirectional LSTM model applied to POS Tagging and Named-entity Recognition. Preliminary results are reported in the paper
|
5 |
Análise morfossintática das construções-Wh no português falado em Cabo Verde / Morphosyntactic analysis of the Wh-constructions in the Portuguese spoken in Cape VerdeLopes, Francisco João 04 May 2017 (has links)
Esta Tese, intitulada Análise morfossintática das construções-Q no português falado em Cabo Verde (PCV), consiste na primeira descrição e análise morfossintática do grupo de construções denominada na literatura como construções-Wh e seus respectivos subgrupos construções relativas, interrogativas-Wh e construções clivadas no português falado em Cabo Verde (doravante PCV). A descrição e análise apresentadas são: (i) feitas a partir de um conjunto de corpora inéditos, coletados durante três trabalhos de campo, realizados de acordo com as técnicas da linguística de campo; e (ii) embasadas na Teoria da Gramática, sob a perspectiva minimalista de derivação por fases phases (CHOMSKY, 1995, 2000, 2001, 2005, 2008). Os resultados obtidos corroboram a proposta inicial de que: (i) os falantes caboverdianos possuem diferentes graus de competência linguística em PCV. Esta variedade linguística ainda que não língua primeira dos caboverdianos, entra para vida destes, ainda que apenas nas competências auditiva e perceptiva, desde a primeira infância; (ii) o processo de educação formal desenvolve, posteriormente, as competências leitura e escrita, buscando aproximar a gramática do PCV da do Português Europeu, em um processo que gera resultados diferentes, a nível individual, dependendo do grau de uso do PCV pelo falante caboverdiano; (iii) a análise das construções-Wh corroboram o PCV como uma variedade autóctone da língua portuguesa em formação, em estreita relação de contato linguístico e cuja origem pode ser traçada como sendo concomitante ao crioulo caboverdiano (doravante CCV); (iv) nos aspectos gramaticais em que o PCV se diverge do PE, ainda que convergentes com o CCV, não podem ser tomadas, categoricamente, como casos de transferências do CCV para o PCV, pois tais fenômenos são observados também em outras variedades da língua portuguesa no mundo. Na parte de análise são apresentadas propostas derivacionais para as relativas, interrogativas-Wh e construções clivadas. No que diz respeito às clivadas, é feita uma proposta derivacional monoclausal, que consiste na reformulação da proposta apresentada por um grupo de pesquisadores que divergem da proposta tradicional que se vê na literatura para esse tipo de sentenças. / This Thesis, entitled \"Morphosyntactic analysis of the Wh-constructions in the Portuguese spoken in Cape Verde (PCV)\", consists of the first morphosyntactic description and analysis of a group of construction called Wh-construction in the literature and their subgroups relative constructions, Wh-interrogatives and cleft constructions in the Portuguese spoken in Cape Verde Islands (hereinafter PCV). The analysis and description presented are: (i) done from a set of an original group of corpora collected during three field works, carried out in accordance with the techniques of field linguistics; and (ii) based on Grammar Theory, under the minimalist perspective of derivation by phases - (Chomsky, 1995, 2000, 2001, 2005, 2008). The results obtained corroborate the initial proposal that: (i) the Cape Verdean speakers present different degrees of linguistic competence in PCV. This linguistic variety, although not the first language of the Cape Verdeans, enters their lives, although only in the auditory and perceptive skills, from early childhood; (ii) the formal education process later develops the reading and writing skills, aiming to bring the grammar of the PCV closer to European Portuguese, in a process that generates different results at the individual level, depending on the degree of use of the PCV by the Cape Verdean speaker; (iii) The analysis of the Wh-constructions corroborate the PCV as an autochthonous variety of the Portuguese language in formation, in close relation of linguistic contact and whose origin can be traced as concomitant with that of the CCV; (iv) with regards to the grammatical aspects in which the PCV diverges from the Europiam Portuguese, although convergent with the CVC, cannot be taken categorically as cases of \'transfer\' from the CCV to the PCV, since such phenomena are also observed in other varieties of the Portuguese language in the world. In the part of analysis are presented derivational proposals for the relative, interrogatives-Wh and cleft constructions. With regard to the clefts, a derivational monoclausal proposal is made, which consists of the reformulation of the proposal presented by a group of researchers that diverge from the traditional proposal that is seen in the literature for this type of sentences.
|
6 |
Uma análise variacionista para as interrogativas - Q / Variationist analysis for the wh-interrogativeOushiro, Lívia 07 February 2011 (has links)
A investigação de variáveis sintáticas e morfossintáticas dentro do quadro da Sociolinguística Varicionista tem recebido, em geral, menor atenção do que o estudo de variáveis fonológicas. Este trabalho analisa a variação entreo quatro estruturas de Interrogativas-Q em amostras de fala e de escrita do português paulistano contemporâneo: (i) interrogativas-qu (\"Onde você mora?\"); (ii) interrogativas qu-que (\"Onde que você mora?\"); (iii)interrogativas é que (\"Onde é que você mora?\"); e (iv) interrogativas qu-in-situ (\"Você mora onde?\"). A equivalência semântica entre as formas interrogativas se estabelece através do conceito de pressuposição do falante (Stalnaker, 2002). Além disso, este trabalho propõe o conceito de competência comunicativa (Hymes, 1991[1979]) como critério para determinar o envelope de variação: diferentes estruturas são consideradas variantes se forem factualmente possíveis, factíveis, adequadas e empregadas nos mesmos contextos. A análise qualitativa com base nesses conceitos define dois envelopes de variação-e, portanto, duas variáveis: uma que envolve a alternância na posição do constituinte interrogativo (in situ ou não), e outra que encerra as três estruturas com constituinte interrogativo pré-verbal (-qu, qu-que e é-que). Os resultados das análises quantitativas mostram que interrogativas qu-in-situ são favorecidas principalmente por fatores morfossintáticos e discursivo-pragamáticos; fatores extralinguísticos, como sexo/genêro e a faixa etária do falante , também se correlacionam indiretamente através do emprego de diferentes discursivas. O uso de interrogativas qu-que, por sua vez, demonstra uma provável mudança linguística em progresso, uma vez que a análise em tempo aparente revela o favorecimento da estrutura por falantes mais jovens. Neste caso, a variação é influenciada principalmente por fatores sintáticos e prosódicos. Além de propor critérios para o estudo de variáveis morfossintáticas, este trabalho discute os resultados das análises quantitativas em perspectiva com outros níveis de variação linguística, com vistas a integra-los em um quadro mais amplo da Teoria da Variação. / The investigation of syntactic and morphosyntactic variables within the framework of Variationist ociolinguistics has received, in general, less attention than the study of phonological variables. This study analyses variation amaong four different structures of Wh-interrogatives in the speech and writing of native paulistanos: (i) \'simple\'wh-interrogatives (as in Onde você mora? \'Where you live?\'); (ii) wh-que interrogatives ( as in Onde você mora? \'Where-that you live?\'); (iii) cleft wh-interrogatives (as in Onde é que você mora? \'Where is-it that you live?\'); and (iv) wh-in-situ (as in Você mora onde? \'You live where?\'). Semantic equivalence among the four structures is established through the concept of speaker\'s pressupposition (Stalnaker, 2002). Further, this study proposes the concept of communicative competence (Hymes, 1991 [1979]) as a criterium for determining the envelope of variation: different structures are considered variants if they are factually possible, feasible, appropriate, and performed in the same contexts. The qualitative analysis based on these concepts defines two different envelopes of variation - hence, two variables: one which involves the alternation in the position of the wh-word (in situ vs. moved), and another which comises the three structures with a moved wh-word (\'simple\', wh-que and cleft -wh). Results of the quantitative analyses show that wh-in-situ is mostly favored by morphosyntactic and discourse-pragmatic factors, and that non-linguistic factor groups such as gender and age are also indirectly correlated with the variantion through the use of different discourse strategies. The use of wh-que, on the other hand, is probably undergoing change, as apparent time analyses show a avoring effect by younger speakers. Variation in this case is mostly influenced by syntactic and prosodic factors. In addition to proposing criteria to the study of morphosyntactic variables, this dissertation discusses the results of the quantitative analyses in relation to other levels of linguistic variation, aiming at their integration into a larger framework of Variotion Theory.
|
7 |
Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do BrasilDOMINGUES, Miriam Lúcia Campos Serra 21 October 2011 (has links)
Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T13:27:50Z
No. of bitstreams: 2
Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T13:28:30Z (GMT) No. of bitstreams: 2
Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-01T13:28:30Z (GMT). No. of bitstreams: 2
Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2011 / A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável. / Part-of-speech tagging is a basic task required by many applications of natural language processing, such as parsing and machine translation, and by applications of speech processing, for example, speech synthesis. This task consists of tagging words in a sentence with their grammatical categories. Although these applications require taggers with greater precision, the state of the art taggers still achieved accuracy of 96 to 97%. In this thesis, corpus and software resources are investigated for the development of a tagger with accuracy above of that of the state of the art for the Brazilian Portuguese language. Based on a hybrid solution that combines probabilistic tagging with rule-based tagging, the proposed thesis focuses on an exploratory study on the tagging method, size, quality, tag set, and the textual genre of the corpora available for training and testing, and evaluates the disambiguation of new or out-of-vocabulary words found in texts to be tagged. Four corpora were used in experiments: CETENFolha, Bosque CF 7.4, Mac-Morpho, and Selva Científica. The proposed tagging model was based on the use of the method of transformation-based learning (TBL) to which were added three strategies combined in a architecture that integrates the outputs (tagged texts) of two free tools, Treetagger and -TBL, with the modules that were added to the model. In the tagger model trained with Mac-Morpho corpus of journalistic genre, tagging accuracy rates of 98.05% on Mac-Morpho test set and 98.27% on Bosque CF 7.4 were achieved, both of journalistic genres. The performance of the proposed hybrid model tagger was also evaluated in the texts of Selva Científica Corpus, of the scientific genre. Needs of adjustments in the tagger and in corpora were identified and, as result, accuracy rates of 98.07% in Selva Científica, 98.06% in the text set of Mac-Morpho, and 98.30% in the texts of the Bosque CF 7.4 have been achieved. These results are significant because the accuracy rates achieved are higher than those of the state of the art, thus validating the proposed model to obtain a more reliable part-of-speech tagger.
|
8 |
Uma análise variacionista para as interrogativas - Q / Variationist analysis for the wh-interrogativeLívia Oushiro 07 February 2011 (has links)
A investigação de variáveis sintáticas e morfossintáticas dentro do quadro da Sociolinguística Varicionista tem recebido, em geral, menor atenção do que o estudo de variáveis fonológicas. Este trabalho analisa a variação entreo quatro estruturas de Interrogativas-Q em amostras de fala e de escrita do português paulistano contemporâneo: (i) interrogativas-qu (\"Onde você mora?\"); (ii) interrogativas qu-que (\"Onde que você mora?\"); (iii)interrogativas é que (\"Onde é que você mora?\"); e (iv) interrogativas qu-in-situ (\"Você mora onde?\"). A equivalência semântica entre as formas interrogativas se estabelece através do conceito de pressuposição do falante (Stalnaker, 2002). Além disso, este trabalho propõe o conceito de competência comunicativa (Hymes, 1991[1979]) como critério para determinar o envelope de variação: diferentes estruturas são consideradas variantes se forem factualmente possíveis, factíveis, adequadas e empregadas nos mesmos contextos. A análise qualitativa com base nesses conceitos define dois envelopes de variação-e, portanto, duas variáveis: uma que envolve a alternância na posição do constituinte interrogativo (in situ ou não), e outra que encerra as três estruturas com constituinte interrogativo pré-verbal (-qu, qu-que e é-que). Os resultados das análises quantitativas mostram que interrogativas qu-in-situ são favorecidas principalmente por fatores morfossintáticos e discursivo-pragamáticos; fatores extralinguísticos, como sexo/genêro e a faixa etária do falante , também se correlacionam indiretamente através do emprego de diferentes discursivas. O uso de interrogativas qu-que, por sua vez, demonstra uma provável mudança linguística em progresso, uma vez que a análise em tempo aparente revela o favorecimento da estrutura por falantes mais jovens. Neste caso, a variação é influenciada principalmente por fatores sintáticos e prosódicos. Além de propor critérios para o estudo de variáveis morfossintáticas, este trabalho discute os resultados das análises quantitativas em perspectiva com outros níveis de variação linguística, com vistas a integra-los em um quadro mais amplo da Teoria da Variação. / The investigation of syntactic and morphosyntactic variables within the framework of Variationist ociolinguistics has received, in general, less attention than the study of phonological variables. This study analyses variation amaong four different structures of Wh-interrogatives in the speech and writing of native paulistanos: (i) \'simple\'wh-interrogatives (as in Onde você mora? \'Where you live?\'); (ii) wh-que interrogatives ( as in Onde você mora? \'Where-that you live?\'); (iii) cleft wh-interrogatives (as in Onde é que você mora? \'Where is-it that you live?\'); and (iv) wh-in-situ (as in Você mora onde? \'You live where?\'). Semantic equivalence among the four structures is established through the concept of speaker\'s pressupposition (Stalnaker, 2002). Further, this study proposes the concept of communicative competence (Hymes, 1991 [1979]) as a criterium for determining the envelope of variation: different structures are considered variants if they are factually possible, feasible, appropriate, and performed in the same contexts. The qualitative analysis based on these concepts defines two different envelopes of variation - hence, two variables: one which involves the alternation in the position of the wh-word (in situ vs. moved), and another which comises the three structures with a moved wh-word (\'simple\', wh-que and cleft -wh). Results of the quantitative analyses show that wh-in-situ is mostly favored by morphosyntactic and discourse-pragmatic factors, and that non-linguistic factor groups such as gender and age are also indirectly correlated with the variantion through the use of different discourse strategies. The use of wh-que, on the other hand, is probably undergoing change, as apparent time analyses show a avoring effect by younger speakers. Variation in this case is mostly influenced by syntactic and prosodic factors. In addition to proposing criteria to the study of morphosyntactic variables, this dissertation discusses the results of the quantitative analyses in relation to other levels of linguistic variation, aiming at their integration into a larger framework of Variotion Theory.
|
9 |
Análise morfossintática das construções-Wh no português falado em Cabo Verde / Morphosyntactic analysis of the Wh-constructions in the Portuguese spoken in Cape VerdeFrancisco João Lopes 04 May 2017 (has links)
Esta Tese, intitulada Análise morfossintática das construções-Q no português falado em Cabo Verde (PCV), consiste na primeira descrição e análise morfossintática do grupo de construções denominada na literatura como construções-Wh e seus respectivos subgrupos construções relativas, interrogativas-Wh e construções clivadas no português falado em Cabo Verde (doravante PCV). A descrição e análise apresentadas são: (i) feitas a partir de um conjunto de corpora inéditos, coletados durante três trabalhos de campo, realizados de acordo com as técnicas da linguística de campo; e (ii) embasadas na Teoria da Gramática, sob a perspectiva minimalista de derivação por fases phases (CHOMSKY, 1995, 2000, 2001, 2005, 2008). Os resultados obtidos corroboram a proposta inicial de que: (i) os falantes caboverdianos possuem diferentes graus de competência linguística em PCV. Esta variedade linguística ainda que não língua primeira dos caboverdianos, entra para vida destes, ainda que apenas nas competências auditiva e perceptiva, desde a primeira infância; (ii) o processo de educação formal desenvolve, posteriormente, as competências leitura e escrita, buscando aproximar a gramática do PCV da do Português Europeu, em um processo que gera resultados diferentes, a nível individual, dependendo do grau de uso do PCV pelo falante caboverdiano; (iii) a análise das construções-Wh corroboram o PCV como uma variedade autóctone da língua portuguesa em formação, em estreita relação de contato linguístico e cuja origem pode ser traçada como sendo concomitante ao crioulo caboverdiano (doravante CCV); (iv) nos aspectos gramaticais em que o PCV se diverge do PE, ainda que convergentes com o CCV, não podem ser tomadas, categoricamente, como casos de transferências do CCV para o PCV, pois tais fenômenos são observados também em outras variedades da língua portuguesa no mundo. Na parte de análise são apresentadas propostas derivacionais para as relativas, interrogativas-Wh e construções clivadas. No que diz respeito às clivadas, é feita uma proposta derivacional monoclausal, que consiste na reformulação da proposta apresentada por um grupo de pesquisadores que divergem da proposta tradicional que se vê na literatura para esse tipo de sentenças. / This Thesis, entitled \"Morphosyntactic analysis of the Wh-constructions in the Portuguese spoken in Cape Verde (PCV)\", consists of the first morphosyntactic description and analysis of a group of construction called Wh-construction in the literature and their subgroups relative constructions, Wh-interrogatives and cleft constructions in the Portuguese spoken in Cape Verde Islands (hereinafter PCV). The analysis and description presented are: (i) done from a set of an original group of corpora collected during three field works, carried out in accordance with the techniques of field linguistics; and (ii) based on Grammar Theory, under the minimalist perspective of derivation by phases - (Chomsky, 1995, 2000, 2001, 2005, 2008). The results obtained corroborate the initial proposal that: (i) the Cape Verdean speakers present different degrees of linguistic competence in PCV. This linguistic variety, although not the first language of the Cape Verdeans, enters their lives, although only in the auditory and perceptive skills, from early childhood; (ii) the formal education process later develops the reading and writing skills, aiming to bring the grammar of the PCV closer to European Portuguese, in a process that generates different results at the individual level, depending on the degree of use of the PCV by the Cape Verdean speaker; (iii) The analysis of the Wh-constructions corroborate the PCV as an autochthonous variety of the Portuguese language in formation, in close relation of linguistic contact and whose origin can be traced as concomitant with that of the CCV; (iv) with regards to the grammatical aspects in which the PCV diverges from the Europiam Portuguese, although convergent with the CVC, cannot be taken categorically as cases of \'transfer\' from the CCV to the PCV, since such phenomena are also observed in other varieties of the Portuguese language in the world. In the part of analysis are presented derivational proposals for the relative, interrogatives-Wh and cleft constructions. With regard to the clefts, a derivational monoclausal proposal is made, which consists of the reformulation of the proposal presented by a group of researchers that diverge from the traditional proposal that is seen in the literature for this type of sentences.
|
10 |
Contribuições das habilidades metalinguísticas na leitura contextual: consciência fonológica e morfossintáticaGuimarães, Silvia Brilhante 03 December 2010 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-09-28T19:41:33Z
No. of bitstreams: 1
silviabrilhanteguimaraes.pdf: 409002 bytes, checksum: 372de929a13269670d0326dc2c432a35 (MD5) / Approved for entry into archive by Diamantino Mayra (mayra.diamantino@ufjf.edu.br) on 2016-09-30T13:52:01Z (GMT) No. of bitstreams: 1
silviabrilhanteguimaraes.pdf: 409002 bytes, checksum: 372de929a13269670d0326dc2c432a35 (MD5) / Made available in DSpace on 2016-09-30T13:52:01Z (GMT). No. of bitstreams: 1
silviabrilhanteguimaraes.pdf: 409002 bytes, checksum: 372de929a13269670d0326dc2c432a35 (MD5)
Previous issue date: 2010-12-03 / A leitura é uma atividade bastante complexa, na qual estão envolvidos diferentes mecanismos
como a identificação das letras, o de reconhecimento das palavras e de seus significados, bem
como, a interação sintática e semântica. Nesse sentido, estudos veem investigando os papéis
das habilidades metalinguísticas como a consciência fonológica e a consciência
morfossintática no desenvolvimento da leitura. Serão examinadas duas hipóteses: a primeira,
enfatiza que a leitura contextual envolve tanto o processamento fonológico como o
morfossintático, porque as pistas contextuais podem ajudar a criança a adquirir as regras de
correspondência entre letra e som. A segunda hipótese sugere que apenas as pistas sintático
semânticas são utilizadas na leitura contextual no português. Nesse sentido, espera-se
correlações significativas e positivas entre consciência morfossintática e reconhecimento de
palavras no contexto, mas não com a consciência fonológica. Participaram 134 crianças, de
ambos os sexo, entre 6 e 11 anos pertencentes ao projeto “Avaliação Psicométrica de medidas
de consciência metalingüística” do Departamento de Psicologia da Universidade Federal de
Juiz de Fora (UFJF). Desses estudantes, 73 (54,5 %) eram do sexo feminino e 61 (45,5%) do
masculino, sendo que 30 (22,4%) crianças freqüentavam o segundo ano, 52 (38,82%) o
terceiro ano e 52 (38,82%) o quarto ano. Os dados foram coletados em quatro escolas públicas
de Juiz e Fora no 2º semestre de 2009. Foram aplicadas tarefas de consciência fonológica
(roteiro de consciência fonológica) e de consciência morfossintática (analogia flexional,
analogia derivacional e replicação identificação do erro e replicação oral), além do TDE:
subteste de leitura, para medida de leitura de palavras isoladas e do teste de Cloze como
avaliação de leitura contextual. Também foi utilizado o WISC III: subteste de vocabulário
como medida de controle. As aplicações das tarefas e testes selecionados ocorreram em locais
reservados nas próprias escolas e foram organizados em quatro momentos: três individuais e
um coletivo. As aplicações aconteceram em aproximadamente 50 minutos para cada encontro.
Na análise dos dados foram utilizados teste de correlação e regressão. Os resultados obtidos
ofereceram evidências empíricas de que tanto os processamentos fonológicos quanto os
morfossintáticos estão associados e contribuem de forma independente para a leitura de
textos. Essas análises permitem constatar que no Português do Brasil, tanto a consciência
fonológica como a morfossintática são recursos importantes para a leitura de textos. / Reading is a very complex activity in which different mechanisms are involved like
identification of letters, recognition of words and their meanings, as well as the syntax and
semantics interaction. In this sense, studies are investigating the roles of metalinguistic skills
such as phonological awareness and morphosyntactic awareness in reading development. Two
hypotheses will be examined: first, it emphasizes that contextual reading involves both
phonological processing as morphosyntactic, because the contextual cues can help children
acquire the rules of correspondence between letter and sound. The second hypothesis suggests
that only the syntactic-semantic cues are used in contextual reading in Portuguese. In this
sense, it is expected positive and significant correlation between morphosyntactic awareness
and words recognition in context, but not with phonological awareness. The participants were
134 children of both sexes, between 6 and 11 years belonging to the project "Evaluation of
psychometric measures of metalinguistic awareness" of the Psychology Department at the
Federal University of Juiz de Fora (UFJF). There were 73 (54.5%) of these students female
and 61 (45.5%) were male, and 30 (22.4%) children were attending the second year, 52
(38.82%) the third year 52 (38.82%) the fourth year. Data were collected from four public
schools of Juiz de Fora in the 2nd half of 2009. There were applied the phonological
awareness tasks (script by phonological awareness) and awareness morphosyntactic
(inflectional analogy, derivational analogy and replication error detection and replication oral,
and the TDE: reading subtest to measure reading isolated word and cloze test as an
assessment of contextual reading. There were used the WISC III: vocabulary sub-test as a
control measure. Applications of tests and tasks selected occurred in special spaces in the
schools and were organizes into four periods: three individual and one collective. applications
happened in about 50 minutes for each meeting. In the data analyze were used correlation and
regression tests. The results provided empirical evidences that both phonological processing
as the morphosyntactic are associated with and contribute independently for the reading of
texts. This analysis leads us to conclude that in the Portuguese of Brazil phonological
awareness as morphosyntactic are important features for reading text.
|
Page generated in 0.078 seconds