• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 291
  • 49
  • 6
  • 5
  • 5
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 348
  • 348
  • 281
  • 177
  • 151
  • 91
  • 62
  • 56
  • 55
  • 55
  • 52
  • 51
  • 50
  • 47
  • 47
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
301

[pt] ANOTAÇÃO MORFOSSINTÁTICA A PARTIR DO CONTEXTO MORFOLÓGICO / [en] MORPHOSYNTACTIC ANNOTATION BASED ON MORPHOLOGICAL CONTEXT

EDUARDO DE JESUS COELHO REIS 20 December 2016 (has links)
[pt] Rotular as classes gramaticais ao longo de uma sentença - part-ofspeech tagging - é uma das primeiras tarefas de processamento de linguagem natural, fornecendo atributos importantes para realizar tarefas de alta complexidade. A representação de texto a nível de palavra tem sido amplamente adotada, tanto através de uma codificação esparsa convencional, e.g. bagofwords; quanto por uma representação distribuída, como os sofisticados modelos de word-embedding usados para descrever informações sintáticas e semânticas. Um problema importante desse tipo de codificação é a carência de aspectos morfológicos. Além disso, os sistemas atuais apresentam uma precisão por token em torno de 97 por cento. Contudo, quando avaliados por sentença, apresentam um resultado mais modesto com uma taxa de acerto em torno de 55−57 por cento. Neste trabalho, nós demonstramos como utilizar n-grams para derivar automaticamente atributos esparsos e morfológicos para processamento de texto. Essa representação permite que redes neurais realizem a tarefa de POS-Tagging a partir de uma representação a nível de caractere. Além disso, introduzimos uma estratégia de regularização capaz de selecionar atributos específicos para cada neurônio. A utilização de regularização embutida em nossos modelos produz duas variantes. A primeira compartilha os n-grams selecionados globalmente entre todos os neurônios de uma camada; enquanto que a segunda opera uma seleção individual para cada neurônio, de forma que cada neurônio é sensível apenas aos n-grams que mais o estimulam. Utilizando a abordagem apresentada, nós geramos uma alta quantidade de características que representam afeições morfossintáticas relevantes baseadas a nível de caractere. Nosso POS tagger atinge a acurácia de 96, 67 por cento no corpus Mac-Morpho para o Português. / [en] Part-of-speech tagging is one of the primary stages in natural language processing, providing useful features for performing higher complexity tasks. Word level representations have been largely adopted, either through a conventional sparse codification, such as bag-of-words, or through a distributed representation, like the sophisticated word embedded models used to describe syntactic and semantic information. A central issue on these codifications is the lack of morphological aspects. In addition, recent taggers present per-token accuracies around 97 percent. However, when using a persentence metric, the good taggers show modest accuracies, scoring around 55-57 percent. In this work, we demonstrate how to use n-grams to automatically derive morphological sparse features for text processing. This representation allows neural networks to perform POS tagging from a character-level input. Additionally, we introduce a regularization strategy capable of selecting specific features for each layer unit. As a result, regarding n-grams selection, using the embedded regularization in our models produces two variants. The first one shares globally selected features among all layer units, whereas the second operates individual selections for each layer unit, so that each unit is sensible only to the n-grams that better stimulate it. Using the proposed approach, we generate a high number of features which represent relevant morphosyntactic affection based on a character-level input. Our POS tagger achieves the accuracy of 96.67 percent in the Mac-Morpho corpus for Portuguese.
302

[pt] O IMPACTO DA POLÍTICA MONETÁRIA SOBRE PREÇOS DE ATIVO: UMA ABORDAGEM DE ALTA FREQUÊNCIA APLICADA AO BRASIL / [en] THE IMPACT OF MONETARY POLICY ON ASSET PRICES: A HIGH-FREQUENCY APPROACH FOR BRAZIL

THOMAS GLEIZER FEIBERT 10 January 2023 (has links)
[pt] Neste artigo estudamos o impacto de surpresas monetárias sobre um conjunto de preços de ativo no mercado financeiro Brasileiro. Devido a fatores institucionais que impedem a identificação deste impacto através de associações entre o choque monetário e variações de preços de ativos em pequenos intervalos ao redor de anúncios de política monetária, utilizamos uma abordagem de estudo de eventos em frequência diária, controlando por fatores domésticos e externos que afetam os preços de ativos relevantes. Os resultados indicam que a surpresa monetária contracionista possui um impacto negativo significativo sobre retornos da bolsa de valores, e o impacto sobre a curva de juros é positivo, atingindo um máximo ao vértice de 6 meses. Diferente de grande parte da literatura focada ao Brasil, os resultados apontam a uma apreciação do Real em reação a esta surpresa monetária contracionista, o que é consistente com reações de moedas de países desenvolvidos a surpresas monetárias. Por mais que obtenhamos um regime no qual a taxa de câmbio não reage significativamente à surpresa monetária, não há forte evidência de que a causa por trás deste regime é de natureza fiscal. / [en] In this paper we study the impact of monetary surprises on a class of asset prices in the Brazilian financial market. Due to institutional factors that prevent identification of this impact through the association between the monetary surprise and asset price movements in short windows around monetary policy announcements, we use an event study framework at daily frequency, controlling for both domestic and foreign factors that may affect the asset prices under analysis. We find that a surprise monetary tightening has a strong negative impact on stock market returns, and its effect on the yield curve is positive and hump-shaped, reaching a maximum on the 6 months yield. Unlike most of the previous literature focused on Brazil, we find that the Brazilian Real appreciates in response to this monetary tightening, which is consistent with the reactions found for currencies of developed economies. Moreover, while we obtain a regime in which the exchange rate is irresponsive to the monetary surprise, the evidence supporting a fiscal cause behind this regime is not strong.
303

[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO / [en] DEEP LEARNING APPLIED TO TEXT CHUNKING

MIGUEL MENDES DE BRITO 15 May 2019 (has links)
[pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87. / [en] Natural Language Processing is a research field that explores how computers can understand and manipulate natural language texts. Sequence tagging is amongst the most well-known tasks in NLP. Text Chunking is one of the problems that can be approached as a sequence tagging problem. Thus, we classify which words belong to a chunk, where each chunk represents a disjoint group of syntactically correlated words. This type of chunking has important applications in more complex tasks of natural language processing, such as dependency parsing, machine translation, semantic role labeling, clause identification and much more. The goal of this work is to present a deep neural network archtecture for the Portuguese text chunking problem. The corpus used in the experiments is the Bosque, from the Floresta Sintá(c)tica project. Based on recent work in the field, our approach surpass the state-of-the-art for Portuguese by achieving a F(beta)=1 of 90.51, which corresponds to an increase of 2.56 in comparison with the previous work. In addition, in order to attest the chunker effectiveness we use the tags obtained by our system as feature for the depedency parsing task. These features improved the accuracy of the parser by 0.87.
304

[pt] ARQUITETURA PROFUNDA PARA EXTRAÇÃO DE CITAÇÕES / [en] DEEP ARCHITECTURE FOR QUOTATION EXTRACTION

LUIS FELIPE MULLER DE OLIVEIRA HENRIQUES 28 July 2017 (has links)
[pt] A Extração e Atribuição de Citações é a tarefa de identificar citações de um texto e associá-las a seus autores. Neste trabalho, apresentamos um sistema de Extração e Atribuição de Citações para a língua portuguesa. A tarefa de Extração e Atribuição de Citações foi abordada anteriormente utilizando diversas técnicas e para uma variedade de linguagens e datasets. Os modelos tradicionais para a tarefa consistem em extrair manualmente um rico conjunto de atributos e usá-los para alimentar um classificador raso. Neste trabalho, ao contrário da abordagem tradicional, evitamos usar atributos projetados à mão, usando técnicas de aprendizagem não supervisionadas e redes neurais profundas para automaticamente aprender atributos relevantes para resolver a tarefa. Ao evitar a criação manual de atributos, nosso modelo de aprendizagem de máquina tornou-se facilmente adaptável a outros domínios e linguagens. Nosso modelo foi treinado e avaliado no corpus GloboQuotes e sua métrica de desempenho F1 é igual a 89.43 por cento. / [en] Quotation Extraction and Attribution is the task of identifying quotations from a given text and associating them to their authors. In this work, we present a Quotation Extraction and Attribution system for the Portuguese language. The Quotation Extraction and Attribution task has been previously approached using various techniques and for a variety of languages and datasets. Traditional models to this task consist of extracting a rich set of hand-designed features and using them to feed a shallow classifier. In this work, unlike the traditional approach, we avoid using hand-designed features using unsupervised learning techniques and deep neural networks to automatically learn relevant features to solve the task. By avoiding design features by hand, our machine learning model became easily adaptable to other languages and domains. Our model is trained and evaluated at the GloboQuotes corpus, and its F1 performance metric is equal to 89.43 percent.
305

[pt] ANOTAÇÃO PROFUNDA DE PAPÉIS SEMÂNTICOS PARA O PORTUGUÊS / [en] DEEP SEMANTIC ROLE LABELING FOR PORTUGUESE

GUILHERME SANT ANNA VARELA 06 August 2019 (has links)
[pt] Vivemos em um mundo complexo, no qual incontáveis fatores aparentemente desconexos – tais como a lei de Moore que dita um aumento exponencial da capacidade de processamento em um chip de silício, a queda do custo de espaço de armazenamento e a adoção em massa de smartphones colaboram para a formação de uma sociedade progressivamente interdependente. Todos os dias são criados 2,5 quintilhões de bytes de dados, de fato 90 por cento dos dados no mundo foram criados nos últimos dois anos. Domar os padrões salientes aos dados separando informação do caos torna-se uma necessidade iminente para a tomada de decisão dos indivíduos e para sobrevivência de organizações. Nesse cenário a melhor resposta dos pesquisadores de Processamento de Linguagem Natural encontra-se na tarefa de Anotação de Papéis Semânticos. APS é a tarefa que tem o audacioso objetivo de compreender eventos, buscando determinar Quem fez o que e aonde, Quais foram os beneficiados? ou Qual o meio utilizado para atingir os fins. APS serve como tarefa intermediária para várias aplicações de alto nível e.g information extraction, question and answering e agentes conversacionais. Tradicionalmente, resultados satisfatórios eram obtidos apenas com alta dependência de conhecimento específico de domínio. Para o português, através desta abordagem, o sistema estado da arte da tarefa para é de 79,6 por cento de pontuação F1. Sistemas mais recentes dependem de uma série de subtarefas, obtém 58 por cento de pontuação F1. Nessa dissertação, exploramos um novo paradigma utilizando redes neurais recorrentes, para o idioma do português do Brasil, e sem subtarefas intermediárias obtendo uma pontuação de 66,23. / [en] We live in a complex world in which a myriad of seemingly unrelated factors – such as Moore s law which states that the processing capacity on a silicon wafer should increase exponentially, the fall of storage costs and mass adoption of smart-phones contribute to the formation of an increasingly inter-dependent society: 2.5 quintillion bytes of data are generated every day, in fact ninety percent of the world s data were created in the last few years. Harnessing the emerging patterns within the data, effectively separating information from chaos is crucial for both individual decision making as well as for the survival of organizations. In this scenario the best answer from Natural Language Processing researchers is the task of Semantic Role Labeling. SRL is the task the concerns itself with the audacious goal of event understanding, which means determining Who did what to whom, Who was the beneficiary? or What were the means to achieve some goal. APS is also an intermediary task to high level applications such as information extraction, question and answering and chatbots. Traditionally, satisfactory results were obtained only by the introduction of highly specific domain knowledge. For Portuguese, this approach is able to yields a F1 score of 79.6 percent. Recent systems, rely on a pipeline of sub-tasks, yielding a F1 score of 58 percent. In this dissertation, we adopt a new paradigm using recurrent neural networks for the Brazilian Portuguese, that does not rely on a pipeline, our system obtains a score of 66.23 percent.
306

[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE / [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊS

ROMULO CESAR COSTA DE SOUSA 07 April 2020 (has links)
[pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra de uma sentença com sua devida classe morfossintática (verbo, substantivo, adjetivo e etc). POS tagging é considerada uma atividade fundamental no processo de construção de aplicações de processamento de linguagem natural (PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de informação. Nesse trabalho, construímos um POS tagger para o Português Contemporâneo e o Português Histórico, baseado em uma arquitetura de rede neural recorrente. Tradicionalmente a construção dessas ferramentas requer muitas features específicas do domínio da linguagem e dados externos ao conjunto de treino, mas nosso POS tagger não usa esses requisitos. Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que se beneficia das representações de word embeddings e character embeddings das palavras, para atividade de classificação morfossintática. Testamos nosso POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe. Nós obtemos um desempenho ligeiramente melhor que os sistemas estado da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original, 97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para a medida de acurácia fora do vocabulário, uma acurácia especial calculada somente sobre as palavras desconhecidas do conjunto de treino. Realizamos ainda um estudo comparativo para verificar qual dentre os mais populares algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec e Glove), é mais adequado para a atividade POS tagging em Português. O modelo de Wang2Vec mostrou um desempenho superior. / [en] Part-of-speech (POS) tagging is a process of labeling each word in a sentence with a morphosyntactic class (verb, noun, adjective and etc). POS tagging is a fundamental part of the linguistic pipeline, most natural language processing (NLP) applications demand, at some step, part-of-speech information. In this work, we constructed a POS tagger for Contemporary Portuguese and Historical Portuguese, using a recurrent neural network architecture. Traditionally the development of these tools requires many handcraft features and external data, our POS tagger does not use these elements. We trained a Bidirectional Long short-term memory (BLSTM) network that benefits from the word embeddings and character embeddings representations of the words, for morphosyntactic classification. We tested our POS tagger on three different corpora: the original version of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus, and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus, 97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the Tycho Brahe corpus. We also achieved an improvement in the three corpora in out-of-vocabulary accuracy, that is the accuracy on words not seen in training sentences. We also performed a comparative study to test which different types of word embeddings (Word2Vec, FastText, Wang2Vec, and Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model showed higher performance.
307

[en] AN END-TO-END MODEL FOR JOINT ENTITY AND RELATION EXTRACTION IN PORTUGUESE / [pt] MODELO END-TO-END PARA EXTRAÇÃO DE ENTIDADES E RELAÇÕES DE FORMA CONJUNTA EM PORTUGUÊS

LUCAS AGUIAR PAVANELLI 24 October 2022 (has links)
[pt] As técnicas de processamento de linguagem natural (NLP) estão se tornando populares recentemente. A gama de aplicativos que se beneficiam de NLP é extensa, desde criar sistemas de tradução automática até ajudar no marketing de um produto. Dentro de NLP, o campo de Extração de Informações (IE) é difundido; concentra-se no processamento de textos para recuperar informações específicas sobre uma determinada entidade ou conceito. Ainda assim, a comunidade de pesquisa se concentra principalmente na construção de modelos para dados na língua inglesa. Esta tese aborda três tarefas no domínio do IE: Reconhecimento de Entidade Nomeada, Extração de Relações Semânticas e Extração Conjunta de Entidade e Relação. Primeiro, criamos um novo conjunto de dados em português no domínio biomédico, descrevemos o processo de anotação e medimos suas propriedades. Além disso, desenvolvemos um novo modelo para a tarefa de Extração Conjunta de Entidade e Relação, verificando que o mesmo é competitivo em comparação com outros modelos. Finalmente, avaliamos cuidadosamente os modelos propostos em textos de idiomas diferentes do inglês e confirmamos a dominância de modelos baseados em redes neurais. / [en] Natural language processing (NLP) techniques are becoming popular recently. The range of applications that benefit from NLP is extensive, from building machine translation systems to helping market a product. Within NLP, the Information Extraction (IE) field is widespread; it focuses on processing texts to retrieve specific information about a particular entity or concept. Still, the research community mainly focuses on building models for English data. This thesis addresses three tasks in the IE domain: Named Entity Recognition, Relation Extraction, and Joint Entity and Relation Extraction. First, we created a novel Portuguese dataset in the biomedical domain, described the annotation process, and measured its properties. Also, we developed a novel model for the Joint Entity and Relation Extraction task, verifying that it is competitive compared to other models. Finally, we carefully evaluated proposed models on non-English language datasets and confirmed the dominance of neural-based models.
308

RISO - GCT - Determinação do contexto temporal de conceitos em textos. / RISO - GCT - Determination of the temporal context of concepts in texts.

ALVES, George Marcelo Rodrigues. 06 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-06T17:59:05Z No. of bitstreams: 1 GEORGE MARCELO RODRIGUES ALVES - DISSERTAÇÃO PPGCC 2016..pdf: 15556672 bytes, checksum: 0109aeaa0d0af858151c540948a9859d (MD5) / Made available in DSpace on 2018-08-06T17:59:05Z (GMT). No. of bitstreams: 1 GEORGE MARCELO RODRIGUES ALVES - DISSERTAÇÃO PPGCC 2016..pdf: 15556672 bytes, checksum: 0109aeaa0d0af858151c540948a9859d (MD5) Previous issue date: 2016-02-26 / Devido ao crescimento constante da quantidade de textos disponíveis na Web, existe uma necessidade de catalogar estas informações que surgem a cada instante. No entanto, trata-se de uma tarefa árdua e na qual seres humanos são incapazes de realizar esta tarefa de maneira manual, tendo em vista a quantidade incontável de dados que são disponibilizados a cada segundo. Inúmeras pesquisas têm sido realizadas no intuito de automatizar este processo de catalogação. Uma vertente de grande utilidade para as várias áreas do conhecimento humano é a indexação de documentos com base nos contextos temporais presentes nestes documentos. Esta não é uma tarefa trivial, pois envolve a análise de informações não estruturadas presentes em linguagem natural, disponíveis nos mais diversos idiomas, dentre outras dificuldades. 0 objetivo principal deste trabalho é criar uma abordagem capaz de permitir a indexação de documentos, determinando mapas de tópicos enriquecidos com conceitos e as respectivas informações temporais relacionadas. Tal abordagem deu origem ao RISO-GCT (Geração de Contextos Temporais), componente do Projeto RISO (Recuperação da Informação Semântica de Objetos Textuais), que tem como objetivo criar um ambiente de indexação e recuperação semântica de documentos possibilitando uma recuperação mais acurada. 0 RISO-GCT utilizou os resultados de um módulo preliminar, o RISO-TT (Temporal Tagger), responsável por etiquetar informações temporais presentes em documentos e realizar o processo de normalização das expressões temporais encontradas. Deste processo foi aperfeiçoada a abordagem responsável pela normalização de expressões temporais, para que estas possam ser manipuladas mais facilmente na determinação dos contextos temporais. Foram realizados experimentos para avaliar a eficácia da abordagem proposta nesta pesquisa. 0 primeiro, com o intuito de verificar se o Topic Map previamente criado pelo RISO-IC (Indexação Conceituai), foi enriquecido com as informações temporais relacionadas aos conceitos de maneira correta e o segundo, para analisar a eficácia da abordagem de normalização das expressões temporais extraídas de documentos. Os experimentos concluíram que tanto o RISO-GCT, quanto o RISO-TT incrementado obtiveram resultados superiores aos concorrentes. / Due to the constant growth of the number of texts available on the Web, there is a need to catalog that information which appear at every moment. However, it is an arduous task in which humans are unable to perform this task manually, given the increased amount of data available at every second. Numerous studies have been conducted in order to automate the cataloging process. A research line with utility for various áreas of human knowledge is the indexing of documents based on temporal contexts present in these documents. This is not a trivial task, as it involves the analysis of unstructured information present in natural language, available in several languages, among other difficulties. The main objective of this work is to create a model to allow indexing of documents, creating topic maps enriched with the concepts in text and their related temporal information. This approach led to the RISO-GCT (Temporal Contexts Generation), a part of RISO Project (Semantic Information Retrieval on Text Objects), which aims to create a semantic indexing environment and retrieval of documents, enabling a more accurate recovery. RISO-GCT uses the results of a preliminary module, the RISO-TT (Temporal Tagger) responsible the labeling temporal information contained in documents and carrying out the process of normalization of temporal expressions. Found. In this module the normalization of temporal expressions has been improved, in order allow a richer temporal context determination. Experiments were conducted to evaluate the effectiveness of the approach proposed a in this research. The first, in order to verify that the topic map previously created by RISO-IC has been correctly enriched with temporal information related to the concepts correctly, and the second, to analyze the effectiveness of the normalization of expressions extracted from documents. The experiments concluded that both the RISO-GCT, as the RISO-TT, which was evolved during this work, obtained better results than similar tools.
309

Uma gramÃtica LFG-XLE para o processamento sintÃtico profunda do portuguÃs / A LFG-XLE grammar for Brazilian Portuguese deep parser

AndrÃa Feitosa dos Santos 19 December 2014 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / A presente tese descreve a elaboraÃÃo de uma gramÃtica da frase do PortuguÃs Brasileiro, desenvolvida no quadro de um modelo teÃrico de sofisticado formalismo computacional, a Lexical Functional Grammar (LFG) e implementada no sistema que constitui o estado da arte em ambiente de processamento sintÃtico profundo no modelo gerativo da LFG, o robusto Xerox Linguistic Environment (XLE). A principal caracterÃstica da gramÃtica à que adota o sistema de anotaÃÃo do ParGram e a metodologia convencionada por desenvolvedores de gramÃtica XLE. No fragmento de gramÃtica estÃo modelados diversificados elementos da sintaxe frasal. Em nossa gramÃtica, foram modelados constituintes oracionais como IP e CP, elementos que encabeÃam as sentenÃas do portuguÃs. TambÃm foram modelados determinados aspectos da subcategorizaÃÃo verbal e da estrutura argumental. Dos elementos verbais, nossa gramÃtica contempla alguns casos de complexos verbais constituÃdos de verbos modais e verbos de controle. Os elementos nominais tratados na gramÃtica, de modo central, foram os pronomes expletivos e reflexivos, e os casos de sintagmas nominais e determinantes com pronomes demonstrativos e interrogativos. Os demais aspectos modelados na gramÃtica sÃo os sintagmas preposicionados, cuja complexidade se dà na distinÃÃo entre preposiÃÃes semÃnticas e nÃo semÃnticas; os sintagmas adjetivais, cuja projeÃÃo na sentenÃa pode ocorrer a partir de formas adjetivais atributivas, de formas ordinais ou cardinais e na forma de intensificadores; e os sintagmas adverbiais, cuja estrutura interna foi modelada levando-se em consideraÃÃo tanto advÃrbios intransitivos quanto transitivos com complemento PP. A nossa avaliaÃÃo demonstra que das 40 sentenÃas testadas, a nossa gramÃtica atribui, para todas elas, anÃlises consistentes e bem fundamentadas, ao passo que o parser Palavras, o atual estado da arte em processamento sintÃtico profundo do portuguÃs, atribui, a 9 sentenÃas, anÃlises incorretas. Uma outra avaliaÃÃo demonstra que, das 20 sentenÃas agramaticais testadas tanto em nossa gramÃtica, quanto no Palavras, somente 2 receberam anÃlises por parte de nossa gramÃtica, enquanto o Palavras fornece anÃlises para 19 sentenÃas. O trabalho tem, essencialmente, o objetivo de fazer uma descriÃÃo formal e fundamentada de um amplo leque de fenÃmenos do portuguÃs brasileiro, mas, sobretudo, tem o objetivo de contribuir com uma gramÃtica nÃo trivial da frase do portuguÃs no formalismo LFG-XLE, disponibilizando efetivamente um recurso gramatical do portuguÃs voltado para o processamento de linguagem natural. / The present thesis describes the development of a Brazilian Portuguese sentence grammar, developed in the framework of a sophisticated computational formalism, named Lexical Functional Grammar, and implemented on a system that is state of the art in deep parsing environment in LFG generative model, the robust XLE. The main feature of the grammar is that it adopts the ParGram annotation system and the methodology agreed by XLE grammar developers. In the grammar fragment are modeled diverse elements of phrasal syntax. In our grammar were modeled constituents as IP and CP, elements that are head the sentences of the Portuguese. Also were modeled certain aspects of verbal subcategorization and argument structure. In terms of verbal elements, our grammar includes some cases of verbal complex made up of modal verbs and control verbs. The nominal elements treated in grammar, centrally, were the expletives and reflexive pronouns, and cases of nominal and determiners phrases with demonstrative pronouns and interrogative. The other aspects modeled in the grammar are PPs, whose complexity is given the distinction between semantic and nonstandard prepositions; the adjectival phrases, whose projection in the sentence can occur from attributive adjectival forms of ordinal or cardinal forms and as intensifiers; and adverbial phrases, whose internal structure was modeled taking into account both adverbs as intransitive and as transitive, with PP complement. Our evaluation shows that of the 40 tested sentences, our grammar assigns, for all of them, consistent and well-founded analysis, while the parser Palavras, the current state of the art in deep syntactic processing of Portuguese, assigns incorrect analysis for 9 sentences. Another evaluation shows that, of the 20 ungrammatical sentences tested both in our grammar, as in Palavras, only 2 received analysis by our grammar, while the Palavras provides analysis to 19 sentences. The work has essentially the goal of making a formal and grounded description in a broad range of phenomena in Brazilian Portuguese, but mainly aims to collaborate with a not trivial grammar of the sentence in the LFG-XLE formalism, effectively contributing to a grammatical resource turned to the natural language processing.
310

[en] A NOVEL SOLUTION TO EMPOWER NATURAL LANGUAGE INTERFACES TO DATABASES (NLIDB) TO HANDLE AGGREGATIONS / [pt] UMA NOVA SOLUÇÃO PARA CAPACITAR INTERFACES DE LINGUAGEM NATURAL PARA BANCOS DE DADOS (NLIDB) PARA LIDAR COM AGREGAÇÕES

ALEXANDRE FERREIRA NOVELLO 19 July 2021 (has links)
[pt] Perguntas e Respostas (Question Answering - QA) é um campo de estudo dedicado à construção de sistemas que respondem automaticamente a perguntas feitas em linguagem natural. A tradução de uma pergunta feita em linguagem natural em uma consulta estruturada (SQL ou SPARQL) em um banco de dados também é conhecida como Interface de Linguagem Natural para Bancos de Dados (Natural Language Interface to Database - NLIDB). Os sistemas NLIDB geralmente não lidam com agregações, que podem ter os seguintes elementos: funções de agregação (como contagem, soma, média, mínimo e máximo), uma cláusula de agrupamento (GROUP BY) e uma cláusula HAVING. No entanto, eles fornecem bons resultados para consultas normais. Esta dissertação aborda a criação de um módulo genérico, para ser utilizado em sistemas NLIDB, que permite a tais sistemas realizar consultas com agregações, desde que os resultados da consulta que o NLIDB retorna sejam, ou possam ser transformados, em um resultado no formato tabular. O trabalho cobre agregações com especificidades como ambiguidades, diferenças de escala de tempo, agregações em atributos múltiplos, o uso de adjetivos superlativos, reconhecimento básico de unidade de medida, agregações em atributos com nomes compostos e subconsultas com funções de agregação aninhadas em até dois níveis. / [en] Question Answering (QA) is a field of study dedicated to building systems that automatically answer questions asked in natural language. The translation of a question asked in natural language into a structured query (SQL or SPARQL) in a database is also known as Natural Language Interface to Database (NLIDB). NLIDB systems usually do not deal with aggregations, which can have the following elements: aggregation functions (as count, sum, average, minimum and maximum), a grouping clause (GROUP BY) and a having clause (HAVING). However, they deliver good results for normal queries. This dissertation addresses the creation of a generic module, to be used in NLIDB systems, that allows such systems to perform queries with aggregations, on the condition that the query results the NLIDB return are, or can be transformed into, a result set in the form of a table. The work covers aggregations with specificities such as ambiguities, timescale differences, aggregations in multiple attributes, the use of superlative adjectives, basic unit measure recognition, aggregations in attributes with compound names and subqueries with aggregation functions nested up to two levels.

Page generated in 0.0528 seconds