Global ETD Search

11	[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO ELVIS ALVES DE SOUZA 29 May 2023 (has links) [pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank – for the oil and gas domain. The development of the resource is seen from two perspectives: on the linguistic side, we study the grammatical literature and make linguistically motivated decisions to ensure the quality of corpus annotation; on the computational side, we evaluate the resource considering its usefulness for natural language processing (NLP). Resources like PetroGold receive special importance in the current context, where statistical NLP has benefited from domain-specific gold-standard resources to train machine learning models. However, the treebank is also useful for tasks such as evaluating rule-based annotation systems and for linguistic studies. PetroGold was annotated according to the guidelines of the Universal Dependencies project, having as theoretical assumptions the idea that the annotation of a corpus is an interpretative process, on the one hand, and using the empirical linguistics paradigm, on the other. In addition to describing the annotation itself, we apply some methods to find errors in the annotation of treebanks and present a tool created specifically for searching, editing and evaluating annotated corpora. Finally, we evaluate the impact of revising each of the treebank linguistic categories on the automatic learning of a model powered by PetroGold and make the third version of the corpus publicly available, which, when performing an intrinsic evaluation for a model using the corpus, achieves metrics up to 2.55 perecent better than the previous version. [pt] LINGUISTICA COMPUTACIONAL [pt] ANOTACAO DE CORPUS [pt] TREEBANKS [pt] DESCRICAO DO PORTUGUES [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] COMPUTATIONAL LINGUISTICS [en] CORPUS ANNOTATION [en] TREEBANKS [en] PORTUGUESE DESCRIPTION [en] NATURAL LANGUAGE PROCESSING
12	[en] LER: ANNOTATION AND AUTOMATIC CLASSIFICATION OF ENTITIES AND RELATIONS / [pt] LER: ANOTAÇÃO E CLASSIFICAÇÃO AUTOMÁTICA DE ENTIDADES E RELAÇÕES JONATAS DOS SANTOS GROSMAN 30 November 2017 (has links) [pt] Diversas técnicas para extração de informações estruturadas de dados em linguagem natural foram desenvolvidas e demonstraram resultados muito satisfatórios. Entretanto, para obterem tais resultados, requerem uma série de atividades que geralmente são feitas de modo isolado, como a anotação de textos para geração de corpora, etiquetamento morfossintático, engenharia e extração de atributos, treinamento de modelos de aprendizado de máquina etc., o que torna onerosa a extração dessas informações, dado o esforço e tempo a serem investidos. O presente trabalho propõe e desenvolve uma plataforma em ambiente web, chamada LER (Learning Entities and Relations) que integra o fluxo necessário para essas atividades, com uma interface que visa a facilidade de uso. Outrossim, o trabalho mostra os resultados da implementação e uso da plataforma proposta. / [en] Many techniques for the structured information extraction from natural language data have been developed and have demonstrated their potentials yielding satisfactory results. Nevertheless, to obtain such results, they require some activities that are usually done separately, such as text annotation to generate corpora, Part-Of- Speech tagging, features engineering and extraction, machine learning models training etc., making the information extraction task a costly activity due to the effort and time spent on this. The present work proposes and develops a web based platform called LER (Learning Entities and Relations), that integrates the needed workflow for these activities, with an interface that aims the ease of use. The work also shows the platform implementation and its use. [pt] ONTOLOGIAS [pt] CURADORIA DE DADOS [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] EXTRACAO DE INFORMACAO [pt] APRENDIZADO AUTOMATICO [en] ONTOLOGIES [en] DATA CURATION [en] NATURAL LANGUAGE PROCESSING [en] EXTRATION OF INFORMATION [en] AUTOMATIC LEARNING
13	[en] RES-RISK-ONTO: AN APPLICATION ONTOLOGY FOR RISKS IN THE PETROLEUM RESERVOIR DOMAIN / [pt] RES-RISK-ONTO: UMA ONTOLOGIA DE APLICAÇÃO PARA RISCOS NO DOMÍNIO DE RESERVATÓRIOS DE PETRÓLEO PATRICIA FERREIRA DA SILVA 12 May 2022 (has links) [pt] Este trabalho apresenta a Reservoir Risks Ontology (ResRiskOnto), uma ontologia aplicada aos riscos na indústria de óleo e gás associados ao domínio de reservatórios. Os componentes da ResRiskOnto são termos do domínio de trabalho de profissinais de reservatório, de forma a facilitar sua adoção na documentação futura de riscos. A ResRiskOnto tem como ideia central o conceito de Evento de Risco. Cada evento tem um conjunto de possíveis Participantes, que por sua vez possuem Características manifestadas pelo evento. A ontologia dispõe de um total de 97 termos, 29 dos quais derivados da classe Evento de Risco. Para desenvolver a ResRiskOnto, foi feita uma análise semântica em aproximadamente 2500 riscos de reservatórios documentados em linguagem natural. Este repositório é fruto de centenas de workshops de avaliação de riscos em projetos de óleo e gás, conduzidos na Petrobras durante uma década. A ontologia proposta fundamenta-se nos princípios da Basic Formal Ontology (BFO), uma ontologia de topo projetada para descrever domínios científicos. A BFO baseia-se no Realismo, uma visão filosófica segundo a qual os entes que constituem a realidade existem independentemente da nossa representação. No nível de domínio definimos os entes de reservatório usando os conceitos da GeoCore Ontology, uma ontologia para a Geologia. Para validar a ResRiskOnto os documentos do repositório foram anotados utilizando os entes e relações definidos na ontologia, e desenvolvido um modelo capaz de reconhecer entidades nomeadas e extrair as relações entre elas. Nossa contribuição é uma ontologia aplicada que permite o raciocínio semântico no repositório de documentos de risco. Esperamos que ela forneça (i) as bases para modelagem de dados de riscos relacionados a reservatórios; e (ii) um padrão para futura documentação de riscos no domínio de reservatório. / [en] This work proposes the Reservoir Risks Ontology (ResRiskOnto), an application ontology for risks in the oil and gas industry associated with the petroleum reservoir domain. ResRiskOnto s building blocks are terms dominated by reservoir professionals, so that it can be easily adopted in future risk documentation. ResRiskOnto is developed having at its center the concept of Risk Events. Each event has a set of possible Participants, that have its Characteristics manifested by the event. The ontology provides a total a set of 97 terms, 29 of which are derived from the Risk Event class. To develop the ResRiskOnto, we conducted a semantic analysis of documents that contain over 2500 reservoir-related risks described in natural language. This repository is the result of hundreds of risk assessment workshops in oil and gas projects, conducted in over ten years in Petrobras. This ontology is founded on the principles of the Basic Formal Ontology (BFO), a top-level ontology designed to describe scientific domains. One of BFO s most distinct characteristic is its commitment to Realism, a philosophical view of reality in which its constituents exist independently of our representations. On the domain-level, reservoir entities are described under the principles of the GeoCore Ontology, a core ontology for Geology. To validate the ResRiskOnto we annotate our risk documents repository with the ontology s entities and relations, developing a model that recognizes named entities and extracts the relations among them. Our contribution is an application ontology that allows semantic reasoning over the risk documents. We also expect to provide (i) a basis for data modelling in the case of reservoir-related risks; and (ii) a standard for future risk documentation in the reservoir domain. [pt] ONTOLOGIA [pt] GERENCIAMENTO DE RISCOS DE PROJETOS [pt] PROCESSAMENTO EM LINGUAGEM NATURAL [pt] RESERVATORIOS DE PETROLEO [pt] MODELAGEM CONCEITUAL [en] ONTOLOGY [en] PROJECT RISK MANAGEMENT [en] NATURAL LANGUAGE PROCESSING [en] OIL RESERVOIRS [en] CONCEPTUAL MODELING
14	[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS / [pt] CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES IVAN DE JESUS PEREIRA PINTO 16 November 2021 (has links) [pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot. / [en] Academic data (i.e., Thesis, Dissertation) encompasses aspects of a whole society, as well as its scientific knowledge. There is a wealth of information to be explored by computational models, and that can be positive for society. Machine learning models in particular, have an increasing need for training data, that are efficient and of considerable size. Its use in the area of natural language processing (NLP) is pervasive in many different tasks. This work makes the effort of collecting, constructing, analyzing and training of models for the biggest known academic corpus in the Portuguese language. Word embeddings, bag of words and transformers models have been trained. The Bert-Academico has shown the better result, with 77 percent of f1-score in Great area of knowledge and 63 percent in knowledge area classification of Thesis and Dissertation. A semantic analysis of the academic corpus is made through topic modelling, and an unprecedented visualization of the knowledge areas is presented. Lastly, an application that uses the trained models is showcased, the SucupiraBot. [pt] APRENDIZADO DE MAQUINA [pt] EMBEDDINGS [pt] PERGUNTA-RESPOSTA INTERATIVO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] EMBEDDINGS [en] INTERACTIVE QUESTION ANSWER [en] NATURAL LANGUAGE PROCESSING
15	[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENT FREDERICO SHU 06 January 2022 (has links) [pt] A análise de documentos financeiros não estruturados é uma atividade essencial para a supervisão do mercado de capitais realizada pela Comissão de Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço humano despendido no processo de triagem de documentos são vitais para a CVM lidar com a escassez de recursos humanos e a expansão do mercado de valores mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos algoritmos de aprendizado de máquina e técnicas de processamento de texto, a partir de sua aplicação em duas tarefas de processamento de linguagem natural – classificação de documentos e extração de informações – desempenhadas em ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos clássicos proporcionaram melhor desempenho que as redes neurais profundas, o qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A arquitetura BERT foi capaz de extrair informações sobre aumento de capital e incorporação societária de documentos financeiros. Os resultados satisfatórios obtidos em ambas as tarefas motivam a implementação futura em regime de produção dos modelos estudados, sob a forma de um sistema de apoio à decisão. Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o escopo deste trabalho com documentos financeiros entregues por companhias abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital markets supervision performed by Comissão de Valores Mobiliários (Brazilian SEC or CVM). Systems capable of reducing human effort involved in the task of screening documents and outlining relevant information, for further manual review, are important tools for CVM to deal with the shortage of human resources and expansion of the Brazilian securities market. In this regard, this dissertation presents and discusses the application of several machine learning algorithms and text processing techniques to perform two natural language processing tasks— document classification and information extraction—in a real market supervision environment. In the classification exercise, classic algorithms achieved a better performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network architecture was able to extract information from financial documents on capital increase and mergers. The successful results obtained in both tasks encourage future implementation of the studied models in the form of a decision support system. Another contribution of this work is the CVMCorpus, a corpus built to produce datasets for the tasks, with financial documents released between 2009 and 2019 by Brazilian companies, which opens possibilities of future linguistic and finance research. [pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO PROFUNDO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] CLASSIFICACAO DE TEXTOS [pt] EXTRACAO DE INFORMACAO [en] MACHINE LEARNING [en] DEEP LEARNING [en] NATURAL LANGUAGE PROCESSING [en] TEXT CLASSIFICATION [en] EXTRATION OF INFORMATION
16	[pt] MINERAÇÃO DE INFORMAÇÃO EM LINGUAGEM NATURAL PARA APOIAR A ELICITAÇÃO DE REQUISITOS / [en] MINING INFORMATION IN NATURAL LANGUAGE TO SUPPORT REQUIREMENTS ELICITATION ROXANA LISETTE QUINTANILLA PORTUGAL 02 December 2016 (has links) [pt] Este trabalho descreve a mineração de informações em linguagem natural a partir do repositório de projetos GitHub. É explicada como o conteúdo de projetos semelhantes dada uma busca por domínio podem ser úteis para o reuso de conhecimento, e assim, ajudar nas tarefas de Elicitação de Requisitos. Técnicas de mineração de textos, regularidades independentes do domínio, e os metadados de GitHub são os métodos utilizados para selecionar projetos relevantes e as informações dentro deles. Uma abordagem para atingir nossa meta utilizando pesquisa exploratória é explicada, bem como descrevemos os resultados alcançados. / [en] This work describes the mining of information in natural language from the GitHub repository. It is explained how the content of similar projects given a search domain can be useful for the reuse of knowledge, and thus help in the Requirements Elicitation tasks. Techniques of text mining, regularities independent from domain, and GitHub metadata are the methods used to select relevant projects and the information within them. One approach to achieve our goal is explained with an exploratory research and the results achieved. [pt] ELICITACAO DE REQUISITOS [pt] REPOSITORIOS ABERTOS [pt] REUSO DE CONHECIMENTO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] EXTRACAO DE INFORMACAO [en] REQUIREMENTS ELICITATION [en] OPEN SOURCE REPOSITORIES [en] KNOWLEDGE REUSE [en] NATURAL LANGUAGE PROCESSING [en] EXTRATION OF INFORMATION
17	[pt] ANOTAÇÃO MORFOSSINTÁTICA A PARTIR DO CONTEXTO MORFOLÓGICO / [en] MORPHOSYNTACTIC ANNOTATION BASED ON MORPHOLOGICAL CONTEXT EDUARDO DE JESUS COELHO REIS 20 December 2016 (has links) [pt] Rotular as classes gramaticais ao longo de uma sentença - part-ofspeech tagging - é uma das primeiras tarefas de processamento de linguagem natural, fornecendo atributos importantes para realizar tarefas de alta complexidade. A representação de texto a nível de palavra tem sido amplamente adotada, tanto através de uma codificação esparsa convencional, e.g. bagofwords; quanto por uma representação distribuída, como os sofisticados modelos de word-embedding usados para descrever informações sintáticas e semânticas. Um problema importante desse tipo de codificação é a carência de aspectos morfológicos. Além disso, os sistemas atuais apresentam uma precisão por token em torno de 97 por cento. Contudo, quando avaliados por sentença, apresentam um resultado mais modesto com uma taxa de acerto em torno de 55−57 por cento. Neste trabalho, nós demonstramos como utilizar n-grams para derivar automaticamente atributos esparsos e morfológicos para processamento de texto. Essa representação permite que redes neurais realizem a tarefa de POS-Tagging a partir de uma representação a nível de caractere. Além disso, introduzimos uma estratégia de regularização capaz de selecionar atributos específicos para cada neurônio. A utilização de regularização embutida em nossos modelos produz duas variantes. A primeira compartilha os n-grams selecionados globalmente entre todos os neurônios de uma camada; enquanto que a segunda opera uma seleção individual para cada neurônio, de forma que cada neurônio é sensível apenas aos n-grams que mais o estimulam. Utilizando a abordagem apresentada, nós geramos uma alta quantidade de características que representam afeições morfossintáticas relevantes baseadas a nível de caractere. Nosso POS tagger atinge a acurácia de 96, 67 por cento no corpus Mac-Morpho para o Português. / [en] Part-of-speech tagging is one of the primary stages in natural language processing, providing useful features for performing higher complexity tasks. Word level representations have been largely adopted, either through a conventional sparse codification, such as bag-of-words, or through a distributed representation, like the sophisticated word embedded models used to describe syntactic and semantic information. A central issue on these codifications is the lack of morphological aspects. In addition, recent taggers present per-token accuracies around 97 percent. However, when using a persentence metric, the good taggers show modest accuracies, scoring around 55-57 percent. In this work, we demonstrate how to use n-grams to automatically derive morphological sparse features for text processing. This representation allows neural networks to perform POS tagging from a character-level input. Additionally, we introduce a regularization strategy capable of selecting specific features for each layer unit. As a result, regarding n-grams selection, using the embedded regularization in our models produces two variants. The first one shares globally selected features among all layer units, whereas the second operates individual selections for each layer unit, so that each unit is sensible only to the n-grams that better stimulate it. Using the proposed approach, we generate a high number of features which represent relevant morphosyntactic affection based on a character-level input. Our POS tagger achieves the accuracy of 96.67 percent in the Mac-Morpho corpus for Portuguese. [pt] REDE NEURAL [pt] REGULARIZACAO ESPARSA [pt] N GRAMS [pt] REPRESENTACAO MORFOLOGICA [pt] PART OF SPEECH TAGGING [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NEURAL NETWORKS [en] NATURAL LANGUAGE PROCESSING
18	[pt] O IMPACTO DA POLÍTICA MONETÁRIA SOBRE PREÇOS DE ATIVO: UMA ABORDAGEM DE ALTA FREQUÊNCIA APLICADA AO BRASIL / [en] THE IMPACT OF MONETARY POLICY ON ASSET PRICES: A HIGH-FREQUENCY APPROACH FOR BRAZIL THOMAS GLEIZER FEIBERT 10 January 2023 (has links) [pt] Neste artigo estudamos o impacto de surpresas monetárias sobre um conjunto de preços de ativo no mercado financeiro Brasileiro. Devido a fatores institucionais que impedem a identificação deste impacto através de associações entre o choque monetário e variações de preços de ativos em pequenos intervalos ao redor de anúncios de política monetária, utilizamos uma abordagem de estudo de eventos em frequência diária, controlando por fatores domésticos e externos que afetam os preços de ativos relevantes. Os resultados indicam que a surpresa monetária contracionista possui um impacto negativo significativo sobre retornos da bolsa de valores, e o impacto sobre a curva de juros é positivo, atingindo um máximo ao vértice de 6 meses. Diferente de grande parte da literatura focada ao Brasil, os resultados apontam a uma apreciação do Real em reação a esta surpresa monetária contracionista, o que é consistente com reações de moedas de países desenvolvidos a surpresas monetárias. Por mais que obtenhamos um regime no qual a taxa de câmbio não reage significativamente à surpresa monetária, não há forte evidência de que a causa por trás deste regime é de natureza fiscal. / [en] In this paper we study the impact of monetary surprises on a class of asset prices in the Brazilian financial market. Due to institutional factors that prevent identification of this impact through the association between the monetary surprise and asset price movements in short windows around monetary policy announcements, we use an event study framework at daily frequency, controlling for both domestic and foreign factors that may affect the asset prices under analysis. We find that a surprise monetary tightening has a strong negative impact on stock market returns, and its effect on the yield curve is positive and hump-shaped, reaching a maximum on the 6 months yield. Unlike most of the previous literature focused on Brazil, we find that the Brazilian Real appreciates in response to this monetary tightening, which is consistent with the reactions found for currencies of developed economies. Moreover, while we obtain a regime in which the exchange rate is irresponsive to the monetary surprise, the evidence supporting a fiscal cause behind this regime is not strong. [pt] RISCO SOBERANO [pt] CHOQUE MONETARIO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] PRECOS DE ATIVOS [pt] ESTUDO DE EVENTOS [en] SOVEREIGN RISK [en] MONETARY SHOCK [en] NATURAL LANGUAGE PROCESSING [en] ASSET PRICES [en] EVENT STUDY
19	[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO / [en] DEEP LEARNING APPLIED TO TEXT CHUNKING MIGUEL MENDES DE BRITO 15 May 2019 (has links) [pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87. / [en] Natural Language Processing is a research field that explores how computers can understand and manipulate natural language texts. Sequence tagging is amongst the most well-known tasks in NLP. Text Chunking is one of the problems that can be approached as a sequence tagging problem. Thus, we classify which words belong to a chunk, where each chunk represents a disjoint group of syntactically correlated words. This type of chunking has important applications in more complex tasks of natural language processing, such as dependency parsing, machine translation, semantic role labeling, clause identification and much more. The goal of this work is to present a deep neural network archtecture for the Portuguese text chunking problem. The corpus used in the experiments is the Bosque, from the Floresta Sintá(c)tica project. Based on recent work in the field, our approach surpass the state-of-the-art for Portuguese by achieving a F(beta)=1 of 90.51, which corresponds to an increase of 2.56 in comparison with the previous work. In addition, in order to attest the chunker effectiveness we use the tags obtained by our system as feature for the depedency parsing task. These features improved the accuracy of the parser by 0.87. [pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO PROFUNDO [pt] SEGMENTACAO TEXTUAL [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] DEEP LEARNING [en] TEXT CHUNKING [en] NATURAL LANGUAGE PROCESSING
20	[pt] ARQUITETURA PROFUNDA PARA EXTRAÇÃO DE CITAÇÕES / [en] DEEP ARCHITECTURE FOR QUOTATION EXTRACTION LUIS FELIPE MULLER DE OLIVEIRA HENRIQUES 28 July 2017 (has links) [pt] A Extração e Atribuição de Citações é a tarefa de identificar citações de um texto e associá-las a seus autores. Neste trabalho, apresentamos um sistema de Extração e Atribuição de Citações para a língua portuguesa. A tarefa de Extração e Atribuição de Citações foi abordada anteriormente utilizando diversas técnicas e para uma variedade de linguagens e datasets. Os modelos tradicionais para a tarefa consistem em extrair manualmente um rico conjunto de atributos e usá-los para alimentar um classificador raso. Neste trabalho, ao contrário da abordagem tradicional, evitamos usar atributos projetados à mão, usando técnicas de aprendizagem não supervisionadas e redes neurais profundas para automaticamente aprender atributos relevantes para resolver a tarefa. Ao evitar a criação manual de atributos, nosso modelo de aprendizagem de máquina tornou-se facilmente adaptável a outros domínios e linguagens. Nosso modelo foi treinado e avaliado no corpus GloboQuotes e sua métrica de desempenho F1 é igual a 89.43 por cento. / [en] Quotation Extraction and Attribution is the task of identifying quotations from a given text and associating them to their authors. In this work, we present a Quotation Extraction and Attribution system for the Portuguese language. The Quotation Extraction and Attribution task has been previously approached using various techniques and for a variety of languages and datasets. Traditional models to this task consist of extracting a rich set of hand-designed features and using them to feed a shallow classifier. In this work, unlike the traditional approach, we avoid using hand-designed features using unsupervised learning techniques and deep neural networks to automatically learn relevant features to solve the task. By avoiding design features by hand, our machine learning model became easily adaptable to other languages and domains. Our model is trained and evaluated at the GloboQuotes corpus, and its F1 performance metric is equal to 89.43 percent. [pt] REDE NEURAL [pt] APRENDIZADO PROFUNDO [pt] EXTRACAO DE CITACOES [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] APRENDIZADO DE MAQUINA [en] NEURAL NETWORKS [en] DEEP LEARNING [en] QUOTATION EXTRACTION [en] NATURAL LANGUAGE PROCESSING [en] MACHINE LEARNING

Search results