Global ETD Search

1	[en] A DEPENDENCY TREE ARC FILTER / [pt] UM FILTRO PARA ARCOS EM ÁRVORES DE DEPENDÊNCIA RENATO SAYAO CRYSTALLINO DA ROCHA 13 December 2018 (has links) [pt] A tarefa de Processamento de Linguagem Natural consiste em analisar linguagens naturais de forma computacional, facilitando o desenvolvimento de programas capazes de utilizar dados falados ou escritos. Uma das tarefas mais importantes deste campo é a Análise de Dependência. Tal tarefa consiste em analisar a estrutura gramatical de frases visando extrair aprender dados sobre suas relações de dependência. Em uma sentença, essas relações se apresentam em formato de árvore, onde todas as palavras são interdependentes. Devido ao seu uso em uma grande variedade de aplicações como Tradução Automática e Identificação de Papéis Semânticos, diversas pesquisas com diferentes abordagens são feitas nessa área visando melhorar a acurácia das árvores previstas. Uma das abordagens em questão consiste em encarar o problema como uma tarefa de classificação de tokens e dividi-la em três classificadores diferentes, um para cada sub-tarefa, e depois juntar seus resultados de forma incremental. As sub-tarefas consistem em classificar, para cada par de palavras que possuam relação paidependente, a classe gramatical do pai, a posição relativa entre os dois e a distância relativa entre as palavras. Porém, observando pesquisas anteriores nessa abordagem, notamos que o gargalo está na terceira sub-tarefa, a predição da distância entre os tokens. Redes Neurais Recorrentes são modelos que nos permitem trabalhar utilizando sequências de vetores, tornando viáveis problemas de classificação onde tanto a entrada quanto a saída do problema são sequenciais, fazendo delas uma escolha natural para o problema. Esse trabalho utiliza-se de Redes Neurais Recorrentes, em específico Long Short-Term Memory, para realizar a tarefa de predição da distância entre palavras que possuam relações de dependência como um problema de classificação sequence-to-sequence. Para sua avaliação empírica, este trabalho segue a linha de pesquisas anteriores e utiliza os dados do corpus em português disponibilizado pela Conference on Computational Natural Language Learning 2006 Shared Task. O modelo resultante alcança 95.27 por cento de precisão, resultado que é melhor do que o obtido por pesquisas feitas anteriormente para o modelo incremental. / [en] The Natural Language Processing task consists of analyzing the grammatical structure of a sentence written in natural language aiming to learn, identify and extract information related to its dependency structure. This data can be structured like a tree, since every word in a sentence has a head-dependent relation to another word from the same sentence. Since Dependency Parsing is used in many applications like Machine Translation, Semantic Role Labeling and Part-Of-Speech Tagging, researchers aiming to improve the accuracy on their models are approaching this task in many different ways. One of the approaches consists in looking at this task as a token classification problem, using different classifiers for each sub-task and joining them in an incremental way. These sub-tasks consist in classifying, for each head-dependent pair, the Part-Of-Speech tag of the head, the relative position between the two words and the distance between them. However, previous researches using this approach show that the bottleneck lies in the distance classifier. Recurrent Neural Networks are a kind of Neural Network that allows us to work using sequences of vectors, allowing for classification problems where both our input and output are sequences, making them a great choice for the problem at hand. This work studies the use of Recurrent Neural Networks, in specific Long Short-Term Memory networks, for the head-dependent distance classifier sub-task as a sequence-to-sequence classification problem. To evaluate its efficiency, this work follows the line of previous researches and makes use of the Portuguese corpus of the Conference on Computational Natural Language Learning 2006 Shared Task. The resulting model attains 95.27 percent precision, which is better than the previous results obtained using incremental models. [pt] CLASSIFICACAO [en] CLASSIFICATION [pt] REDES NEURAIS RECORRENTES [en] RECURRENT NEURAL NETWORKS [pt] LONG SHORT-TERM MEMORY [en] LONG SHORT-TERM MEMORY [pt] ARVORES DE DEPENDENCIA [en] DEPENDENCY TREES [pt] CLASSE GRAMATICAL [en] PART-OF-SPEECH
2	[en] FORECASTING EMPLOYMENT AND UNEMPLOYMENT IN US. A COMPARISON BETWEEN MODELS / [pt] PREVENDO EMPREGO E DESEMPREGO NOS EUA. UMA COMPARAÇÃO ENTRE MODELOS MARCOS LOPES MUNIZ 12 November 2020 (has links) [pt] Prever emprego e desemprego é de grande importância para praticamente todos os agentes de uma economia. Emprego é uma das principais variáveis analisadas como indicador econômico, e desemprego serve para os policy makers como uma orientação às suas decisões. Neste trabalho, eu estudo quais características das duas séries podemos usar para auxiliar no tratamento dos dados e métodos empregados para auxiliar no poder preditivo das mesmas. Eu comparo modelos de machine (Random Forest e Lasso Adaptativo) e Deep (Long short Term memory) learning, procurando capturar as não linearidades e dinâmicas de ambas séries. Os resultados encontrados sugerem que o modelo AR com Random Forest aplicado nos resíduos, como uma maneira de separar parte linear e não linear, é o melhor modelo para previsão de emprego, enquanto Random Forest e AdaLasso com Random Forest aplicado nos resíduos são os melhores para o desemprego. / [en] Forecasting employment and unemployment is of great importance for virtually all agents in the economy. Employment is one of the main variables analyzed as an economic indicator, and unemployment serves to policy makers as a guide to their actions. In this essay, I study what features of both series we can use on data treatment and methods used to add to the forecasting predictive power. Using an AR model as a benchmark, I compare machine (Random Forest and Adaptive Lasso) and deep (Long Short Term Memory) learning methods, seeking to capture non-linearities of both series dynamics. The results suggests that an AR model with a Random Forest on residuals (as a way to separate linear and non-linear part) is the best model for employment forecast, while Random Forest and AdaLasso with Random Forest on residuals were the best for unemployment forecast. [pt] PREVISAO [pt] LONG SHORT TERM MEMORY [pt] RANDOM FOREST [pt] TAXA NATURAL DE DESEMPREGO [pt] MERCADO DE TRABALHO [en] FORECASTING [en] LONG SHORT TERM MEMORY [en] RANDOM FOREST [en] NATURAL RATE OF UNEMPLOYMENT [en] JOB REQUIREMENT
3	[en] EXTRACTING AND CONNECTING PLAINTIFF S LEGAL CLAIMS AND JUDICIAL PROVISIONS FROM BRAZILIAN COURT DECISIONS / [pt] EXTRAÇÃO E CONEXÃO ENTRE PEDIDOS E DECISÕES JUDICIAIS DE UM TRIBUNAL BRASILEIRO WILLIAM PAULO DUCCA FERNANDES 03 November 2020 (has links) [pt] Neste trabalho, propomos uma metodologia para anotar decisões judiciais, criar modelos de Deep Learning para extração de informação, e visualizar de forma agregada a informação extraída das decisões. Instanciamos a metodologia em dois sistemas. O primeiro extrai modificações de um tribunal de segunda instância, que consiste em um conjunto de categorias legais que são comumente modificadas pelos tribunais de segunda instância. O segundo (i) extrai as causas que motivaram uma pessoa a propor uma ação judicial (causa de pedir), os pedidos do autor e os provimentos judiciais dessas ações proferidas pela primeira e segunda instância de um tribunal, e (ii) conecta os pedidos com os provimentos judiciais correspondentes. O sistema apresenta seus resultados através de visualizações. Extração de Informação para textos legais tem sido abordada usando diferentes técnicas e idiomas. Nossas propostas diferem dos trabalhos anteriores, pois nossos corpora são compostos por decisões de primeira e segunda instância de um tribunal brasileiro. Para extrair as informações, usamos uma abordagem tradicional de Aprendizado de Máquina e outra usando Deep Learning, tanto individualmente quanto como uma solução combinada. Para treinar e avaliar os sistemas, construímos quatro corpora: Kauane Junior para o primeiro sistema, e Kauane Insurance Report, Kauane Insurance Lower e Kauane Insurance Upper para o segundo. Usamos dados públicos disponibilizados pelo Tribunal de Justiça do Estado do Rio de Janeiro para construir os corpora. Para o Kauane Junior, o melhor modelo (Fbeta=1 de 94.79 por cento) foi uma rede neural bidirecional Long Short-Term Memory combinada com Conditional Random Fields (BILSTM-CRF); para o Kauane Insurance Report, o melhor (Fbeta=1 de 67,15 por cento) foi uma rede neural bidirecional Long Short-Term Memory com embeddings de caracteres concatenados a embeddings de palavras combinada com Conditional Random Fields (BILSTM-CE-CRF). Para o Kauane Insurance Lower, o melhor (Fbeta=1 de 89,12 por cento) foi uma BILSTM-CE-CRF; para o Kauane Insurance Upper, uma BILSTM-CRF (Fbeta=1 de 83,66 por cento). / [en] In this work, we propose a methodology to annotate Court decisions, create Deep Learning models to extract information, and visualize the aggregated information extracted from the decisions. We instantiate our methodology in two systems we have developed. The first one extracts Appellate Court modifications, a set of legal categories that are commonly modified by Appellate Courts. The second one (i) extracts plaintiff s legal claims and each specific provision on legal opinions enacted by lower and Appellate Courts, and (ii) connects each legal claim with the corresponding judicial provision. The system presents the results through visualizations. Information Extraction for legal texts has been previously addressed using different techniques and languages. Our proposals differ from previous work, since our corpora are composed of Brazilian lower and Appellate Court decisions. To automatically extract that information, we use a traditional Machine Learning approach and a Deep Learning approach, both as alternative solutions and also as a combined solution. In order to train and evaluate the systems, we have built Kauane Junior corpus for the first system, and three corpora for the second system – Kauane Insurance Report, Kauane Insurance Lower, and Kauane Insurance Upper. We used public data disclosed by the State Court of Rio de Janeiro to build the corpora. For Kauane Junior, the best model, which is a Bidirectional Long Short-Term Memory network combined with Conditional Random Fields (BILSTM-CRF), obtained an (F)beta=1 score of 94.79 percent. For Kauane Insurance Report, the best model, which is a Bidirectional Long Short-Term Memory network with character embeddings concatenated to word embeddings combined with Conditional Random Fields (BILSTM-CE-CRF), obtained an (F)beta=1 score of 67.15 percent. For Kauane Insurance Lower, the best model, which is a BILSTM-CE-CRF, obtained an (F)beta=1 score of 89.12 percent. For Kauane Insurance Upper, the best model, which is a BILSTM-CRF, obtained an (F)beta=1 score of 83.66 percent. [pt] APRENDIZADO DE MAQUINA [pt] PROVISOES MODIFICATORIAS [pt] CONDITIONAL RANDOM FIELDS [pt] LONG SHORT-TERM MEMORY [pt] REDES NEURAIS RECORRENTES [pt] APRENDIZADO PROFUNDO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] EXTRACAO DE INFORMACAO [pt] DIREITO [en] MACHINE LEARNING [en] MODIFICATORY PROVISIONS [en] CONDITIONAL RANDOM FIELDS [en] LONG SHORT-TERM MEMORY [en] RECURRENT NEURAL NETWORKS [en] DEEP LEARNING [en] NATURAL LANGUAGE PROCESSING [en] EXTRATION OF INFORMATION [en] LAW

1

Page generated in 0.0346 seconds