• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 63
  • 63
  • Tagged with
  • 126
  • 126
  • 125
  • 125
  • 122
  • 19
  • 19
  • 19
  • 19
  • 19
  • 18
  • 18
  • 16
  • 13
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Meta-aprendizado para seleção automática de modelos de séries temporais

SOUZA, Renata Maria de 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T16:00:15Z (GMT). No. of bitstreams: 2 arquivo6165_1.pdf: 1230278 bytes, checksum: 064886e8d1500344414739f1068f03b3 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2010 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Meta-Aprendizado tem crescido nos últimos anos devido ao desenvolvimento de assistentes para seleção de algoritmos, com o desafio de predizer quando um algoritmo de aprendizagem é mais adequado do que outro a partir das características dos problemas abordados. O meta-aprendizado surge originalmente para auxiliar a seleção de algoritmos em problemas de aprendizagem de máquina e mineração de dados, particularmente em classificação e regressão. Em anos recentes, meta-aprendizado tem sido extrapolado para seleção de algoritmos em outros domínios de aplicações, como sistemas de planejamento, otimização, bioinformática e previsão de séries temporais. Nesse trabalho, focamos particularmente, em meta-aprendizado no contexto de previsão de séries temporais que tem sido usado em diferentes contextos para diminuir riscos na tomada de decisão. Estudos foram realizados para seleção de modelos de previsão aplicados às séries anuais da M3-competition. Nesses estudos, diferentes algoritmos foram utilizados no meta-aprendizado como o algoritmo kNN, árvores de decisão e support vector machines. Os resultados mostraram que os algoritmos de aprendizado de fato são capazes de predizer os melhores modelos de previsão a partir das características das séries temporais
2

[en] A METACLASSIFIER FOR FINDING THE K-CLASSES MOST RELEVANTS / [pt] UM METACLASSIFICADOR PARA ENCONTRAR AS K-CLASSES MAIS RELEVANTES

DANIEL DA ROSA MARQUES 19 October 2016 (has links)
[pt] Considere uma rede com k nodos que pode apresentar falhas ao longo de sua operação. Além disso, assuma que é inviável verificar todos os nodos sempre que uma falha ocorre. Motivados por este cenário, propomos um método que usa aprendizado de máquina supervisionado para gerar rankings dos nodos mais prováveis por serem responsáveis pela falha. O método proposto é um metaclassificador que pode utilizar qualquer tipo de classificador internamente, onde o modelo gerado pelo metaclassificador é uma composição daqueles gerados pelos classificadores internos. Cada modelo interno é treinado com um subconjunto dos dados. Estes subconjuntos são criados sucessivamente a partir dos dados originais eliminando-se algumas instâncias. As instâncias eliminadas são aquelas cujas classes já foram colocadas no ranking. Métricas derivadas da Acurácia, Precision e Recall foram propostas e usadas para avaliar este método. Utilizando uma base de domínio público, verificamos que os tempos de treinamento e classificação do metaclassificador são maiores que os de um classificador simples. Entretanto ele atinge resultados melhores em alguns casos, como ocorre com as árvores de decisão, que superam a acurácia do benchmark por uma margem maior que 5 por cento. / [en] Consider a network with k nodes that may fail along its operation. Furthermore assume that it is impossible to check all nodes whenever a failure occurs. Motivated by this scenario, we propose a method that uses supervised learning to generate rankings of the most likely nodes responsible for the failure. The proposed method is a meta-classifier that is able to use any kind of classifier internally, where the model generated by the meta-classifier is a composition of those generated by the internal classifiers. Each internal model is trained with a subset of the data created from the elimination of instances whose classes were already put in the ranking. Metrics derived from Accuracy, Precision and Recall were proposed and used to evaluate this method. Using a public data set, we verified that the training and classification times of the meta-classifier were greater than those of a simple classifier. However it reaches better results in some cases, as with the decision trees, that exceeds the benchmark accuracy for a margin greater than 5 percent.
3

[en] MORPHOSYNTACTIC TAGGER FOR PORTUGUESE-TWITTER / [pt] ANOTADOR MORFOSSINTÁTICO PARA O PORTUGUES-TWITTER

PEDRO LARRONDA ASTI 13 October 2011 (has links)
[pt] Nesta dissertação, apresentamos um processador linguístico que resolve a tarefa de Anotação morfossintática de mensagens em português postadas no Twitter. Ao analisar as mensagens escritas por brasileiros no Twitter, é fácil verificar que novos caracteres são introduzidos no alfabeto e também que novas palavras são adicionadas ao idioma. Além disso, observamos que essas mensagens são sintaticamente mal formadas. Isto impossibilita o uso nessas mensagens de diversos processadores linguísticos existentes para o português. Resolvemos esse problema considerando essas mensagens como escritas em uma nova língua, o português-twitter. O alfabeto dessa nova língua contém o alfabeto do português e o seu vocabulário contém o vocabulário da língua portuguesa. Porém, suas gramáticas são diferentes. Para construir os processadores desta nova linguagem, utilizamos a técnica de aprendizado supervisionado denominada Entropy Guided Transformation Learning (ETL). Adicionalmente, para treinar os processadores ETL, construímos um corpus anotado de mensagens em português-twitter. Não temos conhecimento da existência de outros Anotadores Morfossintáticos para o português-twitter. Porém, sabemos que, no estado-da-arte da Anotação Morfossintática para o português, a acurácia é de aproximadamente 96%, variando de acordo com o conjunto de classes escolhido. Construímos o processador composto de dois estágios, um morfológico e um contextual. Como métrica de avaliação, adotamos a acurácia, que mede quantos por cento do corpus foi anotado corretamente. Nossos resultados experimentais apresentam uma acurácia de 90,24% para o anotador proposto. Isto corresponde a um aprendizado significativo, pois o sistema inicial tem uma acurácia de apenas 76,58%. Este resultado é compatível com o aprendizado observado nos correspondentes processadores na língua portuguesa. / [en] In this paper we present a language processor that solves the task of Morphosyntactic Tagging of messages posted in Portuguese on Twitter. By analyzing the messages written by Brazilian on Twitter, it is easy to notice that new characters are introduced in the alphabet and also that new words are added to the language. Furthermore, we note that these messages are syntactically malformed. This precludes the use of existing Portuguese processors in these messages, nevertheless this problem can be solved by considering these messages as written in a new language, the Portuguese-Twitter. Both the alphabet and the vocabulary of such idiom contain features of Portuguese. However, the grammar is are different. In order to build the processors for this new language, we have used a supervised learning technique known as Entropy Guided Transformation Learning (ETL). Additionally, to train ETL processors, we have built an annotated corpus of messages in Portuguese-Twitter. We are not aware of any other taggers for the Morphosyntactic Portuguese-Twitter task, thus we have compared our tagger to the the accuracy of state-of-art Morphosyntactic Annotation for Portuguese, which has accuracy around 96% depending on the tag set chosen. To assess the quality of the processor, we have used accuracy, which measures how many tokens were tagged correctly. Our experimental results show an accuracy of 90,24% for the proposed Morphosyntatic Tagger. This corresponds to significant learning, since the initial baseline system has an accuracy of only 76,58%. This finding is consistent with the observed learning for the corresponding regular Portuguese taggers.
4

[en] PRODUCT OFFERING CLASSIFICATION / [pt] CLASSIFICAÇÃO DE OFERTAS DE PRODUTOS

FELIPE REIS GOMES 26 February 2014 (has links)
[pt] Este trabalho apresenta o EasyLearn, um framework para apoiar o desenvolvimento de aplicações voltadas ao aprendizado supervisionado. O EasyLearn define uma camada intermediaria, de simples configuração e entendimento, entre a aplicação e o WEKA, um framework de aprendizado de máquina criado pela Universidade de Waikato. Todos os classificadores e filtros implementados pelo WEKA podem ser facilmente encapsulados para serem utilizados pelo EasyLearn. O EasyLearn recebe como entrada um conjunto de arquivos de configuração no formato XML contendo a definição do fluxo de processamento a ser executado, além da fonte de dados a ser processada, independente do formato. Sua saída é adaptável e pode ser configurada para produzir, por exemplo, relatórios de acurácia da classificação, a própria da fonte de dados classificada, ou o modelo de classificação já treinado. A arquitetura do EasyLearn foi definida após a análise detalhada dos processos de classificação, permitindo identificar inúmeras atividades em comum entre os três processos estudados aprendizado, avaliação e classificação). Através desta percepção e tomando as linguagens orientadas a objetos como inspiração, foi criado um framework capaz de comportar os processos de classificação e suas possíveis variações, além de permitir o reaproveitamento das configurações, através da implementação de herança e polimorfismo para os seus arquivos de configuração. A dissertação ilustra o uso do framework criado através de um estudo de caso completo sobre classificação de produtos do comércio eletrônico, incluindo a criação do corpus, engenharia de atributos e análise dos resultados obtidos. / [en] This dissertation presents EasyLearn, a framework to support the development of supervised learning applications. EasyLearn dfines an intermediate layer, which is easy to configure and understand, between the application and WEKA, a machine learning framework created by the University of Waikato. All classifiers and filters implemented by WEKA can be easily encapsulated to be used by EasyLearn. EasyLearn receives as input a set of configuration files in XML format containing the definition of the processing flow to be executed, in addition to the data source to be classified, regardless of format. Its output is customizable and can be configured to produce classification accuracy reports, the classified data source, or the trained classification model. The architecture of EasyLearn was defined after a detailed analysis of the classification process, which identified a set of common activities among the three analyzed processes (learning, evaluation and classification). Through this insight and taking the object-oriented languages as inspiration, a framework was created which is able to support the classification processes and its variations, and which also allows reusing settings by implementing inheritance and polymorphism in their configuration files. This dissertation also illustrates the use of the created framework presenting a full case study about e-commerce product classification, including corpus creation, attribute engineering and result analysis.
5

[en] ON THE INTERACTION BETWEEN SOFTWARE ENGINEERS AND DATA SCIENTISTS WHEN BUILDING MACHINE LEARNING-ENABLED SYSTEMS / [pt] SOBRE A INTERAÇÃO ENTRE ENGENHEIROS DE SOFTWARE E CIENTISTAS DE DADOS CONSTRUINDO SISTEMAS HABILITADOS POR APRENDIZADO DE MÁQUINA

GABRIEL DE ANDRADE BUSQUIM 18 June 2024 (has links)
[pt] Nos últimos anos, componentes de aprendizado de máquina têm sido cada vez mais integrados aos sistemas principais de organizações. A construção desses sistemas apresenta diversos desafios, tanto do ponto de vista teórico quanto prático. Um dos principais desafios é a interação eficaz entre atores com diferentes formações que precisam trabalhar em conjunto, como engenheiros de software e cientistas de dados. Este trabalho apresenta três estudos distintos que investigam as dinâmicas de colaboração entre esses dois atores em projetos de aprendizado de máquina. Primeiramente, realizamos um estudo de caso exploratório com quatro profissionais com experiência em engenharia de software e ciência de dados de um grande projeto de sistema habilitado por aprendizado de máquina. Em nosso segundo estudo, realizamos entrevistas complementares com membros de duas equipes que trabalham em sistemas habilitados por aprendizado de máquina para obter mais percepções sobre como cientistas de dados e engenheiros de software compartilham responsabilidades e se comunicam. Por fim, nosso terceiro estudo consiste em um grupo focal onde validamos a relevância dessa colaboração durante várias tarefas relacionadas à sistemas habilitados por aprendizado de máquina e avaliamos recomendações que podem melhorar a interação entre os atores. Nossos estudos revelaram vários desafios que podem dificultar a colaboração entre engenheiros de software e cientistas de dados, incluindo diferenças de conhecimento técnico, definições pouco claras das funções de cada um, e a falta de documentos que apoiem a especificação do sistema habilitado por aprendizado de máquina. Possíveis soluções para enfrentar esses desafios incluem incentivar a comunicação na equipe, definir claramente responsabilidades, e produzir uma documentação concisa do sistema. Nossa pesquisa contribui para a compreensão da complexa dinâmica entre engenheiros de software e cientistas de dados em projetos de aprendizado de máquina e fornece recomendações para melhorar a colaboração e a comunicação nesse contexto. Incentivamos novos estudos que investiguem essa interação em outros projetos. / [en] In recent years, Machine Learning (ML) components have been increasingly integrated into the core systems of organizations. Engineering such systems presents various challenges from both a theoretical and practical perspective. One of the key challenges is the effective interaction between actors with different backgrounds who need to work closely together, such as software engineers and data scientists. This work presents three studies investigating the current interaction and collaboration dynamics between these two roles in ML projects. Our first study depicts an exploratory case study with four practitioners with experience in software engineering and data science of a large ML-enabled system project. In our second study, we performed complementary interviews with members of two teams working on ML-enabled systems to acquire more insights into how data scientists and software engineers share responsibilities and communicate. Finally, our third study consists of a focus group where we validated the relevance of this collaboration during multiple tasks related to ML-enabled systems and assessed recommendations that can foster the interaction between the actors. Our studies revealed several challenges that can hinder collaboration between software engineers and data scientists, including differences in technical expertise, unclear definitions of each role s duties, and the lack of documents that support the specification of the ML-enabled system. Potential solutions to address these challenges include encouraging team communication, clearly defining responsibilities, and producing concise system documentation. Our research contributes to understanding the complex dynamics between software engineers and data scientists in ML projects and provides insights for improving collaboration and communication in this context. We encourage future studies investigating this interaction in other projects.
6

[en] QUANTUM-INSPIRED LINEAR GENETIC PROGRAMMING / [pt] PROGRAMAÇÃO GENÉTICA LINEAR COM INSPIRAÇÃO QUÂNTICA

DOUGLAS MOTA DIAS 26 May 2011 (has links)
[pt] A superioridade de desempenho dos algoritmos quânticos, em alguns problemas específicos, reside no uso direto de fenômenos da mecânica quântica para realizar operações com dados em computadores quânticos. Esta característica fez surgir uma nova abordagem, denominada Computação com Inspiração Quântica, cujo objetivo é criar algoritmos clássicos (executados em computadores clássicos) que tirem proveito de princípios da mecânica quântica para melhorar seu desempenho. Neste sentido, alguns algoritmos evolutivos com inspiração quântica tem sido propostos e aplicados com sucesso em problemas de otimização combinatória e numérica, apresentando desempenho superior àquele dos algoritmos evolutivos convencionais, quanto à melhoria da qualidade das soluções e à redução do número de avaliações necessárias para alcançá-las. Até o presente momento, no entanto, este novo paradigma de inspiração quântica ainda não havia sido aplicado à Programação Genética (PG), uma classe de algoritmos evolutivos que visa à síntese automática de programas de computador. Esta tese propõe, desenvolve e testa um novo modelo de algoritmo evolutivo com inspiração quântica, denominado Programação Genética Linear com Inspiração Quântica (PGLIQ), para a evolução de programas em código de máquina. A Programação Genética Linear é assim denominada porque cada um dos seus indivíduos é representado por uma lista de instruções (estruturas lineares), as quais são executadas sequencialmente. As contribuições deste trabalho são o estudo e a formulação inédita do uso do paradigma da inspiração quântica na síntese evolutiva de programas de computador. Uma das motivações para a opção pela evolução de programas em código de máquina é que esta é a abordagem de PG que, por oferecer a maior velocidade de execução, viabiliza experimentos em larga escala. O modelo proposto é inspirado em sistemas quânticos multiníveis e utiliza o qudit como unidade básica de informação quântica, o qual representa a superposição dos estados de um sistema deste tipo. O funcionamento do modelo se baseia em indivíduos quânticos, que representam a superposição de todos os programas do espaço de busca, cuja observação gera indivíduos clássicos e os programas (soluções). Nos testes são utilizados problemas de regressão simbólica e de classificação binária para se avaliar o desempenho da PGLIQ e compará-lo com o do modelo AIMGP (Automatic Induction of Machine Code by Genetic Programming), considerado atualmente o modelo de PG mais eficiente na evolução de código de máquina, conforme citado em inúmeras referências bibliográficas na área. Os resultados mostram que a Programação Genética Linear com Inspiração Quântica (PGLIQ) apresenta desempenho geral superior nestas classes de problemas, ao encontrar melhores soluções (menores erros) a partir de um número menor de avaliações, com a vantagem adicional de utilizar um número menor de parâmetros e operadores que o modelo de referência. Nos testes comparativos, o modelo mostra desempenho médio superior ao do modelo de referência para todos os estudos de caso, obtendo erros de 3 a 31% menores nos problemas de regressão simbólica, e de 36 a 39% nos problemas de classificação binária. Esta pesquisa conclui que o paradigma da inspiração quântica pode ser uma abordagem competitiva para se evoluir programas eficientemente, encorajando o aprimoramento e a extensão do modelo aqui apresentado, assim como a criação de outros modelos de programação genética com inspiração quântica. / [en] The superior performance of quantum algorithms in some specific problems lies in the direct use of quantum mechanics phenomena to perform operations with data on quantum computers. This feature has originated a new approach, named Quantum-Inspired Computing, whose goal is to create classic algorithms (running on classical computers) that take advantage of quantum mechanics principles to improve their performance. In this sense, some quantum-inspired evolutionary algorithms have been proposed and successfully applied in combinatorial and numerical optimization problems, presenting a superior performance to that of conventional evolutionary algorithms, by improving the quality of solutions and reducing the number of evaluations needed to achieve them. To date, however, this new paradigm of quantum inspiration had not yet been applied to Genetic Programming (GP), a class of evolutionary algorithms that aims the automatic synthesis of computer programs. This thesis proposes, develops and tests a novel model of quantum-inspired evolutionary algorithm named Quantum-Inspired Linear Genetic Programming (QILGP) for the evolution of machine code programs. Linear Genetic Programming is so named because each of its individuals is represented by a list of instructions (linear structures), which are sequentially executed. The contributions of this work are the study and formulation of the novel use of quantum inspiration paradigm on evolutionary synthesis of computer programs. One of the motivations for choosing by the evolution of machine code programs is because this is the GP approach that, by offering the highest speed of execution, makes feasible large-scale experiments. The proposed model is inspired on multi-level quantum systems and uses the qudit as the basic unit of quantum information, which represents the superposition of states of such a system. The model’s operation is based on quantum individuals, which represent a superposition of all programs of the search space, whose observation leads to classical individuals and programs (solutions). The tests use symbolic regression and binary classification problems to evaluate the performance of QILGP and compare it with the AIMGP model (Automatic Induction of Machine Code by Genetic Programming), which is currently considered the most efficient GP model to evolve machine code, as cited in numerous references in this field. The results show that Quantum-Inspired Linear Genetic Programming (QILGP) presents superior overall performance in these classes of problems, by achieving better solutions (smallest error) from a smaller number of evaluations, with the additional advantage of using a smaller number of parameters and operators that the reference model. In comparative tests, the model shows average performance higher than that of the reference model for all case studies, achieving errors 3-31% lower in the problems of symbolic regression, and 36-39% in the binary classification problems. This research concludes that the quantum inspiration paradigm can be a competitive approach to efficiently evolve programs, encouraging the improvement and extension of the model presented here, as well as the creation of other models of quantum-inspired genetic programming.
7

[en] MATRIX FACTORIZATION MODELS FOR VIDEO RECOMMENDATION / [pt] MODELOS DE FATORAÇÃO MATRICIAL PARA RECOMENDAÇÃO DE VÍDEOS

BRUNO DE FIGUEIREDO MELO E SOUZA 14 March 2012 (has links)
[pt] A recomendação de itens a partir do feedback implícito dos usuários consiste em identificar padrões no interesse dos usuários por estes itens a partir de ações dos usuários, tais como cliques, interações ou o consumo de conteúdos específicos. Isso, de forma a prover sugestões personalizadas que se adéquem ao gosto destes usuários. Nesta dissertação, avaliamos a performance de alguns modelos de fatoração matricial otimizados para a tarefa de recomendação a partir de dados implícitos no consumo das ofertas de vídeos da Globo.com. Propusemos tratar estes dados de consumo como indicativos de intenção de um usuário em assistir um vídeo. Além disso, avaliamos como os vieses únicos dos usuários e vídeos, e sua variação temporal impactam o resultado das recomendações. Também sugerimos a utilização de um modelo de fatoração incremental otimizado para este problema, que escala linearmente com o tamanho da entrada, isto é, com os dados de visualizações e quantidade de variáveis latentes. Na tarefa de prever a intenção dos usuários em consumir um conteúdo novo, nosso melhor modelo de fatoração apresenta um RMSE de 0,0524 usando o viés de usuários e vídeos, assim como sua variação temporal. / [en] Item recommendation from implicit feedback datasets consists of passively tracking different sorts of user behavior, such as purchase history, watching habits and browsing activities in order to improve customer experience through providing personalized recommendations that fits into users taste. In this work we evaluate the performance of different matrix factorization models tailored for the recommendation task for the implicit feedback dataset extracted from Globo.com s video site s access logs. We propose treating the data as indication of a positive preference from a user regarding the video watched. Besides that we evaluated the impact of effects associated with either users or items, known as biases or intercepts, independent of any interactions and its time changing behavior throughout the life span of the data in the result of recommendations. We also suggest a scalable and incremental procedure, which scales linearly with the input data size. In trying to predict the intention of the users for consuming new videos our best factorization models achieves a RMSE of 0,0524 using user s and video s bias as well as its temporal dynamics.
8

[en] USING REINFORCEMENT LEARNING ON WEB PAGES REVISITING PROBLEM / [pt] APRENDIZADO POR REFORÇO SOBRE O PROBLEMA DE REVISITAÇÃO DE PÁGINAS WEB

EUGENIO PACELLI FERREIRA DIAS JUNIOR 14 June 2012 (has links)
[pt] No ambiente da Internet, as informações que desejamos frequentemente encontram-se em diferentes localidades. Algumas aplicações, para funcionarem corretamente, precisam manter cópias locais de parte dessas informações. Manter a consistência e a atualidade de uma base de dados, mais especificamente um conjunto de cópias de páginas web, é uma tarefa que vem sendo sistematicamente estudada. Uma abordagem possível a esse problema é a aplicação de técnicas de aprendizado por reforço, que utiliza técnicas de programação dinâmica e análise estocástica para obter uma boa política de agendamento de atualizações das cópias de páginas web. O presente trabalho tem por finalidade validar o uso de técnicas de aprendizado por reforço no problema em questão, assim como encontrar aspectos do problema que possam ser úteis na modelagem da solução empregada. / [en] In the Internet, the information we desire is usually spread over different locations. For some applications, it is necessary to maintain local copies of this information. Keeping consistency as well as freshness of a data base, or more specifically a set of internet web pages, is a task systematically studied. An approach to this problem is the use of reinforcement learning techniques, using dynamic programming and stochastic analysis to obtain a good rescheduling policy for the web pages copies. This work is proposed to validate the use of reinforcement learning techniques over this problem, as well as finding features of the problem useful to model the developed solution.
9

[en] DEVELOPMENT OF A METHODOLOGY FOR TEXT MINING / [pt] DESENVOLVIMENTO DE UMA METODOLOGIA PARA MINERAÇÃO DE TEXTOS

JOAO RIBEIRO CARRILHO JUNIOR 20 May 2008 (has links)
[pt] A seguinte dissertação tem como objetivo explorar a Mineração de Textos através de um estudo amplo e completo do que atualmente é considerado estado da arte. Esta nova área, considerada por muitos como uma evolução natural da Mineração de Dados, é bastante interdisciplinar e vem obtendo importantes colaborações de estudiosos e pesquisadores de diversas naturezas, como Lingüística, Computação, Estatística e Inteligência Artificial. Entretanto, muito se discute sobre como deve ser um processo completo de investigação textual, de forma a tirar máximo proveito das técnicas adotadas nas mais variadas abordagens. Desta forma, através de um encadeamento sistemático de procedimentos, pode-se chegar a uma conclusão do que seria a metodologia ideal para a Mineração de Textos, conforme já se chegou para a de Dados. O presente trabalho explora um modelo de processo, do início ao fim, que sugere as seguintes etapas: coleta de dados, pré-processamento textual, indexação, mineração e análise. Este sequenciamento é uma tendência encontrada em trabalhos recentes, sendo minuciosamente discutido nos capítulos desta dissertação. Finalmente, a fim de se obter enriquecimento prático, foi desenvolvido um sistema de Mineração de Textos que possibilitou a apresentação de resultados reais, obtidos a partir da aplicação de algoritmos em documentos de natureza geral. / [en] The following essay is intended to explore the area of Text Mining, through an extensive and comprehensive study of what is currently considered state of the art. This new area, considered by many as a natural evolution of the Data Mining, is quite interdisciplinary. Several scholars and researchers from fields like linguistics and computing, for instance, have contributed for its development. Nevertheless, much has been discussed on how complete dossier of textual investigation must be carried out, in order to take maximum advantage of the techniques adopted in various approaches. Thus, through a systematic sequence of procedures, one can come to a conclusion of what would be the ideal method for the Mining of documents, as one has come about Data. This work explores a model of process which suggests the following steps: collecting data, textual preprocessing, indexing, mining and analysis. This sequence is a tendency followed in some recent works and it is thoroughly discussed in the chapters to come. Finally, in order to obtain a practical enrichment, one developed a system of Mining of documents with which became possible the presentation of results, obtained from the application of algorithms in documents of a general nature.
10

[en] TRANSITIONBASED DEPENDENCY PARSING APPLIED ON UNIVERSAL DEPENDENCIES / [pt] ANÁLISE DE DEPENDÊNCIA BASEADA EM TRANSIÇÃO APLICADA A UNIVERSAL DEPENDENCIES

CESAR DE SOUZA BOUCAS 11 February 2019 (has links)
[pt] Análise de dependência consiste em obter uma estrutura sintática correspondente a determinado texto da linguagem natural. Tal estrutura, usualmente uma árvore de dependência, representa relações hierárquicas entre palavras. Representação computacionalmente eficiente que vem sendo utilizada para lidar com desafios que surgem com o crescente volume de informação textual online. Podendo ser utilizada, por exemplo, para inferir computacionalmente o significado de palavras das mais diversas línguas. Este trabalho apresenta a análise de dependência com enfoque em uma de suas modelagens mais populares em aprendizado de máquina: o método baseado em transição. Desenvolvemos uma implementação gulosa deste modelo com um classificador neural simples para executar experimentos. Datasets da iniciativa Universal Dependencies são utilizados para treinar e posteriormente testar o sistema com a validação disponibilizada na tarefa compartilhada da CoNLL-2017. Os resultados mostram empiricamente que se pode obter ganho de performance inicializando a camada de entrada da rede neural com uma representação de palavras obtida com pré-treino. Chegando a uma performance de 84,51 LAS no conjunto de teste da língua portuguesa do Brasil e 75,19 LAS no conjunto da língua inglesa. Ficando cerca de 4 pontos atrás da performance do melhor resultado para analisadores de dependência baseados em sistemas de transição. / [en] Dependency parsing is the task that transforms a sentence into a syntactic structure, usually a dependency tree, that represents relations between words. This representations are useful to deal with several tasks that arises with the increasing volume of textual online information and the need for technologies that depends on NLP tasks to work. It can be used, for example, to enable computers to infer the meaning of words of multiple natural languages. This paper presents dependency parsing with focus on one of its most popular modeling in machine learning: the transition-based method. A greedy implementation of this model with a simple neural network-based classifier is used to perform experiments. Universal Dependencies treebanks are used to train and then test the system using the validation script published in the CoNLL-2017 shared task. The results empirically indicate the benefits of initializing the input layer of the network with word embeddings obtained through pre-training. It reached 84.51 LAS in the Portuguese of Brazil test set and 75.19 LAS in the English test set. This result is nearly 4 points behind the performance of the best results of transition-based parsers.

Page generated in 0.0943 seconds