• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 53
  • 49
  • Tagged with
  • 102
  • 102
  • 102
  • 102
  • 102
  • 18
  • 18
  • 18
  • 18
  • 17
  • 17
  • 14
  • 12
  • 10
  • 10
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

[en] A METACLASSIFIER FOR FINDING THE K-CLASSES MOST RELEVANTS / [pt] UM METACLASSIFICADOR PARA ENCONTRAR AS K-CLASSES MAIS RELEVANTES

DANIEL DA ROSA MARQUES 19 October 2016 (has links)
[pt] Considere uma rede com k nodos que pode apresentar falhas ao longo de sua operação. Além disso, assuma que é inviável verificar todos os nodos sempre que uma falha ocorre. Motivados por este cenário, propomos um método que usa aprendizado de máquina supervisionado para gerar rankings dos nodos mais prováveis por serem responsáveis pela falha. O método proposto é um metaclassificador que pode utilizar qualquer tipo de classificador internamente, onde o modelo gerado pelo metaclassificador é uma composição daqueles gerados pelos classificadores internos. Cada modelo interno é treinado com um subconjunto dos dados. Estes subconjuntos são criados sucessivamente a partir dos dados originais eliminando-se algumas instâncias. As instâncias eliminadas são aquelas cujas classes já foram colocadas no ranking. Métricas derivadas da Acurácia, Precision e Recall foram propostas e usadas para avaliar este método. Utilizando uma base de domínio público, verificamos que os tempos de treinamento e classificação do metaclassificador são maiores que os de um classificador simples. Entretanto ele atinge resultados melhores em alguns casos, como ocorre com as árvores de decisão, que superam a acurácia do benchmark por uma margem maior que 5 por cento. / [en] Consider a network with k nodes that may fail along its operation. Furthermore assume that it is impossible to check all nodes whenever a failure occurs. Motivated by this scenario, we propose a method that uses supervised learning to generate rankings of the most likely nodes responsible for the failure. The proposed method is a meta-classifier that is able to use any kind of classifier internally, where the model generated by the meta-classifier is a composition of those generated by the internal classifiers. Each internal model is trained with a subset of the data created from the elimination of instances whose classes were already put in the ranking. Metrics derived from Accuracy, Precision and Recall were proposed and used to evaluate this method. Using a public data set, we verified that the training and classification times of the meta-classifier were greater than those of a simple classifier. However it reaches better results in some cases, as with the decision trees, that exceeds the benchmark accuracy for a margin greater than 5 percent.
2

[en] MORPHOSYNTACTIC TAGGER FOR PORTUGUESE-TWITTER / [pt] ANOTADOR MORFOSSINTÁTICO PARA O PORTUGUES-TWITTER

PEDRO LARRONDA ASTI 13 October 2011 (has links)
[pt] Nesta dissertação, apresentamos um processador linguístico que resolve a tarefa de Anotação morfossintática de mensagens em português postadas no Twitter. Ao analisar as mensagens escritas por brasileiros no Twitter, é fácil verificar que novos caracteres são introduzidos no alfabeto e também que novas palavras são adicionadas ao idioma. Além disso, observamos que essas mensagens são sintaticamente mal formadas. Isto impossibilita o uso nessas mensagens de diversos processadores linguísticos existentes para o português. Resolvemos esse problema considerando essas mensagens como escritas em uma nova língua, o português-twitter. O alfabeto dessa nova língua contém o alfabeto do português e o seu vocabulário contém o vocabulário da língua portuguesa. Porém, suas gramáticas são diferentes. Para construir os processadores desta nova linguagem, utilizamos a técnica de aprendizado supervisionado denominada Entropy Guided Transformation Learning (ETL). Adicionalmente, para treinar os processadores ETL, construímos um corpus anotado de mensagens em português-twitter. Não temos conhecimento da existência de outros Anotadores Morfossintáticos para o português-twitter. Porém, sabemos que, no estado-da-arte da Anotação Morfossintática para o português, a acurácia é de aproximadamente 96%, variando de acordo com o conjunto de classes escolhido. Construímos o processador composto de dois estágios, um morfológico e um contextual. Como métrica de avaliação, adotamos a acurácia, que mede quantos por cento do corpus foi anotado corretamente. Nossos resultados experimentais apresentam uma acurácia de 90,24% para o anotador proposto. Isto corresponde a um aprendizado significativo, pois o sistema inicial tem uma acurácia de apenas 76,58%. Este resultado é compatível com o aprendizado observado nos correspondentes processadores na língua portuguesa. / [en] In this paper we present a language processor that solves the task of Morphosyntactic Tagging of messages posted in Portuguese on Twitter. By analyzing the messages written by Brazilian on Twitter, it is easy to notice that new characters are introduced in the alphabet and also that new words are added to the language. Furthermore, we note that these messages are syntactically malformed. This precludes the use of existing Portuguese processors in these messages, nevertheless this problem can be solved by considering these messages as written in a new language, the Portuguese-Twitter. Both the alphabet and the vocabulary of such idiom contain features of Portuguese. However, the grammar is are different. In order to build the processors for this new language, we have used a supervised learning technique known as Entropy Guided Transformation Learning (ETL). Additionally, to train ETL processors, we have built an annotated corpus of messages in Portuguese-Twitter. We are not aware of any other taggers for the Morphosyntactic Portuguese-Twitter task, thus we have compared our tagger to the the accuracy of state-of-art Morphosyntactic Annotation for Portuguese, which has accuracy around 96% depending on the tag set chosen. To assess the quality of the processor, we have used accuracy, which measures how many tokens were tagged correctly. Our experimental results show an accuracy of 90,24% for the proposed Morphosyntatic Tagger. This corresponds to significant learning, since the initial baseline system has an accuracy of only 76,58%. This finding is consistent with the observed learning for the corresponding regular Portuguese taggers.
3

[en] DEEP SEMANTIC ROLE LABELING FOR PORTUGUESE / [pt] ANOTAÇÃO PROFUNDA DE PAPÉIS SEMÂNTICOS PARA O PORTUGUÊS

GUILHERME SANT ANNA VARELA 06 August 2019 (has links)
[pt] Vivemos em um mundo complexo, no qual incontáveis fatores aparentemente desconexos – tais como a lei de Moore que dita um aumento exponencial da capacidade de processamento em um chip de silício, a queda do custo de espaço de armazenamento e a adoção em massa de smartphones colaboram para a formação de uma sociedade progressivamente interdependente. Todos os dias são criados 2,5 quintilhões de bytes de dados, de fato 90 por cento dos dados no mundo foram criados nos últimos dois anos. Domar os padrões salientes aos dados separando informação do caos torna-se uma necessidade iminente para a tomada de decisão dos indivíduos e para sobrevivência de organizações. Nesse cenário a melhor resposta dos pesquisadores de Processamento de Linguagem Natural encontra-se na tarefa de Anotação de Papéis Semânticos. APS é a tarefa que tem o audacioso objetivo de compreender eventos, buscando determinar Quem fez o que e aonde, Quais foram os beneficiados? ou Qual o meio utilizado para atingir os fins. APS serve como tarefa intermediária para várias aplicações de alto nível e.g information extraction, question and answering e agentes conversacionais. Tradicionalmente, resultados satisfatórios eram obtidos apenas com alta dependência de conhecimento específico de domínio. Para o português, através desta abordagem, o sistema estado da arte da tarefa para é de 79,6 por cento de pontuação F1. Sistemas mais recentes dependem de uma série de subtarefas, obtém 58 por cento de pontuação F1. Nessa dissertação, exploramos um novo paradigma utilizando redes neurais recorrentes, para o idioma do português do Brasil, e sem subtarefas intermediárias obtendo uma pontuação de 66,23. / [en] We live in a complex world in which a myriad of seemingly unrelated factors – such as Moore s law which states that the processing capacity on a silicon wafer should increase exponentially, the fall of storage costs and mass adoption of smart-phones contribute to the formation of an increasingly inter-dependent society: 2.5 quintillion bytes of data are generated every day, in fact ninety percent of the world s data were created in the last few years. Harnessing the emerging patterns within the data, effectively separating information from chaos is crucial for both individual decision making as well as for the survival of organizations. In this scenario the best answer from Natural Language Processing researchers is the task of Semantic Role Labeling. SRL is the task the concerns itself with the audacious goal of event understanding, which means determining Who did what to whom, Who was the beneficiary? or What were the means to achieve some goal. APS is also an intermediary task to high level applications such as information extraction, question and answering and chatbots. Traditionally, satisfactory results were obtained only by the introduction of highly specific domain knowledge. For Portuguese, this approach is able to yields a F1 score of 79.6 percent. Recent systems, rely on a pipeline of sub-tasks, yielding a F1 score of 58 percent. In this dissertation, we adopt a new paradigm using recurrent neural networks for the Brazilian Portuguese, that does not rely on a pipeline, our system obtains a score of 66.23 percent.
4

[en] QUANTUM-INSPIRED LINEAR GENETIC PROGRAMMING / [pt] PROGRAMAÇÃO GENÉTICA LINEAR COM INSPIRAÇÃO QUÂNTICA

DOUGLAS MOTA DIAS 26 May 2011 (has links)
[pt] A superioridade de desempenho dos algoritmos quânticos, em alguns problemas específicos, reside no uso direto de fenômenos da mecânica quântica para realizar operações com dados em computadores quânticos. Esta característica fez surgir uma nova abordagem, denominada Computação com Inspiração Quântica, cujo objetivo é criar algoritmos clássicos (executados em computadores clássicos) que tirem proveito de princípios da mecânica quântica para melhorar seu desempenho. Neste sentido, alguns algoritmos evolutivos com inspiração quântica tem sido propostos e aplicados com sucesso em problemas de otimização combinatória e numérica, apresentando desempenho superior àquele dos algoritmos evolutivos convencionais, quanto à melhoria da qualidade das soluções e à redução do número de avaliações necessárias para alcançá-las. Até o presente momento, no entanto, este novo paradigma de inspiração quântica ainda não havia sido aplicado à Programação Genética (PG), uma classe de algoritmos evolutivos que visa à síntese automática de programas de computador. Esta tese propõe, desenvolve e testa um novo modelo de algoritmo evolutivo com inspiração quântica, denominado Programação Genética Linear com Inspiração Quântica (PGLIQ), para a evolução de programas em código de máquina. A Programação Genética Linear é assim denominada porque cada um dos seus indivíduos é representado por uma lista de instruções (estruturas lineares), as quais são executadas sequencialmente. As contribuições deste trabalho são o estudo e a formulação inédita do uso do paradigma da inspiração quântica na síntese evolutiva de programas de computador. Uma das motivações para a opção pela evolução de programas em código de máquina é que esta é a abordagem de PG que, por oferecer a maior velocidade de execução, viabiliza experimentos em larga escala. O modelo proposto é inspirado em sistemas quânticos multiníveis e utiliza o qudit como unidade básica de informação quântica, o qual representa a superposição dos estados de um sistema deste tipo. O funcionamento do modelo se baseia em indivíduos quânticos, que representam a superposição de todos os programas do espaço de busca, cuja observação gera indivíduos clássicos e os programas (soluções). Nos testes são utilizados problemas de regressão simbólica e de classificação binária para se avaliar o desempenho da PGLIQ e compará-lo com o do modelo AIMGP (Automatic Induction of Machine Code by Genetic Programming), considerado atualmente o modelo de PG mais eficiente na evolução de código de máquina, conforme citado em inúmeras referências bibliográficas na área. Os resultados mostram que a Programação Genética Linear com Inspiração Quântica (PGLIQ) apresenta desempenho geral superior nestas classes de problemas, ao encontrar melhores soluções (menores erros) a partir de um número menor de avaliações, com a vantagem adicional de utilizar um número menor de parâmetros e operadores que o modelo de referência. Nos testes comparativos, o modelo mostra desempenho médio superior ao do modelo de referência para todos os estudos de caso, obtendo erros de 3 a 31% menores nos problemas de regressão simbólica, e de 36 a 39% nos problemas de classificação binária. Esta pesquisa conclui que o paradigma da inspiração quântica pode ser uma abordagem competitiva para se evoluir programas eficientemente, encorajando o aprimoramento e a extensão do modelo aqui apresentado, assim como a criação de outros modelos de programação genética com inspiração quântica. / [en] The superior performance of quantum algorithms in some specific problems lies in the direct use of quantum mechanics phenomena to perform operations with data on quantum computers. This feature has originated a new approach, named Quantum-Inspired Computing, whose goal is to create classic algorithms (running on classical computers) that take advantage of quantum mechanics principles to improve their performance. In this sense, some quantum-inspired evolutionary algorithms have been proposed and successfully applied in combinatorial and numerical optimization problems, presenting a superior performance to that of conventional evolutionary algorithms, by improving the quality of solutions and reducing the number of evaluations needed to achieve them. To date, however, this new paradigm of quantum inspiration had not yet been applied to Genetic Programming (GP), a class of evolutionary algorithms that aims the automatic synthesis of computer programs. This thesis proposes, develops and tests a novel model of quantum-inspired evolutionary algorithm named Quantum-Inspired Linear Genetic Programming (QILGP) for the evolution of machine code programs. Linear Genetic Programming is so named because each of its individuals is represented by a list of instructions (linear structures), which are sequentially executed. The contributions of this work are the study and formulation of the novel use of quantum inspiration paradigm on evolutionary synthesis of computer programs. One of the motivations for choosing by the evolution of machine code programs is because this is the GP approach that, by offering the highest speed of execution, makes feasible large-scale experiments. The proposed model is inspired on multi-level quantum systems and uses the qudit as the basic unit of quantum information, which represents the superposition of states of such a system. The model’s operation is based on quantum individuals, which represent a superposition of all programs of the search space, whose observation leads to classical individuals and programs (solutions). The tests use symbolic regression and binary classification problems to evaluate the performance of QILGP and compare it with the AIMGP model (Automatic Induction of Machine Code by Genetic Programming), which is currently considered the most efficient GP model to evolve machine code, as cited in numerous references in this field. The results show that Quantum-Inspired Linear Genetic Programming (QILGP) presents superior overall performance in these classes of problems, by achieving better solutions (smallest error) from a smaller number of evaluations, with the additional advantage of using a smaller number of parameters and operators that the reference model. In comparative tests, the model shows average performance higher than that of the reference model for all case studies, achieving errors 3-31% lower in the problems of symbolic regression, and 36-39% in the binary classification problems. This research concludes that the quantum inspiration paradigm can be a competitive approach to efficiently evolve programs, encouraging the improvement and extension of the model presented here, as well as the creation of other models of quantum-inspired genetic programming.
5

[en] MATRIX FACTORIZATION MODELS FOR VIDEO RECOMMENDATION / [pt] MODELOS DE FATORAÇÃO MATRICIAL PARA RECOMENDAÇÃO DE VÍDEOS

BRUNO DE FIGUEIREDO MELO E SOUZA 14 March 2012 (has links)
[pt] A recomendação de itens a partir do feedback implícito dos usuários consiste em identificar padrões no interesse dos usuários por estes itens a partir de ações dos usuários, tais como cliques, interações ou o consumo de conteúdos específicos. Isso, de forma a prover sugestões personalizadas que se adéquem ao gosto destes usuários. Nesta dissertação, avaliamos a performance de alguns modelos de fatoração matricial otimizados para a tarefa de recomendação a partir de dados implícitos no consumo das ofertas de vídeos da Globo.com. Propusemos tratar estes dados de consumo como indicativos de intenção de um usuário em assistir um vídeo. Além disso, avaliamos como os vieses únicos dos usuários e vídeos, e sua variação temporal impactam o resultado das recomendações. Também sugerimos a utilização de um modelo de fatoração incremental otimizado para este problema, que escala linearmente com o tamanho da entrada, isto é, com os dados de visualizações e quantidade de variáveis latentes. Na tarefa de prever a intenção dos usuários em consumir um conteúdo novo, nosso melhor modelo de fatoração apresenta um RMSE de 0,0524 usando o viés de usuários e vídeos, assim como sua variação temporal. / [en] Item recommendation from implicit feedback datasets consists of passively tracking different sorts of user behavior, such as purchase history, watching habits and browsing activities in order to improve customer experience through providing personalized recommendations that fits into users taste. In this work we evaluate the performance of different matrix factorization models tailored for the recommendation task for the implicit feedback dataset extracted from Globo.com s video site s access logs. We propose treating the data as indication of a positive preference from a user regarding the video watched. Besides that we evaluated the impact of effects associated with either users or items, known as biases or intercepts, independent of any interactions and its time changing behavior throughout the life span of the data in the result of recommendations. We also suggest a scalable and incremental procedure, which scales linearly with the input data size. In trying to predict the intention of the users for consuming new videos our best factorization models achieves a RMSE of 0,0524 using user s and video s bias as well as its temporal dynamics.
6

[en] USING REINFORCEMENT LEARNING ON WEB PAGES REVISITING PROBLEM / [pt] APRENDIZADO POR REFORÇO SOBRE O PROBLEMA DE REVISITAÇÃO DE PÁGINAS WEB

EUGENIO PACELLI FERREIRA DIAS JUNIOR 14 June 2012 (has links)
[pt] No ambiente da Internet, as informações que desejamos frequentemente encontram-se em diferentes localidades. Algumas aplicações, para funcionarem corretamente, precisam manter cópias locais de parte dessas informações. Manter a consistência e a atualidade de uma base de dados, mais especificamente um conjunto de cópias de páginas web, é uma tarefa que vem sendo sistematicamente estudada. Uma abordagem possível a esse problema é a aplicação de técnicas de aprendizado por reforço, que utiliza técnicas de programação dinâmica e análise estocástica para obter uma boa política de agendamento de atualizações das cópias de páginas web. O presente trabalho tem por finalidade validar o uso de técnicas de aprendizado por reforço no problema em questão, assim como encontrar aspectos do problema que possam ser úteis na modelagem da solução empregada. / [en] In the Internet, the information we desire is usually spread over different locations. For some applications, it is necessary to maintain local copies of this information. Keeping consistency as well as freshness of a data base, or more specifically a set of internet web pages, is a task systematically studied. An approach to this problem is the use of reinforcement learning techniques, using dynamic programming and stochastic analysis to obtain a good rescheduling policy for the web pages copies. This work is proposed to validate the use of reinforcement learning techniques over this problem, as well as finding features of the problem useful to model the developed solution.
7

[en] DEVELOPMENT OF A METHODOLOGY FOR TEXT MINING / [pt] DESENVOLVIMENTO DE UMA METODOLOGIA PARA MINERAÇÃO DE TEXTOS

JOAO RIBEIRO CARRILHO JUNIOR 20 May 2008 (has links)
[pt] A seguinte dissertação tem como objetivo explorar a Mineração de Textos através de um estudo amplo e completo do que atualmente é considerado estado da arte. Esta nova área, considerada por muitos como uma evolução natural da Mineração de Dados, é bastante interdisciplinar e vem obtendo importantes colaborações de estudiosos e pesquisadores de diversas naturezas, como Lingüística, Computação, Estatística e Inteligência Artificial. Entretanto, muito se discute sobre como deve ser um processo completo de investigação textual, de forma a tirar máximo proveito das técnicas adotadas nas mais variadas abordagens. Desta forma, através de um encadeamento sistemático de procedimentos, pode-se chegar a uma conclusão do que seria a metodologia ideal para a Mineração de Textos, conforme já se chegou para a de Dados. O presente trabalho explora um modelo de processo, do início ao fim, que sugere as seguintes etapas: coleta de dados, pré-processamento textual, indexação, mineração e análise. Este sequenciamento é uma tendência encontrada em trabalhos recentes, sendo minuciosamente discutido nos capítulos desta dissertação. Finalmente, a fim de se obter enriquecimento prático, foi desenvolvido um sistema de Mineração de Textos que possibilitou a apresentação de resultados reais, obtidos a partir da aplicação de algoritmos em documentos de natureza geral. / [en] The following essay is intended to explore the area of Text Mining, through an extensive and comprehensive study of what is currently considered state of the art. This new area, considered by many as a natural evolution of the Data Mining, is quite interdisciplinary. Several scholars and researchers from fields like linguistics and computing, for instance, have contributed for its development. Nevertheless, much has been discussed on how complete dossier of textual investigation must be carried out, in order to take maximum advantage of the techniques adopted in various approaches. Thus, through a systematic sequence of procedures, one can come to a conclusion of what would be the ideal method for the Mining of documents, as one has come about Data. This work explores a model of process which suggests the following steps: collecting data, textual preprocessing, indexing, mining and analysis. This sequence is a tendency followed in some recent works and it is thoroughly discussed in the chapters to come. Finally, in order to obtain a practical enrichment, one developed a system of Mining of documents with which became possible the presentation of results, obtained from the application of algorithms in documents of a general nature.
8

[en] TRANSITIONBASED DEPENDENCY PARSING APPLIED ON UNIVERSAL DEPENDENCIES / [pt] ANÁLISE DE DEPENDÊNCIA BASEADA EM TRANSIÇÃO APLICADA A UNIVERSAL DEPENDENCIES

CESAR DE SOUZA BOUCAS 11 February 2019 (has links)
[pt] Análise de dependência consiste em obter uma estrutura sintática correspondente a determinado texto da linguagem natural. Tal estrutura, usualmente uma árvore de dependência, representa relações hierárquicas entre palavras. Representação computacionalmente eficiente que vem sendo utilizada para lidar com desafios que surgem com o crescente volume de informação textual online. Podendo ser utilizada, por exemplo, para inferir computacionalmente o significado de palavras das mais diversas línguas. Este trabalho apresenta a análise de dependência com enfoque em uma de suas modelagens mais populares em aprendizado de máquina: o método baseado em transição. Desenvolvemos uma implementação gulosa deste modelo com um classificador neural simples para executar experimentos. Datasets da iniciativa Universal Dependencies são utilizados para treinar e posteriormente testar o sistema com a validação disponibilizada na tarefa compartilhada da CoNLL-2017. Os resultados mostram empiricamente que se pode obter ganho de performance inicializando a camada de entrada da rede neural com uma representação de palavras obtida com pré-treino. Chegando a uma performance de 84,51 LAS no conjunto de teste da língua portuguesa do Brasil e 75,19 LAS no conjunto da língua inglesa. Ficando cerca de 4 pontos atrás da performance do melhor resultado para analisadores de dependência baseados em sistemas de transição. / [en] Dependency parsing is the task that transforms a sentence into a syntactic structure, usually a dependency tree, that represents relations between words. This representations are useful to deal with several tasks that arises with the increasing volume of textual online information and the need for technologies that depends on NLP tasks to work. It can be used, for example, to enable computers to infer the meaning of words of multiple natural languages. This paper presents dependency parsing with focus on one of its most popular modeling in machine learning: the transition-based method. A greedy implementation of this model with a simple neural network-based classifier is used to perform experiments. Universal Dependencies treebanks are used to train and then test the system using the validation script published in the CoNLL-2017 shared task. The results empirically indicate the benefits of initializing the input layer of the network with word embeddings obtained through pre-training. It reached 84.51 LAS in the Portuguese of Brazil test set and 75.19 LAS in the English test set. This result is nearly 4 points behind the performance of the best results of transition-based parsers.
9

[pt] CLASSIFICAÇÃO DE SENTIMENTO PARA NOTÍCIAS SOBRE A PETROBRAS NO MERCADO FINANCEIRO / [en] SENTIMENT ANALYSIS FOR FINANCIAL NEWS ABOUT PETROBRAS COMPANY

PAULA DE CASTRO SONNENFELD VILELA 21 December 2011 (has links)
[pt] Hoje em dia, encontramos uma grande quantidade de informações na internet, em particular, notícias sobre o mercado financeiro. Diversas pesquisas mostram que notícias sobre o mercado financeiro possuem uma grande relação com variáveis de mercado como volume de transações, volatilidade e preço das ações. Nesse trabalho, investigamos o problema de Análise de Sentimentos de notícias jornalísticas do mercado financeiro. Nosso objetivo é classificar notícias como favoráveis ou não a Petrobras. Utilizamos técnicas de Processamento de Linguagem Natural para melhorar a acurácia do modelo clássico de saco-de-palavras. Filtramos frases sobre a Petrobras e inserimos novos atributos linguísticos, tanto sintáticos como estilísticos. Para a classifição do sentimento é utilizado o algoritmo de aprendizado Support Vector Machine, sendo aplicados ainda quatro seletores de atributos e um comitê dos melhores modelos. Apresentamos aqui o Petronews, um corpus com notícias em português sobre a Petrobras, anotado manualmente com a informação de sentimento. Esse corpus é composto de mil e cinquenta notícias online de 02/06/2006 a 29/01/2010. Nossos experimentos mostram uma melhora de 5.29 por cento com relação ao modelo saco-de-palavras, atingindo uma acurácia de 87.14 por cento. / [en] A huge amount of information is available online, in particular regarding financial news. Current research indicate that stock news have a strong correlation to market variables such as trade volumes, volatility, stock prices and firm earnings. Here, we investigate a Sentiment Analysis problem for financial news. Our goal is to classify financial news as favorable or unfavorable to Petrobras, an oil and gas company with stocks in the Stock Exchange market. We explore Natural Language Processing techniques in a way to improve the sentiment classification accuracy of a classical bag of words approach. We filter on topic phrases for each Petrobras related news and build syntactic and stylistic input features. For sentiment classification, Support Vector Machines algorithm is used. Moreover we apply four feature selection methods and build a committee of SVM models. Additionally, we introduce Petronews, a Portuguese financial news annotated corpus about Petrobras. It is composed by a collection of one thousand and fifty online financial news from 06/02/2006 to 01/29/2010. Our experiments indicate that our method is 5.29 per cent better than a standard bag-of-words approach, reaching 87.14 per cent accuracy rate for this domain.
10

[en] AN AGENT-BASED SOFTWARE FRAMEWORK FOR MACHINE LEARNING TUNING / [pt] UM FRAMEWORK BASEADO EM AGENTES PARA A CALIBRAGEM DE MODELOS DE APRENDIZADO DE MÁQUINA

JEFRY SASTRE PEREZ 23 November 2018 (has links)
[pt] Hoje em dia, a enorme quantidade de dados disponíveis online apresenta um novo desafio para os processos de descoberta de conhecimento. As abordagens mais utilizadas para enfrentar esse desafio são baseadas em técnicas de aprendizado de máquina. Apesar de serem muito poderosas, essas técnicas exigem que seus parâmetros sejam calibrados para gerar modelos com melhor qualidade. Esses processos de calibração são demorados e dependem das habilidades dos especialistas da área de aprendizado de máquinas. Neste contexto, esta pesquisa apresenta uma estrutura baseada em agentes de software para automatizar a calibração de modelos de aprendizagem de máquinas. Esta abordagem integra conceitos de Engenharia de Software Orientada a Agentes (AOSE) e Aprendizado de Máquinas (ML). Como prova de conceito, foi utilizado o conjunto de dados Iris para mostrar como nossa abordagem melhora a qualidade dos novos modelos gerados por nosso framework. Além disso, o framework foi instanciado para um dataset de imagens médicas e finalmente foi feito um experimento usando o dataset Grid Sector. / [en] Nowadays, the challenge of knowledge discovery is to mine massive amounts of data available online. The most widely used approaches to tackle that challenge are based on machine learning techniques. In spite of being very powerful, those techniques require their parameters to be calibrated in order to generate models with better quality. Such calibration processes are time-consuming and rely on the skills of machine learning experts. Within this context, this research presents a framework based on software agents for automating the calibration of machine learning models. This approach integrates concepts from Agent Oriented Software Engineering (AOSE) and Machine Learning (ML). As a proof of concept, we first train a model for the Iris dataset and then we show how our approach improves the quality of new models generated by our framework. Then, we create instances of the framework to generate models for a medical images dataset and finally we use the Grid Sector dataset for a final experiment.

Page generated in 0.0507 seconds