51 |
[en] PREDICTING TRENDS IN THE STOCK MARKET / [pt] PREDIZENDO TENDÊNCIAS NA BOLSA DE VALORESJOAO PAULO FORNY DE MELO 02 August 2018 (has links)
[pt] Investidores estão sempre à procura de uma vantagem. Porém, tradicionais teorias financeiras nos dizem que tentar predizer tendências na bolsa de valores é um esforço em vão, uma vez que seguem um passeio aleatório, i.e., um processo estocástico ou randômico. Além disso, afirma-se que o mercado é eficiente de maneira que sempre incorpora e reflete toda informação relevante, o que torna impossível bater o mercado. Recentemente, com o crescimento da web e aumento da disponibilidade de dados em conjunto
com a evolução dos algoritmos de Aprendizado de Máquina, diversos trabalhos tem aplicado técnicas de Processamento de Linguagem Natural em notícias financeiras e dados de redes sociais para prever variações do preço de ações. Consequentemente, estão surgindo fortes evidências que o mercado pode, em algum grau, ser previsto. Este trabalho descreve o desenvolvimento de uma aplicação baseada em Aprendizado de Máquina para realizar a predição de tendências no mercado de ações, i.e., variações negativas, positivas ou neutras de preços com granularidade de minuto. Avaliamos o sistema usando dados de cotação de ações da B3 (Brasil Bolsa Balcão), antiga BM&FBOVESPA, e um dataset de tópicos mais relevantes buscados no Google Search e seus artigos relacionados, que são disponibilizados pela
plataforma Google Trends e coletados, minuto a minuto, de 15/08/2016 até 10/07/2017. Os experimentos mostram que esses dados provêem informação relevante para a tarefa em questão, onde conseguimos uma acurácia de 69.24 porcento para a predição de tendências do ativo PETR4, criando alguma / [en] Investors are always looking for an edge. However, traditional economic theories tell us that trying to predict short-term stock price movements is wasted effort, since it approximate a random walk, i.e., a stochastic or random process. Besides, these theories state that the market is efficient enough to always incorporate and reflect all relevant information, making it impossible to beat the market. In recent years, with the growth of the web and data availability in conjunction with advances in Machine Learning, a number of works are using Natural Language Processing to predict share price variations based on financial news and social networks data. Therefore, strong evidences are surfacing that the market can, in some level, be predicted. This work describes the development of an application based on Machine Learning to predict trends in the stock market, i.e., positive, negative or neutral price variations with minute granularity. We evaluate our system using B3 (Brasil Bolsa Balcão), formerly BM&FBOVESPA, stock quotes data, and a dataset with the most relevant topics of Google Search and its related articles, provided by the Google Trends platform and collected, minute by minute, from 08/15/2016 to 07/10/2017. The
experiments show that this data provides useful information to the task at hand, in which we achieve 69.24 per cent accuracy predicting trends for the PETR4 stock, creating some leverage to make profits possible with intraday trading.
|
52 |
[en] MAS-SCHOOL E ASYNC: A METHOD AND A FRAMEWORK FOR BUILDING INTELLIGENT AGENTS / [pt] MAS-SCHOOL E ASYNC: UM MÉTODO E UM FRAMEWORK PARA CONSTRUÇÃO DE AGENTES INTELIGENTESJOSE ALBERTO RODRIGUES PEREIRA SARDINHA 08 July 2005 (has links)
[pt] Agentes de Software é uma tecnologia que permite criar
simuladores e
sistemas inteligentes que tomam decisões
automaticamente.
A primeira
contribuição dessa tese é o MAS-School, um método para
modelar e implementar
agentes de software inteligentes desde as primeiras
fases
de desenvolvimento.
Esse método também apresenta várias orientações de como
incluir aprendizado na
fase de design e implementação. O método apresenta no
final uma estratégia
incremental de desenvolvimento para permitir a avaliação
do desempenho das
técnicas de machine learning. A segunda contribuição
dessa
tese é o framework
ASYNC. O ASYNC é composto por um conjunto de ferramentas
de engenharia
de software para auxiliar a construção de sistemas
baseados em agentes
assíncronos, cooperativos e inteligentes. Esta tese
apresenta quatro estudos de
casos complexos desenvolvidos com agentes inteligentes
para exemplificar o uso
do método e framework. A primeira aplicação apresenta um
sistema baseado em
agentes para criar promoções em um mercado varejista
utilizando o conceito de
agregação de produtos. A segunda aplicação apresenta um
mercado virtual para
compra e venda de bens. A terceira aplicação é um
sistema
multi-agente
distribuído para um complexo cenário de procurement em
leilões simultâneos e
interdependentes. Essa aplicação participou do Trading
Agent Competition em
2004 e obteve a terceira colocação. A quarta aplicação é
um sistema multi-agente
para um Supply Chain Management. / [en] The agent technology is used to develop systems that
perform several
complex tasks. This thesis presents the MAS-School method
for modeling and
implementing intelligent agent-based systems. The method
presents a systematic
approach to support a disciplined introduction of machine
learning techniques in
multi-agent systems from an early stage of design. The
proposed approach
encompasses guidelines to both the design and
implementation phases of an
agent-based system. It is based on an incremental
development strategy that
largely relies on simulation and testing techniques. This
thesis also presents the
ASYNC framework that is composed of software engineering
tools for building
agent based system for asynchronous, cooperative and
intelligent agents. This
thesis presents four complex applications that used the
proposed method and
framework in the design and implementation phase. The
first case study presents
an application that discovers the most appealing offerings
for consumers in a retail
market. The second case study presents a virtual
marketplace for buying and
selling goods with automatic negotiation. The third case
study is a multi-agent
system for a complex procurement scenario with
interdependent and simultaneous
auctions. This system achieved the third place in the 2004
TAC Classic
competition. The fourth case study is a multi-agent system
for a PC manufacturer
scenario based on sourcing of components, manufacturing of
PC's and sales to
customers.
|
53 |
[en] STOCK MARKET BEHAVIOR PREDICTION USING FINANCIAL NEWS IN PORTUGUESE / [pt] PREDIÇÃO DO COMPORTAMENTO DO MERCADO FINANCEIRO UTILIZANDO NOTÍCIAS EM PORTUGUÊSHERALDO PIMENTA BORGES FILHO 27 August 2015 (has links)
[pt] Um conjunto de teorias financeiras, tais como a hipótese do mercado
eficiente e a teoria do passeio aleatório, afirma ser impossível prever o
futuro do mercado de ações baseado na informação atualmente disponível.
Entretanto, pesquisas recentes têm provado o contrário ao constatar uma
relação entre o conteúdo de uma notícia corrente e o comportamento de um
ativo. Nosso objetivo é projetar e implementar um algoritmo de predição
que utiliza notícias jornalísticas sobre empresas de capital aberto para
prever o comportamento de ações na bolsa de valores. Utilizamos uma
abordagem baseada em aprendizado de máquina para a tarefa de predição
do comportamento de um ativo nas posições de alta, baixa ou neutra,
utilizando informações quantitativas e qualitativas, como notícias sobre o
mercado financeiro. Avaliamos o nosso sistema em um dataset com seis mil
notícias e nossos experimentos apresentam uma acurácia de 68.57 porcento para a
tarefa. / [en] A set of financial theories, such as the eficient market hypothesis and
the theory of random walk, says it is impossible to predict the future of
the stock market based on currently available information. However, recent
research has proven otherwise by finding a relationship between the content
of a news and current behavior of an stock. Our goal is to develop and
implement a prediction algorithm that uses financial news about joint-stock
company to predict the stock s behavior on the stock exchange. We use an
approach based on machine learning for the task of predicting the behavior
of an stock in positions of up, down or neutral, using quantitative and
qualitative information, such as financial. We evaluate our system on a
dataset with six thousand news and our experiments indicate an accuracy
of 68.57 percent for the task.
|
54 |
[en] OPTICAL CHARACTER RECOGNITION FOR AUTOMATED LICENSE PLATE RECOGNITION SYSTEMS / [pt] IDENTIFICAÇÃO DE CARACTERES PARA RECONHECIMENTO AUTOMÁTICO DE PLACAS VEICULARESEDUARDO PIMENTEL DE ALVARENGA 13 January 2017 (has links)
[pt] Sistemas de reconhecimento automático de placas (ALPR na sigla em inglês) são geralmente utilizados em aplicações como controle de tráfego, estacionamento, monitoração de faixas exclusivas entre outras aplicações. A estrutura básica de um sistema ALPR pode ser dividida em quatro etapas principais: aquisição da imagem, localização da placa em uma foto ou frame de vídeo; segmentação dos caracteres que compõe a placa; e reconhecimento destes caracteres. Neste trabalho focamos somente na etapa de reconhecimento. Para esta tarefa, utilizamos um Perceptron multiclasse, aprimorado pela técnica de geração de atributos baseada em entropia. Mostramos que é possível atingir resultados comparáveis com o estado da arte, com uma arquitetura leve e que permite aprendizado contínuo mesmo em equipamentos com baixo poder de processamento, tais como dispositivos móveis. / [en] ALPR systems are commonly used in applications such as traffic control, parking ticketing, exclusive lane monitoring and others. The basic structure of an ALPR system can be divided in four major steps: image acquisition, license plate localization in a picture or movie frame; character segmentation; and character recognition. In this work we ll focus solely on the recognition step. For this task, we used a multiclass Perceptron, enhanced by an entropy guided feature generation technique. We ll show that it s possible to achieve results on par with the state of the art solution, with a lightweight architecture that allows continuous learning, even on low processing power machines, such as mobile devices.
|
55 |
[en] PESSIMISTIC Q-LEARNING: AN ALGORITHM TO CREATE BOTS FOR TURN-BASED GAMES / [pt] Q-LEARNING PESSIMISTA: UM ALGORITMO PARA GERAÇÃO DE BOTS DE JOGOS EM TURNOSADRIANO BRITO PEREIRA 25 January 2017 (has links)
[pt] Este documento apresenta um novo algoritmo de aprendizado por reforço, o Q-Learning Pessimista. Nossa motivação é resolver o problema de gerar bots capazes de jogar jogos baseados em turnos e contribuir para obtenção de melhores resultados através dessa extensão do algoritmo Q-Learning. O Q-Learning Pessimista explora a flexibilidade dos cálculos gerados pelo Q-Learning tradicional sem a utilização de força bruta. Para medir a qualidade do bot gerado, consideramos qualidade como a soma do potencial de vitória e empate em um jogo. Nosso propósito fundamental é gerar bots de boa qualidade para diferentes jogos. Desta forma, podemos utilizar este algoritmo para famílias de jogos baseados em turno. Desenvolvemos um framework chamado Wisebots e realizamos experimentos com alguns cenários aplicados aos seguintes jogos tradicionais: TicTacToe, Connect-4 e CardPoints. Comparando a qualidade do Q-Learning Pessimista com a do Q-Learning tradicional, observamos ganhos de 0,8 por cento no TicTacToe, obtendo um algoritmo que nunca perde. Observamos também ganhos de 35 por cento no Connect-4 e de 27 por cento no CardPoints, elevando ambos da faixa de 50 por cento a 60 por cento para 90 por cento a 100 por cento de qualidade. Esses resultados ilustram o potencial de melhoria com o uso do Q-Learning Pessimista, sugerindo sua aplicação aos diversos tipos de jogos de turnos. / [en] This document presents a new algorithm for reinforcement learning method, Q-Learning Pessimistic. Our motivation is to resolve the problem of generating bots able to play turn-based games and contribute to achieving better results through this extension of the Q-Learning algorithm. The Q-Learning Pessimistic explores the flexibility of the calculations generated by the traditional Q-learning without the use of force brute. To measure the quality of bot generated, we consider quality as the sum of the potential to win and tie in a game. Our fundamental purpose, is to generate bots with good quality for different games. Thus, we can use this algorithm to families of turn-based games. We developed a framework called Wisebots and conducted experiments with some scenarios applied to the following traditional games TicTacToe, Connect-4 and CardPoints. Comparing the quality of Pessimistic Q-Learning with the traditional Q-Learning, we observed gains to 100 per cent in the TicTacToe, obtaining an algorithm that never loses. Also observed in 35 per cent gains Connect-4 and 27 per cent in CardPoints, increasing both the range of 60 per cent to 80 per cent for 90 per cent to 100 per cent of quality. These results illustrate the potential for improvement with the use of Q-Learning Pessimistic, suggesting its application to various types of games.
|
56 |
[en] A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING / [pt] UMA ABORDAGEM DE APRENDIZADO DE MÁQUINA PARA SEGMENTAÇÃO TEXTUAL NO PORTUGUÊSGUILHERME CARLOS DE NAPOLI FERREIRA 10 February 2017 (has links)
[pt] A segmentação textual é uma tarefa de Processamento de Linguagem Natural
muito relevante, e consiste na divisão de uma sentença em sequências disjuntas
de palavras sintaticamente relacionadas. Um dos fatores que contribuem
fortemente para sua importância é que seus resultados são usados como significativos
dados de entrada para problemas linguísticos mais complexos. Dentre
esses problemas estão a análise sintática completa, a identificação de orações,
a análise sintática de dependência, a identificação de papéis semânticos e a
tradução automática. Em particular, abordagens de Aprendizado de Máquina
para estas tarefas beneficiam-se intensamente com o uso de um atributo de
segmentos textuais. Um número respeitável de eficazes estratégias de extração
de segmentos para o inglês foi apresentado ao longo dos últimos anos. No entanto,
até onde podemos determinar, nenhum estudo abrangente foi feito sobre
a segmentação textual para o português, de modo a demonstrar seus benefícios.
O escopo deste trabalho é a língua portuguesa, e seus objetivos são dois. Primeiramente,
analisamos o impacto de diferentes definições de segmentação,
utilizando uma heurística para gerar segmentos que depende de uma análise
sintática completa previamente anotada. Em seguida, propomos modelos de
Aprendizado de Máquina para a extração de segmentos textuais baseados na
técnica Aprendizado de Transformações Guiado por Entropia. Fazemos uso do
corpus Bosque, do projeto Floresta Sintá(c)tica, nos nossos experimentos. Utilizando
os valores determinados diretamente por nossa heurística, um atributo
de segmentos textuais aumenta a métrica F beta igual 1 de um sistema de identificação
de orações para o português em 6.85 e a acurácia de um sistema de análise
sintática de dependência em 1.54. Ademais, nosso melhor extrator de segmentos
apresenta um F beta igual 1 de 87.95 usando anotaçoes automáticas de categoria
gramatical. As descobertas indicam que, de fato, a informação de segmentação
textual derivada por nossa heurística é relevante para tarefas mais elaboradas
cujo foco é o português. Além disso, a eficácia de nossos extratores é comparável à dos similares do estado-da-arte para o inglês, tendo em vista que os
modelos propostos são razoavelmente simples. / [en] Text chunking is a very relevant Natural Language Processing task, and
consists in dividing a sentence into disjoint sequences of syntactically correlated
words. One of the factors that highly contribute to its importance is that its
results are used as a significant input to more complex linguistic problems.
Among those problems we have full parsing, clause identification, dependency
parsing, semantic role labeling and machine translation. In particular, Machine
Learning approaches to these tasks greatly benefit from the use of a chunk
feature. A respectable number of effective chunk extraction strategies for the
English language has been presented during the last few years. However, as
far as we know, no comprehensive study has been done on text chunking for
Portuguese, showing its benefits. The scope of this work is the Portuguese
language, and its objective is twofold. First, we analyze the impact of different
chunk definitions, using a heuristic to generate chunks that relies on previous
full parsing annotation. Then, we propose Machine Learning models for chunk
extraction based on the Entropy Guided Transformation Learning technique.
We employ the Bosque corpus, from the Floresta Sintá(c)tica project, for our
experiments. Using golden values determined by our heuristic, a chunk feature
improves the F beta equal 1 score of a clause identification system for Portuguese by 6.85
and the accuracy of a dependency parsing system by 1.54. Moreover, our best
chunk extractor achieves a F beta equal 1 of 87.95 when automatic part-of-speech tags
are applied. The empirical findings indicate that, indeed, chunk information
derived by our heuristic is relevant to more elaborate tasks targeted on
Portuguese. Furthermore, the effectiveness of our extractors is comparable to
the state-of-the-art similars for English, taking into account that our proposed
models are reasonably simple.
|
57 |
[en] CLASSIFICATION OF OBJECTS IN REAL CONTEXT BY CONVOLUTIONAL NEURAL NETWORKS / [pt] CLASSIFICAÇÃO DE OBJETOS EM CONTEXTO REAL POR REDES NEURAIS CONVOLUTIVASLUIS MARCELO VITAL ABREU FONSECA 08 June 2017 (has links)
[pt] A classificação de imagens em contexto real é o ápice tecnológico do reconhecimento de objetos. Esse tipo de classificação é complexo, contendo diversos problemas de visão computacional em abundância. Este projeto
propõe solucionar esse tipo de classificação através do uso do conhecimento no aprendizado de máquina aplicado ao dataset do MS COCO. O algoritmo implementado neste projeto consiste de um modelo de Rede Neural Convolutiva que consegue aprender características dos objetos e realizar predições sobre suas classes. São elaborados alguns experimentos que comparam diferentes resultados de predições a partir de diferentes técnicas de aprendizado. É também realizada uma comparação dos resultados da implementação com o estado da arte na segmentação de objetos em contexto. / [en] The classification of objects in real contexts is the technological apex of object recognition. This type of classification is complex, containing diverse computer vision problems in abundance. This project proposes
to solve that type of classification through the use of machine learning knowledge applied to the MS COCO dataset. The implemented algorithm in this project consists of a Convolutional Neural Network model that
is able to learn characteristics of the objects and predict their classes. Some experiments are made that compare different results of predictions using different techniques of learning. There is also a comparison of the results from the implementation with state of art in contextual objects segmentation.
|
58 |
[en] FIOT: AN AGENT-BASED FRAMEWORK FOR SELF-ADAPTIVE AND SELF-ORGANIZING INTERNET OF THINGS APPLICATIONS / [pt] FIOT: UM FRAMEWORK BASEADO EM AGENTES PARA APLICAÇÕES AUTO-ORGANIZÁVEIS E AUTOADAPTATIVAS DE INTERNET DAS COISASNATHALIA MORAES DO NASCIMENTO 01 June 2016 (has links)
[pt] A ideia principal da Internet das Coisas (IoT) é conectar bilhões de
coisas à Internet nos próximos anos, a exemplo de carros, roupas e comidas.
Entretanto, muitos problemas precisam ser resolvidos antes que essa
ideia possa ser concretizada. Alguns desses problemas estão relacionados à
necessidade de construir sistemas para IoT que sejam auto-organizáveis e
autoadaptativos. Este trabalho, portanto, apresenta a elaboração do Framework
para Internet das Coisas (FIoT), que oferece suporte ao desenvolvimento
de aplicações para IoT com essas características. Ele é baseado nos
paradigmas de Sistemas Multiagente (SMA) e algumas técnicas abordadas
em Aprendizado de Máquina, a exemplo de redes neurais e algoritmos evolutivos.
Um agente pode ter algumas características, como autonomia e
sociabilidade, que tornam SMAs compatíveis com sistemas que requerem
auto-organização. Redes neurais e algoritmos de evolução vêm sendo comumente
usados nos estudos de robótica, no intuito de prover autonomia e
adaptação à agentes físicos (ex.: robôs, sensores). Para demonstrar o uso
do FIoT, dois grupos de problemas em IoT serão instanciados: (i) Cidades
Inteligentes e (ii) Quantificação de Coisas. / [en] The agreed fact about the Internet of Things (IoT) is that, within
the coming years, billions of resources, such as cars, clothes and foods will
be connected to the Internet. However, several challenging issues need to
be addressed before the IoT vision becomes a reality. Some open problems
are related to the need of building self-organizing and self-adaptive IoT
systems. To create IoT applications with these features, this work presents a
Framework for Internet of Things (FIoT). Our approach is based on concepts
from Multi-Agent Systems (MAS) and Machine Learning Techniques, such
as a neural network and evolutionary algorithms. An agent could have
characteristics, such as autonomy and social ability, which makes MAS
suitable for systems requiring self-organization (SO). Neural networks and
algorithms of evolution have been commonly used in robotic studies to
provide embodied agents (as robots and sensors) with autonomy and
adaptive capabilities. To illustrate the use of FIoT, we derived two different
instances from IoT applications: (i) Quantified Things and (ii) Smart Cities.
We show how exible points of our framework are instantiated to generate
an application.
|
59 |
[pt] ENSAIOS SOBRE PREVISÃO DE INFLAÇÃO: DESAGREGAÇÃO, COMBINAÇÃO DE PREVISÕES E DADOS NÃO ESTRUTURADOS / [en] ESSAYS CONCERNING INFLATION FORECASTING: DISAGGREGATION, COMBINATION OF FORECASTS, AND UNSTRUCTURED DATAGILBERTO OLIVEIRA BOARETTO 07 August 2023 (has links)
[pt] Esta tese consiste em três ensaios sobre previsão de inflação, com foco na
inflação brasileira. No primeiro ensaio, examinamos a eficácia de vários métodos
de previsão para prever a inflação, com foco na agregação de previsões desagregadas.
Consideramos diferentes níveis de desagregação para a inflação e empregamos
uma variedade de técnicas tradicionais de séries temporais, bem como
modelos lineares e não lineares de aprendizado de máquina que lidam com um
número grande de preditores. Para muitos horizontes de previsão, a agregação
de previsões desagregadas performa tão bem quanto expectativas baseadas em
coleta e modelos que geram previsões a partir do agregado. No geral, os métodos
de aprendizado de máquina superam os modelos de séries temporais tradicionais
em precisão preditiva, com excelente desempenho para os desagregados da inflação.
Em nosso segundo ensaio, investigamos os potenciais benefícios de combinar
previsões de inflação individuais ao propor uma correção para viés variável no
tempo da média de previsões. Nossa análise inclui estimações empregando janelas
rolantes e modelos em espaço de estados que usam a recursividade do filtro
de Kalman. Obtivemos um bom desempenho de previsão para modelos baseados
em janelas rolantes pequenas em horizontes de previsão curtos e intermediários,
enquanto um modelo em espaço de estados obtem um desempenho um pouco
pior do que os procedimentos baseados em janelas rolantes. No terceiro ensaio,
usamos aprendizado supervisionado para gerar índices prospectivos baseados
em tweets e notícias para inflação acumulada e investigamos se esses índices podem
melhorar o desempenho da previsão de inflação. Nossos resultados indicam
que os índices baseados em notícias fornecem ganhos preditivos significativos,
principalmente para os horizontes de 3 e 12 meses à frente. Esses achados sugerem
que a incorporação de mais fontes de informação do que apenas expectativas
baseadas em opiniões de especialistas pode levar a previsões mais precisas. / [en] This dissertation consists of three essays concerning inflation forecasting,
taking the Brazilian case as an application. In the first essay, we examine the effectiveness
of several forecasting methods for predicting inflation, focusing on
aggregating disaggregated forecasts. We consider different disaggregation levels
for inflation and employ a range of traditional time series techniques, as well as linear
and nonlinear machine learning (ML) models that deal with a larger number
of predictors. For many forecast horizons, aggregation of disaggregated forecasts
performs just as well as survey-based expectations and models generating forecasts
directly from the aggregate. Overall, ML methods outperform traditional
time series models in predictive accuracy, with outstanding performance in forecasting
disaggregates. In our second essay, we investigate the potential benefits of
combining individual inflation forecasts by proposing a time-varying bias correction
for the average forecast. Our analysis includes estimations using both rolling
windows and state-space models that use the recursiveness of the Kalman filter.
We achieve good forecast performance for models based on small rolling windows
for shorter and intermediate forecast horizons, while a state-space model
performs slightly worse than procedures based on rolling windows. In the third
essay, we use supervised learning to generate forward-looking indexes based on
tweets and news articles for accumulated inflation and investigate whether these
indexes can improve inflation forecasting performance. Our results indicate that
news-based indexes provide significant predictive gains, particularly for 3- and
12-month-ahead horizons. These findings suggest that incorporating more information
sources than just expectations based on experts opinions can lead to more
accurate forecasts.
|
60 |
[en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION / [pt] ALGORITMOS PARA RECONHECIMENTO DE ESTRUTURAS DE TABELASYOSVENI ESCALONA ESCALONA 26 June 2020 (has links)
[pt] Tabelas são uma forma bastante comum de organizar e publicar dados. Por exemplo, a Web possui um enorme número de tabelas publicadas em HTML, embutidas em documentos em PDF, ou que podem ser simplesmente baixadas de páginas Web. Porém, tabelas nem sempre são fáceis de interpretar pois possuem uma grande variedade de características e são organizadas de diversas formas. De fato, um grande número de métodos e ferramentas foram desenvolvidos para interpretação de tabelas. Esta dissertação apresenta a implementação de um algoritmo, baseado em Conditional Random Fields (CRFs), para classificar as linhas de uma tabela em linhas de cabeçalho, linhas de dados e linhas de metadados.
A implementação é complementada por dois algoritmos para reconhecimento de tabelas em planilhas, respectivamente baseados em regras e detecção de regiões. Por fim, a dissertação descreve os resultados e os benefícios obtidos pela aplicação dos algoritmos a tabelas em formato HTML, obtidas da Web, e a tabelas em forma de planilhas, baixadas do Web site da Agência Nacional de Petróleo. / [en] Tables are widely adopted to organize and publish data. For example, the Web has an enormous number of tables, published in HTML, imbedded in PDF documents, or that can be simply downloaded from Web pages. However, tables are not always easy to interpret because of the variety of features and formats used. Indeed, a large number of methods and tools have been developed to interpret tables. This dissertation presents the implementation of an algorithm, based on Conditional Random Fields (CRFs), to classify the rows of a table as header rows, data rows or metadata rows. The implementation is complemented by two algorithms for table recognition in a spreadsheet document, respectively based on rules and on region detection. Finally, the dissertation describes the results and the benefits obtained by applying the implemented algorithms to HTML tables, obtained from the Web, and to spreadsheet tables, downloaded from the Brazilian National Petroleum Agency.
|
Page generated in 0.0387 seconds