[pt] A análise de documentos financeiros não estruturados é uma atividade
essencial para a supervisão do mercado de capitais realizada pela Comissão de
Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço
humano despendido no processo de triagem de documentos são vitais para a CVM
lidar com a escassez de recursos humanos e a expansão do mercado de valores
mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos
algoritmos de aprendizado de máquina e técnicas de processamento de texto, a
partir de sua aplicação em duas tarefas de processamento de linguagem natural –
classificação de documentos e extração de informações – desempenhadas em
ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos
clássicos proporcionaram melhor desempenho que as redes neurais profundas, o
qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de
máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser
aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A
arquitetura BERT foi capaz de extrair informações sobre aumento de capital e
incorporação societária de documentos financeiros. Os resultados satisfatórios
obtidos em ambas as tarefas motivam a implementação futura em regime de
produção dos modelos estudados, sob a forma de um sistema de apoio à decisão.
Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o
escopo deste trabalho com documentos financeiros entregues por companhias
abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa
futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital
markets supervision performed by Comissão de Valores Mobiliários (Brazilian
SEC or CVM). Systems capable of reducing human effort involved in the task of
screening documents and outlining relevant information, for further manual
review, are important tools for CVM to deal with the shortage of human resources
and expansion of the Brazilian securities market. In this regard, this dissertation
presents and discusses the application of several machine learning algorithms and
text processing techniques to perform two natural language processing tasks—
document classification and information extraction—in a real market supervision
environment. In the classification exercise, classic algorithms achieved a better
performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the
current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network
architecture was able to extract information from financial documents on capital
increase and mergers. The successful results obtained in both tasks encourage
future implementation of the studied models in the form of a decision support
system. Another contribution of this work is the CVMCorpus, a corpus built to
produce datasets for the tasks, with financial documents released between 2009
and 2019 by Brazilian companies, which opens possibilities of future linguistic
and finance research.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:56962 |
Date | 06 January 2022 |
Creators | FREDERICO SHU |
Contributors | ALVARO DE LIMA VEIGA FILHO |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0194 seconds