1 |
[pt] CLASSIFICAÇÃO DE SENTIMENTO PARA NOTÍCIAS SOBRE A PETROBRAS NO MERCADO FINANCEIRO / [en] SENTIMENT ANALYSIS FOR FINANCIAL NEWS ABOUT PETROBRAS COMPANYPAULA DE CASTRO SONNENFELD VILELA 21 December 2011 (has links)
[pt] Hoje em dia, encontramos uma grande quantidade de informações na internet,
em particular, notícias sobre o mercado financeiro. Diversas pesquisas
mostram que notícias sobre o mercado financeiro possuem uma grande relação com variáveis de mercado como volume de transações, volatilidade e preço
das ações. Nesse trabalho, investigamos o problema de Análise de Sentimentos
de notícias jornalísticas do mercado financeiro. Nosso objetivo é classificar
notícias como favoráveis ou não a Petrobras. Utilizamos técnicas de Processamento
de Linguagem Natural para melhorar a acurácia do modelo clássico de
saco-de-palavras. Filtramos frases sobre a Petrobras e inserimos novos atributos
linguísticos, tanto sintáticos como estilísticos. Para a classifição do sentimento
é utilizado o algoritmo de aprendizado Support Vector Machine, sendo
aplicados ainda quatro seletores de atributos e um comitê dos melhores modelos.
Apresentamos aqui o Petronews, um corpus com notícias em português
sobre a Petrobras, anotado manualmente com a informação de sentimento.
Esse corpus é composto de mil e cinquenta notícias online de 02/06/2006 a
29/01/2010. Nossos experimentos mostram uma melhora de 5.29 por cento
com relação ao modelo saco-de-palavras, atingindo uma acurácia de 87.14 por cento. / [en] A huge amount of information is available online, in particular regarding
financial news. Current research indicate that stock news have a strong
correlation to market variables such as trade volumes, volatility, stock prices
and firm earnings. Here, we investigate a Sentiment Analysis problem for
financial news. Our goal is to classify financial news as favorable or unfavorable
to Petrobras, an oil and gas company with stocks in the Stock Exchange
market. We explore Natural Language Processing techniques in a way to
improve the sentiment classification accuracy of a classical bag of words
approach. We filter on topic phrases for each Petrobras related news and build
syntactic and stylistic input features. For sentiment classification, Support
Vector Machines algorithm is used. Moreover we apply four feature selection
methods and build a committee of SVM models. Additionally, we introduce
Petronews, a Portuguese financial news annotated corpus about Petrobras.
It is composed by a collection of one thousand and fifty online financial news
from 06/02/2006 to 01/29/2010. Our experiments indicate that our method
is 5.29 per cent better than a standard bag-of-words approach, reaching 87.14 per cent
accuracy rate for this domain.
|
2 |
[pt] AGRUPAMENTO FUZZY APLICADO À INTEGRAÇÃO DE DADOS MULTI-ÔMICOS / [en] FUZZY CLUSTERING APPLIED TO MULTI-OMICS DATASARAH HANNAH LUCIUS LACERDA DE GOES TELLES CARVALHO ALVES 05 October 2021 (has links)
[pt] Os avanços nas tecnologias de obtenção de dados multi-ômicos têm disponibilizado diferentes níveis de informação molecular que aumentam progressivamente em volume e variedade. Neste estudo, propõem-se uma metodologia de integração de dados clínicos e multi-ômicos, com o objetivo de identificar subtipos de câncer por agrupamento fuzzy, representando assim as gradações entre os diferentes perfis moleculares. Uma melhor caracterização de tumores em subtipos moleculares pode contribuir para uma medicina mais
personalizada e assertiva. Os conjuntos de dados ômicos a serem integrados são definidos utilizando um classificador com classe-alvo definida por resultados da literatura. Na sequência, é realizado o pré-processamento dos conjuntos de dados para reduzir a alta dimensionalidade. Os dados selecionados são
integrados e em seguida agrupados. Optou-se pelo algoritmo fuzzy C-means pela sua capacidade de considerar a possibilidade dos pacientes terem características de diferentes grupos, o que não é possível com métodos clássicos de agrupamento. Como estudo de caso, utilizou-se dados de câncer colorretal
(CCR). O CCR tem a quarta maior incidência na população mundial e a terceira maior no Brasil. Foram extraídos dados de metilação, expressão de miRNA e mRNA do portal do projeto The Cancer Genome Atlas (TCGA). Observou-se que a adição dos dados de expressão de miRNA e metilação a um classificador de expressão de mRNA da literatura aumentou a acurácia deste em 5 pontos percentuais. Assim, foram usados dados de metilação, expressão de miRNA e mRNA neste trabalho. Os atributos de cada conjunto de dados foram selecionados, obtendo-se redução significativa do número de atributos. A identificação dos grupos foi realizada com o algoritmo fuzzy C-means. A variação dos hiperparâmetros deste algoritmo, número de grupos e parâmetro de fuzzificação, permitiu a escolha da combinação de melhor desempenho. A escolha da melhor configuração considerou o efeito da variação dos parâmetros nas características biológicas, em especial na sobrevida global dos pacientes. Observou-se que o agrupamento gerado permitiu identificar que as amostras consideradas não agrupadas têm características biológicas compartilhadas entre grupos de diferentes prognósticos. Os resultados obtidos com a combinação de dados clínicos e ômicos mostraram-se promissores para melhor predizer o fenótipo. / [en] The advances in technologies for obtaining multi-omic data provide different levels of molecular information that progressively increase in volume and variety. This study proposes a methodology for integrating clinical and multiomic data, which aim is the identification of cancer subtypes using fuzzy clustering
algorithm, representing the different degrees between molecular profiles. A better characterization of tumors in molecular subtypes can contribute to a more personalized and assertive medicine. A classifier that uses a target class from literature results indicates which omic data sets should be integrated.
Next, data sets are pre-processed to reduce high dimensionality. The selected data is integrated and then clustered. The fuzzy C-means algorithm was chosen due to its ability to consider the shared patients characteristics between different groups. As a case study, colorectal cancer (CRC) data were used. CCR has
the fourth highest incidence in the world population and the third highest in Brazil. Methylation, miRNA and mRNA expression data were extracted from The Cancer Genome Atlas (TCGA) project portal. It was observed that the addition of miRNA expression and methylation data to a literature mRNA expression classifier increased its accuracy by 5 percentage points. Therefore, methylation, miRNA and mRNA expression data were used in this work. The attributes of each data set were pre-selected, obtaining a significant reduction in the number of attributes. Groups were identified using the fuzzy C-means
algorithm. The variation of the hyperparameters of this algorithm, number of groups and membership degree, indicated the best performance combination. This choice considered the effect of parameters variation on biological characteristics, especially on the overall survival of patients. Clusters showed that patients considered not grouped had biological characteristics shared between groups of different prognoses. The combination of clinical and omic data to better predict the phenotype revealed promissing results.
|
3 |
[en] CORPORATE RATINGS GRADE PREDICTION / [pt] PREDIÇÃO DO GRAU DE RATINGS CORPORATIVOSANDRE SIH 15 February 2007 (has links)
[pt] O objetivo desta dissertação é analisar a relevância de um conjunto inicial
de 18 atributos tais como Despesas Financeiras, Receitas e Liquidez Corrente,
dentre outros, em relação à classificação de risco (grau) de uma empresa:
especulação ou investimento, conforme classificação realizada pela agência
Standard & Poor s. Avaliou-se comparativamente a eficácia de métodos lineares e
não-lineares de seleção de atributos tais como Análise de Componentes
Principais (PCA), Informação Mútua (IM) e Informação Mútua para Seleção de
Atributos com Distribuição Uniforme (MIFS-U) e métodos lineares e não-lineares
de predição tais como Regressão Múltipla Linear, Discriminante Linear de Fisher
e Redes Neurais. Identificou-se através destes métodos e de conhecimento a
priori, um conjunto de cinco fatores (atributos) capaz de estimar com alto índice
de eficácia se o grau de uma empresa é de investimento ou especulação, a saber:
Lucro Líquido, EBIT, Receitas, Valor de Mercado e Setor. / [en] The purpose of this thesis is to analyze and rank the
relevancy of 18
variables to S&P corporate ratings grades assignment.
Beyond, we predict
(classify) the Corporate Grades into two groups -
Investment or Speculative. To achieve this goal, we
applied and compared linear
and non-linear Statistics models and Machine Learning
Techniques (Multiple
Linear Regression, Linear Fisher´s Discriminant, Neural
Networks MLP) and
feature selection methods such as Principal Component
Analysis (PCA),
Correlation, Mutual Information (MI) and Mutual
Information for Features
Selection under Uniform Distribution MIFS-U). The 17 of
the initial set of 18
variables are financial variables such as Net Income,
Interest Expense and Market
Capitalization but one was the corporation´s Sector.
Combining linear and nonlinear
models and a priori knowledge, we identified a subset of
five features (Net
Income, EBIT, Total Revenues, Market Capitalization and
Sector) that together
reached up to 94.32% of success rate for the S&P grade
prediction.
|
4 |
[en] SEMANTIC ROLE-LABELING FOR PORTUGUESE / [pt] ANOTADOR DE PAPEIS SEMÂNTICOS PARA PORTUGUÊSARTHUR BELTRAO CASTILHO NETO 23 June 2017 (has links)
[pt] A anotação de papeis semânticos (APS) é uma importante tarefa do processamento de linguagem natural (PLN), que possibilita estabelecer uma relação de significado entre os eventos descritos em uma sentença e seus participantes. Dessa forma, tem o potencial de melhorar o desempenho de inúmeros outros sistemas, tais como: tradução automática, correção ortográfica, extração e recuperação de informações e sistemas de perguntas e respostas, uma vez que reduz as ambiguidades existentes no texto de entrada. A grande maioria dos sistemas de APS publicados no mundo realiza a tarefa empregando técnicas de aprendizado supervisionado e, para obter melhores resultados, usam corpora manualmente revisados de tamanho considerável. No caso do Brasil, o recurso lexical que possui anotações semânticas (Propbank.br) é muito menor. Por isso, nos últimos anos, foram feitas tentativas de melhorar esse resultado utilizando técnicas de aprendizado semisupervisionado ou não-supervisionado. Embora esses trabalhos tenham contribuido direta e indiretamente para a área de PLN, não foram capazes de superar o desempenho dos sistemas puramente supervisionados. Este trabalho apresenta uma abordagem ao problema de anotação de papéis semânticos no idioma português. Utilizamos aprendizado supervisionado sobre um conjunto de 114 atributos categóricos e empregando duas técnicas de regularização de domínio, combinadas para reduzir o número de atributos binários em 96 por cento. O modelo gerado usa uma support vector machine com solver L2-loss dual support vector classification e é testado na base PropBank.br, apresentando desempenho ligeiramente superior ao estado-da-arte. O sistema é avaliado empiricamente pelo script oficial da CoNLL 2005 Shared Task, obtendo 82,17 por cento de precisão, 82,88 por cento de cobertura e 82,52 por cento de F1 ao passo que o estado-da-arte anterior atinge 83,0 por cento de precisão, 81,7 por cento de cobertura e 82,3 por cento de F1. / [en] Semantic role-labeling (SRL) is an important task of natural language processing (NLP) which allows establishing meaningful relationships between events described in a given sentence and its participants. Therefore, it can potentially improve performance on a large number of NLP systems such as automatic translation, spell correction, information extraction and retrieval and question answering, as it decreases ambiguity in the input text. The vast majority of SRL systems reported so far employed supervised learning techniques to perform the task. For better results, large sized manually reviewed corpora are used. The Brazilian semantic role labeled lexical resource (Propbank.br) is much smaller. Hence, in recent years, attempts have been made to improve performance using semi supervised and unsupervised learning. Even making several direct and indirect contributions to NLP, those studies were not able to outperform exclusively supervised systems. This paper presents an approach to the SRL task in Portuguese language using supervised learning over a set of 114 categorical features. Over those, we apply a combination of two domain regularization methods to cut binary features down to 96 percent. We test a SVM model (L2-loss dual support vector classification) on PropBank.Br dataset achieving results slightly better than state-of-the-art. We empirically evaluate the system using official CoNLL 2005 Shared Task script pulling 82.17 percent precision, 82.88 percent coverage and 82.52 percent F1. The previous state-of-the-art Portuguese SRL system scores 83.0 percent precision, 81.7 percent coverage and 82.3 percent F1.
|
5 |
[pt] APRENDIZADO DE MÁQUINA PARA DETECÇÃO DE FALHAS NO TRATAMENTO DE EFLUENTES INDUSTRIAIS DA INDÚSTRIA DE PANIFICAÇÃO POR ELETROCOAGULAÇÃO / [en] MACHINE LEARNING FOR FAILURE DETECTION IN BAKERY INDUSTRIAL EFFLUENTS TREATMENT BY ELECTROCOAGULATIONTHIAGO DA SILVA RIBEIRO 19 October 2023 (has links)
[pt] A eletrocoagulação é um método emergente de tratamento de efluentes que
combina os benefícios da coagulação, flotação e eletroquímica. Devido à
complexidade inerente às operações de uma estação de tratamento de efluentes, é
um desafio reagir com rapidez e precisão às condições dinâmicas necessárias para
manter a qualidade do efluente. Portanto, esta tese tem como objetivo identificar a
condição operacional de uma estação de tratamento de efluentes que adotou a
eletrocoagulação para o tratamento de efluentes de panificação. Três condições
operacionais baseadas em clarificação do efluente e lodo da reação foram as
variáveis-alvo. A tese está dividida em dois ensaios. O primeiro usou sete métodos
de seleção de atributos para selecionar as variáveis mais importantes em um
determinado conjunto de dados. O desempenho dos modelos de classificação de
redes neurais treinados no conjunto de atributos original foi comparado ao
desempenho daqueles que foram treinados em um subconjunto curado usando
técnicas de seleção de atributos. O modelo que utilizou a seleção de atributos
apresentou o melhor desempenho (F1-score = 0,92) e uma melhoria de mais de 30 por cento
na prevenção de falsos positivos. A segunda contribuição trouxe um modelo que
poderia detectar o comportamento anômalo do processo usando apenas imagens
coloridas da superfície do efluente obtidas através de dois módulos de câmera de
tamanho pequeno. O desempenho de vários métodos, incluindo MLP, LSTM, SVM
e XGBoost foi avaliado. O modelo LSTM superou os outros em termos de Precisão
(84,620 por cento), Recall (84,531 por cento) e F1-score (84,499 por cento), mas o modelo XGBoost vem
em segundo lugar com Precisão (83,922 por cento), Recall (82,272 por cento) e F1-score
(83,005 por cento). / [en] Electrocoagulation is an emerging wastewater treatment method that
combines the benefits of coagulation, flotation, and electrochemistry. As a result of
the inherent complexity of processes associated with wastewater treatment plants,
it is difficult to respond swiftly and correctly to the dynamic circumstances that are
necessary to ensure effluent quality. Therefore, this thesis aims to identify the
operational condition of a wastewater treatment plant that has adopted
electrocoagulation for treating bakery wastewater. Three operational conditions
based on effluent clarification and reaction sludge were the target variables. The
thesis is divided into two essays. The first endeavor used seven feature selection
methods to select the most important features in a given dataset. The performance
of neural network classification models trained on the original feature set was
compared to the performance of those that were trained on a subset of features that
had been curated using feature selection techniques. The model that utilised feature
selection was found to have the best performance (F1-score = 0.92) and an
improvement of more than 30 percent in preventing false positives. The second
contribution brought a model that could detect anomalous process behavior using
only wastewater surface color images from two small-size camera modules. The
performance of various methods, including MLP, LSTM, SVM, and XGBoost was
assessed. The LSTM model outperformed the others in terms of macro average
Precision (84.620 percent), Recall (84.531 percent), and F1-score (84.499 percent), but the XGBoost
model comes closely in second with Precision (83.922 percent), Recall (82.272 percent), and
F1-score (83.005 percent).
|
Page generated in 0.0322 seconds