Global ETD Search

1	[pt] CLASSIFICAÇÃO DE SENTIMENTO PARA NOTÍCIAS SOBRE A PETROBRAS NO MERCADO FINANCEIRO / [en] SENTIMENT ANALYSIS FOR FINANCIAL NEWS ABOUT PETROBRAS COMPANY PAULA DE CASTRO SONNENFELD VILELA 21 December 2011 (has links) [pt] Hoje em dia, encontramos uma grande quantidade de informações na internet, em particular, notícias sobre o mercado financeiro. Diversas pesquisas mostram que notícias sobre o mercado financeiro possuem uma grande relação com variáveis de mercado como volume de transações, volatilidade e preço das ações. Nesse trabalho, investigamos o problema de Análise de Sentimentos de notícias jornalísticas do mercado financeiro. Nosso objetivo é classificar notícias como favoráveis ou não a Petrobras. Utilizamos técnicas de Processamento de Linguagem Natural para melhorar a acurácia do modelo clássico de saco-de-palavras. Filtramos frases sobre a Petrobras e inserimos novos atributos linguísticos, tanto sintáticos como estilísticos. Para a classifição do sentimento é utilizado o algoritmo de aprendizado Support Vector Machine, sendo aplicados ainda quatro seletores de atributos e um comitê dos melhores modelos. Apresentamos aqui o Petronews, um corpus com notícias em português sobre a Petrobras, anotado manualmente com a informação de sentimento. Esse corpus é composto de mil e cinquenta notícias online de 02/06/2006 a 29/01/2010. Nossos experimentos mostram uma melhora de 5.29 por cento com relação ao modelo saco-de-palavras, atingindo uma acurácia de 87.14 por cento. / [en] A huge amount of information is available online, in particular regarding financial news. Current research indicate that stock news have a strong correlation to market variables such as trade volumes, volatility, stock prices and firm earnings. Here, we investigate a Sentiment Analysis problem for financial news. Our goal is to classify financial news as favorable or unfavorable to Petrobras, an oil and gas company with stocks in the Stock Exchange market. We explore Natural Language Processing techniques in a way to improve the sentiment classification accuracy of a classical bag of words approach. We filter on topic phrases for each Petrobras related news and build syntactic and stylistic input features. For sentiment classification, Support Vector Machines algorithm is used. Moreover we apply four feature selection methods and build a committee of SVM models. Additionally, we introduce Petronews, a Portuguese financial news annotated corpus about Petrobras. It is composed by a collection of one thousand and fifty online financial news from 06/02/2006 to 01/29/2010. Our experiments indicate that our method is 5.29 per cent better than a standard bag-of-words approach, reaching 87.14 per cent accuracy rate for this domain. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] SELECAO DE ATRIBUTOS [en] FEATURE SELECTION [pt] CLASSIFICACAO DE TEXTOS [en] TEXT CLASSIFICATION
2	[pt] AGRUPAMENTO FUZZY APLICADO À INTEGRAÇÃO DE DADOS MULTI-ÔMICOS / [en] FUZZY CLUSTERING APPLIED TO MULTI-OMICS DATA SARAH HANNAH LUCIUS LACERDA DE GOES TELLES CARVALHO ALVES 05 October 2021 (has links) [pt] Os avanços nas tecnologias de obtenção de dados multi-ômicos têm disponibilizado diferentes níveis de informação molecular que aumentam progressivamente em volume e variedade. Neste estudo, propõem-se uma metodologia de integração de dados clínicos e multi-ômicos, com o objetivo de identificar subtipos de câncer por agrupamento fuzzy, representando assim as gradações entre os diferentes perfis moleculares. Uma melhor caracterização de tumores em subtipos moleculares pode contribuir para uma medicina mais personalizada e assertiva. Os conjuntos de dados ômicos a serem integrados são definidos utilizando um classificador com classe-alvo definida por resultados da literatura. Na sequência, é realizado o pré-processamento dos conjuntos de dados para reduzir a alta dimensionalidade. Os dados selecionados são integrados e em seguida agrupados. Optou-se pelo algoritmo fuzzy C-means pela sua capacidade de considerar a possibilidade dos pacientes terem características de diferentes grupos, o que não é possível com métodos clássicos de agrupamento. Como estudo de caso, utilizou-se dados de câncer colorretal (CCR). O CCR tem a quarta maior incidência na população mundial e a terceira maior no Brasil. Foram extraídos dados de metilação, expressão de miRNA e mRNA do portal do projeto The Cancer Genome Atlas (TCGA). Observou-se que a adição dos dados de expressão de miRNA e metilação a um classificador de expressão de mRNA da literatura aumentou a acurácia deste em 5 pontos percentuais. Assim, foram usados dados de metilação, expressão de miRNA e mRNA neste trabalho. Os atributos de cada conjunto de dados foram selecionados, obtendo-se redução significativa do número de atributos. A identificação dos grupos foi realizada com o algoritmo fuzzy C-means. A variação dos hiperparâmetros deste algoritmo, número de grupos e parâmetro de fuzzificação, permitiu a escolha da combinação de melhor desempenho. A escolha da melhor configuração considerou o efeito da variação dos parâmetros nas características biológicas, em especial na sobrevida global dos pacientes. Observou-se que o agrupamento gerado permitiu identificar que as amostras consideradas não agrupadas têm características biológicas compartilhadas entre grupos de diferentes prognósticos. Os resultados obtidos com a combinação de dados clínicos e ômicos mostraram-se promissores para melhor predizer o fenótipo. / [en] The advances in technologies for obtaining multi-omic data provide different levels of molecular information that progressively increase in volume and variety. This study proposes a methodology for integrating clinical and multiomic data, which aim is the identification of cancer subtypes using fuzzy clustering algorithm, representing the different degrees between molecular profiles. A better characterization of tumors in molecular subtypes can contribute to a more personalized and assertive medicine. A classifier that uses a target class from literature results indicates which omic data sets should be integrated. Next, data sets are pre-processed to reduce high dimensionality. The selected data is integrated and then clustered. The fuzzy C-means algorithm was chosen due to its ability to consider the shared patients characteristics between different groups. As a case study, colorectal cancer (CRC) data were used. CCR has the fourth highest incidence in the world population and the third highest in Brazil. Methylation, miRNA and mRNA expression data were extracted from The Cancer Genome Atlas (TCGA) project portal. It was observed that the addition of miRNA expression and methylation data to a literature mRNA expression classifier increased its accuracy by 5 percentage points. Therefore, methylation, miRNA and mRNA expression data were used in this work. The attributes of each data set were pre-selected, obtaining a significant reduction in the number of attributes. Groups were identified using the fuzzy C-means algorithm. The variation of the hyperparameters of this algorithm, number of groups and membership degree, indicated the best performance combination. This choice considered the effect of parameters variation on biological characteristics, especially on the overall survival of patients. Clusters showed that patients considered not grouped had biological characteristics shared between groups of different prognoses. The combination of clinical and omic data to better predict the phenotype revealed promissing results. [pt] SELECAO DE ATRIBUTOS [pt] AGRUPAMENTO FUZZY [pt] INTEGRACAO DE DADOS MULTI-OMICOS [en] FEATURE SELECTION [en] FUZZY CLUSTERING [en] MULTI-OMIC DATA INTEGRATION
3	[en] CORPORATE RATINGS GRADE PREDICTION / [pt] PREDIÇÃO DO GRAU DE RATINGS CORPORATIVOS ANDRE SIH 15 February 2007 (has links) [pt] O objetivo desta dissertação é analisar a relevância de um conjunto inicial de 18 atributos tais como Despesas Financeiras, Receitas e Liquidez Corrente, dentre outros, em relação à classificação de risco (grau) de uma empresa: especulação ou investimento, conforme classificação realizada pela agência Standard & Poor s. Avaliou-se comparativamente a eficácia de métodos lineares e não-lineares de seleção de atributos tais como Análise de Componentes Principais (PCA), Informação Mútua (IM) e Informação Mútua para Seleção de Atributos com Distribuição Uniforme (MIFS-U) e métodos lineares e não-lineares de predição tais como Regressão Múltipla Linear, Discriminante Linear de Fisher e Redes Neurais. Identificou-se através destes métodos e de conhecimento a priori, um conjunto de cinco fatores (atributos) capaz de estimar com alto índice de eficácia se o grau de uma empresa é de investimento ou especulação, a saber: Lucro Líquido, EBIT, Receitas, Valor de Mercado e Setor. / [en] The purpose of this thesis is to analyze and rank the relevancy of 18 variables to S&P corporate ratings grades assignment. Beyond, we predict (classify) the Corporate Grades into two groups - Investment or Speculative. To achieve this goal, we applied and compared linear and non-linear Statistics models and Machine Learning Techniques (Multiple Linear Regression, Linear Fisher´s Discriminant, Neural Networks MLP) and feature selection methods such as Principal Component Analysis (PCA), Correlation, Mutual Information (MI) and Mutual Information for Features Selection under Uniform Distribution MIFS-U). The 17 of the initial set of 18 variables are financial variables such as Net Income, Interest Expense and Market Capitalization but one was the corporation´s Sector. Combining linear and nonlinear models and a priori knowledge, we identified a subset of five features (Net Income, EBIT, Total Revenues, Market Capitalization and Sector) that together reached up to 94.32% of success rate for the S&P grade prediction. [pt] REDES NEURAIS [en] NEURAL NETWORKS [pt] ESTATISTICA [en] STATISTICS [pt] INVESTIMENTO [en] INVESTMENT [pt] RATINGS [en] RATINGS [pt] PREDICAO DE RISCO [en] RISK FORECAST [pt] SELECAO DE ATRIBUTOS [en] FEATURE SELECTION
4	[en] SEMANTIC ROLE-LABELING FOR PORTUGUESE / [pt] ANOTADOR DE PAPEIS SEMÂNTICOS PARA PORTUGUÊS ARTHUR BELTRAO CASTILHO NETO 23 June 2017 (has links) [pt] A anotação de papeis semânticos (APS) é uma importante tarefa do processamento de linguagem natural (PLN), que possibilita estabelecer uma relação de significado entre os eventos descritos em uma sentença e seus participantes. Dessa forma, tem o potencial de melhorar o desempenho de inúmeros outros sistemas, tais como: tradução automática, correção ortográfica, extração e recuperação de informações e sistemas de perguntas e respostas, uma vez que reduz as ambiguidades existentes no texto de entrada. A grande maioria dos sistemas de APS publicados no mundo realiza a tarefa empregando técnicas de aprendizado supervisionado e, para obter melhores resultados, usam corpora manualmente revisados de tamanho considerável. No caso do Brasil, o recurso lexical que possui anotações semânticas (Propbank.br) é muito menor. Por isso, nos últimos anos, foram feitas tentativas de melhorar esse resultado utilizando técnicas de aprendizado semisupervisionado ou não-supervisionado. Embora esses trabalhos tenham contribuido direta e indiretamente para a área de PLN, não foram capazes de superar o desempenho dos sistemas puramente supervisionados. Este trabalho apresenta uma abordagem ao problema de anotação de papéis semânticos no idioma português. Utilizamos aprendizado supervisionado sobre um conjunto de 114 atributos categóricos e empregando duas técnicas de regularização de domínio, combinadas para reduzir o número de atributos binários em 96 por cento. O modelo gerado usa uma support vector machine com solver L2-loss dual support vector classification e é testado na base PropBank.br, apresentando desempenho ligeiramente superior ao estado-da-arte. O sistema é avaliado empiricamente pelo script oficial da CoNLL 2005 Shared Task, obtendo 82,17 por cento de precisão, 82,88 por cento de cobertura e 82,52 por cento de F1 ao passo que o estado-da-arte anterior atinge 83,0 por cento de precisão, 81,7 por cento de cobertura e 82,3 por cento de F1. / [en] Semantic role-labeling (SRL) is an important task of natural language processing (NLP) which allows establishing meaningful relationships between events described in a given sentence and its participants. Therefore, it can potentially improve performance on a large number of NLP systems such as automatic translation, spell correction, information extraction and retrieval and question answering, as it decreases ambiguity in the input text. The vast majority of SRL systems reported so far employed supervised learning techniques to perform the task. For better results, large sized manually reviewed corpora are used. The Brazilian semantic role labeled lexical resource (Propbank.br) is much smaller. Hence, in recent years, attempts have been made to improve performance using semi supervised and unsupervised learning. Even making several direct and indirect contributions to NLP, those studies were not able to outperform exclusively supervised systems. This paper presents an approach to the SRL task in Portuguese language using supervised learning over a set of 114 categorical features. Over those, we apply a combination of two domain regularization methods to cut binary features down to 96 percent. We test a SVM model (L2-loss dual support vector classification) on PropBank.Br dataset achieving results slightly better than state-of-the-art. We empirically evaluate the system using official CoNLL 2005 Shared Task script pulling 82.17 percent precision, 82.88 percent coverage and 82.52 percent F1. The previous state-of-the-art Portuguese SRL system scores 83.0 percent precision, 81.7 percent coverage and 82.3 percent F1. [pt] SELECAO DE ATRIBUTOS [en] FEATURE SELECTION [pt] SUPPORT VECTOR MACHINES [en] SUPPORT VECTOR MACHINES [pt] SVM [en] SVM [pt] APRENDIZADO SUPERVISIONADO [pt] ANOTACAO DE PAPEIS SEMANTICOS [pt] APS [pt] PROCESSAMENTO DE LINGUA NATURAL [pt] PLN [pt] LIBLINEAR [pt] PROPBANK BR [pt] REGULARIZACAO DE DOMINIO
5	[pt] APRENDIZADO DE MÁQUINA PARA DETECÇÃO DE FALHAS NO TRATAMENTO DE EFLUENTES INDUSTRIAIS DA INDÚSTRIA DE PANIFICAÇÃO POR ELETROCOAGULAÇÃO / [en] MACHINE LEARNING FOR FAILURE DETECTION IN BAKERY INDUSTRIAL EFFLUENTS TREATMENT BY ELECTROCOAGULATION THIAGO DA SILVA RIBEIRO 19 October 2023 (has links) [pt] A eletrocoagulação é um método emergente de tratamento de efluentes que combina os benefícios da coagulação, flotação e eletroquímica. Devido à complexidade inerente às operações de uma estação de tratamento de efluentes, é um desafio reagir com rapidez e precisão às condições dinâmicas necessárias para manter a qualidade do efluente. Portanto, esta tese tem como objetivo identificar a condição operacional de uma estação de tratamento de efluentes que adotou a eletrocoagulação para o tratamento de efluentes de panificação. Três condições operacionais baseadas em clarificação do efluente e lodo da reação foram as variáveis-alvo. A tese está dividida em dois ensaios. O primeiro usou sete métodos de seleção de atributos para selecionar as variáveis mais importantes em um determinado conjunto de dados. O desempenho dos modelos de classificação de redes neurais treinados no conjunto de atributos original foi comparado ao desempenho daqueles que foram treinados em um subconjunto curado usando técnicas de seleção de atributos. O modelo que utilizou a seleção de atributos apresentou o melhor desempenho (F1-score = 0,92) e uma melhoria de mais de 30 por cento na prevenção de falsos positivos. A segunda contribuição trouxe um modelo que poderia detectar o comportamento anômalo do processo usando apenas imagens coloridas da superfície do efluente obtidas através de dois módulos de câmera de tamanho pequeno. O desempenho de vários métodos, incluindo MLP, LSTM, SVM e XGBoost foi avaliado. O modelo LSTM superou os outros em termos de Precisão (84,620 por cento), Recall (84,531 por cento) e F1-score (84,499 por cento), mas o modelo XGBoost vem em segundo lugar com Precisão (83,922 por cento), Recall (82,272 por cento) e F1-score (83,005 por cento). / [en] Electrocoagulation is an emerging wastewater treatment method that combines the benefits of coagulation, flotation, and electrochemistry. As a result of the inherent complexity of processes associated with wastewater treatment plants, it is difficult to respond swiftly and correctly to the dynamic circumstances that are necessary to ensure effluent quality. Therefore, this thesis aims to identify the operational condition of a wastewater treatment plant that has adopted electrocoagulation for treating bakery wastewater. Three operational conditions based on effluent clarification and reaction sludge were the target variables. The thesis is divided into two essays. The first endeavor used seven feature selection methods to select the most important features in a given dataset. The performance of neural network classification models trained on the original feature set was compared to the performance of those that were trained on a subset of features that had been curated using feature selection techniques. The model that utilised feature selection was found to have the best performance (F1-score = 0.92) and an improvement of more than 30 percent in preventing false positives. The second contribution brought a model that could detect anomalous process behavior using only wastewater surface color images from two small-size camera modules. The performance of various methods, including MLP, LSTM, SVM, and XGBoost was assessed. The LSTM model outperformed the others in terms of macro average Precision (84.620 percent), Recall (84.531 percent), and F1-score (84.499 percent), but the XGBoost model comes closely in second with Precision (83.922 percent), Recall (82.272 percent), and F1-score (83.005 percent). [pt] APRENDIZADO DE MAQUINA [pt] ESTACAO DE TRATAMENTO DE EFLUENTES [pt] ESPACO DE CORES HSV [pt] SELECAO DE ATRIBUTOS [pt] DETECCAO DE FALHAS [pt] ELETROCOAGULACAO [en] MACHINE LEARNING [en] WASTEWATER TREATMENT PLANT [en] HSV COLOR SPACE [en] FEATURE SELECTION [en] FAULT DETECTION [en] ELECTROCOAGULATION

1

Page generated in 0.0322 seconds