Global ETD Search

1	[en] SUPERVISED LEARNING INCREMENTAL FEATURE INDUCTION AND SELECTION / [pt] INDUÇÃO E SELEÇÃO INCREMENTAIS DE ATRIBUTOS NO APRENDIZADO SUPERVISIONADO EDUARDO NEVES MOTTA 13 January 2017 (has links) [pt] A indução de atributos não lineares a partir de atributos básicos é um modo de obter modelos preditivos mais precisos para problemas de classificação. Entretanto, a indução pode causar o rápido crescimento do número de atributos, resultando usualmente em overfitting e em modelos com baixo poder de generalização. Para evitar esta consequência indesejada, técnicas de regularização são aplicadas, para criar um compromisso entre um reduzido conjunto de atributos representativo do domínio e a capacidade de generalização Neste trabalho, descrevemos uma abordagem de aprendizado de máquina supervisionado com indução e seleção incrementais de atributos. Esta abordagem integra árvores de decisão, support vector machines e seleção de atributos utilizando perceptrons esparsos em um framework de aprendizado que chamamos IFIS – Incremental Feature Induction and Selection. Usando o IFIS, somos capazes de criar modelos regularizados não lineares de alto desempenho utilizando um algoritmo com modelo linear. Avaliamos o nosso sistema em duas tarefas de processamento de linguagem natural em dois idiomas. Na primeira tarefa, anotação morfossintática, usamos dois corpora, o corpus WSJ em língua inglesa e o Mac-Morpho em Português. Em ambos, alcançamos resultados competitivos com o estado da arte reportado na literatura, alcançando as acurácias de 97,14 por cento e 97,13 por cento, respectivamente. Na segunda tarefa, análise de dependência, utilizamos o corpus da CoNLL 2006 Shared Task em português, ultrapassando os resultados reportados durante aquela competição e alcançando resultados competitivos com o estado da arte para esta tarefa, com a métrica UAS igual a 92,01 por cento. Com a regularização usando um perceptron esparso, geramos modelos SVM que são até 10 vezes menores, preservando sua acurácia. A redução dos modelos é obtida através da regularização dos domínios dos atributos, que atinge percentuais de até 99 por cento. Com a regularização dos modelos, alcançamos uma redução de até 82 por cento no tamanho físico dos modelos. O tempo de predição do modelo compacto é reduzido em até 84 por cento. A redução dos domínios e modelos permite também melhorar a engenharia de atributos, através da análise dos domínios compactos e da introdução incremental de novos atributos. / [en] Non linear feature induction from basic features is a method of generating predictive models with higher precision for classification problems. However, feature induction may rapidly lead to a huge number of features, causing overfitting and models with low predictive power. To prevent this side effect, regularization techniques are employed to obtain a trade-off between a reduced feature set representative of the domain and generalization power. In this work, we describe a supervised machine learning approach that incrementally inducts and selects feature conjunctions derived from base features. This approach integrates decision trees, support vector machines and feature selection using sparse perceptrons in a machine learning framework named IFIS – Incremental Feature Induction and Selection. Using IFIS, we generate regularized non-linear models with high performance using a linear algorithm. We evaluate our system in two natural language processing tasks in two different languages. For the first task, POS tagging, we use two corpora, WSJ corpus for English, and Mac-Morpho for Portuguese. Our results are competitive with the state-of-the-art performance in both, achieving accuracies of 97.14 per cent and 97.13 per cent, respectively. In the second task, Dependency Parsing, we use the CoNLL 2006 Shared Task Portuguese corpus, achieving better results than those reported during that competition and competitive with the state-of-the-art for this task, with UAS score of 92.01 per cent. Applying model regularization using a sparse perceptron, we obtain SVM models 10 times smaller, while maintaining their accuracies. We achieve model reduction by regularization of feature domains, which can reach 99 per cent. Using the regularized model we achieve model physical size shrinking of up to 82 per cent. The prediction time is cut by up to 84 per cent. Domains and models downsizing also allows enhancing feature engineering, through compact domain analysis and incremental inclusion of new features. [pt] SVM [en] SVM [pt] REGULARIZACAO DE DOMINIOS E MODELOS [pt] PERCEPTRON ESPARSO [pt] SELECAO E INDUCAO DE ATRIBUTOS
2	[en] A COMPARISON OF CASCADE MULTITEMPORAL IMAGE CLASSIFICATION METHODS / [pt] COMPARAÇÃO DE MÉTODOS DE CLASSIFICAÇÃO MULTITEMPORAL EM CASCATA LIGIA MARCELA TARAZONA ALVARADO 30 April 2019 (has links) [pt] Esta dissertação faz uma comparação de três métodos de classificação em cascata de imagens multitemporais. Os classificadores se baseiam nas seguintes técnicas: (1) Máquina de Suporte Vetorial (SVM), (2) Modelos Ocultos de Markov (HMM) e (3) Cadeias de Markov Nebulosas(FMC). Para verificar a robustez dos modelos de classificação, introduziram-se nos dados de entrada outliers, avaliando-se assim, a robustez dos classificadores. Adicionalmente, avaliou-se o desempenho dos métodos quando a proporção de ocorrências de cada transição de classe no conjunto de treinamento difere da proporção no conjunto de teste. Determinou-se também qual o benefício do uso de conhecimento a priori sobre as transições possíveis. A análise experimental foi realizada sobre dois conjuntos de imagens de diferentes características, um par de imagens IKONOS do Rio de Janeiro, Brasil e um par de imagens LANDSAT7 de Alcinópolis, Mato Grosso do Sul. O estudo revelou que acurácia global das três abordagens tem um comportamento similar nos diferentes experimentos. Mostrou também que todas as três abordagens multitemporais apresentam desempenho superior aos seus homólogos monotemporais. / [en] This dissertation compares three cascade multitemporal image classification methods based on: (1) Support Vector Machines (SVM), (2) Hidden Markov Models (HMM) and (3) Fuzzy Markov Chains (FMC). The robustness of the classification models is verified, by introducing outliers in the data set. Additionally, performance of each method is evaluated when the number of occurrences of each class transition is different in the training and in the testing set. The gain of exploiting a prior knowledge regarding the admissible transitions in each target site is also investigated. The experimental analysis is conducted over two data sets with different characteristics; specifically a pair of IKONOS images of Rio de Janeiro and a pair of LANDSAT7 images of Alcinópolis, Mato Grosso do Sul. This study has concluded that the overall accuracy of the three approaches are similar through all experiments. The superiority ofthe multitemporal approaches over the monotemporal counterparts was confirmed. [pt] SENSORIAMENTO REMOTO [en] REMOTE SENSING [pt] HMM [en] HMM [pt] SVM [en] SVM [pt] ANALISE MULTITEMPORAL [en] MULTITEMPORAL ANALYSIS [pt] FMC [en] FMC
3	[en] USING MACHINE LEARNING TO BUILD A TOOL THAT HELPS COMMENTS MODERATION / [pt] UTILIZANDO APRENDIZADO DE MÁQUINA PARA CONSTRUÇÃO DE UMA FERRAMENTA DE APOIO A MODERAÇÃO DE COMENTÁRIOS SILVANO NOGUEIRA BUBACK 05 March 2012 (has links) [pt] Uma das mudanças trazidas pela Web 2.0 é a maior participação dos usuários na produção do conteúdo, através de opiniões em redes sociais ou comentários nos próprios sites de produtos e serviços. Estes comentários são muito valiosos para seus sites pois fornecem feedback e incentivam a participação e divulgação do conteúdo. Porém excessos podem ocorrer através de comentários com palavrões indesejados ou spam. Enquanto para alguns sites a própria moderação da comunidade é suficiente, para outros as mensagens indesejadas podem comprometer o serviço. Para auxiliar na moderação dos comentários foi construída uma ferramenta que utiliza técnicas de aprendizado de máquina para auxiliar o moderador. Para testar os resultados, dois corpora de comentários produzidos na Globo.com foram utilizados, o primeiro com 657.405 comentários postados diretamente no site, e outro com 451.209 mensagens capturadas do Twitter. Nossos experimentos mostraram que o melhor resultado é obtido quando se separa o aprendizado dos comentários de acordo com o tema sobre o qual está sendo comentado. / [en] One of the main changes brought by Web 2.0 is the increase of user participation in content generation mainly in social networks and comments in news and service sites. These comments are valuable to the sites because they bring feedback and motivate other people to participate and to spread the content. On the other hand these comments also bring some kind of abuse as bad words and spam. While for some sites their own community moderation is enough, for others this impropriate content may compromise its content. In order to help theses sites, a tool that uses machine learning techniques was built to mediate comments. As a test to compare results, two datasets captured from Globo.com were used: the first one with 657.405 comments posted through its site and the second with 451.209 messages captured from Twitter. Our experiments show that best result is achieved when comment learning is done according to the subject that is being commented. [pt] CLASSIFICACAO DE TEXTOS [en] TEXT CLASSIFICATION [pt] PROCESSAMENTO DA LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] SVM [en] SVM [pt] BOOSTING [en] BOOSTING
4	[en] FUZZY RULES EXTRACTION FROM SUPPORT VECTOR MACHINES (SVM) FOR MULTI-CLASS CLASSIFICATION / [pt] EXTRAÇÃO DE REGRAS FUZZY PARA MÁQUINAS DE VETOR SUPORTE (SVM) PARA CLASSIFICAÇÃO EM MÚLTIPLAS CLASSES ADRIANA DA COSTA FERREIRA CHAVES 25 October 2006 (has links) [pt] Este trabalho apresenta a proposta de um novo método para a extração de regras fuzzy de máquinas de vetor suporte (SVMs) treinadas para problemas de classificação. SVMs são sistemas de aprendizado baseados na teoria estatística do aprendizado e apresentam boa habilidade de generalização em conjuntos de dados reais. Estes sistemas obtiveram sucesso em vários tipos de problemas. Entretanto, as SVMs, da mesma forma que redes neurais (RN), geram um modelo caixa preta, isto é, um modelo que não explica o processo pelo qual sua saída é obtida. Alguns métodos propostos para reduzir ou eliminar essa limitação já foram desenvolvidos para o caso de classificação binária, embora sejam restritos à extração de regras simbólicas, isto é, contêm funções ou intervalos nos antecedentes das regras. No entanto, a interpretabilidade de regras simbólicas ainda é reduzida. Deste modo, propõe-se, neste trabalho, uma técnica para a extração de regras fuzzy de SVMs treinadas, com o objetivo de aumentar a interpretabilidade do conhecimento gerado. Além disso, o modelo proposto foi desenvolvido para classificação em múltiplas classes, o que ainda não havia sido abordado até agora. As regras fuzzy obtidas são do tipo se x1 pertence ao conjunto fuzzy C1, x2 pertence ao conjunto fuzzy C2,..., xn pertence ao conjunto fuzzy Cn, então o ponto x = (x1,...,xn) é da classe A. Para testar o modelo foram realizados estudos de caso detalhados com quatro bancos de dados: Íris, Wine, Bupa Liver Disorders e Winconsin Breast Cancer. A cobertura das regras resultantes da aplicação desse modelo nos testes realizados mostrou-se muito boa, atingindo 100% no caso da Íris. Após a geração das regras, foi feita uma avaliação das mesmas, usando dois critérios, a abrangência e a acurácia fuzzy. Além dos testes acima mencionados foi comparado o desempenho dos métodos de classificação em múltiplas classes usados no trabalho. / [en] This text proposes a new method for fuzzy rule extraction from support vector machines (SVMs) trained to solve classification problems. SVMs are learning systems based on statistical learning theory and present good ability of generalization in real data base sets. These systems have been successfully applied to a wide variety of application. However SVMs, as well as neural networks, generates a black box model, i.e., a model which does not explain the process used in order to obtain its result. Some considered methods to reduce this limitation already has been proposed for the binary classification case, although they are restricted to symbolic rules extraction, and they have, in their antecedents, functions or intervals. However, the interpretability of the symbolic generated rules is small. Hence, to increase the linguistic interpretability of the generating rules, we propose a new technique for extracting fuzzy rules of a trained SVM. Moreover, the proposed model was developed for classification in multiple classes, which was not introduced till now. Fuzzy rules obtained are presented in the format if x1 belongs to the fuzzy set C1, x2 belongs to the fuzzy set C2 , … , xn belongs to the fuzzy set Cn , then the point x=(x1, x2, …xn) belongs to class A. For testing this new model, we performed detailed researches on four data bases: Iris, Wine, Bupa Liver Disorders and Wisconsin Breast Cancer. The rules´ coverage resultant of the application of this method was quite good, reaching 100% in Iris case. After the rules generation, its evaluation was performed using two criteria: coverage and accuracy. Besides the testing above, the performance of the methods for multi-class SVM described in this work was evaluated. [pt] REGRAS FUZZY [en] FUZZY RULES [pt] EXTRACAO DE REGRAS [en] EXTRACTION OF RULES [pt] CLASSIFICACAO EM MULTIPLAS CLASSES [en] MULTI-CLASS CLASSIFICATION [pt] SVM [en] SVM
5	[en] STOCK MARKET BEHAVIOR PREDICTION USING FINANCIAL NEWS IN PORTUGUESE / [pt] PREDIÇÃO DO COMPORTAMENTO DO MERCADO FINANCEIRO UTILIZANDO NOTÍCIAS EM PORTUGUÊS HERALDO PIMENTA BORGES FILHO 27 August 2015 (has links) [pt] Um conjunto de teorias financeiras, tais como a hipótese do mercado eficiente e a teoria do passeio aleatório, afirma ser impossível prever o futuro do mercado de ações baseado na informação atualmente disponível. Entretanto, pesquisas recentes têm provado o contrário ao constatar uma relação entre o conteúdo de uma notícia corrente e o comportamento de um ativo. Nosso objetivo é projetar e implementar um algoritmo de predição que utiliza notícias jornalísticas sobre empresas de capital aberto para prever o comportamento de ações na bolsa de valores. Utilizamos uma abordagem baseada em aprendizado de máquina para a tarefa de predição do comportamento de um ativo nas posições de alta, baixa ou neutra, utilizando informações quantitativas e qualitativas, como notícias sobre o mercado financeiro. Avaliamos o nosso sistema em um dataset com seis mil notícias e nossos experimentos apresentam uma acurácia de 68.57 porcento para a tarefa. / [en] A set of financial theories, such as the eficient market hypothesis and the theory of random walk, says it is impossible to predict the future of the stock market based on currently available information. However, recent research has proven otherwise by finding a relationship between the content of a news and current behavior of an stock. Our goal is to develop and implement a prediction algorithm that uses financial news about joint-stock company to predict the stock s behavior on the stock exchange. We use an approach based on machine learning for the task of predicting the behavior of an stock in positions of up, down or neutral, using quantitative and qualitative information, such as financial. We evaluate our system on a dataset with six thousand news and our experiments indicate an accuracy of 68.57 percent for the task. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] MERCADO DE ACOES [en] ACTIONS MARKET [pt] CLASSIFICACAO DE TEXTOS [en] TEXT CLASSIFICATION [pt] SVM [en] SVM [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING
6	[en] HYBRID SYSTEM FOR RULE EXTRACTION APPLIED TO DIAGNOSIS OF POWER TRANSFORMERS / [pt] SISTEMA HÍBRIDO DE EXTRAÇÃO DE REGRAS APLICADO A DIAGNÓSTICO DE TRANSFORMADORES CINTIA DE FARIA FERREIRA CARRARO 28 November 2012 (has links) [pt] Este trabalho tem como objetivo construir um classificador baseado em regras de inferência fuzzy, as quais são extraídas a partir de máquinas de vetor suporte (SVMs) e ajustadas com o auxílio de um algoritmo genético. O classificador construído visa a diagnosticar transformadores de potência. As SVMs são sistemas de aprendizado baseados na teoria do aprendizado estatístico e apresentam boa habilidade de generalização em conjuntos de dados reais. SVMs, da mesma forma que redes neurais (RN), geram um modelo caixa preta, isto é, um modelo que não explica o processo pelo qual sua saída é obtida. Entretanto, para alguns problemas, o conhecimento sobre como a classificação foi obtida é tão importante quanto a classificação propriamente dita. Alguns métodos propostos para reduzir ou eliminar essa limitação já foram desenvolvidos, embora sejam restritos à extração de regras simbólicas, isto é, contêm funções ou intervalos nos antecedentes das regras. No entanto, a interpretabilidade de regras simbólicas ainda é reduzida. De forma a aumentar a interpretabilidade das regras, o modelo FREx_SVM foi desenvolvido. Neste modelo as regras fuzzy são extraídas a partir de SVMs treinadas. O modelo FREx_SVM pode ser aplicado a problemas de classificação com n classes, não sendo restrito a classificações binárias. Entretanto, apesar do bom desempenho do modelo FREx_SVM na extração de regras linguísticas, o desempenho de classificação do sistema de inferência fuzzy obtido é ainda inferior ao da SVM, uma vez que as partições (conjuntos fuzzy) das variáveis de entrada são definidas a priori, permanecendo fixas durante o processo de aprendizado das regras. O objetivo desta dissertação é, portanto, estender o modelo FREx_SVM, de forma a permitir o ajuste automático das funções de pertinência das variáveis de entrada através de algoritmos genéticos. Para avaliar o desempenho do modelo estendido, foram realizados estudos de caso em dois bancos de dados: Iris, como uma base benchmark, e a análise de resposta em frequência. A análise de resposta em frequência é uma técnica não invasiva e não destrutiva, pois preserva as características dos equipamentos. No entanto, o diagnóstico é feito de modo visual comparativo e requer o auxílio de um especialista. Muitas vezes, este diagnóstico é subjetivo e inconclusivo. O ajuste automático das funções de pertinência correspondentes aos conjuntos fuzzy associados às variáveis de entrada reduziu o erro de classificação em até 13,38 por cento em relação à configuração sem este ajuste. Em alguns casos, o desempenho da configuração com ajuste das funções de pertinência supera até mesmo aquele obtido pela própria SVM. / [en] This work aims to develop a classifier model based on fuzzy inference rules, which are extracted from support vector machines (SVMs) and optimized by a genetic algorithm. The classifier built aims to diagnose power transformers. The SVMs are learning systems based on statistical learning theory and have provided good generalization performance in real data sets. SVMs, as artificial neural networks (NN), generate a black box model, that is, a model that does not explain the process by which its output is obtained. However, for some applications, the knowledge about how the classification was obtained is as important as the classification itself. Some proposed methods to reduce or eliminate this limitation have already been developed, although they are restricted to the extraction of symbolic rules, i.e. contain functions or ranges in the rules´ antecedents. Nevertheless, the interpretability of symbolic rules is still reduced. In order to increase the interpretability of the rules, the FREx_SVM model was developed. In this model the fuzzy rules are extracted from trained SVMs. The FREx_SVM model can be applied to classification problems with n classes, not being restricted to binary classifications. However, despite the good performance of the FREx_SVM model in extracting linguistic rules, the classification performance of fuzzy classification system obtained is still lower than the SVM, since the partitions (fuzzy sets) of the input variables are predefined at the beginning of the process, and are fixed during the rule extraction process. The goal of this dissertation is, therefore, to extend the FREx_SVM model, so as to enable the automatic adjustment of the membership functions of the input variables through genetic algorithms. To assess the performance of the extended model, case studies were carried out in two databases: iris benchmark and frequency response analysis. The frequency response analysis is a noninvasive and non-destructive technique, because it preserves the characteristics of the equipment. However, the diagnosis is carried out by visual comparison and requires the assistance of an expert. Often, this diagnosis is subjective and inconclusive. The automatic adjustment of the membership functions associated with input variables reduced the error up to 13.38 per cent when compared to the configuration without this optimization. In some cases, the classification performance with membership functions optimization exceeds even those obtained by SVM. [pt] RESPOSTA EM FREQUENCIA [pt] SVM [pt] EXTRACAO DE REGRAS [pt] LINGUISTICA [pt] ALGORITMO GENETICO [pt] CLASSIFICACAO [pt] IMPEDANCIA [en] FREQUENCY RESPONSE [en] SVM [en] EXTRACTION OF RULES [en] LINGUISTICS [en] GENETIC ALGORITHM [en] CLASSIFICATION [en] IMPEDANCE
7	[en] SEMANTIC ROLE-LABELING FOR PORTUGUESE / [pt] ANOTADOR DE PAPEIS SEMÂNTICOS PARA PORTUGUÊS ARTHUR BELTRAO CASTILHO NETO 23 June 2017 (has links) [pt] A anotação de papeis semânticos (APS) é uma importante tarefa do processamento de linguagem natural (PLN), que possibilita estabelecer uma relação de significado entre os eventos descritos em uma sentença e seus participantes. Dessa forma, tem o potencial de melhorar o desempenho de inúmeros outros sistemas, tais como: tradução automática, correção ortográfica, extração e recuperação de informações e sistemas de perguntas e respostas, uma vez que reduz as ambiguidades existentes no texto de entrada. A grande maioria dos sistemas de APS publicados no mundo realiza a tarefa empregando técnicas de aprendizado supervisionado e, para obter melhores resultados, usam corpora manualmente revisados de tamanho considerável. No caso do Brasil, o recurso lexical que possui anotações semânticas (Propbank.br) é muito menor. Por isso, nos últimos anos, foram feitas tentativas de melhorar esse resultado utilizando técnicas de aprendizado semisupervisionado ou não-supervisionado. Embora esses trabalhos tenham contribuido direta e indiretamente para a área de PLN, não foram capazes de superar o desempenho dos sistemas puramente supervisionados. Este trabalho apresenta uma abordagem ao problema de anotação de papéis semânticos no idioma português. Utilizamos aprendizado supervisionado sobre um conjunto de 114 atributos categóricos e empregando duas técnicas de regularização de domínio, combinadas para reduzir o número de atributos binários em 96 por cento. O modelo gerado usa uma support vector machine com solver L2-loss dual support vector classification e é testado na base PropBank.br, apresentando desempenho ligeiramente superior ao estado-da-arte. O sistema é avaliado empiricamente pelo script oficial da CoNLL 2005 Shared Task, obtendo 82,17 por cento de precisão, 82,88 por cento de cobertura e 82,52 por cento de F1 ao passo que o estado-da-arte anterior atinge 83,0 por cento de precisão, 81,7 por cento de cobertura e 82,3 por cento de F1. / [en] Semantic role-labeling (SRL) is an important task of natural language processing (NLP) which allows establishing meaningful relationships between events described in a given sentence and its participants. Therefore, it can potentially improve performance on a large number of NLP systems such as automatic translation, spell correction, information extraction and retrieval and question answering, as it decreases ambiguity in the input text. The vast majority of SRL systems reported so far employed supervised learning techniques to perform the task. For better results, large sized manually reviewed corpora are used. The Brazilian semantic role labeled lexical resource (Propbank.br) is much smaller. Hence, in recent years, attempts have been made to improve performance using semi supervised and unsupervised learning. Even making several direct and indirect contributions to NLP, those studies were not able to outperform exclusively supervised systems. This paper presents an approach to the SRL task in Portuguese language using supervised learning over a set of 114 categorical features. Over those, we apply a combination of two domain regularization methods to cut binary features down to 96 percent. We test a SVM model (L2-loss dual support vector classification) on PropBank.Br dataset achieving results slightly better than state-of-the-art. We empirically evaluate the system using official CoNLL 2005 Shared Task script pulling 82.17 percent precision, 82.88 percent coverage and 82.52 percent F1. The previous state-of-the-art Portuguese SRL system scores 83.0 percent precision, 81.7 percent coverage and 82.3 percent F1. [pt] SELECAO DE ATRIBUTOS [en] FEATURE SELECTION [pt] SUPPORT VECTOR MACHINES [en] SUPPORT VECTOR MACHINES [pt] SVM [en] SVM [pt] APRENDIZADO SUPERVISIONADO [pt] ANOTACAO DE PAPEIS SEMANTICOS [pt] APS [pt] PROCESSAMENTO DE LINGUA NATURAL [pt] PLN [pt] LIBLINEAR [pt] PROPBANK BR [pt] REGULARIZACAO DE DOMINIO

1

Page generated in 0.0464 seconds