Global ETD Search

11	Previsão de séries temporais usando sistemas de múltiplos preditores SILVA, Eraylson Galdino da 14 June 2017 (has links) Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-09-14T21:55:13Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Eraylson Galdino da Silva.pdf: 8551281 bytes, checksum: 9b494a88be22823d36a44cd414900651 (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-09-18T16:00:17Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Eraylson Galdino da Silva.pdf: 8551281 bytes, checksum: 9b494a88be22823d36a44cd414900651 (MD5) / Made available in DSpace on 2018-09-18T16:00:17Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Eraylson Galdino da Silva.pdf: 8551281 bytes, checksum: 9b494a88be22823d36a44cd414900651 (MD5) Previous issue date: 2017-06-14 / CNPq / Sistema de Múltiplos Preditores (SMP) consiste no desenvolvimento de um conjunto de modelos para prever a mesma variável. Na literatura é possível encontrar trabalhos que mostram que a sua utilização em previsão de séries temporais pode melhorar a acurácia. Para tal, é construído um conjunto com diferentes preditores e a previsão final é obtida através da seleção ou combinação. A seleção de preditores consiste em encontrar um preditor dentro do conjunto que possa retornar a melhor previsão, podendo reduzir o custo computacional e aumentar a acurácia do sistema de previsão. Além da abordagem para retornar a previsão final é necessário que exista diversidade entre os preditores, a qual, consiste em desenvolver um conjunto de preditores que apresentem previsões diferentes para a mesma variável. Uma das técnicas para criar modelos diversos é particionar a série em diferentes amostras e treinar um modelo para cada amostra, possibilitando o desenvolvimento de preditores especialistas em padrões diferentes da série. Sabendo que a utilização de SMP pode aumentar a acurácia de sistemas de previsão de séries temporais, ainda existe a necessidade de pesquisas que apresentem em que circunstâncias a combinação é melhor que a seleção de preditores, além disso, quais as melhores formas de combinação e qual a influência de treinar os preditores através de partições diferentes da série. Para tal, esta dissertação realiza uma comparação entre diferentes abordagens de combinação: Média Simples, Mediana, Regressão Linear, Redes Neurais e Maquina de Vetor de Suporte; e uma abordagem de seleção de preditores que utiliza medida de distância entre os padrões para selecionar o melhor modelo, com o intuito de responder esses questionamentos. Para avaliar o desempenho das diferentes abordagens, foram utilizadas quatro séries: Mackey Glass, Laser, Microsoft e Goldman Sachs. Em cada série os desempenhos das arquiteturas foram avaliados através de um conjunto de métricas. Com base nos resultados obtidos, é possível inferir que em média os desempenhos apresentados pelas melhores abordagens de combinação: Redes Neurais, Regressão Linear e Média Simples, são melhores que a abordagem de seleção utilizada. Além disso, a relação entre a acurácia e a diversidade dos modelos pode variar de acordo com a abordagem de combinação utilizada. / Multiple Predictor Systems (MPS) consists in development a group of models for forecast same variable. According to some works in the literature, MPS can improve in time series forecast. For that, building a group with several models for same forecasting variable and the final forecast is to get through a combination or selection model.The selection of forecasts consists in finding the better model inside of a group that can improve efficiency and performance. The motivation for selection decreases the cost and to use a specific model for each pattern of the time series. Beyond the approach to get the final forecast of Ensemble, it is necessary that exist diversity among models forecasting. For that, one approach is to split the time series in different samples and train a model for each sample, thus making it possible to build off experts’ models. In the knowledge that time series forecast can be better through MPS, it still exists the necessity for new research to find answers to some questions. For instance, in which circumstances are combination approaches better than selection? Which are the better approaches to combining? How important is it to train the models through different partitions of the series? For that, in present theses are developed with diverse approaches of combination: Mean Simple, Median, Linear Regression, Neural Networks and Support Vector Machine, and an approach to forecasting selection that use a distance measure between patterns for select the model. To verify the feasibility between different approaches, four series are used: Mackey-Glass, Laser, Microsoft, and Goldman Sachs. For each time series, the performances of the architectures were evaluated through several metrics. Based on the results obtained, it is possible to infer that on average, the performances presented by better combination approaches: Neural Network, Linear Regression, and Simple Mean are better than selection approach. Moreover, the relationship between accuracy and diversity for combination approach vary according to approach used. Ciência da computação Aprendizado por máquina Seleção de preditores
12	Modelagem de propensão ao atrito no setor de telecomunicações / Modeling Attrition Propensity in the Telecommunication Sector Arruda, Rodolfo Augusto da Silva 12 March 2019 (has links) A satisfação dos clientes é fundamental para a manutenção do relacionamento com a empresa. Quando eles precisam resolver algum problema, a empresa necessita proporcionar bom atendimento e ter capacidade de resolutividade. No entanto, o atendimento massificado, muitas vezes, impossibilita soluções sensíveis às necessidades dos clientes. A metodologia estatística pode ajudar a empresa na priorização de clientes com perfil a reclamar em um órgão de defesa ao consumidor (ODC), evitando assim uma situação de atrito. Neste projeto, foi realizada a modelagem do comportamento do cliente com relação à propensão ao atrito. Foram testadas as técnicas de Regressão Logística, Random Forest e Algoritmos Genéticos. Os resultados mostraram que os Algoritmos Genéticos são uma boa opção para tornar o modelo mais simples (parcimonioso), sem perda de performance, e que o Random Forest possibilitou ganho de performance, porém torna o modelo mais complexo, tanto do ponto de vista computacional quanto prático no que tange à implantação em sistemas de produção da empresa. / Customer satisfaction is key to maintaining the relationship with the company. When these need to solve some problem, the company needs to provide good service and have resolving capacity. However, the mass service often makes it impossible. The statistical methodology can help the company in the prioritization of clients with profile to complain in ODC, thus avoiding a situation of attrition. In this project was carried out the modeling of the behavior of the client in relation to the propensity to attrition. Logistic Regression, Random Forest and Genetic Algorithms were tested. The results showed that the Genetic Algorithms are a good option to make the model simpler (parsimonious) without loss of performance and that Random Forest allowed performance gain, but it makes the model more complex, both from the point of view computational and practical in relation to the implantation in production systems of the company. Aprendizado de máquina Atrito Attrition Machine learning Propensity score Score de propensão
13	Discretização e geração de gráficos de dados em aprendizado de máquina / Attribute discretization and graphics generation in machine learning Voltolini, Richardson Floriani 17 November 2006 (has links) A elevada quantidade e variedade de informações adquirida e armazenada em meio eletrônico e a incapacidade humana de analizá-las, têm motivado o desenvolvimento da área de Mineracão de Dados - MD - que busca, de maneira semi-automática, extrair conhecimento novo e útil de grandes bases de dados. Uma das fases do processo de MD é o pré-processamento dessas bases de dados. O pré-processamento de dados tem como alguns de seus principais objetivos possibilitar que o usuário do processo obtenha maior compreensão dos dados utilizados, bem como tornar os dados mais adequados para as próximas fases do processo de MD. Uma técnica que busca auxiliar no primeiro objetivo citado é a geracão de gráficos de dados, a qual consiste na representação gráfica dos registros (exemplos) de uma base de dados. Existem diversos métodos de geracão de gráficos, cada qual com suas características e objetivos. Ainda na fase de pré-processamento, de modo a tornar os dados brutos mais adequados para as demais fases do processo de MD, diversas técnicas podem ser aplicadas, promovendo transformações nesses dados. Uma delas é a discretização de dados, que transforma um atributo contínuo da base de dados em um atributo discreto. Neste trabalho são abordados alguns métodos de geração de gráficos e de discretização de dados freqüentemente utilizados pela comunidade. Com relação aos métodos de geração de gráficos, foi projetado e implementado o sistema DISCOVERGRAPHICS que provê interfaces para a geração de gráficos de dados. As diferentes interfaces criadas permitem a utilização do sistema por usuários avançados, leigos e por outros sistemas computacionais. Com relação ao segundo assunto abordado neste trabalho, discretização de dados, foram considerados diversos métodos de discretização supervisionados e não-supervisionados, freqüentemente utilizados pela comunidade, e foi proposto um novo método não-supervisionado denominado K-MeansR. Esses métodos foram comparados entre sí por meio da realização de experimentos e analise estatística dos resultados, considerando-se diversas medidas para realizar a avaliação. Os resultados obtidos indicam que o método proposto supera vários dos métodos de discretização considerados / The great quantity and variety of information acquired and stored electronically and the lack of human capacity to analyze it, have motivated the development of Data Mining - DM - a process that attempts to extract new and useful knowledge from databases. One of the steps of the DM process is data preprocessing. The main goals of the data preprocessing step are to enable the user to have a better understanding of the data being used and to transform the data so it is appropriate for the next step of the DM process related to pattern extraction. A technique concerning the first goal consists of the graphic representation of records (examples) of databases. There are various methods to generate these graphic representations, each one with its own characteristics and objectives. Furthermore, still in the preprocessing step, and in order to transform the raw data into a more suitable form for the next step of the DM process, various data discretization technique methods which transform continuous database attribute values into discrete ones can be applied. This work presents some frequently used methods of graph generation and data discretization. Related to the graph generation methods, we have developed a system called DISCOVERGRAPHICS, which offers different interfaces for graph generation. These interfaces allow both advanced and beginner users, as well as other systems, to access the DISCOVERGRAPHICS system facilities. Regarding the second subject of this work, data discretization, we considered various supervised and unsupervised methods and proposed a new unsupervised data discretization method called K-MeansR. Using different evaluation measures and databases, all these methods were experimentally compared to each other and statistical tests were run to analyze the experimental results. These results showed that the proposed method performed better than many of the other data discretization methods considered in this work Aprendizado de máquina Discretização Discretization Geração de gráficos Graphics generation Machine learning
14	Avaliação automática da qualidade de escrita de resumos científicos em inglês / Automatic evaluation of the quality of English abstracts Genoves Junior, Luiz Carlos 01 June 2007 (has links) Problemas com a escrita podem afetar o desempenho de profissionais de maneira marcante, principalmente no caso de cientistas e acadêmicos que precisam escrever com proficiência e desembaraço não somente na língua materna, mas principalmente em inglês. Durante os últimos anos, ferramentas de suporte à escrita, algumas com enfoque em textos científicos, como o AMADEUS e o SciPo foram desenvolvidas e têm auxiliado pesquisadores na divulgação de suas pesquisas. Entretanto, a criação dessas ferramentas é baseada em córpus, sendo muito custosa, pois implica em selecionar textos bem escritos, além de segmentá-los de acordo com sua estrutura esquemática. Nesse mestrado estudamos, avaliamos e implementamos métodos de detecção automática da estrutura esquemática e de avaliação automática da qualidade de escrita de resumos científicos em inglês. Investigamos o uso de tais métodos para possibilitar o desenvolvimento de dois tipos de ferramentas: de detecção de bons resumos e de crítica. Nossa abordagem é baseada em córpus e em aprendizado de máquina supervisionado. Desenvolvemos um detector automático da estrutura esquemática, que chamamos de AZEA, com taxa de acerto de 80,4% eKappa de 0,73, superiores ao estado da arte (acerto de 73%, Kappa de 0,65). Experimentamos várias combinações de algoritmos, atributos e diferentes seções de um artigo científicos. Utilizamos o AZEA na implementação de duas dimensões de uma rubrica para o gênero científico, composta de 7 dimensões, e construímos e disponibilizamos uma ferramenta de crítica da estrutura de um resumo. Um detector de erros de uso de artigo também foi desenvolvido, com precisão é de 83,7% (Kappa de 0,63) para a tarefa de decidir entre omitir ou não um artigo, com enfoque no feedback ao usuário e como parte da implementação da dimensão de erros gramaticais da rubrica. Na tarefa de detectar bons resumos, utilizamos métodos usados com sucesso na avaliação automática da qualidade de escrita de redações com as implementações da rubrica e realizamos experimentos iniciais, ainda com resultados fracos, próximos à baseline. Embora não tenhamos construído um bom avaliador automático da qualidade de escrita, acreditamos que este trabalho indica direções para atingir esta meta, e forneça algumas das ferramentas necessárias / Poor writing may have serious implications for a professional\'s career. This is even more serious in the case of scientists and academics whose job requires fluency and proficiency in their mother tongue as well as in English. This is why a number of writing tools have been developed in order to assist researchers to promote their work. Here, we are particularly interested in tools, such as AMADEUS and SciPo, which focus on scientific writing. AMADEUS and SciPo are corpus-based tools and hence they rely on corpus compilation which is by no means an easy task. In addition to the dificult task of selecting well-written texts, it also requires segmenting these texts according to their schematic structure. The present dissertation aims to investigate, evaluate and implement some methods to automatically detect the schematic structure of English abstracts and to automatically evaluate their quality. These methods have been examined with a view to enabling the development of two types of tools, namely: detection of well-written abstracts and a critique tool. For automatically detecting schematic structures, we have developed a tool, named AZEA, which adopts a corpus-based, supervised machine learning approach. AZEA reaches 80.4% accuracy and Kappa of 0.73, which is above the highest rates reported in the literature so far (73% accuracy and Kappa of 0.65). We have tested a number of different combinations of algorithms, features and different paper sections. AZEA has been used to implement two out of seven dimensions of a rubric for analyzing scientific papers. A critique tool for evaluating the structure of abstracts has also been developed and made available. In addition, our work also includes the development of a classifier for identifying errors related to English article usage. This classifier reaches 83.7% accuracy (Kappa de 0.63) in the task of deciding whether or not a given English noun phrase requires an article. If implemented in the dimension of grammatical errors of the above mentioned rubric, it can be used to give users feedback on their errors. As regards the task of detecting well-written abstracts, we have resorted to methods which have been successfully adopted to evaluate quality of essays and some preliminary tests have been carried out. However, our results are not yet satisfactory since they are not much above the baseline. Despite this drawback, we believe this study proves relevant since in addition to offering some of the necessary tools, it provides some fundamental guidelines towards the automatic evaluation of the quality of texts Aprendizado de máquina Computacional linguistics Lingüística computacional Machine learning NLP PLN
15	Análise do conhecimento extraído de classificadores simbólicos utilizando medidas de avaliação e de interessabilidade. Gomes, Alan Keller 02 May 2002 (has links) Com o avanço da tecnologia, grandes volumes de dados estão sendo coletados e acumulados numa velocidade espantosa. Data Mining constitui um campo de pesquisa recente em Inteligência Artificial, cujo objetivo é extrair conhecimento de grandes bases de dados. Um dos tópicos tratados em Data Mining para extrair conhecimento é o uso de algoritmos de Aprendizado de Máquina em grandes volumes de dados. Alguns algoritmos de Aprendizado de Máquina são capazes de criar generalizações, ou descrever conceitos, a partir de um conjunto de dados previamente rotulados. Esses algoritmos são conhecidos como indutores e são capazes de induzir uma hipótese (ou classificador). Um classificador pode estar descrito sob uma forma simbólica explícita, e assim, apresentar uma explicação do conceito aprendido de forma inteligível ao ser humano. Uma dessas formas de representação simbólica explícita são as regras de conhecimento. Especialmente em Data Mining, o volume de regras de conhecimento que descrevem um classificador simbólico pode ser muito grande. Isso dificulta muito a análise de regras individuais ou de um grupo de regras por parte do usuário desse conhecimento. No intuito de propor uma solução para essa dificuldade, a análise automática de regras, utilizando medidas de avaliação e de interessabilidade, destaca-se como uma das fontes de resultados positivos da aplicação do Aprendizado de Máquina na área de Data Mining. Neste trabalho é apresentado o RuleSystem, um sistema computacional protótipo que implementa funcionalidades voltadas para Aprendizado de Máquina e Data Mining. Uma dessas funcionalidades, implementadas no RuleSystem, refere-se à análise automática de regras. O Módulo de Análise de regras, proposto neste trabalho, implementa diversas medidas de avaliação e de interessabilidade de regras, permitindo assim realizar uma análise tanto quantitativa quanto qualitativa das regras que constituem a(s) hipótese(s) induzida(s) por algoritmos de Aprendizado de Maquina simbólico. aprendizado de máquina simbólico data mining inteligência artificial regras de conhecimento
16	Estimativa da fração difusa da irradiação solar global por meio de técnicas de aprendizado de máquina / Estimation of the diffuse fraction of global solar irradiation by means of machine learning techniques Bassetto, Edson Luis 12 December 2018 (has links) Submitted by EDSON LUIS BASSETTO (edbassetto@gmail.com) on 2019-01-30T17:53:47Z No. of bitstreams: 1 TESE Edson Luis Bassetto 2018.pdf: 19839142 bytes, checksum: 3a09e28ffd5b1f217839a47e99e23195 (MD5) / Approved for entry into archive by Maria Lucia Martins Frederico null (mlucia@fca.unesp.br) on 2019-01-30T18:21:14Z (GMT) No. of bitstreams: 1 bassetto_el_dr_botfca.pdf: 19830215 bytes, checksum: f64708bd4f729298bb8c952915bf0e23 (MD5) / Made available in DSpace on 2019-01-30T18:21:14Z (GMT). No. of bitstreams: 1 bassetto_el_dr_botfca.pdf: 19830215 bytes, checksum: f64708bd4f729298bb8c952915bf0e23 (MD5) Previous issue date: 2018-12-12 / Fundação Araucária de Apoio ao Desenvolvimento Científico e Tecnológico do Paraná (FAADCT/PR) / Neste trabalho são desenvolvidos modelos de estimativa para fração difusa da radiação global (Kd) nas partições horárias e diária: o Modelo Estatístico (ME) clássico e com Técnicas de Aprendizado de Máquina (TAM). Estas técnicas são do tipo Redes Neurais Artificiais (RNA), Sistema Adaptativo de Inferência Neuro Fuzzy (ANFIS) e Máquina de Vetores de Suporte (SVM). O modelo ME utiliza como referência somente a transmissividade atmosférica (KT) e as TAM um conjunto de combinações de oito variáveis astronômicas, geográficas e meteorológicas. Na elaboração dos modelos ME e TAM foram utilizadas uma base de dados de sete anos (2000-2006) de medidas obtidas na Estação Meteorológica e de Radiometria Solar de Botucatu/SP. Para validação dos modelos ME e TAM foram elaboradas, a partir das medidas obtidas, duas bases anuais denominadas de Ano Típico (AT) e Ano Atípico (AAT). No Capítulo 1 foram desenvolvidos os modelos na partição horária com ME, com as RNA do tipo: Percepton Multicamadas (MLP), Função de Base Radial (RBF) e Regressão Generalizada (GRNN), e a ANFIS. No Capítulo 2 foram desenvolvidos os modelos na partição diária com o ME, a rede MLP, que apresentou os melhores resultados do Capítulo 1 e a SVM. Os indicadores estatísticos mostram que entre as TAM, o melhor desempenho nas partições horária e diária foi obtido com a técnica MLP, com desempenho (RMSE) superior ao modelo ME em aproximadamente 56% na partição horária e 20% na partição diária, nas duas bases de validação na estimativa de (Kd). Os resultados denotam que ao inserir as variáveis de forma progressiva no treinamento das técnicas, a precisão entre os valores estimados e medidos, asseguram um desempenho superior, comparados ao modelo ME o que torna as técnicas uma alternativa para estimativa da fração difusa (Kd) com as condições de treinamento e validação utilizadas neste estudo. / FAADCT/PR: CP 18/2015 Radiação solar difusa Modelos de estimativa Técnicas de Aprendizado de Máquina
17	Avaliação automática da qualidade de escrita de resumos científicos em inglês / Automatic evaluation of the quality of English abstracts Luiz Carlos Genoves Junior 01 June 2007 (has links) Problemas com a escrita podem afetar o desempenho de profissionais de maneira marcante, principalmente no caso de cientistas e acadêmicos que precisam escrever com proficiência e desembaraço não somente na língua materna, mas principalmente em inglês. Durante os últimos anos, ferramentas de suporte à escrita, algumas com enfoque em textos científicos, como o AMADEUS e o SciPo foram desenvolvidas e têm auxiliado pesquisadores na divulgação de suas pesquisas. Entretanto, a criação dessas ferramentas é baseada em córpus, sendo muito custosa, pois implica em selecionar textos bem escritos, além de segmentá-los de acordo com sua estrutura esquemática. Nesse mestrado estudamos, avaliamos e implementamos métodos de detecção automática da estrutura esquemática e de avaliação automática da qualidade de escrita de resumos científicos em inglês. Investigamos o uso de tais métodos para possibilitar o desenvolvimento de dois tipos de ferramentas: de detecção de bons resumos e de crítica. Nossa abordagem é baseada em córpus e em aprendizado de máquina supervisionado. Desenvolvemos um detector automático da estrutura esquemática, que chamamos de AZEA, com taxa de acerto de 80,4% eKappa de 0,73, superiores ao estado da arte (acerto de 73%, Kappa de 0,65). Experimentamos várias combinações de algoritmos, atributos e diferentes seções de um artigo científicos. Utilizamos o AZEA na implementação de duas dimensões de uma rubrica para o gênero científico, composta de 7 dimensões, e construímos e disponibilizamos uma ferramenta de crítica da estrutura de um resumo. Um detector de erros de uso de artigo também foi desenvolvido, com precisão é de 83,7% (Kappa de 0,63) para a tarefa de decidir entre omitir ou não um artigo, com enfoque no feedback ao usuário e como parte da implementação da dimensão de erros gramaticais da rubrica. Na tarefa de detectar bons resumos, utilizamos métodos usados com sucesso na avaliação automática da qualidade de escrita de redações com as implementações da rubrica e realizamos experimentos iniciais, ainda com resultados fracos, próximos à baseline. Embora não tenhamos construído um bom avaliador automático da qualidade de escrita, acreditamos que este trabalho indica direções para atingir esta meta, e forneça algumas das ferramentas necessárias / Poor writing may have serious implications for a professional\'s career. This is even more serious in the case of scientists and academics whose job requires fluency and proficiency in their mother tongue as well as in English. This is why a number of writing tools have been developed in order to assist researchers to promote their work. Here, we are particularly interested in tools, such as AMADEUS and SciPo, which focus on scientific writing. AMADEUS and SciPo are corpus-based tools and hence they rely on corpus compilation which is by no means an easy task. In addition to the dificult task of selecting well-written texts, it also requires segmenting these texts according to their schematic structure. The present dissertation aims to investigate, evaluate and implement some methods to automatically detect the schematic structure of English abstracts and to automatically evaluate their quality. These methods have been examined with a view to enabling the development of two types of tools, namely: detection of well-written abstracts and a critique tool. For automatically detecting schematic structures, we have developed a tool, named AZEA, which adopts a corpus-based, supervised machine learning approach. AZEA reaches 80.4% accuracy and Kappa of 0.73, which is above the highest rates reported in the literature so far (73% accuracy and Kappa of 0.65). We have tested a number of different combinations of algorithms, features and different paper sections. AZEA has been used to implement two out of seven dimensions of a rubric for analyzing scientific papers. A critique tool for evaluating the structure of abstracts has also been developed and made available. In addition, our work also includes the development of a classifier for identifying errors related to English article usage. This classifier reaches 83.7% accuracy (Kappa de 0.63) in the task of deciding whether or not a given English noun phrase requires an article. If implemented in the dimension of grammatical errors of the above mentioned rubric, it can be used to give users feedback on their errors. As regards the task of detecting well-written abstracts, we have resorted to methods which have been successfully adopted to evaluate quality of essays and some preliminary tests have been carried out. However, our results are not yet satisfactory since they are not much above the baseline. Despite this drawback, we believe this study proves relevant since in addition to offering some of the necessary tools, it provides some fundamental guidelines towards the automatic evaluation of the quality of texts Aprendizado de máquina Lingüística computacional PLN Computacional linguistics Machine learning NLP
18	Discretização e geração de gráficos de dados em aprendizado de máquina / Attribute discretization and graphics generation in machine learning Richardson Floriani Voltolini 17 November 2006 (has links) A elevada quantidade e variedade de informações adquirida e armazenada em meio eletrônico e a incapacidade humana de analizá-las, têm motivado o desenvolvimento da área de Mineracão de Dados - MD - que busca, de maneira semi-automática, extrair conhecimento novo e útil de grandes bases de dados. Uma das fases do processo de MD é o pré-processamento dessas bases de dados. O pré-processamento de dados tem como alguns de seus principais objetivos possibilitar que o usuário do processo obtenha maior compreensão dos dados utilizados, bem como tornar os dados mais adequados para as próximas fases do processo de MD. Uma técnica que busca auxiliar no primeiro objetivo citado é a geracão de gráficos de dados, a qual consiste na representação gráfica dos registros (exemplos) de uma base de dados. Existem diversos métodos de geracão de gráficos, cada qual com suas características e objetivos. Ainda na fase de pré-processamento, de modo a tornar os dados brutos mais adequados para as demais fases do processo de MD, diversas técnicas podem ser aplicadas, promovendo transformações nesses dados. Uma delas é a discretização de dados, que transforma um atributo contínuo da base de dados em um atributo discreto. Neste trabalho são abordados alguns métodos de geração de gráficos e de discretização de dados freqüentemente utilizados pela comunidade. Com relação aos métodos de geração de gráficos, foi projetado e implementado o sistema DISCOVERGRAPHICS que provê interfaces para a geração de gráficos de dados. As diferentes interfaces criadas permitem a utilização do sistema por usuários avançados, leigos e por outros sistemas computacionais. Com relação ao segundo assunto abordado neste trabalho, discretização de dados, foram considerados diversos métodos de discretização supervisionados e não-supervisionados, freqüentemente utilizados pela comunidade, e foi proposto um novo método não-supervisionado denominado K-MeansR. Esses métodos foram comparados entre sí por meio da realização de experimentos e analise estatística dos resultados, considerando-se diversas medidas para realizar a avaliação. Os resultados obtidos indicam que o método proposto supera vários dos métodos de discretização considerados / The great quantity and variety of information acquired and stored electronically and the lack of human capacity to analyze it, have motivated the development of Data Mining - DM - a process that attempts to extract new and useful knowledge from databases. One of the steps of the DM process is data preprocessing. The main goals of the data preprocessing step are to enable the user to have a better understanding of the data being used and to transform the data so it is appropriate for the next step of the DM process related to pattern extraction. A technique concerning the first goal consists of the graphic representation of records (examples) of databases. There are various methods to generate these graphic representations, each one with its own characteristics and objectives. Furthermore, still in the preprocessing step, and in order to transform the raw data into a more suitable form for the next step of the DM process, various data discretization technique methods which transform continuous database attribute values into discrete ones can be applied. This work presents some frequently used methods of graph generation and data discretization. Related to the graph generation methods, we have developed a system called DISCOVERGRAPHICS, which offers different interfaces for graph generation. These interfaces allow both advanced and beginner users, as well as other systems, to access the DISCOVERGRAPHICS system facilities. Regarding the second subject of this work, data discretization, we considered various supervised and unsupervised methods and proposed a new unsupervised data discretization method called K-MeansR. Using different evaluation measures and databases, all these methods were experimentally compared to each other and statistical tests were run to analyze the experimental results. These results showed that the proposed method performed better than many of the other data discretization methods considered in this work Aprendizado de máquina Discretização Geração de gráficos Discretization Graphics generation Machine learning
19	Computação inteligente no estudo de variantes de hemoglobina / Intelligent computation applied to the study of hemoglobin variants Sousa, Thaís Helena Samed e 29 October 2004 (has links) A evolução in vitro é um método laboratorial criado para a evolução de moléculas, principalmente de proteínas. Por meio de mutações, o método busca novas propriedades de moléculas, objetivando criar novas proteínas e, com isso, intensificar o estudo e a cura de doenças, pelo desenvolvimento de novos fármacos. O grande desafio na evolução in vitro é criar o maior número possível de moléculas de proteínas que atinjam propriedades desejadas, uma vez que apenas uma fração infinitesimal das diversidades geradas utilizando-se seqüências de DNA é aproveitada. Para se obter moléculas com funcionalidade adequada por meio dessa técnica, é requerido muito tempo e aporte financeiro. Com o objetivo de avaliar computacionalmente a funcionalidade de proteínas variantes a partir das seqüências de aminoácidos buscando reduzir o custo e o tempo desprendido em laboratório, este trabalho propõe o uso de técnicas de computação inteligentes (evolução in silicio), baseadas em aprendizado de máquina e computação evolutiva. Para o emprego de técnicas de AM, bancos de dados com elevado número de informações são fundamentais. Neste sentido, escolheu-se investigar as moléculas mutantes de hemoglobina, uma vez que a quantidade de informações disponíveis sobre a mesma é bastante extensa na literatura. Os resultados obtidos mostram que é possível desenvolver algoritmos eficientes para determinar a funcionalidade de variantes de hemoglobina. Com esses resultados, busca-se contribuir no desenvolvimento de técnicas de evolução dirigida com suporte computacional / In vitro evolution is a laboratorial method developed to molecule evolution mainly proteins. By producing mutations, this method looks for new molecule properties, aiming achieve new proteins for the development of drugs for diseases. The great challenge of in vitro evolution is the development of the highest possible number of molecules that reaches desired properties. This objective is a great challenge to be transposed, since only one infinitesimal fraction of generated proteins using DNA sequencies is usefull to obtain molecules with the desired function. Besides high financial support and time are required to apply this technique. With the objective of evaluating computacionaly and functionality of proteins mutants starting from aminoacids sequences looking for to reduce the cost and the time loosened at laboratory, this work proposes the use of intelligent computation techniques based on learning of it conspires and evolutionary computation. On the other hand, when machine learning techniques are used, it is fundamental to access data mining with high number of information. In order to reduce these difficulties, this work proposes a machine learning (ML) based on approach to evaluate computationaly hemoglobin variants. ML techniques require, in general, large data base. In order to supply this requirement, hemoglobin variants were used because there is a large number of hemoglobin variants available in the literature. The obtained results shown that is possible to develop efficient algorithms to determine hemoglobin variant function. These results can contribute for development of molecule evolution techniques aprendizado de máquina hemoglobin hemoglobina machine learning mutant sequences seqüências mutantes
20	"Combinação de classificadores simbólicos para melhorar o poder preditivo e descritivo de Ensembles" / Combination of symbolic classifiers to improve predictive and descriptive power of ensembles Bernardini, Flávia Cristina 17 May 2002 (has links) A qualidade das hipóteses induzidas pelos atuais sistemas de Aprendizado de Máquina depende principalmente da quantidade e da qualidade dos atributos e exemplos utilizados no treinamento. Freqüentemente, resultados experimentais obtidos sobre grandes bases de dados, que possuem muitos atributos irrelevantes, resultam em hipóteses de baixa precisão. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma quantidade muito grande de exemplos. Assim, uma das áreas de pesquisa mais ativas em aprendizado de máquina tem girado em torno de técnicas que sejam capazes de ampliar a capacidade dos algoritmos de aprendizado para processar muitos exemplos de treinamento, atributos e classes. Para que conceitos sejam aprendidos a partir de grandes bases de dados utilizando Aprendizado de Máquina, pode-se utilizar duas abordagens. A primeira realiza uma seleção de exemplos e atributos mais relevantes, e a segunda ´e a abordagem de ensembles. Um ensemble ´e um conjunto de classificadores cujas decisões individuais são combinadas de alguma forma para classificar um novo caso. Ainda que ensembles classifiquem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de nao oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. O objetivo deste trabalho é propor uma forma de combinação de classificadores simbólicos, ou seja, classificadores induzidos por algoritmos de AM simbólicos, nos quais o conhecimento é descrito na forma de regras if-then ou equivalentes, para se trabalhar com grandes bases de dados. A nossa proposta é a seguinte: dada uma grande base de dados, divide-se esta base aleatoriamente em pequenas bases de tal forma que é viável fornecer essas bases de tamanho menor a um ou vários algoritmos de AM simbólicos. Logo após, as regras que constituem os classificadores induzidos por esses algoritmos são combinadas em um único classificador. Para analisar a viabilidade do objetivo proposto, foi implementado um sistema na linguagem de programação lógica Prolog, com a finalidade de (a) avaliar regras de conhecimento induzidas por algoritmos de Aprendizado de Máquina simbólico e (b) avaliar diversas formas de combinar classificadores simbólicos bem como explicar a classificação de novos exemplos realizada por um ensemble de classificares simbólicos. A finalidade (a) é implementada pelo Módulo de Análise de Regras e a finalidade (b) pelo Módulo de Combinação e Explicação. Esses módulos constituem os módulos principais do RuleSystem. Neste trabalho, são descritos os métodos de construção de ensembles e de combinação de classificadores encontrados na literatura, o projeto e a documentação do RuleSystem, a metodologia desenvolvida para documentar o sistema RuleSystem, a implementação do Módulo de Combinação e Explicação, objeto de estudo deste trabalho, e duas aplicações do Módulo de Combinação e Explicação. A primeira aplicação utilizou uma base de dados artificiais, a qual nos permitiu observar necessidades de modificações no Módulo de Combinação e Explicação. A segunda aplicação utilizou uma base de dados reais. / The hypothesis quality induced by current machine learning algorithms depends mainly on the quantity and quality of features and examples used in the training phase. Frequently, hypothesis with low precision are obtained in experiments using large databases with a large number of irrelevant features. Thus, one active research area in machine learning is to investigate techniques able to extend the capacity of machine learning algorithms to process a large number of examples, features and classes. To learn concepts from large databases using machine learning algorithms, two approaches can be used. The first approach is based on a selection of relevant features and examples, and the second one is the ensemble approach. An ensemble is a set of classifiers whose individual decisions are combined in some way to classify a new case. Although ensembles classify new examples better than each individual classifier, they behave like black-boxes, since they do not offer any explanation to the user about their classification. The purpose of this work is to consider a form of symbolic classifiers combination to work with large databases. Given a large database, it is equally divided randomly in small databases. These small databases are supplied to one or more symbolic machine learning algorithms. After that, the rules from the resulting classifiers are combined into one classifier. To analise the viability of this proposal, was implemented a system in logic programming language Prolog, called RuleSystem. This system has two purposes; the first one, implemented by the Rule Analises Module, is to evaluate rules induced by symbolic machine learning algorithms; the second one, implemented by the Combination and Explanation Module, is to evaluate several forms of combining symbolic classifiers as well as to explain ensembled classification of new examples. Both principal modules constitute the Rule System. This work describes ensemble construction methods and combination of classifiers methods found in the literature; the project and documentation of RuleSystem; the methodology developed to document the RuleSystem; and the implementation of the Combination and Explanation Module. Two different case studies using the Combination and Explanation Module are described. The first case study uses an artificial database. Through the use of this artificial database, it was possible to improve several of the heuristics used by the the Combination and Explanation Module. A real database was used in the second case study. aprendizado de máquina simbólico combinação de classificadores combination of classifiers symbolic machine learning

Search results