• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • Tagged with
  • 9
  • 9
  • 7
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Comparação das águas dos rios Jaguari e Atibaia na região de lançamento de efluente de indústria petroquímica / Comparision of the water from rivers Jaguari and Atibaia at the region of wastewater release by a petrochemical industry

Oliveira, Eduardo Schneider Bueno de [UNESP] 03 February 2016 (has links)
Submitted by EDUARDO SCHNEIDER BUENO DE OLIVEIRA null (eduardosbdeoliveira@hotmail.com) on 2016-04-14T17:34:57Z No. of bitstreams: 1 Dissertação Final - Eduardo Schneider.pdf: 4265629 bytes, checksum: 4e5da4135aad7da51adb68c347b376b1 (MD5) / Approved for entry into archive by Felipe Augusto Arakaki (arakaki@reitoria.unesp.br) on 2016-04-18T13:08:57Z (GMT) No. of bitstreams: 1 oliveira_esb_me_bot.pdf: 4265629 bytes, checksum: 4e5da4135aad7da51adb68c347b376b1 (MD5) / Made available in DSpace on 2016-04-18T13:08:57Z (GMT). No. of bitstreams: 1 oliveira_esb_me_bot.pdf: 4265629 bytes, checksum: 4e5da4135aad7da51adb68c347b376b1 (MD5) Previous issue date: 2016-02-03 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / A ação antrópica na natureza é algo muito constante ao longo de toda a história, mas cada vez mais notam-se os efeitos negativos que por vezes ela pode trazer. Verificar esses efeitos, suas implicações, e aquilo que pode ser feito para evitar maiores problemas é de suma importância para a manutenção de nosso planeta em boas condições e consequentemente para a qualidade de vida do ser humano. O presente estudo realiza uma an álise da qualidade da água dos Rios Jaguari e Atibaia, entre os quais há o despejo de resíduos de uma indústria, além da qualidade da água após o processo de utilização pela indústria, antes de sua devolução ao rio. Com isso, pode-se verificar a qualidade do tratamento de resíduo de tal indústria e analisar possíveis efeitos que possa haver na qualidade da água após o despejo dos resíduos no rio. Para isso, com base em dados sobre características físicas, químicas e microbiológicas da água, são utilizadas técnicas estatísticas adequadas para realizar a análise necessária ao intuito anteriormente exposto. Como os dados possuem dependência entre si, é necessário que sejam utilizados métodos que permitam tal ocorrência, como o Bootstrap em Blocos não param étrico (Künsch, 1989; Politis & Romano, 1994). Também há a realização de imputação múltipla de dados, uma vez que há diversos meses do estudo com dados ausentes, através da técnica de Imputação de Dados Livre de Distribuição (Bergamo, 2007; Bergamo et al., 2008). / The anthropic action in nature is a constant factor along the history, but each day the negative effects that it brings can be increasingly seen. Check these effects, its implications and what can be done in order to avoid bigger problems has a great importance to the manteinance of our planet in good conditions and, consequently, to the human being life quality. This study performs an analysis of the water quality of the Jaguari and Atibaia rivers, among which happens the dumping of residuals from a petrochemical industry, as well as of the quality of the water after its utilization process by the industry, before its devolution to the river. Thus, it is possible to verify this industry’s residual treatment quality and to analyze possible effects to the water quality after the residual dumping at the river. For this, based on data about fisical, chemical and microbiological characteristics of the water, appropriate statistical techniques are used, aiming to do the necessary analysis to fullfill the exposed intention. Because of the existence of dependency, methods that allow this ocurrence shall be used, such as the non parametric Blocks Bootstrap (K¨unsch, 1989; Politis & Romano, 1994). There is also the realization of multiple imputation, using the technique of the Distribution-free Multiple Imputation (Bergamo, 2007; Bergamo et al., 2008), once for some months there are missing data.
2

Comparação das águas dos rios Jaguari e Atibaia na região de lançamento de efluente de indústria petroquímica

Oliveira, Eduardo Schneider Bueno de January 2016 (has links)
Orientador: Antonio Carlos Simões Pião / Resumo: A ação antrópica na natureza é algo muito constante ao longo de todaa história, mas cada vez mais notam-se os efeitos negativos que por vezes ela podetrazer. Verificar esses efeitos, suas implicações, e aquilo que pode ser feito para evitarmaiores problemas é de suma importância para a manutenção de nosso planetaem boas condições e consequentemente para a qualidade de vida do ser humano.O presente estudo realiza uma an álise da qualidade da água dos Rios Jaguari eAtibaia, entre os quais há o despejo de resíduos de uma indústria, além da qualidadeda água após o processo de utilização pela indústria, antes de sua devolução ao rio.Com isso, pode-se verificar a qualidade do tratamento de resíduo de tal indústria eanalisar possíveis efeitos que possa haver na qualidade da água após o despejo dosresíduos no rio. Para isso, com base em dados sobre características físicas, químicas emicrobiológicas da água, são utilizadas técnicas estatísticas adequadas para realizara análise necessária ao intuito anteriormente exposto. Como os dados possuemdependência entre si, é necessário que sejam utilizados métodos que permitam talocorrência, como o Bootstrap em Blocos não param étrico (Künsch, 1989; Politis& Romano, 1994). Também há a realização de imputação múltipla de dados,uma vez que há diversos meses do estudo com dados ausentes, através da técnicade Imputação de Dados Livre de Distribuição (Bergamo, 2007; Bergamo et al., 2008). / Abstract: The anthropic action in nature is a constant factor along the history, but each day the negative effects that it brings can be increasingly seen. Check these effects, its implications and what can be done in order to avoid bigger problems has a great importance to the manteinance of our planet in good conditions and, consequently, to the human being life quality. This study performs an analysis of the water quality of the Jaguari and Atibaia rivers, among which happens the dumping of residuals from a petrochemical industry, as well as of the quality of the water after its utilization process by the industry, before its devolution to the river. Thus, it is possible to verify this industry’s residual treatment quality and to analyze possible effects to the water quality after the residual dumping at the river. For this, based on data about fisical, chemical and microbiological characteristics of the water, appropriate statistical techniques are used, aiming to do the necessary analysis to fullfill the exposed intention. Because of the existence of dependency, methods that allow this ocurrence shall be used, such as the non parametric Blocks Bootstrap (K¨unsch, 1989; Politis & Romano, 1994). There is also the realization of multiple imputation, using the technique of the Distribution-free Multiple Imputation (Bergamo, 2007; Bergamo et al., 2008), once for some months there are missing data. / Mestre
3

Imputação AMMI Bootstrap Não-paramétrico em dados multiambientais / AMMI imputation Non-parametric bootstrap in multenvironmental data

Silva, Maria Joseane Cruz da 20 January 2017 (has links)
Em estudos multiambientais, o processo de recomendação de genótipos com maior produção e a determinação de genótipos estáveis são de suma importância para os melhoristas. Porém, quando ocorre falta de genótipo em um ou mais ambientes este processo passa a ter dificuldades. Pois, este procedimento depende de métodos estatísticos que necessitam de uma matriz de dados sem dados em falta. Desde 1976 diversos matemáticos e estatísticos estudam, continuamente, uma forma de lidar com dados em falta em dados multiambientais buscando obter um método que estime, de forma precisa, as unidades ausentes sem perda de informação. Desta forma, esta pesquisa propõe um novo método de imputação baseado na metodologia AMMI fazendo reamostragens Bootstrap Não-paramétrico na matriz de médias de interação genótipos e ambientes (G × E), o modelo de imputação AMMI Bootstrap Não-paramétrico (IAMMI-BNP). Para estudo de simulação foi considerado o conjunto de dados referente a procedência S. of Ravenshoe - Mt Pandanus - QLD (14.420) de Eucalyptus grandis coletada na Austrália em 1983. Com a finalidade de obter estimativas precisas dos valores em falta, foi considerado dois estudos de simulação. O primeiro considerou 2000 reamostragens no sentido linha da matriz de interação G × E considerando duas porcentagens de perda de dados (10% e 20 %). O segundo estudo de simulação, considerou 200 reamostragens na matriz de falta (10%) e três diferentes modelos de IAMMI-BNP: IAMMI0-BNP, que considera apenas os efeitos principais do modelo AMMI; IAMMI1-BNP e IAMMI2-BNP que considera um e dois eixos multiplicados do modelo AMMI, respectivamente. De forma geral, de acordo com os métodos de comparação o método de imputação proposto nos dois estudos de simulação forneceu valores imputados próximos dos originais. Considerando os estudos de simulação com 10% de perda, a eficiência do método de imputação proposto foi melhor quando se utilizou o modelo IAMMI2-BNP (com dois eixos multiplicativos). O teste das ordens assinaladas de Wilcoxon mostrou que os valores imputados não influenciaram na estimativa da média, indicando que valores médios dos dados imputados de cada ambiente foram estatisticamente semelhantes aos valores médios originais. / In multienvironment studies, the process of recommendation of genotypes with higher production and the determination of stable environments are of utmost importance for plant breeders. However, when there is missing of genotype in one or more environments this process show difficulties. Therefore, this procedure depends on statistical methods that complete data matrix requered. Since 1976 various mathematical and statistical study, continually, one way of dealing with the loss of information on data multienvironments, seeking to obtain a method that estimate, precisely, the missing units without loss of information. In this way, the purpose of this study is develop a new method of apportionment based on the methodology AMMI doing reamostragens bootstrap nonparametric in the array of means of genotype x environment interaction (GE). For the study of simulation was considered the data set concerning the origin of S. Mexico City - Mt Pandanus - QLD (14,420) of Eucalyptus grandis collected in Australia in 1983. It was performed two studies of simulation. The first performed 2000 resampling on the lines of the interaction matrix G X E, for two percentages of missing data (10% and 20%). The second simulation study considered 200 replicates in the missing data set (10 %) and three different models of IMAMMI-BNP: AMAMMI0-BNP, which considers only the main effects of the AMMI model; IAMMI1-BNP and IAMMI2-BNP which considers one and two axes multiplied by the AMMI model, respectively. In general, according to the comparison methods, the imputation method proposed in the two simulation studies provided imputed values similar to the originals. Considering the simulation studies with 10 % loss, the efficiency of the proposed imputation method was better when using the IAMMI2-BNP model (with two multiplicative axes). The Wilcoxon test of the orders showed that the values imputed had no influence on the mean estimate, indicating that mean values of the data imputed from each environment were statistically similar to the original mean values.
4

Ajuste de modelos e comparação de séries temporais para dados de vazão específica em microbacias pareadas / Fitting of models and comparison of time series for specific flow data in paired catchments

Amaral, Marcus Vinicius Silva Gurgel do 15 July 2014 (has links)
A crescente preocupação com o meio ambiente pressiona a sociedade como um todo para a uma mudança rumo a hábitos mais sustentáveis. No setor produtivo, o impulso se dá pelo desenvolvimento de técnicas mais eficientes de produção, embasados em pesquisas e experimentos de campo. No setor florestal, além da preocupação com a técnicas de manejo e com o solo, o principal recurso a ser preservado é a água. Por meio do monitoramento de rios em bacias hidrográficas, séries históricas são coletadas, possibilitando o uso da teoria de séries temporais para ajuste de modelos pela metodologia Box e Jenkins. Em casos de monitoramentos de microbacias pareadas, existe a possibilidade de se comparar séries temporais, como descrito no presente trabalho. Em duas microbacias pareadas localizadas na região centro-leste do estado do Paraná, em uma fazenda no município de Telêmaco Borba, dados correspondendo a duas séries temporais distintas de vazão específica foram coletados. Devido a presença de falhas nos conjuntos de dados, uma metodologia para imputação foi utilizada de duas maneiras diferentes, possibilitando a posterior comparação das duas séries temporais pela metodologia de séries temporais. De acordo com os resultados, verifica-se que ambas as séries são diferentes tanto para o teste de comparação das funções de autocorrelação, quanto para o teste de comparação de séries temporais proposto por Silva, Ferreira e Sáfadi (2000). Portanto, segundo a caracterização dos estudos em microbacias pareadas, pode-se constatar que o manejo florestal empregado nos dois locais influenciam de forma diferente no comportamento da variável avaliada. / The growing concern for the enviroment presses society as a whole for a change towards sustainable habits. Regarding the production systems, more efficient production techniques based on research and field experiments are needed. As for forestry, besides the concern with management techniques and with soil preparation, the main resource to be preserved is water. Time series are collected by monitoring rivers in drainage basins, making possible the use of time series theory for fitting models based on Box and Jenkins methodology. When studying paired drainage basins, it is possible to compare time series, as described in this work. Two time series consisting of specific flow data were collected in a farm situated in the municipality of Telêmaco Borba, Eastern Paraná state, in two paired drainage basins. Because there were missing data, imputation techniques were used, making it possible to compare the two time series. Results showed that the time series are different for the comparison of the autocorrelation test and the time series comparison test proposed by Silva, Ferreira e Sáfadi (2000). Therefore, according to studies involving paired drainage basins, different forest management techniques influence differently the behavior of the response variable in the different drainage basins.
5

Imputação de dados baseado em otimização por enxame de partículas considerando os principais mecanismos de ausência de dados

DIAS, Lilian de Jesus Chaves 18 June 2013 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2014-01-13T19:54:55Z No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_ImputacaoDadosBaseado.pdf: 1208259 bytes, checksum: 2e7b9d1f0b1637d5e64621ecdbc0f82f (MD5) / Approved for entry into archive by Ana Rosa Silva(arosa@ufpa.br) on 2014-01-17T14:29:14Z (GMT) No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_ImputacaoDadosBaseado.pdf: 1208259 bytes, checksum: 2e7b9d1f0b1637d5e64621ecdbc0f82f (MD5) / Made available in DSpace on 2014-01-17T14:29:14Z (GMT). No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_ImputacaoDadosBaseado.pdf: 1208259 bytes, checksum: 2e7b9d1f0b1637d5e64621ecdbc0f82f (MD5) Previous issue date: 2013 / Durante o processo de extração do conhecimento em bases de dados, alguns problemas podem ser encontrados como por exemplo, a ausência de determinada instância de um atributo. A ocorrência de tal problemática pode causar efeitos danosos nos resultados finais do processo, pois afeta diretamente a qualidade dos dados a ser submetido a um algoritmo de aprendizado de máquina. Na literatura, diversas propostas são apresentadas a fim de contornar tal dano, dentre eles está a de imputação de dados, a qual estima um valor plausível para substituir o ausente. Seguindo essa área de solução para o problema de valores ausentes, diversos trabalhos foram analisados e algumas observações foram realizadas como, a pouca utilização de bases sintéticas que simulem os principais mecanismos de ausência de dados e uma recente tendência a utilização de algoritmos bio-inspirados como tratamento do problema. Com base nesse cenário, esta dissertação apresenta um método de imputação de dados baseado em otimização por enxame de partículas, pouco explorado na área, e o aplica para o tratamento de bases sinteticamente geradas, as quais consideram os principais mecanismos de ausência de dados, MAR, MCAR e NMAR. Os resultados obtidos ao comprar diferentes configurações do método à outros dois conhecidos na área (KNNImpute e SVMImpute) são promissores para sua utilização na área de tratamento de valores ausentes uma vez que alcançou os melhores valores na maioria dos experimentos realizados. / During the knowledge discovery in database process some problems may be found, e.g. some instance of one attribute may be missing. Such issue can even cause harmful effects to the final results of the process, since directly affects the data quality of a database which some machine learning algorithm may be applied to. In the literature are some proposals to solve such harm; among them is the data imputation process that estimates a plausible value to fill in the missing one. Inside the area of missing value treatment, some researches were analyzed and observations were raised such as, a few utilization of synthetic datasets that simulates the main mechanisms of missingness and a tendency to use bioinspired algorithm to treat the missing values. From this scenario, the present dissertation analyses an imputation method based on particle swarm optimization, an underexplored one, and applies it to the treatment of synthetics datasets generated considering the main mechanisms of missingness, MAR, MCAR and NMAR. The results obtained when comparing the algorithm against different configurations of itself and another two treatments known in the area (KNNImpute and SVMImpute) are promising for its use as missing value treatment whereas the bioinspired method reached the bests values for the major of the experiments.
6

Imputação AMMI Bootstrap Não-paramétrico em dados multiambientais / AMMI imputation Non-parametric bootstrap in multenvironmental data

Maria Joseane Cruz da Silva 20 January 2017 (has links)
Em estudos multiambientais, o processo de recomendação de genótipos com maior produção e a determinação de genótipos estáveis são de suma importância para os melhoristas. Porém, quando ocorre falta de genótipo em um ou mais ambientes este processo passa a ter dificuldades. Pois, este procedimento depende de métodos estatísticos que necessitam de uma matriz de dados sem dados em falta. Desde 1976 diversos matemáticos e estatísticos estudam, continuamente, uma forma de lidar com dados em falta em dados multiambientais buscando obter um método que estime, de forma precisa, as unidades ausentes sem perda de informação. Desta forma, esta pesquisa propõe um novo método de imputação baseado na metodologia AMMI fazendo reamostragens Bootstrap Não-paramétrico na matriz de médias de interação genótipos e ambientes (G × E), o modelo de imputação AMMI Bootstrap Não-paramétrico (IAMMI-BNP). Para estudo de simulação foi considerado o conjunto de dados referente a procedência S. of Ravenshoe - Mt Pandanus - QLD (14.420) de Eucalyptus grandis coletada na Austrália em 1983. Com a finalidade de obter estimativas precisas dos valores em falta, foi considerado dois estudos de simulação. O primeiro considerou 2000 reamostragens no sentido linha da matriz de interação G × E considerando duas porcentagens de perda de dados (10% e 20 %). O segundo estudo de simulação, considerou 200 reamostragens na matriz de falta (10%) e três diferentes modelos de IAMMI-BNP: IAMMI0-BNP, que considera apenas os efeitos principais do modelo AMMI; IAMMI1-BNP e IAMMI2-BNP que considera um e dois eixos multiplicados do modelo AMMI, respectivamente. De forma geral, de acordo com os métodos de comparação o método de imputação proposto nos dois estudos de simulação forneceu valores imputados próximos dos originais. Considerando os estudos de simulação com 10% de perda, a eficiência do método de imputação proposto foi melhor quando se utilizou o modelo IAMMI2-BNP (com dois eixos multiplicativos). O teste das ordens assinaladas de Wilcoxon mostrou que os valores imputados não influenciaram na estimativa da média, indicando que valores médios dos dados imputados de cada ambiente foram estatisticamente semelhantes aos valores médios originais. / In multienvironment studies, the process of recommendation of genotypes with higher production and the determination of stable environments are of utmost importance for plant breeders. However, when there is missing of genotype in one or more environments this process show difficulties. Therefore, this procedure depends on statistical methods that complete data matrix requered. Since 1976 various mathematical and statistical study, continually, one way of dealing with the loss of information on data multienvironments, seeking to obtain a method that estimate, precisely, the missing units without loss of information. In this way, the purpose of this study is develop a new method of apportionment based on the methodology AMMI doing reamostragens bootstrap nonparametric in the array of means of genotype x environment interaction (GE). For the study of simulation was considered the data set concerning the origin of S. Mexico City - Mt Pandanus - QLD (14,420) of Eucalyptus grandis collected in Australia in 1983. It was performed two studies of simulation. The first performed 2000 resampling on the lines of the interaction matrix G X E, for two percentages of missing data (10% and 20%). The second simulation study considered 200 replicates in the missing data set (10 %) and three different models of IMAMMI-BNP: AMAMMI0-BNP, which considers only the main effects of the AMMI model; IAMMI1-BNP and IAMMI2-BNP which considers one and two axes multiplied by the AMMI model, respectively. In general, according to the comparison methods, the imputation method proposed in the two simulation studies provided imputed values similar to the originals. Considering the simulation studies with 10 % loss, the efficiency of the proposed imputation method was better when using the IAMMI2-BNP model (with two multiplicative axes). The Wilcoxon test of the orders showed that the values imputed had no influence on the mean estimate, indicating that mean values of the data imputed from each environment were statistically similar to the original mean values.
7

Ajuste de modelos e comparação de séries temporais para dados de vazão específica em microbacias pareadas / Fitting of models and comparison of time series for specific flow data in paired catchments

Marcus Vinicius Silva Gurgel do Amaral 15 July 2014 (has links)
A crescente preocupação com o meio ambiente pressiona a sociedade como um todo para a uma mudança rumo a hábitos mais sustentáveis. No setor produtivo, o impulso se dá pelo desenvolvimento de técnicas mais eficientes de produção, embasados em pesquisas e experimentos de campo. No setor florestal, além da preocupação com a técnicas de manejo e com o solo, o principal recurso a ser preservado é a água. Por meio do monitoramento de rios em bacias hidrográficas, séries históricas são coletadas, possibilitando o uso da teoria de séries temporais para ajuste de modelos pela metodologia Box e Jenkins. Em casos de monitoramentos de microbacias pareadas, existe a possibilidade de se comparar séries temporais, como descrito no presente trabalho. Em duas microbacias pareadas localizadas na região centro-leste do estado do Paraná, em uma fazenda no município de Telêmaco Borba, dados correspondendo a duas séries temporais distintas de vazão específica foram coletados. Devido a presença de falhas nos conjuntos de dados, uma metodologia para imputação foi utilizada de duas maneiras diferentes, possibilitando a posterior comparação das duas séries temporais pela metodologia de séries temporais. De acordo com os resultados, verifica-se que ambas as séries são diferentes tanto para o teste de comparação das funções de autocorrelação, quanto para o teste de comparação de séries temporais proposto por Silva, Ferreira e Sáfadi (2000). Portanto, segundo a caracterização dos estudos em microbacias pareadas, pode-se constatar que o manejo florestal empregado nos dois locais influenciam de forma diferente no comportamento da variável avaliada. / The growing concern for the enviroment presses society as a whole for a change towards sustainable habits. Regarding the production systems, more efficient production techniques based on research and field experiments are needed. As for forestry, besides the concern with management techniques and with soil preparation, the main resource to be preserved is water. Time series are collected by monitoring rivers in drainage basins, making possible the use of time series theory for fitting models based on Box and Jenkins methodology. When studying paired drainage basins, it is possible to compare time series, as described in this work. Two time series consisting of specific flow data were collected in a farm situated in the municipality of Telêmaco Borba, Eastern Paraná state, in two paired drainage basins. Because there were missing data, imputation techniques were used, making it possible to compare the two time series. Results showed that the time series are different for the comparison of the autocorrelation test and the time series comparison test proposed by Silva, Ferreira e Sáfadi (2000). Therefore, according to studies involving paired drainage basins, different forest management techniques influence differently the behavior of the response variable in the different drainage basins.
8

Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados

LOBATO, Fábio Manoel França 16 February 2016 (has links)
Submitted by camilla martins (camillasmmartins@gmail.com) on 2017-01-03T14:53:16Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_EstrategiasEvolucionariasOtimizacao.pdf: 5582868 bytes, checksum: 54c5dbfe417941cefd31b320a9aa99bb (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2017-01-10T16:57:42Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_EstrategiasEvolucionariasOtimizacao.pdf: 5582868 bytes, checksum: 54c5dbfe417941cefd31b320a9aa99bb (MD5) / Made available in DSpace on 2017-01-10T16:57:42Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_EstrategiasEvolucionariasOtimizacao.pdf: 5582868 bytes, checksum: 54c5dbfe417941cefd31b320a9aa99bb (MD5) Previous issue date: 2016-02-16 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A análise de dados envolve aquisição e organização de informação com o objetivo de se obter conhecimento a partir deles, propiciando avanços científicos nos mais variados campos, bem como provendo vantagens competitivas às corporações. Neste âmbito, um problema ubíquo na área merece destaque, os valores ausentes, pois a maior parte das técnicas de análise de dados não consegue lidar de forma satisfatória com dados incompletos, impactando negativamente o resultado final. Visando contornar os efeitos danosos desta problemática, diversos trabalhos vêm sendo desenvolvidos nas áreas de análise estatística e aprendizado de máquina, com destaque para o estudo de métodos de Imputação Múltipla de Dados (IMD), que consiste no preenchimento dos dados ausentes por valores plausíveis. Tal metodologia pode ser vista como um problema de otimização combinatória, onde buscam-se valores candidatos à imputação de forma a reduzir o viés imposto por esta problemática. Meta-heurísticas, em especial, métodos baseados em Computação Evolucionária (CE) têm sido aplicadas com sucesso em problemas de otimização combinatórios. Apesar dos recentes avanços na área, percebe-se algumas falhas na modelagem dos métodos de imputação baseados em CE existentes. Visando preencher tais lacunas encontradas na literatura, esta tese apresenta uma descrição da IMD como um problema de otimização combinatória e propõe métodos baseados em CE neste contexto. Além disso, em virtude das falhas encontradas na modelagem dos métodos recentemente propostos na literatura e da necessidade de se adotar diferentes medidas de desempenho para avaliar a eficiência dos métodos de imputação, também é proposto neste projeto de tese um algoritmo genético multiobjetivo para a imputação de dados no contexto de classificação de padrões. Este método mostra-se flexível quanto aos tipos de dados, além de evitar a análise de caso completo. Dado a flexibilidade da abordagem proposta, é possível ainda utilizá-lo em outros cenários como no aprendizado não supervisionado, classificação multirrótulo e em análise de séries temporais. / The data analysis process includes information acquisition and organization in order to obtain knowledge from them, bringing scientific advances in various fields, as well as providing competitive advantages to corporations. In this context, an ubiquitous problem in the area deserves attention, the missing data, since most of the data analysis techniques can not deal satisfactorily with this problem, which negatively impacts the final results. In order to avoid the harmful effects of missing data, several studies have been proposed in the areas of statistical analysis and machine learning, especially the study of Multiple Data Imputation, which consists in the missing data substitution by plausible values. This methodology can be seen as a combinatorial optimization problem, where the goal is to find candidate values to substitute the missing ones in order to reduce the bias imposed by this issue. Metaheuristics, in particular, methods based in evolutionary computing have been successfully applied in combinatorial optimization problems. Despite the recent advances in this area, it is perceived some shortcomings in the modeling of imputation methods based on evolutionary computing. Aiming to fill these gaps in the literature, this thesis presents a description of multiple data imputation as a combinatorial optimization problem and proposes imputation methods based on evolutionary computing. In addition, due to the limitations found in the methods presented in the recent literature, and the necessity of adoption of different evaluation measures to assess the imputation methods performance, a multi-objective genetic algorithm for data imputation in pattern classification context is also proposed. This method proves to be flexible regarding to data types and avoid the complete-case analysis. Because the flexibility of the proposed approach, it is also possible to use it in other scenarios such as the unsupervised learning, multi-label classification and time series analysis.
9

Imputação de dados faltantes via algoritmo EM e rede neural MLP com o método de estimativa de máxima verossimilhança para aumentar a acurácia das estimativas

Ribeiro, Elisalvo Alves 14 August 2015 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Database with missing values it is an occurrence often found in the real world, beiging of this problem caused by several reasons (equipment failure that transmits and stores the data, handler failure, failure who provides information, etc.). This may make the data inconsistent and unable to be analyzed, leading to very skewed conclusions. This dissertation aims to explore the use of Multilayer Perceptron Artificial Neural Network (ANN MLP), with new activation functions, considering two approaches (single imputation and multiple imputation). First, we propose the use of Maximum Likelihood Estimation Method (MLE) in each network neuron activation function, against the approach currently used, which is without the use of such a method or when is used only in the cost function (network output). It is then analyzed the results of these approaches compared with the Expectation Maximization algorithm (EM) is that the state of the art to treat missing data. The results indicate that when using the Artificial Neural Network MLP with Maximum Likelihood Estimation Method, both in all neurons and only in the output function, lead the an imputation with lower error. These experimental results, evaluated by metrics such as MAE (Mean Absolute Error) and RMSE (Root Mean Square Error), showed that the better results in most experiments occured when using the MLP RNA addressed in this dissertation to single imputation and multiple. / Base de dados com valores faltantes é uma ocorrência frequentemente encontrada no mundo real, sendo as causas deste problema são originadas por motivos diversos (falha no equipamento que transmite e armazena os dados, falha do manipulador, falha de quem fornece a informação, etc.). Tal situação pode tornar os dados inconsistentes e inaptos de serem analisados, conduzindo às conclusões muito enviesadas. Esta dissertação tem como objetivo explorar o emprego de Redes Neurais Artificiais Multilayer Perceptron (RNA MLP), com novas funções de ativação, considerando duas abordagens (imputação única e imputação múltipla). Primeiramente, é proposto o uso do Método de Estimativa de Máxima Verossimilhança (EMV) na função de ativação de cada neurônio da rede, em contrapartida à abordagem utilizada atualmente, que é sem o uso de tal método, ou quando o utiliza é apenas na função de custo (na saída da rede). Em seguida, são analisados os resultados destas abordagens em comparação com o algoritmo Expectation Maximization (EM) que é o estado da arte para tratar dados faltantes. Os resultados obtidos indicam que ao utilizar a Rede Neural Artificial MLP com o Método de Estimativa de Máxima Verossimilhança, tanto em todos os neurônios como apenas na função de saída, conduzem a uma imputação com menor erro. Os resultados experimentais foram avaliados via algumas métricas, sendo as principais o MAE (Mean Absolute Error) e RMSE (Root Mean Square Error), as quais apresentaram melhores resultados na maioria dos experimentos quando se utiliza a RNA MLP abordada neste trabalho para fazer imputação única e múltipla.

Page generated in 0.0735 seconds