• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 55
  • 1
  • Tagged with
  • 56
  • 44
  • 24
  • 22
  • 19
  • 17
  • 15
  • 11
  • 10
  • 10
  • 9
  • 9
  • 8
  • 8
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde / Multiple imputation of missing data: application in the Pro-Saude Program

Thaís de Paulo Rangel 05 March 2013 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto. / Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text.
12

Estratégias para tratamento de variáveis com dados faltantes durante o desenvolvimento de modelos preditivos / Strategies for treatment of variables with missing data during the development of predictive models

Fernando Assunção 09 May 2012 (has links)
Modelos preditivos têm sido cada vez mais utilizados pelo mercado a fim de auxiliarem as empresas na mitigação de riscos, expansão de carteiras, retenção de clientes, prevenção a fraudes, entre outros objetivos. Entretanto, durante o desenvolvimento destes modelos é comum existirem, dentre as variáveis preditivas, algumas que possuem dados não preenchidos (missings), sendo necessário assim adotar algum procedimento para tratamento destas variáveis. Dado este cenário, este estudo tem o objetivo de discutir metodologias de tratamento de dados faltantes em modelos preditivos, incentivando o uso de algumas delas já conhecidas pelo meio acadêmico, só que não utilizadas pelo mercado. Para isso, este trabalho descreve sete metodologias. Todas elas foram submetidas a uma aplicação empírica utilizando uma base de dados referente ao desenvolvimento de um modelo de Credit Score. Sobre esta base foram desenvolvidos sete modelos (um para cada metodologia descrita) e seus resultados foram avaliados e comparados através de índices de desempenho amplamente utilizados pelo mercado (KS, Gini, ROC e Curva de Aprovação). Nesta aplicação, as técnicas que apresentaram melhor desempenho foram a que tratam os dados faltantes como uma categoria à parte (técnica já utilizada pelo mercado) e a metodologia que consiste em agrupar os dados faltantes na categoria conceitualmente mais semelhante. Já a que apresentou o pior desempenho foi a metodologia que simplesmente não utiliza a variável com dados faltantes, outro procedimento comumente visto no mercado. / Predictive models have been increasingly used by the market in order to assist companies in risk mitigation, portfolio growth, customer retention, fraud prevention, among others. During the model development, however, it is usual to have, among the predictive variables, some who have data not filled in (missing values), thus it is necessary to adopt a procedure to treat these variables. Given this scenario, the aim of this study is to discuss frameworks to deal with missing data in predictive models, encouraging the use of some already known by academia that are still not used by the market. This paper describes seven methods, which were submitted to an empirical application using a Credit Score data set. Each framework described resulted in a predictive model developed and the results were evaluated and compared through a series of widely used performance metrics (KS, Gini, ROC curve, Approval curve). In this application, the frameworks that presented better performance were the ones that treated missing data as a separate category (technique already used by the market) and the framework which consists of grouping the missing data in the category most similar conceptually. The worst performance framework otherwise was the one that simply ignored the variable containing missing values, another procedure commonly used by the market.
13

Comparação das águas dos rios Jaguari e Atibaia na região de lançamento de efluente de indústria petroquímica / Comparision of the water from rivers Jaguari and Atibaia at the region of wastewater release by a petrochemical industry

Oliveira, Eduardo Schneider Bueno de [UNESP] 03 February 2016 (has links)
Submitted by EDUARDO SCHNEIDER BUENO DE OLIVEIRA null (eduardosbdeoliveira@hotmail.com) on 2016-04-14T17:34:57Z No. of bitstreams: 1 Dissertação Final - Eduardo Schneider.pdf: 4265629 bytes, checksum: 4e5da4135aad7da51adb68c347b376b1 (MD5) / Approved for entry into archive by Felipe Augusto Arakaki (arakaki@reitoria.unesp.br) on 2016-04-18T13:08:57Z (GMT) No. of bitstreams: 1 oliveira_esb_me_bot.pdf: 4265629 bytes, checksum: 4e5da4135aad7da51adb68c347b376b1 (MD5) / Made available in DSpace on 2016-04-18T13:08:57Z (GMT). No. of bitstreams: 1 oliveira_esb_me_bot.pdf: 4265629 bytes, checksum: 4e5da4135aad7da51adb68c347b376b1 (MD5) Previous issue date: 2016-02-03 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / A ação antrópica na natureza é algo muito constante ao longo de toda a história, mas cada vez mais notam-se os efeitos negativos que por vezes ela pode trazer. Verificar esses efeitos, suas implicações, e aquilo que pode ser feito para evitar maiores problemas é de suma importância para a manutenção de nosso planeta em boas condições e consequentemente para a qualidade de vida do ser humano. O presente estudo realiza uma an álise da qualidade da água dos Rios Jaguari e Atibaia, entre os quais há o despejo de resíduos de uma indústria, além da qualidade da água após o processo de utilização pela indústria, antes de sua devolução ao rio. Com isso, pode-se verificar a qualidade do tratamento de resíduo de tal indústria e analisar possíveis efeitos que possa haver na qualidade da água após o despejo dos resíduos no rio. Para isso, com base em dados sobre características físicas, químicas e microbiológicas da água, são utilizadas técnicas estatísticas adequadas para realizar a análise necessária ao intuito anteriormente exposto. Como os dados possuem dependência entre si, é necessário que sejam utilizados métodos que permitam tal ocorrência, como o Bootstrap em Blocos não param étrico (Künsch, 1989; Politis & Romano, 1994). Também há a realização de imputação múltipla de dados, uma vez que há diversos meses do estudo com dados ausentes, através da técnica de Imputação de Dados Livre de Distribuição (Bergamo, 2007; Bergamo et al., 2008). / The anthropic action in nature is a constant factor along the history, but each day the negative effects that it brings can be increasingly seen. Check these effects, its implications and what can be done in order to avoid bigger problems has a great importance to the manteinance of our planet in good conditions and, consequently, to the human being life quality. This study performs an analysis of the water quality of the Jaguari and Atibaia rivers, among which happens the dumping of residuals from a petrochemical industry, as well as of the quality of the water after its utilization process by the industry, before its devolution to the river. Thus, it is possible to verify this industry’s residual treatment quality and to analyze possible effects to the water quality after the residual dumping at the river. For this, based on data about fisical, chemical and microbiological characteristics of the water, appropriate statistical techniques are used, aiming to do the necessary analysis to fullfill the exposed intention. Because of the existence of dependency, methods that allow this ocurrence shall be used, such as the non parametric Blocks Bootstrap (K¨unsch, 1989; Politis & Romano, 1994). There is also the realization of multiple imputation, using the technique of the Distribution-free Multiple Imputation (Bergamo, 2007; Bergamo et al., 2008), once for some months there are missing data.
14

Imputação de alelos microssatélites a partir de haplótiposSNP para verificação de paternidade na raça Nelore / Imputation of microsatellite alleles from SNP haplotypes for parental verification in Nellore cattle

Milla Albuquerque de Souza 31 January 2013 (has links)
As técnicas de marcadores moleculares têm sido aplicadas em estudos populacionais das espécies bovinas, verificação de genealogia e teste de paternidade. Dentre os marcadores moleculares, os microssatélites (MS) são amplamente utilizados, porém, alguns problemas técnicos têm motivado o desenvolvimento de alternativas, como os marcadores do tipo polimorfismo de nucleotídeos único (SNP). Assim, surgiu a necessidade de identificar haplótipos SNP que estão em concordância com cada alelo MS e então os genótipos MS poderiam ser convertidos em genótipos SNP e vice-versa, por meio da imputação do genótipo. O objetivo deste trabalho foi aplicar um método para imputar alelos MS a partir de haplótipos SNP, para verificação de paternidade, utilizando animais da raça Nelore e também identificar um menor conjunto de SNP, com qualidade suficiente para otimizar e diminuir o custo da genotipagem. Foram realizadas genotipagens em SNP e MS para 99 trios de animais da raça Nelore provenientes da EMBRAPA Pecuária Sudeste e foi verificada a existência de alelos nulos pelo programa MICRO-CHECKER. Foram selecionados SNP que estivessem próximos de cada marcador MS e o programa BEAGLE foi usado para identificar a fase de ligação dos genótipos. Posteriormente, foi realizada a técnica de imputação dos MS a partir de haplótipos SNP e foi verificada a paternidade pelo programa CERVUS. A precisão da imputação dos alelos MS foi verificada através do cálculo da concordância entre os alelos MS imputados e relatados. O marcador SPS115 foi removido da análise por evidências de alelos nulos, devido ao excesso de homozigotos observados. O marcador mais informativo foi o TGLA122, cujo conteúdo de informação polimórfica (PIC) foi 0,8. Foram encontrados desvios do equilíbrio de HW (P<0,05) para os locos ETH225 e TGLA57. Um maior conjunto de SNP foi necessário para imputação de alelos MS para o marcador BM1824. As taxas de verificação de parentesco foram de 97,1% para os alelos MS genotipados e 96,3% para os MS imputados. Somente 4% dos 99 filhos não tiveram a paternidade atribuída, quando a simulação foi feita apenas para o pai conhecido e 1% quando pai e mãe eram conhecidos. Esta técnica obteve precisão maior que 96% para a imputação de dados MS e permitiu imputar dados genotípicos multialélicos a partir de bi-alélicos. Os resultados terão um impacto imediato para os pesquisadores e associações de criadores que visam a transição do MS para SNP baseada em verificação de parentesco. / Molecular markers techniques have been applied in bovine population studies, genealogy verification and paternity test. Among the molecular markers, microsatellites (MS) are widely used, however, some technical problems have motivated alternatives development, as markers type single nucleotide polymorphism (SNP). Thus, the need to identify SNP haplotypes which are in agreement with each MS allele and then MS genotypes could be converted into SNP genotypes and vice versa, through genotype imputation. The objective of this study was to apply a method to impute MS alleles from SNP haplotypes to verify paternity, using Nellore and also identify a smaller set of SNP, with enough quality to optimize and reduce genotype cost. SNP genotyping was performed at and for 99 MS trios Nellore from EMBRAPA Cattle Southeast and was checked for null alleles by MICROCHECKER. SNP were selected that were near each MS marker and the program BEAGLE was used to identify genotypes phase. Subsequently, were applied the MS imputation technique from SNP haplotype and paternity was verified by CERVUS. The accuracy of MS alleles imputation was verified by calculating the correlation between MS alleles imputed and reported. The SPS115 marker was removed from the analysis for null alleles evidence due to homozygote excess observed. The most informative marker was TGLA122 with 0.8 PIC. Deviations from equilibrium HW (P<0.05) were found for the loci ETH225 and TGLA57. A larger set of SNP was necessary to impute MS alleles for the marker BM1824. The verification rates of paternity were 97.1% for genotyped MS alleles and 96.3% for MS imputed. Using imputed MS alleles and when only the sire was considered only 4% of the 99 offspring were not assigned paternity and 1% when both parents were known. The technique achieved greater than 96% accuracy for MS imputation data. This research allow to impute multi-allelic genotypes from bi-allelic data. Our results will have an immediate impact for researchers and livestock associations aiming the transition from MS- to SNP-based parentage verification.
15

Modelo oculto de Markov para imputação de genótipos de marcadores moleculares: Uma aplicação no mapeamento de QTL utilizando a abordagem bayesiana / Hidden Markov model for imputation of genotypes of molecular markers: An application in QTL mapping using Bayesian approach

Elias Silva de Medeiros 28 August 2014 (has links)
Muitas são as características quantitativas que são, significativamente, influenciadas por fatores genéticos, em geral, existem vários genes que colaboram para a variação de uma ou mais características quantitativas. As informações ausentes a respeito dos genótipos nos marcadores moleculares é um problema comum em estudo de mapeamento genético e, por conseguinte, no mapeamento dos locus que controlam estas características fenotípicas (QTL). Os dados que não foram observados ocorrem, principalmente, devido a erros de genotipagem e de marcadores não informativos. Para solucionar este problema foi utilizado o método do modelo oculto de Markov para inferir estes dados. Os métodos de acurácias evidenciaram o sucesso da aplicação desta técnica de imputa- ção. Uma vez imputado, na inferência bayesiana estes dados não serão mais tratados como uma variável aleatória resultando assim, numa redução no espaço paramétrico do modelo. Outra grande dificuldade no mapeamento de QTL se deve ao fato de que não se conhece ao certo a quantidade destes que influenciam uma dada característica, fazendo com que surjam diversos problemas, um deles é a dimensão do espaço paramétrico e, consequentemente, a obtenção da amostra a posteriori. Assim, com o objetivo de contornar este problema foi proposta a utilização do método Monte Carlo via cadeia de Markov com Saltos Reversíveis, uma vez que este permite flutuar, entre cada iteração, modelos com diferentes quantidades de parâmetros. A utilização da abordagem bayesiana permitiu detectar cinco QTL para a característica estudada. Todas as análises foram implementadas no programa estatístico R. / There are many quantitative characteristics which are significantly influenced by genetic factors, in general, there are several genes that contribute to the variation of one or more quantitative trait. The missing information about the genotypes in molecular markers is a common problem in studying genetic mapping and therefore the mapping of loci that control these phenotypic traits (QTL). The data were not observed occur mainly due to errors in genotyping and uninformative markers. To solve this problem the method of occult Markov model to infer this information was used. Techniques accuracies demonstrated the successful application of this technique of imputation. Once allocated, in the Bayesian inference this data will no longer be treated as a random variable thus resulting in a reduction in the parameter space of the model. Another great difficulty in mapping QTL is due to the fact that no one knows exactly the amount of these which influence a given characteristic, so that several problems arise, one of them is dimension of the parameter space and, consequently, obtaining the sample a posterior. Thus, in order to solve this problem using the method via Monte Carlo Markov chain Reversible Jump was proposed, since this allows fluctuate between each iteration, models with different numbers of parameters. The use of the Bayesian approach allowed five QTL detected for the studied trait. All analyzes were implemented in the statistical software R.
16

Estratégias de imputação e associação genômica com dados de sequenciamento para características de produção de leite na raça Gir / Imputation strategies and genome-wide association with sequence data for milk production traits in Gyr cattle

Nascimento, Guilherme Batista do [UNESP] 22 February 2018 (has links)
Submitted by Guilherme Batista do Nascimento null (guilhermebn@msn.com) on 2018-03-16T12:24:54Z No. of bitstreams: 1 Tese_Guilherme_Batista_do_Nascimento.pdf: 1770231 bytes, checksum: ad03948ecc7b09b89d46d26b7c9e3bf8 (MD5) / Approved for entry into archive by Alexandra Maria Donadon Lusser Segali null (alexmar@fcav.unesp.br) on 2018-03-16T19:03:02Z (GMT) No. of bitstreams: 1 nascimento_gb_dr_jabo.pdf: 1770231 bytes, checksum: ad03948ecc7b09b89d46d26b7c9e3bf8 (MD5) / Made available in DSpace on 2018-03-16T19:03:02Z (GMT). No. of bitstreams: 1 nascimento_gb_dr_jabo.pdf: 1770231 bytes, checksum: ad03948ecc7b09b89d46d26b7c9e3bf8 (MD5) Previous issue date: 2018-02-22 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / A implementação de dados de sequenciamento de nova geração - “next-generation sequence” (NGS) em programas de melhoramento genético animal representa a mais recente ferramenta na utilização de dados genotípicos nos modelos de associação genômica, tendo em vista que todo polimorfismo é considerado nas associações entre registros fenotípicos e dados de sequenciamento. Como em toda nova tecnologia, a prospecção das variantes ainda representa um desafio no sentido computacional e de viabilidade dos custos para sua implementação em larga escala. Diante desses desafios, neste trabalho buscou-se meios de explorar os benefícios na utilização da NGS nas predições genômicas e superar as limitações inerentes a esse processo. Registros fenotípicos e genotípicos (Illumina Bovine HD BeadChip) de 2.279 animais da raça Gir (Bos taurus indicus) foram disponibilizados pela Embrapa Gado de Leite (MG) e utilizados para as análises de associação genômica. Além disso, dados de sequenciamento de 53 animais do 1000 “Bulls Project” deram origem à população de referência de imputação. Visando verificar a eficiência de imputação, foram testados diferentes cenários quanto a sua acurácia de imputação por meio da análise “leave-one-out”, utilizando apenas os dados de sequenciamento, que apresentaram eficiências de até 84%, no cenário com todos os 51 animais disponíveis após o controle de qualidade. Também foram verificadas as influências das variantes em baixa frequência na acurácia de imputação em diferentes regiões do genoma. Com a escolha da melhor estrutura da população de referência de imputação e aplicação dos controles de qualidade nos dados de NGS e genômicos, foi possível imputar os 2.237 animais genotipados, que passaram pelo controle de qualidade para dados de sequenciamento e realizar análise de associação genômica para as características produção de leite (PL305), teor de gordura (PG305), proteína (PP305) e sólidos totais (PS305), mensuradas aos 305 dias em animais da raça Gir leiteiro. Para tal, foram utilizados os valores genéticos desregredidos (dEBV) como variável resposta no modelo de regressão múltipla. Regiões de 1Mb que contivessem 100 ou mais variantes com “False Discovery Rate” (FDR) inferior a 0,05, foram consideradas significativas e submetidas a análise de enriquecimento por meio dos termos MeSh (“Medical Subject Headings”). As três regiões significativas (FDR<0,05) para PS305 foram observadas nos cromossomos 11, 12 e 28 e a única região significativa em PG305 foi no cromossomo 6. Tais regiões apresentaram variantes associadas com vias metabólicas da produção de leite, ausentes nos painéis comerciais de genotipagem, podendo representar genes candidatos a seleção. / - Implementing "next-generation sequence" (NGS) data in animal breeding programs represents the latest tool in the use of genotypic data in genomic association models, since all polymorphisms are considered in the associations between phenotypic records and sequencing data. As with any new technology, variant prospecting still represents a computational and cost-effective challenge for large-scale implementation. Front to these challenges, this work sought ways to explore the benefits of using NGS in genomic predictions and overcome the inherent limitations of this process. Phenotypic and genotypic (Illumina Bovine HD BeadChip) records of 2,279 Gir animals (Bos taurus indicus) were made available by Embrapa Gado de Leite (MG) and used for genomic association analysis. In addition, sequence data of 53 animals from the 1000 Bulls Project gave rise to the imputation reference population. In order to verify the imputation efficiency, different scenarios were tested for their imputation accuracy through the leave-one-out analysis, using only the sequencing data, which presented efficiencies of up to 84%, in the scenario with all the 51 animals available after quality control. Influences from the low-frequency variants on the accuracy of imputation in different regions of the genome were also verified. After identifying the best reference population structure of imputation and applying the quality controls in the NGS and genomic data, it was possible to impute the 2 237 genotyped animals that passed in the quality control to sequencing data and perform genomic association analysis for (PL305), fat content (PG305), protein (PP305) and total solids (PS305), measured at 305 days in dairy Gir animals. For this, unregulated genetic values (dEBV) were used as response variable in the multiple regression model. Regions of 1Mb containing 100 or more variants with a False Discovery Rate (FDR) lower than 0.05 were considered statistically significant and submitted to pathways enrichment analysis using the MeSh (Medical Subject Headings) terms. The three significant regions (FDR <0.05) for PS305 were observed on chromosomes 11, 12 and 28 and only one significant region in PG305, was on chromosome 6. These regions presented variants associated with metabolic pathways of milk production, absent in the panels genotyping, and may represent genes that are candidates for selection / convênio Capes/Embrapa (edital 15/2014)
17

Comparação das águas dos rios Jaguari e Atibaia na região de lançamento de efluente de indústria petroquímica

Oliveira, Eduardo Schneider Bueno de January 2016 (has links)
Orientador: Antonio Carlos Simões Pião / Resumo: A ação antrópica na natureza é algo muito constante ao longo de todaa história, mas cada vez mais notam-se os efeitos negativos que por vezes ela podetrazer. Verificar esses efeitos, suas implicações, e aquilo que pode ser feito para evitarmaiores problemas é de suma importância para a manutenção de nosso planetaem boas condições e consequentemente para a qualidade de vida do ser humano.O presente estudo realiza uma an álise da qualidade da água dos Rios Jaguari eAtibaia, entre os quais há o despejo de resíduos de uma indústria, além da qualidadeda água após o processo de utilização pela indústria, antes de sua devolução ao rio.Com isso, pode-se verificar a qualidade do tratamento de resíduo de tal indústria eanalisar possíveis efeitos que possa haver na qualidade da água após o despejo dosresíduos no rio. Para isso, com base em dados sobre características físicas, químicas emicrobiológicas da água, são utilizadas técnicas estatísticas adequadas para realizara análise necessária ao intuito anteriormente exposto. Como os dados possuemdependência entre si, é necessário que sejam utilizados métodos que permitam talocorrência, como o Bootstrap em Blocos não param étrico (Künsch, 1989; Politis& Romano, 1994). Também há a realização de imputação múltipla de dados,uma vez que há diversos meses do estudo com dados ausentes, através da técnicade Imputação de Dados Livre de Distribuição (Bergamo, 2007; Bergamo et al., 2008). / Abstract: The anthropic action in nature is a constant factor along the history, but each day the negative effects that it brings can be increasingly seen. Check these effects, its implications and what can be done in order to avoid bigger problems has a great importance to the manteinance of our planet in good conditions and, consequently, to the human being life quality. This study performs an analysis of the water quality of the Jaguari and Atibaia rivers, among which happens the dumping of residuals from a petrochemical industry, as well as of the quality of the water after its utilization process by the industry, before its devolution to the river. Thus, it is possible to verify this industry’s residual treatment quality and to analyze possible effects to the water quality after the residual dumping at the river. For this, based on data about fisical, chemical and microbiological characteristics of the water, appropriate statistical techniques are used, aiming to do the necessary analysis to fullfill the exposed intention. Because of the existence of dependency, methods that allow this ocurrence shall be used, such as the non parametric Blocks Bootstrap (K¨unsch, 1989; Politis & Romano, 1994). There is also the realization of multiple imputation, using the technique of the Distribution-free Multiple Imputation (Bergamo, 2007; Bergamo et al., 2008), once for some months there are missing data. / Mestre
18

Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde / Multiple imputation of missing data: application in the Pro-Saude Program

Thaís de Paulo Rangel 05 March 2013 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto. / Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text.
19

Substituição de valores ausentes: uma abordagem baseada em um algoritmo evolutivo para agrupamento de dados / Missing value substitution: an approach based on evolutionary algorithm for clustering data

Jonathan de Andrade Silva 29 April 2010 (has links)
A substituição de valores ausentes, também conhecida como imputação, é uma importante tarefa para a preparação dos dados em aplicações de mineração de dados. Este trabalho propõe e avalia um algoritmo para substituição de valores ausentes baseado em um algoritmo evolutivo para agrupamento de dados. Este algoritmo baseia-se na suposição de que grupos (previamente desconhecidos) de dados podem prover informações úteis para o processo de imputação. Para avaliar experimentalmente o algoritmo proposto, simulações de valores ausentes foram realizadas em seis bases de dados, para problemas de classificação, com a aplicação de dois mecanismos amplamente usados em experimentos controlados: MCAR e MAR. Os algoritmos de imputação têm sido tradicionalmente avaliados por algumas medidas de capacidade de predição. Entretanto, essas tradicionais medidas de avaliação não estimam a influência dos métodos de imputação na etapa final em tarefas de modelagem (e.g., em classificação). Este trabalho descreve resultados experimentais obtidos sob a perspectiva de predição e inserção de tendências (viés) em problemas de classificação. Os resultados de diferentes cenários nos quais o algoritmo proposto, apresenta em geral, desempenho semelhante a outros seis algoritmos de imputação reportados na literatura. Finalmente, as análises estatísticas reportadas sugerem que melhores resultados de predição não implicam necessariamente em menor viés na classificação / The substitution of missing values, also called imputation, is an important data preparation task for data mining applications. This work proposes and evaluates an algorithm for missing values imputation that is based on an evolutionary algorithm for clustering. This algorithm is based on the assumption that clusters of (partially unknown) data can provide useful information for the imputation process. In order to experimentally assess the proposed method, simulations of missing values were performed on six classification datasets, with two missingness mechanisms widely used in practice: MCAR and MAR. Imputation algorithms have been traditionally assessed by some measures of prediction capability. However, this traditionall approach does not allow inferring the influence of imputed values in the ultimate modeling tasks (e.g., in classification). This work describes the experimental results obtained from the prediction and insertion bias perspectives in classification problems. The results illustrate different scenarios in which the proposed algorithm performs similarly to other six imputation algorithms reported in the literature. Finally, statistical analyses suggest that best prediction results do not necessarily imply in less classification bias
20

Critério objetivo de imputação da reparação dos danos decorrentes de violação da boa-fé processual: responsabilidade objetiva do litigante de má-fé no Código de Processo Civil de 2015

Campos, Paulo Cerqueira January 2016 (has links)
Submitted by Fernanda Weschenfelder (fernanda.weschenfelder@uniceub.br) on 2018-06-01T19:06:32Z No. of bitstreams: 1 61350194.pdf: 1081996 bytes, checksum: cbb640a5ebaddf75c50bdcde5ce0b24f (MD5) / Approved for entry into archive by Fernanda Weschenfelder (fernanda.weschenfelder@uniceub.br) on 2018-06-01T19:06:40Z (GMT) No. of bitstreams: 1 61350194.pdf: 1081996 bytes, checksum: cbb640a5ebaddf75c50bdcde5ce0b24f (MD5) / Made available in DSpace on 2018-06-01T19:06:40Z (GMT). No. of bitstreams: 1 61350194.pdf: 1081996 bytes, checksum: cbb640a5ebaddf75c50bdcde5ce0b24f (MD5) Previous issue date: 2016 / O objetivo desta dissertação é o aprofundamento do estudo da responsabilidade por dano processual, trazendo este tema à luz do debate. A escolha do tema deve-se a razões advindas do exercício da judicatura, ante a observação empírica da proliferação de casos práticos de litigância de má-fé. O tema é relevante porque a responsabilidade por dano processual constitui importante mecanismo jurídico de combate à litigância de má-fé, funcionando como instrumento da efetividade da prestação jurisdicional e da razoável duração do processo. O problema que aqui se coloca é saber qual é o critério legal de imputação da responsabilidade por dano processual. A hipótese a ser demonstrada é que o critério de imputação da responsabilidade por dano processual é objetivo, isto é, não corresponde à culpa nem ao dolo, porque estes requisitos subjetivos não foram previstos pelo Código de Processo Civil de 2015. A má-fé processual é o fator objetivo de atribuição da obrigação de reparação do dano processual.

Page generated in 0.0317 seconds