• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 296
  • 107
  • 49
  • 38
  • 23
  • 20
  • 20
  • 18
  • 9
  • 8
  • 7
  • 6
  • 5
  • 4
  • 4
  • Tagged with
  • 687
  • 151
  • 84
  • 77
  • 71
  • 66
  • 54
  • 54
  • 49
  • 48
  • 45
  • 43
  • 42
  • 42
  • 40
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
101

The wild bootstrap resampling in regression imputation algorithm with a Gaussian Mixture Model

Mat Jasin, A., Neagu, Daniel, Csenki, Attila 08 July 2018 (has links)
Yes / Unsupervised learning of finite Gaussian mixture model (FGMM) is used to learn the distribution of population data. This paper proposes the use of the wild bootstrapping to create the variability of the imputed data in single miss-ing data imputation. We compare the performance and accuracy of the proposed method in single imputation and multiple imputation from the R-package Amelia II using RMSE, R-squared, MAE and MAPE. The proposed method shows better performance when compared with the multiple imputation (MI) which is indeed known as the golden method of missing data imputation techniques.
102

Polluted U-Bootstrap Percolation

GHOSH, AMARTYA January 2022 (has links)
No description available.
103

Inference on Logistic Regression Models

Rashid, Mamunur 25 July 2008 (has links)
No description available.
104

Testing for Structural Change: Evaluation of the Current Methodologies, a Misspecification Testing Perspective and Applications

Koutris, Andreas 26 April 2006 (has links)
The unit root revolution in time series modeling has created substantial interest in non- stationarity and its implications for empirical modeling. Beyond the original interest in trend vs. di¤erence non-stationarity, there has been renewed interest in testing and modeling structural breaks. The focus of my dissertation is on testing for departures from stationarity in a broader framework where unit root, mean trends and structural break non-stationarity constitute only a small subset of the possible forms of non-stationarity. In the fi¦rst chapter the most popular testing procedures for the assumption, in view of the fact that general forms of non-stationarity render each observation unique, I develop a testing procedure using a resampling scheme which is based on a Maximum Entropy replication algorithm. The proposed misspecification testing procedure relies on resampling techniques to enhance the informational content of the observed data in an attempt to capture heterogeneity 'locally' using rolling window estimators of the primary moments of the stochastic process. This provides an e¤ective way to enhance the sample information in order to assess the presence of departures from stationarity. Depending on the sample size, the method utilizes overlapping or non-overlapping window estimates. The e¤ectiveness of the testing procedure is assessed using extensive Monte Carlo simulations. The use of rolling non-overlapping windows improves the method by improving both the size and power of the test. In particular, the new test has empirical size very close to the nominal and very high power for a variety of departures from stationarity. The proposed procedure is then applied on seven macroeconomic series in the fourth chapter. Finally, the optimal choice of orthogonal polynomials, for hypothesis testing, is investigated in the last chapter. / Ph. D.
105

Monte Carlo Experiments on Maximum entropy Constructive Ensembles for Time Series Analysis and Inference

Ames, Allison Jennifer 29 June 2005 (has links)
In econometric analysis, the traditional bootstrap and related methods often require the assumption of stationarity. This assumption says that the distribution function of the process remains unchanged when shifted in time by an arbitrary value, imposing perfect time-homogeneity. In terms of the joint distribution, stationarity implies that the date of the first time index is not relevant. There are many problems with this assumption however for time series data. With time series, the order in which random realizations occur is crucial. This is why theorists work with stochastic processes, with two implicit arguments, w and t, where w represents the sample space and t represents the order. The question becomes, is there a bootstrap procedure that can preserve the ordering without assuming stationarity? The new method for maximum entropy ensembles proposed by Dr. H. D. Vinod might satisfy the Ergodic and Kolmogorov theorems, without assuming stationarity. / Master of Science
106

Parametrização de Sistemas de Equações Diferenciais Ordinárias no crescimento de bovinos de corte e produção de gases / Parameterization of Ordinary Differential Equations Systems in the growth of beef cattle and production of gases

Biase, Adriele Giaretta 05 February 2016 (has links)
Parametrizações de modelos e estruturas de correlações dos parâmetros no âmbito agropecuário são importantes por caracterizarem o comportamento de um sistema em resposta a variações de múltiplos cenários (clima, genótipos, dietas nutricionais, dentre outros fatores) que existem em escalas globais. O objetivo foi contribuir com inferências estatísticas na produção de gases CO2 [um potente Gás de Efeito Estufa (GEE)] nas fermentações in vitro de feno de alfafa, comparando métodos frequentistas com novas metodologias surgidas na literatura científica como a combinação dos métodos de Rejeição por Atraso e o Metropólis Adaptativo (RAMA), até então não testados para predições de gases de fermentação in vitro. Além disso, modelos de séries temporais foram usados para previsão da produção de CO2 nas fermentações de gases in vitro de feno de alfafa. Dentro do contexto de crescimento de gado de corte, foi realizada pela primeira vez uma abordagem para predições individuais dos animais para taxa de ganho de peso e a necessidade de energia para mantença baseada na dinâmica de crescimento e composição química corporal do Modelo de Crescimento de Davis (MCD), com comparação de análise de covariância multivariada entre diferentes cenários (gêneros, sistemas e genótipo cruzados), em um experimento a campo no Brasil. Adicionalmente calibrações dos parâmetros baseadas na amostra de cada cenário, pelos ajustes do MCD e usando análise frequentista, bootstrap não-paramétrico e simulações Monte Carlo foram realizadas com os dados nacionais (raça cruzada) e comparada com as estimativas originais do modelo obtido com raças Britânicas (Bos taurus). Os principais critérios adotados para avaliar os ajustes dos modelos foram o Erro Quadrático Médio de Predição (EQMP), o Critério de Informação Akaike (AIC) e o Critério de Informação Bayesiano (BIC). Os resultados não só contribuirão para o avanço da literatura existente, mas também auxiliarão a indústria de carne bovina e produtores rurais a encontrar especificações do mercado de carne, tanto a nível nacional e internacional. Concluiu-se que i) na produção de gases: o modelo ARIMA (1, 1, 2) ajustou a produção acumulativa de CO2, atingindo o valor máximo de 1,1066 (mL) no tempo de 47,5 h e a equação é indicada para estimar a produção de gases; ii) no crescimento de gados de corte usando as estimativas individuais do MCD, os vetores de efeitos de energia de mantença e o acréscimo de proteína possuem efeitos pronunciados quanto as interações entre sistemas e gêneros; iii) no crescimento de gados de corte usando as estimativas da amostra total com MCD, os genótipos cruzados tiveram maior gasto de energia de mantença e foram mais rápidos de maturação em comparação tanto com os animais de genótipos Britânicos (Bos taurus) e touros Nelores. A técnica de bootstrap não-paramétrica estimou com sucesso as distribuições dos parâmetros (que tiveram distribuição probabilidade normal para maioria dos cenários). Correlação negativa entre os parâmetros de acréscimo de DNA e energia de mantença foram encontrados para animais machos não castrados do sistema extensivo, indicando que foram mais eficientes no uso da energia. A generalização de tal relação ainda demanda estudos mais abrangentes e aprofundados. / Model parameter fitting and parameter correlation structures are important for characterize a system\'s behaviour in response to multiple scenarios variations (climate, genotypes, nutritional diet and other factors). The aim was to contribute to statistical inferences in the production of CO2 [a potent greenhouse gas (GHG)] in vitro fermentation of alfalfa hay, comparing frequentist methods with new methodologies that emerged in the scientific literature, such as the combination of a delay Rejection and the Adaptive Metropolis methods (RAMA), not yet tested for in vitro fermentation gases predictions. In addition, time series models were used to predict CO2 production in the in vitro fermentation of alfalfa hay. For the first time, individual predictions of animal weight gain rate and energy of maintenance based on the growth dynamics and body composition Davis Growth Model (DGM) was carried out besides multivariate covariance analysis of different scenarios (genres, systems and crossed genotype). Additionally, parameter estimation based on sample of each scenario, using frequentist analysis, nonparametric bootstrap and Monte Carlo simulations were performed with national data (cross breed) and compared to the original estimates of the model obtained with British breeds (Bos taurus). The main criteria used to evaluate the model accuracy were the Mean Square Error of Prediction (MSEP), the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC). The results not only contribute to the scientific progress in modeling animal growth and composition, but also assist the beef industry and farmers to adjust the production process to the meat market specifications, both nationally and internationally. For in vitro gas production, we concluded that the ARIMA (1, 1, 2) model presented the highest accuracy in predicting cumulative CO2 production and the respective equation is recommended for estimating CO2 production. In the growth beef cattle using the individual estimates DGM, average vectors from maintenance of energy and protein accretion showed pronounced effects as the interactions between systems and genres. Also the total sample with DGM, cross-breed genotypes had higher maintenance energy expenditure and were faster-maturing compared with British genotypes animals(Bos taurus) and Nellore bulls estimates. Bootstrap nonparametric with downhill simplex optimization method successfully estimated the distributions of the parameters (that had normal probability distribution for most scenarios). Uncastrated male animals of the extensive system showed negative correlation between the protein deposition rate and requirement for energy maintenance, indicating that animals with faster lean tissue deposition were also more efficient in energy usage. We warn that the generalization of this finding demands studies with larger populations.
107

Análise do número de grupos em bases de dados incompletas utilizando agrupamentos nebulosos e reamostragem Bootstrap / Analysis the number of clusters present in incomplete datasets using a combination of the fuzzy clustering and resampling bootstrapping

Milagre, Selma Terezinha 18 July 2008 (has links)
A técnica de agrupamento de dados é amplamente utilizada em análise exploratória, a qual é frequentemente necessária em diversas áreas de pesquisa tais como medicina, biologia e estatística, para avaliar potenciais hipóteses a serem utilizadas em estudos subseqüentes. Em bases de dados reais, a ocorrência de dados incompletos, nos quais os valores de um ou mais atributos do dado são desconhecidos, é bastante comum. Este trabalho apresenta um método capaz de identificar o número de grupos presentes em bases de dados incompletas, utilizando a combinação das técnicas de agrupamentos nebulosos e reamostragem bootstrap. A qualidade da classificação é baseada em medidas de comparação tradicionais como F1, Classificação Cruzada, Hubert e outras. Os estudos foram feitos em oito bases de dados. As quatro primeiras são bases de dados artificiais, a quinta e a sexta são a wine e íris. A sétima e oitava bases são formadas por uma coleção brasileira de 119 estirpes de Bradyrhizobium. Para avaliar toda informação sem introduzir estimativas, fez-se a modificação do algoritmo Fuzzy C-Means (FCM) utilizando-se um vetor de índices de atributos, os quais indicam onde o valor de um atributo é observado ou não, modificando-se ento, os cálculos do centro e distância ao centro. As simulações foram feitas de 2 até 8 grupos utilizando-se 100 sub-amostras. Os percentuais de valores faltando utilizados foram 2%, 5%, 10%, 20% e 30%. Os resultados deste trabalho demonstraram que nosso método é capaz de identificar participações relevantes, até em presença de altos índices de dados incompletos, sem a necessidade de se fazer nenhuma suposição sobre a base de dados. As medidas Hubert e índice randômico ajustado encontraram os melhores resultados experimentais. / Clustering in exploratory data analysis is often necessary in several areas of the survey such as medicine, biology and statistics, to evaluate potential hypotheses for subsequent studies. In real datasets the occurrence of incompleteness, where the values of some of the attributes are unknown, is very common. This work presents a method capable to identifying the number of clusters present in incomplete datasets, using a combination of the fuzzy clustering and resampling (bootstrapping). The quality of classification is based on the traditional measures, like F1, Cross-Classification, Hubert and others. The studies were made on eigth datasets. The first four are artificial datasets, the fifth and sixth are the wine and iris datasets. The seventh and eighth databases are composed of the brazilian collection of 119 Bradyrhizobium strains. To evaluate all information without introducing estimates, a modification of the Fuzzy C-Means (FCM) algorithm was developed using an index vector of attributes, which indicates whether an attribute value is observed or not, and changing the center and distance calculations. The simulations were made from 2 to 8 clusters using 100 sub-samples. The percentages of the missing values used were 2%, 5%, 10%, 20% and 30%. Even lacking data and with no special requirements of the database, the results of this work demonstrate that the proposed method is capable to identifying relevant partitions. The best experimental results were found using Hubert and corrected randomness measures.
108

Análise longitudinal de coinfecções por HPV em pacientes HIV-positivas / Longitudinal analysis of HPV coinfection in HIV-positive patients

Quintana, Marcel de Souza Borges 01 February 2013 (has links)
Avaliamos a incidência e o clareamento para o vírus do papiloma humano (HPV) dos tipos oncogênicos e não-oncogênicos em uma coorte aberta com 202 mulheres portadoras do vírus da imunodeficiência humana (HIV), e identificamos alguns fatores de risco e proteção associados a cada desfecho utilizando modelos de fragilidade Gama. No modelo de incidência, foram estudados os tempos até incidência de HPV oncogênicos e não-oncogênicos para cada mulher; no modelo de clareamento, foram estudados os correspondentes tempos até clareamento. Comparamos os erros-padrões estimados pela matriz de informação observada com os erros-padrões bootstrap para ambos os modelos e verificamos que a proposta de Verweij & Houwelingen (1994) para a matriz de variâncias e covariâncias dos parâmetros é a mais apropriada. Para a incidência de HPV oncogênicos, identificamos como fator de risco o uso de drogas em que a taxa de incidência para as pacientes que usam drogas é 1.88 (IC 90%, 1.01; 3.5) vezes aquela correspondente a mulheres que não usam e como fator de proteção a renda em que a taxa de incidência de pacientes com renda igual ou superior a 3 salários mínimos é 0.62 (IC 90%, 0.38; 1.00) vezes a taxa referente àquelas com renda menor que 3 salários mínimos. Para a incidência de HPV não-oncogênicos identificamos como fatores de risco a escolaridade e o total de gestações, em que, para a última, a taxa de incidência para as mulheres que tiveram mais do que uma gestação é 1.76 (IC 90%, 1.09; 2.86) vezes a taxa referente àquelas que tiveram uma ou nenhuma. Para o clareamento de HPV oncogênicos identificamos como fatores que indicam um clareamento mais rápido a renda, a idade e o tratamento antirretroviral (ARV), em que, para a última, supondo mulheres com fragilidades iguais, a taxa de clareamento para as pacientes que eram tratadas com o esquema inibidor de protease (IP) é 1.79 (IC 90%, 1.1; 2.9) vezes aquela correspondente a mulheres que não foram tratadas com nenhum tratamento ARV e como fator que indicam um clareamento mais lento o número de parceiros sexuais no último ano, em que, as pacientes com mais de um parceiro tiveram taxa de clareamento 0.39 (IC 90%, 0.16; 0.98) vezes a taxa de clareamento referente à uma mulher que teve um parceiro ou menos. Para o clareamento de HPV não-oncogênicos tivemos como fator que indica um clareamento mais lento o hábito tabagista em que, supondo fragilidades iguais, pacientes fumantes tem a taxa de clareamento 0.53 (IC 90%, 0.32; 0.87) vezes a taxa referente à uma mulher que não fuma. / We evaluated the incidence and clearance for oncogenic and non-oncogenic human papilloma virus (HPV) in an open cohort of 202 women infected with human immunodeficiency virus (HIV), and we identified some risk factors and protective factors for each outcome using Gamma frailty models. In the incidence model, we studied the incidence of stroke by oncogenic and non-oncogenic HPV for each woman; in the clearance model, the corresponding times to clearance were studied. We compared the standard errors estimated by the observed information matrix with bootstrap standard errors for both models and found that the variance and covariance matrix of the parameters proposed by Verweij & Houwelingen (1994) is more appropriate. For the incidence of oncogenic HPV, identified as a risk factor drug use and the incidence rate for patients who use drugs is 1.88 (90% CI, 1.01; 3.5) times the rate for those who do not use and as a protective factor income where the incidence rate is 0.62 (90% CI, 0.38; 1.00) times the rate for those earning less than 3 minimum wages. For the incidence of non-oncogenic HPV identified as risk factors schooling and total pregnancies, in which, for the latter, the incidence rate for women who had more than one pregnancy is 1.76 (90% CI, 1.09; 2.86) times the rate for those which have one or none. For clearance of oncogenic HPV identified as factors that indicate a faster clearance income, age and antiretroviral therapy (ART), in which, to the last, with women assuming equal frailties, the rate of clearance for patients who were treated with the protease inhibitor (IP) regimen is 1.79 (90% CI, 1.1; 2.9) times the rate for those who were not treated with any antiretroviral regimen and as a factor that indicates slower clearance the number of sexual partners in the last year, and for patients with more than one partner the clearance rate 0.39 (IC 90%, 0.16; 0.98) times the rate referring to a woman who had up to a partner. For the clearance of non-oncogenic HPV had a factor which indicates a slower clearance smoking habit, assuming equal frailties, smokers have the clearance rate 0.53 (90% CI, 0.32; 0.87) times the rate referring to a woman who does not smoke.
109

Análise do número de grupos em bases de dados incompletas utilizando agrupamentos nebulosos e reamostragem Bootstrap / Analysis the number of clusters present in incomplete datasets using a combination of the fuzzy clustering and resampling bootstrapping

Selma Terezinha Milagre 18 July 2008 (has links)
A técnica de agrupamento de dados é amplamente utilizada em análise exploratória, a qual é frequentemente necessária em diversas áreas de pesquisa tais como medicina, biologia e estatística, para avaliar potenciais hipóteses a serem utilizadas em estudos subseqüentes. Em bases de dados reais, a ocorrência de dados incompletos, nos quais os valores de um ou mais atributos do dado são desconhecidos, é bastante comum. Este trabalho apresenta um método capaz de identificar o número de grupos presentes em bases de dados incompletas, utilizando a combinação das técnicas de agrupamentos nebulosos e reamostragem bootstrap. A qualidade da classificação é baseada em medidas de comparação tradicionais como F1, Classificação Cruzada, Hubert e outras. Os estudos foram feitos em oito bases de dados. As quatro primeiras são bases de dados artificiais, a quinta e a sexta são a wine e íris. A sétima e oitava bases são formadas por uma coleção brasileira de 119 estirpes de Bradyrhizobium. Para avaliar toda informação sem introduzir estimativas, fez-se a modificação do algoritmo Fuzzy C-Means (FCM) utilizando-se um vetor de índices de atributos, os quais indicam onde o valor de um atributo é observado ou não, modificando-se ento, os cálculos do centro e distância ao centro. As simulações foram feitas de 2 até 8 grupos utilizando-se 100 sub-amostras. Os percentuais de valores faltando utilizados foram 2%, 5%, 10%, 20% e 30%. Os resultados deste trabalho demonstraram que nosso método é capaz de identificar participações relevantes, até em presença de altos índices de dados incompletos, sem a necessidade de se fazer nenhuma suposição sobre a base de dados. As medidas Hubert e índice randômico ajustado encontraram os melhores resultados experimentais. / Clustering in exploratory data analysis is often necessary in several areas of the survey such as medicine, biology and statistics, to evaluate potential hypotheses for subsequent studies. In real datasets the occurrence of incompleteness, where the values of some of the attributes are unknown, is very common. This work presents a method capable to identifying the number of clusters present in incomplete datasets, using a combination of the fuzzy clustering and resampling (bootstrapping). The quality of classification is based on the traditional measures, like F1, Cross-Classification, Hubert and others. The studies were made on eigth datasets. The first four are artificial datasets, the fifth and sixth are the wine and iris datasets. The seventh and eighth databases are composed of the brazilian collection of 119 Bradyrhizobium strains. To evaluate all information without introducing estimates, a modification of the Fuzzy C-Means (FCM) algorithm was developed using an index vector of attributes, which indicates whether an attribute value is observed or not, and changing the center and distance calculations. The simulations were made from 2 to 8 clusters using 100 sub-samples. The percentages of the missing values used were 2%, 5%, 10%, 20% and 30%. Even lacking data and with no special requirements of the database, the results of this work demonstrate that the proposed method is capable to identifying relevant partitions. The best experimental results were found using Hubert and corrected randomness measures.
110

[en] AN INFERENTIAL PROCEDURE FOR FACTOR ANALYSIS USING BOOTSTRAP AND JACKKNIFE TECHNIQUES: CONSTRUCTION OF CONFIDENCE INTERVALS AND TESTS OF HYPOTHESES / [pt] UM PROCEDIMENTO INFERENCIAL PARA ANÁLISE FATORIAL UTILIZANDO AS TÉCNICAS BOOTSTRAP E JACKKNIFE: CONSTRUÇÃO DE INTERVALOS DE CONFIANÇA E TESTES DE HIPÓTESES

GIOVANI GLAUCIO DE OLIVEIRA COSTA 27 July 2006 (has links)
[pt] A análise fatorial é a denominação atribuída às técnicas estatísticas paramétricas multivariadas utilizadas para estudar o inter- relacionamento entre um conjunto de variáveis observadas. É um processo destinado essencialmente à redução e à sumarização dos dados, tornando-se em vários campos da pesquisa científica uma boa opção para um melhor gerenciamento de informações reais, gerando variáveis remanescentes mais significativas e fáceis de serem trabalhadas. Ainda assim, uma possível limitação da análise fatorial é que não existem testes estatísticos conclusivos ou satisfatoriamente eficazes e que possam ser regularmente empregados, portanto, para a sua significância. Conseqüentemente, é difícil saber se os resultados são meramente acidentais, ou realmente refletem algo significativo. Por esse motivo, esta tese de doutorado visa estabelecer um procedimento inferencial para a análise fatorial utilizando-se de técnicas CIS (Computer Intensive Statistics), tais como o bootstrap e o jackknife, que permitam que a análise fatorial saia do terreno puramente descritivo e ladeando a insuficiência da teoria da distribuição de amostragem que se faz sentir em técnicas multivariadas. / [en] Factor analysis is the denomination attributed to the multivariate parametric statistical techniques used to study the inter- relationship between a set of observed variables. It is a process essentially intended to reduce and summarize data, thus becoming a good option for a better management of real information, generating remainder variables that are more significant and easier to work with, in various fields of scientific research. However, a possible limitation of factor analysis is that there are no conclusive statistical tests regularly employed in testing the hypotheses. Consequently, it is difficult to know if the results are merely accidents, or indeed, reflect something of significance. For this reason, this study intends to establish an inferential procedure for factor analysis, using CIS (Computer Intensive Statistics) techniques, such as the bootstrap and jackknife, which allow factor analysis to pass out of the purely descriptive, solving the problem of the insufficiency of sample distribution theory as seen in multivariate techniques.

Page generated in 0.0547 seconds