Spelling suggestions: "subject:"biased sampling"" "subject:"riased sampling""
1 |
Bayesian Inference of a Finite Population under Selection BiasXu, Zhiqing 01 May 2014 (has links)
Length-biased sampling method gives the samples from a weighted distribution. With the underlying distribution of the population, one can estimate the attributes of the population by converting the weighted samples. In this thesis, generalized gamma distribution is considered as the underlying distribution of the population and the inference of the weighted distribution is made. Both the models with known and unknown finite population size are considered. In the modes with known finite population size, maximum likelihood estimation and bootstrapping methods are attempted to derive the distributions of the parameters and population mean. For the sake of comparison, both the models with and without the selection bias are built. The computer simulation results show the model with selection bias gives better prediction for the population mean. In the model with unknown finite population size, the distributions of the population size as well as the sample complements are derived. Bayesian analysis is performed using numerical methods. Both the Gibbs sampler and random sampling method are employed to generate the parameters from their joint posterior distribution. The fitness of the size-biased samples are checked by utilizing conditional predictive ordinate.
|
2 |
Métodos para o pré-processamento e mineração de grandes volumes de dados multidimensionais e redes complexas / Methods to pre-processing and mining large volumes of multidimensional data and complex networksAppel, Ana Paula 27 May 2010 (has links)
A mineração de dados é um processo computacionalmente caro, que se apoia no pré-processamento dos dados para aumentar a sua eficiência. As técnicas de redução de elementos do conjunto de dados, principalmente a amostragem de dados se destacam no pré-processamento. Os dados reais são caracterizados pela não uniformidade da distribuição, grande quantidade de atributos e presença de elementos considerados ruídos. Para esse tipo de dado, a amostragem uniforme, na qual cada elemento tem a mesma probabilidade de ser escolhido, é inefiiente. Os dados nos últimos anos, vem passando por transformações. Assim, não só o seu volume tem aumentado significantemente, mas também a maneira de como eles são representados. Os dados usualmente são divididos apenas em dados tradicionais (número e pequenas cadeias de caracteres) e dados complexos (imagens, cadeias de DNA, vídeos, etc). Entretanto, uma representação mais rica, na qual não só os elementos do conjunto são representados mas também a suas ligações, vem sendo amplamente utilizada. Esse novo tipo de dado, chamado rede complexa, fez surgir uma nova área de pesquisa chamada mineração de redes complexas ou de grafos, já que estes são utilizados na representação das redes complexas. Para esta nova área é necessário o desenvolvimento de técnicas que permitam a mineração de grandes redes complexas, isto é, redes com centenas de milhares de elementos(nós) e ligações(arestas). Esta tese teve como objetivo explorar a redução de elementos em conjuntos de dados chamados desbalanceados, isto é, que possuem agrupamentos ou classes de tamanhos bastantes distintos, e que também possuam alta quantidade de atributos e presença de ruídos. Além disso, esta tese também explora a mineração de redes complexas com a extração de padrões e propriedades e o desenvolvimento de algoritmos eficientes para a classificação das redes em reais e sintéticas. Também é proposto a mineração de redes complexas utilizando gerenciadores de base de dados para a mineração de cliques de tamanho 4 e 5 e a apresentação da extensão do coeficiente de clusterização / Data mining is an expensive computational process speeded up by data preprocessing. Data reduction techniques, as data sampling are useful during the data preprocessing. Real data are known for presenting non-uniform data distribution, a large amount of attributes and noise. For this type of data, uniform sampling, which selects elements with the same probability, is inefficient. Over the past years, the data available to mining have been changed. Not only have their volume increased but also data format. Data are usually divided into traditional (number and small chains of character) and complex (images, DNA, videos, etc). However, a rich representation, in which not only elements but also the connections among the elements have been used, is necessary. This new data type, which is called complex network and is usually modeled as a graph, has created a new research area, called graph mining or complex network mining, which requires the development of new mining techniques to allow mining large networks, that is, networks with hundreds of thousands of nodes and edges. The present thesis aims to explore the data reduction in unbalanced data, that is, data that have clusters with very different sizes, a large amount of attributes and noise. It also explores complex network mining with two basic findings: useful new patterns, which allow distinguishing real from synthetic networks and mining cliques of sizes 4 and 5 using database systems, discovering interesting power laws and presenting a new cluster coefficient formula
|
3 |
Métodos para o pré-processamento e mineração de grandes volumes de dados multidimensionais e redes complexas / Methods to pre-processing and mining large volumes of multidimensional data and complex networksAna Paula Appel 27 May 2010 (has links)
A mineração de dados é um processo computacionalmente caro, que se apoia no pré-processamento dos dados para aumentar a sua eficiência. As técnicas de redução de elementos do conjunto de dados, principalmente a amostragem de dados se destacam no pré-processamento. Os dados reais são caracterizados pela não uniformidade da distribuição, grande quantidade de atributos e presença de elementos considerados ruídos. Para esse tipo de dado, a amostragem uniforme, na qual cada elemento tem a mesma probabilidade de ser escolhido, é inefiiente. Os dados nos últimos anos, vem passando por transformações. Assim, não só o seu volume tem aumentado significantemente, mas também a maneira de como eles são representados. Os dados usualmente são divididos apenas em dados tradicionais (número e pequenas cadeias de caracteres) e dados complexos (imagens, cadeias de DNA, vídeos, etc). Entretanto, uma representação mais rica, na qual não só os elementos do conjunto são representados mas também a suas ligações, vem sendo amplamente utilizada. Esse novo tipo de dado, chamado rede complexa, fez surgir uma nova área de pesquisa chamada mineração de redes complexas ou de grafos, já que estes são utilizados na representação das redes complexas. Para esta nova área é necessário o desenvolvimento de técnicas que permitam a mineração de grandes redes complexas, isto é, redes com centenas de milhares de elementos(nós) e ligações(arestas). Esta tese teve como objetivo explorar a redução de elementos em conjuntos de dados chamados desbalanceados, isto é, que possuem agrupamentos ou classes de tamanhos bastantes distintos, e que também possuam alta quantidade de atributos e presença de ruídos. Além disso, esta tese também explora a mineração de redes complexas com a extração de padrões e propriedades e o desenvolvimento de algoritmos eficientes para a classificação das redes em reais e sintéticas. Também é proposto a mineração de redes complexas utilizando gerenciadores de base de dados para a mineração de cliques de tamanho 4 e 5 e a apresentação da extensão do coeficiente de clusterização / Data mining is an expensive computational process speeded up by data preprocessing. Data reduction techniques, as data sampling are useful during the data preprocessing. Real data are known for presenting non-uniform data distribution, a large amount of attributes and noise. For this type of data, uniform sampling, which selects elements with the same probability, is inefficient. Over the past years, the data available to mining have been changed. Not only have their volume increased but also data format. Data are usually divided into traditional (number and small chains of character) and complex (images, DNA, videos, etc). However, a rich representation, in which not only elements but also the connections among the elements have been used, is necessary. This new data type, which is called complex network and is usually modeled as a graph, has created a new research area, called graph mining or complex network mining, which requires the development of new mining techniques to allow mining large networks, that is, networks with hundreds of thousands of nodes and edges. The present thesis aims to explore the data reduction in unbalanced data, that is, data that have clusters with very different sizes, a large amount of attributes and noise. It also explores complex network mining with two basic findings: useful new patterns, which allow distinguishing real from synthetic networks and mining cliques of sizes 4 and 5 using database systems, discovering interesting power laws and presenting a new cluster coefficient formula
|
4 |
Statistical Inferences under a semiparametric finite mixture modelZhang, Shiju January 2005 (has links)
No description available.
|
5 |
Measure of Dependence for Length-Biased Survival DataBentoumi, Rachid January 2017 (has links)
In epidemiological studies, subjects with disease (prevalent cases) differ from newly diseased (incident cases). They tend to survive longer due to sampling bias, and related covariates will also be biased. Methods for regression analyses have recently been proposed to measure the potential effects of covariates on survival. The goal is to extend the dependence measure of Kent (1983), based on the information
gain, in the context of length-biased sampling. In this regard, to estimate information gain and dependence measure for length-biased data, we propose two different methods namely kernel density estimation with a regression procedure and parametric copulas. We will assess the consistency for all proposed estimators. Algorithms detailing how to generate length-biased data, using kernel density estimation with regression procedure and parametric copulas approaches, are given. Finally, the performances of the estimated information gain and dependence measure, under length-biased sampling, are demonstrated through simulation studies.
|
6 |
Biased Exploration in Offline Hierarchical Reinforcement LearningMiller, Eric D. 26 January 2021 (has links)
No description available.
|
Page generated in 0.0492 seconds