• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 94
  • 3
  • 1
  • Tagged with
  • 100
  • 59
  • 46
  • 21
  • 17
  • 17
  • 15
  • 13
  • 13
  • 13
  • 13
  • 13
  • 13
  • 12
  • 12
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Técnicas de diagnóstico para modelos lineares generalizados com medidas repetidas / Diagnostics for generalized linear models for repeated measures data with missing values

Lucas Petri Damiani 10 May 2012 (has links)
A literatura dispõe de métodos de diagnóstico para avaliar o ajuste de modelos lineares generalizados (MLGs) para medidas repetidas baseado em equações de estimação generalizada (EEG). No entanto, tais métodos não contemplam a distribuição binomial nem bancos de dados com observações faltantes. O presente trabalho generalizou os métodos já desenvolvidos para essas duas situações. Na construção de gráficos de probabilidade meio-normal com envelope simulado para a distribuição binomial, foi proposto um método para geração de variáveis aleatórias com distribuição marginal binomial correlacionadas, baseado na convolução de variáveis com distribuição de Poisson independentes. Os métodos de diagnóstico desenvolvidos foram aplicados em dados reais e simulados. / Literature provides diagnostic methods to assess the fit of generalized linear models (GLM) for repeated measures based on generalized estimating equations (GEE). Still, such methods do not include the binomial distribution or databases with missing observations. This work generalizes the methods already developed for these two situations. A method for generating random variables with correlated marginal binomial distributions based on convolution of independent Poisson random variables has been proposed for the construction of half-normal probability plots. The diagnostic methods developed were applied to real and simulated data.
92

Um método para seleção de atributos em dados genômicos

Oliveira, Fabrízzio Condé de 26 November 2015 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-05-05T18:05:07Z No. of bitstreams: 1 fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-06-07T15:41:26Z (GMT) No. of bitstreams: 1 fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) / Made available in DSpace on 2016-06-07T15:41:26Z (GMT). No. of bitstreams: 1 fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) Previous issue date: 2015-11-26 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Estudos de associação em escala genômica buscam encontrar marcadores moleculares do tipo SNP que estão associados direta ou indiretamente a um fenótipo em questão tais como, uma ou mais características do indivíduo ou, até mesmo, uma doença. O SNP pode ser a própria mutação causal ou pode estar correlacionado com a mesma por serem herdados juntos. Para identi car a região causadora ou promotora do fenótipo, a qual não é conhecida a priori, milhares ou milhões de SNPs são genotipados em amostras compostas de centenas ou milhares de indivíduos. Com isso, surge o desa o de selecionar os SNPs mais informativos no conjunto de dados genotípico, onde o número de atributos é, geralmente, muito superior ao número de indivíduos, com a possibilidade de que existam atributos altamente correlacionados e, ainda, podendo haver interações entre pares, trios ou combinações de SNPs de quaisquer ordens. Os métodos mais usados em estudos de associação em escala genômica utilizam o valor-p de cada SNP em testes estatísticos de hipóteses, baseados em regressão para fenótipos contínuos e baseados nos testes qui-quadrado ou similares em classi cação para fenótipos discretos, como ltro para selecionar os SNPs mais signi cativos. Entretanto, essa classe de métodos captura somente SNPs com efeitos aditivos, pois a relação adotada é linear. Na tentativa de superar as limitações de procedimentos já estabelecidos, este trabalho propõe um novo método de seleção de SNPs baseado em técnicas de Aprendizado de Máquina e Inteligência Computacional denominado SNP Markers Selector (SMS). O modelo é construído a partir de uma abordagem que divide o problema de seleção de SNPs em três fases distintas: a primeira relacionada à análise de relevância dos marcadores, a segunda responsável pela de nição do conjunto de marcadores relevantes que serão considerados por meio de uma estratégia de corte com base em um limite de relevância dos marcadores e, nalmente, uma fase para o re namento do processo de corte, geralmente para diminuir marcadores falsos-positivos. No SMS, essas três etapas, foram implementadas utilizando-se Florestas Aleatórias, Máquina de Vetores Suporte e Algoritmos Genéticos respectivamente. O SMS objetiva a criação de um uxo de trabalho que maximize o potencial de seleção do modelo através de etapas complementares. Assim, espera-se aumentar o potencial do SMS capturar efeitos aditivos e/ou não-aditivos com interação moderada entre pares e trios de SNPs, ou até mesmo, interações de ordens superiores com efeitos que sejam minimamente detectáveis. O SMS pode ser aplicado tanto em problemas de regressão (fenótipo contínuo) quanto de classi cação (fenótipo discreto). Experimentos numéricos foram realizados para avaliação do potencial da estratégia apresentada, com o método sendo aplicado em sete conjuntos de dados simulados e em uma base de dados real, onde a capacidade de produção de leite predita de vacas leiteiras foi medida como fenótipo contínuo. Além disso, o método proposto foi comparado com os métodos baseados no valor-p e com o Lasso Bayesiano apresentando, de forma geral, melhores resultados do ponto de vista de SNPs verdadeiros-positivos nos dados simulados com efeitos aditivos juntamente com interações entre pares e trios de SNPs. No conjunto de dados reais, baseado em 56.947 SNPs e um único fenótipo relativo à produção de leite, o método identi cou 245 QTLs associados à produção e à composição do leite e 90 genes candidatos associados à mastite, à produção e à composição do leite, sendo esses QTLs e genes identi cados por estudos anteriores utilizando outros métodos de seleção. Assim, o método demonstrou ser competitivo frente aos métodos utilizados para comparação em cenários complexos, com dados simulados ou reais, o que indica seu potencial para estudos de associação em escala genômica em humanos, animais e vegetais. / Genome-wide association studies have as main objective to discovery SNP type molecular markers associated directly or indirectly to a speci c phenotype related to one or more characteristics of an individual or even a disease. The SNP could be the causative mutation itself or correlated with the causative mutation due to common inheritance. Aiming to identify the causal or promoter region of the phenotype, which is unknown a priori, thousands or millions of SNPs are genotyped in samples composed of hundreds or thousands of individuals. Therefore, emerges the necessity to confront a challenge of selecting the most informative SNPs in genotype data set where the number of attributes are, usually, much higher than the number of individuals. Besides, the possibility of highly correlated attributes should be considered, as well as interactions between pairs, trios or combinations of high order SNPs. The most usual methods applied on genomewide association studies adopt the p-value of each SNP as a lter to select the SNPs most signi cant. For continuous phenotypes the statistical regression-based hypothesis test is used and the Chi-Square test or similar for classi cation of discrete phenotypes. However, this class of methods capture only SNPs with additive e ects, due to the linear relationship considered. In an attempt to overcome the limitations of established procedures, this work proposes a new SNPs selection method, named SNP Markers Selector (SMS), based on Machine Learning and Computational Intelligence strategies. The model is built considering an approach which divides the SNPs selection problem in three distinct phases: the rst related to the evaluation of the markers relevance, a second responsible for the de nition of the set of the relevant markers that will be considered by means of a cut strategy based on a threshold of markers relevance and, nally, a phase for the re nement of the cut process, usually to diminish false-positive markers. In the SMS, these three steps were implemented using Random Forests, Support Vector Machine and Genetic Algorithms, respectively. The SMS intends to create a work ow that maximizes the SNPs selection potential of the model due to the adoption of steps considered complementary. In this way, there is an increasing expectation on the performance of the SMS to capture additive e ects, moderate non-additive interaction between pairs and trios of SNPs, or even, higher order interactions with minimally detectable e ects. The SMS can be applied both in regression problems (continuous phenotype) as in classi cation problems (discrete phenotype). Numerical experiments were performed to evaluate the potential of the strategy, with the method being applied in seven sets of simulated data and in a real data set, where milk production capacity predicated of dairy cows was measured as continuous phenotype. Besides, the comparison of the proposed method with methods based on p-value and Lasso Bayesian technique indicate, in general, competitive results from the point of view of true-positive SNPs using simulated data set with additive e ects in conjunction with interactions of pairs and trios of SNPs. In the real data, based on 56,947 SNPs and a single phenotype of milk production, the method identi ed 245 QTLs associated with milk production and composition and 90 candidate genes associated with mastitis, milk production and composition, standing out that these QTLs and genes were identi ed by previous studies using other selection methods. Thus, the experiments showed the potential of the method in relation to other strategies when complex scenarios with simulated or real data are adopted, indicating that the work ow developed to guide the construction of the method should be considered for genome-wide asociation studies in humans, animals and plants.
93

"Resultados analíticos para as distribuições estatísticas relacionadas à caminhada determinista do turista sem memória: efeito da dimensionalidade do sistema e modelos de campo médio". / Analytical results for the statistical distribution related to a memoryless deterministic walk: Dimensionality effect and mean-field models

Terçariol, César Augusto Sangaletti 21 December 2004 (has links)
Considere um meio caracterizado por $N$ pontos cujas coordenadas são geradas aleatoriamente de maneira uniforme nas arestas unitárias de um hipercubo $d$-dimensional. Um caminhante parte de cada ponto deste meio desordenado e se movimenta obedecendo à regra determinista de ir para o ponto mais próximo que não tenha sido visitado nos últimos $mu$ passos. Este processo foi denominado de caminhada determinista do turista. Cada trajetória gerada por esta dinâmica possui uma parte inicial não-periódica de $t$ passos (transiente) e uma parte final periódica de $p$ passos (atrator). As probabilidades de vizinhança são expressas através da fórmula de Cox, que é parametrizada pela função beta incompleta normalizada $I_d = I_{1/4}[1/2,(d+1)/2]$. Enfati-zamos aqui que a distribuição relevante é $S_{mu,d}^{(N)}(t,p)$, a distribuição conjunta de $t$ e $p$, que tem como casos particulares as distribuições marginais, previamente estudadas. O objetivo deste estudo é obter analiticamente estas distribuições para a caminhada determinista do turista sem memória no espaço euclideano, no modelo de distâncias aleatórias (que corresponde ao limite $d ightarrow infty$) e no modelo de mapeamento aleatório (que é um caso limite das redes de Kauffman). As distribuições analíticas obtidas foram validadas através de experimentos numéricos. A distribuição conjunta de tempos de transiente e período de atratores, no limite termodinâmico para uma dimensionalidade arbitrária vale: $S_{1,d}^{(infty)}(t,p) = [Gamma(1+I_d^{-1}) cdot (t+I_d^{-1})/Gamma(t+p+I_d^{-1})] cdot delta_{p,2}$, onde $t=0,1,2,ldots,infty$; $Gamma(z)$ é a função gama e $delta_{i,j}$ é o delta de Kronecker. A caminhada determinista do turista sem memória no modelo de mapeamento aleatório produz uma distribuição de períodos não-trivial ($S_{0,rm}^{(N)}(p) propto p^{-1}$), que é obtida de $S_{0,rm}^{(N)}(t,p) = Gamma(N)/{Gamma[N+1-(t+p)]N^{t+p}}$, onde enfatizamos que o número de pontos explorados $n_e=t+p$ é a grandeza fundamental nos problemas considerados. / Consider a medium characterized by $N$ points whose coordinates are randomly generated by a uniform distribution along the unitary edges of a $d$-dimensional hypercube. A walker leaves from each point of this disordered medium and moves according to the deterministic rule to go the nearest point which has not been visited in the preceding $mu$ steps. This process has been called the deterministic tourist walk. Each trajectory generated by this dynamics has an initial non-periodic part of $t$ steps (transient) and a final periodic part of $p$ steps (attractor). The neighborhood probabilities are given by the Cox formula, which is parameterized by the normalized incomplete beta function $I_d = I_{1/4}[1/2,(d+1)/2]$. Here we stress that the relevant distribution is the joint $t$ and $p$ distribution $S_{mu,d}^{(N)}(t,p)$, which has as particular cases, the marginal distributions previously studied. The objective of this study is to obtain analytically these distributions for the memoryless deterministic tourist walk in the euclidean space, random link model (which corresponds to $d ightarrow infty$ limit) and random map model (which is a limiting case of the Kauffman model). The obtained distributions have been validated by numerical experiments. The joint transient time and attractor period distribution in the thermodynamic limit for an arbitrary dimensionality is: $S_{1,d}^{(infty)}(t,p) = [Gamma(1+I_d^{-1}) cdot (t+I_d^{-1})/Gamma(t+p+I_d^{-1})] cdot delta_{p,2}$, where $t=0,1,2,ldots,infty$; $Gamma(z)$ is the gamma function and $delta_{i,j}$ is the Kronecker's delta. The memoryless deterministic tourist walk in the random map leads to a non-trivial cycle distribution ($S_{0,rm}^{(N)}(p) propto p^{-1}$), which is obtained from $S_{0,rm}^{(N)}(t,p) = Gamma(N)/{Gamma[N+1-(t+p)]N^{t+p}}$, where we stress that the number of explored points $n_e=t+p$ is the fundamental quantity in the considered problems.
94

Caminhadas deterministas parcialmente auto-repulsivas: resultados analíticos para o efeito da memória do turista na exploração de meios desordenados / Deterministic partially self-avoiding walks: analytical results for the effect of tourist\'s memory in the exploration of disordered media

Terçariol, César Augusto Sangaletti 08 December 2008 (has links)
Considere um meio desordenado constituído por $N$ pontos cujas coordenadas são geradas aleatoriamente de maneira uniforme e independente nas arestas unitárias de um hipercubo $d$-dimensional. As probabilidades de vizinhança entre os pares de pontos deste meio são expressas através da fórmula de Cox. Um caminhante parte de um dado ponto deste meio desordenado e se movimenta obedecendo à regra determinista de ir para o ponto mais próximo que não tenha sido visitado nos últimos $\\mu$ passos. Este processo foi denominado de caminhada determinista do turista. Cada trajetória gerada por esta dinâmica possui uma parte inicial não-periódica de $t$ passos (transiente) e uma parte final periódica de $p$ passos (atrator). Neste trabalho, obtemos analiticamente algumas distribuições estatísticas para a caminhada determinista do turista com memória $\\mu$ arbitrária em sistemas unidimensionais e com memória $\\mu=2$ no modelo Random Link (que corresponde ao limite $d ightarrow 1$). Estes resultados nos permitiram compreender o papel da memória no comportamento exploratório do turista e explicar a equivalência não-trivial entre o modelo Random Link e o modelo Random Map (que é um caso limite das redes de Kauffman). Enfatizamos que o número de pontos explorados pelo turista é a grandeza fundamental nos problemas considerados. As distribuições analíticas obtidas foram validadas através de experimentos numéricos. Também obtivemos uma dedução alternativa para a fórmula de Cox, apresentando os resultados finais em termos de distribuições estatísticas elementares. / Consider a medium characterized by $N$ points whose coordinates are randomly and independently generated by a uniform distribution along the unitary edges of a $d$-dimensional hypercube. The neighborhood probabilities between any pair of points in this medium are given by the Cox formula. A walker leaves from each point of this disordered medium and moves according to the deterministic rule to go the nearest point which has not been visited in the preceding $\\mu$ steps. This process has been called the deterministic tourist walk. Each trajectory generated by this dynamics has an initial non-periodic part of $t$ steps (transient) and a final periodic part of $p$ steps (attractor). In this work, we obtain analytically some statistical distributions for the deterministic tourist walk with arbitrary memory $\\mu$ in one-dimensional systems and with memory $\\mu=2$ in the random link model (which corresponds to $d ightarrow 1$ limit). These results enable us to understand the main role played by the memory on the tourist\'s exploratory behavior and explain the non-trivial equivalence between the random link model and the random map model (which is a limiting case of the Kauffman model). We stress that the number of explored points is the fundamental quantity in the considered problems. The obtained distributions have been validated by numerical experiments. We also obtain an alternative derivation for the Cox formula, writing the final results in terms of known statistical distributions.
95

Machine learning in complex networks: modeling, analysis, and applications / Aprendizado de máquina em redes complexas: modelagem, análise e aplicações

Silva, Thiago Christiano 13 December 2012 (has links)
Machine learning is evidenced as a research area with the main purpose of developing computational methods that are capable of learning with their previously acquired experiences. Although a large amount of machine learning techniques has been proposed and successfully applied in real systems, there are still many challenging issues, which need be addressed. In the last years, an increasing interest in techniques based on complex networks (large-scale graphs with nontrivial connection patterns) has been verified. This emergence is explained by the inherent advantages provided by the complex network representation, which is able to capture the spatial, topological and functional relations of the data. In this work, we investigate the new features and possible advantages offered by complex networks in the machine learning domain. In fact, we do show that the network-based approach really brings interesting features for supervised, semisupervised, and unsupervised learning. Specifically, we reformulate a previously proposed particle competition technique for both unsupervised and semisupervised learning using a stochastic nonlinear dynamical system. Moreover, an analytical analysis is supplied, which enables one to predict the behavior of the proposed technique. In addition to that, data reliability issues are explored in semisupervised learning. Such matter has practical importance and is found to be of little investigation in the literature. With the goal of validating these techniques for solving real problems, simulations on broadly accepted databases are conducted. Still in this work, we propose a hybrid supervised classification technique that combines both low and high orders of learning. The low level term can be implemented by any classification technique, while the high level term is realized by the extraction of features of the underlying network constructed from the input data. Thus, the former classifies the test instances by their physical features, while the latter measures the compliance of the test instances with the pattern formation of the data. Our study shows that the proposed technique not only can realize classification according to the semantic meaning of the data, but also is able to improve the performance of traditional classification techniques. Finally, it is expected that this study will contribute, in a relevant manner, to the machine learning area / Aprendizado de máquina figura-se como uma área de pesquisa que visa a desenvolver métodos computacionais capazes de aprender com a experiência. Embora uma grande quantidade de técnicas de aprendizado de máquina foi proposta e aplicada, com sucesso, em sistemas reais, existem ainda inúmeros problemas desafiantes que necessitam ser explorados. Nos últimos anos, um crescente interesse em técnicas baseadas em redes complexas (grafos de larga escala com padrões de conexão não triviais) foi verificado. Essa emergência é explicada pelas inerentes vantagens que a representação em redes complexas traz, sendo capazes de capturar as relações espaciais, topológicas e funcionais dos dados. Nesta tese, serão investigadas as possíveis vantagens oferecidas por redes complexas quando utilizadas no domínio de aprendizado de máquina. De fato, será mostrado que a abordagem por redes realmente proporciona melhorias nos aprendizados supervisionado, semissupervisionado e não supervisionado. Especificamente, será reformulada uma técnica de competição de partículas para o aprendizado não supervisionado e semissupervisionado por meio da utilização de um sistema dinâmico estocástico não linear. Em complemento, uma análise analítica de tal modelo será desenvolvida, permitindo o entendimento evolucional do modelo no tempo. Além disso, a questão de confiabilidade de dados será investigada no aprendizado semissupervisionado. Tal tópico tem importância prática e é pouco estudado na literatura. Com o objetivo de validar essas técnicas em problemas reais, simulações computacionais em bases de dados consagradas pela literatura serão conduzidas. Ainda nesse trabalho, será proposta uma técnica híbrica de classificação supervisionada que combina tanto o aprendizado de baixo como de alto nível. O termo de baixo nível pode ser implementado por qualquer técnica de classificação tradicional, enquanto que o termo de alto nível é realizado pela extração das características de uma rede construída a partir dos dados de entrada. Nesse contexto, aquele classifica as instâncias de teste segundo qualidades físicas, enquanto que esse estima a conformidade da instância de teste com a formação de padrões dos dados. Os estudos aqui desenvolvidos mostram que o método proposto pode melhorar o desempenho de técnicas tradicionais de classificação, além de permitir uma classificação de acordo com o significado semântico dos dados. Enfim, acredita-se que este estudo possa gerar contribuições relevantes para a área de aprendizado de máquina.
96

Avaliação da técnica de amostragem respondent-driven sampling na estimação de prevalências de doenças transmissíveis em populações organizadas em redes complexas / Evaluation of sampling respondent-driven sampling in the estimation of prevalence of diseases in populations organized in complex networks

Albuquerque, Elizabeth Maciel de January 2009 (has links)
Made available in DSpace on 2011-05-04T12:36:24Z (GMT). No. of bitstreams: 0 Previous issue date: 2009 / Diversos fatores podem dificultar a caracterização acurada do perfil de umapopulação por amostragem. Se a característica que define a população é de difícil observação seja porque exige testes caros para detecção ou porque é uma característica de comportamento ilegal ou estigmatizado que dificulta a identificação, torna-se praticamente impossível aplicar os métodos clássicos de amostragem, pois não se pode definir uma base de amostragem (sampling frame). Populações desse tipo são conhecidas como populações ocultas, ou escondidas, e alguns exemplos comumente estudados são homens que fazem sexo com homens, trabalhadores do sexo e usuários de drogas. Essa dissertação discute a técnica de amostragem conhecida como Respondent-Driven Sampling (RDS), originalmente proposta por Heckathorn (1997), e que vem sendo amplamente utilizada na estimação de prevalências de doenças transmissíveis em populações ocultas. Esse método pertence à família de amostragens por bola-de-neve, na qual os elementos seguintes da amostra são recrutados a partir da rede de conhecidos dos elementos já presentes na amostra, formando as cadeias de referência. Com este método, além das informações individuais, é possível estudar também as relações entre os indivíduos. O recrutamento por bola de neve não gera uma amostra aleatória, e está sujeito às propriedades das redes sociais das populações em estudo, que deve mudar de lugar para lugar e potencialmente influenciar as medidas de prevalência geradas. As redes sociais são estruturas complexas, e compreender como que a amostragem RDS é influenciada por estas estruturas é um dos objetivos dessa dissertação. Além disso, se o interesse de um estudo epidemiológico é estimar a prevalência de uma doença transmissível, há de se considerar que muitas vezes a própria rede social pode estar correlacionada com as redes de transmissão, gerando potenciais dependências entre o processo de amostragem e a distribuição da variável desfecho. Essa dissertação teve por objetivo avaliar estimativas de prevalência geradas a partir de amostras obtidas com a utilização da metodologia RDS, considerando estruturas populacionais complexas, ou seja, populações com estruturas distintas de ligação entre os indivíduos e de disseminação de doenças. Para isso, foram realizados experimentos de simulação combinando quatro modelos geradores de redes sociais e quatro modelos de distribuição de casos infectados na população. Para cada uma, foram obtidas amostras utilizando RDS e as respectivas prevalências foram estimadas.Com os resultados encontrados, foi possível realizar uma avaliação tanto do RDS como forma de recrutamento, como o modelo proposto por Heckathorn (2002) para a ponderação e estimação de prevalências. Basicamente, três aspectos foram considerados nessa avaliação: 1. o tempo necessário para concluir a amostragem, 2. a precisão das estimativas obtidas, independente da ponderação, e 3. o método deponderação. De forma geral, o método apresentou bons resultados sob esses três aspectos, refletindo a possibilidade de sua utilização, ainda que exigindo cautela. Os achados apresentam-se limitados, pois são escassos os trabalhos que abordem essa metodologia e que permitam estabelecer comparações. Espera-se, no entanto,despertar o interesse para que outros trabalhos nessa linha sejam desenvolvidos. / Several factors may hamper the accurate characterization of a population. If the defining feature of the population is difficult to apply - either because it requires expensive tests for detection or because it is a stigmatized or illegal behavior that hinders the identification, it is virtually impossible to apply traditional methods for sampling, because sampling frame cannot be define. The latter are called “hidden populations”, and some examples are men who have sex with men, sexual workers and drug users. This dissertation focus on Respondent-Driven Sampling (RDS), a sampling method originally proposed by Heckathorn (1997), which has been widely used to estimate the prevalence of infectious diseases in hidden populations. RDS is a snowball sampling method, in which new elements for the sample are recruited from the network of the elements already present in the sample, forming reference chains. With this method, besides individual informations, it is also possible to study the relationships between individuals. Snowball sampling does not generate random samples, and its properties are likely to depend on the properties of the social networks underlying the recruitment process, which may change from place to place and potentially influence the measures of prevalence generated. Social networks are complex structures, and understanding how the different implementations of RDS sampling is influenced by these structures is one of the objectives of this dissertation. Moreover, if the interest of an epidemiological study is to estimate the prevalence of a disease, it is should be considered that very often, social network may be correlated with the transmission networks, generating potential dependencies between the process of sampling and distribution of outcome variable. The aim of this dissertation was to assess the behavior of prevalence estimators using RDS data in scenarios of populations organized in complex structures, i.e. Combinations of social networks structures and spreading patterns. To achieve that, theoretical experiments were performed using simulation models combining four generators of social networks and four models of distribution of infected cases in the population. For each one, samples were obtained using RDS and prevalence, estimated. Findings were used to evaluate RDS as a recruiting process itself, as well as Heckathorn’s (2002) model to estimate prevalences. Three aspects were considered in such analyses: 1. the time elapsed before obtaining the sample; 2. the accuracy of the estimates without taking in consideration the weighting strategies; and 3. the weighting strategy. Overall, RDS performed well in these three areas, showing it is a valid method to assess hidden populations, despite the fact its use should be made with the necessary caution. The interpretation of our findings was constrained by the scarcity of studies using the same methodology, what compromised the comparability of our findings. We hope, however, that our findings may foster the development of additional studies in this field.
97

"Resultados analíticos para as distribuições estatísticas relacionadas à caminhada determinista do turista sem memória: efeito da dimensionalidade do sistema e modelos de campo médio". / Analytical results for the statistical distribution related to a memoryless deterministic walk: Dimensionality effect and mean-field models

César Augusto Sangaletti Terçariol 21 December 2004 (has links)
Considere um meio caracterizado por $N$ pontos cujas coordenadas são geradas aleatoriamente de maneira uniforme nas arestas unitárias de um hipercubo $d$-dimensional. Um caminhante parte de cada ponto deste meio desordenado e se movimenta obedecendo à regra determinista de ir para o ponto mais próximo que não tenha sido visitado nos últimos $mu$ passos. Este processo foi denominado de caminhada determinista do turista. Cada trajetória gerada por esta dinâmica possui uma parte inicial não-periódica de $t$ passos (transiente) e uma parte final periódica de $p$ passos (atrator). As probabilidades de vizinhança são expressas através da fórmula de Cox, que é parametrizada pela função beta incompleta normalizada $I_d = I_{1/4}[1/2,(d+1)/2]$. Enfati-zamos aqui que a distribuição relevante é $S_{mu,d}^{(N)}(t,p)$, a distribuição conjunta de $t$ e $p$, que tem como casos particulares as distribuições marginais, previamente estudadas. O objetivo deste estudo é obter analiticamente estas distribuições para a caminhada determinista do turista sem memória no espaço euclideano, no modelo de distâncias aleatórias (que corresponde ao limite $d ightarrow infty$) e no modelo de mapeamento aleatório (que é um caso limite das redes de Kauffman). As distribuições analíticas obtidas foram validadas através de experimentos numéricos. A distribuição conjunta de tempos de transiente e período de atratores, no limite termodinâmico para uma dimensionalidade arbitrária vale: $S_{1,d}^{(infty)}(t,p) = [Gamma(1+I_d^{-1}) cdot (t+I_d^{-1})/Gamma(t+p+I_d^{-1})] cdot delta_{p,2}$, onde $t=0,1,2,ldots,infty$; $Gamma(z)$ é a função gama e $delta_{i,j}$ é o delta de Kronecker. A caminhada determinista do turista sem memória no modelo de mapeamento aleatório produz uma distribuição de períodos não-trivial ($S_{0,rm}^{(N)}(p) propto p^{-1}$), que é obtida de $S_{0,rm}^{(N)}(t,p) = Gamma(N)/{Gamma[N+1-(t+p)]N^{t+p}}$, onde enfatizamos que o número de pontos explorados $n_e=t+p$ é a grandeza fundamental nos problemas considerados. / Consider a medium characterized by $N$ points whose coordinates are randomly generated by a uniform distribution along the unitary edges of a $d$-dimensional hypercube. A walker leaves from each point of this disordered medium and moves according to the deterministic rule to go the nearest point which has not been visited in the preceding $mu$ steps. This process has been called the deterministic tourist walk. Each trajectory generated by this dynamics has an initial non-periodic part of $t$ steps (transient) and a final periodic part of $p$ steps (attractor). The neighborhood probabilities are given by the Cox formula, which is parameterized by the normalized incomplete beta function $I_d = I_{1/4}[1/2,(d+1)/2]$. Here we stress that the relevant distribution is the joint $t$ and $p$ distribution $S_{mu,d}^{(N)}(t,p)$, which has as particular cases, the marginal distributions previously studied. The objective of this study is to obtain analytically these distributions for the memoryless deterministic tourist walk in the euclidean space, random link model (which corresponds to $d ightarrow infty$ limit) and random map model (which is a limiting case of the Kauffman model). The obtained distributions have been validated by numerical experiments. The joint transient time and attractor period distribution in the thermodynamic limit for an arbitrary dimensionality is: $S_{1,d}^{(infty)}(t,p) = [Gamma(1+I_d^{-1}) cdot (t+I_d^{-1})/Gamma(t+p+I_d^{-1})] cdot delta_{p,2}$, where $t=0,1,2,ldots,infty$; $Gamma(z)$ is the gamma function and $delta_{i,j}$ is the Kronecker's delta. The memoryless deterministic tourist walk in the random map leads to a non-trivial cycle distribution ($S_{0,rm}^{(N)}(p) propto p^{-1}$), which is obtained from $S_{0,rm}^{(N)}(t,p) = Gamma(N)/{Gamma[N+1-(t+p)]N^{t+p}}$, where we stress that the number of explored points $n_e=t+p$ is the fundamental quantity in the considered problems.
98

Imputação de dados faltantes via algoritmo EM e rede neural MLP com o método de estimativa de máxima verossimilhança para aumentar a acurácia das estimativas

Ribeiro, Elisalvo Alves 14 August 2015 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Database with missing values it is an occurrence often found in the real world, beiging of this problem caused by several reasons (equipment failure that transmits and stores the data, handler failure, failure who provides information, etc.). This may make the data inconsistent and unable to be analyzed, leading to very skewed conclusions. This dissertation aims to explore the use of Multilayer Perceptron Artificial Neural Network (ANN MLP), with new activation functions, considering two approaches (single imputation and multiple imputation). First, we propose the use of Maximum Likelihood Estimation Method (MLE) in each network neuron activation function, against the approach currently used, which is without the use of such a method or when is used only in the cost function (network output). It is then analyzed the results of these approaches compared with the Expectation Maximization algorithm (EM) is that the state of the art to treat missing data. The results indicate that when using the Artificial Neural Network MLP with Maximum Likelihood Estimation Method, both in all neurons and only in the output function, lead the an imputation with lower error. These experimental results, evaluated by metrics such as MAE (Mean Absolute Error) and RMSE (Root Mean Square Error), showed that the better results in most experiments occured when using the MLP RNA addressed in this dissertation to single imputation and multiple. / Base de dados com valores faltantes é uma ocorrência frequentemente encontrada no mundo real, sendo as causas deste problema são originadas por motivos diversos (falha no equipamento que transmite e armazena os dados, falha do manipulador, falha de quem fornece a informação, etc.). Tal situação pode tornar os dados inconsistentes e inaptos de serem analisados, conduzindo às conclusões muito enviesadas. Esta dissertação tem como objetivo explorar o emprego de Redes Neurais Artificiais Multilayer Perceptron (RNA MLP), com novas funções de ativação, considerando duas abordagens (imputação única e imputação múltipla). Primeiramente, é proposto o uso do Método de Estimativa de Máxima Verossimilhança (EMV) na função de ativação de cada neurônio da rede, em contrapartida à abordagem utilizada atualmente, que é sem o uso de tal método, ou quando o utiliza é apenas na função de custo (na saída da rede). Em seguida, são analisados os resultados destas abordagens em comparação com o algoritmo Expectation Maximization (EM) que é o estado da arte para tratar dados faltantes. Os resultados obtidos indicam que ao utilizar a Rede Neural Artificial MLP com o Método de Estimativa de Máxima Verossimilhança, tanto em todos os neurônios como apenas na função de saída, conduzem a uma imputação com menor erro. Os resultados experimentais foram avaliados via algumas métricas, sendo as principais o MAE (Mean Absolute Error) e RMSE (Root Mean Square Error), as quais apresentaram melhores resultados na maioria dos experimentos quando se utiliza a RNA MLP abordada neste trabalho para fazer imputação única e múltipla.
99

Caminhadas deterministas parcialmente auto-repulsivas: resultados analíticos para o efeito da memória do turista na exploração de meios desordenados / Deterministic partially self-avoiding walks: analytical results for the effect of tourist\'s memory in the exploration of disordered media

César Augusto Sangaletti Terçariol 08 December 2008 (has links)
Considere um meio desordenado constituído por $N$ pontos cujas coordenadas são geradas aleatoriamente de maneira uniforme e independente nas arestas unitárias de um hipercubo $d$-dimensional. As probabilidades de vizinhança entre os pares de pontos deste meio são expressas através da fórmula de Cox. Um caminhante parte de um dado ponto deste meio desordenado e se movimenta obedecendo à regra determinista de ir para o ponto mais próximo que não tenha sido visitado nos últimos $\\mu$ passos. Este processo foi denominado de caminhada determinista do turista. Cada trajetória gerada por esta dinâmica possui uma parte inicial não-periódica de $t$ passos (transiente) e uma parte final periódica de $p$ passos (atrator). Neste trabalho, obtemos analiticamente algumas distribuições estatísticas para a caminhada determinista do turista com memória $\\mu$ arbitrária em sistemas unidimensionais e com memória $\\mu=2$ no modelo Random Link (que corresponde ao limite $d ightarrow 1$). Estes resultados nos permitiram compreender o papel da memória no comportamento exploratório do turista e explicar a equivalência não-trivial entre o modelo Random Link e o modelo Random Map (que é um caso limite das redes de Kauffman). Enfatizamos que o número de pontos explorados pelo turista é a grandeza fundamental nos problemas considerados. As distribuições analíticas obtidas foram validadas através de experimentos numéricos. Também obtivemos uma dedução alternativa para a fórmula de Cox, apresentando os resultados finais em termos de distribuições estatísticas elementares. / Consider a medium characterized by $N$ points whose coordinates are randomly and independently generated by a uniform distribution along the unitary edges of a $d$-dimensional hypercube. The neighborhood probabilities between any pair of points in this medium are given by the Cox formula. A walker leaves from each point of this disordered medium and moves according to the deterministic rule to go the nearest point which has not been visited in the preceding $\\mu$ steps. This process has been called the deterministic tourist walk. Each trajectory generated by this dynamics has an initial non-periodic part of $t$ steps (transient) and a final periodic part of $p$ steps (attractor). In this work, we obtain analytically some statistical distributions for the deterministic tourist walk with arbitrary memory $\\mu$ in one-dimensional systems and with memory $\\mu=2$ in the random link model (which corresponds to $d ightarrow 1$ limit). These results enable us to understand the main role played by the memory on the tourist\'s exploratory behavior and explain the non-trivial equivalence between the random link model and the random map model (which is a limiting case of the Kauffman model). We stress that the number of explored points is the fundamental quantity in the considered problems. The obtained distributions have been validated by numerical experiments. We also obtain an alternative derivation for the Cox formula, writing the final results in terms of known statistical distributions.
100

Machine learning in complex networks: modeling, analysis, and applications / Aprendizado de máquina em redes complexas: modelagem, análise e aplicações

Thiago Christiano Silva 13 December 2012 (has links)
Machine learning is evidenced as a research area with the main purpose of developing computational methods that are capable of learning with their previously acquired experiences. Although a large amount of machine learning techniques has been proposed and successfully applied in real systems, there are still many challenging issues, which need be addressed. In the last years, an increasing interest in techniques based on complex networks (large-scale graphs with nontrivial connection patterns) has been verified. This emergence is explained by the inherent advantages provided by the complex network representation, which is able to capture the spatial, topological and functional relations of the data. In this work, we investigate the new features and possible advantages offered by complex networks in the machine learning domain. In fact, we do show that the network-based approach really brings interesting features for supervised, semisupervised, and unsupervised learning. Specifically, we reformulate a previously proposed particle competition technique for both unsupervised and semisupervised learning using a stochastic nonlinear dynamical system. Moreover, an analytical analysis is supplied, which enables one to predict the behavior of the proposed technique. In addition to that, data reliability issues are explored in semisupervised learning. Such matter has practical importance and is found to be of little investigation in the literature. With the goal of validating these techniques for solving real problems, simulations on broadly accepted databases are conducted. Still in this work, we propose a hybrid supervised classification technique that combines both low and high orders of learning. The low level term can be implemented by any classification technique, while the high level term is realized by the extraction of features of the underlying network constructed from the input data. Thus, the former classifies the test instances by their physical features, while the latter measures the compliance of the test instances with the pattern formation of the data. Our study shows that the proposed technique not only can realize classification according to the semantic meaning of the data, but also is able to improve the performance of traditional classification techniques. Finally, it is expected that this study will contribute, in a relevant manner, to the machine learning area / Aprendizado de máquina figura-se como uma área de pesquisa que visa a desenvolver métodos computacionais capazes de aprender com a experiência. Embora uma grande quantidade de técnicas de aprendizado de máquina foi proposta e aplicada, com sucesso, em sistemas reais, existem ainda inúmeros problemas desafiantes que necessitam ser explorados. Nos últimos anos, um crescente interesse em técnicas baseadas em redes complexas (grafos de larga escala com padrões de conexão não triviais) foi verificado. Essa emergência é explicada pelas inerentes vantagens que a representação em redes complexas traz, sendo capazes de capturar as relações espaciais, topológicas e funcionais dos dados. Nesta tese, serão investigadas as possíveis vantagens oferecidas por redes complexas quando utilizadas no domínio de aprendizado de máquina. De fato, será mostrado que a abordagem por redes realmente proporciona melhorias nos aprendizados supervisionado, semissupervisionado e não supervisionado. Especificamente, será reformulada uma técnica de competição de partículas para o aprendizado não supervisionado e semissupervisionado por meio da utilização de um sistema dinâmico estocástico não linear. Em complemento, uma análise analítica de tal modelo será desenvolvida, permitindo o entendimento evolucional do modelo no tempo. Além disso, a questão de confiabilidade de dados será investigada no aprendizado semissupervisionado. Tal tópico tem importância prática e é pouco estudado na literatura. Com o objetivo de validar essas técnicas em problemas reais, simulações computacionais em bases de dados consagradas pela literatura serão conduzidas. Ainda nesse trabalho, será proposta uma técnica híbrica de classificação supervisionada que combina tanto o aprendizado de baixo como de alto nível. O termo de baixo nível pode ser implementado por qualquer técnica de classificação tradicional, enquanto que o termo de alto nível é realizado pela extração das características de uma rede construída a partir dos dados de entrada. Nesse contexto, aquele classifica as instâncias de teste segundo qualidades físicas, enquanto que esse estima a conformidade da instância de teste com a formação de padrões dos dados. Os estudos aqui desenvolvidos mostram que o método proposto pode melhorar o desempenho de técnicas tradicionais de classificação, além de permitir uma classificação de acordo com o significado semântico dos dados. Enfim, acredita-se que este estudo possa gerar contribuições relevantes para a área de aprendizado de máquina.

Page generated in 0.0521 seconds