Global ETD Search

91	Métodos estatísticos para a análise de dados de cDNA microarray em um ambiente computacional integrado / Statistical methods for cDNA microarray data analysis in an integrated computational environment Gustavo Henrique Esteves 23 March 2007 (has links) Análise de expressão gênica em larga escala é de fundamental importância para a biologia molecular atual pois possibilita a medida dos níveis de expressão de milhares de genes simultaneamente, o que torna viável a realização de trabalhos voltados para biologia de sistemas (systems biology). Dentre as principais técnicas experimentais disponíveis para esta finalidade, a tecnologia de microarray tem sido amplamente utilizada. Este procedimento para medida de expressão gênica é bastante complexo e os dados obtidos são freqüentemente observacionais, o que dificulta a modelagem estatística. Não existe um protocolo padrão para a geração e avaliação desses dados, sendo portanto necessário buscar procedimentos de análise que sejam adequados para cada caso. Assim, os principais métodos matemáticos e estatísticos aplicados para a análise desses dados deveriam estar disponíveis de uma forma organizada, coerente e simples em um ambiente computacional que confira robustez, confiabilidade e reprodutibilidade às análises realizadas. Uma forma de garantir estas características é através da representação (e documentação) de todos os algoritmos utilizados na forma de um grafo direcionado e acíclico que descreva todo o conjunto de transformações, ou operações, aplicadas seqüencialmente ao conjunto de dados. De acordo com esta filosofia, um ambiente foi implementado neste trabalho incorporando diversos procedimentos disponíveis na literatura atual, além de outros que foram aprimorados ou propostos nesta tese. Dentre os métodos de análise já disponíveis que foram incorporados destacam-se aqueles para a construção de agrupamentos, busca de genes diferencialmente expressos e classificadores, construção de redes de relevância e classificação funcional de grupos gênicos. Além disso, o método de construção de redes de relevância foi revisto e aprimorado e um modelo estatístico para a classificação funcional de redes de regulação gênica foi proposto e implementado. Esses dois últimos métodos surgiram a partir de problemas biológicos para os quais não existiam procedimentos de análise adequados na literatura. Finalmente, são apresentados dois conjuntos de dados que foram analisados utilizando diversas ferramentas disponíveis neste ambiente computacional. / High throughput gene expression analysis has a great importance to molecular biology nowadays because it can measure expression profiles for hundreds of genes, and this turn possible studies focused in systems biology. Between the main experimental techniques available in this direction, the microarray technology has been widely used. This experimental procedure to quantify gene expression profiles is very complex and the data obtained is frequently observational, what difficult the statistical modelling. There is not a standard protocol for the generation and evaluation of microarray data, therefore it is necessary to search by adequate analysis methods for each case. Thus, the main mathematical and statistical methods applied to microarray data analysis would have to be available in an organized, coherent and simple way in a computational environment that confer robustness, reliability and reproducibility to the data analysis. One way to guarantee these characteristics is through the representation (and documentation) of all used algorithms as a directed and acyclic graph that describes the set of transformations, or operations, applied sequentially to the dataset. According to this philosophy, an environment was implemented in this work aggregating several data analysis procedures already available in the literature, beyond other methods that were improved or proposed in this thesis. Between the procedures already available that were incorporated we can distinguish that ones for cluster analysis, differentially expressed genes and classifiers search, construction of relevance networks and functional classification of gene groups. Moreover, the method for construction of relevance networks was revised and improved and an statistical model was proposed and implemented for the functional classification of gene regulation networks. The last two procedures was born from biological problems for which adequate data analysis methods didn?t exist in the literature. Finally, we presented two datasets that were evaluated using several data analysis procedures available in this computational environment. Análise de Dados Classificação de Grupos Gênicos Microarray Redes de Relevância Classification of Gene Networks Data Analysis Microarray Relevance Networks
92	Validação cruzada com correção de autovalores e regressão isotônica nos modelos AMMI / Cross-validation with eigenvalue correction and isotonic regression in models AMMI Piovesan, Pamela 30 August 2007 (has links) Neste trabalho apresenta-se a aplicação dos modelos AMMI para um estudo detalhado do efeito das interações entre genótipos e ambientes em experimentos multiambientais. Através da decomposição da soma de quadrados dessas interações, busca-se selecionar o número de termos que explicam essa interação, descartando o ruído presente na mesma. Há duas maneiras para a escolha desses termos: validação cruzada e teste de hipóteses. O foco será na validação cruzada pela vantagem de ser um critério "preditivo" de avaliação. São apresentados dois métodos de validação cruzada, métodos esses esboçados por Eastment e Krzanowski (1982) e Gabriel (2002). Esses métodos utilizam a decomposição por valores singulares para obter os autovalores referentes à matriz de interações, cuja soma de quadrados nos dá exatamente a soma de quadrados da interação. Como esses autovalores são superestimados ou subestimados (ARAÚJO; DIAS, 2002), essas técnicas de validação serão aperfeiçoadas através da correção desses autovalores e, para reordená-los, será utilizada a regressão isotônica. Será realizado um estudo comparativo entre esses métodos, através de dados reais. / This paper presents the application of AMMI models for a thorough study about the effect of the interaction between genotypes and environments in multi-environments experiments. Through the decomposition of the sum of squares of these interactions, one searches to select the number of terms that explains this interaction, discarding its noise in. There are two ways for choosing these terms: cross-validation and hypotheses test. The focus will be on the crossvalidation for its advantage of being one prediction criterion of evaluation. Two methods of cross-validation are presented , both outlined by Eastment and Krzanowski (1982) and Gabriel (2002). These methods use the decomposition by singular values in order to obtain eigenvalues referred to the matrix of interactions, whose sum of squares accurately gives us the sum of squares of the interation. As these eigenvalues either over- or underestimated (ARAÚJO; DIAS, 2002), these techniques of validation will be improved through the correction of these eigenvalues and, in order to rearrange them, isotonic regression will be used . A comparative study between these methods through real data will be carried out. Análise de dados Análise multivariada Applied statistic Data analysis Environment Estatística aplicada Genótipos Genotype Meio ambiente Multivariate analysis
93	Modelo de avaliação de conjuntos de dados científicos por meio da dimensão de veracidade dos dados. / Scientific datasets evaluation model based on the data veracity dimension. André Filipe de Moraes Batista 06 November 2018 (has links) A ciência é uma organização social: grupos de colaboração independentes trabalham para gerar conhecimento como um bem público. A credibilidade dos trabalhos científicos está enraizada nas evidências que os suportam, as quais incluem a metodologia aplicada, os dados adquiridos e os processos para execução dos experimentos, da análise de dados e da interpretação dos resultados obtidos. O dilúvio de dados sob o qual a atual ciência está inserida revoluciona a forma como as pesquisas são realizadas, resultando em um novo paradigma de ciência baseada em dados. Sob tal paradigma, novas atividades são inseridas no método científico de modo a organizar o processo de geração, curadoria e publicação de dados, beneficiando a comunidade científica com o reuso de conjuntos de dados científicos e a reprodutibilidade de experimentos. Nesse contexto, novas abordagens para a resolução de problemas estão sendo apresentadas, obtendo resultados que antes eram considerados de relevante dificuldade, bem como possibilitando a geração de novos conhecimentos. Diversos portais estão disponibilizando conjuntos de dados resultantes de pesquisas científicas. Todavia, tais portais pouco abordam o contexto sobre os quais os conjuntos de dados foram criados, dificultando a compreensão sobre os dados e abrindo espaço para o uso indevido ou uma interpretação errônea. Poucas são as literaturas que abordam essa problemática, deixando o foco para outros temas que lidam com o volume, a variedade e a velocidade dos dados. Essa pesquisa objetivou definir um modelo de avaliação de conjuntos de dados científicos, por meio da construção de um perfil de aplicação, o qual padroniza a descrição de conjuntos de dados científicos. Essa padronização da descrição é baseada no conceito de dimensão de Veracidade dos dados, definido ao longo da pesquisa, e permite o desenvolvimento de métricas que formam o índice de veracidade de conjuntos de dados científicos. Tal índice busca refletir o nível de detalhamento de um conjunto de dados, com base no uso dos elementos de descrição, que facilitarão o reuso dos dados e a reprodutibilidade dos experimentos científicos. O índice possui duas dimensões: a dimensão intrínseca aos dados, a qual pode ser utilizada como critério de admissão de conjunto de dados em portais de publicação de dados; e a dimensão social, mensurando a adequabilidade de um conjunto de dados para uso em uma área de pesquisa ou de aplicação, por meio da avaliação da comunidade científica. Para o modelo de avaliação proposto, um estudo de caso foi desenvolvido, descrevendo um conjunto de dados proveniente de um projeto científico internacional, o projeto GoAmazon, de modo a validar o modelo proposto entre os pares, demonstrando o potencial da solução no apoio ao reuso dos dados, podendo ser incorporado em portais de dados científicos. / Science is a social organization: independent collaboration groups work to generate knowledge as a public good. The credibility of the scientific work is entrenched in the evidence that supports it, which includes the applied methodology, the acquired data, the processes to execute the experiments, the data analysis, and the interpretation of the obtained results. The flood of data under which current science is embedded revolutionizes the way surveys are conducted, resulting in a new paradigm of data-driven science. Under such a paradigm, new activities are inserted into the scientific method to organize the process of generation, curation, and publication of data, benefiting the scientific community with the reuse and reproducibility of scientific datasets. In this context, new approaches to problem solving are being presented, obtaining results that previously were considered of relevant difficulty, as well as making possible the generation of new knowledge. Several portals are providing datasets resulting from scientific research. However, such portals do little to address the context upon which datasets are created, making it difficult to understand the data and opening up space for misuse or misinterpretation. In the Big Data area, the dimension that proposes to deal with this aspect is called Veracity. Few studies in the literature approach such a theme, focusing on other dimensions, such as volume, variety, and velocity of data. This research aimed to define a of scientific datasets, through the establishment of an application profile, which standardizes the description of scientific datasets. This standardization of the description is based on the veracity dimension concept, which is defined throughout the research and allows the development of metrics that form the Veracity Index of scientific datasets. This index seeks to reflect the level of detail of a dataset based on the use of the descriptive elements, which will facilitate the reuse and reproducibility of the data. The index is weighted by the evaluation of the scientific community in a collaborative sense, which assess the level of description, comprehension capacity, and suitability of the dataset for a given research or application area. For the proposed collaborative evaluation model, a case study was developed that described a dataset from an international scientific project, the GoAmazon project, in order to validate the proposed model among the peers, demonstrating the potential of the solution in the reuse and reproducibility of datasets, showing that such an index can be incorporated into scientific data portals. Análise de dados Avaliação colaborativa Big data Dados científicos (Confiabilidade) Perfil de aplicação Application profile Collaborative assessment Data science Veracity
94	Modelo de avaliação de conjuntos de dados científicos por meio da dimensão de veracidade dos dados. / Scientific datasets evaluation model based on the data veracity dimension. Batista, André Filipe de Moraes 06 November 2018 (has links) A ciência é uma organização social: grupos de colaboração independentes trabalham para gerar conhecimento como um bem público. A credibilidade dos trabalhos científicos está enraizada nas evidências que os suportam, as quais incluem a metodologia aplicada, os dados adquiridos e os processos para execução dos experimentos, da análise de dados e da interpretação dos resultados obtidos. O dilúvio de dados sob o qual a atual ciência está inserida revoluciona a forma como as pesquisas são realizadas, resultando em um novo paradigma de ciência baseada em dados. Sob tal paradigma, novas atividades são inseridas no método científico de modo a organizar o processo de geração, curadoria e publicação de dados, beneficiando a comunidade científica com o reuso de conjuntos de dados científicos e a reprodutibilidade de experimentos. Nesse contexto, novas abordagens para a resolução de problemas estão sendo apresentadas, obtendo resultados que antes eram considerados de relevante dificuldade, bem como possibilitando a geração de novos conhecimentos. Diversos portais estão disponibilizando conjuntos de dados resultantes de pesquisas científicas. Todavia, tais portais pouco abordam o contexto sobre os quais os conjuntos de dados foram criados, dificultando a compreensão sobre os dados e abrindo espaço para o uso indevido ou uma interpretação errônea. Poucas são as literaturas que abordam essa problemática, deixando o foco para outros temas que lidam com o volume, a variedade e a velocidade dos dados. Essa pesquisa objetivou definir um modelo de avaliação de conjuntos de dados científicos, por meio da construção de um perfil de aplicação, o qual padroniza a descrição de conjuntos de dados científicos. Essa padronização da descrição é baseada no conceito de dimensão de Veracidade dos dados, definido ao longo da pesquisa, e permite o desenvolvimento de métricas que formam o índice de veracidade de conjuntos de dados científicos. Tal índice busca refletir o nível de detalhamento de um conjunto de dados, com base no uso dos elementos de descrição, que facilitarão o reuso dos dados e a reprodutibilidade dos experimentos científicos. O índice possui duas dimensões: a dimensão intrínseca aos dados, a qual pode ser utilizada como critério de admissão de conjunto de dados em portais de publicação de dados; e a dimensão social, mensurando a adequabilidade de um conjunto de dados para uso em uma área de pesquisa ou de aplicação, por meio da avaliação da comunidade científica. Para o modelo de avaliação proposto, um estudo de caso foi desenvolvido, descrevendo um conjunto de dados proveniente de um projeto científico internacional, o projeto GoAmazon, de modo a validar o modelo proposto entre os pares, demonstrando o potencial da solução no apoio ao reuso dos dados, podendo ser incorporado em portais de dados científicos. / Science is a social organization: independent collaboration groups work to generate knowledge as a public good. The credibility of the scientific work is entrenched in the evidence that supports it, which includes the applied methodology, the acquired data, the processes to execute the experiments, the data analysis, and the interpretation of the obtained results. The flood of data under which current science is embedded revolutionizes the way surveys are conducted, resulting in a new paradigm of data-driven science. Under such a paradigm, new activities are inserted into the scientific method to organize the process of generation, curation, and publication of data, benefiting the scientific community with the reuse and reproducibility of scientific datasets. In this context, new approaches to problem solving are being presented, obtaining results that previously were considered of relevant difficulty, as well as making possible the generation of new knowledge. Several portals are providing datasets resulting from scientific research. However, such portals do little to address the context upon which datasets are created, making it difficult to understand the data and opening up space for misuse or misinterpretation. In the Big Data area, the dimension that proposes to deal with this aspect is called Veracity. Few studies in the literature approach such a theme, focusing on other dimensions, such as volume, variety, and velocity of data. This research aimed to define a of scientific datasets, through the establishment of an application profile, which standardizes the description of scientific datasets. This standardization of the description is based on the veracity dimension concept, which is defined throughout the research and allows the development of metrics that form the Veracity Index of scientific datasets. This index seeks to reflect the level of detail of a dataset based on the use of the descriptive elements, which will facilitate the reuse and reproducibility of the data. The index is weighted by the evaluation of the scientific community in a collaborative sense, which assess the level of description, comprehension capacity, and suitability of the dataset for a given research or application area. For the proposed collaborative evaluation model, a case study was developed that described a dataset from an international scientific project, the GoAmazon project, in order to validate the proposed model among the peers, demonstrating the potential of the solution in the reuse and reproducibility of datasets, showing that such an index can be incorporated into scientific data portals. Análise de dados Application profile Avaliação colaborativa Big data Collaborative assessment Dados científicos (Confiabilidade) Data science Perfil de aplicação Veracity
95	Modelagem de mortalidade natural e superdispersão em dados entomológicos / Modelling natural mortality and overdispersion in entomologic data Urbano, Mariana Ragassi 24 May 2012 (has links) Para dados provenientes de bioensaios entomol´ogicos, na maioria das vezes, ´e necess´ario levar em considera¸cao a ocorrencia de mortalidade natural e a superdispers ao. Para incorporar a mortalidade natural, pode-se utilizar a f´ormula de Abbott, que associada ao modelo binomial, caracteriza o modelo padrao de mortalidade natural. Modelos padroes de superdispersao incluem os modelos beta-binomial, log´stico normal, misturas discretas e o uso do fator de heterogeneidade. Como alternativa aos modelos padrao de mortalidade natural, e de mortalidade natural com o fator de heterogeneidade, foi desenvolvido o modelo de mortalidade natural com a inclusao de um efeito aleat´orio no preditor linear, para melhor acomodar a superdispersao. Para obter as estimativas dos parametros desse novo modelo, foram usados os algoritmos de Newton Raphson e EM. Para a verifica¸cao dos ajustes dos modelos foram usados gr´aficos semi-normais de probabilidade com envelopes de simula¸cao, e para realizar a compara¸cao entre os modelos foram utilizados o teste da razao de verossimilhan¸cas e o crit´eiro AIC. A seguir, foram calculadas as estimativas das doses efetivas. Os procedimentos foram todos implementados no software R. Como aplica¸cao, foram analisados tres conjuntos de dados, provenientes de ensaios entomol´ogicos. Para os tres conjuntos de dados, concluiu-se que o modelo de mortalidade natural com efeito aleat´orio ´e superior aos procedimentos padroes, geralmente, utilizados. / When fitting dose-response models to entomological data it is often necessary to take account of natural mortality and/or overdispersion. The standard approach to handle natural mortality is to use Abbotts formula, which allows for a constant underlying mortality rate. Standard overdispersion models include beta-binomial models, logistic-normal, discrete mixtures and the use of the heterogeneity factor. We extend the standard natural mortality model and include a random effect to handle the overdispersion. To obtain the parameters estimates of this new model, two algorithms were used: the Newton Raphson and the EM. For the application, were used three data sets. We introduce the likelihood ratio test, effective dose, and simulated envelope for the natural mortality model with a random effect. The procedures are implemented in the R system. For the three the data sets studied, a significant further improvement in the fit is possible by using the random-effect model. Algorithms Análise de dados Bioassays Bioensaios Data Analysis Generalized linear models Modelos lineares generalizados Modelos mistos Mortalidade natural Natural mortality
96	Modelos de transição para dados binários / Transition models for binary data Lara, Idemauro Antonio Rodrigues de 31 October 2007 (has links) Dados binários ou dicotômicos são comuns em muitas áreas das ciências, nas quais, muitas vezes, há interesse em registrar a ocorrência, ou não, de um evento particular. Por outro lado, quando cada unidade amostral é avaliada em mais de uma ocasião no tempo, tem-se dados longitudinais ou medidas repetidas no tempo. é comum também, nesses estudos, se ter uma ou mais variáveis explicativas associadas às variáveis respostas. As variáveis explicativas podem ser dependentes ou independentes do tempo. Na literatura, há técnicas disponíveis para a modelagem e análise desses dados, sendo os modelos disponíveis extensões dos modelos lineares generalizados. O enfoque do presente trabalho é dado aos modelos lineares generalizados de transição para a análise de dados longitudinais envolvendo uma resposta do tipo binária. Esses modelos são baseados em processos estocásticos e o interesse está em modelar as probabilidades de mudanças ou transições de categorias de respostas dos indivíduos no tempo. A suposição mais utilizada nesses processos é a da propriedade markoviana, a qual condiciona a resposta numa dada ocasião ao estado na ocasião anterior. Assim, são revistos os fundamentos para se especificar tais modelos, distinguindo-se os casos estacionário e não-estacionário. O método da máxima verossimilhança é utilizado para o ajuste dos modelos e estimação das probabilidades. Adicionalmente, apresentam-se testes assintóticos para comparar tratamentos, baseados na razão de chances e na diferença das probabilidades de transição. Outra questão explorada é a combinação do modelo de efeitos aleatórios com a do modelo de transição. Os métodos são ilustrados com um exemplo da área da saúde. Para esses dados, o processo é considerado estacionário de ordem dois e o teste proposto sinaliza diferença estatisticamente significativa a favor do tratamento ativo. Apesar de ser uma abordagem inicial dessa metodologia, verifica-se, que os modelos de transição têm notável aplicabilidade e são fontes para estudos e pesquisas futuras. / Binary or dichotomous data are quite common in many fields of Sciences in which there is an interest in registering the occurrence of a particular event. On the other hand, when each sampled unit is evaluated in more than one occasion, we have longitudinal data or repeated measures over time. It is also common, in longitudinal studies, to have explanatory variables associated to response measures, which can be time dependent or independent. In the literature, there are many approaches to modeling and evaluating these data, where the models are extensions of generalized linear models. This work focus on generalized linear transition models suitable for analyzing longitudinal data with binary response. Such models are based on stochastic processes and we aim to model the probabilities of change or transitions of individual response categories in time. The most used assumption in these processes is the Markov property, in which the response in one occasion depends on the immediately preceding response. Thus we review the fundamentals to specify these models, showing the diferences between stationary and non-stationary processes. The maximum likelihood approach is used in order to fit the models and estimate the probabilities. Furthermore, we show asymptotic tests to compare treatments based on odds ratio and on the diferences of transition probabilities. We also present a combination of random-efects model with transition model. The methods are illustrated with health data. For these data, the process is stationary of order two and the suggested test points to a significant statistical diference in favor of the active treatment. This work is an initial approach to transition models, which have high applicability and are great sources for further studies and researches. Análise de dados longitudinais Analysis of longitudinal data Generalized linear model Likelihood Modelos lineares generalizados Processos estocásticos Stochastic processes Verossimilhança
97	A Distribuição de Populações Estelares em Galáxias / The Distribution of Stellar Populations within Galaxies Novais, Patricia Martins de 27 September 2013 (has links) O estudo de populações estelares em galáxias é particularmente interessante, uma vez que são um registro fóssil de vários processos físicos associados com a formação e evolução das galáxias. Neste trabalho são apresentados os resultados preliminares de uma nova abordagem para o estudo da distribuição de populações estelares no interior das galáxias. A partir das magnitudes ugriz de uma amostra de galáxias, utilizou-se a análise PCA e a determinação de diversos parâmetros para estudar a distribuição espacial das populações estelares nas galáxias. Utilizando uma abordagem píxel a píxel, as populações estelares são investigadas através da aplicação de variadas ferramentas estatísticas, tais como índices de Gini e Funcionais de Minkowski. Esta abordagem é um passo a frente no estudo de galáxias, no sentido que a análise pode ser aprofundada em cada píxel da galáxia, ao invés de estudar a galáxia como um todo. A aplicação de tal tratamento aos píxeis de uma imagem permite a obtenção de estimativas quantitativas sobre a forma como as diferentes populações estelares são distribuídos dentro de uma galáxia, trazendo dicas sobre como elas crescem e evoluem. Nossos resultados preliminares mostraram que uma metodologia píxel a píxel é eficiente no estudo das galáxias. Analisando 15 galáxias de tipos distintos, observou-se que as mesmas possuem populações estelares velhas no centro e novas nas regiões periféricas, corroborando com o cenário inside-out de formação de galáxias. Dada a potencialidade do método desenvolvido, pretende-se automatiza-lo para aplicação em dados de grandes surveys. / The study of stellar populations in galaxies is particularly interesting since they are a fossil record of various physical processes associated with the formation and evolution of galaxies. This work presents the preliminary results of a new approach to the study of the spatial distribution of stellar populations within a galaxy. From the ugriz magnitudes of a sample of galaxies, we used the PCA analysis and determination of various parameters to study the spatial distribution of the stellar populations in galaxies. Using a pixel by pixel approach, the stellar populations are investigated through the application of various statistical tools, such as Gini indexes and Minkowski Functional. This approach is a step forward in the study of galaxies, in the sense that the analysis can be deepened in each pixel of the galaxy, rather than studying the galaxy as a whole. The application of such treatment to the pixels of an image allows to obtain quantitative estimates on how the different stellar populations are distributed within a galaxy, bringing tips on how they grow and evolve. Our preliminary results showed that a pixel by pixel approach is efficient in the study of galaxies. Analyzing 15 galaxies of different types, we observed that they have old stellar populations in the central regions and younger stellar population in the peripheral regions, corroborating the scenario inside-out formation of galaxies. Given the potential of the developed method, the aim is automate and to apply it in data of large surveys. Análise de Dados Astrofísica Extragaláctica data analysis Formação e Evolução de Galáxias formation and evolution of galaxies image processing Populações Estelares stellar population
98	Análise de dados funcionais aplicada ao estudo de repetitividade e reprodutividade : ANOVA das distâncias Pedott, Alexandre Homsi January 2010 (has links) Esta dissertação apresenta um método adaptado do estudo de repetitividade e reprodutibilidade para analisar a capacidade e o desempenho de sistemas de medição, no contexto da análise de dados funcionais. Dado funcional é a variável de resposta dada por uma coleção de dados que formam um perfil ou uma curva. O método adaptado contribui para o avanço do estado da arte sobre a análise de sistemas de medição. O método proposto é uma alternativa ao uso de métodos tradicionais de análise, que usados de forma equivocada, podem deteriorar a qualidade dos produtos monitorados através de variáveis de resposta funcionais. O método proposto envolve a adaptação de testes de hipótese e da análise de variância de um e dois fatores usados em comparações de populações, na avaliação de sistemas de medições. A proposta de adaptação foi baseada na utilização de distâncias entre curvas. Foi usada a Distância de Hausdorff como uma medida de proximidade entre as curvas. A adaptação proposta à análise de variância foi composta de três abordagens. Os métodos adaptados foram aplicados a um estudo simulado de repetitividade e reprodutibilidade. O estudo foi estruturado para analisar cenários em que o sistema de medição foi aprovado e reprovado. O método proposto foi denominado de ANOVA das Distâncias. / This work presents a method to analyze a measurement system's performance in a functional data analysis context, based on repeatability and reproducibility studies. Functional data are a collection of data points organized as a profile or curve. The proposed method contributes to the state of the art on measurement system analysis. The method is an alternative to traditional methods often used mistakenly, leading to deterioration in the quality of products monitored through functional responses. In the proposed method we adapt hypothesis tests and one-way and two-way ANOVA to be used in measurement system analysis. The method is grounded on the use of distances between curves. For that matter the Hausdorff distance was chosen as a measure of proximity between curves. Three ANOVA approaches were proposed and applied in a simulated repeatability and reproducibility study. The study was structured to analyze scenarios in which the measurement system was approved or rejected. The proposed method was named ANOVA of the distances. Controle de qualidade Análise de dados funcionais Functional data analysis Measurement systems R & R studies ANOVA Functional ANOVA
99	Estimação de modelos geoestatísticos com dados funcionais usando ondaletas / Estimation of Geostatistical Models with Functional Data using Wavelets Sassi, Gilberto Pereira 03 March 2016 (has links) Com o recente avanço do poder computacional, a amostragem de curvas indexadas espacialmente tem crescido principalmente em dados ecológicos, atmosféricos e ambientais, o que conduziu a adaptação de métodos geoestatísticos para o contexto de Análise de Dados Funcionais. O objetivo deste trabalho é estudar métodos de krigagem para Dados Funcionais, adaptando os métodos de interpolação espacial em Geoestatística. Mais precisamente, em um conjunto de dados funcionais pontualmente fracamente estacionário e isotrópico, desejamos estimar uma curva em um ponto não monitorado no espaço buscando estimadores não viciados com erro quadrático médio mínimo. Apresentamos três abordagens para aproximar uma curva em sítio não monitorado, demonstramos resultados que simplificam o problema de otimização postulado pela busca de estimadores ótimos não viciados, implementamos os modelos em MATLAB usando ondaletas, que é mais adequada para captar comportamentos localizados, e comparamos os três modelos através de estudos de simulação. Ilustramos os métodos através de dois conjuntos de dados reais: um conjunto de dados de temperatura média diária das províncias marítimas do Canadá (New Brunswick, Nova Scotia e Prince Edward Island) coletados em 82 estações no ano 2000 e um conjunto de dados da CETESB (Companhia Ambiental do Estado de São Paulo) referentes ao índice de qualidade de ar MP10 em 22 estações meteorológicas na região metropolitana da cidade de São Paulo coletados no ano de 2014. / The advance of the computational power in last decades has been generating a considerable increase in datasets of spatially indexed curves, mainly in ecological, atmospheric and environmental data, what have leaded to adjustments of geostatistcs for the context of Functional Data Analysis. The goal of this work is to adapt the kriging methods from geostatistcs analysis to the framework of Functional Data Analysis. More precisely, we shall interpolate a curve in an unvisited spot searching for an unbiased estimator with minimum mean square error for a pointwise weakly stationary and isotropic functional dataset. We introduce three different approaches to estimate a curve in an unvisited spot, we demonstrate some results simplifying the optimization problem postulated by the optimality from these estimators, we implement the three models in MATLAB using wavelets and we compare them by simulation. We illustrate the ideas using two dataset: a real climatic dataset from Canadian maritime provinces (New Brunswick, Nova Scotia and Prince Edward Island) sampled at year 2000 in 82 weather station consisting of daily mean temperature and data from CETESB (environmental agency from the state of São Paulo, Brazil) sampled at 22 weather station in the metropolitan region of São Paulo city at year 2014 consisting of the air quality index PM10. Análise de dados funcionais Estatística espacial Functional Data Analysis Geoestatística Geostatistcs Krigagem Kriging MATLAB MATLAB Ondaletas Spatial Statistics Wavelets
100	A Distribuição de Populações Estelares em Galáxias / The Distribution of Stellar Populations within Galaxies Patricia Martins de Novais 27 September 2013 (has links) O estudo de populações estelares em galáxias é particularmente interessante, uma vez que são um registro fóssil de vários processos físicos associados com a formação e evolução das galáxias. Neste trabalho são apresentados os resultados preliminares de uma nova abordagem para o estudo da distribuição de populações estelares no interior das galáxias. A partir das magnitudes ugriz de uma amostra de galáxias, utilizou-se a análise PCA e a determinação de diversos parâmetros para estudar a distribuição espacial das populações estelares nas galáxias. Utilizando uma abordagem píxel a píxel, as populações estelares são investigadas através da aplicação de variadas ferramentas estatísticas, tais como índices de Gini e Funcionais de Minkowski. Esta abordagem é um passo a frente no estudo de galáxias, no sentido que a análise pode ser aprofundada em cada píxel da galáxia, ao invés de estudar a galáxia como um todo. A aplicação de tal tratamento aos píxeis de uma imagem permite a obtenção de estimativas quantitativas sobre a forma como as diferentes populações estelares são distribuídos dentro de uma galáxia, trazendo dicas sobre como elas crescem e evoluem. Nossos resultados preliminares mostraram que uma metodologia píxel a píxel é eficiente no estudo das galáxias. Analisando 15 galáxias de tipos distintos, observou-se que as mesmas possuem populações estelares velhas no centro e novas nas regiões periféricas, corroborando com o cenário inside-out de formação de galáxias. Dada a potencialidade do método desenvolvido, pretende-se automatiza-lo para aplicação em dados de grandes surveys. / The study of stellar populations in galaxies is particularly interesting since they are a fossil record of various physical processes associated with the formation and evolution of galaxies. This work presents the preliminary results of a new approach to the study of the spatial distribution of stellar populations within a galaxy. From the ugriz magnitudes of a sample of galaxies, we used the PCA analysis and determination of various parameters to study the spatial distribution of the stellar populations in galaxies. Using a pixel by pixel approach, the stellar populations are investigated through the application of various statistical tools, such as Gini indexes and Minkowski Functional. This approach is a step forward in the study of galaxies, in the sense that the analysis can be deepened in each pixel of the galaxy, rather than studying the galaxy as a whole. The application of such treatment to the pixels of an image allows to obtain quantitative estimates on how the different stellar populations are distributed within a galaxy, bringing tips on how they grow and evolve. Our preliminary results showed that a pixel by pixel approach is efficient in the study of galaxies. Analyzing 15 galaxies of different types, we observed that they have old stellar populations in the central regions and younger stellar population in the peripheral regions, corroborating the scenario inside-out formation of galaxies. Given the potential of the developed method, the aim is automate and to apply it in data of large surveys. Análise de Dados Astrofísica Extragaláctica Formação e Evolução de Galáxias Populações Estelares data analysis formation and evolution of galaxies image processing stellar population

Search results