Global ETD Search

11	Emprego de funções de densidade de probabilidade na modelagem da distribuição diamétrica de clones de Eucalyptus spp. no polo gesseiro do Araripe ABREU, Yara Karolynne Lopes 22 January 2018 (has links) Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-05-11T12:48:53Z No. of bitstreams: 1 Yara Karolynne Lopes Abreu.pdf: 2615417 bytes, checksum: e3c48d995bce28fcde0f026e7c9812e9 (MD5) / Made available in DSpace on 2018-05-11T12:48:53Z (GMT). No. of bitstreams: 1 Yara Karolynne Lopes Abreu.pdf: 2615417 bytes, checksum: e3c48d995bce28fcde0f026e7c9812e9 (MD5) Previous issue date: 2018-01-22 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / When plating energy forests, it is interesting to quantify and predict its stock. The diameter distribution is a simple and powerful tool to characterize the structure of a forest and serves as an indicator of the growth stock structure. Therefore, the objective of this work is to apply different probability density functions (pdf) to explain the behavior of the diametric distribution of the Eucalyptus spp. clones according to different ages and population densities in the Gypsum Pole of Araripe. Therefore, it was adjusted the diametric distribution of three clones at five planting densities (2m x 1m; 2m x 2m; 2m x 3m; 3m x 3m; 4m x 2m) by the pdfs Beta, Dagum, Gamma, Normal, Johnson SB and Weibull at ages 48, 54 and 60 months. The choice of the best model was based on the results of two methodologies: statistical ranking and analysis of variance with Tukey test (5% significance). It was found that the function that best described the diameter distribution of Eucalyptus spp. clones was Dagum, while Gamma presented the worst adjustments for most of the scenarios analyzed. The method of selection by rankings, although widely used in the forest science, tends to assign different weights to statistics that do not differ, whereas the comparison of means by the Tukey test, although it does not take into account the number of parameters used in each function, is an alternative to understand the general behavior of the estimates and to verify if there are tendencies of underestimation or overestimation of values. / Quando se opta pelo plantio de florestas energéticas é interessante conseguir quantificar e prognosticar o estoque dessas. A distribuição diamétrica é uma ferramenta simples e poderosa para caracterizar a estrutura de uma floresta, além de ser uma indicadora da estrutura do estoque em crescimento. Diante disto, objetiva-se, com a realização do presente trabalho, aplicar diferentes funções de densidade de probabilidade (fdp) para explicar o comportamento da distribuição diamétrica de clones de Eucalyptus spp. em função de diferentes idades e densidades populacionais no Polo Gesseiro do Araripe. Para tanto, se ajustou a distribuição diamétrica de três clones em cinco densidades de plantio (2m x 1m; 2m x 2m; 2m x 3m; 3m x 3m; 4m x 2m) pelas fdps Beta, Dagum, Gamma, Normal, SB Johnson e Weibull nas idades de 48, 54 e 60 meses. A escolha do melhor modelo foi baseada nos resultados de duas metodologias: ranqueamento de estatísticas e análise de variância com comparação de médias pelo teste de Tukey (5% de significância). Constatou-se que a função que melhor descreveu a distribuição do diâmetro dos clones de Eucalyptus spp foi a fdp Dagum, enquanto a Gamma apresentou os piores ajustes para a maioria dos cenários analisados. O método de seleção por ranqueamento, apesar de bastante utilizado na área florestal, tende a atribuir pesos distintos a estatísticas que não diferem entre si, enquanto a comparação de médias pelo teste de Tukey, apesar de não levar em consideração o número de parâmetros utilizados em cada função, é uma alternativa para entender o comportamento geral das estimativas e verificar se existem tendências de subestimação ou superestimação de valores. Distribuição diamétrica Análise de variância Eucalyptus
12	Métodos multivariados aplicados para classificação de azeite de oliva extra virgem LIMA, Iloane dos Santos 31 August 2017 (has links) Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-05-14T14:30:23Z No. of bitstreams: 1 Iloane dos Santos Lima.pdf: 1544015 bytes, checksum: 45f0151a2dca3ae905e03d78d4c0d0a3 (MD5) / Made available in DSpace on 2018-05-14T14:30:23Z (GMT). No. of bitstreams: 1 Iloane dos Santos Lima.pdf: 1544015 bytes, checksum: 45f0151a2dca3ae905e03d78d4c0d0a3 (MD5) Previous issue date: 2017-08-31 / Metabomics is a strategy that is based on the identification of patterns of a particular biological problem, by obtaining spectroscopic / spectrometric data of a given biofluid, the use of statistics to extract this information contributes significantly to the achievement of group classification. Thus, the present work aimed at the use of the meta-monetary strategy, based on nuclear magnetic resonance spectra of hydrogen and multivariate statistical techniques of grouping (principal component analysis (PCA), Fuzzy grouping) of samples of extra virgin olive oil. Were used 40 samples of extra virgin olive oil for this study. From the spectral data matrix, we used the pre-processing normalization by summation, in the samples. From the PCA, 99.1% of the variance explained using two components only, it was not possible to observe natural clusters of the data. with the application of the Fuzzy grouping, it was verified that there was distinction of the groups in organic and common, obtaining 65% confidence. The validation made by the silhouette index, which presented s (i) of 0.73, demonstrating that the adopted grouping presents adequate strength and criteria of distinction. Thus, the fuzzy grouping method was the most indicated in the construction of a classification model of samples of extra virgin olive oil, distinguishing their different modes of production, organic and common. / Metabonômica é uma estratégia que baseia- se na identificação de padrões de um determinado problema biológico, por meio da obtenção de dados espectroscópicos/espectrométricos de um dado biofluido, o uso da estatística para extração dessas informações contribui significativamente para realização de classificações de grupos. Desse modo, o presente trabalho objetivou-se ao uso da estratégia metabonômica, baseados em espectros de ressonância magnética nuclear de hidrogênio (RMN 1H) e técnicas estatísticas multivariadas de agrupamento (Análise de Componentes Principais (PCA), Agrupamento Fuzzy) de amostras de azeite de oliva extra virgem. Utilizou-se 40 amostras de azeite de oliva extra virgem para este estudo. A partir da matriz de dados espectrais, utilizou-se o pré-processamento normalização pela soma, nas amostras. A partir da PCA, 99,1% da variância explicada utilizando dois componentes apenas, não foi possível observar agrupamentos naturais dos dados. Com a aplicação do agrupamento Fuzzy, constatou-se que houve distinção dos grupos em orgânico e comum, obtendo 65% de confiança. A validação feita pelo índice da silhueta, que apresentou 𝑆(𝑖) de 0,73, demonstrado que o agrupamento adotado apresenta força e critério de distinção adequados. Desse modo, o método de agrupamento Fuzzy foi o mais indicado para a construção de um modelo de classificação de amostras de azeite extra virgem, distinguindo seus diferentes modos de produção, orgânico e comum. Metabonômica Método multivariado Azeite de oliva
13	Development of a mixed model using generalized renewal processes and the weibull distribution FERREIRA, Ricardo José 29 January 2016 (has links) Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-05-15T13:58:25Z No. of bitstreams: 1 Ricardo Jose Ferreira.pdf: 1514159 bytes, checksum: 365dd17d70da575c6399efe53acf1631 (MD5) / Made available in DSpace on 2018-05-15T13:58:25Z (GMT). No. of bitstreams: 1 Ricardo Jose Ferreira.pdf: 1514159 bytes, checksum: 365dd17d70da575c6399efe53acf1631 (MD5) Previous issue date: 2016-01-29 / In order to analyze interventions in repairable systems, the literature contains several methodologies aiming to model the behavior of times between interventions. Such interventions can be modeled by Point Stochastic Processes in order to analyze the probabilistic behavior of times between events. Specifically, the Generalized Renewal Processes allow the study of times between interventions by measuring the quality of each intervention and the response of the system to these interventions — this is done by using the concept of virtual age. In such concept it is possible to apply two kinds of Kijima models (Type I and II). Therefore, this work presents a model capable of study the quality of interventions using up of a mix between the two Kijima models where it is possible to capture the performance on each of these interventions proportionally. Specifically, a new approach to virtual age of Kijima models is presented as well as mathematical properties of the Generalized Renewal Process using the Weibull distribution probability. Finally, the applicability of the model is checked in real data from some problems found in the literature. / Para analisar intervenções em sistemas reparáveis, a literatura apresenta diversas metodologias visando modelar o comportamento de tempos entre intervenções. Tais intervenções podem ser modeladas por Processos Estocásticos Pontuais visando analisar o comportamento probabilístico dos tempos entre eventos. Especificamente, os Processos de Renovação Generalizados permitem o estudo de tempos entre intervenções medindo a qualidade de impacto de cada intervenção e a resposta do sistema a tais intervenções - isto é feito utilizando o conceito de idade virtual. Em tal conceito é possível se aplicar dois tipos de modelos Kijima (tipo I e II).Sendo assim, esse trabalho apresenta um modelo capaz de estudar a qualidade de intervenções utilizando-se de uma mistura entre os dois modelos Kijima onde é possível capturar a atuação de cada um desses sobre as intervenções proporcionalmente. Especificamente, uma nova abordagem sobre a idade virtual dos modelos Kijima é apresentada, bem como propriedades matemáticas dos Processos de Renovação Generalizados utilizando a distribuição de probabilidadeWeibull. Por fim, a aplicabilidade do modelo é verificada em dados reais de alguns problemas presentes na literatura. Sistema reparável Modelos Kijima
14	Cópulas para combinação de modelos de séries temporais ASSIS, Thaíze Fernandes Oliveira de 29 June 2016 (has links) Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-05-15T14:12:27Z No. of bitstreams: 1 Thaize Fernandes Oliveira de Assis.pdf: 4665598 bytes, checksum: 11c912695afd97c1b15ec1c49cc0a093 (MD5) / Made available in DSpace on 2018-05-15T14:12:27Z (GMT). No. of bitstreams: 1 Thaize Fernandes Oliveira de Assis.pdf: 4665598 bytes, checksum: 11c912695afd97c1b15ec1c49cc0a093 (MD5) Previous issue date: 2016-06-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Time series combined forecasts have shown better results than individual models in terms of both accuracy as efficiency. Alternatives of aggregation well adopted are linear combination, which include methods such as the simple average and the weighted average resultant method of minimum variance here named Classic Model (CM) due to coincide with the maximum likelihood estimator under the assumption that the errors of the individual models follow a multivariate normal distribution. Thus, it has been usual to assume the normality of the errors of the individual models. However, improper assumption of normality may result in biased estimators and thus misleading estimates of the aggregated model. This thesis proposes a method for maximum likelihood predictors focused on aggregating time series forecasting models through copulas, where the errors of these individual models can not be normally distributed. The models via copulas are multivariate functions that operate on the marginal probability distribution, allowing the modeling of the prediction errors, and after, the dependency structure between these predictors. The usefulness of the proposed combined model via copula Frank and Gumbel is illustrated by study eight phenomena of the real world: three fish growth series (yellow tuna, striped seabream and bigeye tuna species), four financial series (Nasdaq (ND), Google (GG), S&P500 (SP) and Dow jones (DJ) and one time series of precipitation. For fish growth series, the following individual models were considered: VBGM (Von Bertalanffy Growth Model), Gompertz, logistic, generalized VBGM and Schnute-Richards. Regarding financial ND series, GG, SP and DJ, the individual models for each case are: ANN (Artificial Neural Network) TAEF (Timedelay Added Evolutionary Forecasting) and ARIMA (AutoRegressive Integrated Moving Average). And for the series of precipitation, nine GARCH (Generalized Autoregressive Conditional heteroscedasticity) are involved. The performance of the proposed combined model is highlighted by means of a comparison with the individual and combined models SA and MC through the Mean Squared Error (MSE). In this sense, it can clearly be seen the usefulness of the combined estimator proposed via Frank and Gumbel copulas. These combined estimators achieve better results when at least one marginal distribution of errors of individuais models not follow a normal distribution. Discussions about the best performance of these copulas in combining determined models, to the detriment of all those available, are also presented. / Previsões combinadas de séries temporais têm mostrado resultados superiores aos modelos individuais tanto em termos de acurácia quanto de eficiência. Uma das alternativas de agregação bastante adotadas são as combinações lineares, que contemplam métodos como a média simples (SA do inglês Simple Aveage) e a média ponderada, resultante do método de mínima variância, aqui nomeado de Modelo Clássico (MC), devido a coincidir com o estimador de máxima verossimilhança sob a suposição de que os erros dos modelos individuais seguem uma distribuição normal multivariada. Desta maneira, tem sido usual supor a normalidade dos erros dos modelos individuais. Contudo, a suposição inadequada de normalidade pode resultar em estimadores viesados e, assim, estimativas equivocadas do modelo agregado. A presente tese propõe um método para obter preditores de máxima verossimilhança voltados à agregação de modelos de previsão de séries temporais por meio de cópulas, onde os erros desses modelos individuais podem não ser normalmente distribuídos. Os modelos via cópulas são funções multivariadas que operam na distribuição de probabilidade marginal, permitindo modelar os resíduos de previsão e, em seguida, a estrutura de dependência entre estes preditores. A utilidade do modelo combinado proposto mediante as cópulas Frank e Gumbel é ilustrada por meio do estudo de oito fenômenos do mundo real: três séries de crescimento de peixes (espécies yellow tuna, striped seabream e bigeye tuna), quatro séries financeiras (Nasdaq (ND), Google (GG), S&P500 (SP) e Dow jones (DJ)) e uma série de precipitação. Para as séries de crescimento de peixes, os seguintes modelos individuais foram agregados: VBGM (Von Bertalanffy Growth Model), Gompertz, logístico, VBGM generalizado e Schnute-Richards. Em relação às séries financeiras ND, GG, SP e DJ, os modelos individuais para cada caso são: ANN (Artificial Neural Network), TAEF (Time-delay Added Evolutionary Forecasting) e ARIMA (Auto-regressivo integrado de média móvel). E para a série de precipitação, são envolvidos nove modelos GARCH (Generalized Autoregressive Conditional Heteroscedasticity). O desempenho do modelo combinado proposto é destacado pela comparação com os modelos individuais e combinados SA e MC, através do Erro Quadrático Médio (EQM). Neste sentido, observa-se claramente a utilidade do estimador combinado proposto via cópulas Frank e Gumbel. Estes estimadores combinados apresentam-se ainda com mais destaque quando se trata do caso em que pelo menos uma das distribuições marginais dos erros dos modelos individuais não seguem uma distribuição normal. Discussões sobre o melhor desempenho destas cópulas em combinar determinados modelos, em detrimento de todos aqueles disponíveis, são também apresentadas. Modelo de previsão Série temporal Cópula
15	Reconhecimento automático de expressões faciais baseado em modelagem estatística Pedroso, Felipe José Coelho 28 March 2013 (has links) Made available in DSpace on 2016-12-23T14:07:23Z (GMT). No. of bitstreams: 1 Felipe Jose Coleho Pedroso_frontispicio.pdf: 1036866 bytes, checksum: 151c0d29a07012b8556291c387c1425f (MD5) Previous issue date: 2013-03-28 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / As expressões faciais são alvos constante de estudos desde Charles Darwin, em 1872. Pesquisas na área de psicologia e, em destaque, os trabalhos de Paul Ekman afirmam que existem expressões faciais universais básicas e elas são manifestadas em todos os seres humanos independente de fatores como gênero, idade, cultura e ambiente social. Ainda pode-se criar novas expressões mais complexas combinando as expressões fundamentais de alegria, tristeza, medo, nojo, raiva, surpresa e desprezo, além da face neutra. O assunto ainda é atual, uma vez que há uma grande necessidade de implementar interfaces homem-máquinas (IHM) capazes de identificar a expressão de um indivíduo e atribuir uma saída condizente com a situação observada. Pode-se citar como exemplos iterações homem-robô, sistemas de vigilância e animações gráficas. Nesse trabalho é proposto um sistema automático para identificar expressões faciais. O sistema é dividido em três etapas: localização de face, extração de características e identificação da expressão facial. O banco de dados Japanese Facial Expression Database - JAFFE foi utilizado para treinamentos e testes . A localização da face é realizada de maneira automática através do framework proposto por Viola-Jones e é estimado o centro da face. Na sequência, utiliza-se o algoritmo Active Appearance Model -AAM para descrever estatisticamente um modelo de forma e textura para o banco de dados. Com esse descritor é possível gerar um vetor de aparência capaz de representar, com redução de dimensão, uma face e, consequentemente, a expressão facial contida nela através de um algoritmo iterativo de busca a partir de um modelo médio. Esse vetor é utilizado na etapa de reconhecimento das expressões faciais, onde são testados os classificadores baseados no vizinho mais próximo k-NN e a máquina de vetores de suporte - SVM com kernel RBF para tratar o problema de forma não linear. É proposto um mecanismo de busca na saída do bloco de detecção de faces para diminuir o erro do modelo, pois o sucesso do algoritmo é altamente dependente do ponto inicial de busca. Também é proposto uma mudança no algoritmo AAM para redução do erro de convergência entre a imagem real e o modelo sintético que a representa, abordando o problema de forma não linear. Testes foram realizados utilizando a validação cruzada leave one out para todas as expressões faciais e o classificador SVM-RBF. O sistema apresentou um taxa de acerto de 55,4%, com sensibilidade 60,25% e especificidade 93,95% / Facial expressions are constant targets of studies since Charles Darwin in 1872. Research in psychology and highlighted the work of Paul Ekman claim that there are universal basic facial expressions and they are expressed in all human beings regardless of factors such as gender, age, culture and social environment. Although you can create new more complex expressions combining the fundamental expressions of happiness, sadness, fear, disgust, anger, surprise and contempt, beyond the neutral face. The matter is still relevant, since there is a great need to implement human machine interfaces (HMI) able to identify the expression of an individual and assign an output consistent with the observed situation. One can cite as examples iterations man-robot surveillance and motion graphics. In this work it/ s proposed an automatic system to identify facial expressions. The system is divided into three blocks: face localization, feature extraction and identification of facial expression. The Japanese Facial Expression Database - JAFFE was used for training and testing. The location of the face is done automatically using the framework proposed by Viola and Jones estimating center of the face. Following the Active Appearance Model - AAM algorithm is used to describe statistical model of shape and texture to the database. With this descriptor is possible to generate a vector capable of representing faces with reduced dimension and hence the facial expression contained therein through an iterative search algorithm from an average model. This vector is used in recognizing facial expressions block, where the classifiers are tested based on the nearest neighbor k-NN and support vector machine - SVM with RBF kernel to address the problem of non-linear way. A mechanism to decrease the error of the model is proposed before the output of the face detection block, because the success of the algorithm is highly dependent on the starting point of the search. A change in the AAM algorithm is also proposed to reduce the convergence error between actual and synthetic model that is addressing the problem of nonlinear way. Tests were conducted using leave one out cross validation for all the facial expressions and the final classifier was SVM-RBF. The system has an accuracy rate of 55.4%, with 60,25% sensitivity and 93,95% specificity Processamento de imagens Interação homem-máquina Sistemas de reconhecimento de padrões Expressão facial Aprendizado do computador
16	Abordagem bayesiana da isoterma de langmuir CARVALHO, Diailison Teixeira de 12 February 2016 (has links) Os metais-traço são contaminantes altamente tóxicos presentes sobretudo no meio aquático. Uma técnica eficiente para remoção desses metais-traço é o processo de adsorção. Em estudos laboratoriais relacionados à adsorção há a geração de materiais contaminados, o que implica em riscos socioambientais, além de custos adicionais associados ao tratamento e descarte apropriado dos resíduos tóxicos gerados. Diante disso, há uma limitação prática na quantidade de amostra disponível. O processo de adsorção pode ser descrito por isotermas de adsorção, das quais a mais conhecida é a isoterma de Langmuir. Esta isoterma apresenta o parâmetro k, relacionado à energia de adsorção, e o parâmetro M, que indica a capacidade máxima de adsorção do metal em uma matriz adsorvente. A estimação destes parâmetros geralmente baseia-se em métodos assintóticos, portanto para tamanhos de amostras pequenas as estimativas tendem a apresentar baixa precisão e acurácia. Desse modo, há um impasse em como obterem-se estimativas precisas e acuradas e ao mesmo tempo utilizar-se de amostras de tamanho reduzido. Objetivando superar este problema, foi estudado neste trabalho, a aplicação da inferência bayesiana no ajuste da isoterma de Langmuir considerando prioris informativas e não informativas. Realizou-se então um estudo de simulação de dados com tamanhos amostrais de 5, 6, 7, 9, 12, 15, 20, 25 e 30, analisados em dois cenários com diferentes valores de M e k. Para avaliar a precisão foram utilizados o erro quadrático médio e a amplitude do intervalo HPD ao nível de 95% de credibilidade, para a acurácia o viés médio relativo absoluto. Amostras das distribuições marginais a posteriori dos parâmetros foram obtidas pelo amostrador de Gibbs. As inferências foram realizadas e os resultados indicaram que as estimativas obtidas com uso das prioris informativas apresentaram maiores precisão e acurácia mesmo em tamanhos amostrais inferiores. Posteriormente ajustou-se a isoterma sobre dados experimentais de adsorção de chumbo Pb2+ em cascas de laranja, considerando as prioris propostas e os resultados obtidos corroboraram com o estudo de simulação. Assim, a metodologia bayesiana mostrou-se eficiente para a estimação dos parâmetros da isoterma de Langmuir e o uso de prioris informativas permitiu a obtenção de estimativas com precisão e acurácia satisfatórias para tamanhos amostrais relativamente inferiores, o que permite contornar a limitação prática da quantidade de amostra disponível em estudos reais de adsorção. / The trace metals are highly toxic contaminants particularly in the aquatic environment. The adsorption process is an efficient technique for removing these trace metals. There is a generation of contaminated materials in studies laboratory related to adsorption, it this implies social and environmental risks and additional costs associated with treatment and proper disposal of toxic waste. This fact brings a practical limitation on the amount of sample to be used. The adsorption process can be described by functions called adsorption isotherms. The Langmuir isotherm is one of the most used. This isotherm shows the parameter k related to the energy of adsorption, and the M parameter which indicates the maximum capacity metal adsorption. The parameter estimation is generally based on asymptotic methods therefore for small sample sizes estimates tend to have low precision and accuracy. Thus, there is a difficulty in obtaining precise and accurate estimates at the same time be used for small sample size. Aiming to overcome this problem has been studied in this work, the application of Bayesian inference in fitting isotherm Langmuir considering informative and uninformative priors. Then carried out a study of data simulation with sample sizes of 5, 6, 7, 9, 12, 15, 20, 25 and 30, they were discussed in two scenarios considering different values of M and k. For the evaluation of the precision was used the mean square error and the length of a 95% HPD credible intervals, for to evaluate the accuracy was used the mean bias relative absolute. The samples of the marginal posterior distributions the parameters were obtained by the Gibbs sampler. The inferences were made. The results indicated that the estimates obtained with use of informative priors presented greater precision and accuracy even at lower sample sizes. Subsequently the isotherm was adjusted on experimental data of adsorption lead (Pb2+) in orange peel considering the priors proposals and the results corroborate whith the results obtained in the simulation study. Thus, the methodology bayesian was efficient for the estimation of isotherm parameters of Langmuir and the use of informative priors, it allowed bypass practical limitation on the amount of sample available in real adsorption studies. / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES Adsorção Teorema de Bays Análise de Regressão Tamanho da Amostra
17	Testes de hipóteses frequentistas e bayesianos para razão áurea via simulação Monte Carlo SANTOS, Mariana Moreira Gonçalves 30 March 2015 (has links) A razão áurea é uma constante irracional que tem sido investigada por pesquisadores de diversas áreas do conhecimento. Presente na natureza e bastante utilizada em pinturas, esculturas e construções, a razão áurea está relacionada com a beleza perfeita e a proporção ideal. Atualmente pesquisas têm associado propriedades como bom funcionamento, eficiência e estabilidade a estruturas biológicas que possuem essa razão. Para inferir sobre a razão áurea, pesquisadores têm utilizado diversas metodologias, dentre elas, o teste t de Student, testes não paramétricos e, em muitos casos, critérios subjetivos. Para se inferir sobre a média das razões de duas populações não há na literatura um teste específico. Muitos pesquisadores, para inferir se a razão de determinados segmentos são iguais ao número de ouro zero , utilizam a média das razões amostrais, para estimar a média das razões populacionais e utilizam o teste t de Student. A razão de duas variáveis aleatórias quando são independentes, normais padrão é uma variável aleatória que segue uma distribuição de Cauchy. No entanto, quando as variáveis aleatórias são dependentes, como é o caso em que se quer inferir sobre a razão áurea, a distribuição de probabilidade da razão não é conhecida e a inferência baseada em pressuposições que não são satisfeitas pode levar a resultados não confiáveis. Um dos objetivos desse trabalho foi avaliar a viabilidade do teste t de Student com diferentes estatísticas, algumas já utilizadas por pesquisadores e uma proposta, para se inferir sobre a razão áurea. Também foram avaliadas outras metodologias propostas: o teste não paramétrico Wilcoxon e o teste bayesiano com priori não-informativa. A avaliação das metodologias dos testes paramétricos e não-paramétrico se deu através da quantificação e comparação das taxas de erro tipo I e poder dos testes em diferentes situações de variabilidade e tamanhos de amostra, via simulação Monte Carlo. Para avaliação do teste bayesiano, quantificou-se as taxas de rejeição de H0 nas simulações quando as amostras foram geradas sob H0 e sob H1. Como aplicação, foram obtidos dados referentes à medida dos braços de nove pares de cromossomos de células do genótipo Cerbiatta da Lactuca sativa L., a alface e os testes foram comparados quando aplicados nessa amostra. Todas as simulações e as comparações dos testes foram realizadas no programa R. O t de Student com as estatísticas utilizadas em literatura foi liberal ou apresentou taxas de poder inferiores a 95% na maioria dos cenários e, por isso, não é recomendado. O teste bayesiano com priori de Jeffreys foi equivalente ao teste t de Student com a estatística proposta, que por sua vez, apresentou melhor desempenho no controle das taxas de erro tipo I, mas apresentou taxas de poder inferiores a 95% para amostras pequenas, principalmente quando a variabilidade dos dois segmentos é maior. Foi verificado que havia a presença de razão áurea nas medidas dos braços longo e curto do quinto par de cromossomo. / The golden ratio is an irrational constant that has been investigated by researchers from various fields of knowledge. Present in nature and widely used in paintings, sculptures and buildings, the golden ratio is related to the perfect beauty and the ideal proportion. Currently research has associated properties such as proper functioning, efficiency and stability at biological structures that have golden ratio. In order to study the golden ratio, researchers have used different methodologies, such as, the Student’s test, non-parametric tests and, in many cases, subjective criteria. There is no, in the literature, a specific test to infer about the mean ratio of two populations. Many researchers, to infer if the rate of certain segments are, on average, equal to the number of gold , use the of sample rates average to estimate the mean of population rates and use the Student’s test. The ratio of two independent random variables standard normal is a random variable that follows a Cauchy distribution. However, when the random variables are dependent, as is the case where it is desired infer about the golden ratio, the ratio probability distribution is not known. The infer process based on assumptions that are not satisfied can lead to unreliable results. One goal of this study was to evaluate the viability of the Student’s test with different statistics, some of them, already used by researchers, and a proposal one to infer the golden ratio. We evaluated other methodologies proposed: the nonparametric Wilcoxon test and the Bayesian test with non-informative priori. The evaluation of the methodologies of parametric tests and nonparametric occurred by quantifying and comparing of the tests type I errors rate and power in different situations variability and sample sizes, via Monte Carlo simulation. To evaluate the Bayesian test, it was quantified rejection rates of H0 in the simulations when the samples were generated under H0 and under H1. As an application, it was obtained data refers the measuring of the arms of nine pairs of the chromosomes of the cell Cerbiatta genotype of Lactuca sativa L., the lettuce and the tests were compared when applied in this sample. All simulations and comparisons of tests were performed using the statistical software R. The Student’s test with the statistics used in literature was liberal or had power rates less than 95% in most scenarios and therefore is not recommended. The Bayesian test with Jeffreys’s priori was equivalent to the Student’s test with the statistical proposal, which in turn performed better on the control of Type I error rates, but showed lower power rates less than 95 % for small samples, especially when the variability of the two segments is large. It was verified that there is the presence of golden ratio in the rate between long and short arms in the fifth pair of chromosome. / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES Alface Cromossomos Segmento aureo Tamanho da amostra Testes de hipótese Estatísticas não Paramétricas
18	Precisão e acurácia dos estimadores de máxima verossimilhança dos parâmetros da distribuição Gumbel não estacionária NOGUEIRA, Roger dos Santos 20 December 2017 (has links) A distribuição Gumbel é frequentemente utilizada na modelagem de eventos extremos. O estimador de verossimilhança é o estimador mais usado para obter as estimativas dos parâmetros do modelo Gumbel por apresentar boas propriedades assintóticas. Caso a série de dados possua tendência linear, os estimadores de máxima verossimilhança podem produzir estimativas viesadas para os parâmetros da distribuição Gumbel. Para contornar essa situação, o modelo Gumbel não estacionário pode ser utilizado. Esse modelo é, basicamente, o modelo Gumbel (estacionário) para dados sem tendência, com a inserção da tendência em seu parâmetro posição. Essa inserção é feita substituindo-se o parâmetro posição em dois termos, em que um é o coeficiente linear µ0 e o outro é a inclinação da reta µ1. Assim como no modelo Gumbel estacionário, os parâmetros do modelo Gumbel não estacionário com tendência linear no parâmetro posição podem ser estimados por meio dos estimadores de máxima verossimilhança. Dependendo do tamanho da amostra e do quão grande seja a tendência apresentada pelos dados, pode ser que o modelo Gumbel estacionário seja mais adequado do que o modelo Gumbel não estacionário com tendência linear no parâmetro posição, ou vice-versa. Nesse sentido, é importante saber qual modelo deve ser utilizado. O objetivo desse trabalho é avaliar a acurácia e a precisão dos estimadores de máxima verossimilhança dos parâmetros da distribuição Gumbel não estacionária com tendência linear no parâmetro posição. Foram simuladas 1000 amostras de dados em 240 cenários diferentes e foram calculados os erros quadráticos médios e os vieses médios relativos de cada cenário simulado. Pode-se observar que: se a inclinação da reta for maior que 0,1% do valor do parâmetro posição do modelo Gumbel, deve-se ajustar o modelo Gumbel não estacionário aos dados. Em amostras de tamanho igual ou maior do que 50, se houver suspeita de tendência linear no parâmetro posição, deve-se optar pelo ajuste de um modelo Gumbel não estacionário com tendência linear no parâmetro posição. / The Gumbel distribution is often used in the extreme events modelling. For this purpose it is necessary that its parameters are estimated. The estimator most used for this is the maximum likelihood estimator. The maximum likelihood estimators have good asymptotic properties. In case of linear trend in the data series, the maximum likelihood estimators may produce biased estimates for the parameters of the Gumbel distribution. To overcome this situation, Gumbel model with trend can be used. This model is, basically, the (stationary) Gumbel model to no trend data, with the insertion of the trend in its position parameter. As in the stationary Gumbel model, the parameters of the trend Gumbel model can be estimate by means maximum likelihood estimators. Depending on sample size and on how big is the trend presented by the data, the stationary Gumbel model can be more appropriate than the trend Gumbel model, or vice versa. In this respect, it is important to know how model must be used. The objective of this study is, therefore, to evaluate the accuracy and the precision of the maximum likelihood estimators of the Gumbel model with linear trend’s parameters. To do this, have been simulated 1,000 data samples on 240 different scenarios and have been calculated the mean squared errors and the relative mean biases of each simulated scenario. The results lead to the following conclusions: if the trend was bigger than 0.1% of the Gumbel model’s position parameter value, the trend Gumbel model must be fitted. In the case of the sample size be equal or bigger than 50 and there is suspect of trend, the trend Gumbel model must be fitted. Confiabilidade dos Dados Precipitação Máxima Provável Simulação Tamanho da Amostra Distribuições Estatísticas.
19	Desempenho do gráfico de controle CUSUM tabular para o monitoramento da média / The performance of tabular CUSUM control chart for monitoring the mean Lara, Rodrigo Luiz Pereira 16 February 2012 (has links) Made available in DSpace on 2015-03-26T13:32:14Z (GMT). No. of bitstreams: 1 texto completo.pdf: 2818845 bytes, checksum: be3f419fcc4c9f0b3cb6050f150daf3c (MD5) Previous issue date: 2012-02-16 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / This study aimed to estimate the probabilities of false and true alarms caused by the Cumulative Sum control chart over the i rational subgroups, according to various combinations of size n of subgroup rational, standardized decision interval h* and the tolerance value k. To study them, were simulated data from a random variable Y, under normal distribution with mean μ0 = 0 and standard deviation 1 s 0 = for a process under statistical control over 50 rational subgroups, for n between 1-16. To this end, 1000 simulations were performed by rational subgroup. Then four out of control processes have been set for the statistical average at all rational subgroup ( μ1 = μ0 +ds 0 ) in which d refers to the displacement of the average in numbers of standard deviations of the process. The probability of false alarm a decreases with the increase, increase and decrease of k, h* and i respectively, while the probability of true alarm Pd has direct relation to n and i, and inverse relation to h* for the same pre-defined minimum difference between the means μ0 and μ1 considering the choice of k* as being half of that difference in number of standard deviations. Both probabilities of true and false alarms were obtained by the normal and lognormal 3P probability distributions adjusted to the random variable Z(i) + S (i −1)* H . In order to give a power greater than 0.90 and a equal or less than 0.05 or 0.01 were recommended to different combinations of k, h, i and n. / O presente trabalho teve por objetivo estimar as probabilidades dos alarmes falsos e verdadeiros provocados pelo gráfico de controle CUSUM tabular ao longo dos i subgrupos racionais, em função de diferentes combinações entre o tamanho n do subgrupo racional, o interval o de decisão padronizado h* e o valor de tolerância k. Para estudá-los foram simulados dados de uma variável aleatória Y, sob distribuição normal com média μ0 = 0 e desvio-padrão 1 s 0 = para um processo sob controle estatístico para até 50 subgrupos racionais com até 16 repetições. Para tanto, foram realizadas 1000 simulações por subgrupo racional. Em seguida foram estabelecidos outros quatro processos fora de controle estatístico para a média em todos os subgrupos racionais ( μ1 = μ0 +ds 0 ), em que d se refere ao deslocamento da média em número de desvios-padrão do processo. A robabilidade do alarme falso (a ) diminui com os respectivos aumento, aumento e diminuição de k, h* e i, enquanto a probabilidade do alarme verdadeiro (Pd) possui relação direta com n e i, e inversa com h* para uma mesma diferença mínima pré-definida entre as médias μ1 e μ0 e considerando-se a escolha de k* como sendo a metade desta em número de desvios-padrão. Ambas probabilidades dos alarmes falso e verdadeiro foram obtidas por meio das distribuições de probabilidade normal e lognormal 3P ajustadas à variável aleatória Z(i) + S (i −1) * H . Para conferir um Pd igual ou superior a 0,90 e a igual ou inferior a 0,05 ou 0,01 recomendou-se diferentes combinações de k, h, i e n. Qualidade Poder Alarme falso Quality Power False alarm
20	Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros / Segmentation of names and addresses through hidden Markov models and its application in record linkage Rita de Cássia Braga Gonçalves 11 December 2013 (has links) A segmentação dos nomes nas suas partes constitutivas é uma etapa fundamental no processo de integração de bases de dados por meio das técnicas de vinculação de registros. Esta separação dos nomes pode ser realizada de diferentes maneiras. Este estudo teve como objetivo avaliar a utilização do Modelo Escondido de Markov (HMM) na segmentação nomes e endereços de pessoas e a eficiência desta segmentação no processo de vinculação de registros. Foram utilizadas as bases do Sistema de Informações sobre Mortalidade (SIM) e do Subsistema de Informação de Procedimentos de Alta Complexidade (APAC) do estado do Rio de Janeiro no período entre 1999 a 2004. Uma metodologia foi proposta para a segmentação de nome e endereço sendo composta por oito fases, utilizando rotinas implementadas em PL/SQL e a biblioteca JAHMM, implementação na linguagem Java de algoritmos de HMM. Uma amostra aleatória de 100 registros de cada base foi utilizada para verificar a correção do processo de segmentação por meio do modelo HMM.Para verificar o efeito da segmentação do nome por meio do HMM, três processos de vinculação foram aplicados sobre uma amostra das duas bases citadas acima, cada um deles utilizando diferentes estratégias de segmentação, a saber: 1) divisão dos nomes pela primeira parte, última parte e iniciais do nome do meio; 2) divisão do nome em cinco partes; (3) segmentação segundo o HMM. A aplicação do modelo HMM como mecanismo de segmentação obteve boa concordância quando comparado com o observador humano. As diferentes estratégias de segmentação geraram resultados bastante similares na vinculação de registros, tendo a estratégia 1 obtido um desempenho pouco melhor que as demais. Este estudo sugere que a segmentação de nomes brasileiros por meio do modelo escondido de Markov não é mais eficaz do que métodos tradicionais de segmentação. / The segmentation of names into its constituent parts is a fundamental step in the integration of databases by means of record linkage techniques. This segmentation can be accomplished in different ways. This study aimed to evaluate the use of Hidden Markov Models (HMM) in the segmentation names and addresses of people and the efficiency of the segmentation on the record linkage process. Databases of the Information System on Mortality (SIM in portuguese) and Information Subsystem for High Complexity Procedures (APAC in portuguese) of the state of Rio de Janeiro between 1999 and 2004 were used. A method composed of eight stages has been proposed for segmenting the names and addresses using routines implemented in PL/SQL and a library called JAHMM, a Java implementation of HMM algorithms. A random sample of 100 records in each database was used to verify the correctness of the segmentation process using the hidden Markov model. In order to verify the effect of segmenting the names through the HMM, three record linkage process were applied on a sample of the aforementioned databases, each of them using a different segmentation strategy, namely: 1) dividing the name into first name , last name, and middle initials; 2) division of the name into five parts; 3) segmentation by HMM. The HMM segmentation mechanism was in good agreement when compared to a human observer. The three linkage processes produced very similar results, with the first strategy performing a little better than the others. This study suggests that the segmentation of Brazilian names by means of HMM is not more efficient than the traditional segmentation methods. Vinculação de registros Segmentação de dados Modelo Escondido de Markov Data segmentation Record linkage Hidden Markov Model PROBABILIDADE E ESTATISTICA

Search results