11 |
Emprego de funções de densidade de probabilidade na modelagem da distribuição diamétrica de clones de Eucalyptus spp. no polo gesseiro do AraripeABREU, Yara Karolynne Lopes 22 January 2018 (has links)
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-05-11T12:48:53Z
No. of bitstreams: 1
Yara Karolynne Lopes Abreu.pdf: 2615417 bytes, checksum: e3c48d995bce28fcde0f026e7c9812e9 (MD5) / Made available in DSpace on 2018-05-11T12:48:53Z (GMT). No. of bitstreams: 1
Yara Karolynne Lopes Abreu.pdf: 2615417 bytes, checksum: e3c48d995bce28fcde0f026e7c9812e9 (MD5)
Previous issue date: 2018-01-22 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / When plating energy forests, it is interesting to quantify and predict its stock. The diameter distribution is a simple and powerful tool to characterize the structure of a forest and serves as an indicator of the growth stock structure. Therefore, the objective of this work is to apply different probability density functions (pdf) to explain the behavior of the diametric distribution of the Eucalyptus spp. clones according to different ages and population densities in the Gypsum Pole of Araripe. Therefore, it was adjusted the diametric distribution of three clones at five planting densities (2m x 1m; 2m x 2m; 2m x 3m; 3m x 3m; 4m x 2m) by the pdfs Beta, Dagum, Gamma, Normal, Johnson SB and Weibull at ages 48, 54 and 60 months. The choice of the best model was based on the results of two methodologies: statistical ranking and analysis of variance with Tukey test (5% significance). It was found that the function that best described the diameter distribution of Eucalyptus spp. clones was Dagum, while Gamma presented the worst adjustments for most of the scenarios analyzed. The method of selection by rankings, although widely used in the forest science, tends to assign different weights to statistics that do not differ, whereas the comparison of means by the Tukey test, although it does not take into account the number of parameters used in each function, is an alternative to understand the general behavior of the estimates and to verify if there are tendencies of underestimation or overestimation of values. / Quando se opta pelo plantio de florestas energéticas é interessante conseguir quantificar e prognosticar o estoque dessas. A distribuição diamétrica é uma ferramenta simples e poderosa para caracterizar a estrutura de uma floresta, além de ser uma indicadora da estrutura do estoque em crescimento. Diante disto, objetiva-se, com a realização do presente trabalho, aplicar diferentes funções de densidade de probabilidade (fdp) para explicar o comportamento da distribuição diamétrica de clones de Eucalyptus spp. em função de diferentes idades e densidades populacionais no Polo Gesseiro do Araripe. Para tanto, se ajustou a distribuição diamétrica de três clones em cinco densidades de plantio (2m x 1m; 2m x 2m; 2m x 3m; 3m x 3m; 4m x 2m) pelas fdps Beta, Dagum, Gamma, Normal, SB Johnson e Weibull nas idades de 48, 54 e 60 meses. A escolha do melhor modelo foi baseada nos resultados de duas metodologias: ranqueamento de estatísticas e análise de variância com comparação de médias pelo teste de Tukey (5% de significância). Constatou-se que a função que melhor descreveu a distribuição do diâmetro dos clones de Eucalyptus spp foi a fdp Dagum, enquanto a Gamma apresentou os piores ajustes para a maioria dos cenários analisados. O método de seleção por ranqueamento, apesar de bastante utilizado na área florestal, tende a atribuir pesos distintos a estatísticas que não diferem entre si, enquanto a comparação de médias pelo teste de Tukey, apesar de não levar em consideração o número de parâmetros utilizados em cada função, é uma alternativa para entender o comportamento geral das estimativas e verificar se existem tendências de subestimação ou superestimação de valores.
|
12 |
Métodos multivariados aplicados para classificação de azeite de oliva extra virgemLIMA, Iloane dos Santos 31 August 2017 (has links)
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-05-14T14:30:23Z
No. of bitstreams: 1
Iloane dos Santos Lima.pdf: 1544015 bytes, checksum: 45f0151a2dca3ae905e03d78d4c0d0a3 (MD5) / Made available in DSpace on 2018-05-14T14:30:23Z (GMT). No. of bitstreams: 1
Iloane dos Santos Lima.pdf: 1544015 bytes, checksum: 45f0151a2dca3ae905e03d78d4c0d0a3 (MD5)
Previous issue date: 2017-08-31 / Metabomics is a strategy that is based on the identification of patterns of a particular biological problem, by obtaining spectroscopic / spectrometric data of a given biofluid, the use of statistics to extract this information contributes significantly to the achievement of group classification. Thus, the present work aimed at the use of the meta-monetary strategy, based on nuclear magnetic resonance spectra of hydrogen and multivariate statistical techniques of grouping (principal component analysis (PCA), Fuzzy grouping) of samples of extra virgin olive oil. Were used 40 samples of extra virgin olive oil for this study. From the spectral data matrix, we used the pre-processing normalization by summation, in the samples. From the PCA, 99.1% of the variance explained using two components only, it was not possible to observe natural clusters of the data. with the application of the Fuzzy grouping, it was verified that there was distinction of the groups in organic and common, obtaining 65% confidence. The validation made by the silhouette index, which presented s (i) of 0.73, demonstrating that the adopted grouping presents adequate strength and criteria of distinction. Thus, the fuzzy grouping method was the most indicated in the construction of a classification model of samples of extra virgin olive oil, distinguishing their different modes of production, organic and common. / Metabonômica é uma estratégia que baseia- se na identificação de padrões de um determinado problema biológico, por meio da obtenção de dados espectroscópicos/espectrométricos de um dado biofluido, o uso da estatística para extração dessas informações contribui significativamente para realização de classificações de grupos. Desse modo, o presente trabalho objetivou-se ao uso da estratégia metabonômica, baseados em espectros de ressonância magnética nuclear de hidrogênio (RMN 1H) e técnicas estatísticas multivariadas de agrupamento (Análise de Componentes Principais (PCA), Agrupamento Fuzzy) de amostras de azeite de oliva extra virgem. Utilizou-se 40 amostras de azeite de oliva extra virgem para este estudo. A partir da matriz de dados espectrais, utilizou-se o pré-processamento normalização pela soma, nas amostras. A partir da PCA, 99,1% da variância explicada utilizando dois componentes apenas, não foi possível observar agrupamentos naturais dos dados. Com a aplicação do agrupamento Fuzzy, constatou-se que houve distinção dos grupos em orgânico e comum, obtendo 65% de confiança. A validação feita pelo índice da silhueta, que apresentou 𝑆(𝑖) de 0,73, demonstrado que o agrupamento adotado apresenta força e critério de distinção adequados. Desse modo, o método de agrupamento Fuzzy foi o mais indicado para a construção de um modelo de classificação de amostras de azeite extra virgem, distinguindo seus diferentes modos de produção, orgânico e comum.
|
13 |
Development of a mixed model using generalized renewal processes and the weibull distributionFERREIRA, Ricardo José 29 January 2016 (has links)
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-05-15T13:58:25Z
No. of bitstreams: 1
Ricardo Jose Ferreira.pdf: 1514159 bytes, checksum: 365dd17d70da575c6399efe53acf1631 (MD5) / Made available in DSpace on 2018-05-15T13:58:25Z (GMT). No. of bitstreams: 1
Ricardo Jose Ferreira.pdf: 1514159 bytes, checksum: 365dd17d70da575c6399efe53acf1631 (MD5)
Previous issue date: 2016-01-29 / In order to analyze interventions in repairable systems, the literature contains several
methodologies aiming to model the behavior of times between interventions. Such interventions can be modeled by Point Stochastic Processes in order to analyze the probabilistic behavior of times between events. Specifically, the Generalized Renewal Processes allow the study of times between interventions by measuring the quality of each intervention and the response of the system to these interventions — this is done by using the concept of virtual age. In such concept it is possible to apply two kinds of Kijima models
(Type I and II). Therefore, this work presents a model capable of study the quality of
interventions using up of a mix between the two Kijima models where it is possible to capture the performance on each of these interventions proportionally. Specifically, a new approach to virtual age of Kijima models is presented as well as mathematical properties of the Generalized Renewal Process using the Weibull distribution probability. Finally, the applicability of the model is checked in real data from some problems found in the literature. / Para analisar intervenções em sistemas reparáveis, a literatura apresenta diversas metodologias visando modelar o comportamento de tempos entre intervenções. Tais intervenções podem ser modeladas por Processos Estocásticos Pontuais visando analisar o comportamento probabilístico dos tempos entre eventos. Especificamente, os Processos de Renovação Generalizados permitem o estudo de tempos entre intervenções medindo a qualidade de impacto de cada intervenção e a resposta do sistema a tais intervenções - isto é feito utilizando o conceito de idade virtual. Em tal conceito é possível se aplicar dois tipos de modelos Kijima (tipo I e II).Sendo assim, esse trabalho apresenta um modelo capaz de estudar a qualidade de intervenções utilizando-se de uma mistura entre os dois modelos Kijima onde é possível capturar a atuação de cada um desses sobre as intervenções proporcionalmente. Especificamente, uma nova abordagem sobre a idade virtual dos modelos Kijima é apresentada, bem como propriedades matemáticas dos Processos de Renovação Generalizados utilizando a distribuição de probabilidadeWeibull. Por fim, a aplicabilidade do modelo é verificada em dados reais de alguns problemas presentes na literatura.
|
14 |
Cópulas para combinação de modelos de séries temporaisASSIS, Thaíze Fernandes Oliveira de 29 June 2016 (has links)
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-05-15T14:12:27Z
No. of bitstreams: 1
Thaize Fernandes Oliveira de Assis.pdf: 4665598 bytes, checksum: 11c912695afd97c1b15ec1c49cc0a093 (MD5) / Made available in DSpace on 2018-05-15T14:12:27Z (GMT). No. of bitstreams: 1
Thaize Fernandes Oliveira de Assis.pdf: 4665598 bytes, checksum: 11c912695afd97c1b15ec1c49cc0a093 (MD5)
Previous issue date: 2016-06-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Time series combined forecasts have shown better results than individual models in terms of
both accuracy as efficiency. Alternatives of aggregation well adopted are linear combination,
which include methods such as the simple average and the weighted average resultant
method of minimum variance here named Classic Model (CM) due to coincide with the
maximum likelihood estimator under the assumption that the errors of the individual
models follow a multivariate normal distribution. Thus, it has been usual to assume the
normality of the errors of the individual models. However, improper assumption of normality
may result in biased estimators and thus misleading estimates of the aggregated model. This
thesis proposes a method for maximum likelihood predictors focused on aggregating time
series forecasting models through copulas, where the errors of these individual models can
not be normally distributed. The models via copulas are multivariate functions that operate
on the marginal probability distribution, allowing the modeling of the prediction errors, and
after, the dependency structure between these predictors. The usefulness of the proposed
combined model via copula Frank and Gumbel is illustrated by study eight phenomena of
the real world: three fish growth series (yellow tuna, striped seabream and bigeye tuna
species), four financial series (Nasdaq (ND), Google (GG), S&P500 (SP) and Dow jones
(DJ) and one time series of precipitation. For fish growth series, the following individual
models were considered: VBGM (Von Bertalanffy Growth Model), Gompertz, logistic,
generalized VBGM and Schnute-Richards. Regarding financial ND series, GG, SP and DJ,
the individual models for each case are: ANN (Artificial Neural Network) TAEF (Timedelay
Added Evolutionary Forecasting) and ARIMA (AutoRegressive Integrated Moving
Average). And for the series of precipitation, nine GARCH (Generalized Autoregressive
Conditional heteroscedasticity) are involved. The performance of the proposed combined
model is highlighted by means of a comparison with the individual and combined models
SA and MC through the Mean Squared Error (MSE). In this sense, it can clearly be seen
the usefulness of the combined estimator proposed via Frank and Gumbel copulas. These
combined estimators achieve better results when at least one marginal distribution of
errors of individuais models not follow a normal distribution. Discussions about the best
performance of these copulas in combining determined models, to the detriment of all
those available, are also presented. / Previsões combinadas de séries temporais têm mostrado resultados superiores aos modelos individuais tanto em termos de acurácia quanto de eficiência. Uma das alternativas de agregação bastante adotadas são as combinações lineares, que contemplam métodos como a média simples (SA do inglês Simple Aveage) e a média ponderada, resultante do método de mínima variância, aqui nomeado de Modelo Clássico (MC), devido a coincidir com o estimador de máxima verossimilhança sob a suposição de que os erros dos modelos
individuais seguem uma distribuição normal multivariada. Desta maneira, tem sido usual supor a normalidade dos erros dos modelos individuais. Contudo, a suposição inadequada de normalidade pode resultar em estimadores viesados e, assim, estimativas equivocadas do modelo agregado. A presente tese propõe um método para obter preditores de máxima verossimilhança voltados à agregação de modelos de previsão de séries temporais por meio de cópulas, onde os erros desses modelos individuais podem não ser normalmente
distribuídos. Os modelos via cópulas são funções multivariadas que operam na distribuição de probabilidade marginal, permitindo modelar os resíduos de previsão e, em seguida, a estrutura de dependência entre estes preditores. A utilidade do modelo combinado proposto mediante as cópulas Frank e Gumbel é ilustrada por meio do estudo de oito fenômenos do mundo real: três séries de crescimento de peixes (espécies yellow tuna,
striped seabream e bigeye tuna), quatro séries financeiras (Nasdaq (ND), Google (GG), S&P500 (SP) e Dow jones (DJ)) e uma série de precipitação. Para as séries de crescimento de peixes, os seguintes modelos individuais foram agregados: VBGM (Von Bertalanffy Growth Model), Gompertz, logístico, VBGM generalizado e Schnute-Richards. Em relação às séries financeiras ND, GG, SP e DJ, os modelos individuais para cada caso são: ANN (Artificial Neural Network), TAEF (Time-delay Added Evolutionary Forecasting) e ARIMA
(Auto-regressivo integrado de média móvel). E para a série de precipitação, são envolvidos nove modelos GARCH (Generalized Autoregressive Conditional Heteroscedasticity). O desempenho do modelo combinado proposto é destacado pela comparação com os modelos individuais e combinados SA e MC, através do Erro Quadrático Médio (EQM). Neste sentido, observa-se claramente a utilidade do estimador combinado proposto via cópulas Frank e Gumbel. Estes estimadores combinados apresentam-se ainda com mais destaque
quando se trata do caso em que pelo menos uma das distribuições marginais dos erros dos modelos individuais não seguem uma distribuição normal. Discussões sobre o melhor desempenho destas cópulas em combinar determinados modelos, em detrimento de todos aqueles disponíveis, são também apresentadas.
|
15 |
Reconhecimento automático de expressões faciais baseado em modelagem estatísticaPedroso, Felipe José Coelho 28 March 2013 (has links)
Made available in DSpace on 2016-12-23T14:07:23Z (GMT). No. of bitstreams: 1
Felipe Jose Coleho Pedroso_frontispicio.pdf: 1036866 bytes, checksum: 151c0d29a07012b8556291c387c1425f (MD5)
Previous issue date: 2013-03-28 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / As expressões faciais são alvos constante de estudos desde Charles Darwin, em 1872. Pesquisas na área de psicologia e, em destaque, os trabalhos de Paul Ekman afirmam que
existem expressões faciais universais básicas e elas são manifestadas em todos os seres humanos independente de fatores como gênero, idade, cultura e ambiente social. Ainda pode-se criar novas expressões mais complexas combinando as expressões fundamentais de alegria, tristeza, medo, nojo, raiva, surpresa e desprezo, além da face neutra. O assunto ainda é atual, uma vez que há uma grande necessidade de implementar interfaces homem-máquinas (IHM) capazes de identificar a expressão de um indivíduo e atribuir uma saída condizente com a situação observada. Pode-se citar como exemplos iterações homem-robô, sistemas de vigilância e animações gráficas. Nesse trabalho é proposto um sistema automático para identificar expressões faciais. O sistema é dividido em três etapas: localização de face, extração de características e identificação da expressão facial. O banco de dados Japanese Facial Expression Database - JAFFE foi utilizado para treinamentos e testes . A localização
da face é realizada de maneira automática através do framework proposto por Viola-Jones e é estimado o centro da face. Na sequência, utiliza-se o algoritmo Active Appearance Model -AAM para descrever estatisticamente um modelo de forma e textura para o banco de dados.
Com esse descritor é possível gerar um vetor de aparência capaz de representar, com redução de dimensão, uma face e, consequentemente, a expressão facial contida nela através de um algoritmo iterativo de busca a partir de um modelo médio. Esse vetor é utilizado na etapa de reconhecimento das expressões faciais, onde são testados os classificadores baseados no vizinho mais próximo k-NN e a máquina de vetores de suporte - SVM com kernel RBF para tratar o problema de forma não linear. É proposto um mecanismo de busca na saída
do bloco de detecção de faces para diminuir o erro do modelo, pois o sucesso do algoritmo é altamente dependente do ponto inicial de busca. Também é proposto uma mudança no
algoritmo AAM para redução do erro de convergência entre a imagem real e o modelo sintético que a representa, abordando o problema de forma não linear. Testes foram realizados
utilizando a validação cruzada leave one out para todas as expressões faciais e o classificador SVM-RBF. O sistema apresentou um taxa de acerto de 55,4%, com sensibilidade 60,25% e especificidade 93,95% / Facial expressions are constant targets of studies since Charles Darwin in 1872. Research in psychology and highlighted the work of Paul Ekman claim that there are universal basic
facial expressions and they are expressed in all human beings regardless of factors such as gender, age, culture and social environment. Although you can create new more complex
expressions combining the fundamental expressions of happiness, sadness, fear, disgust, anger, surprise and contempt, beyond the neutral face. The matter is still relevant, since there is a great need to implement human machine interfaces (HMI) able to identify the expression of an individual and assign an output consistent with the observed situation.
One can cite as examples iterations man-robot surveillance and motion graphics. In this work it/ s proposed an automatic system to identify facial expressions. The system is divided
into three blocks: face localization, feature extraction and identification of facial expression.
The Japanese Facial Expression Database - JAFFE was used for training and testing. The location of the face is done automatically using the framework proposed by Viola and Jones
estimating center of the face. Following the Active Appearance Model - AAM algorithm is used to describe statistical model of shape and texture to the database. With this descriptor is possible to generate a vector capable of representing faces with reduced dimension and hence the facial expression contained therein through an iterative search algorithm from an average model. This vector is used in recognizing facial expressions block, where the classifiers are tested based on the nearest neighbor k-NN and support vector machine - SVM with RBF kernel to address the problem of non-linear way. A mechanism to decrease the error of the model is proposed before the output of the face detection block, because the success of the algorithm is highly dependent on the starting point of the search. A change in the AAM algorithm is also proposed to reduce the convergence error between actual and synthetic model that is addressing the problem of nonlinear way. Tests were conducted using leave one out cross validation for all the facial expressions and the final classifier was SVM-RBF. The system has an accuracy rate of 55.4%, with 60,25% sensitivity and 93,95% specificity
|
16 |
Abordagem bayesiana da isoterma de langmuirCARVALHO, Diailison Teixeira de 12 February 2016 (has links)
Os metais-traço são contaminantes altamente tóxicos presentes sobretudo no meio aquático.
Uma técnica eficiente para remoção desses metais-traço é o processo de adsorção. Em estudos
laboratoriais relacionados à adsorção há a geração de materiais contaminados, o que
implica em riscos socioambientais, além de custos adicionais associados ao tratamento e descarte
apropriado dos resíduos tóxicos gerados. Diante disso, há uma limitação prática na
quantidade de amostra disponível. O processo de adsorção pode ser descrito por isotermas
de adsorção, das quais a mais conhecida é a isoterma de Langmuir. Esta isoterma apresenta
o parâmetro k, relacionado à energia de adsorção, e o parâmetro M, que indica a capacidade
máxima de adsorção do metal em uma matriz adsorvente. A estimação destes parâmetros
geralmente baseia-se em métodos assintóticos, portanto para tamanhos de amostras pequenas
as estimativas tendem a apresentar baixa precisão e acurácia. Desse modo, há um impasse em
como obterem-se estimativas precisas e acuradas e ao mesmo tempo utilizar-se de amostras de
tamanho reduzido. Objetivando superar este problema, foi estudado neste trabalho, a aplicação
da inferência bayesiana no ajuste da isoterma de Langmuir considerando prioris informativas e
não informativas. Realizou-se então um estudo de simulação de dados com tamanhos amostrais
de 5, 6, 7, 9, 12, 15, 20, 25 e 30, analisados em dois cenários com diferentes valores de M e k.
Para avaliar a precisão foram utilizados o erro quadrático médio e a amplitude do intervalo HPD
ao nível de 95% de credibilidade, para a acurácia o viés médio relativo absoluto. Amostras das
distribuições marginais a posteriori dos parâmetros foram obtidas pelo amostrador de Gibbs. As
inferências foram realizadas e os resultados indicaram que as estimativas obtidas com uso das
prioris informativas apresentaram maiores precisão e acurácia mesmo em tamanhos amostrais
inferiores. Posteriormente ajustou-se a isoterma sobre dados experimentais de adsorção de
chumbo Pb2+ em cascas de laranja, considerando as prioris propostas e os resultados obtidos
corroboraram com o estudo de simulação. Assim, a metodologia bayesiana mostrou-se eficiente
para a estimação dos parâmetros da isoterma de Langmuir e o uso de prioris informativas permitiu
a obtenção de estimativas com precisão e acurácia satisfatórias para tamanhos amostrais
relativamente inferiores, o que permite contornar a limitação prática da quantidade de amostra
disponível em estudos reais de adsorção. / The trace metals are highly toxic contaminants particularly in the aquatic environment.
The adsorption process is an efficient technique for removing these trace metals. There is a
generation of contaminated materials in studies laboratory related to adsorption, it this implies
social and environmental risks and additional costs associated with treatment and proper disposal
of toxic waste. This fact brings a practical limitation on the amount of sample to be
used. The adsorption process can be described by functions called adsorption isotherms. The
Langmuir isotherm is one of the most used. This isotherm shows the parameter k related to
the energy of adsorption, and the M parameter which indicates the maximum capacity metal
adsorption. The parameter estimation is generally based on asymptotic methods therefore for
small sample sizes estimates tend to have low precision and accuracy. Thus, there is a difficulty
in obtaining precise and accurate estimates at the same time be used for small sample size.
Aiming to overcome this problem has been studied in this work, the application of Bayesian
inference in fitting isotherm Langmuir considering informative and uninformative priors. Then
carried out a study of data simulation with sample sizes of 5, 6, 7, 9, 12, 15, 20, 25 and 30, they
were discussed in two scenarios considering different values of M and k. For the evaluation of
the precision was used the mean square error and the length of a 95% HPD credible intervals, for
to evaluate the accuracy was used the mean bias relative absolute. The samples of the marginal
posterior distributions the parameters were obtained by the Gibbs sampler. The inferences were
made. The results indicated that the estimates obtained with use of informative priors presented
greater precision and accuracy even at lower sample sizes. Subsequently the isotherm was
adjusted on experimental data of adsorption lead (Pb2+) in orange peel considering the priors
proposals and the results corroborate whith the results obtained in the simulation study. Thus,
the methodology bayesian was efficient for the estimation of isotherm parameters of Langmuir
and the use of informative priors, it allowed bypass practical limitation on the amount of sample
available in real adsorption studies. / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES
|
17 |
Testes de hipóteses frequentistas e bayesianos para razão áurea via simulação Monte CarloSANTOS, Mariana Moreira Gonçalves 30 March 2015 (has links)
A razão áurea é uma constante irracional que tem sido investigada por pesquisadores de diversas
áreas do conhecimento. Presente na natureza e bastante utilizada em pinturas, esculturas e construções,
a razão áurea está relacionada com a beleza perfeita e a proporção ideal. Atualmente
pesquisas têm associado propriedades como bom funcionamento, eficiência e estabilidade a
estruturas biológicas que possuem essa razão. Para inferir sobre a razão áurea, pesquisadores
têm utilizado diversas metodologias, dentre elas, o teste t de Student, testes não paramétricos
e, em muitos casos, critérios subjetivos. Para se inferir sobre a média das razões de duas
populações não há na literatura um teste específico. Muitos pesquisadores, para inferir se a
razão de determinados segmentos são iguais ao número de ouro zero , utilizam a média das razões
amostrais, para estimar a média das razões populacionais e utilizam o teste t de Student. A
razão de duas variáveis aleatórias quando são independentes, normais padrão é uma variável
aleatória que segue uma distribuição de Cauchy. No entanto, quando as variáveis aleatórias
são dependentes, como é o caso em que se quer inferir sobre a razão áurea, a distribuição
de probabilidade da razão não é conhecida e a inferência baseada em pressuposições que não
são satisfeitas pode levar a resultados não confiáveis. Um dos objetivos desse trabalho foi
avaliar a viabilidade do teste t de Student com diferentes estatísticas, algumas já utilizadas por
pesquisadores e uma proposta, para se inferir sobre a razão áurea. Também foram avaliadas
outras metodologias propostas: o teste não paramétrico Wilcoxon e o teste bayesiano com
priori não-informativa. A avaliação das metodologias dos testes paramétricos e não-paramétrico
se deu através da quantificação e comparação das taxas de erro tipo I e poder dos testes em
diferentes situações de variabilidade e tamanhos de amostra, via simulação Monte Carlo. Para
avaliação do teste bayesiano, quantificou-se as taxas de rejeição de H0 nas simulações quando
as amostras foram geradas sob H0 e sob H1. Como aplicação, foram obtidos dados referentes à
medida dos braços de nove pares de cromossomos de células do genótipo Cerbiatta da Lactuca
sativa L., a alface e os testes foram comparados quando aplicados nessa amostra. Todas as
simulações e as comparações dos testes foram realizadas no programa R. O t de Student com
as estatísticas utilizadas em literatura foi liberal ou apresentou taxas de poder inferiores a
95% na maioria dos cenários e, por isso, não é recomendado. O teste bayesiano com priori
de Jeffreys foi equivalente ao teste t de Student com a estatística proposta, que por sua vez,
apresentou melhor desempenho no controle das taxas de erro tipo I, mas apresentou taxas de
poder inferiores a 95% para amostras pequenas, principalmente quando a variabilidade dos dois
segmentos é maior. Foi verificado que havia a presença de razão áurea nas medidas dos braços
longo e curto do quinto par de cromossomo. / The golden ratio is an irrational constant that has been investigated by researchers from various
fields of knowledge. Present in nature and widely used in paintings, sculptures and buildings,
the golden ratio is related to the perfect beauty and the ideal proportion. Currently research has
associated properties such as proper functioning, efficiency and stability at biological structures
that have golden ratio. In order to study the golden ratio, researchers have used different
methodologies, such as, the Student’s test, non-parametric tests and, in many cases, subjective
criteria. There is no, in the literature, a specific test to infer about the mean ratio of two
populations. Many researchers, to infer if the rate of certain segments are, on average, equal to
the number of gold , use the of sample rates average to estimate the mean of population rates
and use the Student’s test. The ratio of two independent random variables standard normal is a
random variable that follows a Cauchy distribution. However, when the random variables are
dependent, as is the case where it is desired infer about the golden ratio, the ratio probability
distribution is not known. The infer process based on assumptions that are not satisfied can lead
to unreliable results. One goal of this study was to evaluate the viability of the Student’s test
with different statistics, some of them, already used by researchers, and a proposal one to infer
the golden ratio. We evaluated other methodologies proposed: the nonparametric Wilcoxon
test and the Bayesian test with non-informative priori. The evaluation of the methodologies
of parametric tests and nonparametric occurred by quantifying and comparing of the tests
type I errors rate and power in different situations variability and sample sizes, via Monte
Carlo simulation. To evaluate the Bayesian test, it was quantified rejection rates of H0 in the
simulations when the samples were generated under H0 and under H1. As an application, it
was obtained data refers the measuring of the arms of nine pairs of the chromosomes of the cell
Cerbiatta genotype of Lactuca sativa L., the lettuce and the tests were compared when applied
in this sample. All simulations and comparisons of tests were performed using the statistical
software R. The Student’s test with the statistics used in literature was liberal or had power rates
less than 95% in most scenarios and therefore is not recommended. The Bayesian test with
Jeffreys’s priori was equivalent to the Student’s test with the statistical proposal, which in turn
performed better on the control of Type I error rates, but showed lower power rates less than
95 % for small samples, especially when the variability of the two segments is large. It was
verified that there is the presence of golden ratio in the rate between long and short arms in the
fifth pair of chromosome. / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES
|
18 |
Precisão e acurácia dos estimadores de máxima verossimilhança dos parâmetros da distribuição Gumbel não estacionáriaNOGUEIRA, Roger dos Santos 20 December 2017 (has links)
A distribuição Gumbel é frequentemente utilizada na modelagem de eventos extremos. O
estimador de verossimilhança é o estimador mais usado para obter as estimativas dos parâmetros
do modelo Gumbel por apresentar boas propriedades assintóticas. Caso a série de dados
possua tendência linear, os estimadores de máxima verossimilhança podem produzir estimativas
viesadas para os parâmetros da distribuição Gumbel. Para contornar essa situação, o modelo
Gumbel não estacionário pode ser utilizado. Esse modelo é, basicamente, o modelo Gumbel
(estacionário) para dados sem tendência, com a inserção da tendência em seu parâmetro posição.
Essa inserção é feita substituindo-se o parâmetro posição em dois termos, em que um é o
coeficiente linear µ0 e o outro é a inclinação da reta µ1. Assim como no modelo Gumbel
estacionário, os parâmetros do modelo Gumbel não estacionário com tendência linear no parâmetro
posição podem ser estimados por meio dos estimadores de máxima verossimilhança.
Dependendo do tamanho da amostra e do quão grande seja a tendência apresentada pelos dados,
pode ser que o modelo Gumbel estacionário seja mais adequado do que o modelo Gumbel
não estacionário com tendência linear no parâmetro posição, ou vice-versa. Nesse sentido, é
importante saber qual modelo deve ser utilizado. O objetivo desse trabalho é avaliar a acurácia e
a precisão dos estimadores de máxima verossimilhança dos parâmetros da distribuição Gumbel
não estacionária com tendência linear no parâmetro posição. Foram simuladas 1000 amostras
de dados em 240 cenários diferentes e foram calculados os erros quadráticos médios e os vieses
médios relativos de cada cenário simulado. Pode-se observar que: se a inclinação da reta for
maior que 0,1% do valor do parâmetro posição do modelo Gumbel, deve-se ajustar o modelo
Gumbel não estacionário aos dados. Em amostras de tamanho igual ou maior do que 50, se
houver suspeita de tendência linear no parâmetro posição, deve-se optar pelo ajuste de um
modelo Gumbel não estacionário com tendência linear no parâmetro posição. / The Gumbel distribution is often used in the extreme events modelling. For this purpose it is
necessary that its parameters are estimated. The estimator most used for this is the maximum
likelihood estimator. The maximum likelihood estimators have good asymptotic properties. In
case of linear trend in the data series, the maximum likelihood estimators may produce biased
estimates for the parameters of the Gumbel distribution. To overcome this situation, Gumbel
model with trend can be used. This model is, basically, the (stationary) Gumbel model to
no trend data, with the insertion of the trend in its position parameter. As in the stationary
Gumbel model, the parameters of the trend Gumbel model can be estimate by means maximum
likelihood estimators. Depending on sample size and on how big is the trend presented by the
data, the stationary Gumbel model can be more appropriate than the trend Gumbel model, or
vice versa. In this respect, it is important to know how model must be used. The objective of
this study is, therefore, to evaluate the accuracy and the precision of the maximum likelihood
estimators of the Gumbel model with linear trend’s parameters. To do this, have been simulated
1,000 data samples on 240 different scenarios and have been calculated the mean squared errors
and the relative mean biases of each simulated scenario. The results lead to the following
conclusions: if the trend was bigger than 0.1% of the Gumbel model’s position parameter value,
the trend Gumbel model must be fitted. In the case of the sample size be equal or bigger than
50 and there is suspect of trend, the trend Gumbel model must be fitted.
|
19 |
Desempenho do gráfico de controle CUSUM tabular para o monitoramento da média / The performance of tabular CUSUM control chart for monitoring the meanLara, Rodrigo Luiz Pereira 16 February 2012 (has links)
Made available in DSpace on 2015-03-26T13:32:14Z (GMT). No. of bitstreams: 1
texto completo.pdf: 2818845 bytes, checksum: be3f419fcc4c9f0b3cb6050f150daf3c (MD5)
Previous issue date: 2012-02-16 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / This study aimed to estimate the probabilities of false and true alarms caused by the Cumulative Sum control chart over the i rational subgroups, according to various combinations of size n of subgroup rational, standardized decision interval h* and the tolerance value k*. To study them, were simulated data from a random variable Y, under normal distribution with mean μ0 = 0 and standard deviation 1 s 0 = for a process under statistical control over 50 rational subgroups, for n between 1-16. To this end, 1000 simulations were performed by rational subgroup. Then four out of control processes have been set for the statistical average at all rational subgroup ( μ1 = μ0 +ds 0 ) in which d refers to the displacement of the average in numbers of standard deviations of the process. The probability of false alarm a decreases with the increase, increase and decrease of k*, h* and i respectively, while the probability of true alarm Pd has direct relation to n and i, and inverse relation to h* for the same pre-defined minimum difference between the means μ0 and μ1 considering the choice of k* as being half of that difference in number of standard deviations. Both probabilities of true and false alarms were obtained by the normal and lognormal 3P probability distributions adjusted to the random variable Z(i) + S (i −1)* H . In order to give a power greater than 0.90 and a equal or less than 0.05 or 0.01 were recommended to different combinations of k*, h*, i and n. / O presente trabalho teve por objetivo estimar as probabilidades dos alarmes falsos e verdadeiros provocados pelo gráfico de controle CUSUM tabular ao longo dos i subgrupos racionais, em função de diferentes combinações entre o tamanho n do subgrupo racional, o interval o de decisão padronizado h* e o valor de tolerância k*. Para estudá-los foram simulados dados de uma variável aleatória Y, sob distribuição normal com média μ0 = 0 e desvio-padrão 1 s 0 = para um processo sob controle estatístico para até 50 subgrupos racionais com até 16 repetições. Para tanto, foram realizadas 1000 simulações por subgrupo racional. Em seguida foram estabelecidos outros quatro processos fora de controle estatístico para a média em todos os subgrupos racionais ( μ1 = μ0 +ds 0 ), em que d se refere ao deslocamento da média em número de desvios-padrão do processo. A robabilidade do alarme falso (a ) diminui com os respectivos aumento, aumento e diminuição de k*, h* e i, enquanto a probabilidade do alarme verdadeiro (Pd) possui relação direta com n e i, e inversa com h* para uma mesma diferença mínima pré-definida entre as médias μ1 e μ0 e considerando-se a escolha de k* como sendo a metade desta em número de desvios-padrão. Ambas probabilidades dos alarmes falso e verdadeiro foram obtidas por meio das distribuições de probabilidade normal e lognormal 3P ajustadas à variável aleatória Z(i) + S (i −1) * H . Para conferir um Pd igual ou superior a 0,90 e a igual ou inferior a 0,05 ou 0,01 recomendou-se diferentes combinações de k*, h*, i e n.
|
20 |
Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros / Segmentation of names and addresses through hidden Markov models and its application in record linkageRita de Cássia Braga Gonçalves 11 December 2013 (has links)
A segmentação dos nomes nas suas partes constitutivas é uma etapa fundamental no processo de integração de bases de dados por meio das técnicas de vinculação de registros. Esta separação dos nomes pode ser realizada de diferentes maneiras. Este estudo teve como objetivo avaliar a utilização do Modelo Escondido de Markov (HMM) na segmentação nomes e endereços de pessoas e a eficiência desta segmentação no processo de vinculação de registros. Foram utilizadas as bases do Sistema de Informações sobre Mortalidade (SIM) e do Subsistema de Informação de Procedimentos de Alta Complexidade (APAC) do estado do Rio de Janeiro no período entre 1999 a 2004. Uma metodologia foi proposta para a segmentação de nome e endereço sendo composta por oito fases, utilizando rotinas implementadas em PL/SQL e a biblioteca JAHMM, implementação na linguagem Java de algoritmos de HMM. Uma amostra aleatória de 100 registros de cada base foi utilizada para verificar a correção do processo de segmentação por meio do modelo HMM.Para verificar o efeito da segmentação do nome por meio do HMM, três processos de vinculação foram aplicados sobre uma amostra das duas bases citadas acima, cada um deles utilizando diferentes estratégias de segmentação, a saber: 1) divisão dos nomes pela primeira parte, última parte e iniciais do nome do meio; 2) divisão do nome em cinco partes; (3) segmentação segundo o HMM. A aplicação do modelo HMM como mecanismo de segmentação obteve boa concordância quando comparado com o observador humano. As diferentes estratégias de segmentação geraram resultados bastante similares na vinculação de registros, tendo a estratégia 1 obtido um desempenho pouco melhor que as demais. Este estudo sugere que a segmentação de nomes brasileiros por meio do modelo escondido de Markov não é mais eficaz do que métodos tradicionais de segmentação. / The segmentation of names into its constituent parts is a fundamental step in the integration of databases by means of record linkage techniques. This segmentation can be accomplished in different ways. This study aimed to evaluate the use of Hidden Markov Models (HMM) in the segmentation names and addresses of people and the efficiency of the segmentation on the record linkage process. Databases of the Information System on Mortality (SIM in portuguese) and Information Subsystem for High Complexity Procedures (APAC in portuguese) of the state of Rio de Janeiro between 1999 and 2004 were used. A method composed of eight stages has been proposed for segmenting the names and addresses using routines implemented in PL/SQL and a library called JAHMM, a Java implementation of HMM algorithms. A random sample of 100 records in each database was used to verify the correctness of the segmentation process using the hidden Markov model. In order to verify the effect of segmenting the names through the HMM, three record linkage process were applied on a sample of the aforementioned databases, each of them using a different segmentation strategy, namely: 1) dividing the name into first name , last name, and middle initials; 2) division of the name into five parts; 3) segmentation by HMM. The HMM segmentation mechanism was in good agreement when compared to a human observer. The three linkage processes produced very similar results, with the first strategy performing a little better than the others. This study suggests that the segmentation of Brazilian names by means of HMM is not more efficient than the traditional segmentation methods.
|
Page generated in 0.4429 seconds