Spelling suggestions: "subject:"estatística aplicadas"" "subject:"statística aplicadas""
31 |
Comparação de coeficientes de similaridade usados em análises de agrupamento com dados de marcadores moleculares dominantes. / Comparison of similarity coefficients used in cluster analysis with dominant markers data.Meyer, Andréia da Silva 28 February 2002 (has links)
Estudos de divergência genética e relações filogenéticas entre espécies vegetais de importância agronômica têm merecido atenção cada vez maior com o recente advento dos marcadores moleculares. Nesses trabalhos, os pesquisadores têm interesse em agrupar os indivíduos semelhantes de forma que as maiores diferenças ocorram entre os grupos formados. Métodos estatísticos de análise, tais como análise de agrupamentos, análise de fatores e análise de componentes principais auxiliam nesse tipo de estudo. Contudo, antes de se empregar algum desses métodos, deve ser obtida uma matriz de similaridade entre os genótipos, sendo que diversos coeficientes são propostos na literatura para esse fim. O presente trabalho teve como objetivo avaliar se diferentes coeficientes de similaridade influenciam os resultados das análises de agrupamentos, feitas a partir de dados provenientes de análises com marcadores moleculares dominantes. Foram utilizados dados de 18 linhagens de milho provenientes de duas diferentes populações, BR-105 e BR-106, as quais foram analisadas por marcadores dos tipos AFLP e RAPD. Foram considerados para comparação os coeficientes de Jaccard, Sorensen-Dice, Anderberg, Ochiai, Simple Matching, Rogers e Tanimoto, Ochiai II e Russel e Rao, para os quais foram obtidas as matrizes de similaridade. Essas matrizes foram comparadas utilizando as correlações de Pearson e Spearman, análise de agrupamentos com construção de dendrogramas, correlações, distorção e estresse entre as matrizes de similaridade e as matrizes cofenéticas, índices de consenso entre os dendrogramas, grupos obtidos com o método de otimização de Tocher e com a projeção no plano bidimensional das matrizes de similaridade. Os resultados mostraram que para praticamente todas metodologias usadas, para ambos marcadores, os coeficientes de Jaccard, Sorensen-Dice, Anderberg e Ochiai mostraram resultados semelhantes entre si, o que foi atribuído ao fato deles apresentarem como propriedade comum a desconsideração da ausência conjunta de bandas. Isso também foi observado para os coeficientes de Simple Matching, Rogers e Tanimoto e Ochiai II, que também não apresentaram entre si grandes alterações nos resultados, possivelmente devido ao fato de todos considerarem a ausência conjunta. O coeficiente de Russel e Rao apresentou resultados muito diferentes dos demais coeficientes, em função dele excluir a ausência conjunta do numerador e incluí-la no denominador, não sendo recomendado seu uso. Devido ao fato da ausência conjunta não significar necessariamente que as regiões do DNA são idênticas, sugere-se a escolha dentre os coeficientes que desconsideram a ausência conjunta. / With the recent advent of the molecular markers, studies of divergence and phylogenetic relationships between and within vegetable species of agricultural interest have been received greater attention. In these studies, the aim is to group similar individuals looking for bigger differences among the groups. Statistical methods of analysis such as cluster analysis, factor analysis and principal components analysis can be used in this kind of study. However, before to employ some method, the similarity matrix between genotypes must be obtained using one of the several coefficients proposed in the concerning literature. The aim of this study was to evaluate if different similarity coefficients can influence the results of cluster analysis with dominant markers. Data from 18 inbred lines of maize from two different populations, BR-105 and BR-106, were analyzed by AFLP and RAPD markers and eight similarity coefficients (Jaccard, Sorensen-Dice, Anderberg, Ochiai, Simple-matching, Rogers and Tanimoto, Ochiai II and Russel and Rao) were obtained. The similarity matrices were compared by Pearson's and Spearman's correlations, cluster analysis (with dendrograms, correlations, distortion and stress between the similarity and cofenetical matrices, consensus fork index between all pairs of dendrograms), Tocher´s optimization procedure and with the projection in two-dimensional space of the similarity matrices. The results showed that for almost all of the methodologies and both markers, the coefficients of Jaccard, Sorensen-Dice, Anderberg and Ochiai, gave similar results, due to the fact that all of them excludes negative co-occurences. It was also observed that the Simple Matching, Rogers and Tanimoto, and Ochiai II, probably due to the fact of all including the negative co-occurences. The Russel and Rao coefficient presented results very different from the others, because it excludes the negative co-occurences in the numerator and include it in the denominator of its expression, which is a reason for not recommending it. Due the fact of the negative co-occurences does not mean, necessarily, that the regions of the DNA are identical, it is suggested to choose one those coefficients that do not include it.
|
32 |
A distribuição generalizada de Pareto e mistura de distribuições de Gumbel no estudo da vazão e da velocidade máxima do vento em Piracicaba, SP / The generalized Pareto distribution and Gumbel mixture to study flow and maximum wind speed in Piracicaba, SPSilva, Renato Rodrigues 10 October 2008 (has links)
A teoria dos valores extremos é um tópico da probabilidade que descreve a distribuição assintótica das estatísticas de ordem, tais como máximos ou mínimos, de uma seqüência de variáveis aleatórias que seguem uma função de distribuição F normalmente desconhecida. Descreve, ainda, a distribuição assintótica dos excessos acima de um valor limiar de um ou mais termos dessa seqüência. Dessa forma, as metodologias padrões utilizada neste contexto consistem no ajuste da distribuição generalizada dos valores extremos a uma série de máximos anuais ou no ajuste da distribuição generalizada de Pareto a uma série de dados compostas somente de observações excedentes de um valor limiar. No entanto, segundo Coles et al. (2003), há uma crescente insatisfação com o desempenho destes modelos padrões para predição de eventos extremos causada, possivelmente, por pressuposições não atendidas como a de independência das observações ou pelo fato de que os mesmos não sejam recomendados para serem utilizados em algumas situações específicas como por exemplo e quando observações de máximos anuais compostas por duas ou mais populações independentes de eventos extremos sendo que a primeira descreve eventos menos freqüentes e de maior magnitude e a segunda descreve eventos mais freqüentes e de menor magnitude. Então, os dois artigos que compõem este trabalho tem como objetivo apresentar alternativas de análise de valores extremos para estas situações em que o ajuste dos modelos padrões não são adequados. No primeiro, foram ajustadas as distribuições generalizada de Pareto e exponencial, caso particular da GP, aos dados de vazão média diária do Posto de Artemis, Piracicaba, SP, Brasil, conjuntamente com a técnica do desagrupamento, (declustering), e comparadas as estimativas dos níveis de retorno para períodos de 5, 10, 50 e 100 anos. Conclui-se que as estimativas intervalares dos níveis de retorno obtidas por meio do ajuste da distribuição exponencial são mais precisas do que as obtidas com o ajuste da distribuição generalizada de Pareto. No segundo artigo, por sua vez, foi apresentada uma metodologia para o ajuste da distribuição de Gumbel e de misturas de duas distribuições de Gumbel aos dados de velocidades de ventos mensais de Piracicaba, SP. Selecionou-se a distribuição que melhor ajustou-se aos dados por meio de testes de hipóteses bootstrap paramétrico e critérios de seleção AIC e BIC. E concluiu-se que a mistura de duas distribuições de Gumbel é a distribuição que melhor se ajustou-se aos dados de velocidades máxima de ventos dos meses de abril e maio, enquanto que o ajuste da distribuição de Gumbel foi o melhor para os meses de agosto e setembro. / The extreme value theory is a probability topics that describes the asymtoptic distribution of order statistics such as maximum or minimum of random variables sequence that follow a distribution function F normaly unknown. Describes still, the excess asymtoptic distribution over threshold of this sequence. So, the standard methodologies of extremes values analysis are the fitting of generalized extreme value distribution to yearly maximum series or the fitting of generalized Pareto distribution to partial duration series. However, according to Coles et al. (2003), there is a growing dissatisfaction with the use this standard models for the prediction of extremes events and one of possible causes this fact may be a false assumptions about a sequence of observed data as a independence assumptions or because the standards models must not used in some specific situations like for example when maximum sample arise from two or more independents populations, where the first population describes more frequents and low intense events and the second population describes less frequents and more intense events. In this way, the two articles this work has a objective show alternatives about extreme values analysis for this situations that the standards models doesn´t recommended. In the first article, the generalized distribution Pareto and exponencial distribution, particular case of GP, together with to declustering methods was applied to mean daily flow of the Piracicaba river, Artemis station, Piracicaba, SP, and the estimates the return levels of 5, 10, 50 and 100 years were compared. We conclude that the interval estimates of the 50 and 100 year return levels obtained using the fitting the exponencial distribution are more precise than those obtained using the generalized Pareto distribution. In the second article, we propose the fit of Gumbel distribution and the Gumbel mixture to data maximum speed wind in Piracicaba, SP. We select the best model using bootstrap test of hypotheses and the AIC and BIC selection criteria We conclude that the mixture Gumbel is the best model to analyze the maximum wind speed data for months of april e may and otherside the fit of Gumbel distributions was the best fit to months of august e september.
|
33 |
Análise Bayesiana de ensaios fatoriais 2k usando os princípios dos efeitos esparsos, da hierarquia e da hereditariedade / Bayesian analysis of 2k factorial designs using the sparse eects, hierarchy and heredity principlesBiz, Guilherme 29 January 2010 (has links)
No Planejamento de experimentos para o ajuste de modelos polinomiais envolvendo k fatores principais e respectivas interações, e bastante comum a utilização dos fatoriais 2k, 3k ou frações dos mesmos. Para as analises dos resultados desses experimentos, freqüentemente se considera o princípio da hereditariedade, ou seja, uma vez constatada uma interação significativa entre fatores, os fatores que aparecem nesta interação e respectivas interações devem também estar presentes no modelo. Neste trabalho, esse princípio e incorporado diretamente a priori, para um método de seleção de variáveis Bayesiana, seguindo as idéias propostas por Chipman, Hamada e Wu (1997), porem com uma alteração dos valores sugeridos pelos autores para os hiperparâmetros. Essa alteração, proposta neste trabalho, promove uma melhoria considerável na metodologia original. A metodologia e então ilustrada por meio da analise dos resultados de um experimento fatorial para a elaboração de biofilmes de amido originado da ervilha. / In experimental planning for adjustment of polynomials models involving k main factors and their interactions, it is frequent to adopt the 2k, 3k designs or its fractions. Furthermore, it is not unusual, when analysing the results of such experiments, to consider the heredity principle. In other words, once detected a signicant interaction between factors, the factors that appear in this interaction and respective interactions should also be present in the model. In this work, this principle is incorporated directly in the prior, following the ideas proposed by Chipman, Hamada and Wu (1997), but changing some of the hyperparameters. What improves considerably the original methodology. Finally the methodology is illustrated by the analysis of the results of an experiment for the elaboration of pea starch biolms.
|
34 |
Qualidade do corte de base de colhedoras de cana-de-açúcar / Base cutting quality of sugar cane harvestersSalvi, José Vitor 28 August 2006 (has links)
Na colheita mecanizada de cana-de-açúcar, existem algumas peculiaridades relacionadas às interações solo-máquina-planta, que tem causado preocupações, devido às perdas de matériaprima deixada no campo e à redução da longevidade do canavial, ocasionados pela deficiência do controle de altura de corte. A melhoria da qualidade do corte e da matéria-prima é proposta na bibliografia por meio de intervenções na colheita e em outras práticas culturais existentes, e de mudanças nos projetos das colhedoras. Os fabricantes desses equipamentos têm desenvolvido dispositivos para auxiliar o operador no controle da altura de corte. Tendo em vista a importância do corte de base na qualidade e perda de matéria-prima e na longevidade da soqueira, o objetivo desse trabalho foi avaliar a influência de um dispositivo semi-automático de controle de altura do corte de base, DAC, na qualidade do corte de base e seu desempenho ao longo de uma jornada de trabalho. Para tanto, os ensaios foram realizados em duas usinas de açúcar e álcool, com colhedoras equipadas com o DAC. Para a avaliação da qualidade do corte de base, foram utilizadas duas metodologias distintas, denominadas de etapa 1 e etapa 2. A primeira procurou identificar a influência da utilização do DAC na qualidade operacional. A segunda foi voltada para a avaliação da qualidade operacional com o uso DAC em situação normal de trabalho. Nas duas etapas, utilizaram-se técnicas do controle estatístico do processo. Os resultados mostraram que, em termos gerais e nas condições do trabalho, os parâmetros qualitativos analisados do corte de base realizado por colhedoras de cana-de-açúcar não atendem aos padrões especificados pelas usinas, independente do uso do DAC. / In sugar cane mechanized harvesting, there are some peculiarities related to soil-machineplant interaction which has been causing some concern due to raw material left on the field losses and the reduction in sugar cane crop longevity caused by deficiency in cut height control. Improvement in cut quality and raw material are proposed in bibliography by means of intervention at harvest and other crop practices available and changes in harvester design. Harvester producers have developed devices to aid the operator in controlling cut height. Whit the importance of base cutting in raw material quality and losses and crop longevity in mind, this study aimed at evaluating the influence of a semi-automatic base cutting control device, DAC, on base cutting quality and its performance on a normal working day. Thus, the trials were carried out in two sugar and alcohol mills with harvesters equipped with DAC. Two different methodologies, denominated stage one and stage two, were used in order to evaluate base cutting quality. The first one tried to identify the influence of DAC utilization on operational quality. The second one evaluated the operational quality with DAC use on a normal working condition. On both stages, techniques of statistical process control were used. The results showed that, in general and under the harvester operation conditions, the analyzed qualitative parameters of base cutting done sugar cane harvesters do not meet the standard specified by sugar mills regardless the DAC use.
|
35 |
Aplicação de modelos multiníveis na análise de dados de medidas repetidas no tempo. / Multilevel models applied in the analysis of repeated measure data.Bergamo, Genevile Carife 28 October 2002 (has links)
Em muitos trabalhos científicos, é comum encontrar os dados estruturados de forma hierarquica, ou seja, os indivíduos em estudo estão agrupados em unidades de nível mais baixo, que por sua vez pertencem a unidades de um nível mais alto e assim sucessivamente. Na análise desse tipo de dados é importante levar em conta a estrutura hierarquica uma vez que, não faze-la, pode implicar na superestimação dos coecientes do modelo em estudo. Assim, para facilitar a análise de dados seguindo uma estrutura hierarquica, foram desenvolvidos os modelos multiníveis. Tais modelos levam em conta toda a variabilidade existente para os dados num mesmo nível como nos diferentes níveis da hierarquia. No caso da análise de dados de medidas repetidas no tempo, uma estrutura hierarquica em dois níveis pode ser considerada, organizando as ocasiões de medidas, no primeiro nível, para cada indivíduo no segundo nível. Neste trabalho, é feita uma abordagem dos modelos multiníveis para vários níveis da hierarquia bem como os métodos de estimação e teste dos parâmetros envolvidos no modelo. Como aplicação, foram analisados dados provenientes do Programa de Atenção ao Idoso (PAI), desenvolvido no ambulatório municipal Dr. Plinio do Prado Coutinho em Alfenas, M.G., em que foram observadas as variáveis Indice de Massa Corporea (imc) e Pressão Arterial dos idosos durante 22 meses. Também, foram analisados dados referentes ao teor de proteína no leite de 79 vacas australianas, coletados durante 19 semanas após o parto e submetidas a três dietas (Diggle et al., 1994). Para os dados do "PAI", foi possível verificar que as diferentes medidas de pressão arterial estão relacionadas positivamente com o imcao longo do tempo, independente de sexo, idade e estado civil. Já nos dados relativos ao teor de proteína no leite, notou-se uma redução do teor de proteína no leite ao longo do tempo, independente dos tratamentos aplicados. Foram utilizados os softwares MLwiN e SAS para a realização das análises. / It is common to and data structured in a hierarchical form in several scientific works, that is, the studied subjects are nested in the lowest level unites, that belong to the highest level unites, and so on. To analyze these sort of data it is important to take in account the hierarchical structure once, if does not do it, the coeficients can be overestimated in the studied model. Then, in order to become easier the data analysis according to the hierarchical structure, multilevel models were developed. Such models take into account all the existing variability for the data at the same level as well as in diferent levels of the hierarchy. In the case of repeated measure data, a two levels hierarchical structure can be considered, organizing the occasions at the first level for each subject at the second level. In this work, na approach of the multilevel models for several levels are made as well as the estimation methods and the tests for the involved parameters in the model. As an application, data from the Elderly Care Program (ECP), developed at outpatient clinic Dr. Plinio do Prado Coutinho at Alfenas, M.G., where the Body Mass Index and the Bloody Pressure were observed from elderly people for 22 months. Also, it was analyzed the milk protein content of 79 australian cows during 19 weeks after calving and subject to three diets (Diggle et al., 1994). For the data of the ECP it was possible to observe that the bloody pressure are positively related to the occasions, independently of sex, race and marital status. For the data form the milk protein content, a reduce in the content in the occasions even after the diets are included. MLwiN and SAS softwares were used to run the analysis.
|
36 |
A avaliação do impacto de um treinamento utilizando Propensity Score Matching : uma abordagem não-paramétrica e semiparamétricaSilveira, Luiz Felipe de Vasconcellos January 2015 (has links)
O objetivo dessa dissertação é avaliar o impacto de um programa de treinamento voltado para trabalhadores, utilizando o propensity score matching, mas com dois tipos de abordagem, uma não-paramétrica e a outra semi-paramétrica. Para estimação não paramétrica foi utilizado um método proposto por Li, Racine e Wooldridge (2009) e para estimação semi-paramétrica, o modelo utilizado foi o Generalized Additive Model proposto por Hastie e Tibshirani (1990). Os resultados obtidos indicam que os dois métodos utilizados apresentam estimativas tão boas ou melhores do que quando estimadas paramétricamente. / The goal of this thesis is to evaluate the impact of a job training program using propensity score matching methods with two types of approaches: a nonparametric e another semiparametric. For non-parametric estimation was used a method proposed by Li, Racine and Wooldridge (2009) and for the semiparametric model the Generalized Additive Model proposed by Hastie and Tibshirani (1990). The results indicate that both methods provide estimates as good or better than when parametrically estimated.
|
37 |
Modelos lineares mistos: estruturas de matrizes de variâncias e covariâncias e seleção de modelos. / Mixed linear models: structures of matrix of variances and covariances and selection of models.Camarinha Filho, Jomar Antonio 27 September 2002 (has links)
É muito comum encontrar nas áreas agronômica e biológica experimentos cujas observações são correlacionadas. Porém, tais correlações, em tese, podem estar associadas às parcelas ou às subparcelas, dependendo do plano experimental adotado. Além disso, a metodologia de modelos lineares mistos vem sendo utilizada com mais freqüência, principalmente após os trabalhos de Searle (1988), Searle at al. (1992), Wolfinger (1993b) entre outros. O sucesso do procedimento de modelagem está fortemente associado ao exame dos efeitos aleatórios que devem permanecer no modelo e na possibilidade de se introduzir, no modelo, estruturas de variâncias e covariâncias das variáveis aleatórias que, para o modelo linear misto, podem estar inseridas no resíduo e, também, na parte aleatória associada ao fator aleatório conhecido. Nesse contexto, o Teste da Razão de Verossimilhança e o Critério de Akaike podem auxiliar na tarefa de escolha do modelo mais apropriado para análise dos dados, além de permitir verificar que escolhas de modelos inadequadas acarretam em conclusões divergentes em relação aos efeitos fixos do modelo. Com o desenvolvimento do Proc Mixed do SAS (Littel at al. 1996), utilizado neste trabalho, a análise desses experimentos, tratada pela metodologia modelos lineares mistos, tornou-se mais usual e segura. Com a finalidade de se atingir o objetivo deste trabalho, utilizaram-se dois exemplos (A e B) sobre a resposta da produtividade de três cultivares de trigo, em relação a níveis de irrigação por aspersão line-source. Foram criados e analisados 29 modelos para o Exemplo A e 16 modelos para o Exemplo B. Pôde-se verificar, para cada um dos exemplos, que as conclusões em relação aos efeitos fixos se modificaram de acordo com o modelo adotado. Notou-se, também, que o Critério de Akaike deve ser visto com cautela. Ao se comparar modelos similares entre os dois exemplos, ratificou-se a importância de se programar corretamente no Proc Mixed. Nesse contexto, conclui-se que é fundamental conduzir a análise de experimentos de forma ampla, buscando vários modelos e verificando quais têm lógica em relação ao plano experimental, evitando erros ao término da análise. / In Biology and Agronomy, experiments that produce correlated observations are often found. Theoretically, these correlations may be associated with whole-plots or subplots, according to the chosen experimental design. Also, the mixed linear model methodology is now being used much more frequently, especially after the works of Searle (1988), Searle et al. (1992) and Wolfinger (1993b), among others. The success of the modeling procedure is strongly associated with the examination of the random effects that must remain within the model and the possibility of introducing variance-covariance structures of random variables in the model. In the case of the mixed linear model, they may be included in the residual error or in the random part which is associated with the known random factor. In this context, the Likelihood Ratio Test and Akaike's Information Criterion can help in choosing the most appropriate model for data analysis. They also enable the verification of inadequate choice of models which can lead to divergent conclusions regarding the fixed effects of the model. With the development of the SAS Mixed Procedure (Little at al. 1996), which was used in this work, analysis of these experiments, conducted through the mixed linear model methodology, has become more usual and secure. In order to achieve the target of this work, two examples were utilized (A and B) involving the productivity response of three varieties of wheat, in regards to irrigation levels by line-source aspersion. Twenty-nine models for Example A and 16 models for Example B were created and analyzed. For each example, it was verified that conclusions regarding fixed effects changed according to the model adopted. It was also verified that Akaikes Information Criterion must be regarded with caution. When comparing similar models between the two examples, the importance of correct programming in the Mixed Procedure was confirmed. In this context, it can be concluded that it is fundamental to conduct the experiment analysis in an ample manner, looking for various models and verifying which ones make sense according to the experimental plan, thus avoiding errors at analysis completion.
|
38 |
Qualidade do corte de base de colhedoras de cana-de-açúcar / Base cutting quality of sugar cane harvestersJosé Vitor Salvi 28 August 2006 (has links)
Na colheita mecanizada de cana-de-açúcar, existem algumas peculiaridades relacionadas às interações solo-máquina-planta, que tem causado preocupações, devido às perdas de matériaprima deixada no campo e à redução da longevidade do canavial, ocasionados pela deficiência do controle de altura de corte. A melhoria da qualidade do corte e da matéria-prima é proposta na bibliografia por meio de intervenções na colheita e em outras práticas culturais existentes, e de mudanças nos projetos das colhedoras. Os fabricantes desses equipamentos têm desenvolvido dispositivos para auxiliar o operador no controle da altura de corte. Tendo em vista a importância do corte de base na qualidade e perda de matéria-prima e na longevidade da soqueira, o objetivo desse trabalho foi avaliar a influência de um dispositivo semi-automático de controle de altura do corte de base, DAC, na qualidade do corte de base e seu desempenho ao longo de uma jornada de trabalho. Para tanto, os ensaios foram realizados em duas usinas de açúcar e álcool, com colhedoras equipadas com o DAC. Para a avaliação da qualidade do corte de base, foram utilizadas duas metodologias distintas, denominadas de etapa 1 e etapa 2. A primeira procurou identificar a influência da utilização do DAC na qualidade operacional. A segunda foi voltada para a avaliação da qualidade operacional com o uso DAC em situação normal de trabalho. Nas duas etapas, utilizaram-se técnicas do controle estatístico do processo. Os resultados mostraram que, em termos gerais e nas condições do trabalho, os parâmetros qualitativos analisados do corte de base realizado por colhedoras de cana-de-açúcar não atendem aos padrões especificados pelas usinas, independente do uso do DAC. / In sugar cane mechanized harvesting, there are some peculiarities related to soil-machineplant interaction which has been causing some concern due to raw material left on the field losses and the reduction in sugar cane crop longevity caused by deficiency in cut height control. Improvement in cut quality and raw material are proposed in bibliography by means of intervention at harvest and other crop practices available and changes in harvester design. Harvester producers have developed devices to aid the operator in controlling cut height. Whit the importance of base cutting in raw material quality and losses and crop longevity in mind, this study aimed at evaluating the influence of a semi-automatic base cutting control device, DAC, on base cutting quality and its performance on a normal working day. Thus, the trials were carried out in two sugar and alcohol mills with harvesters equipped with DAC. Two different methodologies, denominated stage one and stage two, were used in order to evaluate base cutting quality. The first one tried to identify the influence of DAC utilization on operational quality. The second one evaluated the operational quality with DAC use on a normal working condition. On both stages, techniques of statistical process control were used. The results showed that, in general and under the harvester operation conditions, the analyzed qualitative parameters of base cutting done sugar cane harvesters do not meet the standard specified by sugar mills regardless the DAC use.
|
39 |
Análise Bayesiana de ensaios fatoriais 2k usando os princípios dos efeitos esparsos, da hierarquia e da hereditariedade / Bayesian analysis of 2k factorial designs using the sparse eects, hierarchy and heredity principlesGuilherme Biz 29 January 2010 (has links)
No Planejamento de experimentos para o ajuste de modelos polinomiais envolvendo k fatores principais e respectivas interações, e bastante comum a utilização dos fatoriais 2k, 3k ou frações dos mesmos. Para as analises dos resultados desses experimentos, freqüentemente se considera o princípio da hereditariedade, ou seja, uma vez constatada uma interação significativa entre fatores, os fatores que aparecem nesta interação e respectivas interações devem também estar presentes no modelo. Neste trabalho, esse princípio e incorporado diretamente a priori, para um método de seleção de variáveis Bayesiana, seguindo as idéias propostas por Chipman, Hamada e Wu (1997), porem com uma alteração dos valores sugeridos pelos autores para os hiperparâmetros. Essa alteração, proposta neste trabalho, promove uma melhoria considerável na metodologia original. A metodologia e então ilustrada por meio da analise dos resultados de um experimento fatorial para a elaboração de biofilmes de amido originado da ervilha. / In experimental planning for adjustment of polynomials models involving k main factors and their interactions, it is frequent to adopt the 2k, 3k designs or its fractions. Furthermore, it is not unusual, when analysing the results of such experiments, to consider the heredity principle. In other words, once detected a signicant interaction between factors, the factors that appear in this interaction and respective interactions should also be present in the model. In this work, this principle is incorporated directly in the prior, following the ideas proposed by Chipman, Hamada and Wu (1997), but changing some of the hyperparameters. What improves considerably the original methodology. Finally the methodology is illustrated by the analysis of the results of an experiment for the elaboration of pea starch biolms.
|
40 |
On the application of focused crawling for statistical machine translation domain adaptationLaranjeira, Bruno Rezende January 2015 (has links)
O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos. / Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes.
|
Page generated in 0.0697 seconds