Spelling suggestions: "subject:"estatística"" "subject:"statística""
431 |
FGM e suas generalizações sob um ponto de vista bayesiano / A bayesian approach for FGM and its generalizationsSchultz, José Adolfo de Almeida 18 August 2018 (has links)
Orientador: Verónica Andrea González-Lopez / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica / Made available in DSpace on 2018-08-18T10:24:16Z (GMT). No. of bitstreams: 1
Schultz_JoseAdolfodeAlmeida_M.pdf: 781903 bytes, checksum: 6f13c49a1d8a278498ea105b9b9a7a31 (MD5)
Previous issue date: 2011 / Resumo: O resumo poderá ser visualizado no texto completo da tese digital / Abstract: The abstract is available with the full electronic digital document / Mestrado / Inferencia Bayesiana / Mestre em Estatística
|
432 |
Modelo de Grubbs em grupos / Grubbs' model with subgroupsZeller, Camila Borelli 23 February 2006 (has links)
Orientador: Filidor Edilfonso Vilca Labra / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-05T23:55:16Z (GMT). No. of bitstreams: 1
Zeller_CamilaBorelli_M.pdf: 3683998 bytes, checksum: 26267086098b12bd76b1d5069f688223 (MD5)
Previous issue date: 2006 / Resumo: Neste trabalho, apresentamos um estudo de inferência estatística no modelo de Grubbs em grupos, que representa uma extensão do modelo proposto por Grubbs (1948,1973) que é freqüentemente usado para comparar instrumentos ou métodos de medição. Nós consideramos a parametrização proposta por Bedrick (2001). O estudo é baseado no método de máxima verossimilhança. Testes de hipóteses são considerados e baseados nas estatísticas de wald, escore e razão de verossimilhanças. As estimativas de máxima verossimilhança do modelo de Grubbs em grupos são obtidas usando o algoritmo EM e considerando que as observações seguem uma distribuição normal. Apresentamos um estudo de análise de diagnóstico no modelo de Grubbs em grupos com o interesse de avaliar o impacto que um determinado subgrupo exerce na estimativa dos parâmetros. Vamos utilizar a metodologia de influência local proposta por Cook (1986), considerando o esquema de perturbação: ponderação de casos. Finalmente, apresentamos alguns estudos de simulação e ilustramos os resultados teóricos obtidos usando dados encontrados na literatura / Abstract: In this work, we presented a study of statistical inference in the Grubbs's model with subgroups, that represents an extension of the model proposed by Grubbs (1948,1973) that is frequently used to compare instruments or measurement methods. We considered the parametrization proposed by Bedrick (2001). The study is based on the maximum likelihood method. Tests of hypotheses are considered and based on the wald statistics, score and likelihood ratio statistics. The maximum likelihood estimators of the Grubbs's model with subgroups are obtained using the algorithm EM and considering that the observations follow a normal distribution. We also presented a study of diagnostic analysis in the Grubb's model with subgroups with the interest of evaluating the effect that a certain one subgroup exercises in the estimate of the parameters. We will use the methodology of local influence proposed by Cook (1986) considering the schemes of perturbation of case weights. Finally, we presented some simulation studies and we illustrated the obtained theoretical results using data found in the literature / Mestrado / Mestre em Estatística
|
433 |
Método para implementação e acompanhamento de atividades a distância em disciplinas de Estatística: um estudo de caso / Method for distance activities introduction and attendance in statistics subjects: a case-studyDaielly Melina Nassif Mantovani 10 April 2008 (has links)
O objetivo desta dissertação foi desenvolver um método para implementação e acompanhamento de atividades a distância em disciplinas de Estatística, por meio de ambientes virtuais de aprendizagem. O método inclui alguns recursos comumente encontrados em ambientes virtuais, como materiais de leitura, fórum, chat, correio eletrônico, FAQ, links, espaço compartilhado de trabalho e quadro de notas. O método foi aplicado a uma disciplina semipresencial do curso de graduação em Administração da FEA-RP/USP. Este trabalho se configura como uma pesquisa qualitativa e descritiva, com delineamento por estudo de caso único, cuja coleta de dados ocorreu por meio de observação participante (nos processos de tutoria), entrevistas do tipo focus group, relatórios de acessos dos alunos ao ambiente e um survey sobre o perfil da turma. O gerenciamento do curso ocorreu conjuntamente com o processo de tutoria da disciplina, o que permitiu acompanhar os acessos dos alunos a cada recurso do ambiente e o seu desempenho nas atividades propostas. Observou-se que alguns recursos não foram utilizados da forma planejada pelo método. A análise de regressão revelou que, durante a primeira fase da disciplina, as discussões no fórum e o desempenho nos trabalhos práticos influenciaram positivamente o desempenho do aluno na prova. Na segunda fase, apenas o trabalho prático e o fórum influenciaram na nota da prova. A análise de cluster identificou quatro grupos de alunos com desempenho: excelente, bom, mediano e insatisfatório. Os resultados indicam que outras variáveis, além das atividades a distância, determinam o desempenho do aluno na disciplina. / The objective of this dissertation was to develop a method for distance activities introduction and attendance in Statistics subjects through learning virtual environments. The method includes some resources commonly found in virtual environments, such as reading materials, forum, chat, electronic mail, FAQ, links, shared work space, and table of notes. The method was applied to a subject semi-presence of the Administration graduation course of FEARP/ USP. This work is a qualitative and descriptive research, with an outline by a single casestudy, of which data collection occurred through present observation (in the tutorial processes), interviews like focus group, reports of students accesses to the environment and a survey about the group profile. The management of the course occurred together with the subject tutorial process, which allowed attending the students\' accesses to each environment resource and their development in the proposed activities. It was observed that some resources were not used in the planned way by the method. The regression analysis revealed that, during the first stage of the subject, the discussions in the forum and the development in the practical works influenced positively the student\'s development in the test. In the second stage just the practical work and the forum influenced in the test\'s grade. The cluster analysis identified four groups of students with excellent, good, medium, and unsatisfactory developments. The results indicate that other variables, besides the distance activities, determine the student\'s development in the subject.
|
434 |
Uma proposta para estimação da taxa e da subnotificação de registros de estupro de vulnerável no BrasilBorges, Natan Sant' Anna, (21) 983788505 03 May 2018 (has links)
Submitted by Karem Dantas (karem.c.dantas@gmail.com) on 2018-10-01T12:46:45Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação_Natan.pdf: 1337747 bytes, checksum: 5177f22611e7d754c7185a7da2a54aa0 (MD5) / Approved for entry into archive by Marcos Roberto Gomes (mrobertosg@gmail.com) on 2018-10-01T17:34:06Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação_Natan.pdf: 1337747 bytes, checksum: 5177f22611e7d754c7185a7da2a54aa0 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-10-02T15:12:25Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação_Natan.pdf: 1337747 bytes, checksum: 5177f22611e7d754c7185a7da2a54aa0 (MD5) / Made available in DSpace on 2018-10-02T15:12:25Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação_Natan.pdf: 1337747 bytes, checksum: 5177f22611e7d754c7185a7da2a54aa0 (MD5)
Previous issue date: 2018-05-03 / The rape of vulnerable people is a phenomenon that has experienced a considerable
increase in its occurrence. However these numbers are not vastly known due
to the high index of under-reportings related to this type of crime. This study aims
to estimate the rate of rape of vulnerable people by means of the Bayesian inference
and data augmentation techniques. The proposed methodology used the data of
rape of vulnerable people of some countryside cities of Amazonas referring to the
period of 2010 to 2012. Due to the good adherence to the aforementioned data, the
deployment of a multivariate Poisson model showed its efficacy. / O estupro de vulnerável é um fenômeno que tem sofrido um considerado aumento
em sua ocorrência, mas pouco se conhece sobre esses números devido ao alto
índice de subnotificações referente a este tipo de crime. O objetivo deste estudo é
estimar a taxa de estupro de vulnerável por meio da inferência bayesiana e técnicas
de aumento de dados. A metodologia proposta utilizou os dados de estupro de vulnerável de algumas cidades do interior do estado do Amazonas referente ao período
de 2010 a 2012. O emprego de um modelo Poisson multivariado mostrou-se eficaz,apresentando uma boa aderência aos dados supracitados.
|
435 |
Construção de mapas genéticos em espécies de polinização aberta: uma abordagem Bayesiana com o uso de uma priori informativa. / Construction of genetics maps in outbreeding species: A Bayesian approach with the use of a prior informative.Francine Ragonha 03 March 2005 (has links)
A construção dos mapas Genéticos é importante para o melhoramento genético de plantas, pois são através desses mapas que pode se determinar em que pontos dos cromossomos as unidades hereditárias podem estar. Com o objetivo de verificar se o método Bayesiano incluindo a informação a priori pode ou não ser empregado nos estudos de construção de mapas Genéticos, estimativas Bayesianas e de máxima verossimilhança para a freqüência de recombinação foram obtidas, envolvendo espécies de polinização aberta. Para isso, foram considerados diferentes tipos de marcadores: marcadores completamente informativos e marcadores parcialmente informativos. Através de simulações de conjuntos de dados combinando dois marcadores de cada vez, as estimativas da freqüência de recombinação foram obtidas através de um algoritmo baseado na função de verossimilhança para os dois métodos de estimação usados. A caracterização das fases de ligação foi baseada na distribuição da probabilidade a posteriori dos arranjos de alelos alternativos em dados marcadores para dois cromossomos homólogos de cada genitor, condicional aos fenótipos observados dos marcadores. Os resultados obtidos permitem concluir que o método Bayesiano pode ser usado em estudos de ligação Genética com o uso da informação a priori. Quanto a estimação das fases de ligação, os dois métodos levam sempre à mesma conclusão. / The construction of the Genetic maps are essential for the genetic improvement of plants, because through this maps that it can be determined in which spots within the chromosomes the hereditary unities could be. With the aim of checking whether the Bayesian method including the prior information can or not to be used in the studies of Genetic maps construction, Bayesians estimates and of maximum likelihood for the recombination frequency were obtained, outbreeding species. For that, diferent types of markers were considered containing fully informative markers and partially informative markers. Through simulations of groups of data combining two markers one at a time, the estimates of the recombination frequency were obtained through a general maximum-likelihood based algorithm for the two used estimate methods. The characterization of linkage phases was based in the posterior probable distribution of the assignment of alternative alleles at given markers to two homologous chromosomes of each parent, conditional on the observed phenotypes of the markers.The results obtained allows to conclude that the Bayesian method can be used in studies of Genetic linkage with the use of the priori information. As the estimate of the linkage phases, the two methods always get to the same conclusion.
|
436 |
Análise da influência do estilo de aprendizagem e da atitude em disciplinas de estatística da FEARP / Analysis of influence of learning styles and attitude in statistics subjetcts at FEARPAdriano Cesar dos Santos Pimentel 15 April 2009 (has links)
O aprendizado de Estatística vem se tornando cada vez mais importante para o sucesso de empresas que competem em cenário globalizado e tem destacado os profissionais que, de fato, possuem este conhecimento. Em especial na administração, a estatística auxilia nas tomadas de decisão e é usada como ferramenta em diversas áreas como Finanças, Marketing e Produção, contudo, é utilizada também em outros cursos. Sabe-se, porém, que existe certa dificuldade no aprendizado desta disciplina, seja porque a atitude perante a Estatística é negativa, ou mesmo porque existem diferenças de estilo de aprendizagem. Tanto aluno como professor têm a necessidade de conhecer melhor as variáveis que contribuem para o aprendizado efetivo. Com o objetivo de identificar como variáveis demográficas, estilos de aprendizagem dos alunos e a atitude perante estatística influenciam o desempenho dos alunos, este estudo analisou os as características, estilos, atitudes e desempenho dos alunos de Estatística aplicada da FEARP-USP. Foi utilizado o índice de estilos de aprendizagem de Felder e Soloman e a escala de atitudes de Schau. Os resultados desta análise reforçam os estudos que sugerem que as atitudes positivas influenciam no desempenho do aluno. Não foi conclusiva a associação entre gênero, idade e vínculo trabalhistas com desempenho, uma vez que as disciplinas apresentaram resultados diferentes. Com relação ao estilo de aprendizagem, nota-se que os estilos dos alunos são similares, com diferença apenas na dimensão sequencial global. / The learning of Statistics has become increasingly important to the success of companies which compete in global scenarios and has highlighted the professionals who, in fact, have this knowledge. In particular for the business administration, statistics assists in the decisionmaking process and is used as a important tool in several areas, such as Finance, Marketing and Manufacturing Process, such as used also in other subjects. It is known, however, that there are some difficulties in learning this discipline, because attitude towards Statistics is negative or, even because there are differences of learning styles between students. Both student and teacher have the need to better aknowledge the variables that contribute to an effective learning. This project aims to identify how demographic variables, styles of learning, attitude towards statistics are related to the performance of the students, this master thesis analyzes the students of Statistic subjects of the Business Administration and accounting courses of FEARP-USP. The index of learning styles proposed by Felder and Soloman and the attitude scale proposed by Schau directs this work. The results confirm former studies that suggest the positives attitudes causes influence in students performance. It was not possible to conclude about gender, age and labor relationship with performance, because the subjects presents different results. Relating to learning styles, the students styles are similar, but only sequential-global dimension.
|
437 |
Construção de distribuições multivariadas com dependências assimétricas = modelos hierárquicos arquimedianos, modelos pair-cópula e cópula t-sudent / Construction of multivariate distributions wits asymmetric dependence : hierarchical arquimedean copula, pair-copula and t-student copulaSakamoto, Caroline de Freitas, 1987- 20 August 2018 (has links)
Orientador: Luiz Koodi Hotta / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica / Made available in DSpace on 2018-08-20T03:56:46Z (GMT). No. of bitstreams: 1
Sakamoto_CarolinedeFreitas_M.pdf: 4538610 bytes, checksum: 977f3115a7248c40284073adc86889ac (MD5)
Previous issue date: 2012 / Resumo: A construção de distribuições multivariadas com dependências assimétricas, especialmente com dependências complexas nas caudas, é um requisito necessário em muitas aplicações, particularmente em finanças. A teoria de cópulas pode ser bastante útil nesta tarefa. Neste sentido, algumas das propostas sugeridas na literatura são os modelos hierárquicos arquimedianos, os modelos pair-cópula e a cópula t-Student assimétrica. Esta dissertação está focada no estudo e aplicação de modelos de cópulas com dimensões maiores que três através dos modelos Pair-Cópula, que têm sido de fundamental importância para estender o conceito de dependência do caso bivariado para o caso multivariado. A metodologia de Pair-Cópula propõe a utilização de diagramas vine para a organização dos possíveis modelos. A ênfase é dada para o diagrama D-vine, que permite diversas permutações entre as séries. Por meio de simulação, é verificado o impacto dessas diferentes permutações do diagrama D-vine, e também do uso de diferentes funções de cópulas sob o cálculo do Valor em Risco (VaR). São realizadas comparações com cópulas multivariadas arquimedianas, normal e t-Student multivariadas. é apresentada uma aplicação de cópulas tetravariadas a dados reais de retornos financeiros / Abstract: The construction of multivariate distributions with asymmetric dependencies, especially with complex dependencies in the tails, is a necessary requirement in many applications, particularly in finance. The theory of copulas can be very useful in this task. In this sense, some of the proposals suggested in the literature are the Archimedean hierarchical models, Pair-Copula models and asymmetric t-Student copula. This dissertation is focused on the study and application of models of more than three dimensions through the Pair-Copula models, which have been essential to extend the concept of dependence of bivariate case to the multivariate case. The Pair-Copula methodology proposes the use of vine tree for the organization the possible models. Emphasis is given to the D-vine tree, which allows permutation among the variables. The influence and the importance of the order of the variables in the D-vine in the estimation of the Value at Risk (VaR) is investigated by simulation. The pair-copula model is compared with the t-Student multivariate distribution, the multivariate Archimedean copula, and paircopula models using different copula functions. The model is also applied to estimate the VaR of a portfolio with four assets / Mestrado / Estatistica / Mestre em Estatística
|
438 |
Intervalos de previsão bootstrap em modelos de volatilidade univariados / Bootstrap prediction in univariate volatility modelsTrucíos Maza, Carlos César, 1985- 07 November 2012 (has links)
Orientador: Luiz Koodi Hotta / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica / Made available in DSpace on 2018-08-20T22:42:22Z (GMT). No. of bitstreams: 1
TruciosMaza_CarlosCesar_M.pdf: 13820849 bytes, checksum: 0cc000af0d7cb7cb6ee6c05ef9f3afbd (MD5)
Previous issue date: 2012 / Resumo: Mercados financeiros têm mostrado um grande interesse em intervalos de previsão como uma medida de incerteza. Além das previsões do nível, a previsão da volatilidade é importante em várias aplicações em finanças. O modelo GARCH tem sido bastante utilizado na modelagem da volatilidade. A partir deste modelo, outros modelos foram propostos para incorporar outros fatos estilizados, como o efeito de alavancagem. Neste sentido, temos os modelos EGARCH e GJR-GARCH. Os métodos tradicionais de construção de intervalos de previsão para séries temporais geralmente assumem que os parâmetros do modelo são conhecidos e os erros normais. Quando estas suposições não são verdadeiras, o que costuma acontecer na prática, o intervalo de previsão obtido tenderá a ter uma cobertura abaixo da nominal. Nesta dissertação propomos uma adaptação do algoritmo PRR (Pascual, Romo e Ruiz) desenvolvido para obter intervalos de previsão em modelos GARCH, para obter intervalos de previsão em modelos EGARCH e GJR-GARCH. As adaptações feitas são analisadas através de experimentos Monte Carlo e verifica-se que tiveram bom desempenho apresentando valores da cobertura estimada próximos da cobertura nominal. As adaptações propostas assim como o algoritmo PRR são aplicadas para obter intervalos de previsão dos retornos e das volatilidades para a série de retornos da Ibovespa e para a série NYSE COMPOSITE(DJ) da bolsa de valores de Nova Iorque, obtendo em ambos os casos resultados satisfatórios / Abstract: Financial Markets have shown a big interest in forecast intervals (prediction intervals) as a uncertain measure. Besides the level prediction, the prediction of the volatility is very important in many financial applications. The GARCH model, has been very used in volatility modeling. From this model, other have been proposed to incorporate other stylized facts, such as the leverage effect. In this sense, we have the EGARCH and GJR-GARCH models. Traditional methods for constructing predictions intervals for time series generally assume that the model parameters are known and the erros are normal. When these assumptions are not true, that it is very often in practice, the obtained prediction interval, will tend to have a cover under the nominal. In this theses we propose an adaptation of the PRR (Pascual, Romo and Ruiz) algorithm developed to obtain prediction intervals in GARCH models, to obtain prediction intervals in EGARCH and GJR-GARCH models. These adaptations are analized through Monte-Carlo experiments and It was verified that they have a good performance showing estimated cover values close to the nominal cover. The proposed adaptations, such as the PRR algorithm are applied to obtain prediction intervals from the returns and volatilities for the Ibovespa return series and for the New York Stock Exchange NYSE COMPOSITE(DJ) series, obtaining satisfactory results in both cases / Mestrado / Estatistica / Mestre em Estatística
|
439 |
Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR / Comparison of selection methods of regression variables applied to genomic data and NIR spectroscopyFerreira, Roberta de Amorim 21 February 2018 (has links)
Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2018-06-13T16:38:53Z
No. of bitstreams: 1
texto completo.pdf: 1190631 bytes, checksum: 2b92d725f9f689a441f7d27c62a316aa (MD5) / Made available in DSpace on 2018-06-13T16:38:53Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1190631 bytes, checksum: 2b92d725f9f689a441f7d27c62a316aa (MD5)
Previous issue date: 2018-02-21 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Muitas áreas de pesquisa possuem conjuntos de dados com os desafios da alta dimensionalidade e multicolinearidade a serem superados, de modo que métodos específicos para ajuste do modelo devem ser empregados. Embora os métodos existentes sejam eficientes para construção do modelo, frequentemente se faz necessário selecionar as variáveis mais importantes em explicar o modelo, visto que essa prática pode aumentar sua capacidade preditiva, diminuir custos e tempo das análises. Esse trabalho teve como objetivo principal avaliar e construir modelos empregando três métodos de seleção de variáveis aplicados a dados de marcadores SNPs (Single Nucleotide Polymorphisms) e a dados de espectroscopia no infravermelho próximo (NIR), além de avaliar a melhoria na qualidade de predição, quando comparado ao uso dos dados completos. Os métodos avaliados foram o de seleção dos preditores ordenados associado a regressão por quadrados mínimos parciais (PLS-OPS), o Sparce partial least Square (SPLS) e o Lasso bayesiano (BLASSO) supervisionado, este último é uma adaptação do método BLASSO com a vantagem de selecionar as variáveis. Foram utlizados conjuntos de dados simulados compostos por 100 amostras e 500 marcadores SNPs avaliados em dois cenários que diferem entre si no vetor de coeficientes de regressão utilizado e quatro conjuntos de dados reais, sendo um de SNPs e três de dados NIR. Usou-se o software R para a modelagem dos dados. As amostras foram separadas em conjuntos de treinamento e de teste via algoritmo de Kennard e Stone. A qualidade preditiva do modelo foi avaliada com base no coeficiente médio de correlação (r) entre valores preditos e reais, e a raiz quadrada do erro quadrático médio (RMSE). No conjunto de dados simulados avaliado no primeiro cenário, havia 52 marcadores de maiores efeitos. Os modelos usando o BLASSO supervisionado, o SPLS e o PLS-OPS selecionaram, respectivamente, em média, 100, 310 e 124 variáveis. Em termos de capacidade preditiva os modelos após seleção foram semelhantes quando comparados ao uso dos dados completos. No segundo cenário, 10 marcadores de menor efeito foram escolhidos para serem significativos. Nesse cenário, para escolha do número de variáveis a serem selecionadas pelo BLASSO supervisionado utilizou-se dois critérios: no primeiro 20% das variáveis foram selecionadas, e no segundo o número de variáveis selecionadas eram iguais ao do SPLS e do PLS-OPS. Em média os modelos apresentaram um desempenho melhor utlizando a seleção de variáveis em relação aos modelos construídos com os dados completos, sendo o SPLS levemente superior, com r = 0,846 e intervalo de RMSE de menor amplitude. Para a predição da produção de grãos em dados de SNPs, o método BLASSO supervisionado foi superior, com menor valor de RMSE (0,56) e maior valor de r (0,569). O PLS-OPS também apresentou bom desempenho nesse conjunto de dados, atestando o uso deste método para dados dessa natureza. No primeiro conjunto de dados NIR em que foi avaliado o teor de fibra da cana-de-açúcar, de maneira geral os valores de RMSE e de r se mantiveram próximos àqueles obtidos para os dados completos. No segundo conjunto de dados reais NIR em que foi avaliado o teor de lignina da cana-de-açúcar, pode-se observar que os melhores resultados foram obtidos com o método BLASSO supervisionado (RMSE = 0,705 e r = 0,956). No terceiro conjunto de dados reais NIR em que foram avaliadas amostras de repolho roxo, os melhores resultados foram obtidos quando utlizou-se o PLS-OPS (RMSE = 13,05 e r = 0,996). No segundo e terceiro conjuntos de dados NIR avaliados as estatísticas obtidas foram próximas às obtidas com os dados completos, porém com a vantagem de possuir menos variáveis. De maneira geral, os métodos funcionam de forma semelhante, mas cada um exibe vantagens sobre o outro em determinadas situações. Ao utilizarmos os métodos de seleção, podemos observar que os modelos se tornaram mais simples, visto que o número de variáveis reduziu significamente em todos os conjuntos de dados estudados. / Researches from many different areas have data sets with the challenges of high dimensionality and multicollinearity still to be overcome, therefore specific methods for model fit must be employed. Although the existing methods are efficient to construct the model, it is often necessary to select the most important variables in explaining the model, once this practice can increase its predictive capacity, reduce costs, and analysis time. The main objective of this work was to evaluate and construct models using three methods of variable selection applied to single nucleotide polymorphisms (SNPs) and near infrared spectroscopy (NIR) data, besides evaluating the improvement in prediction quality, when compared to the use of complete data. The methods evaluated were: the selection of ordered predictors associated with partial least squares regression (PLS-OPS); the Sparce partial least square (SPLS); and the supervised Bayesian Lasso (BLASSO) – the last one is an adaptation of the BLASSO method with advantage of selecting variables. Were used simulated data sets composed of 100 samples and 500 SNP markers evaluated in two scenarios that differ from one another in the regression coefficient vector used, and four real data sets – composed by one set of SNPs and three sets of NIR data. It was used the software R in order to model the data. Samples were separated into training and test sets via Kennard and Stone algorithm. The predictive quality of the model was evaluated based on the mean correlation coefficient (r) between predicted and actual values, and the square root mean square error (RMSE). In the simulated data set evaluated in the first scenario, there were 52 markers of greater effects. The models using supervised BLASSO, SPLS and PLS-OPS selected an average of 100, 310 and 124 variables, respectively. In terms of predictive capacity, the models after selection were similar when compared to the use of the complete data. In the second scenario, 10 lower-effect markers were chosen to be significant. In this scenario, two criteria were used to select the number of variables to be selected by supervised BLASSO: in the first 20% of the variables were selected, and in the second, the number of variables selected were the same as SPLS and PLS-OPS. On average, the models presented a better performance when using the variables selection, than in relation to the models constructed with the complete data, once the SPLS was slightly higher – with r = 0.846 and a lower amplitude RMSE interval. For the prediction of grain yield in SNP data, the supervised BLASSO method was superior, with a lower RMSE value (0.56) and a higher r value (0.569). PLS-OPS also performed well in this data set, attesting to the use of this method for data of this nature. In the first set of NIR data in which the sugar cane fiber content was evaluated, the RMSE and r values were, in general, close to those obtained for the complete data. In the second set of real NIR data in which the lignin content of sugarcane was evaluated, it can be observed that the best results were obtained with the supervised BLASSO method (RMSE = 0.705 and r = 0.956). In the third set of real NIR data in which samples of purple cabbage were evaluated, the best results were obtained when PLS-OPS (RMSE = 13.05 and r = 0.996) was used. In the second and third NIR data sets, the statistics obtained were close to those obtained with the complete data, but with the advantage of having fewer variables. In general, the methods used work in a similar way; however, each one of them has advantages over another in specific situations. By using the selection methods, it can be observed that the models have become simpler, once the number of variables reduced significantly in all datasets studied.
|
440 |
Experimentos com probabilidade e estatística : Jankenpon, Monte Carlo, variáveis antropométricas / Experiments with probability and statistics : Jankenpon, Monte Carlo, anthropometric variablesCoura, André da Silva, 1984- 26 August 2018 (has links)
Orientador: Laura Leticia Ramos Rifo / Dissertação (mestrado profissional) - Universidade Estadual de Campinas, Instituto de Matemática Estatística e Computação Científica / Made available in DSpace on 2018-08-26T10:19:46Z (GMT). No. of bitstreams: 1
Coura_AndredaSilva_M.pdf: 8253159 bytes, checksum: 4cf2d4abd8227260acd62a6dd9dc2b98 (MD5)
Previous issue date: 2014 / Resumo: A dissertação apresenta uma abordagem prática para o ensino da matemática nos níveis fundamental e médio. De forma mais específica, apresenta conceitos de estatística básica como tratamento de informações e estudo de probabilidades. Estes conceitos são de grande importância no âmbito científico (parte experimental, por exemplo) e social (compreensão de características populacionais), além de estarem inseridos na vida cotidiana dos alunos. Sendo assim, foi entendido que é primordial desenvolver as competências e habilidades para organizar e compreender informações. Foram realizados experimentos para a aplicação dos conceitos apresentados em sala de aula. Também uma pesquisa propondo questões para analisar aspectos sobre alimentação e prática de exercícios físicos. Estes experimentos, além da aplicação dos conceitos, pretendem desenvolver no público-alvo, raciocínio lógico e olhar crítico, para assuntos relacionados à disciplina de matemática, utilizando situações cotidianas. Para análise organizamos e interpretamos as informações por meio de tabelas e gráficos. A pesquisa teve como objetivo principal mostrar como é usada a teoria estatística para a tomada de decisão e, nesse caso, para melhorar a própria qualidade de vida. Desse modo, pretendemos que a metodologia apresentada neste trabalho possa contribuir para a disseminação do conhecimento destas ferramentas matemáticas para os níveis fundamental e médio do ensino escolar / Abstract: This dissertation presents a practical approach for teaching mathematics in the elementary and secondary levels. More specifically, presents concepts of Basic Statistics as information processing and the study of probabilities. These concepts are of great importance in scientific (experimental way, for example) and social (understanding of population characteristics), besides being inserted into the daily student's lives. Therefore, it was understood that is necessary to develop the skills and abilities to organize and understand information. Experiments were carried out for the application of the concepts presented in classroom. Also a search posing questions to analyze aspects of food and physical exercise. The realization of these experiments purpose, besides the application of classroom learnt concepts, develop in students, logic reasoning and critical look at issues related to the discipline of mathematics and daily situations by organizing and interpreting information with charts and graphs. The research aimed to show how it is used statistical theory for decision making and, if so , to improve their quality of life. Thus, we intend that presented methodology in this study may contribute to the dissemination of these mathematical knowledge tools for elementary and high school levels / Mestrado / Matemática em Rede Nacional / Mestre em Matemática em Rede Nacional
|
Page generated in 0.0686 seconds