301 |
Analise não-parametrica de dados funcionais : uma aplicação a quimiometria / Nonparametric functional data analysis applications to chemometricsSaraiva, Marley Apolinario 12 November 2009 (has links)
Orientador: Ronaldo Dias / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-14T19:32:09Z (GMT). No. of bitstreams: 1
Saraiva_MarleyApolinario_M.pdf: 2908252 bytes, checksum: 4161f517f546fb5d5dcd7a8988f11e11 (MD5)
Previous issue date: 2009 / Resumo: Devido à grande evolução dos computadores tornou-se comum coletar dados de alta dimensão. A quimiometria, que é a aplicação de métodos estatísticos e matemáticos à dados de origem química, pode ser citada como exemplo, pois nestes casos os dados são espectros que geralmente são observados em vários comprimentos de onda. O problema de como combinar estes espectros de forma ótima com o objetivo de aproximar medidas de concentrações é um problema de calibração multivariada. Em geral, esta calibração é feita com técnicas de estatística multivariada, que por sua vez, apresentam sérias dificuldades em lidar com a alta dimensão dos dados. Nesta dissertação propomos um modelo que considere as características funcionais intrínsecas deste tipo de problema, uma vez que as técnicas de estatística multivariada não consideram tais características. Algumas das técnicas de estatística multivariada mais utilizadas são de regressão linear múltipla multivariada (MLR) e regressão por mínimos quadrados parciais (PLS). Estas técnicas resumem a informação da matriz de dados, seja por escolha de quem está modelando, seja por análise de componentes principais e isto pode ocasionar perda de informa ações importantes para as análises. Devido a estas dificuldades propomos um modelo que considera o dado como ele é, uma função, e não como um dado multivariado e propomos também um modelo funcional para a estrutura de covariância. Ambos os modelos propostos utilizam a análise de dados funcionais (ADF) e por isso não apresentam as dificuldades comuns dos métodos de estatística multivariada, uma vez que a alta dimensão dos dados não é tão restritiva quanto nas técnicas multivariadas. / Abstract: With the computer evolution, the high dimension data collection has become common. The chemometrics, which is the application of statistical and mathematical methods to the chemical data, it can be an example. In these cases the data are spectra that are usually observed in several wavelengths. The problem of how to combine these spectra optimally with the goal of bringing the measurement of concentrations is a multivariate calibration problem. In general, this calibration is done with multivariate statistical techniques but there are severe difficulties in dealing with high-dimensional data. In this dissertation we propose a model that considers the intrinsic functional characteristics of this kind of problem, since the multivariate statistics techniques do not consider such features. Some of useful multivariate statistical techniques are multivariate linear regression (MLR) and partial leas squares (PLS). These techniques summarize the information of the data matrix, either by choosing who is modeling or by principal component analysis and this can cause lost of important information for analysis. Because of these difficulties we propose a model that considers the data as it is, a function, not as a multivariate data and we also propose a working model for the covariance structure. Both proposed models using functional data analysis (ADF) and therefore do not have the common difficulties of the methods of multivariate statistics, since the high-dimensional data is not as restrictive as in multivariate analysis. / Mestrado / Mestre em Estatística
|
302 |
Testes de hipoteses para dados funcionais baseados em distancias : um estudo usando splines / Distances approach to test hypothesis for functional dataSouza, Camila Pedroso Estevam de 25 April 2008 (has links)
Orientador: Ronaldo Dias / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-10T22:55:48Z (GMT). No. of bitstreams: 1
Souza_CamilaPedrosoEstevamde_M.pdf: 4239065 bytes, checksum: 099f19df22c0b40a411d07eacc2fe0d1 (MD5)
Previous issue date: 2008 / Resumo: Avanços na tecnologia moderna têm facilitado a coleta e análise de dados de alta dimensão, ou dados que são formados por medidas repetidas de um mesmo objeto. Quando os dados são registrados densamente ao longo do tempo, freqüentemente por máquinas, eles são tipicamente chamados de dados funcionais, com uma curva (ou função) observada por objeto em estudo. A análise estatística de uma amostra de n curvas como essas é comumente chamada de análise de dados funcionais, ou ADF. Conceitualmente, dados funcionais são continuamente definidos. Claro que na prática eles geralmente são observados em pontos discretos. Não há exigência para que os dados sejam suaves, mas freqüentemente a suavidade ou outra regularidade será um aspecto chave da análise, em alguns casos derivadas das funções observadas serão importantes. Nessa dissertação diferentes técnicas de suavização serão apresentadas e discutidas, principalmente aquelas baseadas em funções splines...Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: Advances in modern technology have facilitated the collection and analysis of high-dimensional data, or data that are repeated measurements of the same subject. When the data are recorded densely over time, often by machine, they are typically termed functional or curve data, with one observed curve (or function) per subject. The statistical analysis of a sample of n such curves is commonly termed functional data analysis, or FDA. Conceptually, functional data are continuously defined. Of course, in practice they are usually observed at discrete points. There is no general requirement that the data be smooth, but often smoothness or other regularity will be a key aspect of the analysis, in some cases derivatives of the observed functions will be important. In this project different smooth techniques are presented and discussed, mainly those based on splines functions...Note: The complete abstract is available with the full electronic digital thesis or dissertations / Mestrado / Estatistica Não Parametrica / Mestre em Estatística
|
303 |
Análise do aerossol atmosférico em Acra, capital de Gana / Analysis of atmospheric aerosol in Accra, capital of GhanaThiago Gomes Verissimo 10 June 2016 (has links)
Cidades dos países da África Subsariana (SSA) têm passado por um intenso processo de urbanização, implicando em crescimento das atividades econômicas em geral e industriais em particular, assim como, o aumento do tráfego de veículos e da produção de lixo, dentre outras mudanças que afetam diretamente o meio ambiente e a saúde dos habitantes. Neste cenário, a identificação de fontes poluidoras do ar é essencial para a fundamentação de políticas públicas que visam assegurar o direito a uma boa qualidade de vida para a população. Esta pesquisa de Mestrado esteve integrada a um projeto internacional denominado Energy, air pollution, and health in developing countries, coordenado pelo Dr. Majid Ezzati, à época professor da Harvard School of Public Health, e integrando também pesquisadores da Universidade de Gana. Este projeto tinha por objetivo fazer avaliações dos níveis de poluição do ar em algumas cidades de países em desenvolvimento, voltando-se, neste caso particular para Acra (capital de Gana e maior cidade da SSA), e duas outras cidades de Gambia, onde até então inexistiam estudos mais substantivos, relacionando-os com as condições socioeconômicas específicas das diferentes áreas estudadas. Contribuímos com as análises de Fluorescência de Raios X (XRF) e de Black Carbon (BC), com as discussões e interpretações dos dados meteorológicos e no emprego dos modelos receptores. Mas do ponto de vista do aprofundamento de estudos da qualidade do ar e do impacto de fontes, este trabalho concentrou-se na região de Nima, bairro da capital de Gana, Acra. A partir da caracterização do aerossol atmosférico local, empregou-se modelos receptores para identificar o perfil e contribuição de fontes majoritárias do Material Particulado Atmosférico Fino MP2,5 e Grosso MP2,5-10. Foram coletadas 791 amostras (de 48 horas) entre novembro de 2006 e agosto de 2008 em dois locais, na principal avenida do bairro, Nima Road, e na área residencial, Sam Road, distantes 250 metros entre si. A concentração anual média em 2007 para MP2,5 encontrada na avenida foi de 61,6 (1,0) ug/m3 e 44,9 (1,1) ug/m3 na área residencial, superando a diretriz de padrão anual máximo de 10 ug/m3 recomendada pela Organização Mundial de Saúde (OMS). A porcentagem de ultrapassagem do padrão diário (OMS) de 25 ug/m3 foi de 66,5% e 92% para a área residencial e avenida, respectivamente, durante todo experimento. As concentrações químicas elementares foram obtidas por XRF e o BC por refletância intercalibrada por Thermal Optical Transmitance (TOT). Neste trabalho desenvolvemos uma metodologia de calibração do XRF e de intercalibração entre refletância e TOT, baseada em Mínimos Quadrados Matricial, o que nos forneceu incerteza dos dados ajustados e boa precisão nos valores absolutos de concentrações medidos. Análise de Fatores (AF) e Positive Matrix Factorization (PMF) foram utilizadas para associação entre fonte e fator, bem como para estimar o perfil destas fontes. A avaliação de parâmetros meteorológicos locais, como direção e intensidade dos ventos e posicionamento de fontes significativas de emissão de MP auxiliaram no processo de associação dos fatores obtidos por esses modelos e fontes reais. No período do inverno em Gana, um vento provindo do deserto do Saara, que está localizado ao nordeste do país, denominado Harmatão, passa por Acra, aumentando de um fator 10 a concentração dos poluentes relacionados à poeira de solo. Assim, as amostras dos dias de ocorrências do Harmatão foram analisadas separadamente, pois dificultavam a identificação de outras fontes por PMF e AF. As fontes majoritárias indicadas por esses dois métodos (AF e PMF), mostraram-se concordantes: Mar (Na, Cl), solo (Fe, Ti, Mn, Si, Al, Ca, Mg), emissões veiculares (BC, Pb, Zn, K), queima de biomassa (K, P, S, BC) e queima de lixo sólido e outros materiais a céu aberto (Br, Pb) . A redução da poluição do ar em cidades da SSA, caso de Acra, requer políticas públicas relacionadas ao uso de energia, saúde, transporte e planejamento urbano, com devida atenção aos impactos nas comunidades pobres. Medidas como pavimentação das vias, cobertura do solo com vegetação, incentivo ao uso de gás de cozinha e incentivo ao transporte público, ajudariam a diminuir os altos índices de poluição do ar ambiental nessas cidades. / Sub-Saharan Africa (SSA) cities have been intense developing process, resulting in generalized economical activities growing, specially industrial, as well as increase in the vehicular traffic and waste generation, among other changes directly affecting the environment and public health. Therefore, identifying the air pollution sources is an essential issue for public decisions to assure people rights to healthy life. This Master work has been integrated to an international project called Energy, air pollution, and health in developing countries, under coordination of Dr. Majid Ezzati, then at the Harvard School of Public Health, grouping also researchers from the University of Ghana. The aims of this project were to evaluate the air pollution level at some developing countries, by this time devoted to Accra (the capital of Ghana and the main city of SSA), and two other cities of Gambia. Since then, no substantive study was performed there, connecting air pollution to the regional social-economical levels. This Master project, provided the XRF and Black Carbon determination for all samples of the main project, and gave, else, support for meteorological and receptor modeling issues. But concerning the improving of the study of air quality and sources impact, the work focus Nima town, at Accra, the Ghana Capital. The characterization of species in the local atmospheric aerosol was used in Receptor Models to make factor to sources profile association, and respective apportionment in the local PM2.5 and PM10. Between November/2006 and August/2008, 791 filters (sampled for 48 h) collected the local atmospheric aerosol, in two sites separated by 250 m. One was at the main avenue (Nima Road) and other in a residential street (Sam Road). The PM2.5 annual average concentration to 2007 was 61,6 (1,0) ug/m3 near to the avenue and 44,9 (1,1) ug/m3 in the residential area, surpassing ~5 times the Word Health Organization (WHO) guidelines to annual mean (10 ug/m3). Another WHO guideline is not surpass 25 ug/m3 in more than 1% of the samples collected in one year - in each of these sites, 66,5% and 92% of the samples are above this limit. X-Ray Fluorescence (XRF) provided the elemental concentrations, while reflectance, inter calibrated by Thermal Optical Transmittance (TOT), gave the Black Carbon (BC) levels. In this work we performed a methodology for the XRF calibration and for the inter calibration between TOT and reflectance, using Matrix Least Square Fitting that gives the uncertainties of fitted data and improves the precision of the adjusted values. Factor Analysis (FA) and Positive Matrix Factorization (PMF) enabled the association between source and the determined factors, as well as, estimated the sources profile. Local meteorological data, like wind intensity and direction, and the identification of some heavy MP emission sources, helped the process of factors to sources association. During the winter period (January-March), Accra received the Harmattan wind, blowing from Sahara deserts, that increased the concentrations from soil in 10 times. Therefore, the samples from this period were separately analyzed, providing better detection of the other source by PMF and FA. The local main source detected by both methods showed coherency: sea salt (Na, Cl), soil (Fe, Ti, Mn, Si, Al, Ca, Mg), vehicular emissions (BC, Pb, Zn, K) and biomass burning (K, P, S, BC). Reduction of air pollution levels in SSA cities, like Accra, requires public actions providing clean energy sources, health care, public transportation, urban planing and attention to they impact for the poor communities. Relatively simple providences, like roads paving, vegetation covering of the land, use of gas for cooking, public transportation, should decrease the high air pollution level in those cities.
|
304 |
Medidas de dependência local para séries temporais / Local dependence measures for time seriesSumaia Abdel Latif 25 February 2008 (has links)
Diferente das medidas de associação global (coeficiente de correlação linear de Pearson, de Spearman, tau de Kendall, por exemplo), as medidas de dependência local descrevem o comportamento da dependência localmente em diferentes regiões. Nesta tese, as medidas de dependência local para variáveis aleatórias propostas por Bairamov et al. (2003), Bjerve e Doksum (1993) e Sibuya (1960), são estudadas sob o enfoque de processos estocásticos estacionários bivariados e univariados, neste caso, estudando o comportamento da dependência local ao longo das defasagens da série temporal. Para as duas primeiras medidas, discutimos as suas propriedades, e estudamos os seus estimadores, além da consistência dos mesmos. Para a medida de Sibuya, além de discutir suas propriedades, propomos três estimadores para variáveis aleatórias e dois para séries temporais, verificando a consistência dos mesmos. O comportamento das três medidas locais e dos seus estimadores foram avaliados através de simulações e aplicações a dados reais (neste caso, fizemos uma comparação destas com cópula e densidade cópula). / Unlike global association measures (Pearson´s linear correlation coefficient, Spearman´s rho, Kendall´s tau, for example), local dependence measures describe the behaviour of dependence locally in different regions. In this thesis, the local dependence measures for random variables proposed by Bairamov et al. (2003), Bjerve and Doksum (1993) and Sibuya (1960), are studied in the context of bivariate and univariate stationary stochastic processes, in this case, evaluating the performance of local dependence along time lags. We discussed the properties and studied the estimators and consistence of the first two measures. As for the Sibuya measure, in addition to discussing its properties, we propose three estimators for random variables and two for time series while checking their consistence. The behaviour of the three local measures and their respective estimators was evaluated by simulations and application to real data (in this case, a comparison was drawn with copula and copula density).
|
305 |
Estimação de cópulas via ondaletas / Copula estimation through waveletsFrancyelle de Lima e Silva 03 October 2014 (has links)
Cópulas tem se tornado uma importante ferramenta para descrever e analisar a estrutura de dependência entre variáveis aleatórias e processos estocásticos. Recentemente, surgiram alguns métodos de estimação não paramétricos, utilizando kernels e ondaletas. Neste contexto, sabendo que cópulas podem ser escritas como expansão em ondaletas, foi proposto um estimador não paramétrico via ondaletas para a função cópula para dados independentes e de séries temporais, considerando processos alfa-mixing. Este estimador tem como característica principal estimar diretamente a função cópula, sem fazer suposição alguma sobre a distribuição dos dados e sem ajustes prévios de modelos ARMA - GARCH, como é feito em ajuste paramétrico para cópulas. Foram calculadas taxas de convergência para o estimador proposto em ambos os casos, mostrando sua consistência. Foram feitos também alguns estudos de simulação, além de aplicações a dados reais. / Copulas are important tools for describing the dependence structure between random variables and stochastic processes. Recently some nonparametric estimation procedures have appeared, using kernels and wavelets. In this context, knowing that a copula function can be expanded in a wavelet basis, we have proposed a nonparametric copula estimation procedure through wavelets for independent data and times series under alpha-mixing condition. The main feature of this estimator is the copula function estimation without assumptions about the data distribution and without ARMA - GARCH modeling, like in parametric copula estimation. Convergence rates for the estimator were computed, showing the estimator consistency. Some simulation studies were made, as well as analysis of real data sets.
|
306 |
Análise de variância multivariada com a utilização de testes não -paramétricos e componentes principais baseados em matrizes de postos. / Multivariate analysis of variance using nonparametric tests and principal components based on rank matrices.Antonio Carlos Fonseca Pontes 19 July 2005 (has links)
Métodos não-paramétricos têm aplicação ampla na análise de dados, tendo em vista que não são limitados pela necessidade de imposição de distribuições populacionais específicas. O caráter multivariado de dados provenientes de estudos nas ciências do comportamento, ecológicos, experimentos agrícolas e muitos outros tipos, e o crescimento contínuo da tecnologia computacional, têm levado a um crescente interesse no uso de métodos multivariados não-paramétricos. A aplicação da análise de variância multivariada não-paramétrica é pouco inacessível ao pesquisador, exceto através de métodos aproximados baseados nos valores assintóticos da estatística de teste. Portanto, este trabalho tem por objetivo apresentar uma rotina na linguagem C que realiza testes baseados numa extensão multivariada do teste univariado de Kruskal- Wallis, usando a técnica das permutações. Para pequenas amostras, todas as configurações de tratamentos são obtidas para o cálculo do valor-p. Para grandes amostras, um número fixo de configurações aleatórias é usado, obtendo assim valores de significância aproximados. Além disso, um teste alternativo é apresentado com o uso de componentes principais baseados nas matrizes de postos. / Nonparametric methods have especially broad applications in the analysis of data since they are not bound by restrictions on the population distribution. The multivariate character of behavioural, ecological, agricultural and many other types of data and the continued improvement in computer technology have led to a sharp interest in the use of nonparametric multivariate methods in data analysis. The application of nonparametric multivariate analysis is inaccessible to applied research, except by approximation methods based on asymptotic values of the test statistic. Thus, this work aims to presenting a routine in the C language that runs multivariate tests based on a multivariate extension of the univariate Kruskal-Wallis test, using permutation technique. For small samples, all possible treatment configurations are used in order to obtain the p-value. For large samples, a fixed number of random configurations are used, obtaining an approximated significance values. In addition, another alternative test is presented using principal components based on rank matrices.
|
307 |
Parametrização de Sistemas de Equações Diferenciais Ordinárias no crescimento de bovinos de corte e produção de gases / Parameterization of Ordinary Differential Equations Systems in the growth of beef cattle and production of gasesAdriele Giaretta Biase 05 February 2016 (has links)
Parametrizações de modelos e estruturas de correlações dos parâmetros no âmbito agropecuário são importantes por caracterizarem o comportamento de um sistema em resposta a variações de múltiplos cenários (clima, genótipos, dietas nutricionais, dentre outros fatores) que existem em escalas globais. O objetivo foi contribuir com inferências estatísticas na produção de gases CO2 [um potente Gás de Efeito Estufa (GEE)] nas fermentações in vitro de feno de alfafa, comparando métodos frequentistas com novas metodologias surgidas na literatura científica como a combinação dos métodos de Rejeição por Atraso e o Metropólis Adaptativo (RAMA), até então não testados para predições de gases de fermentação in vitro. Além disso, modelos de séries temporais foram usados para previsão da produção de CO2 nas fermentações de gases in vitro de feno de alfafa. Dentro do contexto de crescimento de gado de corte, foi realizada pela primeira vez uma abordagem para predições individuais dos animais para taxa de ganho de peso e a necessidade de energia para mantença baseada na dinâmica de crescimento e composição química corporal do Modelo de Crescimento de Davis (MCD), com comparação de análise de covariância multivariada entre diferentes cenários (gêneros, sistemas e genótipo cruzados), em um experimento a campo no Brasil. Adicionalmente calibrações dos parâmetros baseadas na amostra de cada cenário, pelos ajustes do MCD e usando análise frequentista, bootstrap não-paramétrico e simulações Monte Carlo foram realizadas com os dados nacionais (raça cruzada) e comparada com as estimativas originais do modelo obtido com raças Britânicas (Bos taurus). Os principais critérios adotados para avaliar os ajustes dos modelos foram o Erro Quadrático Médio de Predição (EQMP), o Critério de Informação Akaike (AIC) e o Critério de Informação Bayesiano (BIC). Os resultados não só contribuirão para o avanço da literatura existente, mas também auxiliarão a indústria de carne bovina e produtores rurais a encontrar especificações do mercado de carne, tanto a nível nacional e internacional. Concluiu-se que i) na produção de gases: o modelo ARIMA (1, 1, 2) ajustou a produção acumulativa de CO2, atingindo o valor máximo de 1,1066 (mL) no tempo de 47,5 h e a equação é indicada para estimar a produção de gases; ii) no crescimento de gados de corte usando as estimativas individuais do MCD, os vetores de efeitos de energia de mantença e o acréscimo de proteína possuem efeitos pronunciados quanto as interações entre sistemas e gêneros; iii) no crescimento de gados de corte usando as estimativas da amostra total com MCD, os genótipos cruzados tiveram maior gasto de energia de mantença e foram mais rápidos de maturação em comparação tanto com os animais de genótipos Britânicos (Bos taurus) e touros Nelores. A técnica de bootstrap não-paramétrica estimou com sucesso as distribuições dos parâmetros (que tiveram distribuição probabilidade normal para maioria dos cenários). Correlação negativa entre os parâmetros de acréscimo de DNA e energia de mantença foram encontrados para animais machos não castrados do sistema extensivo, indicando que foram mais eficientes no uso da energia. A generalização de tal relação ainda demanda estudos mais abrangentes e aprofundados. / Model parameter fitting and parameter correlation structures are important for characterize a system\'s behaviour in response to multiple scenarios variations (climate, genotypes, nutritional diet and other factors). The aim was to contribute to statistical inferences in the production of CO2 [a potent greenhouse gas (GHG)] in vitro fermentation of alfalfa hay, comparing frequentist methods with new methodologies that emerged in the scientific literature, such as the combination of a delay Rejection and the Adaptive Metropolis methods (RAMA), not yet tested for in vitro fermentation gases predictions. In addition, time series models were used to predict CO2 production in the in vitro fermentation of alfalfa hay. For the first time, individual predictions of animal weight gain rate and energy of maintenance based on the growth dynamics and body composition Davis Growth Model (DGM) was carried out besides multivariate covariance analysis of different scenarios (genres, systems and crossed genotype). Additionally, parameter estimation based on sample of each scenario, using frequentist analysis, nonparametric bootstrap and Monte Carlo simulations were performed with national data (cross breed) and compared to the original estimates of the model obtained with British breeds (Bos taurus). The main criteria used to evaluate the model accuracy were the Mean Square Error of Prediction (MSEP), the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC). The results not only contribute to the scientific progress in modeling animal growth and composition, but also assist the beef industry and farmers to adjust the production process to the meat market specifications, both nationally and internationally. For in vitro gas production, we concluded that the ARIMA (1, 1, 2) model presented the highest accuracy in predicting cumulative CO2 production and the respective equation is recommended for estimating CO2 production. In the growth beef cattle using the individual estimates DGM, average vectors from maintenance of energy and protein accretion showed pronounced effects as the interactions between systems and genres. Also the total sample with DGM, cross-breed genotypes had higher maintenance energy expenditure and were faster-maturing compared with British genotypes animals(Bos taurus) and Nellore bulls estimates. Bootstrap nonparametric with downhill simplex optimization method successfully estimated the distributions of the parameters (that had normal probability distribution for most scenarios). Uncastrated male animals of the extensive system showed negative correlation between the protein deposition rate and requirement for energy maintenance, indicating that animals with faster lean tissue deposition were also more efficient in energy usage. We warn that the generalization of this finding demands studies with larger populations.
|
308 |
Estimação de funções do redshift de galáxias com base em dados fotométricos / Galaxies redshift function estimation using photometric dataGretta Rossi Ferreira 18 September 2017 (has links)
Em uma quantidade substancial de problemas de astronomia, tem-se interesse na estimação do valor assumido, para diversas funções g, de alguma quantidade desconhecida z ∈ ℜ com base em covariáveis x ∈ ℜd. Isto é feito utilizando-se uma amostra (X1, Z1), ... (Xn, Zn). As duas abordagens usualmente utilizadas para resolver este problema consistem em (1) estimar a regressão de Z em x, e plugar esta na função g ou (2)estimar a densidade condicional f (z Ι x) e plugá-la em ∫ g(z) f (z Ι x)dz. Infelizmente, poucos estudos apresentam comparações quantitativas destas duas abordagens. Além disso, poucos métodos de estimação de densidade condicional tiveram seus desempenhos comparados nestes problemas. Em vista disso, o objetivo deste trabalho é apresentar diversas comparações de técnicas de estimação de funções de uma quantidade desconhecida. Em particular, damos destaque para métodos não paramétricos. Além dos estimadores (1) e (2), propomos também uma nova abordagem que consistem em estimar diretamente a função de regressão de g(Z) em x. Essas abordagens foram testadas em diferentes funções nos conjuntos de dados DEEP2 e Sheldon 2012. Para quase todas as funções testadas, o estimador (1) obteve os piores resultados, exceto quando utilizamos florestas aleatórias. Em diversos casos, a nova abordagem proposta apresentou melhores resultados, assim como o estimador (2). Em particular, verificamos que métodos via florestas aleatórias, em geral, levaram a bons resultados. / In a substantial a mount of astronomy problems, we are interested in estimating values assumed of some unknown quantity z ∈ ℜ, for many function g, based on covariates x ∈ ℜd. This is made using a sample (X1, Z1), ..., (Xn, Zn). Two approaches that are usually used to solve this problem consist in (1) estimating a regression function of Z in x and plugging it into the g or (2) estimating a conditional density f (z Ι x) and plugging it into ∫ g(z) f (z Ι x)dz. Unfortunately, few studies exhibit quantitative comparisons between these two approaches.Besides that, few conditional density estimation methods had their performance compared in these problems.In view of this, the objective of this work is to show several comparisons of techniques used to estimate functions of unknown quantity. In particular we highlight nonparametric methods. In addition to estimators (1) and (2), we also propose a new ap proach that consists in directly estimating the regression function from g(Z) on x. These approaches were tested in different functions in the DEEP 2 and Sheldon 2012 datasets. For almost all the functions tested, the estimator (1) obtained the worst results, except when we use the random forests methods. In several cases, the proposed new approach presented better results, as well as the estimator (2) .In particular, we verified that random forests methods generally present to good results.
|
309 |
New Paradigms and Optimality Guarantees in Statistical Learning and EstimationWang, Yu-Xiang 01 December 2017 (has links)
Machine learning (ML) has become one of the most powerful classes of tools for artificial intelligence, personalized web services and data science problems across fields. Within the field of machine learning itself, there had been quite a number of paradigm shifts caused by the explosion of data size, computing power, modeling tools, and the new ways people collect, share, and make use of data sets. Data privacy, for instance, was much less of a problem before the availability of personal information online that could be used to identify users in anonymized data sets. Images, videos, as well as observations generated over a social networks, often have highly localized structures, that cannot be captured by standard nonparametric models. Moreover, the “common task framework” that is adopted by many sub- disciplines of AI has made it possible for many people to collaboratively and repeated work on the same data set, leading to implicit overfitting on public benchmarks. In addition, data collected in many internet services, e.g., web search and targeted ads, are not iid, but rather feedbacks specific to the deployed algorithm. This thesis presents technical contributions under a number of new mathematical frameworks that are designed to partially address these new paradigms. • Firstly, we consider the problem of statistical learning with privacy constraints. Under Vapnik’s general learning setting and the formalism of differential privacy (DP), we establish simple conditions that characterizes the private learnability, which reveals a mixture of positive and negative insight. We then identify generic methods that reuses existing randomness to effectively solve private learning in practice; and discuss weaker notions of privacy that allows for more favorable privacy-utility tradeoff. • Secondly, we develop a few generalizations of trend filtering, a locally-adaptive nonparametric regression technique that is minimax in 1D, to the multivariate setting and to graphs. We also study specific instances of the problems, e.g., total variation denoising on d-dimensional grids more closely and the results reveal interesting statistical computational trade-offs. • Thirdly, we investigate two problems in sequential interactive learning: a) off- policy evaluation in contextual bandits, that aims to use data collected from one algorithm to evaluate the performance of a different algorithm; b) the problem of adaptive data analysis, that uses randomization to prevent adversarial data analysts from a form of “p-hacking” through multiple steps of sequential data access. In the above problems, we will provide not only performance guarantees of algorithms but also certain notions of optimality. Whenever applicable, careful empirical studies on synthetic and real data are also included.
|
310 |
Conditional quantile estimation through optimal quantization / Estimation de quantiles conditionnels basée sur la quantification optimaleCharlier, Isabelle 17 December 2015 (has links)
Les applications les plus courantes des méthodes non paramétriques concernent l’estimation d’une fonction de régression (i.e. de l’espérance conditionnelle). Cependant, il est souvent intéressant de modéliser les quantiles conditionnels, en particulier lorsque la moyenne conditionnelle ne permet pas de représenter convenablement l’impact des covariables sur la variable dépendante. De plus, ils permettent d’obtenir des graphiques plus compréhensibles de la distribution conditionnelle de la variable dépendante que ceux obtenus avec la moyenne conditionnelle. À l’origine, la « quantification » était utilisée en ingénierie du signal et de l’information. Elle permet de discrétiser un signal continu en un nombre fini de quantifieurs. En mathématique, le problème de la quantification optimale consiste à trouver la meilleure approximation d’une distribution continue d’une variable aléatoire par une loi discrète avec un nombre fixé de quantifieurs. Initialement utilisée pour des signaux univariés, la méthode a été étendue au cadre multivarié et est devenue un outil pour résoudre certains problèmes en probabilités numériques. Le but de cette thèse est d’appliquer la quantification optimale en norme Lp à l’estimation des quantiles conditionnels. Différents cas sont abordés : covariable uni- ou multidimensionnelle, variable dépendante uni- ou multivariée. La convergence des estimateurs proposés est étudiée d’un point de vue théorique. Ces estimateurs ont été implémentés et un package R, nommé QuantifQuantile, a été développé. Leur comportement numérique est évalué sur des simulations et des données réelles. / One of the most common applications of nonparametric techniques has been the estimation of a regression function (i.e. a conditional mean). However it is often of interest to model conditional quantiles, particularly when it is felt that the conditional mean is not representative of the impact of the covariates on the dependent variable. Moreover, the quantile regression function provides a much more comprehensive picture of the conditional distribution of a dependent variable than the conditional mean function. Originally, the “quantization” was used in signal and information theories since the fifties. Quantization was devoted to the discretization of a continuous signal by a finite number of “quantizers”. In mathematics, the problem of optimal quantization is to find the best approximation of the continuous distribution of a random variable by a discrete law with a fixed number of charged points. Firstly used for a one-dimensional signal, the method has then been developed in the multi-dimensional case and extensively used as a tool to solve problems arising in numerical probability. The goal of this thesis is to study how to apply optimal quantization in Lp-norm to conditional quantile estimation. Various cases are studied: one-dimensional or multidimensional covariate, univariate or multivariate dependent variable. The convergence of the proposed estimators is studied from a theoretical point of view. The proposed estimators were implemented and a R package, called QuantifQuantile, was developed. Numerical behavior of the estimators is evaluated through simulation studies and real data applications.
|
Page generated in 0.0854 seconds