• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 99
  • 42
  • 9
  • 6
  • 3
  • 3
  • 1
  • 1
  • Tagged with
  • 179
  • 179
  • 91
  • 88
  • 33
  • 32
  • 22
  • 22
  • 20
  • 19
  • 18
  • 17
  • 17
  • 16
  • 15
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
141

Modelos de regressão para dados censurados sob distribuições simétricas / Regression models for censored data under symmetric distributions.

Garay, Aldo William Medina 30 April 2014 (has links)
Este trabalho tem como objetivo principal apresentar uma abordagem clássica e Bayesiana dos modelos lineares com observações censuradas, que é uma nova área de pesquisa com grandes possibilidades de aplicações. Aqui, substituimos o uso convencional da distribuição normal para os erros por uma família de distribuições mais flexíveis, o que nos permite lidar de forma mais adequada com observações censuradas na presença de outliers. Esta família é obtida através de um mecanismo de fácil construção e possui como casos especiais as distribuições t de Student, Pearson tipo VII, slash, normal contaminada e, obviamente, a normal. Para o caso de respostas correlacionadas e censuradas propomos um modelo de regressão linear robusto baseado na distribuição t de Student, desenvolvendo um algoritmo tipo EM que depende dos dois primeiros momentos da distribuição t de Student truncada. / This work aims to present a classical and Bayesian approach to linear models with censored observations, which is a new area of research with great potential for applications. Here, we replace the conventional use of the normal distribution for the errors of a more flexible family of distributions, which deal in more appropriately with censored observations in the presence of outliers. This family is obtained through a mechanism easy to construct and has as special cases the distributions Student t, Pearson type VII, slash, contaminated normal, and obviously normal. For the case of correlated and censored responses we propose a model of robust linear regression based on Student\'s t distribution and we developed an EM type algorithm based on the first two moments of the truncated Student\'s t distribution.
142

Modelos de regressão em análise de sobrevivência: uma aplicação na modelagem do tempo de vida de Micrurus corallinus em cativeiro / Regression models in survival analysis: a captivity Micrurus corallinus lifetime application modeling

Sousa, Glória Cristina Vieira de 11 February 2019 (has links)
Os dados de sobrevivência possuem peculiaridades que necessitam de uma atenção especial no momento em que se deseja realizar uma análise nos mesmos. Em tais dados é comum a presença de censuras e sua variável resposta é definida como o tempo de vida até a ocorrência de um evento de interesse. Existem distribuições que acolhem dados de sobrevivência, como as distribuições exponencial, Weibull, gama, gama generalizada, entre outras, assim como seus respectivos modelos de regressão adaptados para esse tipo de estudo. Os modelos de regressão exponencial e Weibull são os mais citados na literatura por terem fácil aplicação e se modelarem bem aos dados. O modelo de regressão gama generalizado geralmente se adapta melhor aos dados por ter três parâmetros, assim como o modelo de regressão log-logístico, que é visto como uma alternativa à distribuição Weibull e é muito utilizado por ter formas explícitas para a sua função de sobrevivência e de falha. No entanto, esses modelos ainda possuem restrições e, por conta disso, novas famílias de modelos de regressão estão sendo desenvolvidas na literatura, assim como a família de distribuições odd log-logística generalizada, que pretende oferecer melhores ajustes pois aparenta ter capacidade de modelar diferentes tipos de dados. O objetivo dessa dissertação foi aplicar técnicas de análise de sobrevivência na modelagem dos tempos de vida de Micrurus corallinus, ajustando os modelos já presentes na literatura e o modelo proposto odd log-logística generalizada Weibull (OLLG-W). Conclui-se que o modelo de regressão que se mostrou adequado aos dados foi o log-logístico e o modelo de regressão OLLG-W não apresentou nenhuma vantagem em relação aos que já são frequentes na literatura. / Survival data hold special attention-needed peculiarities the moment you intend to realize an analysis on. These data own censorships and their variable responses are defined as lifetime to interest- event occurrence. There are distributions that harbor these data, such as exponential distribution, Weibull, gamma, generalized gamma, among others, just as their respective event-adapted regression models. Exponential regression and Weibull models are the most literature recurrent, in view of their easy application and appropriate data modeling. The generalized gamma regression model usually is a better fit to the data, due to its three-parameter comprise, just as the log-logistic regression model, which is seen as an alternative to Weibull distribution and is heavily utilized for it\'s explicit shapes to survivability and fail functions. Nonetheless, these models still retain restrictions and, on account of that, new regression model families are being developed, as in the log logistic generalized distribution family, which intends to offer better settings due to its different real data modeling ability. The purpose of this dissertation was to apply survival analysis techniques in Micrurus corallinus lifetime modeling, adjusting already existing models and the proposed Weibull generalized odd log logistic model (OLLG-W). We came to the conclusion that the adequate regression model to Micrurus corallinus data was the log-logistic model. The OLLG-W model didn\'t offer any benefits when compared to literature-recurrent ones.
143

Developments in statistics applied to hydrometeorology : imputation of streamflow data and semiparametric precipitation modeling / Développements en statistiques appliquées à l'hydrométéorologie : imputation de données de débit et modélisation semi-paramétrique de la précipitation

Tencaliec, Patricia 01 February 2017 (has links)
Les précipitations et les débits des cours d'eau constituent les deux variables hydrométéorologiques les plus importantes pour l'analyse des bassins versants. Ils fournissent des informations fondamentales pour la gestion intégrée des ressources en eau, telles que l’approvisionnement en eau potable, l'hydroélectricité, les prévisions d'inondations ou de sécheresses ou les systèmes d'irrigation.Dans cette thèse de doctorat sont abordés deux problèmes distincts. Le premier prend sa source dans l’étude des débits des cours d’eau. Dans le but de bien caractériser le comportement global d'un bassin versant, de longues séries temporelles de débit couvrant plusieurs dizaines d'années sont nécessaires. Cependant les données manquantes constatées dans les séries représentent une perte d'information et de fiabilité, et peuvent entraîner une interprétation erronée des caractéristiques statistiques des données. La méthode que nous proposons pour aborder le problème de l'imputation des débits se base sur des modèles de régression dynamique (DRM), plus spécifiquement, une régression linéaire multiple couplée à une modélisation des résidus de type ARIMA. Contrairement aux études antérieures portant sur l'inclusion de variables explicatives multiples ou la modélisation des résidus à partir d'une régression linéaire simple, l'utilisation des DRMs permet de prendre en compte les deux aspects. Nous appliquons cette méthode pour reconstruire les données journalières de débit à huit stations situées dans le bassin versant de la Durance (France), sur une période de 107 ans. En appliquant la méthode proposée, nous parvenons à reconstituer les débits sans utiliser d'autres variables explicatives. Nous comparons les résultats de notre modèle avec ceux obtenus à partir d'un modèle complexe basé sur les analogues et la modélisation hydrologique et d'une approche basée sur le plus proche voisin. Dans la majorité des cas, les DRMs montrent une meilleure performance lors de la reconstitution de périodes de données manquantes de tailles différentes, dans certains cas pouvant allant jusqu'à 20 ans.Le deuxième problème que nous considérons dans cette thèse concerne la modélisation statistique des quantités de précipitations. La recherche dans ce domaine est actuellement très active car la distribution des précipitations exhibe une queue supérieure lourde et, au début de cette thèse, il n'existait aucune méthode satisfaisante permettant de modéliser toute la gamme des précipitations. Récemment, une nouvelle classe de distribution paramétrique, appelée distribution généralisée de Pareto étendue (EGPD), a été développée dans ce but. Cette distribution exhibe une meilleure performance, mais elle manque de flexibilité pour modéliser la partie centrale de la distribution. Dans le but d’améliorer la flexibilité, nous développons, deux nouveaux modèles reposant sur des méthodes semiparamétriques.Le premier estimateur développé transforme d'abord les données avec la distribution cumulative EGPD puis estime la densité des données transformées en appliquant un estimateur nonparamétrique par noyau. Nous comparons les résultats de la méthode proposée avec ceux obtenus en appliquant la distribution EGPD paramétrique sur plusieurs simulations, ainsi que sur deux séries de précipitations au sud-est de la France. Les résultats montrent que la méthode proposée se comporte mieux que l'EGPD, l’erreur absolue moyenne intégrée (MIAE) de la densité étant dans tous les cas presque deux fois inférieure.Le deuxième modèle considère une distribution EGPD semiparamétrique basée sur les polynômes de Bernstein. Plus précisément, nous utilisons un mélange creuse de densités béta. De même, nous comparons nos résultats avec ceux obtenus par la distribution EGPD paramétrique sur des jeux de données simulés et réels. Comme précédemment, le MIAE de la densité est considérablement réduit, cet effet étant encore plus évident à mesure que la taille de l'échantillon augmente. / Precipitation and streamflow are the two most important meteorological and hydrological variables when analyzing river watersheds. They provide fundamental insights for water resources management, design, or planning, such as urban water supplies, hydropower, forecast of flood or droughts events, or irrigation systems for agriculture.In this PhD thesis we approach two different problems. The first one originates from the study of observed streamflow data. In order to properly characterize the overall behavior of a watershed, long datasets spanning tens of years are needed. However, the quality of the measurement dataset decreases the further we go back in time, and blocks of data of different lengths are missing from the dataset. These missing intervals represent a loss of information and can cause erroneous summary data interpretation or unreliable scientific analysis.The method that we propose for approaching the problem of streamflow imputation is based on dynamic regression models (DRMs), more specifically, a multiple linear regression with ARIMA residual modeling. Unlike previous studies that address either the inclusion of multiple explanatory variables or the modeling of the residuals from a simple linear regression, the use of DRMs allows to take into account both aspects. We apply this method for reconstructing the data of eight stations situated in the Durance watershed in the south-east of France, each containing daily streamflow measurements over a period of 107 years. By applying the proposed method, we manage to reconstruct the data without making use of additional variables, like other models require. We compare the results of our model with the ones obtained from a complex approach based on analogs coupled to a hydrological model and a nearest-neighbor approach, respectively. In the majority of cases, DRMs show an increased performance when reconstructing missing values blocks of various lengths, in some of the cases ranging up to 20 years.The second problem that we approach in this PhD thesis addresses the statistical modeling of precipitation amounts. The research area regarding this topic is currently very active as the distribution of precipitation is a heavy-tailed one, and at the moment, there is no general method for modeling the entire range of data with high performance. Recently, in order to propose a method that models the full-range precipitation amounts, a new class of distribution called extended generalized Pareto distribution (EGPD) was introduced, specifically with focus on the EGPD models based on parametric families. These models provide an improved performance when compared to previously proposed distributions, however, they lack flexibility in modeling the bulk of the distribution. We want to improve, through, this aspect by proposing in the second part of the thesis, two new models relying on semiparametric methods.The first method that we develop is the transformed kernel estimator based on the EGPD transformation. That is, we propose an estimator obtained by, first, transforming the data with the EGPD cdf, and then, estimating the density of the transformed data by applying a nonparametric kernel density estimator. We compare the results of the proposed method with the ones obtained by applying EGPD on several simulated scenarios, as well as on two precipitation datasets from south-east of France. The results show that the proposed method behaves better than parametric EGPD, the MIAE of the density being in all the cases almost twice as small.A second approach consists of a new model from the general EGPD class, i.e., we consider a semiparametric EGPD based on Bernstein polynomials, more specifically, we use a sparse mixture of beta densities. Once again, we compare our results with the ones obtained by EGPD on both simulated and real datasets. As before, the MIAE of the density is considerably reduced, this effect being even more obvious as the sample size increases.
144

Predição de fator de simultaneidade através de modelos de regressão para proporções contínuas / Prediction of simultaneity factor using regression models for continuous proportions.

Zerbinatti, Luiz Fernando Molinari 29 February 2008 (has links)
O fator de simultaneidade é fundamental no planejamento de redes de distribuição de gás natural. Trata-se de um multiplicador entre 0 e 1 que ajusta o consumo total teórico de um número de aparelhos de utilização em condições reais. Em 2005 o Instituto de Pesquisas Tecnológicas (IPT) e a Companhia de Gás de São Paulo (COMGÁS) realizaram um estudo no qual determinou-se o fator de simultaneidade em um conjunto de edificações residenciais. Um modelo de regressão foi proposto para expressar o fator de simultaneidade em termos da potência total instalada. O modelo ajustado pode ser utilizado para predizer o fator de simultaneidade em novas edificações. O modelo em questão é um modelo de regressão linear normal no qual a variável resposta é o logaritmo do fator de simultaneidade. Nesta dissertação, o objetivo é investigar outras possibilidades de modelos de regressão adequados aos dados obtidos pelo IPT e pela COMGÁS. Especial atenção é dada ao modelo de regressão beta proposto por Ferrari e Cribari-Neto (Journal of Applied Statistics, 2004) por possuir vantagens sobre o modelo de regressão linear normal. O modelo de regressão beta assume que, dadas as covariáveis, a variável resposta possui distribuição beta, sendo adequado para modelar dados observados no intervalo unitário. Desta forma, a transformação na variável resposta - o fator de simultaneidade - é desnecessária. Além disso, é proposta uma nova abordagem para a predição do fator de simultaneidade, diferente de todas as abordagens pesquisadas na literatura, utilizando a técnica de bootstrap. / The simultaneity factor is fundamental in planning gas distribution networks. It is a multiplicator between 0 and 1 that adjusts the theoretical total consumption of a number of devices to realistic conditions. In 2005, the Instituto de Pesquisas Tecnológicas (IPT) and the Companhia de Gás de São Paulo (COMGÁS) performed a study in which the simultaneity factor of gas consumption in a set of residential buildings have been determined. A regression model was proposed to express the simultaneity factor in terms of the total power of installed equipment. The fitted model can be used to predict the simultaneity factor in new buildings. The model they proposed is a normal linear regression model in which the response variable is the logarithm of the simultaneity factor. In the present dissertation, our aim is to investigate other possible regression models suitable to the data obtained by IPT and CONGÁS. Emphasis is given to the beta regression model proposed by Ferrari and Cribari-Neto (Journal of Applied Statistics, 2004) which has a number of advantages over normal linear regression models. The beta regression model assumes that, given the covariates, the response variable has a beta distribution, which is adequate to model data observed in the unit interval. Therefore, no transformation in the response variable, the simultaneity factor, is needed. Additionally, we present a new approach for the prediction of the simultaneity factor, that is different from all the approaches shown in the literature, using the bootstrap technique.
145

Monte Carlo simulation studies in log-symmetric regressions / Estudos de simulação de Monte Carlo em regressões log- simétricas

Ventura, Marcelo dos Santos 09 March 2018 (has links)
Submitted by Franciele Moreira (francielemoreyra@gmail.com) on 2018-03-29T12:30:01Z No. of bitstreams: 2 Dissertação - Marcelo dos Santos Ventura - 2018.pdf: 4739813 bytes, checksum: 52211670f6e17c893ffd08843056f075 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-03-29T13:40:08Z (GMT) No. of bitstreams: 2 Dissertação - Marcelo dos Santos Ventura - 2018.pdf: 4739813 bytes, checksum: 52211670f6e17c893ffd08843056f075 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-03-29T13:40:08Z (GMT). No. of bitstreams: 2 Dissertação - Marcelo dos Santos Ventura - 2018.pdf: 4739813 bytes, checksum: 52211670f6e17c893ffd08843056f075 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-03-09 / Fundação de Amparo à Pesquisa do Estado de Goiás - FAPEG / This work deals with two Monte Carlo simulation studies in log-symmetric regression models, which are particularly useful for the cases when the response variable is continuous, strictly positive and asymmetric, with the possibility of the existence of atypical observations. In log- symmetric regression models, the distribution of the random errors multiplicative belongs to the log-symmetric class, which encompasses log-normal, log- Student-t, log-power- exponential, log-slash, log-hyperbolic distributions, among others. The first simulation study has as objective to examine the performance for the maximum-likelihood estimators of the model parameters, where various scenarios are considered. The objective of the second simulation study is to investigate the accuracy of popular information criteria as AIC, BIC, HQIC and their respective corrected versions. As illustration, a movie data set obtained and assembled for this dissertation is analyzed to compare log-symmetric models with the normal linear model and to obtain the best model by using the mentioned information criteria. / Este trabalho aborda dois estudos de simulação de Monte Carlo em modelos de regressão log- simétricos, os quais são particularmente úteis para os casos em que a variável resposta é contínua, estritamente positiva e assimétrica, com possibilidade da existência de observações atípicas. Nos modelos de regressão log-simétricos, a distribuição dos erros aleatórios multiplicativos pertence à classe log-simétrica, a qual engloba as distribuições log-normal, log-Student- t, log-exponencial- potência, log-slash, log-hyperbólica, entre outras. O primeiro estudo de simulação tem como objetivo examinar o desempenho dos estimadores de máxima verossimilhança desses modelos, onde vários cenários são considerados. No segundo estudo de simulação o objetivo é investigar a eficácia critérios de informação populares como AIC, BIC, HQIC e suas respectivas versões corrigidas. Como ilustração, um conjunto de dados de filmes obtido e montado para essa dissertação é analisado para comparar os modelos de regressão log-simétricos com o modelo linear normal e para obter o melhor modelo utilizando os critérios de informação mencionados.
146

As Vendas e o Espaço no Retalho: Modelos Econométricos Aplicados a um Grupi de Distribuição Alimentar Português

Castro, Alexandra Carla Barata 19 March 2008 (has links)
Ciências Empresariais / Master Programme in Management Sciences / A dissertação que se apresenta enquadra-se na problemática da identificação dos factores determinantes para as vendas no mercado da distribuição, com enfoque no sector do retalho. O espaço em área de venda, identificado pelos retalhistas como o seu recurso mais dispendioso, assume um papel importante como factor explicativo das vendas, sendo dada relevância à sua influência ao longo de toda a investigação. Por outro lado, procura-se avaliar a importância do espaço e de outros factores para diferentes categorias de produtos e segmentos de loja. Este estudo serve-se de um exemplo representativo de lojas que operam no mercado português, pertencentes a um dos principais grupos retalhistas existentes, para avaliar esta problemática Relativamente à metodologia adoptada no estudo do grupo de retalho português recorreu-se a modelos econométricos - regressão linear, segmentação e modelos de mistura de regressão, usando informação da empresa e das suas insígnias. Concluiu-se que o espaço é um factor determinante para as vendas, cuja importância varia entre lojas, grupos de lojas e categorias de produtos. Estes resultados são importantes na tomada de decisão do retalhista, na medida em que contribuem para a realização de estudos de simulação de lojas, prevendo os efeitos das variações de vendas provocados por alterações de espaço. Os factores relacionados com o preço face à concorrência, rendimento per capita da população alvo e qualidade no atendimento também foram analisados e inferiu-se sobre a sua importância relativa. Os modelos de segmentação adoptados foram também úteis, porque permitiram identificar grupos homogéneos de lojas, facultando ao gestor informação útil para a definição de políticas direccionadas a estes grupos. / The following dissertation covers the field of identification of the determinant sales factors at the distribution market, with the emphasis on the retail sector. The sales area, which is considered by retailers as the highest investment outlay point, assumes an important role as explanatory sales factor and gets a relevant attention throughout the research according to its influential character. On the other hand, the ambition has been set to evaluate the importance of the retail sales area and of the other factors concerning various product categories and various segments of stores. This study operates with a representative example of stores working in the Portuguese market and belonging to one of the existing local retail groups, with the objective of analysing this problematic. As for the methodology applied to the study of the Portuguese retail group, the econometric models were chosen linear regression, segmentation, regression mixture models, survey information of the company in question and its store formats. To sum up, the sales area is a determinant sales factor, which importance varies between the stores, groups of stores and product categories. These results are relevant to the retail's decisions since they facilitate the realization of underlying studies predicting the effects of the sale variations provoked by sales area alteration. The factors related to the price contest in face of the competitors, the income per capita of the population as well as the service quality were analysed and studied its relative importance. The applied segmentation models proved to be useful since they allowed identify homogeneous store groups, delivering valuable information to the managers that facilitates the definition of particular attitude policies regarding these groups
147

La isla de calor urbana de superficie y sus factores condicionantes: El caso del área metropolitana de Santiago

Sarricolea Espinoza, Pablo 05 October 2012 (has links)
Se ha sintetizado la información de las temperaturas de emisión superficial obtenidas mediante 53 imágenes del satélite Terra MODIS, aplicando para ello promedios anuales y estacionales de las temperaturas estandarizadas, y reducción de las imágenes a factores complejos de los patrones espaciales usando Análisis de Componentes Principales (ACP); finalmente, se han realizado mapas de diferencias térmicas para conocer la intensidad de la isla de calor urbana de superficie (ICUs) estacional y anual. Los resultados muestran que la isla de calor tiende a localizar el máximo térmico en las comunas de Santiago, Providencia, Las Condes, Ñuñoa y Vitacura, conformando un núcleo cálido asociado a la mayor densidad construida; además, las comunas de Huechuraba y Quilicura conforman otro núcleo cálido, el que está asociado a viviendas de alto nivel de ingresos en el primer caso e industrias en el caso de Quilicura. El ACP revela cuatro patrones típicos, que explican el 90,6% de las situaciones, a saber: ICUs consolidada (44,5%), ICUs del piedmont y cuña de altos ingresos (22,3%), un tipo sin isla de calor urbana (20,2%) e ICUs más intensa al sur (3,6%). Finalmente, la intensidad de la isla de calor urbana de superficie es de mayor magnitud durante el otoño (7,4ºC), seguida de verano (5,9ºC), primavera (5,4ºC) e invierno (5,0ºC); incluso en verano y otoño supera los 7ºC en la zona oriente de la ciudad. De las situaciones sin isla de calor, se ha sugerido la hipótesis de efecto sumidero de calor o «urban heat sink», asociado a fuerte brisa de la Cordillera de Los Andes, que barre la ICUs y la desplaza al poniente de la ciudad, lo que en días de contaminación por material particulado (PM10) tendría efectos nocivos sobre la salud de la población de esa parte de la ciudad. Además, se modela la isla de calor urbana de superficie (ICUs) en función de una serie de variables geográficas y urbanas, con el propósito de plantear alternativas para la mitigación de los efectos negativos que las ICUs provocan a los habitantes de la ciudad de Santiago. Además, se entregan algunas directrices para una planificación territorial más sostenible. En total se utilizaron 42 mapas de isla de calor del año 2010, los cuales se generaron con imágenes satelitales Terra MODIS. Ellos fueron sintetizados en cinco cartografías, un mapa anual y cuatro correspondientes a las estaciones del año. Las variables explicativas para predecir la isla de calor fueron nueve: densidad de población y construida, elevación topográfica, NDVI, albedo, radiación solar y las distancias euclidianas al centro, la costa y los ríos y esteros. Los resultados de los modelos de regresión lineal múltiple por pasos indican coeficientes de determinación entre 47,39% y 80,08% (invierno y verano respectivamente). Las variables explicativas más influyentes son el albedo y el NDVI (relación negativa), y la densidad construida (relación positiva). Al modificar las variables que explican la ICUs se podría variar la intensidad de ella, por ejemplo: al aumentar de 10.000 m2 a 20.000 m2 construidos por hectárea la temperatura deberá aumentar entre 1ºC y 2ºC; implementando de áreas verdes un espacio sin vegetación, la isla de calor se verá reducida entre 1,2ºC y 5,5ºC; y al modificar el albedo de la ciudad desde un 10% a un 20% se consigue una reducción de la ICUs entre 1,1ºC y 2,7ºC.
148

Superscalar Processor Models Using Statistical Learning

Joseph, P J 04 1900 (has links)
Processor architectures are becoming increasingly complex and hence architects have to evaluate a large design space consisting of several parameters, each with a number of potential settings. In order to assist in guiding design decisions we develop simple and accurate models of the superscalar processor design space using a detailed and validated superscalar processor simulator. Firstly, we obtain precise estimates of all significant micro-architectural parameters and their interactions by building linear regression models using simulation based experiments. We obtain good approximate models at low simulation costs using an iterative process in which Akaike’s Information Criteria is used to extract a good linear model from a small set of simulations, and limited further simulation is guided by the model using D-optimal experimental designs. The iterative process is repeated until desired error bounds are achieved. We use this procedure for model construction and show that it provides a cost effective scheme to experiment with all relevant parameters. We also obtain accurate predictors of the processors performance response across the entire design-space, by constructing radial basis function networks from sampled simulation experiments. We construct these models, by simulating at limited design points selected by latin hypercube sampling, and then deriving the radial neural networks from the results. We show that these predictors provide accurate approximations to the simulator’s performance response, and hence provide a cheap alternative to simulation while searching for optimal processor design points.
149

Uma estratégia para predição da taxa de aprendizagem do gradiente descendente para aceleração da fatoração de matrizes. / A strategy to predict the learning rate of the downward gradient for acceleration of matrix factorization. / Une stratégie pour prédire le taux d'apprentissage du gradient descendant pour l'accélération de la factorisation matricielle.

NÓBREGA, Caio Santos Bezerra. 11 April 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-04-11T14:50:08Z No. of bitstreams: 1 CAIO SANTOS BEZERRA NÓBREGA - DISSERTAÇÃO PPGCC 2014..pdf: 983246 bytes, checksum: 5eca7651706ce317dc514ec2f1aa10c3 (MD5) / Made available in DSpace on 2018-04-11T14:50:08Z (GMT). No. of bitstreams: 1 CAIO SANTOS BEZERRA NÓBREGA - DISSERTAÇÃO PPGCC 2014..pdf: 983246 bytes, checksum: 5eca7651706ce317dc514ec2f1aa10c3 (MD5) Previous issue date: 2014-07-30 / Capes / Sugerir os produtos mais apropriados aos diversos tipos de consumidores não é uma tarefa trivial, apesar de ser um fator chave para aumentar satisfação e lealdade destes. Devido a esse fato, sistemas de recomendação têm se tornado uma ferramenta importante para diversas aplicações, tais como, comércio eletrônico, sites personalizados e redes sociais. Recentemente, a fatoração de matrizes se tornou a técnica mais bem sucedida de implementação de sistemas de recomendação. Os parâmetros do modelo de fatoração de matrizes são tipicamente aprendidos por meio de métodos numéricos, tal como o gradiente descendente. O desempenho do gradiente descendente está diretamente relacionada à configuração da taxa de aprendizagem, a qual é tipicamente configurada para valores pequenos, com o objetivo de não perder um mínimo local. Consequentemente, o algoritmo pode levar várias iterações para convergir. Idealmente,é desejada uma taxa de aprendizagem que conduza a um mínimo local nas primeiras iterações, mas isto é muito difícil de ser realizado dada a alta complexidade do espaço de valores a serem pesquisados. Começando com um estudo exploratório em várias bases de dados de sistemas de recomendação, observamos que, para a maioria das bases, há um padrão linear entre a taxa de aprendizagem e o número de iterações necessárias para atingir a convergência. A partir disso, propomos utilizar modelos de regressão lineares simples para predizer, para uma base de dados desconhecida, um bom valor para a taxa de aprendizagem inicial. A ideia é estimar uma taxa de aprendizagem que conduza o gradiente descendenteaummínimolocalnasprimeirasiterações. Avaliamosnossatécnicaem8bases desistemasderecomendaçãoreaisecomparamoscomoalgoritmopadrão,oqualutilizaum valorfixoparaataxadeaprendizagem,ecomtécnicasqueadaptamataxadeaprendizagem extraídas da literatura. Nós mostramos que conseguimos reduzir o número de iterações até em 40% quando comparados à abordagem padrão. / Suggesting the most suitable products to different types of consumers is not a trivial task, despite being a key factor for increasing their satisfaction and loyalty. Due to this fact, recommender systems have be come an important tool for many applications, such as e-commerce, personalized websites and social networks. Recently, Matrix Factorization has become the most successful technique to implement recommendation systems. The parameters of this model are typically learned by means of numerical methods, like the gradient descent. The performance of the gradient descent is directly related to the configuration of the learning rate, which is typically set to small values, in order to do not miss a local minimum. As a consequence, the algorithm may take several iterations to converge. Ideally, one wants to find a learning rate that will lead to a local minimum in the early iterations, but this is very difficult to achieve given the high complexity of search space. Starting with an exploratory study on several recommendation systems datasets, we observed that there is an over all linear relationship between the learnin grate and the number of iterations needed until convergence. From this, we propose to use simple linear regression models to predict, for a unknown dataset, a good value for an initial learning rate. The idea is to estimate a learning rate that drives the gradient descent as close as possible to a local minimum in the first iteration. We evaluate our technique on 8 real-world recommender datasets and compared it with the standard Matrix Factorization learning algorithm, which uses a fixed value for the learning rate over all iterations, and techniques fromt he literature that adapt the learning rate. We show that we can reduce the number of iterations until at 40% compared to the standard approach.
150

[en] STATISTICAL MODEL FOR PREDICTING THE SUPPLY OF HIGHER EDUCATION: 2015-2035 / [es] MODELO ESTADÍSTICO PARA LA PROYECCIÓN DE OFERTA DE EDUCACIÓN SUPERIOR: 2015-2035 / [pt] MODELO ESTATÍSTICO PARA A PROJEÇÃO DA OFERTA DE ENSINO SUPERIOR: 2015-2035

CLARENA PATRICIA ARRIETA ARRIETA 03 October 2018 (has links)
[pt] Segundo o INEP/MEC, nos últimos 20 anos, o número de matrículas da educação superior de graduação no Brasil cresceu mais de duas vezes, com uma taxa de crescimento anual verificada a partir de 2001 em torno de 5,7 por cento ao ano. Ainda segundo esta instituição, em 2008 houve o ingresso de 1.505.819 novos estudantes nos cursos presenciais, ao mesmo tempo em que 1.479.318 vagas não foram ocupadas, sendo que 54,6 por cento do total de vagas ofertadas pelo setor privado. Tendo em conta que São Paulo é o maior estado do Brasil, é muito importante que o Ministério da Educação tome conhecimento de como se dará a dinâmica da oferta de educação superior nos próximos 20 anos para que suas ações (políticas públicas, sobretudo) possam ser realizadas com êxito. O objetivo deste trabalho é aplicar modelagem estatística para estimar a oferta do ensino superior do Estado de São Paulo no período de 2015 a 2035, considerando dados da INEP de educação superior. A motivação para este trabalho é melhorar o planejamento da oferta de curso superior e fazer a replicação do modelo preditivo para outros estados do Brasil. A metodologia usada é modelagem estatística (modelos de regressão linear) e séries temporais (Holt). Como resultado, têm-se as áreas e/os cursos onde o governo federal deve investir no futuro aprimorando seu planejamento. / [en] According to INEP/MEC, in the last 20 years, the number of undergraduate higher education enrollments in Brazil has grown more than twice, with an annual growth rate of 5,7 percent per year since 2001. According to this institution, in 2008 there were 1.505.819 new students enrolled in presential courses, while 1.479.318 vacancies were not filled, with 54.6 percent of the total number of vacancies offered by the private sector. Given that São Paulo is the largest state in Brazil, it is very important that the Ministry of Education becomes aware of the dynamics of the offer of higher education in the next 20 years so that its actions (mainly public policies) can be successfully executed. The objective of this study is to apply statistical modeling to estimate the offer of higher education in the State of São Paulo in the period from 2015 to 2035, considering data from INEP about higher education. The motivation for this work is to improve the planning of the offer of higher education and to replicate the predictive model for other Brazilian states. The methodology used concerns statistical modeling (linear regression models) and time series (Holt). As a result, it is obtained the areas and/or courses where the federal government should invest in the future, improving its planning. / [es] Según el INEP/MEC, en los últimos 20 años, el número de matrículas de educación superior en Brasil creció más de dos veces, con una tasa de crecimiento anual verificada a partir de 2001 en torno al 5,7 por ciento por año. Según esta institución, en 2008 hubo un ingreso de 1.505.819 nuevos estudiantes en los cursos presenciales, al mismo tiempo que 1.479.318 vacantes no fueron ocupadas, siendo el 54,6 por ciento del total de vacantes ofrecidas por el sector privado. Dado que São Paulo es el mayor estado de Brasil, es muy importante que el Ministerio de Educación tome conocimiento de cómo se dará la dinámica de la oferta de educación superior en los próximos 20 años para que sus acciones (políticas públicas, sobre todo) puedan realizarse con éxito. El objetivo de este trabajo es aplicar modelos estadísticos para estimar la oferta de educación superior del Estado de São Paulo en el período de 2015 a 2035, considerando datos de INEP de educación superior. La motivación para este trabajo es mejorar la planificación de la oferta de curso superior y hacer replicación del modelo predictivo para otros estados de Brasil. La metodología utilizada es modelos estadístico (modelos de regresión lineal) y series tiempo (Holt). Como resultado, se tienen las áreas y/o cursos donde el gobierno federal debe invertir en el futuro mejorando su planificación.

Page generated in 0.1381 seconds