Global ETD Search

291	Distribuições das classes Kumaraswamy generalizada e exponenciada: propriedades e aplicações / Distributions of the generalized Kumaraswamy and exponentiated classes: properties and applications Braga Junior, Antonio Carlos Ricardo 04 April 2013 (has links) Recentemente, Cordeiro e de Castro (2011) apresentaram uma classe generalizada baseada na distribuição Kumaraswamy (Kw-G). Essa classe de distribuições modela as formas de risco crescente, decrescente, unimodal e forma de U ou de banheira. Uma importante distribuição pertencente a essa classe é a distribuição Kumaraswamy Weibull modificada (KwMW) proposta por Cordeiro; Ortega e Silva (2013). Com isso foi utilizada essa distribuição para o desenvolvimento de algumas novas propriedades e análise bayesiana. Além disso, foi desenvolvida uma nova distribuição de probabilidade a partir da distribuição gama generalizada geométrica (GGG) que foi denominada de gama generalizada geométrica exponenciada (GGGE). Para a nova distribuição GGGE foram calculados os momentos, a função geradora de momentos, os desvios médios, a confiabilidade e as estatísticas de ordem. Desenvolveu-se o modelo de regressão log-gama generalizada geométrica exponenciada. Para a estimação dos parâmetros, foram utilizados os métodos de máxima verossimilhança e bayesiano e, finalmente, para ilustrar a aplicação da nova distribuição foi analisado um conjunto de dados reais. / Recently, Cordeiro and de Castro (2011) showed a generalized class based on the Kumaraswamy distribution (Kw-G). This class of models has crescent risk forms, decrescent, unimodal and U or bathtub form. An important distribution belonging to this class the Kumaraswamy modified Weibull distribution (KwMW), proposed by Cordeiro; Ortega e Silva (2013). Thus this distribution was used to develop some new properties and bayesian analysis. Furthermore, we develop a new probability distribution from the generalized gamma geometric distribution (GGG) which it is called generalized gamma geometric exponentiated (GGGE) distribution. For the new distribution we calculate the moments, moment generating function, mean deviation, reliability and order statistics. We define a log-generalized gamma geometric exponentiated regression model. The methods used to estimate the model parameters are: maximum likelihood and bayesian. Finally, we illustrate the potentiality of the new distribution by means of an application to a real data set. Análise de sobrevivência Distribuições (Probabilidade) Distributions (Probability) Máxima verossimilhança Maximum likelihood Modelos de regressão Regression models Survival analysis
292	Variáveis relevantes para as empresas de alto crescimento no Brasil / Relevant variables for high growth firms in Brazil Bara, Carlos Roberto Francisco 26 April 2018 (has links) Empreendedorismo tem sido objeto de incentivo no mundo e no Brasil, dada a sua significante contribuição para o desenvolvimento econômico e social de uma nação. Observa-se que a maioria das empresas, existentes ou novas, evolui de forma lenta e gradual; no entanto, reduzida parcela apresenta um padrão diferente, com crescimento elevado em faturamento ou número de colaboradores: são as empresas de alto crescimento (EACs). Tais empresas são as responsáveis por grande parte da geração de empregos (Birch, 1981; Coad, Daunfeldt, Holzl, Johansson, & Nightingale, 2014; Henrekson & Johansson, 2010; OECD, 2010). A presente tese procurou identificar as variáveis que ajudam a explicar o desempenho das EACs no Brasil, classificadas conforme critério da OECD (2007). Foi conduzida uma pesquisa com 470 empresas brasileiras, que coletou mais de 30 variáveis preditoras categóricas ou métricas, utilizadas no modelo Regressão Logística. Foram identificadas algumas variáveis alinhadas com a literatura e outras menos intuitivas e documentadas. Comprovou-se o aumento da probabilidade de EACs quando se relacionavam com aceleradoras, recebiam premiações ou eram spin-offs de outras empresas. Em função das altas taxas de juros bancários e da cultura empreendedora no Brasil, surpreendeu o impacto positivo de empréstimos bancários e a percepção dos empreendedores sobre registrar marcas comerciais, bem como o impacto negativo da percepção sobre propaganda em mídia digital e doações de instituições de fomento, relacionadas às EACs. Análises adicionais com o subgrupo de EACs caracterizadas como gazelas foram feitas. Embora apresente limitações de surveys e outras, a tese confirmou parte dos resultados da literatura sobre empreendedorismo e identificou avenidas para futuras pesquisas. / Entrepreneurship has been object of encouragement in the world and in Brazil, given its significant contribution to the economic and social development of a nation. It is observed that the majority of companies, existing or new, are developing slowly and gradually; however, small share presents a different pattern, with high growth in sales or number of employees: they are the high growth firms (HGFs). These firms are responsible for a large part of job creation (Birch, 1981; Coad, Daunfeldt, Holzl, Johansson, & Nightingale, 2014, Henrekson & Johansson, 2010, OECD, 2010). This thesis aimed to identify the variables that help to explain the performance of HGFs in Brazil, according to OECD (2007) criterion. A survey with 470 Brazilian companies was conducted, collecting more than 30 categorical or metric predictor variables, used in the Logistic Regression model. Some identified variables were aligned to literature, but others less intuitive or documented. It was confirmed the increase in the probability of HGFs when they related to accelerators, received awards, or were spin-offs of other companies. As a consequence of the high banking interest rates and the entrepreneurship culture in Brazil, surprised the positive impact of bank loans and the entrepreneurs\' perception of trademark registration, as well as the negative impact of perception on advertising in digital media and donations from development institutions, related to HGFs. Additional analyzes with the subgroup of HGFs characterized as gazelles were made. Although it presents limitations of surveys and others, the thesis confirmed part of the results of the literature on entrepreneurship and identified avenues for future researches. Empreendedorismo Empresas de alto crescimento Entrepreneurship Gazelas Gazelles High growth firms Logistic regression Regressão logística
293	Estudo da estabilidade da reação industrial de formação de óxido de etileno a partir do gerenciamento das variáveis críticas de processo. / Stability study of ethylene oxide industrial reaction from the management of critical process variables. Ribeiro, Luciano Gonçalves 03 October 2013 (has links) O desempenho de um processo de produção de óxido de etileno é normalmente avaliado através da seletividade da reação. Neste trabalho, uma unidade produtiva foi estudada com o objetivo de se maximizar a seletividade através da atuação sobre as principais variáveis de processo. Uma análise estatística de um conjunto de dados de processo mostrou que quatro variáveis (vazão de oxigênio, vazão de gás de reciclo, temperatura da reação e teor de clorados) são as de maior influência sobre a seletividade e explicam mais de 60% das variações ocorridas no processo produtivo. Com base nessa análise de dados, modelos de regressão multilinear foram desenvolvidos e testados com o objetivo de representar o comportamento do processo em função apenas do comportamento dessas quatro variáveis. O modelo matemático empírico proposto para representar esse processo foi validado estatisticamente e fenomenologicamente, demonstrando consistência com os dados obtidos em processo. O modelo também foi desdobrado em 24 submodelos que representam condições possíveis de operação da unidade e para os quais foram elaboradas superfícies de respostas que permitiram definir a melhor forma de gestão das 4 variáveis críticas conjuntamente, de modo a se obter a máxima seletividade possível para a reação em função desses cenários operacionais. / The performance of an ethylene oxide manufacturing process is normally measured by the selectivity reaction. In this work, a production unit was studied in order to maximize selectivity through the development of a strategic plan to main to manage the key process variables. A statistical analysis of a data set indicated that only four variables (oxygen flow, recycle gas flow, temperature reaction and chlorine content) are responsible for the greater influence over the selectivity and explain more than 60% of process variations. As consequence, regression models were developed and tested in order to represent the process behavior as a function of these four variables. The proposed mathematical model was statistically and phenomenologically validated, demonstrating consistency with the current process data. The model was rewritten in 24 sub-models, named deployed models which represent possible operational conditions of the unit. A set of surface responses was defined for each deployed model, providing to identify the best way for the management of these 4 critical variables. Furthermore, this analysis leads to a management tool for achieving the best results in selectivity, as function of the possible operational scenarios for this unit. Ethylene oxide Modelos de regressão Óxido de etileno Regression model Selectivity Seletividade Superfície de resposta Surface response
294	Análise desagregada de dados de demanda por transportes através de modelagem geoestatística e tradicional / Disaggregated data analysis on transportation demand through traditional and geostatistical modeling Lindner, Anabele 23 February 2015 (has links) O conhecimento do padrão de deslocamento populacional bem como a estimativa de demanda por transportes são de fundamental importância para a tomada de decisões relativas ao planejamento urbano e de transportes. Em geral, a obtenção destas informações é realizada por modelos tradicionais como o modelo quatro etapas. Entretanto, modelos clássicos não levam em conta a dependência espacial das variáveis . A Geoestatística, valendo-se da utilização de variáveis regionalizadas, apresenta-se como uma ferramenta auxiliar capaz de modelar informações espaciais. Este trabalho tem por objetivo estimar dados desagregados de demanda por transportes através de modelagem geoestatística e tradicional. Neste estudo, a modelagem tradicional e a geoestatística puderam ser comparadas por meio de um banco de dados referente à pesquisa Origem/Destino da Região Metropolitana de São Paulo, realizada em 2007. A abordagem tradicional se baseou em um modelo de regressão enquanto que a abordagem geoestatística consistiu na estimação espacial de variáveis com base na modelagem de semivariogramas e Krigagem. Ao final do trabalho, foi possível realizar a comparação dos resultados da abordagem tradicional e geoestatística em coordenadas de valores conhecidos. Os resultados indicaram que a modelagem tradicional apontou uma taxa de acertos de 96 % pelo modelo de Regressão Logística Múltipla adotada para a variável dicotômica de preferência por modo motorizado (variável objeto de estudo). A abordagem tradicional baseou-se na calibração de um modelo por meio de outras oito variáveis. Entretanto, a modelagem geoestatística, utilizando -se apenas das coordenadas geográficas domiciliares, resultou em 67% de taxa de acertos de previsão da variável. Isso demonstrou que, apesar de possuir menor taxa de acertos, a modelagem geoestatística, por utilizar menor número de informações para previsão da variável, teve um resultado satisfatório e demonstra-se promissora na área de planejamento de transportes , sobretudo considerando sua habilidade de estimação em outras coordenadas geográficas além das amostradas. / The comprehension of population displacement patterns and travel demand forecasting is crucial on making decisions related to urban transportation planning. In order to obtain this information, classic models like the sequential Four -step mo del are applied. However, classic models do not consider spatial location in their approach. Geostatistics is displayed as a suitable complementary instrument able to model spatial information. This work intends to forecast disaggregated data on transportation demand through traditional and geostatistical modeling. The present study compares the results from classic approach and Geostatistics through an Origin-Destination Survey dataset, carried out in São Paulo Metropolitan Area in 2007. The classic approach was based on regression models whereas Geostatistics consisted in variable spatial estimation by semivariograms modeling and Kriging. At the end of the study, a comparison between regression and geostatistical analysis was conducted through results of prediction in locations where the values of the variable are known. Results indicated that classic modeling had a 96% hit rate by Multiple Logistic Regression adopted for the dummy variable preference for motorized travel mode (object of study variable). Classic modeling was based on a training model using other eight predictor variables. Meanwhile, Geostatistics, using only residential geographical coordinate, resulted in a 67% hit rate for predicting the variable object of study. This demonstrates that, even though Geostatiscs had lower hit rate compared to Multiple Logistic Regression, it had satisfactory outcome and proves tobe a promising approach in transport planning, given that it considered less informati on to predict the variable, especially considering its ability of estimating in other geographical coordinates in addition to those sampled. Demand for transportation Demanda por transportes Geoestatística Geostatistics Logistic regression Regressão logística
295	Análise de influência local no modelo de regressão logística / Analysis of local influence with the logistic regression model Souza, Édila Cristina de 09 February 2006 (has links) Uma etapa importante após a formulação e ajuste de um modelo de regressão é a análise de diagnóstico. A regressão logística tem se constituído num dos principais métodos de modelagem estatística de dados; mesmo quando a resposta de interesse não é originalmente do tipo binário, alguns pesquisadores tem dicotomizado a resposta de modo que a probabilidade de sucesso pode ser modelado através da regressão logística. Neste trabalho consideramos um estudo de diagnóstico no modelo da regressão logística, utilizando as medidas proposta por Pregibon (1981) e a técnica de influência local Cook (1986). Investigamos a aplicação da técnica de influência local sob diferentes esquemas de perturbação. Como ilustração, apresentamos a aplicação dos resultados desenvolvidos em dois conjuntos de dados reais. / An important stage after the formularization and adjustment of a regression model is the diagnosis analysis. Logistic regression is one of the main methods for modeling data and even when the response of interest is is not originally of the binary type, some researchers have dichotomized the response in a way that the success probability can be modeled through logistic regression. In this work we consider a study of diagnosis methods with logistic regression, using the measures proposed by Pregibon (1981) and the local influence technique of Cook (1986). We investigate the application of the local influence technique of under different types of disturbance. As as illustration, we show the application of the developed results obtained with real data sets. análise de regressão e de correlação análise estatística diagnosis analysis local influence logistic regression logística (estatística) modelagem de dados
296	Modelos de regressão quantílica / Quantile Regression Models Santos, Bruno Ramos dos 02 March 2012 (has links) Este trabalho trata de modelos de regressão quantílica. Foi feita uma introdução a essa classe de modelos para motivar a discussão. Em seguida, conceitos inferenciais, como estimação, intervalos de confiança, testes de hipóteses para os parâmetros são discutidos, acompanhados de alguns estudos de simulação. Para analisar a qualidade do ajuste, são apresentados o coeficiente de determinação e um teste de falta de ajuste para modelos de regressão quantílica. Também é proposta a utilização de gráficos para análise da qualidade do ajuste considerando a distribuição Laplace Assimétrica. Uma aplicação utilizando um banco de dados com informação sobre renda no Brasil foi utilizado para exemplificar os tópicos discutidos durante o texto. / This work is about quantile regression models. An introduction was made to this class of models to motivate the discussion. Then, inferential concepts, like estimation, confidence intervals, tests of hypothesis for the parameters are discussed, followed by some simulation studies. To analyse goodness of fit, a coefficient of determination and a lack-of-fit test for quantile regression models are presented. Its also proposed the use of graphs for the goodness of fit analysis considering the Asymmetric Laplace Distribution. An application using a data base with information about income in Brazil was used to exemplify the topics discussed during the text. Conceitos Inferenciais Goodness of Fit Income Models. Inferential Concepts Modelos de Renda. Qualidade do Ajuste Quantile Regression Regressão Quantílica
297	Abordagem bayesiana dos modelos de regressão hipsométricos não lineares utilizados em biometria florestal / Bayesian approach for the nonlinear regressian models used in forest biometrics Thiersch, Monica Fabiana Bento Moreira 25 February 2011 (has links) Neste trabalho está sendo proposto uma abordagem bayesiana para resolver o problema de inferência com restrição nos parâmetros para os modelos de Petterson, Prodan, Stofel e Curtis, utilizados para representar a relação hipsométrica em clones de Eucalyptus sp. Consideramos quatro diferentes densidades de probabilidade a priori, entre as quais, a densidade a priori não informativa de Jeffreys, a densidade a priori vaga normal flat, uma densidade a priori construída empiricamente e a densidade a priori potência. As estimativas bayesianas foram calculadas com a técnica de simulação de Monte Carlo em Cadeia de Markov (MCMC). Os métodos propostos foram aplicados em vários conjuntos de dados reais e os resultados foram comparados aos obtidos com os estimadores de máxima verossimilhança. Os resultados obtidos com as densidades a priori não informativa e vaga foram semelhantes aos resultados encontrados com os estimadores de máxima verossimilhança, porém, para vários conjuntos de dados, as estimativas não apresentaram coerência biológica. Por sua vez, as densidades a priori informativas empírica e a priori potência sempre produziram resultados coerentes biologicamente, independentemente do comportamento dos dados na parcela, destacando a superioridade desta abordagem / In this work we propose a Bayesian approach to solve the inference problem with restriction on parameters for the models of Petterson, Prodan, Stofel and Curtis used to represent the hypsometric relationship in clones of Eucalyptus sp. We consider four different prior probability densities, the non informative Jeffreys prior, a vague prior with flat normal probability density, a prior constructed empirically and a power prior density. The Bayesian estimates were calculated using the Monte Carlo Markov Chain (MCMC) simulation technique. The proposed methods were applied to several real data sets and the results were compared to those obtained with the maximum likelihood estimators. The results obtained with a non informative prior and prior vague showed similar results to those found with the maximum likelihood estimators, but, for various data sets, the estimates did not show biological coherence. In turn, the methods a prior empirical informative and a prior power, always produce biologically consistent results, regardless of the behavior of the data in the plot, highlighting the superiority of this approach Bayesian approach Hypsometric models MCMC MCMC Método bayesiano Modelos hipsométricos Nonlinear regressian Regressão não linear
298	Estimativa de propriedades físicas e mecânicas de Pinus sp. por colorimetria / Estimative of physical and mechanical properties of Pinus sp. by colorimetry Lucas José Marini 01 February 2019 (has links) A possibilidade de utilização da técnica de colorimetria para obter informações relevantes das peças de Pinus é uma excelente alternativa, uma vez que o colorímetro é um equipamento de fácil manuseio e rápida aquisição de dados, e o uso de madeira de florestas plantadas é crescente no Brasil. O objetivo desta pesquisa foi gerar modelos de regressão para estimativa da densidade aparente e das propriedades mecânicas (resistência e módulo de elasticidade) em função de parâmetros colorimétricos. Nesta pesquisa, 403 amostras de Pinus sp. foram caracterizadas de acordo com o sistema CIE Lab, utilizando um colorímetro Konica Minolta. A densidade aparente, a resistência à compressão paralela às fibras e o módulo de elasticidade na compressão paralela às fibras das 403 amostras também foram determinados, de acordo com as premissas do Anexo B da norma brasileira ABNT NBR 7190 (1997). Foi proposto um modelo de regressão multivariável e testado utilizando análise de variância (ANOVA), ao nível de significância de 5%, para estimar as três propriedades citadas, em função dos parâmetros colorimétricos e do número anéis de crescimento (quantidades de lenho inicial e lenho tardio). Os resultados indicaram que a madeira apresenta coloração branco-amarelada, pois possui valor de luminosidade (L) superior a 54. A pigmentação amarela (b) é a principal responsável pela formação das cores no gênero Pinus. A análise de correlação entre cor, número de lenhos (Nle) e densidade revelou que apenas a luminosidade, o número de lenhos e a interação desses fatores afetaram significativamente os valores de densidade. A diminuição da luminosidade e o aumento na quantidade de lenhos implicam um aumento significativo nos valores de densidade da madeira. A análise de correlação entre cor, número de lenhos e módulo de elasticidade revelou que apenas o número de lenhos afetou significativamente os valores do módulo de elasticidade. O aumento no número lenhos implica aumento significativo no módulo de elasticidade na compressão paralela às fibras. A análise de correlação entre cor, número de lenhos e resistência à compressão paralela às fibras mostrou que apenas os fatores L, a, b e as interações L·b, a·b, afetaram significativamente os valores da resistência. A interação entre os fatores L* e b* implicou na redução dos valores da resistência à compressão paralela às fibras. A técnica de colorimetria mostrou-se adequada para a estimativa de propriedades físico-mecânicas da madeira. / The possibility of using the colorimetric technique to obtain relevant information of Pinus pieces is an excellent alternative, since the colorimeter is an equipment of easy handling and quick data acquisition, and the use of wood from planted forests is growing in Brazil. This research aims to generate regression models to estimate the wood density and mechanical properties (strength and modulus of elasticity) as a function of colorimetric parameters. Here, 403 pieces of Pinus sp. have been characterized according to the CIE Lab* system using a Konica Minolta colorimeter. The apparent density, the compression parallel to the grain strength and the modulus of elasticity in the compression parallel to the grain of the 403 samples were also determined, according to the assumptions of Brazilian standard code ABNT NBR 7190 (1997). It was proposed a multivariate regression model and tested using analysis of variance (ANOVA), at 5% significance level, to estimate the density, the compressive strength and the modulus of elasticity as a function of the colorimetric parameters and the number of tree growth rings (earlywood and latewood). Results indicated that the wood has a yellowish-white coloration, with a value of brightness (L) higher than 54. The yellow pigmentation (b) is the main responsible for the color formation of the genus Pinus. Correlation analysis among color, number of tree growth rings (Nle) and density showed that only the brightness, the number of tree growth rings and the interaction of these factors affected significantly the values of density. Decreasing in brightness and increasing in the number tree growth rings implies a significant increasing in wood density values. Correlation analysis among color, number of tree growth rings and modulus of elasticity showed that only the number of tree growth rings affected significantly the values of modulus of elasticity. Increasing in the number tree growth rings implies a significant increasing in the modulus of elasticity. Correlation analysis among color, number of tree growth rings and compression parallel to the grain strength showed that only the factors L, a, b* and the interactions L* ·b, a· b, affected significantly the values of strength. The interaction between the factors L and b* implied the reduction of the values of the compression parallel to the grain strength. The colorimetric technique was appropriated for estimative of physico-mechanical properties of wood. Pinus Colorimetria Modelos de regressão Propriedades mecânicas Pinus Colorimetry Mechanical properties Regression models
299	Indicadores socioeconômicos como determinantes do nível de corrupção nos municípios brasileiros: uma análise a partir de regressão espacial Orth, Camila Flores 24 August 2012 (has links) Submitted by Maicon Juliano Schmidt (maicons) on 2015-04-08T12:50:39Z No. of bitstreams: 1 Camila Flores Orth.pdf: 2246948 bytes, checksum: 8066e9a1d139e4e2b3ecd4e2ff6d1e61 (MD5) / Made available in DSpace on 2015-04-08T12:50:39Z (GMT). No. of bitstreams: 1 Camila Flores Orth.pdf: 2246948 bytes, checksum: 8066e9a1d139e4e2b3ecd4e2ff6d1e61 (MD5) Previous issue date: 2012-08-24 / Nenhuma / A análise regional dos determinantes da corrupção faz com que elementos histórico-culturais e políticos sejam mais homogêneos, tornando os fatores socioeconômicos mais importantes. Assim, esta dissertação procurou determinar e analisar os fatores socioeconômicos da corrupção em nível municipal no Brasil. Para isso, utilizaram-se dados do Programa de Fiscalização de Recursos Federais a partir de Sorteios Públicos da Controladoria Geral da União (CGU) de municípios auditados entre 2006 e 2010. Para esta análise utiliza-se a avaliação por um modelo de regressão espacial. Os resultados obtidos através do estudo apontam para uma alta dependência espacial nos dados, indicando que, neste caso, o modelo de regressão espacial é o mais correto. Além disso, as variáveis mais significativas como determinantes da corrupção foram o número de beneficiários do Programa Bolsa Família (utilizada como proxy para pobreza), a taxa de analfabetismo de pessoas entre 7 e 14 anos e o valor do PIB da agricultura municipal, que apresentaram correlação positiva com o nível de irregularidades. Ainda, outras duas variáveis socioeconômicas apresentaram significância estatística em pelo menos um dos modelos testados, as despesas de investimento, com correlação negativa, e a parcela de mulheres entre 10 e 14 anos que tiveram filhos, com sinal positivo. / Regional analysis of the determinants of corruption makes historical, cultural and political factors more homogeneous, making socioeconomic factors as the most important. This dissertation aimed to determine and analyze the socioeconomic factors of corruption at the municipal level in Brazil. For this, it was used data from a anti-corruption program based on the random auditing of municipal government’s expenditure, called in portuguese Programa de Fiscalização de Recursos Federais a partir de Sorteios Públicos, implemented by the Controladoria Geral da União (CGU) of municipalities audited between 2006 and 2010. For this analysis we use the evaluation by a spatial regression model. The results obtained from the study show a high spatial dependence in the data, indicating that in this case, the spatial regression model is more indicated. Moreover, the most significant variables as determinants of corruption is poverty (measured by the number of beneficiaries of the Program Bolsa Família), the illiteracy rate of people between 7 and 14 years and the value of GDP of agriculture, which correlated positively with the level of corruption. Still, two other socioeconomic variables showed statistical significance in at least one of the models tested, the investment expenditure, with negative correlation, and the share of women between 10 and 14 years who had children, with a positive sign. Corrupção Determinantes socioeconômicos Regressão espacial Corruption Socioeconomic determinants Spatial regression
300	Um estudo investigativo de algoritmos de regressão para data streams Nunes, André Luís 28 March 2017 (has links) Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2017-06-13T14:22:04Z No. of bitstreams: 1 André Luís Nunes_.pdf: 2523682 bytes, checksum: 5e3899cfac6d76db6b2c6ac16b7f5325 (MD5) / Made available in DSpace on 2017-06-13T14:22:04Z (GMT). No. of bitstreams: 1 André Luís Nunes_.pdf: 2523682 bytes, checksum: 5e3899cfac6d76db6b2c6ac16b7f5325 (MD5) Previous issue date: 2017-03-28 / Nenhuma / A explosão no volume de dados e a sua velocidade de expansão tornam as tarefas de descoberta do conhecimento e a análise de dados desafiantes, ainda mais quando consideradas bases não-estacionárias. Embora a predição de valores futuros exerça papel fundamental em áreas como: o clima, problemas de roteamentos e economia, entre outros, a classificação ainda parece ser a tarefa mais explorada. Recentemente, alguns algoritmos voltados à regressão de valores foram lançados, como por exemplo: FIMT-DD, AMRules, IBLStreams e SFNRegressor, entretanto seus estudos investigativos exploraram mais aspectos de inovação e análise do erro de predição, do que explorar suas capacidades mediante critérios apontados como fundamentais para data stream, como tempo de execução e memória. Dessa forma, o objetivo deste trabalho é apresentar um estudo investigativo sobre estes algoritmos que tratam regressão, considerando ambientes dinâmicos, utilizando bases de dados massivas, além de explorar a capacidade de adaptação dos algoritmos com a presença de concept drift. Para isto três bases de dados foram analisadas e estendidas para explorar os principais critérios de avaliação adotados, sendo realizada uma ampla experimentação que produziu uma comparação dos resultados obtidos frente aos algoritmos escolhidos, possibilitando gerar indicativos do comportamento de cada um mediante os diferentes cenários a que foram expostos. Assim, como principais contribuições deste trabalho são destacadas: a avaliação de critérios fundamentais: memória, tempo de execução e poder de generalização, relacionados a regressão para data stream; produção de uma análise crítica dos algoritmos investigados; e a possibilidade de reprodução e extensão dos estudos realizados pela disponibilização das parametrizações empregadas / The explosion of data volume and its expansion speed make tasks of finding knowledge and analyzing data challenging, even more so when non-stationary bases are considered. Although the future values prediction plays a fundamental role in areas such as climate, routing problems and economics, among others, classification seems to be still the most exploited task. Recently, some value-regression algorithms have been launched, for example: FIMT-DD, AMRules, IBLStreams and SFNRegressor; however, their investigative studies have explored more aspects of innovation and analysis of error prediction than exploring their capabilities through criteria that are considered fundamental to data stream, such as elapsed time and memory. In this way, the objective of this work is to present an investigative study about these algorithms that treat regression considering dynamic environments, using massive databases, and also explore the algorithm's adaptability capacity with the presence of concept drift. In order to do this, three databases were analyzed and extended to explore the main evaluation criteria adopted. A wide experiment was carried out, which produced a comparison of the results obtained with the chosen algorithms, allowing to generate behavior indication of each one through the different scenarios to which were exposed. Thus, the main contributions of this work are: evaluation of fundamental criteria: memory, execution time and power of generalization, related to regression to data stream; production of a critical analysis of the algorithms investigated; and the possibility of reproducing and extending the studies carried out by making available the parametrizations applyed. Mineração de data stream Regressão Concept drift Data stream mining Regression

Search results