Global ETD Search

51	Outlier detection by network flow Liu, Ying. January 2007 (has links) (PDF) Thesis (Ph. D.)--University of Alabama at Birmingham, 2007. / Additional advisors: Elliot J. Lefkowitz, Kevin D. Reilly, Robert Thacker, Chengcui Zhang. Description based on contents viewed Feb. 7, 2008; title from title screen. Includes bibliographical references (p. 125-132).
52	Advances in statistical inference and outlier related issues. Childs, Aaron Michael. Balakrishnan N. Unknown Date (has links) Thesis (Ph.D.)--McMaster University (Canada), 1996. / Source: Dissertation Abstracts International, Volume: 57-10, Section: B, page: 6347. Adviser: N. Balakrishnan.
53	Robust procedures for mediation analysis Zu, Jiyun. January 2009 (has links) Thesis (Ph. D.)--University of Notre Dame, 2009. / Thesis directed by Ke-Hai Yuan for the Department of Psychology. "July 2009." Includes bibliographical references (leaves 151-155).
54	Robust algorithms for linear regression and locally linear embedding / Algoritmos robustos para regressão linear e locally linear embedding Rettes, Julio Alberto Sibaja January 2017 (has links) RETTES, Julio Alberto Sibaja. Robust algorithms for linear regression and locally linear embedding. 2017. 105 f. Dissertação (Mestrado em Ciência da Computação)- Universidade Federal do Ceará, Fortaleza, 2017. / Submitted by Weslayne Nunes de Sales (weslaynesales@ufc.br) on 2017-03-30T13:15:27Z No. of bitstreams: 1 2017_dis_rettesjas.pdf: 3569500 bytes, checksum: 46cedc2d9f96d0f58bcdfe3e0d975d78 (MD5) / Approved for entry into archive by Rocilda Sales (rocilda@ufc.br) on 2017-04-04T11:10:44Z (GMT) No. of bitstreams: 1 2017_dis_rettesjas.pdf: 3569500 bytes, checksum: 46cedc2d9f96d0f58bcdfe3e0d975d78 (MD5) / Made available in DSpace on 2017-04-04T11:10:44Z (GMT). No. of bitstreams: 1 2017_dis_rettesjas.pdf: 3569500 bytes, checksum: 46cedc2d9f96d0f58bcdfe3e0d975d78 (MD5) Previous issue date: 2017 / Nowadays a very large quantity of data is flowing around our digital society. There is a growing interest in converting this large amount of data into valuable and useful information. Machine learning plays an essential role in the transformation of data into knowledge. However, the probability of outliers inside the data is too high to marginalize the importance of robust algorithms. To understand that, various models of outliers are studied. In this work, several robust estimators within the generalized linear model for regression framework are discussed and analyzed: namely, the M-Estimator, the S-Estimator, the MM-Estimator, the RANSAC and the Theil-Sen estimator. This choice is motivated by the necessity of examining algorithms with different working principles. In particular, the M-, S-, MM-Estimator are based on a modification of the least squares criterion, whereas the RANSAC is based on finding the smallest subset of points that guarantees a predefined model accuracy. The Theil Sen, on the other hand, uses the median of least square models to estimate. The performance of the estimators under a wide range of experimental conditions is compared and analyzed. In addition to the linear regression problem, the dimensionality reduction problem is considered. More specifically, the locally linear embedding, the principal component analysis and some robust approaches of them are treated. Motivated by giving some robustness to the LLE algorithm, the RALLE algorithm is proposed. Its main idea is to use different sizes of neighborhoods to construct the weights of the points; to achieve this, the RAPCA is executed in each set of neighbors and the risky points are discarded from the corresponding neighborhood. The performance of the LLE, the RLLE and the RALLE over some datasets is evaluated. / Na atualidade um grande volume de dados é produzido na nossa sociedade digital. Existe um crescente interesse em converter esses dados em informação útil e o aprendizado de máquinas tem um papel central nessa transformação de dados em conhecimento. Por outro lado, a probabilidade dos dados conterem outliers é muito alta para ignorar a importância dos algoritmos robustos. Para se familiarizar com isso, são estudados vários modelos de outliers. Neste trabalho, discutimos e analisamos vários estimadores robustos dentro do contexto dos modelos de regressão linear generalizados: são eles o M-Estimator, o S-Estimator, o MM-Estimator, o RANSAC e o Theil-Senestimator. A escolha dos estimadores é motivada pelo principio de explorar algoritmos com distintos conceitos de funcionamento. Em particular os estimadores M, S e MM são baseados na modificação do critério de minimização dos mínimos quadrados, enquanto que o RANSAC se fundamenta em achar o menor subconjunto que permita garantir uma acurácia predefinida ao modelo. Por outro lado o Theil-Sen usa a mediana de modelos obtidos usando mínimos quadradosno processo de estimação. O desempenho dos estimadores em uma ampla gama de condições experimentais é comparado e analisado. Além do problema de regressão linear, considera-se o problema de redução da dimensionalidade. Especificamente, são tratados o Locally Linear Embedding, o Principal ComponentAnalysis e outras abordagens robustas destes. É proposto um método denominado RALLE com a motivação de prover de robustez ao algoritmo de LLE. A ideia principal é usar vizinhanças de tamanhos variáveis para construir os pesos dos pontos; para fazer isto possível, o RAPCA é executado em cada grupo de vizinhos e os pontos sob risco são descartados da vizinhança correspondente. É feita uma avaliação do desempenho do LLE, do RLLE e do RALLE sobre algumas bases de dados. Outliers Estatística robusta Regressão linear Redução da dimensionalidade Locally Linear Embedding
55	Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados / A framework for online detection of outliers in clusters of continuous data streaming Pereira, Mariana Alves 31 July 2017 (has links) Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2018-02-27T14:32:20Z No. of bitstreams: 1 texto completo.pdf: 1919837 bytes, checksum: 88b24ab33cb2eb64595fbfbf8ffeb254 (MD5) / Made available in DSpace on 2018-02-27T14:32:20Z (GMT). No. of bitstreams: 1 texto completo.pdf: 1919837 bytes, checksum: 88b24ab33cb2eb64595fbfbf8ffeb254 (MD5) Previous issue date: 2017-07-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Avanços da tecnologia acarretam na geração rápida e contínua de massivas quantida- des de dados. Tal cenário requer a criação de algoritmos de agrupamento incremen- tais para extração de conhecimento. Entre as restrições impostas a esses algoritmos, os mesmos devem ser capazes de detectar e tratar possíveis outliers que chegam ao fluxo. O arcabouço desenvolvido nesse trabalho apresenta uma estratégia para a restrição de tratamento e detecção de outliers na componente online dos algoritmos de agrupamento de fluxo de dados. A principal contribuição da proposta em estudo é a capacidade de validar possíveis outliers detectados previamente, com o intuito de manter um modelo sempre atualizado e com qualidade. Para isso, todos os potenci- ais outliers são armazenados em uma memória auxiliar que de tempos em tempos é verificada, agrupando seus objetos, validando os micro-grupos formados por inliers e inserindo-os no modelo. Todos os objetos restantes que não foram validados, são mantidos na memória auxiliar até que se tornem válidos ou obsoletos. Em seguida, objetos obsoletos são removidos. Este trabalho também propõe o CluStreamOD, uma extensão do algoritmo de agrupamento CluStream, que aplica a estratégia em estudo em sua componente online, para tratar outliers. Os experimentos realizados mostram a eficácia do CluStreamOD para detecção e tratamento online de outliers do fluxo em comparação com CluStream, e a potencialidade da abordagem proposta para ser aplicada em outros algoritmos de fluxo de dados baseados em micro-grupos. / Advances in technology have led to the rapid and continuous generation of massive amounts of data. Such a scenario requires the creation of incremental clustering algorithms for knowledge extraction. Among the constraints imposed on these al- gorithms, they must be able to detect and treat possible outliers that arrive at the flow. The framework developed in this work presents a strategy for the restriction of treatment and detection of outliers in the online component of the clustering algorithms in data stream. The main contribution of the proposal under study is the ability to validate possible outliers previously detected, in order to maintain a model that is always updated and with quality. For this, all the potential outliers are stored in an auxiliary memory when for time to time is verified, clustering its objects, validating the formed micro-clusters by inserting them into the model. All remaining objects that have not been validated are held in auxiliary memory until they become valid or obsolete. Then obsolete objects are removed. This work also proposes the CluStreamOD, an extension of the CluStream clustering algorithm, which applies the strategy under study in its component online, to treat outliers. Experiments carried out show the efficacy of the CluStreamOD for online detection and treatment of the outliers in the data streams compared to CluStream, and the potentiality of the proposed approach to be applied in other algorithms in data stream based on micro-clusters. Detecção de outliers Fluxos contínuos de dados Agrupamento Componente online Ciência da Computação
56	Seleção Ativa de Exemplos de Treinamento para Meta-Aprendizado Sousa, Arthur Fernandes Minduca de 29 July 2013 (has links) Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T11:54:25Z No. of bitstreams: 2 Dissertaçao Arthur Minduca.pdf: 1331924 bytes, checksum: c5fbf43c427a68b5d9b2a75d156766cb (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T11:54:25Z (GMT). No. of bitstreams: 2 Dissertaçao Arthur Minduca.pdf: 1331924 bytes, checksum: c5fbf43c427a68b5d9b2a75d156766cb (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-07-29 / Várias abordagens têm sido aplicadas à tarefa de seleção de algoritmos. Nesse contexto, Meta-Aprendizado surge como uma abordagem eficiente para predizer o desempenho de algoritmos adotando uma estratégia supervisionada. Os exemplos de treinamento de Meta-Aprendizado (ou meta-exemplos) são construídos a partir de um repositório de instâncias de problemas (como, por exemplo, um repositório de bases de dados de classificação). Cada meta-exemplo armazena características descritivas de uma instância de problema e um rótulo indicando o melhor algoritmo para o problema (empiricamente identificado entre um conjunto de algoritmos candidatos). Os melhores algoritmos para novos problemas podem ser preditos se baseando apenas em suas características descritivas, sem a necessidade de qualquer avaliação empírica adicional dos algoritmos candidatos. Apesar dos resultados Meta-Aprendizado requererem a implementação de um número suficiente de instâncias de problemas para produzir um conjunto rico de meta-exemplos. Abordagens recentes para gerar conjuntos de dados sintéticos ou manipulado foram adotados com sucesso no contexto de Meta-Aprendizado. Essas propostas incluem a abordagem de Datasetoids, que é uma técnica simples de manipulação de dados que permite a geração de novos conjuntos de dados a partir de bases existentes. Apesar dessas propostas produzirem dados relevantes para Meta-Aprendizado, eles podem eventualmente produzir instâncias de problemas redundantes ou até mesmo irrelevantes. Meta-Aprendizado Ativo surge nesse contexto para selecionar somente as instâncias mais informativas para a geração de meta-exemplos. Neste trabalho, investigamos o uso de Meta- Aprendizado Ativo combinado com Datasetoids, focando no uso do algoritmo Random forest em Meta-Aprendizado. Para selecionar as instâncias de problemas, implementamos um critério de incerteza baseado em entropia, específico para o Random forest. Também investigamos o uso de uma técnica de detecção de outliers a fim de remover a priori os problemas considerados outliers, objetivando melhorar o desempenho dos métodos de Aprendizagem Ativa. Nossos experimentos revelaram uma melhora no desempenho do Meta-Aprendizado e uma redução no custo computacional para a geração de meta-exemplos. Meta-Aprendizado Seleção de Algoritmos Aprendizagem Ativa Uncertainty Sampling Detecção de Outliers
57	Modelo de Regressão Elíptico Bivariado Intervalar Paula, Laura Vicuña Torres de 21 August 2015 (has links) Submitted by Irene Nascimento (irene.kessia@ufpe.br) on 2016-02-25T15:12:18Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Laura_Torres.pdf: 863817 bytes, checksum: 8fa460a07a7a29d10e0b7a64d4674663 (MD5) / Made available in DSpace on 2016-02-25T15:12:18Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Laura_Torres.pdf: 863817 bytes, checksum: 8fa460a07a7a29d10e0b7a64d4674663 (MD5) Previous issue date: 2015-08-21 / Facepe / A análisededadossimbólicos(ADS)éumaabordagemestatísticabastanteutili- zada emgrandesbasesdedadosetemcomocaracterísticaagregardadosemgruposde interesse.Essestiposdedadospodemserrepresentadosporintervalos,conjuntosdecate- gorias, distribuiçãodefrequência,distribuiçãodeprobabilidade,entreoutrostipos.Neste trabalho abordaremosdadossimbólicosdotipointervaloquesãocomumenteutilizados em aplicações nanceiras,mineraçãodedados,tráfegoderedes,dadoscon denciais,etc. Inicialmente,ummodeloderegressãoelípticobivariadointervalarqueconsideraacor- relação entreoslimitesinferioresesuperioresdeumavariávelsimbólicaintervalarfoi proposto.Derivamosafunção escore e amatrizdeinformaçãode Fisher. Ométodo de máximaverossimilhançafoidesenvolvidoparaestimaçãodosparâmetrosdomodelo proposto.EstudosdesimulaçãodeMonteCarloemqueavaliamosasensibilidadedoerro de previsãoquantoapresençadeintervalos outliers foram apresentados.Osresultados mostraram queomodelo tStudentbivariadointervalarémenossensívelnapresençade intervalos outliers do queomodelonormalbivariadointervalar.Umconjuntodedados reais foiutilizadoparailustrarametodologiaabordada / The symbolicdataanalysis(SDA)isastatisticalapproachwidelyusedinlargedata- bases andthatischaracterizedbyaggregatedataintointerestgroups.Thesedatatypes mayberepresentedbyintervals,setsofcategories,frequencydistribution,probabilitydis- tribution, amongothertypes.Inthispaperwediscusssymbolicdataofintervaltypethat are commonlyusedin nancialapplications,datamining,networktra c,con dential data, etc.First,anintervalbivariateellipticalregressionmodelthatconsidersthecorre- lation betweentheupperandlowerlimitsofanintervalsymbolicvariablewasproposed. WederivethescorefunctionandtheFisherinformationmatrix.Themaximumlikelihood methodwasdevelopedtoestimatetheparametersoftheproposedmodel.MonteCarlo simulationstudieswasperformedtoevaluatethesensitivityofthepredictiveerrorfor the presenceofoutliersintervals.Theresultsshowedthattheintervalbivariate t-Student modelislesssensitiveinpresenceofoutliersintervalsthantheintervalbivariatenormal model.Arealdatasetswasusedtoillustratethediscussedmethodology. Análise de dados simbólicos Intervalos outliers Modelo de regressão elíptico bivariadointervalar
58	SYMARMA: Um modelo dinâmico para dados temporais sob distribuição simétrica condicional Quintas Souto Maior, Vinicius 31 January 2012 (has links) Made available in DSpace on 2014-06-12T18:06:41Z (GMT). No. of bitstreams: 2 arquivo9499_1.pdf: 5395681 bytes, checksum: 1dc9a9e2691f13e03f2b904a6c35731d (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2012 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Modelos gaussianos de séries temporais ARMA têm sido largamente utilizados na literatura. Benjamin et al. (2003) estenderam estes modelos para variáveis pertencente a família de distribuição exponencial. Nesta mesma linha, Rocha e Cribari-Neto (2009) propuseram um modelo de série temporal para a classe de distribuições Beta. Nesse sentido, nós propomos o modelo autorregressivo de médias móveis simétrico (SYMARMA), um modelo dinâmico para variáveis aleatórias pertencentes à classe de distribuições simétricas que inclui tanto a dinâmica autorregressiva e de média móveis, como também permite inserir regressores no modelo. O modelo SYMARMA é construído a partir da classe de regressão simétrica só que agora, na especificação da média, temos uma componente adicional com termos autoregressivos e de médias móveis incluídos aditivamente. A estimação dos parâmetros do modelo SYMARMA é feita através da maximização do logaritmo da função de verossimilhança condicional usando um algoritmo de otimização não-linear, em particular utilizamos o algoritmo escore de Fisher. Estudos de simulação foram realizados para avaliar o desempenho e o comportamento do estimador de máxima verossimilhança condicional para os parâmetros do modelo e, para também avaliar o efeito da presença de outlier aditivo ou de inovação no ajuste e na previsão de observações futuras. Discutimos testes de hipóteses para os parâmetros do modelo. Aplicações com dados reais também serão apresentadas e discutidas Séries temporais Previsões Outliers Máxima verossimilhança condicional Distribuição simétrica ARMA
59	A Comparison of Five Robust Regression Methods with Ordinary Least Squares: Relative Efficiency, Bias and Test of the Null Hypothesis Anderson, Cynthia, 1962- 08 1900 (has links) A Monte Carlo simulation was used to generate data for a comparison of five robust regression estimation methods with ordinary least squares (OLS) under 36 different outlier data configurations. Two of the robust estimators, Least Absolute Value (LAV) estimation and MM estimation, are commercially available. Three authormodified variations on MM were also included (MM1, MM2, and MM3). Design parameters that were varied include sample size (n=60 and n=180), number of independent predictor variables (2, 3 and 6), outlier density (0%, 5% and 15%) and outlier location (2x,2y s, 8x8y s, 4x,8y s and 8x,4y s). Criteria on which the regression methods were measured are relative efficiency, bias and a test of the null hypothesis. Results indicated that MM2 was the best performing robust estimator on relative efficiency. The best performing estimator on bias was MM1. The best performing regression method on the test of the null hypothesis was MM2. Overall, the MM-type robust regression methods outperformed OLS and LAV on relative efficiency, bias, and the test of the null hypothesis. Regression analysis. Robust statistics. robust regression outliers robust statistics
60	Robust A-optimal Subsampling for Massive Data Robust Linear Regression Ziting Tang (8081000) 05 December 2019 (has links) <div>This thesis is concerned with massive data analysis via robust A-optimally efficient non-uniform subsampling. Motivated by the fact that massive data often contain outliers and that uniform sampling is not efficient, we give numerous sampling distributions by minimizing the sum of the component variances of the subsampling estimate. And these sampling distributions are robust against outliers. Massive data pose two computational bottlenecks. Namely, data exceed a computer’s storage space, and computation requires too long waiting time. The two bottle necks can be simultaneously addressed by selecting a subsample as a surrogate for the full sample and completing the data analysis. We develop our theory in a typical setting for robust linear regression in which the estimating functions are not differentiable. For an arbitrary sampling distribution, we establish consistency for the subsampling estimate for both fixed and growing dimension( as high dimensionality is common in massive data). We prove asymptotic normality for fixed dimension. We discuss the A-optimal scoring method for fast computing. We conduct large simulations to evaluate the numerical performance of our proposed A-optimal sampling distribution. Real data applications are also performed.</div> Statistics Robust Linear Models Outliers A-optimality subsampling massive data

Search results