Spelling suggestions: "subject:"forward search"" "subject:"dorward search""
1 |
Influência local com procura \"forward\" em modelos de regressão linear / Local influence with forward search in linear regression modelsBustamante, Juan Pablo Mamani 25 February 2015 (has links)
A identificação de observações influentes e/ou aberrantes de um conjunto de dados é conhecida como uma parte das análises de diagnóstico. Esta técnica de diagnóstico têm como uma das finalidades verificar a robustez de um modelo estatístico, pois a não identificação dos dados influentes pode afetar a análise ou obter resultados incorretos. As metodologias comumente utilizadas para o diagnóstico de observações influentes em modelos de regressão são métodos de influência global (Belsey et al., 1980). Cook (1986) introduziu um método geral para avaliar a influência local de pequenas perturbações no modelo estatístico ou nos dados, usando diferentes tipos de perturbações. Como complemento às técnicas de detecção de observações discrepantes, é proposto o método procura \\forward\", por Atkinson e Riani (2000), que é uma metodologia para detectar observações atípicas mascaradas. Neste trabalho, propomos o uso da influência local com procura \"forward\" na obtenção de observações mascaradas influentes considerando modelos de regressão linear. / The identification of influential and/or atypical observations in a data set is known as a part of the diagnostic analysis. One of the purposes of the diagnostic analysis is to verify the robustness of a statistical model, as the non-identification of influential observations can affect the analysis or may cause the obtainment of incorrect results. The most commonly used methodology for the diagnostic of influential observations in regression models are the global influence (Belsey et al., 1980). Cook (1986) introduced a general method to evaluate the local influence of small perturbations in the statistical model or in the data set using different perturbation schemes. As a complement to the techniques of detection atypical observations, it is proposed the forward search procedure by Atkinson e Riani (2000), which is a methodology to detect the masked atypical observations in a data set. In this work we propose the use of the local influence approach together with the forward search to obtain the masked influential observations in linear regression models.
|
2 |
Influência local com procura \"forward\" em modelos de regressão linear / Local influence with forward search in linear regression modelsJuan Pablo Mamani Bustamante 25 February 2015 (has links)
A identificação de observações influentes e/ou aberrantes de um conjunto de dados é conhecida como uma parte das análises de diagnóstico. Esta técnica de diagnóstico têm como uma das finalidades verificar a robustez de um modelo estatístico, pois a não identificação dos dados influentes pode afetar a análise ou obter resultados incorretos. As metodologias comumente utilizadas para o diagnóstico de observações influentes em modelos de regressão são métodos de influência global (Belsey et al., 1980). Cook (1986) introduziu um método geral para avaliar a influência local de pequenas perturbações no modelo estatístico ou nos dados, usando diferentes tipos de perturbações. Como complemento às técnicas de detecção de observações discrepantes, é proposto o método procura \\forward\", por Atkinson e Riani (2000), que é uma metodologia para detectar observações atípicas mascaradas. Neste trabalho, propomos o uso da influência local com procura \"forward\" na obtenção de observações mascaradas influentes considerando modelos de regressão linear. / The identification of influential and/or atypical observations in a data set is known as a part of the diagnostic analysis. One of the purposes of the diagnostic analysis is to verify the robustness of a statistical model, as the non-identification of influential observations can affect the analysis or may cause the obtainment of incorrect results. The most commonly used methodology for the diagnostic of influential observations in regression models are the global influence (Belsey et al., 1980). Cook (1986) introduced a general method to evaluate the local influence of small perturbations in the statistical model or in the data set using different perturbation schemes. As a complement to the techniques of detection atypical observations, it is proposed the forward search procedure by Atkinson e Riani (2000), which is a methodology to detect the masked atypical observations in a data set. In this work we propose the use of the local influence approach together with the forward search to obtain the masked influential observations in linear regression models.
|
3 |
Detecção de outlier como suporte para o controle estatístico do processo multivariado: um estudo de caso em uma empresa do setor plástico.Almeida Júnior, José de 29 August 2013 (has links)
Made available in DSpace on 2015-05-08T14:53:25Z (GMT). No. of bitstreams: 1
ArquivoTotalJoseAlmeida.pdf: 1891145 bytes, checksum: 15212c0ee3aea31416abaeb33cac710c (MD5)
Previous issue date: 2013-08-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The research project studied, aimed to apply a forward search algorithm to aid decision making in multivariate statistical process control in the manufacture of crates in a company of plastic products. Besides, the use of principal components analysis (PCA) and the Hotelling T square chart can summarize relevant information of this process. Thus, they were produced two results of considerable importance: the scores of the principal components and an adapted Hotelling T square chart, highlighting the relationship between the ten variables analyzed. The forward search algorithm detects discordant points of the data clustering rest that, when are too far away or have very different characteristics, are called outliers. The BACON algorithm was used for the detection of such occurrences, which part of a small subset demonstrably free of the original data outliers and it goes adding new information, which is not outliers, to this initial subset until no information can more be absorbed. One of the advantages of using this algorithm is that it combats the masking and swamping phenomena that alter the mean and covariance estimates. The research results showed that, for the dataset studied, the BACON algorithm did not detected no dissenting point. A simulation was then developed, using a uniform distribution by obtaining random numbers within a range for modifying the mean and standard deviation values, in order to show that this method is effective in detecting these outliers. For this simulation, they were randomly changed 5% of the mean and the standard deviation values of the original data. The result of this simulation showed that the BACON algorithm is perfectly applicable to this case study, being indicated its use in other processes that simultaneously depend on several variables. / O projeto de pesquisa estudado teve o objetivo de aplicar um algoritmo de busca sucessiva para o auxílio à tomada de decisão no controle estatístico do processo multivariado, na fabricação de garrafeiras em uma empresa de produtos plásticos. Além disso, a utilização das técnicas de análise de componentes principais (ACP) e da carta T² de Hotelling pode sumarizar parte das informações relevantes desse processo. Produziram-se então dois resultados de considerável importância: os escores dos componentes principais e um gráfico T² de Hotelling adaptado, evidenciando a relação entre as dez variáveis analisadas. O algoritmo de busca sucessiva detecta pontos discordantes do restante do agrupamento de dados que, quando se encontram muito distantes ou têm características muito diferentes, são denominados outliers. O algoritmo BACON foi utilizado para a detecção de tais ocorrências, o qual parte de um pequeno subconjunto, comprovadamente livre de outliers, dos dados originais e vai adicionando novas informações, que também não são outliers, a esse subconjunto inicial até que nenhuma informação possa mais ser absorvida. Uma das vantagens da utilização desse algoritmo é que ele combate os fenômenos do mascaramento e do esmagamento que alteram as estimativas da média e da covariância. Os resultados da pesquisa mostraram que, para a o conjunto de dados estudados, o algoritmo BACON não detectou nenhum ponto discordante. Uma simulação foi então desenvolvida, utilizando uma distribuição uniforme através da obtenção de números aleatórios dentro de um intervalo para a modificação dos valores da média e do desvio-padrão, a fim de mostrar que tal método é eficaz na detecção desses pontos aberrantes. Para essa simulação, foram alterados aleatoriamente os valores da média e do desvio-padrão de 5% dos dados originais. O resultado dessa simulação mostrou que o algoritmo BACON é perfeitamente aplicável ao caso estudado, sendo indicada a sua utilização em outros processos produtivos que dependam simultaneamente de diversas variáveis.
|
4 |
變數轉換之穩健迴歸分析張嘉璁 Unknown Date (has links)
在傳統的線性迴歸分析當中,當基本假設不滿足時,有時可考慮變數轉換使得資料能夠比較符合基本假設。在眾多的轉換方法當中,以Box和Cox(1964)所提出的乘冪轉換(Box-Cox power transformation)最為常用,乘冪轉換可將某些複雜的系統轉換成線性常態模式。然而當資料存在離群值(outlier)時,Box-Cox Transformation會受到影響,因此不是一種穩健方法。
在本篇論文當中,我們利用前進演算法(forward search algorithm)求得最小消去平方估計量(Least trimmed squares estimator),在過程當中估計出穩健的轉換參數。
|
5 |
變數轉換之離群值偵測 / Detection of Outliers with Data Transformation吳秉勳, David Wu Unknown Date (has links)
在迴歸分析中,當資料中存在很多離群值時,偵測的工作變得非常不容易。 在此狀況下,我們無法使用傳統的殘差分析正確地偵測出其是否存在,此現象稱為遮蔽效應(The Masking Effect)。 而為了避免此效應的發生,我們利用最小中位數穩健迴歸估計值(Least Median Squares Estimator)正確地找出這些群集離群值,此估計值擁有最大即50﹪的容離值 (Breakdown point)。 在這篇論文中,用來求出最小中位數穩健迴歸估計值的演算法稱為步進搜尋演算法 (the Forward Search Algorithm)。 結果顯示,我們可以利用此演算法得到的穩健迴歸估計值,很快並有效率的找出資料中的群集離群值;另外,更進一步的結果顯示,我們只需從資料中隨機選取一百次子集,並進行步進搜尋,即可得到概似的穩健迴歸估計值並正確的找出那些群集離群值。 最後,我們利用鐘乳石圖(Stalactite Plot)列出所有被偵測到的離群值。
在多變量資料中,我們若使用Mahalanobis距離也會遭遇到同樣的屏蔽效應。 而此一問題,隨著另一高度穩健估計值的採用,亦可迎刃而解。 此估計值稱為最小體積橢圓體估計值 (Minimum Volume Ellipsoid),其亦擁有最大即50﹪的容離值。 在此,我們也利用步進搜尋法求出此估計值,並利用鐘乳石圖列出所有被偵測到的離群值。
這篇論文的第二部分則利用變數轉換的技巧將迴歸資料中的殘差項常態化並且加強其等變異的特性以利後續的資料分析。 在步進搜尋進行的過程中,我們觀察分數統計量(Score Statistic)和其他相關診斷統計量的變化。 結果顯示,這些統計量一起提供了有關轉換參數選取豐富的資訊,並且我們亦可從步進搜尋進行的過程中觀察出某些離群值對參數選取的影響。 / Detecting regression outliers is not trivial when there are many of them. The methods of using classical diagnostic plots sometimes fail to detect them. This phenomenon is known as the masking effect. To avoid this, we propose to find out those multiple outliers by using a highly robust regression estimator called the least median squares (LMS) estimator which has maximal breakdown point. The algorithm in search of the LMS estimator is called the forward search algorithm. The estimator found by the forward search is shown to lead to the rapid detection of multiple outliers. Furthermore, the result reveals that 100 repeats of a simple forward search from a random starting subset are shown to provide sufficiently robust parameter estimators to reveal multiple outliers. Finally, those detected outliers are exhibited by the stalactite plot that shows greatly stable pattern of them.
Referring to multivariate data, the Mahalanobis distance also suffers from the masking effect that can be remedied by using a highly robust estimator called the minimum volume ellipsoid (MVE) estimator. It can also be found by using the forward search algorithm and it also has maximal breakdown point. The detected outliers are then displayed in the stalactite plot.
The second part of this dissertation is the transformation of regression data so that the approximate normality and the homogeneity of the residuals can be achieved. During the process of the forward search, we monitor the quantity of interest called score statistic and some other diagnostic plots. They jointly provide a wealth of information about transformation along with the effect of individual observation on this statistic.
|
Page generated in 0.0534 seconds