Spelling suggestions: "subject:"nearestneighbors c.method"" "subject:"nearestneighbors 20method""
1 |
使用最近鄰域法預測匯率—以美元兌新台幣為例 / Predicting exchange rates with nearest-neighbors method: The case of NTD/USD郭依帆 Unknown Date (has links)
建立模型來估計匯率早已行之有年。較早期的匯率模型,不論是在樣本內的配適或是樣本外的預測,其實表現的並不理想。之後的研究針對這樣的結果指出,這是因為匯率的表現是非線性的,並非傳統線性模型可描繪出來。而對於捕捉匯率非線性的特性,傾向使用無母數的估計方式。因此,本研究採用最近鄰域法進行美元兌新台幣的匯率預測。另外,許多早期的研究發現,隨機漫步模型與其他模型相比較之後,在匯率預測上的表現最好,因而引發了”打敗隨機漫步”的一連串熱潮。本研究欲延續這項議題,將隨機漫步模型做為與最近鄰域模型比較的基準。 / 本研究使用的資料為即期匯率,包含日資料、週資料和月資料三種。將每種資料皆切割為樣本內與樣本外兩個部分,其中最後三分之一的樣本數用於樣本外預測。平均絕對誤差與平均誤差平方根則是用來衡量比較模型預測的準確性。實證結果發現,使用局部加權估計的最近鄰域模型在樣本內的配適表現上優於隨機漫步模型;然而,在樣本外的預測能力上,隨機漫步模型仍舊略勝一籌。 / A wide variety of empirical exchange rate models have been estimated over the years. Earlier findings indicated that exchange rate equations do not fit particularly well, and forecast no better. Later researches then provided a potential reason for the poor performance that traditional exchange rate models, because they are nonlinear. To find a resolution for nonlinearity, nonparametric techniques tend to be useful tools. In this study, we use one of nonparametric techniques called nearest-neighbors method to predict NTD against USD. Besides, many earlier papers found that forecasts from popular models for the foreign exchange rate generally fail to improve upon the random walk out-of-sample. “Beat the random walk” became an emerging issue then. This has motivated this research, and thus we include the random walk as a linear benchmark. / The data set consists of the daily, weekly and monthly spot rates for NTD/USD. We divide each data set into a fitting set and a prediction set for in-sample analysis and out-of-sample forecast, respectively. The out-of-sample forecasts are calculated from the last one-third of each series. As a measure of performance the mean squared error (MAE) and root mean squared error (RMSE) are used. In our empirical results, we find that nearest-neighbors model using local weights easily tops the random walk in-sample. However, as we turn to the out-of-sample prediction, no models produce forecasts superior to the random walk. It seems difficult to beat the random walk out-of-sample in this study.
|
2 |
Kombination von terrestrischen Aufnahmen und Fernerkundungsdaten mit Hilfe der kNN-Methode zur Klassifizierung und Kartierung von Wäldern / Combination of field data and remote sensing data with the knn-method (k-nearest neighbors method) for classification and mapping of forestsStümer, Wolfgang 30 August 2004 (has links) (PDF)
Bezüglich des Waldes hat sich in den letzten Jahren seitens der Politik und Wirtschaft ein steigender Informationsbedarf entwickelt. Zur Bereitstellung dieses Bedarfes stellt die Fernerkundung ein wichtiges Hilfsmittel dar, mit dem sich flächendeckende Datengrundlagen erstellen lassen. Die k-nächsten-Nachbarn-Methode (kNN-Methode), die terrestrische Aufnahmen mit Fernerkundungsdaten kombiniert, stellt eine Möglichkeit dar, diese Datengrundlage mit Hilfe der Fernerkundung zu verwirklichen. Deshalb beschäftigt sich die vorliegende Dissertation eingehend mit der kNN-Methode. An Hand der zwei Merkmale Grundfläche (metrische Daten) und Totholz (kategoriale Daten) wurden umfangreiche Berechnungen durchgeführt, wobei verschiedenste Variationen der kNN-Methode berücksichtigt wurden. Diese Variationen umfassen verschiedenste Einstellungen der Distanzfunktion, der Wichtungsfunktion und der Anzahl k-nächsten Nachbarn. Als Fernerkundungsdatenquellen kamen Landsat- und Hyperspektraldaten zum Einsatz, die sich sowohl von ihrer spektralen wie auch ihrer räumlichen Auflösung unterscheiden. Mit Hilfe von Landsat-Szenen eines Gebietes von verschiedenen Zeitpunkten wurde außerdem der multitemporale Ansatz berücksichtigt. Die terrestrische Datengrundlage setzt sich aus Feldaufnahmen mit verschiedenen Aufnahmedesigns zusammen, wobei ein wichtiges Kriterium die gleichmäßige Verteilung von Merkmalswerten (z.B. Grundflächenwerten) über den Merkmalsraum darstellt. Für die Durchführung der Berechnungen wurde ein Programm mit Visual Basic programmiert, welches mit der Integrierung aller Funktionen auf der Programmoberfläche eine benutzerfreundliche Bedienung ermöglicht. Die pixelweise Ausgabe der Ergebnisse mündete in detaillierte Karten und die Verifizierung der Ergebnisse wurde mit Hilfe des prozentualen Root Mean Square Error und der Bootstrap-Methode durchgeführt. Die erzielten Genauigkeiten für das Merkmal Grundfläche liegen zwischen 35 % und 67 % (Landsat) bzw. zwischen 65 % und 67 % (HyMapTM). Für das Merkmal Totholz liegen die Übereinstimmungen zwischen den kNN-Schätzern und den Referenzwerten zwischen 60,0 % und 73,3 % (Landsat) und zwischen 60,0 % und 63,3 % (HyMapTM). Mit den erreichten Genauigkeiten bietet sich die kNN-Methode für die Klassifizierung von Beständen bzw. für die Integrierung in Klassifizierungsverfahren an. / Mapping forest variables and associated characteristics is fundamental for forest planning and management. The following work describes the k-nearest neighbors (kNN) method for improving estimations and to produce maps for the attributes basal area (metric data) and deadwood (categorical data). Several variations within the kNN-method were tested, including: distance metric, weighting function and number of neighbors. As sources of remote sensing Landsat TM satellite images and hyper spectral data were used, which differ both from their spectral as well as their spatial resolutions. Two Landsat scenes from the same area acquired September 1999 and 2000 regard multiple approaches. The field data for the kNN- method comprise tree field measurements which were collected from the test site Tharandter Wald (Germany). The three field data collections are characterized by three different designs. For the kNN calculation a program with integration all kNN functions were developed. The relative root mean square errors (RMSE) and the Bootstrap method were evaluated in order to find optimal parameters. The estimation accuracy for the attribute basal area is between 35 % and 67 % (Landsat) and 65 % and 67 % (HyMapTM). For the attribute deadwood is the accuracy between 60 % and 73 % (Landsat) and 60 % and 63 % (HyMapTM). Recommendations for applying the kNN method for mapping and regional estimation are provided.
|
3 |
Kombination von terrestrischen Aufnahmen und Fernerkundungsdaten mit Hilfe der kNN-Methode zur Klassifizierung und Kartierung von WäldernStümer, Wolfgang 24 August 2004 (has links)
Bezüglich des Waldes hat sich in den letzten Jahren seitens der Politik und Wirtschaft ein steigender Informationsbedarf entwickelt. Zur Bereitstellung dieses Bedarfes stellt die Fernerkundung ein wichtiges Hilfsmittel dar, mit dem sich flächendeckende Datengrundlagen erstellen lassen. Die k-nächsten-Nachbarn-Methode (kNN-Methode), die terrestrische Aufnahmen mit Fernerkundungsdaten kombiniert, stellt eine Möglichkeit dar, diese Datengrundlage mit Hilfe der Fernerkundung zu verwirklichen. Deshalb beschäftigt sich die vorliegende Dissertation eingehend mit der kNN-Methode. An Hand der zwei Merkmale Grundfläche (metrische Daten) und Totholz (kategoriale Daten) wurden umfangreiche Berechnungen durchgeführt, wobei verschiedenste Variationen der kNN-Methode berücksichtigt wurden. Diese Variationen umfassen verschiedenste Einstellungen der Distanzfunktion, der Wichtungsfunktion und der Anzahl k-nächsten Nachbarn. Als Fernerkundungsdatenquellen kamen Landsat- und Hyperspektraldaten zum Einsatz, die sich sowohl von ihrer spektralen wie auch ihrer räumlichen Auflösung unterscheiden. Mit Hilfe von Landsat-Szenen eines Gebietes von verschiedenen Zeitpunkten wurde außerdem der multitemporale Ansatz berücksichtigt. Die terrestrische Datengrundlage setzt sich aus Feldaufnahmen mit verschiedenen Aufnahmedesigns zusammen, wobei ein wichtiges Kriterium die gleichmäßige Verteilung von Merkmalswerten (z.B. Grundflächenwerten) über den Merkmalsraum darstellt. Für die Durchführung der Berechnungen wurde ein Programm mit Visual Basic programmiert, welches mit der Integrierung aller Funktionen auf der Programmoberfläche eine benutzerfreundliche Bedienung ermöglicht. Die pixelweise Ausgabe der Ergebnisse mündete in detaillierte Karten und die Verifizierung der Ergebnisse wurde mit Hilfe des prozentualen Root Mean Square Error und der Bootstrap-Methode durchgeführt. Die erzielten Genauigkeiten für das Merkmal Grundfläche liegen zwischen 35 % und 67 % (Landsat) bzw. zwischen 65 % und 67 % (HyMapTM). Für das Merkmal Totholz liegen die Übereinstimmungen zwischen den kNN-Schätzern und den Referenzwerten zwischen 60,0 % und 73,3 % (Landsat) und zwischen 60,0 % und 63,3 % (HyMapTM). Mit den erreichten Genauigkeiten bietet sich die kNN-Methode für die Klassifizierung von Beständen bzw. für die Integrierung in Klassifizierungsverfahren an. / Mapping forest variables and associated characteristics is fundamental for forest planning and management. The following work describes the k-nearest neighbors (kNN) method for improving estimations and to produce maps for the attributes basal area (metric data) and deadwood (categorical data). Several variations within the kNN-method were tested, including: distance metric, weighting function and number of neighbors. As sources of remote sensing Landsat TM satellite images and hyper spectral data were used, which differ both from their spectral as well as their spatial resolutions. Two Landsat scenes from the same area acquired September 1999 and 2000 regard multiple approaches. The field data for the kNN- method comprise tree field measurements which were collected from the test site Tharandter Wald (Germany). The three field data collections are characterized by three different designs. For the kNN calculation a program with integration all kNN functions were developed. The relative root mean square errors (RMSE) and the Bootstrap method were evaluated in order to find optimal parameters. The estimation accuracy for the attribute basal area is between 35 % and 67 % (Landsat) and 65 % and 67 % (HyMapTM). For the attribute deadwood is the accuracy between 60 % and 73 % (Landsat) and 60 % and 63 % (HyMapTM). Recommendations for applying the kNN method for mapping and regional estimation are provided.
|
4 |
Apprentissage statistique avec le processus ponctuel déterminantalVicente, Sergio 02 1900 (has links)
Cette thèse aborde le processus ponctuel déterminantal, un modèle probabiliste qui capture
la répulsion entre les points d’un certain espace. Celle-ci est déterminée par une matrice
de similarité, la matrice noyau du processus, qui spécifie quels points sont les plus similaires
et donc moins susceptibles de figurer dans un même sous-ensemble. Contrairement à la sélection
aléatoire uniforme, ce processus ponctuel privilégie les sous-ensembles qui contiennent
des points diversifiés et hétérogènes. La notion de diversité acquiert une importante grandissante
au sein de sciences comme la médecine, la sociologie, les sciences forensiques et les
sciences comportementales. Le processus ponctuel déterminantal offre donc une alternative
aux traditionnelles méthodes d’échantillonnage en tenant compte de la diversité des éléments
choisis. Actuellement, il est déjà très utilisé en apprentissage automatique comme modèle de
sélection de sous-ensembles. Son application en statistique est illustrée par trois articles. Le
premier article aborde le partitionnement de données effectué par un algorithme répété un
grand nombre de fois sur les mêmes données, le partitionnement par consensus. On montre
qu’en utilisant le processus ponctuel déterminantal pour sélectionner les points initiaux de
l’algorithme, la partition de données finale a une qualité supérieure à celle que l’on obtient
en sélectionnant les points de façon uniforme. Le deuxième article étend la méthodologie
du premier article aux données ayant un grand nombre d’observations. Ce cas impose un
effort computationnel additionnel, étant donné que la sélection de points par le processus
ponctuel déterminantal passe par la décomposition spectrale de la matrice de similarité qui,
dans ce cas-ci, est de grande taille. On présente deux approches différentes pour résoudre ce
problème. On montre que les résultats obtenus par ces deux approches sont meilleurs que
ceux obtenus avec un partitionnement de données basé sur une sélection uniforme de points.
Le troisième article présente le problème de sélection de variables en régression linéaire et
logistique face à un nombre élevé de covariables par une approche bayésienne. La sélection
de variables est faite en recourant aux méthodes de Monte Carlo par chaînes de Markov,
en utilisant l’algorithme de Metropolis-Hastings. On montre qu’en choisissant le processus
ponctuel déterminantal comme loi a priori de l’espace des modèles, le sous-ensemble final de
variables est meilleur que celui que l’on obtient avec une loi a priori uniforme. / This thesis presents the determinantal point process, a probabilistic model that captures
repulsion between points of a certain space. This repulsion is encompassed by a similarity
matrix, the kernel matrix, which selects which points are more similar and then less likely to
appear in the same subset. This point process gives more weight to subsets characterized by
a larger diversity of its elements, which is not the case with the traditional uniform random
sampling. Diversity has become a key concept in domains such as medicine, sociology,
forensic sciences and behavioral sciences. The determinantal point process is considered
a promising alternative to traditional sampling methods, since it takes into account the
diversity of selected elements. It is already actively used in machine learning as a subset
selection method. Its application in statistics is illustrated with three papers. The first
paper presents the consensus clustering, which consists in running a clustering algorithm
on the same data, a large number of times. To sample the initials points of the algorithm,
we propose the determinantal point process as a sampling method instead of a uniform
random sampling and show that the former option produces better clustering results. The
second paper extends the methodology developed in the first paper to large-data. Such
datasets impose a computational burden since sampling with the determinantal point process
is based on the spectral decomposition of the large kernel matrix. We introduce two methods
to deal with this issue. These methods also produce better clustering results than consensus
clustering based on a uniform sampling of initial points. The third paper addresses the
problem of variable selection for the linear model and the logistic regression, when the
number of predictors is large. A Bayesian approach is adopted, using Markov Chain Monte
Carlo methods with Metropolis-Hasting algorithm. We show that setting the determinantal
point process as the prior distribution for the model space selects a better final model than
the model selected by a uniform prior on the model space.
|
5 |
Выявление манипулятивных сделок на российском фондовом рынке : магистерская диссертация / Identification of the manipulative transactions on the Russian stock marketПлетнев, К. В., Pletnev, K. V. January 2018 (has links)
Final qualifying work (master's thesis) is devoted to the reserching of the methods of identifying the manipulations that undermine the effectiveness of the stock market. The subject of the research is the way of identifying manipulative transactions in the stock market of Russia. The main purpose of the research is the development of specific proposals and the selection of statistical methods relevant for the Russian stock market to improve the existing system of state control aimed at identifying various types and methods of manipulative trading in the stock market. In conclusion, practical steps for the strengthen of the stock market of the Russian Federation are formulated. / Выпускная квалификационная работа (магистерская диссертация) посвящена изучению методов выявления манипуляций, подрывающих эффективность фондового рынка. Предметом исследования выступают методы выявления манипулятивных сделок на российском фондовом рынке. Основной целью исследования выступает разработка конкретных предложений и выбор статистических методов, релевантных для российского фондового рынка, для совершенствования существующей системы государственного контроля, направленной на выявление различных видов и способов манипулятивной торговли на фондовом рынке. В заключении сформулированы практические шаги по укреплению фондового рынка Российской Федерации.
|
Page generated in 0.0622 seconds