81 |
Optimización y Procesamiento Inteligente de Grandes Volúmenes de Datos CategóricosSalvador-Meneses, Jaime 11 June 2019 (has links)
El algoritmo de clasificación kNN (k-nearest neighbors) es uno de los métodos de clasificación no paramétrico más utilizados, sin embargo, está limitado debido al consumo de memoria relacionado con el tamaño del conjunto de datos, lo que hace poco práctica su aplicación a grandes volúmenes de datos. La investigación descrita en esta tesis fue motivada por la necesidad de una representación óptima de datos categóricos que puedan ser fácilmente incorporados en los algoritmos de aprendizaje automático que permiten un análisis y explotación inteligente de grandes volúmenes de datos. En esta tesis se propone el uso de un esquema de compresión a nivel de bits para comprimir el conjunto de datos de entrenamiento (training dataset) antes de entrenar un modelo de aprendizaje automático. Para utilizar el conjunto de datos, se propuso una descompresión en tiempo real que permite el uso del conjunto de datos sin necesidad de una descompresión completa. Para facilitar la incorporación del método de compresión propuesto en los frameworks de aprendizaje automático existentes, el método propuesto está alineado con el estándar Basic Linear Algebra Subprograms - BLAS de nivel 1 que define los bloques de construcción básicos en forma de funciones algebraicas. En particular, en esta tesis se propone el uso del algoritmo kNN para trabajar con datos categóricos comprimidos. El método propuesto permite mantener los datos comprimidos en memoria, con lo que se reduce drásticamente el consumo de memoria.
|
82 |
應用kNN文字探勘技術於分析新聞評論 影響股價漲跌趨勢之研究 / The Study of Analyzing Comments of News for Influence of Stock Price Trends Prediction by Using Knn Text Mining詹智勝, Chan, Chih Sheng Unknown Date (has links)
在網際網路快速發展下,大量使用者在獲取知識與新聞的管道,已由傳統媒體轉移到網路上。網路活動下使用者互動後所留下的訊息,也就是網路口碑,也逐漸受到重視。而隨著經濟發展,國人在固定薪資下無法負擔高房價、高物價的生活,如何透過投資理財來增加自身財富,已是非常普遍,其中又以股市投資為大眾所重視之途徑。
網路新聞的發布,除了具有網路的即時性外,配合使用者閱讀內化後所留下的評論,應含有比網路新聞本身內容更多的資訊,投資者便可藉此找尋隱含之中大量市場消息與資訊。
本研究為了在龐大的資料量中,幫助使用者挖掘其背後之涵義,進而提供投資預測,將蒐集網路新聞及其閱讀者評論共1068篇,並分為訓練資料與測試資料,使用文字探勘及相關技術做前處理,再透過kNN分群技術,計算訓練資料文件間相似度,將大量未知資料依其相似度做分群後,利用歷史股價訊息對群集結果之特徵分析解釋之並建立預測模型,最後透過測試資料將模型分群結果進行評估,進而對股價趨勢做出預測。 / With the rapid development of the Internet, the way of user access to knowledge and news transfer from traditional media to the network. Internet word-of-mouth, the message generated from users' interaction on internet, attracts more and more people's attention. With economic development, people in the fixed salary cannot afford high prices and high price in live. People increase their own wealth through investment is very common, among which the stock market is the way to public attention.
Internet news has the immediacy of the Internet. And the comments left with the user to read the internalization should contain more information than the Internet news. Investors can find the market news and information by Internet news and comments.
In this study, in order to help the user to find the meaning behind the huge amount of data, and thus provide investment forecast. We will collect 1068 of internet news and reader reviews to divide into training data and test data using text mining and related technologies to do the pre-treatment, and then calculate the similarity between the training data by kNN, a lot of unknown data according to their similarity clustering. Cluster through the historical share price analysis and modeling. Finally, the model clustering results were evaluated through the test data to predict price trends. The prediction model from training data clustering, use test data to do the evaluation found: k = 15, the similarity threshold value = 0.05, cluster the results of the F-measure performance up to 56% rise in the cluster. K values and the similarity threshold will be adjusted to obtain the most favorable results of the model
|
83 |
應用文字探勘技術於英文文章難易度分類 / The Classification of the Difficulty of English Articles with Text Mining許珀豪, Hsu, Po Hao Unknown Date (has links)
英語學習者如何能在普及的網路環境中,挑選難易度符合自身英文閱讀能力的文章,便是一個值得探討的議題。為了提升文章難易度分類的準確度,近代研究選取許多難易度特徵去分類。本研究希望能夠藉由英文語文難易度特徵、文字特徵,各自歸類和綜合歸類後與原先官方文章類別比較,檢驗是否可以利用語文特徵與文字特徵結合後的歸類結果,來提高準度。
本研究以GEPT的模擬試題文章作為歸類的依據。研究架構主要分成三部分:語文難易度特徵歸類、文字特徵歸類與綜合前兩者歸類。先以語文難易度特徵組成特徵向量的維度,並算出各語文特徵值後,再使用kNN將文章歸類成初級、中級或中高級,並做為比較準確度的依據;再以GEPT文章斷詞,並選取特徵詞作為特徵向量維度、TF-IDF作特徵值進行文字特徵歸類;最後則是將前面兩種特徵結合作為歸類標準。分別的F-measure為0.61、0.47,最後一個、也是表現最好的結果是以兩者結合後歸類,F-measure有0.68。
如何從大量的英文文章當中找到適合自己程度循序漸進的學習,是本論文期望未來可以藉由最後語文難易度特徵加上文字特徵的結果來達到的目的。未來可以結合語文難易度特徵以及文字特徵來幫助英文文章做分類,並可以從中分類出不同類別且不同程度的英文文章,讓使用者自行選擇並閱讀,使學習成效進而提升。 / It is rather an important issue that how to grasp the difficulty of the articles in order to efficiently choose the English articles that match our proficiency in the popularity of Internet. Recently, researchers have selected many characteristics of difficulty degrees in order to enhance the accuracy of the classification. The study aims to simplify the former complicated procedures of article classification by using the classification results of linguistic difficulty characteristics, text characteristics respectively, and the combination of the both; in the hope to raise the accuracy of the classification through the comparison of the results.
The article classification of the study is based on GEPT official practicing exams. There are three parts of this study: the characteristics of the linguistic difficulty and the text, and the combination of the both. First, the dimensions of the linguistic vectors will be the linguistic characteristics. The articles will be classified into primary, intermediate, or intermediate-high levels by kNN method, considered the comparison basis for the classification of the articles’ difficulty. Second, after GEPT articles are broken into words, the dimensions of the text vectors will be the selected words; the TF-IDF will be the values of the text vectors. The third part is to classify articles by using the combination of the former two results. After comparing the three, the best method is the third, the accuracy is 0.68.
The study hopes the result could help people choose proper English articles to learn English step by step. In the future, we could classify the articles by the combination of the both of linguistic difficulty characteristics and text characteristics. Not only classified as the different levels, but also classified as the different categories. The learners could choose what they like and the articles could correspond their degree in order to promote the effect of learning.
|
84 |
Kombination von terrestrischen Aufnahmen und Fernerkundungsdaten mit Hilfe der kNN-Methode zur Klassifizierung und Kartierung von Wäldern / Combination of field data and remote sensing data with the knn-method (k-nearest neighbors method) for classification and mapping of forestsStümer, Wolfgang 30 August 2004 (has links) (PDF)
Bezüglich des Waldes hat sich in den letzten Jahren seitens der Politik und Wirtschaft ein steigender Informationsbedarf entwickelt. Zur Bereitstellung dieses Bedarfes stellt die Fernerkundung ein wichtiges Hilfsmittel dar, mit dem sich flächendeckende Datengrundlagen erstellen lassen. Die k-nächsten-Nachbarn-Methode (kNN-Methode), die terrestrische Aufnahmen mit Fernerkundungsdaten kombiniert, stellt eine Möglichkeit dar, diese Datengrundlage mit Hilfe der Fernerkundung zu verwirklichen. Deshalb beschäftigt sich die vorliegende Dissertation eingehend mit der kNN-Methode. An Hand der zwei Merkmale Grundfläche (metrische Daten) und Totholz (kategoriale Daten) wurden umfangreiche Berechnungen durchgeführt, wobei verschiedenste Variationen der kNN-Methode berücksichtigt wurden. Diese Variationen umfassen verschiedenste Einstellungen der Distanzfunktion, der Wichtungsfunktion und der Anzahl k-nächsten Nachbarn. Als Fernerkundungsdatenquellen kamen Landsat- und Hyperspektraldaten zum Einsatz, die sich sowohl von ihrer spektralen wie auch ihrer räumlichen Auflösung unterscheiden. Mit Hilfe von Landsat-Szenen eines Gebietes von verschiedenen Zeitpunkten wurde außerdem der multitemporale Ansatz berücksichtigt. Die terrestrische Datengrundlage setzt sich aus Feldaufnahmen mit verschiedenen Aufnahmedesigns zusammen, wobei ein wichtiges Kriterium die gleichmäßige Verteilung von Merkmalswerten (z.B. Grundflächenwerten) über den Merkmalsraum darstellt. Für die Durchführung der Berechnungen wurde ein Programm mit Visual Basic programmiert, welches mit der Integrierung aller Funktionen auf der Programmoberfläche eine benutzerfreundliche Bedienung ermöglicht. Die pixelweise Ausgabe der Ergebnisse mündete in detaillierte Karten und die Verifizierung der Ergebnisse wurde mit Hilfe des prozentualen Root Mean Square Error und der Bootstrap-Methode durchgeführt. Die erzielten Genauigkeiten für das Merkmal Grundfläche liegen zwischen 35 % und 67 % (Landsat) bzw. zwischen 65 % und 67 % (HyMapTM). Für das Merkmal Totholz liegen die Übereinstimmungen zwischen den kNN-Schätzern und den Referenzwerten zwischen 60,0 % und 73,3 % (Landsat) und zwischen 60,0 % und 63,3 % (HyMapTM). Mit den erreichten Genauigkeiten bietet sich die kNN-Methode für die Klassifizierung von Beständen bzw. für die Integrierung in Klassifizierungsverfahren an. / Mapping forest variables and associated characteristics is fundamental for forest planning and management. The following work describes the k-nearest neighbors (kNN) method for improving estimations and to produce maps for the attributes basal area (metric data) and deadwood (categorical data). Several variations within the kNN-method were tested, including: distance metric, weighting function and number of neighbors. As sources of remote sensing Landsat TM satellite images and hyper spectral data were used, which differ both from their spectral as well as their spatial resolutions. Two Landsat scenes from the same area acquired September 1999 and 2000 regard multiple approaches. The field data for the kNN- method comprise tree field measurements which were collected from the test site Tharandter Wald (Germany). The three field data collections are characterized by three different designs. For the kNN calculation a program with integration all kNN functions were developed. The relative root mean square errors (RMSE) and the Bootstrap method were evaluated in order to find optimal parameters. The estimation accuracy for the attribute basal area is between 35 % and 67 % (Landsat) and 65 % and 67 % (HyMapTM). For the attribute deadwood is the accuracy between 60 % and 73 % (Landsat) and 60 % and 63 % (HyMapTM). Recommendations for applying the kNN method for mapping and regional estimation are provided.
|
85 |
Detektering och identifiering av sur mjölk och ruttet kött i ett kylskåp med hjälp av en elektronisk näsa.Alanko, Tobias January 2020 (has links)
Att hitta instrument för att efterlikna den mänskliga näsan har under en längre tid varit ett område som intresserar forskare. Dessa instrument kan potentiellt vara ett användbart verktyg för att uppnå FN:s uppsatta globala mål för att nå en hållbar utveckling, Agenda 2030. Projektet är en experimentell kvantitativ studie och syftet är att undersöka möjligheten att ta fram ett fristående mätsystem för detektering och identifiering av sur mjölk och ruttet kött i ett kylskåp. Ett trådlöst mätsystem med en serie gassensorer är framtaget tillsammans med ett gränssnitt för fjärrstyrning. Mätningar utfördes på kända mätobjekt under två veckor. Därefter utfördes mätningar på okända mätobjekt under lika lång tid. Resultatet från studien visade att det framtagna mätsystemet kan detektera och identifiera sur mjölk och ruttet kött utan extern programvara. Mätsystemet en tillförlitlighet på 89% när det gäller att klassificera okända mätobjekt. Denna studie visar att mätsystemet kan detektera och identifiera sur mjölk och ruttet kött via fjärrstyrning. / To find devices mimicking the human nose have under some time been an area of interest for researchers. These devices can potentially be a useful tool to achieve UN: s global goals for sustainable development, Agenda 2030. This project is an experimental quantitative study with the aim to investigate the possibility to create a stand-alone measuring system for detecting and identifying spoiled milk and rotten meat in a fridge. A wireless measuring system with an array of gas sensors was developed together with interface for remote control. Measurements was made from known measuring objects for two weeks. Thereafter measurements of unknown measuring objects were also done for two weeks. The result of the study showed that the developed measuring system can be remotely controlled to detect and identify spoiled milk and rotten meat without external software. The measuring system has an accuracy of 89% when it comes to classify unknown measurement objects. This study shows that the measuring system can detect and identify spoiled milk and rotten meat via remote control.
|
86 |
Kombination von terrestrischen Aufnahmen und Fernerkundungsdaten mit Hilfe der kNN-Methode zur Klassifizierung und Kartierung von WäldernStümer, Wolfgang 24 August 2004 (has links)
Bezüglich des Waldes hat sich in den letzten Jahren seitens der Politik und Wirtschaft ein steigender Informationsbedarf entwickelt. Zur Bereitstellung dieses Bedarfes stellt die Fernerkundung ein wichtiges Hilfsmittel dar, mit dem sich flächendeckende Datengrundlagen erstellen lassen. Die k-nächsten-Nachbarn-Methode (kNN-Methode), die terrestrische Aufnahmen mit Fernerkundungsdaten kombiniert, stellt eine Möglichkeit dar, diese Datengrundlage mit Hilfe der Fernerkundung zu verwirklichen. Deshalb beschäftigt sich die vorliegende Dissertation eingehend mit der kNN-Methode. An Hand der zwei Merkmale Grundfläche (metrische Daten) und Totholz (kategoriale Daten) wurden umfangreiche Berechnungen durchgeführt, wobei verschiedenste Variationen der kNN-Methode berücksichtigt wurden. Diese Variationen umfassen verschiedenste Einstellungen der Distanzfunktion, der Wichtungsfunktion und der Anzahl k-nächsten Nachbarn. Als Fernerkundungsdatenquellen kamen Landsat- und Hyperspektraldaten zum Einsatz, die sich sowohl von ihrer spektralen wie auch ihrer räumlichen Auflösung unterscheiden. Mit Hilfe von Landsat-Szenen eines Gebietes von verschiedenen Zeitpunkten wurde außerdem der multitemporale Ansatz berücksichtigt. Die terrestrische Datengrundlage setzt sich aus Feldaufnahmen mit verschiedenen Aufnahmedesigns zusammen, wobei ein wichtiges Kriterium die gleichmäßige Verteilung von Merkmalswerten (z.B. Grundflächenwerten) über den Merkmalsraum darstellt. Für die Durchführung der Berechnungen wurde ein Programm mit Visual Basic programmiert, welches mit der Integrierung aller Funktionen auf der Programmoberfläche eine benutzerfreundliche Bedienung ermöglicht. Die pixelweise Ausgabe der Ergebnisse mündete in detaillierte Karten und die Verifizierung der Ergebnisse wurde mit Hilfe des prozentualen Root Mean Square Error und der Bootstrap-Methode durchgeführt. Die erzielten Genauigkeiten für das Merkmal Grundfläche liegen zwischen 35 % und 67 % (Landsat) bzw. zwischen 65 % und 67 % (HyMapTM). Für das Merkmal Totholz liegen die Übereinstimmungen zwischen den kNN-Schätzern und den Referenzwerten zwischen 60,0 % und 73,3 % (Landsat) und zwischen 60,0 % und 63,3 % (HyMapTM). Mit den erreichten Genauigkeiten bietet sich die kNN-Methode für die Klassifizierung von Beständen bzw. für die Integrierung in Klassifizierungsverfahren an. / Mapping forest variables and associated characteristics is fundamental for forest planning and management. The following work describes the k-nearest neighbors (kNN) method for improving estimations and to produce maps for the attributes basal area (metric data) and deadwood (categorical data). Several variations within the kNN-method were tested, including: distance metric, weighting function and number of neighbors. As sources of remote sensing Landsat TM satellite images and hyper spectral data were used, which differ both from their spectral as well as their spatial resolutions. Two Landsat scenes from the same area acquired September 1999 and 2000 regard multiple approaches. The field data for the kNN- method comprise tree field measurements which were collected from the test site Tharandter Wald (Germany). The three field data collections are characterized by three different designs. For the kNN calculation a program with integration all kNN functions were developed. The relative root mean square errors (RMSE) and the Bootstrap method were evaluated in order to find optimal parameters. The estimation accuracy for the attribute basal area is between 35 % and 67 % (Landsat) and 65 % and 67 % (HyMapTM). For the attribute deadwood is the accuracy between 60 % and 73 % (Landsat) and 60 % and 63 % (HyMapTM). Recommendations for applying the kNN method for mapping and regional estimation are provided.
|
87 |
Automatisk FAQ med Latent Semantisk AnalysLarsson, Patrik January 2009 (has links)
<p>I denna uppsats presenteras teknik för att automatiskt besvara frågor skrivna i naturligt språk, givet att man har tillgång till en samling tidigare ställda frågor och deras respektive svar.</p><p>Jag bygger ett prototypsystem som utgår från en databas med epost-konversationer från HP Help Desk. Systemet kombinerar Latent Semantisk Analys med en täthetsbaserad klustringsalgoritm och en enkel klassificeringsalgoritm för att identifiera frekventa svar och besvara nya frågor.</p><p>De automatgenererade svaren utvärderas automatiskt och resultaten jämförs med de som tidigare presenterats för samma datamängd. Inverkan av olika parametrar studeras också i detalj.</p><p>Studien visar att detta tillvägagångssätt ger goda resultat, utan att man behöver utföra någon som helst lingvistisk förbearbetning.</p>
|
88 |
Automatisk FAQ med Latent Semantisk AnalysLarsson, Patrik January 2009 (has links)
I denna uppsats presenteras teknik för att automatiskt besvara frågor skrivna i naturligt språk, givet att man har tillgång till en samling tidigare ställda frågor och deras respektive svar. Jag bygger ett prototypsystem som utgår från en databas med epost-konversationer från HP Help Desk. Systemet kombinerar Latent Semantisk Analys med en täthetsbaserad klustringsalgoritm och en enkel klassificeringsalgoritm för att identifiera frekventa svar och besvara nya frågor. De automatgenererade svaren utvärderas automatiskt och resultaten jämförs med de som tidigare presenterats för samma datamängd. Inverkan av olika parametrar studeras också i detalj. Studien visar att detta tillvägagångssätt ger goda resultat, utan att man behöver utföra någon som helst lingvistisk förbearbetning.
|
89 |
Classification Of Forest Areas By K Nearest Neighbor Method: Case Study, AntalyaOzsakabasi, Feray 01 June 2008 (has links) (PDF)
Among the various remote sensing methods that can be used to map forest areas, the K Nearest Neighbor (KNN) supervised classification method is becoming increasingly popular for creating forest inventories in some countries. In this study, the utility of the KNN algorithm is evaluated for forest/non-forest/water stratification. Antalya is selected as the study area. The data used are composed of Landsat TM and Landsat ETM satellite images, acquired in 1987 and 2002, respectively, SRTM 90 meters digital elevation model (DEM) and land use data from the year 2003. The accuracies of different modifications of the KNN algorithm are evaluated using Leave One Out, which is a special case of K-fold cross-validation, and traditional accuracy assessment using error matrices. The best parameters are found to be Euclidean distance metric, inverse distance weighting, and k equal to 14, while using bands 4, 3 and 2. With these parameters, the cross-validation error is 0.009174, and the overall accuracy is around 86%. The results are compared with those from the Maximum Likelihood algorithm. KNN results are found to be accurate enough for practical applicability of this method for mapping forest areas.
|
90 |
Bajeso metodo taikymas kredito rizikos valdyme / Bayesian method for a credit risk managementBūzius, Gediminas 09 July 2011 (has links)
Bajeso metodo taikymas kreditų rizikos valdyme: atlikta įvairių egzistuojančių metodų rizikai valdyti tyrimas, pateiktas analitinėje dalyje, aprašyti kai kurie plačiau naudojami mašininio mokymo ir matematiniai modeliai. Paiūlytas modelis eksperimentui atlikti, atliktas empirinis tyrimas ir pateikti gauti rezultatai, pateiktos išvados ir ateities perspektyvos. / Baysan Method for a Credit Risk Management This paper presents a method combining popular machine learning technique for classification, genetic search as a feature selection method for relevant attribute selection and Altman Z-Score discriminant technique for credit risk evaluation. Bayesian method based classifiers (Naïve Bayes, Bayesian Networks) were explored and used in this article to train classifiers. This method was applied to different sectors in service and industry. Its performance was evaluated using weighted mean accuracy and weighted mean error techniques. In theoretical part several methods were analyzed and described, in the end conclusions and suggestions were pointed.
|
Page generated in 0.0322 seconds