1 |
Consultas por similaridade no modelo relacional / Similarity queries in the relational modelPierro, Gabriel Vicente de 18 May 2015 (has links)
Os Sistemas de Gerenciamento de Bases de Dados Relacionais (SGBDR) foram concebidos para o armazenamento e recuperação de grandes volumes de dados. Tradicionalmente, estes sistemas suportam números, pequenas cadeias de caracteres e datas (que podem ser comparados por identidade ou por relações de ordem { RO), porém vem se tornando necessário organizar, armazenar e recuperar dados mais complexos, como por exemplo dados multimídia (imagens, áudio e vídeo), séries temporais etc. Quando se trata de dados complexos há uma mudança de paradigma, pois as comparações entre elementos são feitas por similaridade em vez das RO utilizadas tradicionalmente, tendo como mais frequentemente utilizados os operadores de comparação por abrangência (Rq) e por k-vizinhos mais próximos (k-NN). Embora muitos estudos estejam sendo feitos nessa área, quando lidando com consultas por similaridade grande parte do esforço é direcionado para criar as estruturas de indexação e dar suporte às operações necessárias para executar apenas o aspecto da consulta que trata da similaridade, sem focar em realizar uma integração homogênea das consultas que envolvam ambos os tipos de operadores simultaneamente nos ambientes dos SGDBRs. Um dos principais problemas nessa integração é lidar com as peculiaridades do operador de busca por k-NN. Todos os operadores de comparação por identidade e por RO são comutativos e associativos entre si. No entanto o operador de busca por k-NN não atende a nenhuma dessas propriedades. Com isso, a expressão de consultas em SQL, que usualmente pode ser feita sem que a expressão da ordem entre os predicados seja importante, precisa passar a considerar a ordem. Além disso, consultas que utilizam comparações por k-NN podem gerar múltiplos empates, e a falta de uma metodologia para resolvê-los pode levar a um processo de desempate arbitrário ou insensível ao contexto da consulta, onde usuários não tem poder para intervir de maneira significativa. Em alguns casos, isso pode levar a uma mesma consulta a retornar resultados distintos em casos onde a estrutura interna dos dados estiver sujeita a modificações, como por exemplo em casos de transações concorrentes em um SGBDR. Este trabalho aborda os problemas gerados pela inserção de operadores de busca por similaridade nos SGBDR, mais especificamente o k-NN, e propõe novas maneiras de representação de consultas com múltiplos predicados, por similaridade ou RO, assim como novos operadores derivados do k-NN que são mais adequados para um ambiente relacional que permita consultas híbridas, e permitem também controle sobre o tratamento de empates. / The Relational Database Management Systems (RDBMS) were originally conceived to store and retrieve large volumes of data. Traditionally, these systems support only numbers, small strings of characters and dates (which could be compared by identity and a Order Relationship { OR). However it has been increasingly necessary to organize, store and retrieve more complex data, such as multimedia (images, audio and video), time series etc. Dealing with those data types requires a paradigm shift, as the comparisons between each element are made by similarity, and not by the traditionally used identity or OR, with the most common similarity operators used being the range (Rq) and k-Nearest Neighbors (k-NN). Despite many studies in the field, when dealing with similarity queries a large part of the effort has been directed towards the data structures and the necessary operations to execute only the similarity side of the query, not paying attention to a more homogenous integration of queries that involve both operator types simultaneously in RDBMS environments. One of the main problems for such integration is the peculiarities of the k-NN operator. Both identity and OR operators possess the commutative and associative properties amongst themselves, but the k-NN operator does not. As such, expressing SQL queries, that usually can disregard the order in which predicates appear, now needs to be aware of the ordering. Furthermore, queries that use k-NN might generate multiple ties, and the lack of a methodology to solve them might lead to an arbitrary or context-detached untying process, where users have little or no control to intervene. In some applications, the lack of a controlled untying process may even lead to each query yielding distinct results if the underlying structures ought be subject to change, as it is be the case of the concurrent transactions in a relational database management system (RDBMS). This work focuses on the problems that arise from the integration of similarity based operators into RDBMS, more specifically the k-NN, and proposes new ways to represent queries with multiple predicates, including similarity, identity or OR, as well as new operators derived from k-NN that are better suited for a RDBMS environment containing hybrid queries, and also enable control over the untying process.
|
2 |
Consultas por similaridade no modelo relacional / Similarity queries in the relational modelGabriel Vicente de Pierro 18 May 2015 (has links)
Os Sistemas de Gerenciamento de Bases de Dados Relacionais (SGBDR) foram concebidos para o armazenamento e recuperação de grandes volumes de dados. Tradicionalmente, estes sistemas suportam números, pequenas cadeias de caracteres e datas (que podem ser comparados por identidade ou por relações de ordem { RO), porém vem se tornando necessário organizar, armazenar e recuperar dados mais complexos, como por exemplo dados multimídia (imagens, áudio e vídeo), séries temporais etc. Quando se trata de dados complexos há uma mudança de paradigma, pois as comparações entre elementos são feitas por similaridade em vez das RO utilizadas tradicionalmente, tendo como mais frequentemente utilizados os operadores de comparação por abrangência (Rq) e por k-vizinhos mais próximos (k-NN). Embora muitos estudos estejam sendo feitos nessa área, quando lidando com consultas por similaridade grande parte do esforço é direcionado para criar as estruturas de indexação e dar suporte às operações necessárias para executar apenas o aspecto da consulta que trata da similaridade, sem focar em realizar uma integração homogênea das consultas que envolvam ambos os tipos de operadores simultaneamente nos ambientes dos SGDBRs. Um dos principais problemas nessa integração é lidar com as peculiaridades do operador de busca por k-NN. Todos os operadores de comparação por identidade e por RO são comutativos e associativos entre si. No entanto o operador de busca por k-NN não atende a nenhuma dessas propriedades. Com isso, a expressão de consultas em SQL, que usualmente pode ser feita sem que a expressão da ordem entre os predicados seja importante, precisa passar a considerar a ordem. Além disso, consultas que utilizam comparações por k-NN podem gerar múltiplos empates, e a falta de uma metodologia para resolvê-los pode levar a um processo de desempate arbitrário ou insensível ao contexto da consulta, onde usuários não tem poder para intervir de maneira significativa. Em alguns casos, isso pode levar a uma mesma consulta a retornar resultados distintos em casos onde a estrutura interna dos dados estiver sujeita a modificações, como por exemplo em casos de transações concorrentes em um SGBDR. Este trabalho aborda os problemas gerados pela inserção de operadores de busca por similaridade nos SGBDR, mais especificamente o k-NN, e propõe novas maneiras de representação de consultas com múltiplos predicados, por similaridade ou RO, assim como novos operadores derivados do k-NN que são mais adequados para um ambiente relacional que permita consultas híbridas, e permitem também controle sobre o tratamento de empates. / The Relational Database Management Systems (RDBMS) were originally conceived to store and retrieve large volumes of data. Traditionally, these systems support only numbers, small strings of characters and dates (which could be compared by identity and a Order Relationship { OR). However it has been increasingly necessary to organize, store and retrieve more complex data, such as multimedia (images, audio and video), time series etc. Dealing with those data types requires a paradigm shift, as the comparisons between each element are made by similarity, and not by the traditionally used identity or OR, with the most common similarity operators used being the range (Rq) and k-Nearest Neighbors (k-NN). Despite many studies in the field, when dealing with similarity queries a large part of the effort has been directed towards the data structures and the necessary operations to execute only the similarity side of the query, not paying attention to a more homogenous integration of queries that involve both operator types simultaneously in RDBMS environments. One of the main problems for such integration is the peculiarities of the k-NN operator. Both identity and OR operators possess the commutative and associative properties amongst themselves, but the k-NN operator does not. As such, expressing SQL queries, that usually can disregard the order in which predicates appear, now needs to be aware of the ordering. Furthermore, queries that use k-NN might generate multiple ties, and the lack of a methodology to solve them might lead to an arbitrary or context-detached untying process, where users have little or no control to intervene. In some applications, the lack of a controlled untying process may even lead to each query yielding distinct results if the underlying structures ought be subject to change, as it is be the case of the concurrent transactions in a relational database management system (RDBMS). This work focuses on the problems that arise from the integration of similarity based operators into RDBMS, more specifically the k-NN, and proposes new ways to represent queries with multiple predicates, including similarity, identity or OR, as well as new operators derived from k-NN that are better suited for a RDBMS environment containing hybrid queries, and also enable control over the untying process.
|
3 |
An Automated Building Extraction Model Using Fuzzy K-nn Classifier From Monocular Aerial ImagesSenaras, Caglar 01 October 2007 (has links) (PDF)
The aim of this study is to develop an automated model to extract buildings from aerial images. The fuzzy k-NN classification method is used to extract the buildings by using color information. Also in the thesis, the advantages of the relevance feedback systems are discussed. The software, BuildingLS, is developed in C#. The model is evaluated in 5 different test areas with more than 700 building.
|
4 |
Cold-start recommendations for the user- and item-based recommender systemalgorithm k-Nearest NeighborsLorentz, Robert, Ek, Oskar January 2017 (has links)
Recommender systems apply machine learning methods to solve the task of providing appropriate suggestions to users in both static and dynamic environments. An example of this is a movie service like Netflix that recommends movies to its users. Although many algorithms have been proposed, making predictions for users with few ratings remains a challenge in recommender systems. In this study the performance of the algorithm k-NN, both user- and item-based, was empirically evaluated. This was done using the MovieLens 1M and 100K datasets in scenarios where the users have between 1 and 9 ratings, simulating cold-start scenarios of various degree. The results were then compared with the accuracy of the algorithm in a simulated normal case, to see how the cold-start affected the two algorithms, and which one of them that handled it best. In summary, this report shows that user-based k-NN performs better in relation to item-based k-NN for new users having few rated items. Overall the accuracy improved as the number of ratings increased for the new users for both user- and item-based k-NN.
|
5 |
Nutrient diagnosis of orange crops applying compositional data analysis and machine learning techniques /Yamane, Danilo Ricardo. January 2018 (has links)
Orientador: Arthur Bernardes Cecílio Filho / Resumo: O manejo eficiente de nutrientes é crucial para atingir alta produtividade de frutos. Resultados da análise do tecido são comumente interpretados usando faixas críticas de concentração de nutrientes (CNCR) e Sistema Integrado de Diagnose e Recomendação (DRIS) em culturas de laranja. No entanto, ambos os métodos ignoram as propriedades inerentes à classe dos dados composicionais, não considerando adequadamente as interações de nutrientes e a influência varietal na composição nutricional da planta. Portanto, ferramentas eficazes de modelagem são necessárias para corrigir vieses e incorporar efeitos genéticos na avaliação do estado nutricional. O objetivo deste estudo foi desenvolver uma abordagem diagnóstica precisa para avaliar o estado nutricional de variedades de copa de laranjeira (Citrus sinensis), usando a análise composicional dos dados e algoritmos de inteligência artificial. Foram coletadas 716 amostras foliares de ramos frutíferos em pomares comerciais de laranjeiras não irrigadas (“Valência”, “Hamlin”, “Pera”, “Natal”, “Valencia Americana” e “Westin”) distribuídos pelo estado de São Paulo (Brasil), analisadas as concentrações de N, S, P, K, Ca, Mg, B, Cu, Zn, Mn e Fe, e avaliadas as produções de frutos. Balanços de nutrientes foram computados como relações-log isométricas (ilr). Análises discriminantes dos valores de ilr diferenciaram os perfis de nutrientes das variedades de copa, indicando composições nutricionais específicas. A acurácia diagnóstica dos balanços de... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Efficient nutrient management is crucial to attain high fruit productivity. Results of tissue analysis are commonly interpreted using critical nutrient concentration ranges (CNCR) and Diagnosis and Recommendation Integrated System (DRIS) on orange crops. Nevertheless, both methods ignore the inherent properties of compositional data class, not accounting adequately for nutrient interactions and varietal influence on plant ionome. Therefore, effective modeling tools are needed to rectify biases and incorporate genetic effects on nutrient composition. The objective of this study was to develop an accurate diagnostic approach to evaluate the nutritional status across orange (Citrus sinensis) canopy varieties using compositional data analysis and machine learning algorithms. We collected 716 foliar samples from fruit-bearing shoots in plots of non-irrigated commercial orange orchards (“Valencia”, “Hamlin”, “Pera”, “Natal”, “Valencia Americana” and “Westin”) distributed across São Paulo state (Brazil), analyzed N, S, P, K, Ca, Mg, B, Cu, Zn, Mn and Fe, and measured fruit yields. Sound nutrient balances were computed as isometric log-ratios (ilr). Discriminant analysis of ilr values differentiated the nutrient profiles of canopy varieties, indicating plant-specific ionomes. Diagnostic accuracy of nutrient balances reached 88% about cutoff yield of 60 Mg ha-1 using ilrs and a k-nearest neighbors classification, allowing the development of reliable nutritional standards at high fruit... (Complete abstract click electronic access below) / Doutor
|
6 |
Nutrient diagnosis of orange crops applying compositional data analysis and machine learning techniques / Diagnóstico de nutrientes na cultura da laranjeira aplicando análise composicional dos dados e técnicas de inteligência artificialYamane, Danilo Ricardo [UNESP] 29 November 2018 (has links)
Submitted by Danilo Ricardo Yamane (danilo_yamane@yahoo.com.br) on 2019-01-28T17:15:40Z
No. of bitstreams: 1
Tese Yamane (2018).pdf: 2814108 bytes, checksum: f2e102e5809427e8d3d26d0a59971542 (MD5) / Approved for entry into archive by Tatiana Camila Gricio (tatiana.gricio@unesp.br) on 2019-01-28T17:32:17Z (GMT) No. of bitstreams: 1
yamane_dr_dr_jabo.pdf: 2814108 bytes, checksum: f2e102e5809427e8d3d26d0a59971542 (MD5) / Made available in DSpace on 2019-01-28T17:32:17Z (GMT). No. of bitstreams: 1
yamane_dr_dr_jabo.pdf: 2814108 bytes, checksum: f2e102e5809427e8d3d26d0a59971542 (MD5)
Previous issue date: 2018-11-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / O manejo eficiente de nutrientes é crucial para atingir alta produtividade de frutos. Resultados da análise do tecido são comumente interpretados usando faixas críticas de concentração de nutrientes (CNCR) e Sistema Integrado de Diagnose e Recomendação (DRIS) em culturas de laranja. No entanto, ambos os métodos ignoram as propriedades inerentes à classe dos dados composicionais, não considerando adequadamente as interações de nutrientes e a influência varietal na composição nutricional da planta. Portanto, ferramentas eficazes de modelagem são necessárias para corrigir vieses e incorporar efeitos genéticos na avaliação do estado nutricional. O objetivo deste estudo foi desenvolver uma abordagem diagnóstica precisa para avaliar o estado nutricional de variedades de copa de laranjeira (Citrus sinensis), usando a análise composicional dos dados e algoritmos de inteligência artificial. Foram coletadas 716 amostras foliares de ramos frutíferos em pomares comerciais de laranjeiras não irrigadas (“Valência”, “Hamlin”, “Pera”, “Natal”, “Valencia Americana” e “Westin”) distribuídos pelo estado de São Paulo (Brasil), analisadas as concentrações de N, S, P, K, Ca, Mg, B, Cu, Zn, Mn e Fe, e avaliadas as produções de frutos. Balanços de nutrientes foram computados como relações-log isométricas (ilr). Análises discriminantes dos valores de ilr diferenciaram os perfis de nutrientes das variedades de copa, indicando composições nutricionais específicas. A acurácia diagnóstica dos balanços de nutrientes atingiu 88% com a produtividade de corte correspondente a 60 t ha-1, utilizando-se ilrs e o algoritmo de classificação knn, o que possibilitou o desenvolvimento de padrões nutricionais confiáveis para a obtenção de elevado nível de produtividade de frutos. Os citricultores do estado de São Paulo devem adotar o conceito de balanços de nutrientes, onde grupos de nutrientes estão equilibrados de maneira ideal. Fornecer mais Ca através de calcário ou gesso, reduzir as aplicações de fertilizantes P e K, e aumentar a fertilização de B via solo pode reequilibrar os balanços [Mg | Ca], [Ca, Mg | K], [P | N, S], [K, Ca, Mg | N, S, P] e [B | N, S, P, K, Ca, Mg] em pomares de laranjas com produtividade inferior a 60 t ha-1. O software “CND-Citros” pode auxiliar os citricultores, engenheiros agrônomos e técnicos a diagnosticar o estado nutricional das lavouras de laranja com base no método proposto, utilizando os resultados da análise química das folhas. / Efficient nutrient management is crucial to attain high fruit productivity. Results of tissue analysis are commonly interpreted using critical nutrient concentration ranges (CNCR) and Diagnosis and Recommendation Integrated System (DRIS) on orange crops. Nevertheless, both methods ignore the inherent properties of compositional data class, not accounting adequately for nutrient interactions and varietal influence on plant ionome. Therefore, effective modeling tools are needed to rectify biases and incorporate genetic effects on nutrient composition. The objective of this study was to develop an accurate diagnostic approach to evaluate the nutritional status across orange (Citrus sinensis) canopy varieties using compositional data analysis and machine learning algorithms. We collected 716 foliar samples from fruit-bearing shoots in plots of non-irrigated commercial orange orchards (“Valencia”, “Hamlin”, “Pera”, “Natal”, “Valencia Americana” and “Westin”) distributed across São Paulo state (Brazil), analyzed N, S, P, K, Ca, Mg, B, Cu, Zn, Mn and Fe, and measured fruit yields. Sound nutrient balances were computed as isometric log-ratios (ilr). Discriminant analysis of ilr values differentiated the nutrient profiles of canopy varieties, indicating plant-specific ionomes. Diagnostic accuracy of nutrient balances reached 88% about cutoff yield of 60 Mg ha-1 using ilrs and a k-nearest neighbors classification, allowing the development of reliable nutritional standards at high fruit yield level. Citrus growers from São Paulo state should adopt the concept of yield-limiting nutrient balances, where groups of nutrients are optimally balanced. Supplying more Ca as lime or gypsum materials, reducing the P and K fertilizer applications and enhancing soil B fertilization could re-establish the [Mg | Ca], [Ca, Mg | K], [P | N, S], [K, Ca, Mg | N, S, P] and [B | N, S, P, K, Ca, Mg] balances in orange orchards yielding less than 60 Mg ha-1. The software “CND-Citros” can assist citrus growers, agronomy engineers and technicians to diagnose the nutrient status of orange crops based on the proposed method, using the results of leaf chemical analysis.
|
7 |
Genomförbarhetsstudie av att känna igen två tankemönster i följd med EEG / Feasibility study of recognizing two subsequent thought patterns with EEGWilhelmsson, Oskar, Wikén, Victor January 2015 (has links)
Studien implementerade ett hjärna-dator-gränssnitt med hjälp av EEG-instrumentet MindWave Mobile Headset. Vi undersökte om det var möjligt att utföra fyra operationer genom att använda tankemönster. Fyra försökspersoner deltog i studien. Deras uppgift var att tänka i två tankemönster i följd som resulterade i en operation. EEG-signalen förbehandlas så att en mönsterigenkänningsmetod (k-NN) lättare kunde urskilja två tankemönster ur signalen. Denna undersökning har till vår vetskap inte tidigare utförts och är därmed kunskapsluckan vi ämnar fylla. Att fylla denna kunskapslucka är av intresse för bland annat användargrupperna: rörelsehindrade, spelintresserade och Virtual Reality-användare. Vi tog fram en modell som modellerade det bästa möjliga utfallet av metodiken i föreliggande studie. Undersökningens resultat kunde inte användas för att göra slutsatser angående frågeställningen då detta skulle vara att post hoc-teoretisera. I modellen visades dock tre av fyra operationer vara genomförbara, med en indikation om att även den fjärde var möjlig att utföra. Resultatet indikerar att det finns anledning att utföra en fortsatt studie. Den föreslagna fortsatta studien bör innefatta nya mätningar som testas av modellen för att fullt ut besvara problemformuleringen. / This study implements a Brain-Computer-Interface using the EEG-instrument MindWave Mobile Headset. We studied the feasibility of performing four operations using thought patterns. Four test subjects participated in the study. Their task was to think in two subsequent thought patterns that resulted in an operation. The EEG-signal was pre-processed in such a way that a pattern recognition algorithm (k-NN) more easily could recognize two thought patterns in the signal. This study has to our knowledge not been done before and thus aims to fill this lack of knowledge in the scientific community. User groups that have an interest in filling this gap are, amongst others; disabled people, gamers, and Virtual Reality users. We created a model that modeled the best possible outcome of the method used in this study. Conclusions drawn from the result can not be used to fully answer the problem statement, since it would be to post hoc-theorize. However, three out of four operations were possible to perform in the model, with an indication that the fourth also was possible to perform. These results indicate that there are grounds to continue this study. The proposed continued study should include new measurements that are tested by the model to determine if it is feasible to distinguish all four operations.
|
8 |
Towards new computational tools for predicting toxicityChavan, Swapnil January 2016 (has links)
The toxicological screening of the numerous chemicals that we are exposed to requires significant cost and the use of animals. Accordingly, more efficient methods for the evaluation of toxicity are required to reduce cost and the number of animals used. Computational strategies have the potential to reduce both the cost and the use of animal testing in toxicity screening. The ultimate goal of this thesis is to develop computational models for the prediction of toxicological endpoints that can serve as an alternative to animal testing. In Paper I, an attempt was made to construct a global quantitative structure-activity relationship (QSAR)model for the acute toxicity endpoint (LD50 values) using the Munro database that represents a broad chemical landscape. Such a model could be used for acute toxicity screening of chemicals of diverse structures. Paper II focuses on the use of acute toxicity data to support the prediction of chronic toxicity. The results of this study suggest that for related chemicals having acute toxicities within a similar range, their lowest observed effect levels (LOELs) can be used in read-across strategies to fill gaps in chronic toxicity data. In Paper III a k-nearest neighbor (k-NN) classification model was developed to predict human ether-a-go-go related gene (hERG)-derived toxicity. The results suggest that the model has potential for use in identifying compounds with hERG-liabilities, e.g. in drug development.
|
9 |
MIMPCA: uma abordagem robusta para extração de características aplicada à classificação de facesFrancisco Pereira, José 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T15:56:15Z (GMT). No. of bitstreams: 2
arquivo2793_1.pdf: 1387248 bytes, checksum: e99d52780679d746f07f5ff17549301a (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / É crescente a necessidade de controle de acesso a lugares, serviços e informações. É crescente
também a busca por soluções mais eficientes na identificação pessoal. Neste contexto, a
biometria, que consiste no uso de características biológicas como mecanismo de identificação,
tem sido utilizada com resultados bastante promissores. Dentre as informações utilizadas para
identificação dos indivíduos podem ser destacadas a íris, a retina, a face, a impressão digital ou
até mesmo a geometria da mão.
Dentre as biometrias, o reconhecimento de faces destaca-se por ser uma técnica que apresenta
ótimos resultados com baixo custo de implantação. Ela pode ser utilizada nos mais diversos
tipos de dispositivos e, em sua forma mais simples, não exige hardware dedicado. A
técnica destaca-se ainda por não necessitar da interação do usuário ou qualquer tipo de contato
físico para captura e classificação das faces.
O presente trabalho é focado no reconhecimento de faces baseado em imagens (2D). Mais
precisamente o trabalho visa reduzir ou eliminar os efeitos de variações no ambiente ou na
própria face que prejudiquem a sua classificação final. As técnicas examinadas e propostas
fazem uso da análise de componentes principais (PCA) para extração de características das
imagens de faces frontais. Elas baseiam-se em estudos recentes com o objetivo de melhorar
as taxas de classificação mesmo sob condições adversas de aquisição de imagens ou oclusão
parcial das faces.
Os resultados obtidos mostraram uma superioridade nas taxas de acerto das abordagens propostas
em relação às suas técnicas-base quando executadas sobre imagens com algum tipo de
variação local. Foi constatado também um grande ganho no tempo de processamento das imagens,
o que contribui para aplicar as técnicas propostas em dispositivos com menor capacidade
computacional
|
10 |
Applicera maskininlärning på vägtrafikdata för att klassificera gatutyper i Stockholm / Apply Machine Learning on Road Traffic Data in order to Classify Street Types in StockholmEngberg, Alexander January 2020 (has links)
In this thesis, two different machine learning models have been applied on road traffic data from two large cities in Sweden: Gothenburg and Stockholm. The models have been evaluated with regard to classification of street types in urban environments. When planning and developing road traffic systems it is important that there is reliable knowledge about the traffic system. The amount of available traffic data from urban areas is growing and to gain insights about historical, current and future traffic patterns the data can be used for traffic analysis. By training machine learning models that are able to predict what type of street a measuring location belongs to, a classification can be made based on historical data. In this thesis, the performance of two different machine learning models are presented and evaluated when street types are predicted and classified. The algorithms used for the classification were K-Nearest Neighbor and Random Forest which were applied to different combinations of attributes. This was done in order to identify which attributes that lead to the optimal classification of street types in Gothenburg. For training the algorithms the dataset consisted of traffic data collected in Gothenburg. The final model was applied on the traffic data in Stockholm and hence the prediction of street types in that area were obtained. The results of this study show that a combination of all tested attributes leads to the highest accuracy and the model that obtained these results was Random Forest. Even though there are differences between topography and size of the two cities, the study leads to relevant insights about traffic patterns in Stockholm.
|
Page generated in 0.0304 seconds