Spelling suggestions: "subject:"evaluatuation measures"" "subject:"evalualuation measures""
1 |
Identificação de regras de associação interessantes por meio de análises com medidas objetivas e subjetivas / Identification of interesting association rules through objective and subjective measures analysisSinoara, Roberta Akemi 30 March 2006 (has links)
A associação é uma tarefa de mineração de dados que tem sido muito utilizada em problemas reais, porém o grande número de regras de associação que podem ser geradas dificulta a identificação de conhecimento interessante aos usuários. Para apoiar a identificação de regras interessantes podem ser utilizadas medidas de avaliação de conhecimento, que normalmente são classificadas como objetivas ou subjetivas. As medidas objetivas são mais gerais, mas podem não ser suficientes por não considerarem aspectos relacionados ao usuário ou ao domínio da aplicação. Por outro lado pode haver dificuldade em se obter a subjetividade do usuário necessária para o cálculo das medidas subjetivas. Diante desse contexto, neste trabalho é proposta uma metodologia para identificação de regras de associação interessantes que combina análises com medidas objetivas e subjetivas, visando aproveitar as vantagens de cada tipo e facilitar a participação do especialista. As medidas objetivas são utilizadas para selecionar algumas regras potencialmente interessantes para serem avaliadas por um especialista. As medidas subjetivas são calculadas utilizando essas regras com as avaliações do especialista. Essas medidas subjetivas então são utilizadas para auxiliar a identificação de regras interessantes de acordo com o conhecimento obtido durante a avaliação. Para viabilizar a aplicação dessa metodologia foi desenvolvido um módulo computacional de exploração de regras de associação com medidas subjetivas, denominado RulEE-SEAR. Utilizando esse módulo e outras ferramentas já existentes foi realizado um estudo de caso com uma base de dados real sobre qualidade de vida urbana. Nesse estudo de caso o processo de identificação de regras de associação interessantes foi realizado com especialista da área e verificou-se a viabilidade da metodologia proposta. / Association is a data mining task which has been applied in several real problems. However, due to the huge number of association rules that can be generated, it is hard for users to identify interesting knowledge. To assist users in finding interesting rules, evaluation measures can be used. Those measures are usually divided into objective and subjective. Objective measures are more general, but they can be insufficient because they do not consider user's and domain's features. On the other hand, getting users's knowledge and interest needed to calculate subjective measures can be a difficult task. In this context, a methodology to identify interesting association rules is proposed in this work. This methodology combines analysis with objective and subjective measures, aiming to use the advantages of each kind of measure and to make user's participation easier. Objective measures are used to select some potentially interesting rules for the user's evaluation. These rules and the evaluation are used to calculate subjective measures. Then, the subjective measures are used to assist the user in identifying interesting rules according to the knowledge obtained during the evaluation. To make the methodology use practicable, a computational module, named RulEE-SEAR, was developed to explore the association rules with subjective measures. Using this module and other existing tools, a case study was done. A urban life quality database was used and a specialist in this area participated in the interesting association rules identification. That case study showed that the methodology proposed is feasible.
|
2 |
Identificação de regras de associação interessantes por meio de análises com medidas objetivas e subjetivas / Identification of interesting association rules through objective and subjective measures analysisRoberta Akemi Sinoara 30 March 2006 (has links)
A associação é uma tarefa de mineração de dados que tem sido muito utilizada em problemas reais, porém o grande número de regras de associação que podem ser geradas dificulta a identificação de conhecimento interessante aos usuários. Para apoiar a identificação de regras interessantes podem ser utilizadas medidas de avaliação de conhecimento, que normalmente são classificadas como objetivas ou subjetivas. As medidas objetivas são mais gerais, mas podem não ser suficientes por não considerarem aspectos relacionados ao usuário ou ao domínio da aplicação. Por outro lado pode haver dificuldade em se obter a subjetividade do usuário necessária para o cálculo das medidas subjetivas. Diante desse contexto, neste trabalho é proposta uma metodologia para identificação de regras de associação interessantes que combina análises com medidas objetivas e subjetivas, visando aproveitar as vantagens de cada tipo e facilitar a participação do especialista. As medidas objetivas são utilizadas para selecionar algumas regras potencialmente interessantes para serem avaliadas por um especialista. As medidas subjetivas são calculadas utilizando essas regras com as avaliações do especialista. Essas medidas subjetivas então são utilizadas para auxiliar a identificação de regras interessantes de acordo com o conhecimento obtido durante a avaliação. Para viabilizar a aplicação dessa metodologia foi desenvolvido um módulo computacional de exploração de regras de associação com medidas subjetivas, denominado RulEE-SEAR. Utilizando esse módulo e outras ferramentas já existentes foi realizado um estudo de caso com uma base de dados real sobre qualidade de vida urbana. Nesse estudo de caso o processo de identificação de regras de associação interessantes foi realizado com especialista da área e verificou-se a viabilidade da metodologia proposta. / Association is a data mining task which has been applied in several real problems. However, due to the huge number of association rules that can be generated, it is hard for users to identify interesting knowledge. To assist users in finding interesting rules, evaluation measures can be used. Those measures are usually divided into objective and subjective. Objective measures are more general, but they can be insufficient because they do not consider user's and domain's features. On the other hand, getting users's knowledge and interest needed to calculate subjective measures can be a difficult task. In this context, a methodology to identify interesting association rules is proposed in this work. This methodology combines analysis with objective and subjective measures, aiming to use the advantages of each kind of measure and to make user's participation easier. Objective measures are used to select some potentially interesting rules for the user's evaluation. These rules and the evaluation are used to calculate subjective measures. Then, the subjective measures are used to assist the user in identifying interesting rules according to the knowledge obtained during the evaluation. To make the methodology use practicable, a computational module, named RulEE-SEAR, was developed to explore the association rules with subjective measures. Using this module and other existing tools, a case study was done. A urban life quality database was used and a specialist in this area participated in the interesting association rules identification. That case study showed that the methodology proposed is feasible.
|
3 |
Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéticos / Combinig classifiers using knowledge rule measures and genetic algortgmsBernardini, Flávia Cristina 29 August 2006 (has links)
A qualidade das hipóteses induzidas pelos atuais sistemas de aprendizado de máquina supervisionado depende da quantidade dos exemplos no conjunto de treinamento. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma grande quantidade de exemplos. Grandes conjuntos de dados são típicos em mineração de dados. Uma maneira para resolver este problema consiste em construir ensembles de classificadores. Um ensemble é um conjunto de classificadores cujas decisões são combinadas de alguma maneira para classificar um novo caso. Apesar de melhorar o poder de predição dos algoritmos de aprendizado, ensembles podem ser compostos por muitos classificadores, o que pode ser indesejável. Ainda, apesar de ensembles classificarem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de não oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. Assim, neste trabalho propomos uma abordagem que utiliza algoritmos de aprendizado simbólico para construir ensembles de classificadores simbólicos que explicam suas decisões de classificação e são tão ou mais precisos que o mais preciso dos seus classificadores individuais. Além disso, considerando que algoritmos de aprendizado simbólico utilizam métodos de busca local para induzir classificadores quanto que algoritmos genéticos utilizam métodos de busca global, propomos uma segunda abordagem para aprender conceitos simbólicos de grandes bases de dados utilizando algoritmos genéticos para evoluir classificadores simbólicos em um u´ nico classificador simbólico, de maneira que o classificador evoluído é mais preciso que os classificadores iniciais. Ambas propostas foram implementadas em dois sistemas computacionais. Diversos experimentos usando diferentes conjuntos de dados foram conduzidos para avaliar ambas as propostas. Ainda que os resultados experimenta das duas soluções propostas são promissores, os melhores resultados foram obtidos utilizando a abordagem relacionada a algoritmos genéticos / The quality of hypotheses induced by most of the available supervised machine learning algorithms depends on the quantity and quality of the instances in the training set. However, several well known learning algorithms are not able to manipulate many instances making it difficult to induce good classifiers from large databases, as are needed in the Data Mining process. One approach to overcome this problem is to construct ensembles of classifiers. An ensemble is a set of classifiers whose decisions are combined in some way to classify new cases (instances). However, although ensembles improve learning algorithms power prediction, ensembles may use an undesired large set of classifiers. Furthermore, despite classifying new cases better than each individual classifier, ensembles are generally a sort of ?black-box? classifier, not being able to explain their classification decisions. To this end, in this work we propose an approach that uses symbolic learning algorithms to construct ensembles of symbolic classifiers that can explain their classification decisions so that the ensemble is as accurate as or more accurate than the individual classifiers. Furthermore, considering that symbolic learning algorithms use local search methods to induce classifiers while genetic algorithms use global search methods, we propose a second approach to learn symbolic concepts from large databases using genetic algorithms to evolve symbolic classifiers into only one symbolic classifier so that the evolved classifier is more accurate than the initial ones. Both proposals were implemented in two computational systems. Several experiments using different databases were conducted in order to evaluate both proposals. Results show that although both proposals are promising, the approach using genetic algorithms produces better results.
|
4 |
Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéticos / Combinig classifiers using knowledge rule measures and genetic algortgmsFlávia Cristina Bernardini 29 August 2006 (has links)
A qualidade das hipóteses induzidas pelos atuais sistemas de aprendizado de máquina supervisionado depende da quantidade dos exemplos no conjunto de treinamento. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma grande quantidade de exemplos. Grandes conjuntos de dados são típicos em mineração de dados. Uma maneira para resolver este problema consiste em construir ensembles de classificadores. Um ensemble é um conjunto de classificadores cujas decisões são combinadas de alguma maneira para classificar um novo caso. Apesar de melhorar o poder de predição dos algoritmos de aprendizado, ensembles podem ser compostos por muitos classificadores, o que pode ser indesejável. Ainda, apesar de ensembles classificarem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de não oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. Assim, neste trabalho propomos uma abordagem que utiliza algoritmos de aprendizado simbólico para construir ensembles de classificadores simbólicos que explicam suas decisões de classificação e são tão ou mais precisos que o mais preciso dos seus classificadores individuais. Além disso, considerando que algoritmos de aprendizado simbólico utilizam métodos de busca local para induzir classificadores quanto que algoritmos genéticos utilizam métodos de busca global, propomos uma segunda abordagem para aprender conceitos simbólicos de grandes bases de dados utilizando algoritmos genéticos para evoluir classificadores simbólicos em um u´ nico classificador simbólico, de maneira que o classificador evoluído é mais preciso que os classificadores iniciais. Ambas propostas foram implementadas em dois sistemas computacionais. Diversos experimentos usando diferentes conjuntos de dados foram conduzidos para avaliar ambas as propostas. Ainda que os resultados experimenta das duas soluções propostas são promissores, os melhores resultados foram obtidos utilizando a abordagem relacionada a algoritmos genéticos / The quality of hypotheses induced by most of the available supervised machine learning algorithms depends on the quantity and quality of the instances in the training set. However, several well known learning algorithms are not able to manipulate many instances making it difficult to induce good classifiers from large databases, as are needed in the Data Mining process. One approach to overcome this problem is to construct ensembles of classifiers. An ensemble is a set of classifiers whose decisions are combined in some way to classify new cases (instances). However, although ensembles improve learning algorithms power prediction, ensembles may use an undesired large set of classifiers. Furthermore, despite classifying new cases better than each individual classifier, ensembles are generally a sort of ?black-box? classifier, not being able to explain their classification decisions. To this end, in this work we propose an approach that uses symbolic learning algorithms to construct ensembles of symbolic classifiers that can explain their classification decisions so that the ensemble is as accurate as or more accurate than the individual classifiers. Furthermore, considering that symbolic learning algorithms use local search methods to induce classifiers while genetic algorithms use global search methods, we propose a second approach to learn symbolic concepts from large databases using genetic algorithms to evolve symbolic classifiers into only one symbolic classifier so that the evolved classifier is more accurate than the initial ones. Both proposals were implemented in two computational systems. Several experiments using different databases were conducted in order to evaluate both proposals. Results show that although both proposals are promising, the approach using genetic algorithms produces better results.
|
5 |
Estudo, avaliação e comparação de técnicas de detecção não supervisionada de outliers / Study, evaluation and comparison of unsupervised outlier detection techniquesCampos, Guilherme Oliveira 05 March 2015 (has links)
A área de detecção de outliers (ou detecção de anomalias) possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Detectar tais padrões é relevante de maneira geral porque, em muitas aplicações de mineração de dados, tais padrões representam comportamentos extraordinários que merecem uma atenção especial. Uma importante distinção se dá entre as técnicas supervisionadas e não supervisionadas de detecção. O presente projeto enfoca as técnicas de detecção não supervisionadas. Existem dezenas de algoritmos desta categoria na literatura e novos algoritmos são propostos de tempos em tempos, porém cada um deles utiliza uma abordagem própria do que deve ser considerado um outlier ou não, que é um conceito subjetivo no contexto não supervisionado. Isso dificulta sensivelmente a escolha de um algoritmo em particular em uma dada aplicação prática. Embora seja de conhecimento comum que nenhum algoritmo de aprendizado de máquina pode ser superior a todos os demais em todos os cenários de aplicação, é uma questão relevante se o desempenho de certos algoritmos em geral tende a dominar o de determinados outros, ao menos em classes particulares de problemas. Neste projeto, propõe-se contribuir com o estudo, seleção e pré-processamento de bases de dados que sejam apropriadas para se juntarem a uma coleção de benchmarks para avaliação de algoritmos de detecção não supervisionada de outliers. Propõe-se ainda avaliar comparativamente o desempenho de métodos de detecção de outliers. Durante parte do meu trabalho de mestrado, tive a colaboração intelectual de Erich Schubert, Ira Assent, Barbora Micenková, Michael Houle e, principalmente, Joerg Sander e Arthur Zimek. A contribuição deles foi essencial para as análises dos resultados e a forma compacta de apresentá-los. / The outlier detection area has an essential role in discovering patterns in data that can be considered as exceptional in some perspective. Detect such patterns is important in general because, in many data mining applications, such patterns represent extraordinary behaviors that deserve special attention. An important distinction occurs between supervised and unsupervised detection techniques. This project focuses on the unsupervised detection techniques. There are dozens of algorithms in this category in literature and new algorithms are proposed from time to time, but each of them uses its own approach of what should be considered an outlier or not, which is a subjective concept in the unsupervised context. This considerably complicates the choice of a particular algorithm in a given practical application. While it is common knowledge that no machine learning algorithm can be superior to all others in all application scenarios, it is a relevant question if the performance of certain algorithms in general tends to dominate certain other, at least in particular classes of problems. In this project, proposes to contribute to the databases study, selection and pre-processing that are appropriate to join a benchmark collection for evaluating unsupervised outlier detection algorithms. It is also proposed to evaluate comparatively the performance of outlier detection methods. During part of my master thesis, I had the intellectual collaboration of Erich Schubert, Ira Assent, Barbora Micenková, Michael Houle and especially Joerg Sander and Arthur Zimek. Their contribution was essential for the analysis of the results and the compact way to present them.
|
6 |
Uso de medidas de desempenho e de grau de interesse para análise de regras descobertas nos classificadoresRocha, Mauricio Rêgo Mota da 20 August 2008 (has links)
Made available in DSpace on 2016-03-15T19:38:11Z (GMT). No. of bitstreams: 1
Mauricio Rego Mota da Rocha.pdf: 914988 bytes, checksum: d8751dcc6d37e161867d8941bc8f7d64 (MD5)
Previous issue date: 2008-08-20 / Fundo Mackenzie de Pesquisa / The process of knowledge discovery in databases has become necessary because of the large amount of data currently stored in databases of companies. They operated properly can help the managers in decision-making in organizations. This process is composed of several steps, among them there is a data mining, stage where they are applied techniques for obtaining knowledge that can not be obtained through traditional methods of analysis. In addition to the technical, in step of data mining is also chosen the task of data mining that will be used. The data mining usually produces large amount of rules that often are not important, relevant or interesting to the end user. This makes it necessary to review the knowledge discovered in post-processing of data. In the stage of post-processing is used both measures of performance but also of degree of interest in order to sharpen
the rules more interesting, useful and relevant. In this work, using a tool called WEKA (Waikato Environment for Knowledge
Analysis), were applied techniques of mining, decision trees and rules of classification by the classification algorithms J48.J48 and J48.PART respectively. In the post-processing data was implemented a package with functions and procedures for calculation of both measures of performance but also of the degree of interest rules. At this stage consultations have also been developed (querys) to select the
most important rules in accordance with measures of performance and degree of interest. / O processo de descoberta de conhecimento em banco de dados tem se tornado necessário devido à grande quantidade de dados atualmente armazenados nas bases de dados das empresas. Esses dados devidamente explorados podem auxiliar os gestores na tomada de decisões nas organizações. Este processo é composto de várias etapas, dentre elas destaca-se a mineração de dados, etapa onde são aplicadas técnicas para obtenção de conhecimento que não podem ser obtidas através de métodos tradicionais de análise. Além das técnicas, na etapa demineração de dados também é escolhida a tarefa de mineração que será utilizada. A mineração de dados geralmente produz grande quantidade de regras que muitas vezes não são importantes, relevantes ou interessantes para o usuário final. Isto torna necessária a análise do conhecimento descoberto no pós-processamento dos dados. Na etapa de pós-processamento são utilizadas medidas tanto de desempenho como também de grau de interesse com a finalidade de apontar as regras mais interessante, úteis e relevantes. Neste trabalho, utilizando-se de uma ferramenta chamada WEKA (Waikato Environment for Knowledge Analysis), foram aplicadas as técnicas de mineração de Árvore de Decisão e de Regras de Classificação através dos algoritmos de classificação J48.J48 e J48.PART
respectivamente. No pós-processamento de dados foi implementado um pacote com funções e procedimentos para cálculo das medidas tanto de desempenho como também de grau de interesse de regras. Nesta etapa também foram desenvolvidas consultas (querys) para selecionar as regras mais importantes de acordo com as medidas de desempenho e de grau de interesse.
|
7 |
Estudo, avaliação e comparação de técnicas de detecção não supervisionada de outliers / Study, evaluation and comparison of unsupervised outlier detection techniquesGuilherme Oliveira Campos 05 March 2015 (has links)
A área de detecção de outliers (ou detecção de anomalias) possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Detectar tais padrões é relevante de maneira geral porque, em muitas aplicações de mineração de dados, tais padrões representam comportamentos extraordinários que merecem uma atenção especial. Uma importante distinção se dá entre as técnicas supervisionadas e não supervisionadas de detecção. O presente projeto enfoca as técnicas de detecção não supervisionadas. Existem dezenas de algoritmos desta categoria na literatura e novos algoritmos são propostos de tempos em tempos, porém cada um deles utiliza uma abordagem própria do que deve ser considerado um outlier ou não, que é um conceito subjetivo no contexto não supervisionado. Isso dificulta sensivelmente a escolha de um algoritmo em particular em uma dada aplicação prática. Embora seja de conhecimento comum que nenhum algoritmo de aprendizado de máquina pode ser superior a todos os demais em todos os cenários de aplicação, é uma questão relevante se o desempenho de certos algoritmos em geral tende a dominar o de determinados outros, ao menos em classes particulares de problemas. Neste projeto, propõe-se contribuir com o estudo, seleção e pré-processamento de bases de dados que sejam apropriadas para se juntarem a uma coleção de benchmarks para avaliação de algoritmos de detecção não supervisionada de outliers. Propõe-se ainda avaliar comparativamente o desempenho de métodos de detecção de outliers. Durante parte do meu trabalho de mestrado, tive a colaboração intelectual de Erich Schubert, Ira Assent, Barbora Micenková, Michael Houle e, principalmente, Joerg Sander e Arthur Zimek. A contribuição deles foi essencial para as análises dos resultados e a forma compacta de apresentá-los. / The outlier detection area has an essential role in discovering patterns in data that can be considered as exceptional in some perspective. Detect such patterns is important in general because, in many data mining applications, such patterns represent extraordinary behaviors that deserve special attention. An important distinction occurs between supervised and unsupervised detection techniques. This project focuses on the unsupervised detection techniques. There are dozens of algorithms in this category in literature and new algorithms are proposed from time to time, but each of them uses its own approach of what should be considered an outlier or not, which is a subjective concept in the unsupervised context. This considerably complicates the choice of a particular algorithm in a given practical application. While it is common knowledge that no machine learning algorithm can be superior to all others in all application scenarios, it is a relevant question if the performance of certain algorithms in general tends to dominate certain other, at least in particular classes of problems. In this project, proposes to contribute to the databases study, selection and pre-processing that are appropriate to join a benchmark collection for evaluating unsupervised outlier detection algorithms. It is also proposed to evaluate comparatively the performance of outlier detection methods. During part of my master thesis, I had the intellectual collaboration of Erich Schubert, Ira Assent, Barbora Micenková, Michael Houle and especially Joerg Sander and Arthur Zimek. Their contribution was essential for the analysis of the results and the compact way to present them.
|
8 |
Lidar-based SLAM : Investigation of environmental changes and use of road-edges for improved positioningKarlsson, Oskar January 2020 (has links)
The ability to position yourself and map the surroundings is an important aspect for both civilian and military applications. Global navigation satellite systems are very popular and are widely used for positioning. This kind of system is however quite easy to disturb and therefore lacks robustness. The introduction of autonomous vehicles has accelerated the development of local positioning systems. This thesis work is done in collaboration with FOI in Linköping, using a positioning system with LIDAR and IMU sensors in a EKF-SLAM system using the GTSAM framework. The goal was to evaluate the system in different conditions and also investigate the possibility of using the road surface for positioning. Data available at FOI was used for evaluation. These data sets have a known sensor setup and matches the intended hardware. The data sets used have been gathered on three different occasions in a residential area, a country road and a forest road in sunny spring weather on two occasions and one occasion in winter conditions. To evaluate the performance several different measures were used, common ones such as looking at positioning error and RMSE, but also the number of found landmarks, the estimated distance between landmarks and the drift of the vehicle. All results pointed towards the forest road providing the best positioning, the country road the worst and the residential area in between. When comparing different weather conditions the data set from winter conditions performed the best. The difference between the two spring data sets was quite different which indicates that there may be other factors at play than just weather. A road edge detector was implemented to improve mapping and positioning. Vectors, denoted road vectors, with position and orientation were adapted to the edge points and the change between these road vectors were used in the system using GTSAM in areas with few landmarks. The clearest improvements to the drift in the vehicle direction was in the longer country area where the error was lowered with 6.4 % with increase in the error sideways and in orientation as side effects. The implemented method has a significant impact on the computational cost of the system as well as requiring precise adjustment of uncertainty to have a noticeable improvement and not worsen the overall results.
|
Page generated in 0.117 seconds