Spelling suggestions: "subject:"seleção dde atributos"" "subject:"seleção dde tributos""
11 |
Detecção e classificação de lesões em imagens de mamografia usando classificadores SVM, wavelets morfológicas e seleção de atributosROCHA, Arthur Diego Dias 22 February 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-09-20T13:43:15Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
ArthurDiegoDiasRocha.pdf: 4681451 bytes, checksum: 976cd7abe56f828ff55cbd595fdc6c6f (MD5) / Made available in DSpace on 2016-09-20T13:43:15Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
ArthurDiegoDiasRocha.pdf: 4681451 bytes, checksum: 976cd7abe56f828ff55cbd595fdc6c6f (MD5)
Previous issue date: 2016-02-22 / FACEPE / O c^ancer de mama e o mais comum entre as mulheres no mundo e no Brasil, depois do
de pele n~ao melanoma. De acordo com o Instituto Nacional de C^ancer, em 2013 foram
registradas 14.388 mortes devido a esta mol estia. O c^ancer de mama e uma preocupa c~ao n~ao
somente nacional, mas mundial. O m etodo utilizado para a sua detec c~ao e a mamogra a,
que e uma t ecnica de imagem que utiliza a emiss~ao Raios-X incidentes na mama e capta
a parte da radia c~ao n~ao absorvida pelos tecidos mam arios. A mamogra a e um exame
de dif cil an alise pelo motivo de, em muitos casos, a densidade tecidual do tumor ser
bastante parecida com a densidade de alguns tecidos saud aveis da mama. Uma abordagem
interessante e a utiliza c~ao de t ecnicas computadorizadas de aux lio ao diagn ostico, ou
seja, ferramentas baseadas em processamento de imagens e intelig^encia computacional
projetadas para o apoio ao pro ssional radiologista. Estudos pr evios demonstram que
considerar a domin^ancia tecidual mam aria nas ferramentas computacionais de apoio ao
diagn ostico melhora consideravelmente as taxas de acerto. Para este trabalho, e proposta
a constru c~ao de um sistema de classi ca c~ao de tumores de mama baseado descritores de
Zernike como um descritor de forma das les~oes de mama, associado as m aquinas de vetor
de suporte como classi cador. S~ao comparadas diferentes t ecnicas de sele c~ao de atributos
com o objetivo de reduzir o custo computacional do sistema, mas sempre levando em conta
a necessidade de se manter altas taxas de acerto, j a que isto pode re
etir em erros de
diagn ostico de c^ancer de mama. Atrav es dos dados analisados, e notado que a t ecnica linear
de an alise de componentes principais (aliada a transformada de wavelets morfol ogica como
etapa de pr e-processamento) se mostrou uma otima t ecnica para realiza c~ao de redu c~ao de
atributos com um menor impacto nas taxas de acerto do sistema de apoio ao diagn ostico
do c^ancer de mama, onde s~ao obtidas taxas de m edias de redu c~ao de acerto em torno de 2%
(uma queda m edia de aproximadamente 95% para 93%), onde a redu c~ao do tamanho do
vetor de atributos e de cerca de 64% (dentre os diferentes tipos de tecido, s~ao selecionados
de 70 a 89 atributos do total de 224). / Breast cancer is one of the most common type of cancer among women. According to
Brazil's national institute of cancer, in 2013 it was registered 14,388 deaths due to this
disease. Breast cancer is not only a national but worldwide concern. The most used method
to its detection is mammography which is an image technique that uses X ray emission
and measures the non-absorbed radiation by the breast internal tissues. Mammography
is a hard to analyze image exam, mainly because in many cases tumor's density is much
alike some of the healthy tissues' density. An interesting approach is the use of computeraided
techniques for diagnosis, meaning the use of image processing and computational
intelligence tools designed to support and aid radiologists in their tasks. Previous studies
show that considering the di erent types of breast tissue dominance improves considerably
the rate of correct classi cation by these computational tools. It is proposed for this work
the development of a breast tumor classi cation system based on Zernike descriptors as
shape descriptors of these breast lesions along with support vector machines as machine
learning algorithms for classi cation. Some feature selection techniques are compared for
reducing the whole system computational cost but always taking into consideration that
the classi cation rates must be kept as high as possible. Of the techniques studied in this
work, principal components analysis along with morphological wavelet transform for image
preprocessing has shown itself as a great technique for feature reduction with lesser impact
on classi cation rates. It was achieved a mean 2% loss in those rates (from about 95% to
93% as mean values) with a mean feature reduction of about 64% (in the range of 70 to
89 features from 224).
|
12 |
Uma estratégia para seleção de atributos relevantes no processo de resolução de entidadesCANALLE, Gabrielle Karine 22 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-03-02T12:07:34Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Dissertacao_versao_final.pdf: 2318178 bytes, checksum: 1c672f9c2706d51a970a72df59fdb7a1 (MD5) / Made available in DSpace on 2017-03-02T12:07:34Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Dissertacao_versao_final.pdf: 2318178 bytes, checksum: 1c672f9c2706d51a970a72df59fdb7a1 (MD5)
Previous issue date: 2016-08-22 / Integração de Dados é um processo essencial quando deseja-se obter uma visão unificada de dados armazenados em fontes de dados autônomas, heterogêneas e distribuídas. Uma etapa crucial desse processo é a Resolução de Entidades, que consiste em identificar instâncias que se referem à mesma entidade do mundo real. A Resolução de Entidades se subdivide em várias fases, incluindo uma fase de comparação entre pares de instâncias. Nesta fase, são utilizadas funções que avaliam a similaridade entre os valores dos atributos que descrevem as instâncias. É importante notar que a qualidade do resultado do processo de Resolução de Entidades é diretamente afetada pelo conjunto de atributos selecionados para a fase de comparação de instâncias. Contudo, selecionar tais atributos pode ser um grande desafio, devido ao grande número de atributos que descrevem as instâncias ou à baixa relevância de alguns atributos para o processo de Resolução de Entidades. Na literatura existem alguns trabalhos que abordam esse problema. Em sua maioria, as abordagens propostas para seleção de atributos utilizam aprendizagem de máquina. No entanto, além da necessidade de um conjunto de treinamento, cuja definição é uma tarefa difícil, principalmente em cenários de grandes volumes de dados, a aprendizagem de máquina é um processo custoso. Neste contexto, este trabalho propõe uma estratégia para seleção de atributos relevantes a serem considerados na fase de comparação de instâncias do processo de Resolução de Entidades. A estratégia proposta considera critérios relacionados aos dados, tais como a densidade e repetição de valores de cada atributo, e critérios relacionados às fontes, tal como a confiabilidade, para avaliar a relevância de um atributo para a fase de comparação de instâncias. Um atributo é considerado relevante se contribui positivamente para a identificação de correspondências verdadeiras, e irrelevante se contribui na identificação de correspondências erradas (falsos positivos e falsos negativos). Em experimentos realizados, utilizando a estratégia proposta, foi possível alcançar bons resultados na comparação de instâncias do processo de Resolução de Entidades, ou seja, os atributos dados como relevantes foram aqueles que contribuíram para encontrar o maior número de correspondências verdadeiras, com o menor número de correspondências erradas. / Data integration is an essential task for achieving a unified view of data stored in autonomous, heterogeneous and distributed sources. A key step in this process is Entity Resolution, which consists of identifying instances that refer to the same real-world entity. Entity Resolution can be subdivided into several stages, including a comparison step between instance pairs. In this step, functions that check the similarity between values of attributes are used to discover equivalent instances. It is important to note that the quality of the result of the entity resolution process is directly affected by the set of selected attributes used to compare the instances. However, selecting such attributes can be challenging, due to either the large number of attributes that describes an instance or to the low relevance of some attributes regarding to the entity resolution process. In the literature, there are some approaches that investigated this problem. Most of them employ machine learning techniques for selecting relevant attributes. Usually, these techniques are computationally costly and also have the necessity of defining a training set, which requirements are non-trivial, mainly in large volumes of data scenarios. In this context, this work proposes a strategy for selecting relevant attributes to be considered in the instance comparison phase of the process of Entity Resolution. The proposed strategy considers criteria related to data, such as density and repetition of values of each attribute, and related to sources, such as reliability, to evaluate the relevance of the attributes. An attribute is considered relevant if contributes positively for the identification of true matches, and irrelevant if contributes for the identification of incorrect matches (false positives and false negatives). In our experiments, the proposed strategy achieved good results for the Entity Resolution process. That is, the attributes classified as relevant were the ones that contributed to find the greatest number of true matches with a few incorrect matches.
|
13 |
Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados / Automatic feature quantification in data clustering tasksJosé Augusto Andrade Filho 17 September 2013 (has links)
Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida / Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition
|
14 |
Identificação de florestas destinadas à produção de bioenergia no Estado do Tocantins utilizando imagens de satélite e mineração de dadosNonato, Carlos Tavares 26 August 2014 (has links)
As florestas plantadas tem atraído grande interesse pela possibilidade de utilização em
aplicações bioenergéticas frente à tendência mundial de priorizar fontes de energia que
proporcionem maior sustentabilidade ambiental, mais qualidade e segurança. No Brasil, os
deslocamentos na geografia da cadeia produtiva agroflorestal atual em direção às regiões
de fronteira agrícola (Centro-Oeste e Norte) vem criando desafios de adequação dos
conhecimentos técnico-científicos já consolidados em outras regiões. Nesse contexto, o
objetivo desta dissertação é avaliar a acurácia da classificação e identificação de áreas
cultivadas com florestas plantadas para fins energéticos, em imagens orbitais do sensor
Landsat 5 TM. Por meio de técnicas estatísticas de mineração de dados, o presente trabalho
também avaliou a utilização de um amplo conjunto de atributos para identificar melhorias
nos resultados da classificação. A pesquisa se concentrou em amostras de áreas plantadas
no estado do Tocantins, região norte do Brasil. As técnicas de mineração de dados
utilizadas se mostraram eficientes na identificação precisa de florestas plantadas em
imagens do satélite Landsat 5, tanto pelo desempenho da classificação, quanto pela
redução da quantidade de informação necessária para a resolução deste tipo de problema.
Assim, as técnicas empregadas neste estudo possibilitam o desenvolvimento de modelos de
classificação robustos no auxílio ao planejamento e à tomada de decisão sobre a plantação
de florestas no território brasileiro. / Planted forests have attracted a lot of attention because of possibility of use in bioenergy
applications and due to the global trend of prioritizing energy sources that provide greater
environmental sustainability, more quality and security. In Brazil, the shifts in the
geography of current agroforestry production chain towards the agricultural frontier areas
(Midwest and North) are creating challenges to the adequacy of technical and scientific
knowledge already established in other regions. So, the aim of this work is to assess the
accuracy of the identification and classification of areas cultivated with plantation forests
for energy, inside TM Landsat 5 images. Using statistical techniques for data mining, this
study also evaluated the use of a broad set of attributes to identify improvements in the
classification results. The research focused on samples of planted areas in the state of
Tocantins, Northern Brazil. The data mining techniques used were effective in identifying
of planted forests in Landsat 5 satellite images, both the classification performance, such as
by reducing the amount of information needed to solve this kind of problem. Thus, the
techniques employed in this study enable the development of robust classification models
to aid in the planning and decision making on forest plantations in Brazil.
|
15 |
Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos / Evaluation of unsupervised feature selection methods for Text MiningNogueira, Bruno Magalhães 27 March 2009 (has links)
Selecionar atributos é, por vezes, uma atividade necessária para o correto desenvolvimento de tarefas de aprendizado de máquina. Em Mineração de Textos, reduzir o número de atributos em uma base de textos é essencial para a eficácia do processo e a compreensibilidade do conhecimento extraído, uma vez que se lida com espaços de alta dimensionalidade e esparsos. Quando se lida com contextos nos quais a coleção de textos é não-rotulada, métodos não-supervisionados de redução de atributos são utilizados. No entanto, não existe forma geral predefinida para a obtenção de medidas de utilidade de atributos em métodos não-supervisionados, demandando um esforço maior em sua realização. Assim, este trabalho aborda a seleção não-supervisionada de atributos por meio de um estudo exploratório de métodos dessa natureza, comparando a eficácia de cada um deles na redução do número de atributos em aplicações de Mineração de Textos. Dez métodos são comparados - Ranking porTerm Frequency, Ranking por Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Método de Luhn, Método LuhnDF, Método de Salton e Zone-Scored Term Frequency - sendo dois deles aqui propostos - Método LuhnDF e Zone-Scored Term Frequency. A avaliação se dá em dois focos, supervisionado, pelo medida de acurácia de quatro classificadores (C4.5, SVM, KNN e Naïve Bayes), e não-supervisionado, por meio da medida estatística de Expected Mutual Information Measure. Aos resultados de avaliação, aplica-se o teste estatístico de Kruskal-Wallis para determinação de significância estatística na diferença de desempenho dos diferentes métodos de seleção de atributos comparados. Seis bases de textos são utilizadas nas avaliações experimentais, cada uma relativa a um grande domínio e contendo subdomínios, os quais correspondiam às classes usadas para avaliação supervisionada. Com esse estudo, este trabalho visa contribuir com uma aplicação de Mineração de Textos que visa extrair taxonomias de tópicos a partir de bases textuais não-rotuladas, selecionando os atributos mais representativos em uma coleção de textos. Os resultados das avaliações mostram que não há diferença estatística significativa entre os métodos não-supervisionados de seleção de atributos comparados. Além disso, comparações desses métodos não-supervisionados com outros supervisionados (Razão de Ganho e Ganho de Informação) apontam que é possível utilizar os métodos não-supervisionados em atividades supervisionadas de Mineração de Textos, obtendo eficiência compatível com os métodos supervisionados, dado que não detectou-se diferença estatística nessas comparações, e com um custo computacional menor / Feature selection is an activity sometimes necessary to obtain good results in machine learning tasks. In Text Mining, reducing the number of features in a text base is essential for the effectiveness of the process and the comprehensibility of the extracted knowledge, since it deals with high dimensionalities and sparse contexts. When dealing with contexts in which the text collection is not labeled, unsupervised methods for feature reduction have to be used. However, there aren\'t any general predefined feature quality measures for unsupervised methods, therefore demanding a higher effort for its execution. So, this work broaches the unsupervised feature selection through an exploratory study of methods of this kind, comparing their efficacies in the reduction of the number of features in the Text Mining process. Ten methods are compared - Ranking by Term Frequency, Ranking by Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Luhn\'s Method, LuhnDF Method, Salton\'s Method and Zone-Scored Term Frequency - and two of them are proposed in this work - LuhnDF Method and Zone-Scored Term Frequency. The evaluation process is done in two ways, supervised, through the accuracy measure of four classifiers (C4.5, SVM, KNN and Naïve Bayes), and unsupervised, using the Expected Mutual Information Measure. The evaluation results are submitted to the statistical test of Kruskal-Wallis in order to determine the statistical significance of the performance difference of the different feature selection methods. Six text bases are used in the experimental evaluation, each one related to one domain and containing sub domains, which correspond to the classes used for supervised evaluation. Through this study, this work aims to contribute with a Text Mining application that extracts topic taxonomies from unlabeled text collections, through the selection of the most representative features in a text collection. The evaluation results show that there is no statistical difference between the unsupervised feature selection methods compared. Moreover, comparisons of these unsupervised methods with other supervised ones (Gain Ratio and Information Gain) show that it is possible to use unsupervised methods in supervised Text Mining activities, obtaining an efficiency compatible with supervised methods, since there isn\'t any statistical difference the statistical test detected in these comparisons, and with a lower computational effort
|
16 |
Seleção de atributos em agrupamento de dados utilizando algoritmos evolutivos / Feature subset selection in data clustering using evolutionary algorithmMartarelli, Nádia Junqueira 03 August 2016 (has links)
Com o surgimento da tecnologia da informação, o processo de análise e interpretação de dados deixou de ser executado exclusivamente por seres humanos, passando a contar com auxílio computacional para a descoberta de conhecimento em grandes bancos de dados. Este auxílio exige uma organização e ordenação das atividades, antes manualmente exercidas, em um processo composto de três grandes etapas. A primeira etapa deste processo conta com uma tarefa de redução da dimensionalidade, que tem como objetivo a eliminação de atributos que não contribuem para a análise dos dados, resultando portanto, na seleção de um subconjunto dos atributos originais. A seleção de um subconjunto de atributos pode ser encarada como um problema de busca, já que há inúmeras possibilidades de combinação dos atributos originais em subconjuntos. Dessa forma, uma das estratégias de busca que pode ser adotada consiste na busca randômica, executada por um algoritmo genético ou pelas suas variações. Este trabalho propõe a aplicação de duas variações do algoritmo genético, Algoritmo Genético Construtivo e Algoritmo Genético Enviesado com Chave Aleatória, no problema de seleção de atributos em agrupamento de dados, já que estas duas variações ainda não foram aplicadas em tal problema. A fim de verificar o desempenho destas duas variações, comparou-se ambas com a abordagem tradicional do algoritmo genético. Efetuou-se também a comparação entre as duas variações. Para isto, foi utilizada três bases de dados retiradas do repositório UCI de aprendizado de máquinas. Os resultados obtidos mostraram que os desempenhos, em termos de qualidade da solução, dos algoritmos: genético construtivo e genético enviesado com chave aleatório foram melhores, de maneira geral, do que o desempenho da abordagem tradicional. Constatou-se também diferença significativa em termos de eficiência entre as duas variações e a abordagem tradicional. / With the advent of information technology, the process of analysis and interpretation of data left to be run exclusively by humans, going to rely on computational support for knowledge discovery in large databases. This aid requires an organization and sequencing of activities before manually performed in a compound of three major step process. The first step of this process has a reduced dimensionality task, which aims to eliminate attributes that do not contribute to the data analysis, resulting therefore, in selecting a subset of the original attributes. Selecting a subset of attributes can be viewed as a search problem, since there are numerous possible combinations of unique attributes into subsets. Thus, one search strategies that can be adopted is to randomly search, performed by a genetic algorithm or its variants. This paper proposes the application of two variations of the genetic algorithm, Constructive Genetic Algorithm and Biased Random Key Genetic Algorithm in the feature selection problem in data grouping, as these two variations have not been applied in such a problem. In order to verify the performance of the two variations, we compare them with the traditional algorithm, genetic algorithm. It was also executed the comparison between the two variations. For this, we used three databases removed from the UCI repository of machine learning. The results showed that the performance, in term of quality solution, of algorithms: genetic constructive and genetic biased with random key are better than the performance of the traditional approach. It was also observed a significant difference in efficiency between of the two variations and the traditional approach.
|
17 |
Aplicação de algoritmos genéticos multiobjetivo ao problema de seleção de atributosSpolaôr, Newton January 2010 (has links)
Orientadora: Ana Carolina Lorena. / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Engenharia da Informação.
|
18 |
Seleção de atributos em agrupamento de dados utilizando algoritmos evolutivos / Feature subset selection in data clustering using evolutionary algorithmNádia Junqueira Martarelli 03 August 2016 (has links)
Com o surgimento da tecnologia da informação, o processo de análise e interpretação de dados deixou de ser executado exclusivamente por seres humanos, passando a contar com auxílio computacional para a descoberta de conhecimento em grandes bancos de dados. Este auxílio exige uma organização e ordenação das atividades, antes manualmente exercidas, em um processo composto de três grandes etapas. A primeira etapa deste processo conta com uma tarefa de redução da dimensionalidade, que tem como objetivo a eliminação de atributos que não contribuem para a análise dos dados, resultando portanto, na seleção de um subconjunto dos atributos originais. A seleção de um subconjunto de atributos pode ser encarada como um problema de busca, já que há inúmeras possibilidades de combinação dos atributos originais em subconjuntos. Dessa forma, uma das estratégias de busca que pode ser adotada consiste na busca randômica, executada por um algoritmo genético ou pelas suas variações. Este trabalho propõe a aplicação de duas variações do algoritmo genético, Algoritmo Genético Construtivo e Algoritmo Genético Enviesado com Chave Aleatória, no problema de seleção de atributos em agrupamento de dados, já que estas duas variações ainda não foram aplicadas em tal problema. A fim de verificar o desempenho destas duas variações, comparou-se ambas com a abordagem tradicional do algoritmo genético. Efetuou-se também a comparação entre as duas variações. Para isto, foi utilizada três bases de dados retiradas do repositório UCI de aprendizado de máquinas. Os resultados obtidos mostraram que os desempenhos, em termos de qualidade da solução, dos algoritmos: genético construtivo e genético enviesado com chave aleatório foram melhores, de maneira geral, do que o desempenho da abordagem tradicional. Constatou-se também diferença significativa em termos de eficiência entre as duas variações e a abordagem tradicional. / With the advent of information technology, the process of analysis and interpretation of data left to be run exclusively by humans, going to rely on computational support for knowledge discovery in large databases. This aid requires an organization and sequencing of activities before manually performed in a compound of three major step process. The first step of this process has a reduced dimensionality task, which aims to eliminate attributes that do not contribute to the data analysis, resulting therefore, in selecting a subset of the original attributes. Selecting a subset of attributes can be viewed as a search problem, since there are numerous possible combinations of unique attributes into subsets. Thus, one search strategies that can be adopted is to randomly search, performed by a genetic algorithm or its variants. This paper proposes the application of two variations of the genetic algorithm, Constructive Genetic Algorithm and Biased Random Key Genetic Algorithm in the feature selection problem in data grouping, as these two variations have not been applied in such a problem. In order to verify the performance of the two variations, we compare them with the traditional algorithm, genetic algorithm. It was also executed the comparison between the two variations. For this, we used three databases removed from the UCI repository of machine learning. The results showed that the performance, in term of quality solution, of algorithms: genetic constructive and genetic biased with random key are better than the performance of the traditional approach. It was also observed a significant difference in efficiency between of the two variations and the traditional approach.
|
19 |
Extração de forma compacta de regras fuzzy de uma rede BayesianaHsien, Yin 02 July 2010 (has links)
Made available in DSpace on 2016-06-02T19:05:47Z (GMT). No. of bitstreams: 1
3324.pdf: 1850607 bytes, checksum: 92205ea8790a4197a10996b4ec47aa7d (MD5)
Previous issue date: 2010-07-02 / Universidade Federal de Minas Gerais / The decision support tools are importants in many domains of our society. But there is a need to make users understand the decisions made by those tools in order to increase the faith of the users on the results. In the literature, Bayesian networks are considered as a probabilistic classification system with good performance. But it still need a better presentation of it results to make it more understandable to the users. In other hand, the fuzzy logic ofer potential to deal with imprecision and uncertainty, as well as a linguistic representation, which facilitates user's understanding. The combination of Bayesian networks and fuzzy logic is proposed by the method BayesFuzzy, which make use of fuzzy rules as a form of explanation of a Bayesian network, it aims to obtain a decision support tool with good performance and easy to be understood by users. So we are proposiing the method Pruned BayesFuzzy (PBF), it is a BayesFuzzy incorporated with minimum certainty degree, default rule and Rule Post-Pruning as a form to select the most important rules for classification between all the rules generated, it also simplifies those rules. The results of PBF show an improvement in understanding but a loss in correct classification rate. But the improvement in understanding is promising enough to further research and enhance of the PBF. Then beside PBF, we also propose the Pruned BayesFuzzy 2 (PBF2), which is PBF incorporated with a feature selection technique based on Markov Blanket. With the incorporation of this technique, it's possible to deal with situations that contains a large amount of variables inside of the Markov Blanket of the class variable. The results show a loss in correct classification rate, that is already expected when we try to simplify further more the Markov Blanket. However, the availability to be able to deal with big scale problems is something to be considered. / As ferramentas de apoio à decisão são importantes em diversos domínios da nossa sociedade. Porém há uma necessidade do usuário entender as decisões feitas por tais ferramentas para ter uma confiança maior sobre os resultados. Na literatura técnica, as redes Bayesianas são consideradas como um sistema probabilístico de classificação com bom desempenho em termos de precisão. Mas ainda necessitam de uma forma de apresentação mais compreensível para os usuários. Por outro lado, a lógica fuzzy oferece potencial para lidar com imprecisão e incerteza, assim como a representação linguística, o que facilita a compreensão dos usuários. A combinação das redes Bayesianas com a lógica fuzzy é proposta pelo método BayesFuzzy que utiliza regras fuzzy como explicação de uma rede Bayesiana, com o objetivo de obter uma ferramenta de apoio à decisão de bom desempenho e que seja fácil de ser compreendida pelos usuários. O BayesFuzzy, entretanto, apresenta limitações com relação ao número de regras geradas e isto torna seus resultados, muitas vezes, de difícil interpretação. Assim, neste trabalho de mestrado é proposto o método Pruned BayesFuzzy (PBF). O PBF tem como base o BayesFuzzy e incorpora algumas técnicas de minimização do número de regras para otimizar a compreensibilidade dos resultados gerados. Dentre as técnicas incorporadas estão o mínimo grau de certeza, a regra default e a poda Rule Post- Pruning como formas de selecionar dentre as regras geradas, as mais importantes para a classificação e ao mesmo tempo simplificando estas regras. Os resultados do PBF mostram que houve um ganho grande em relação à compreensibilidade, mas também uma perda na taxa de classificação correta. Porém o ganho de compreensibilidade é bastante promissor o que estimula a pesquisa e a seqüência dos trabalhos com o PBF. Além do PBF, este trabalho propõe também o Pruned BayesFuzzy 2 (PBF2) que é o PBF incorporando uma técnica de seleção de atributos baseado em Markov Blanket. Com a incorporação desta técnica, é possível lidar com situações que contém uma quantidade grande de variáveis dentro do Markov Blanket da variável classe. Os resultados mostram que houve perda na taxa de classificação correta, o que é de se esperar quando tentamos simplificar mais ainda o Markov Blanket. A viabilidade de poder resolver problemas reais de grande escala e com algumas características específicas é ainda algo a ser considerado.
|
20 |
Uma abordagem semântica para seleção de atributos no processo de KDDRibeiro, Lamark dos Santos 27 August 2010 (has links)
Made available in DSpace on 2015-05-14T12:36:27Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 2925122 bytes, checksum: e65ad4a8f7ca12fb8a90eaf2a8783d65 (MD5)
Previous issue date: 2010-08-27 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Currently, two issues of great importance for the computation are being used together in an increasingly apparent: a Knowledge Discovery in Databases (KDD) and Ontologies. By developing the ways in which data is stored, the amount of information available for analysis has increased exponentially, making it necessary techniques to analyze data and gain knowledge for different purposes. In this sense, the KDD process introduces stages that enable the discovery of useful knowledge, and new features that usually cannot be seen only by viewing the data in raw form.
In a complementary field, the Knowledge Discovery can be benefited with Ontologies. These, in a sense, have the capacity to store the "knowledge" about certain areas. The knowledge that can be retrieved through inference classes, descriptions, properties and constraints.
Phases existing in the process of knowledge discovery, the selection of attributes allows the area of analysis for data mining algorithms can be improved with attributes more relevant to the problem analyzed. But sometimes these screening methods do not eliminate the attributes satisfactorily, do allow a preliminary analysis on the area treated. To address this problem this paper proposes a system that uses ontologies to store the prior knowledge about a specific domain, enabling a semantic analysis previously not possible using conventional methodologies. Was elaborated an ontology, with reuse of various repositories of ontologies available on the Web, specific to the medical field with a possible common specifications in key areas of medicine. To introduce semantics in the selection of attributes is first performed the mapping between data base attributes and classes of the ontology. Done this mapping, the user can now select attributes by semantic categories, reducing the dimensionality of the data and view redundancies between semantically related attributes. / Atualmente, dois temas de grande importância para a computação, estão sendo utilizados conjuntamente de uma forma cada vez mais aparente: a Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery in Databases KDD) e as Ontologias. Com o aperfeiçoamento das formas com que os dados são armazenados, a quantidade de informação disponível para análise aumentou exponencialmente, tornando necessário técnicas para analisar esses dados e obter conhecimento para os mais diversos propósitos. Nesse contexto, o processo de KDD introduz etapas que possibilitam a descoberta de conhecimentos úteis, novos e com características que geralmente não podiam ser vistas apenas visualizando os dados de forma bruta.
Em um campo complementar, a Descoberta de Conhecimento em Banco de Dados pode ser beneficiada com Ontologias. Essas, de certa forma, apresentam a capacidade para armazenar o conhecimento , segundo um modelo de alta expressividade semântica, sobre determinados domínios. As ontologias permitem que o conhecimento seja recuperado através de inferências nas classes, descrições, propriedades e restrições.
Nas fases existentes no processo de descoberta do conhecimento, a Seleção de Atributos permite que o espaço de análise para os algoritmos de Mineração de Dados possa ser melhorado com atributos mais relevantes para o problema analisado. Porém, algumas vezes esses métodos de seleção não eliminam de forma satisfatória os atributos irrelevantes, pois não permitem uma análise prévia sobre o domínio tratado. Para tratar esse problema, esse trabalho propõe um sistema que utiliza ontologias para armazenar o conhecimento prévio sobre um domínio específico, possibilitando uma análise semântica antes não viável pelas metodologias convencionais. Foi elaborada uma ontologia, com reuso de diversos repositórios de ontologias disponíveis na Web, específica para o domínio médico e com possíveis especificações comuns nas principais áreas da medicina. Para introduzir semântica no processo de seleção de atributos primeiro é realizado o mapeamento entre os atributos do banco de dados e as classes da ontologia. Feito esse mapeamento, o usuário agora pode selecionar atributos através de categorias semânticas, reduzir a dimensionalidade dos dados e ainda visualizar redundâncias existentes entre atributos correlacionados semanticamente.
|
Page generated in 0.0824 seconds