Global ETD Search

21	Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos / Evaluation of unsupervised feature selection methods for Text Mining Bruno Magalhães Nogueira 27 March 2009 (has links) Selecionar atributos é, por vezes, uma atividade necessária para o correto desenvolvimento de tarefas de aprendizado de máquina. Em Mineração de Textos, reduzir o número de atributos em uma base de textos é essencial para a eficácia do processo e a compreensibilidade do conhecimento extraído, uma vez que se lida com espaços de alta dimensionalidade e esparsos. Quando se lida com contextos nos quais a coleção de textos é não-rotulada, métodos não-supervisionados de redução de atributos são utilizados. No entanto, não existe forma geral predefinida para a obtenção de medidas de utilidade de atributos em métodos não-supervisionados, demandando um esforço maior em sua realização. Assim, este trabalho aborda a seleção não-supervisionada de atributos por meio de um estudo exploratório de métodos dessa natureza, comparando a eficácia de cada um deles na redução do número de atributos em aplicações de Mineração de Textos. Dez métodos são comparados - Ranking porTerm Frequency, Ranking por Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Método de Luhn, Método LuhnDF, Método de Salton e Zone-Scored Term Frequency - sendo dois deles aqui propostos - Método LuhnDF e Zone-Scored Term Frequency. A avaliação se dá em dois focos, supervisionado, pelo medida de acurácia de quatro classificadores (C4.5, SVM, KNN e Naïve Bayes), e não-supervisionado, por meio da medida estatística de Expected Mutual Information Measure. Aos resultados de avaliação, aplica-se o teste estatístico de Kruskal-Wallis para determinação de significância estatística na diferença de desempenho dos diferentes métodos de seleção de atributos comparados. Seis bases de textos são utilizadas nas avaliações experimentais, cada uma relativa a um grande domínio e contendo subdomínios, os quais correspondiam às classes usadas para avaliação supervisionada. Com esse estudo, este trabalho visa contribuir com uma aplicação de Mineração de Textos que visa extrair taxonomias de tópicos a partir de bases textuais não-rotuladas, selecionando os atributos mais representativos em uma coleção de textos. Os resultados das avaliações mostram que não há diferença estatística significativa entre os métodos não-supervisionados de seleção de atributos comparados. Além disso, comparações desses métodos não-supervisionados com outros supervisionados (Razão de Ganho e Ganho de Informação) apontam que é possível utilizar os métodos não-supervisionados em atividades supervisionadas de Mineração de Textos, obtendo eficiência compatível com os métodos supervisionados, dado que não detectou-se diferença estatística nessas comparações, e com um custo computacional menor / Feature selection is an activity sometimes necessary to obtain good results in machine learning tasks. In Text Mining, reducing the number of features in a text base is essential for the effectiveness of the process and the comprehensibility of the extracted knowledge, since it deals with high dimensionalities and sparse contexts. When dealing with contexts in which the text collection is not labeled, unsupervised methods for feature reduction have to be used. However, there aren\'t any general predefined feature quality measures for unsupervised methods, therefore demanding a higher effort for its execution. So, this work broaches the unsupervised feature selection through an exploratory study of methods of this kind, comparing their efficacies in the reduction of the number of features in the Text Mining process. Ten methods are compared - Ranking by Term Frequency, Ranking by Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Luhn\'s Method, LuhnDF Method, Salton\'s Method and Zone-Scored Term Frequency - and two of them are proposed in this work - LuhnDF Method and Zone-Scored Term Frequency. The evaluation process is done in two ways, supervised, through the accuracy measure of four classifiers (C4.5, SVM, KNN and Naïve Bayes), and unsupervised, using the Expected Mutual Information Measure. The evaluation results are submitted to the statistical test of Kruskal-Wallis in order to determine the statistical significance of the performance difference of the different feature selection methods. Six text bases are used in the experimental evaluation, each one related to one domain and containing sub domains, which correspond to the classes used for supervised evaluation. Through this study, this work aims to contribute with a Text Mining application that extracts topic taxonomies from unlabeled text collections, through the selection of the most representative features in a text collection. The evaluation results show that there is no statistical difference between the unsupervised feature selection methods compared. Moreover, comparisons of these unsupervised methods with other supervised ones (Gain Ratio and Information Gain) show that it is possible to use unsupervised methods in supervised Text Mining activities, obtaining an efficiency compatible with supervised methods, since there isn\'t any statistical difference the statistical test detected in these comparisons, and with a lower computational effort Aprendizado de máquina Aprendizado não-supervisionado Mineração de textos Seleção de atributos Feature selection Machine learning Text mining Unsupervised learning
22	Seleção de atributos para aprendizagem multirrótulo / Feature selection for multi-label learning Spolaôr, Newton 24 September 2014 (has links) A presença de atributos não importantes, i.e., atributos irrelevantes ou redundantes nos dados, pode prejudicar o desempenho de classificadores gerados a partir desses dados por algoritmos de aprendizado de máquina. O objetivo de algoritmos de seleção de atributos consiste em identificar esses atributos não importantes para removê-los dos dados antes da construção de classificadores. A seleção de atributos em dados monorrótulo, nos quais cada exemplo do conjunto de treinamento é associado com somente um rótulo, tem sido amplamente estudada na literatura. Entretanto, esse não é o caso para dados multirrótulo, nos quais cada exemplo é associado com um conjunto de rótulos (multirrótulos). Além disso, como esse tipo de dados usualmente apresenta relações entre os rótulos do multirrótulo, algoritmos de aprendizado de máquina deveriam considerar essas relações. De modo similar, a dependência de rótulos deveria também ser explorada por algoritmos de seleção de atributos multirrótulos. A abordagem filtro é uma das mais utilizadas por algoritmos de seleção de atributos, pois ela apresenta um custo computacional potencialmente menor que outras abordagens e utiliza características gerais dos dados para calcular as medidas de importância de atributos. tais como correlação de atributo-classe, entre outras. A hipótese deste trabalho é trabalho é que algoritmos de seleção de atributos em dados multirrótulo que consideram a dependência de rótulos terão um melhor desempenho que aqueles que ignoram essa informação. Para tanto, é proposto como objetivo deste trabalho o projeto e a implementação de algoritmos filtro de seleção de atributos multirrótulo que consideram relações entre rótulos. Em particular, foram propostos dois métodos que levam em conta essas relações por meio da construção de rótulos e da adaptação inovadora do algoritmo de seleção de atributos monorrótulo ReliefF. Esses métodos foram avaliados experimentalmente e apresentam bom desempenho em termos de redução no número de atributos e qualidade dos classificadores construídos usando os atributos selecionados. / Irrelevant and/or redundant features in data can deteriorate the performance of the classifiers built from this data by machine learning algorithms. The aim of feature selection algorithms consists in identifying these features and removing them from data before constructing classifiers. Feature selection in single-label data, in which each instance in the training set is associated with only one label, has been widely studied in the literature. However, this is not the case for multi-label data, in which each instance is associated with a set of labels. Moreover, as multi-label data usually exhibit relationships among the labels in the set of labels, machine learning algorithms should take thiis relatinship into account. Therefore, label dependence should also be explored by multi-label feature selection algorithms. The filter approach is one of the most usual approaches considered by feature selection algorithms, as it has potentially lower computational cost than approaches and uses general properties from data to calculate feature importance measures, such as the feature-class correlation. The hypothesis of this work is that feature selection algorithms which consider label dependence will perform better than the ones that disregard label dependence. To this end, ths work proposes and develops filter approach multi-label feature selection algorithms which take into account relations among labels. In particular, we proposed two methods that take into account these relations by performing label construction and adapting the single-label feature selection algorith RelieF. These methods were experimentally evaluated showing good performance in terms of feature reduction and predictability of the classifiers built using the selected features. Construção de rótulos Ganho de informação Information gain Label construction Multi-label feature selection ReliefF ReliefF Revisão sistemática Seleção de atributos multirrótulo Systematic review
23	Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations / Seleção de atributos efetiva e não-supervisionada em grandes bases de dados: aplicando a Teoria de Fractais para remover correlações lineares e não-lineares Fraideinberze, Antonio Canabrava 04 September 2017 (has links) Given a very large dataset of moderate-to-high dimensionality, how to mine useful patterns from it? In such cases, dimensionality reduction is essential to overcome the well-known curse of dimensionality. Although there exist algorithms to reduce the dimensionality of Big Data, unfortunately, they all fail to identify/eliminate non-linear correlations that may occur between the attributes. This MSc work tackles the problem by exploring concepts of the Fractal Theory and massive parallel processing to present Curl-Remover, a novel dimensionality reduction technique for very large datasets. Our contributions are: (a) Curl-Remover eliminates linear and non-linear attribute correlations as well as irrelevant attributes; (b) it is unsupervised and suits for analytical tasks in general not only classification; (c) it presents linear scale-up on both the data size and the number of machines used; (d) it does not require the user to guess the number of attributes to be removed, and; (e) it preserves the attributes semantics by performing feature selection, not feature extraction. We executed experiments on synthetic and real data spanning up to 1.1 billion points, and report that our proposed Curl-Remover outperformed two PCA-based algorithms from the state-of-the-art, being in average up to 8% more accurate. / Dada uma grande base de dados de dimensionalidade moderada a alta, como identificar padrões úteis nos objetos de dados? Nesses casos, a redução de dimensionalidade é essencial para superar um fenômeno conhecido na literatura como a maldição da alta dimensionalidade. Embora existam algoritmos capazes de reduzir a dimensionalidade de conjuntos de dados na escala de Terabytes, infelizmente, todos falham em relação à identificação/eliminação de correlações não lineares entre os atributos. Este trabalho de Mestrado trata o problema explorando conceitos da Teoria de Fractais e processamento paralelo em massa para apresentar Curl-Remover, uma nova técnica de redução de dimensionalidade bem adequada ao pré-processamento de Big Data. Suas principais contribuições são: (a) Curl-Remover elimina correlações lineares e não lineares entre atributos, bem como atributos irrelevantes; (b) não depende de supervisão do usuário e é útil para tarefas analíticas em geral não apenas para a classificação; (c) apresenta escalabilidade linear tanto em relação ao número de objetos de dados quanto ao número de máquinas utilizadas; (d) não requer que o usuário sugira um número de atributos para serem removidos, e; (e) mantêm a semântica dos atributos por ser uma técnica de seleção de atributos, não de extração de atributos. Experimentos foram executados em conjuntos de dados sintéticos e reais contendo até 1,1 bilhões de pontos, e a nova técnica Curl-Remover apresentou desempenho superior comparada a dois algoritmos do estado da arte baseados em PCA, obtendo em média até 8% a mais em acurácia de resultados. Big data Big data Feature selection Fractal theory Massive parallel processing Non-linear attribute correlations Processamento paralelo em massa Seleção de atributos Teoria de fractais
24	Genetic generation of fuzzy knowledge bases: new perspectives / Geração genética de bases de conhecimento fuzzy: novas perspectivas Cintra, Marcos Evandro 10 April 2012 (has links) This work focus on the genetic generation of fuzzy systems. One of the main contribution of this work is the proposal of the FCA-BASED method, which generates the genetic search space using the formal concept analysis theory by extracting rules from data. The experimental evaluation results of the FCA-BASED method show its robustness, producing a good trade-off between the accuracy and the interpretability of the generated models. Moreover, the FCA-BASED method presents improvements to the DOC-BASED method, a previously proposed approach, related to the reduction of the computational cost for the generation of the genetic search space. In order to tackle high dimensional datasets, we also propose the FUZZYDT method, a fuzzy version of the classic C4.5 decision tree, a highly scalable method that presents low computational cost and competitive accuracy. Due to these characteristics, FUZZYDT is used in this work as a baseline method for the experimental evaluation and comparisons of other classic and fuzzy classification methods. We also include in this work the use of the FUZZYDT method to a real world problem, the warning of the coffee rust disease in Brazilian crops. Furthermore, this work investigates the task of feature subset selection to address the dimensionality issue of fuzzy systems. To this end, we propose the FUZZYWRAPPER method, a wrapper-based approach that selects features taking the relevant information regarding the fuzzyfication of the attributes into account, in the feature selection process. This work also investigates the automatic design of fuzzy data bases, proposing the FUZZYDBD method, which estimates the number of fuzzy sets defining all the attributes of a dataset and evenly distributing the fuzzy sets in the domains of the attributes. A modified version of the FUZZYDBD method, FUZZYDBD-II, which defines independent numbers of fuzzy sets for each attribute of a dataset, by means of estimation functions, is also proposed in this work / Este trabalho foca na geração genética de sistemas fuzzy. Uma das principais contribuições deste trabalho é a proposta do método FCA-BASED, que gera o espaço de busca genético usando a teoria de análise de conceitos formais por meio da extração de regras dos dados. Os resultados da avaliação experimental do método FCA-BASED demonstram sua robustez. O método FCABASED também produz um bom trade-off entre acurácia e interpretabilidade dos modelos gerados. Além disso, o método FCA-BASED apresenta melhorias em relação ao método DOC-BASED, uma abordagem proposta anteriormente. Essas melhorias estão relacionadas à redução do custo computacional para a geração do espaço de busca genético. Para ser capaz de trabalhar com conjuntos de dados de alta dimensão, foi também proposto o método FUZZYDT, uma versão fuzzy da clássica árvore de decisão C4.5. FUZZYDT é um método altamente escalável que apresenta baixo custo computacional e acurácia competitiva. Devido a essas características, o FUZZYDT é usado nesse trabalho como um método baseline para a avaliação experimental e comparações de outros métodos de classificação, fuzzy e clássicos. Também está incluido nesse trabalho a aplicação do método FUZZYDT em um problema do mundo real, o alerta da doença da ferrugem cafeeira em plantações brasileiras. Além disso, esse trabalho investiga a tarefa de seleção de atributos como forma de atacar o problema da dimensionalidade de sistemas fuzzy. Para esse fim, foi proposto o método FUZZYWRAPPER, uma abordagem baseada em wrapper que seleciona atributos levando em consideração as informações relevantes sobre a fuzificação dos atributos durante o processo de seleção. Esse trabalho também investiga a construção automática de bases de dados fuzzy, incluindo a proposta do método FUZZYDBD, que estima o número de conjuntos fuzzy que define todos os atributos de um conjunto de dados e distribui os conjuntos fuzzy proporcionalmente nos domínios dos atributos. Uma versão modificada do método FUZZYDBD, o método FUZZYDBD-II, também é proposta nesse trabalho. O método FUZZYDBD-II define números independentes de conjuntos fuzzy para cada atributo de um conjunto de dados por meio de funções de estimação Algoritmos genéticos Aprendizado de máquina Classificação Classification Feature selection Fuzzy systems Genetic algorithms Genetic fuzzy systems Machine learning Seleção de atributos Sistemas fuzzy Sistemas fuzzy genéticos
25	SELEÇÃO DE ATRIBUTOS EM IMAGENS COLETADAS SOB CONDIÇÕES DE ILUMINAÇÃO NÃO CONTROLADA E SUA INFLUÊNCIA NO DESEMPENHO DE CLASSIFICADORES NAIVE BAYES PARA IDENTIFICAÇÃO DE OBJETOS EM ESTUFAS AGRÍCOLAS Gaspareto, Marinaldo José 10 September 2013 (has links) Made available in DSpace on 2017-07-21T14:19:40Z (GMT). No. of bitstreams: 1 Marinaldo Gaspareto.pdf: 1456191 bytes, checksum: ffaf0b449c6b9d107bdf1946a4619315 (MD5) Previous issue date: 2013-09-10 / A problem regarding the implementation of navigation systems for autonomous moving robots is to detect the objects of interest and obstacles which are in the environment. This study considers the detection of walls / low walls of agricultural greenhouses in digital images obtained without illumination control. The proposed approach employs techniques of digital image processing and digital classification to detect the object of interest. The classifier has been developed digital type Naive Bayes. Two important issues when employing classification methods in computer vision is the accuracy of the classifier and the complexity of computing time. The selection of attributes descriptors that comprise a classifier has great impact on these two factors, generally the fewer attributes are required, the lower the computational cost. Regarding it, this study compared the performance of two methods of feature selection based on principal component analysis, named B2 and B4 in two cases. In the first scenario the feature selection was conducted on all the data extracted from all images. The second selection was performed for images grouped by similarity. After selection, the selected attributes for each approach was used to construct the type Naive Bayes classifier with 12, 17, 22 and 27 input variables. The results indicate that the grouping of images is useful when: (a) the distance from the center of the group to the center of the original database exceeds a threshold and (b) a correlation among the descriptors variables and the target variable is greater than in the group as a whole complete data. Keywords: Greenhouses, Autonomous navigation, Selection attributes, Naive Bayes classifiers. / Um problema relativo à implementação de sistemas de navegação para robôs autônomos móveis é a detecção dos objetos de interesse e dos obstáculos que estão no ambiente. Este trabalho considera a detecção das paredes/muretas de estufas agrícolas em imagens digitais adquiridas sem controle de iluminação. A abordagem proposta emprega técnicas de processamento digital de imagens e classificação digital para detectar o objeto de interesse. O classificador digital desenvolvido foi do tipo Naive Bayes. Duas questões importantes quando do emprego de métodos de classificação em visão computacional são a acurácia do classificador e a complexidade de tempo de computação. A seleção dos atributos descritores que compõem um classificador tem grande impacto sobre estes dois fatores, de um modo geral, quanto menos atributos forem necessários, menor o custo computacional. Considerando isso, este trabalho comparou o desempenho de dois métodos de seleção de atributos baseados na análise de componentes principais, chamados B2 e B4 em duas situações. Na primeira situação, a seleção de atributos foi realizada sobre o conjunto dos dados extraídos de todas as imagens. Na segunda, a seleção foi realizada para imagens agrupadas por similaridade. Após a seleção, os atributos selecionados em cada uma das abordagens foram usados para construir classificadores do tipo Naive Bayes com 12, 17, 22 e 27 variáveis de entrada. Os resultados indicam que o agrupamento de imagens é útil quando: (a) a distância do centro do grupo ao centro da base original ultrapassa um limiar e (b) a correlação entre as variáveis descritoras e a variável meta é maior no grupo do que no conjunto completo de dados. seleção de atributos classificadores Naive Bayes greenhouses autonomous navigation selection attributes Naive Bayes classifiers
26	Seleção de bandas espectrais apoiada pela metaheurística PSO para predição do teor de alumínio trocável de amostras de solo Rodrigues, Giancarlo 13 September 2018 (has links) Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2018-11-06T17:18:16Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Giancarlo Rodrigues.pdf: 1835625 bytes, checksum: 84e769e19af35cc8103d542fe655e171 (MD5) / Made available in DSpace on 2018-11-06T17:18:16Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Giancarlo Rodrigues.pdf: 1835625 bytes, checksum: 84e769e19af35cc8103d542fe655e171 (MD5) Previous issue date: 2018-09-13 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A estimativa do teor de nutrientes do solo por espectroscopia de refletância difusa é feita através de um modelo de predição, do qual seu desempenho determina a efetividade do método em realizá-la. Esse modelo é elaborado por técnicas que procuram correlacionar dados de refletância de uma coleção de amostras ao respectivo valor de referência obtido por análise química, ambos dispostos como atributos de um conjunto de dados. Não obstante, a quantidade de atributos desse conjunto é elevada – alta dimensionalidade – e nem todos são relevantes à predição do nutriente de interesse, logo elaborar um modelo a partir de um conjunto com essas características envolve uma série de complicações que prejudicam seu desempenho de predição. Uma das estratégias para contorná-las é manter no conjunto de dados apenas atributos relevantes à predição do nutriente de interesse, o que é feito através da Seleção de Subconjunto de Atributos (SSA), porém a maioria dos algoritmos que a executam não apresentam desempenho satisfatório ao manusear conjuntos de alta dimensionalidade. A literatura pertinente, por outro lado, constatou que o emprego de algoritmos evolutivos para SSA em conjuntos com essa característica fornece subconjuntos de qualidade num tempo de execução aceitável, logo o objetivo desta dissertação foi identificar com o apoio da metaheurística de Otimização por Enxame de Partículas – PSO – os comprimentos de onda da região do infravermelho visível e próximo relevantes à predição do teor de alumínio trocável de amostras de solo da região dos Campos Gerais. Para isso, a SSA foi configurada como um problema de otimização em que o objetivo foi minimizar o valor de AIC dos modelos elaborados pelo algoritmo de Regressão Linear Múltipla a partir dos subconjuntos candidatos. Ademais, sabendo da influência dos parâmetros do algoritmo no resultado final, primeiro foram investigados os valores ideais para número de iterações, tamanho do enxame e valor de limiar que proporcionaram a seleção dos melhores subconjuntos, depois estes foram validados num conjunto de dados independente e o melhor apontado. Nossos resultados sugerem que, para nosso cenário, 40 iterações, tamanho de enxame 20 e limiar 0,6 fornecem os melhores subconjuntos, porém o desempenho de predição do melhor modelo identificado ainda é passível de aprimoramento. A redução proporcionada pelo método adotado foi significativa e por conta disso essa abordagem é indicada para SSA em conjuntos de dados de espectroscopia. / The soil nutrient content estimation by diffuse reflectance spectroscopy is done through a prediction model whose performance determines the method effectiveness when performing it. This model is elaborated by techniques that try correlating a sample collection’s reflectance data to the respective reference value obtained through chemical analysis, both arranged as dataset attributes. Nevertheless, the dataset attributes amount is large – high dimensionality – and not all of them are relevant to the interest nutrient’s prediction, so elaborating a model from a dataset with these characteristics involves some complications that impact its prediction performance. A strategy to circumvent them is keeping only relevant attributes to the interest nutrient’s prediction, which is done through Feature Subset Selection (FSS), but the majority of algorithms that perform it do not operate satisfactorily when handling highdimensional sets. On the other hand, the pertinent literature found that employing evolutionary algorithms for FSS in high-dimensionality datasets provides quality subsets in an acceptable execution time, so this master thesis’ objective was to identify with Particle Swarm Optimization – PSO – metaheuristic support the relevant wavelengths of visible and near infrared region for exchangeable aluminum content prediction of Campos Gerais region soil samples. For this, the FSS was configured as an optimization problem which the objective was to minimize the AIC value of candidate subsets models elaborated by Multiple Linear Regression algorithm. In addition, knowing the algorithm parameters influence on its final result, first the ideal values for iterations number, swarm size and threshold value that provided the selection of best subsets were investigated, then these subsets were validated in an independent dataset and the best established. Our results suggest that in our scenario 40 iterations, swarm size 20 and threshold 0.6 provided the best subsets, but the prediction performance of the best model is amenable to improvement. The dimensionality reduction provided by the adopted method was significant, so this approach is recommended for FSS in spectroscopy datasets. Espectroscopia do Solo Seleção de Atributos Mineração de Dados Algoritmos Evolutivos Otimização Soil Spectroscopy Feature Selection Data Mining Evolutionary Algorithms Optimization
27	Classificação visual de mudas de plantas ornamentais: análise da eficácia de técnicas de seleção de atributos. / Visual classification of ornamental plants seedlings: analysis of attribute selection efficacy. Silva, Luiz Otávio Lamardo Alves 03 December 2013 (has links) A automação da classificação visual de produtos vem ganhando cada vez mais importância nos processos produtivos agrícolas. Isto posto, uma das principais dificuldades encontradas por produtores de flores e plantas ornamentais é garantir o crescimento homogêneo de suas plantas. Nesse cenário, as mudas utilizadas para gerar as plantas são importantes uma vez que se pode estimar seu potencial de crescimento através de uma inspeção visual. Sendo assim, um sistema de visão computacional pode ser empregado para automatizar essa tarefa. Porém, diferentemente de indústrias tradicionais, a indústria agrícola apresenta grande variabilidade entre os produtos analisados. Técnicas de aprendizado de máquina supervisionado conseguem avaliar um conjunto de atributos referentes ao objeto inspecionado para classificá-lo corretamente, de forma a lidar tanto com a variabilidade dos produtos em inspeção quanto com a incorporação do conhecimento de especialistas pelo sistema. A definição do conjunto de atributos a ser extraído das imagens dos produtos é de extrema importância, pois é ele quem fornece toda a informação utilizada no sistema. Um conjunto com diversos atributos assegura que toda a informação necessária é capturada, porém atributos irrelevantes ou redundantes podem prejudicar o desempenho dos classificadores. Técnicas de seleção de atributos podem ser utilizadas para equilibrar essas necessidades. O objetivo do trabalho foi o de avaliar a eficácia dessas técnicas para a classificação de mudas de violeta. Vinte e seis parâmetros foram extraídos de seiscentas imagens rotuladas em quatro níveis de qualidade. Em seguida, os desempenhos de seis classificadores foram comparados considerando-se um universo de subconjuntos gerados por quatro técnicas de seleção de atributos. Os resultados mostraram que essas técnicas são realmente vantajosas, gerando ganhos de até 8,8% nas taxas de acertos e ao mesmo tempo reduzindo de 26 para 11 o número médio de atributos utilizados. O classificador Logistic Regression associado ao subconjunto gerado pelo Chi-quadrado foi o que apresentou melhor desempenho global, atingindo 80% de acerto. O classificador Random Forest ficou em segundo lugar, porém se mostrou menos sensível a seleção de atributos. / The automation of visual classification of products is gaining more importance in agricultural production processes. That said, one of the main difficulties encountered by ornamental plants and flowers producers is to ensure homogeneous growth of their plants. In this scenario, the seedlings used to grow the plants are very important since it is possible to estimate their growth potential by means of a visual inspection. Therefore, a computer vision system can be used to automate this task. Unlike traditional industries, the agricultural industry shows great variability among the products inspected. Supervised machine learning techniques can evaluate an attribute set representing the inspected object in order to correctly classify it, making it possible not only to deal with the variability of the inspected products but also with the incorporation of experts knowledge into the system. The definition of the attribute set to be extracted from the images of the products is of utmost importance, as it is it that provides all information used by the system. A set with several attributes ensures that all necessary information is captured; however irrelevant or redundant attributes can affect the performance of classifiers. Attribute selection techniques can be used to balance these needs. The aim of this study was then to evaluate the effectiveness of these techniques regarding the classification of African violet seedlings. Twenty- six parameters were extracted from six hundred images, labeled into four quality groups. Then, the performances of six classifiers were compared by considering the universe of subsets generated by four attribute selection techniques. The results showed that these techniques are indeed advantageous, generating gains of up to 8.8% in accuracy rate while reducing from 26 to 11 the average number of attributes used. Logistic Regression classifier, associated with the subset generated by the Chi-squared filter showed the best overall performance, achieving 80 % accuracy. Random Forest was second, but was less sensitive to attribute selection. Agricultural products Aprendizado de máquina Attribute selection Computer vision Cuttings Flores Flowers Machine learning Mudas Produtos agrícolas Seleção Seleção de atributos Selection Separação Sorting Visão computacional
28	Contribuições para a construção de taxonomias de tópicos em domínios restritos utilizando aprendizado estatístico / Contributions to topic taxonomy construction in a specific domain using statistical learning Moura, Maria Fernanda 26 October 2009 (has links) A mineração de textos vem de encontro à realidade atual de se compreender e utilizar grandes massas de dados textuais. Uma forma de auxiliar a compreensão dessas coleções de textos é construir taxonomias de tópicos a partir delas. As taxonomias de tópicos devem organizar esses documentos, preferencialmente em hierarquias, identificando os grupos obtidos por meio de descritores. Construir manual, automática ou semi-automaticamente taxonomias de tópicos de qualidade é uma tarefa nada trivial. Assim, o objetivo deste trabalho é construir taxonomias de tópicos em domínios de conhecimento restrito, por meio de mineração de textos, a fim de auxiliar o especialista no domínio a compreender e organizar os textos. O domínio de conhecimento é restrito para que se possa trabalhar apenas com métodos de aprendizado estatístico não supervisionado sobre representações bag of words dos textos. Essas representações independem do contexto das palavras nos textos e, conseqüentemente, nos domínios. Assim, ao se restringir o domínio espera-se diminuir erros de interpretação dos resultados. A metodologia proposta para a construção de taxonomias de tópicos é uma instanciação do processo de mineração de textos. A cada etapa do processo propôem-se soluções adaptadas às necessidades específicas de construçao de taxonomias de tópicos, dentre as quais algumas contribuições inovadoras ao estado da arte. Particularmente, este trabalho contribui em três frentes no estado da arte: seleção de atributos n-gramas em tarefas de mineração de textos, dois modelos para rotulação de agrupamento hierárquico de documentos e modelo de validação do processo de rotulação de agrupamento hierárquico de documentos. Além dessas contribuições, ocorrem outras em adaptações e metodologias de escolha de processos de seleção de atributos, forma de geração de atributos, visualização das taxonomias e redução das taxonomias obtidas. Finalmente, a metodologia desenvolvida foi aplicada a problemas reais, tendo obtido bons resultados. / Text mining provides powerful techniques to help on the current needs of understanding and organizing huge amounts of textual documents. One way to do this is to build topic taxonomies from these documents. Topic taxonomies can be used to organize the documents, preferably in hierarchies, and to identify groups of related documents and their descriptors. Constructing high quality topic taxonomies, either manually, automatically or semi-automatically, is not a trivial task. This work aims to use text mining techniques to build topic taxonomies for well defined knowledge domains, helping the domain expert to understand and organize document collections. By using well defined knowledge domains, only unsupervised statistical methods are used, with a bag of word representation for textual documents. These representations are independent of the context of the words in the documents as well as in the domain. Thus, if the domain is well defined, a decrease of mistakes of the result interpretation is expected. The proposed methodology for topic taxonomy construction is an instantiation of the text mining process. At each step of the process, some solutions are proposed and adapted to the specific needs of topic taxonomy construction. Among these solutions there are some innovative contributions to the state of the art. Particularly, this work contributes to the state of the art in three different ways: the selection of n-grams attributes in text mining tasks, two models for hierarchical document cluster labeling and a validation model of the hierarchical document cluster labeling. Additional contributions include adaptations and methodologies of attribute selection process choices, attribute representation, taxonomy visualization and obtained taxonomy reduction. Finally, the proposed methodology was also validated by successfully applying it to real problems Hierarchial document cluster labeling Mineração de textos n-gram attribute selection Seleção de atributos n-gramas Taxonomia de tópicos Text mining Topic taxonomy
29	Classificação visual de mudas de plantas ornamentais: análise da eficácia de técnicas de seleção de atributos. / Visual classification of ornamental plants seedlings: analysis of attribute selection efficacy. Luiz Otávio Lamardo Alves Silva 03 December 2013 (has links) A automação da classificação visual de produtos vem ganhando cada vez mais importância nos processos produtivos agrícolas. Isto posto, uma das principais dificuldades encontradas por produtores de flores e plantas ornamentais é garantir o crescimento homogêneo de suas plantas. Nesse cenário, as mudas utilizadas para gerar as plantas são importantes uma vez que se pode estimar seu potencial de crescimento através de uma inspeção visual. Sendo assim, um sistema de visão computacional pode ser empregado para automatizar essa tarefa. Porém, diferentemente de indústrias tradicionais, a indústria agrícola apresenta grande variabilidade entre os produtos analisados. Técnicas de aprendizado de máquina supervisionado conseguem avaliar um conjunto de atributos referentes ao objeto inspecionado para classificá-lo corretamente, de forma a lidar tanto com a variabilidade dos produtos em inspeção quanto com a incorporação do conhecimento de especialistas pelo sistema. A definição do conjunto de atributos a ser extraído das imagens dos produtos é de extrema importância, pois é ele quem fornece toda a informação utilizada no sistema. Um conjunto com diversos atributos assegura que toda a informação necessária é capturada, porém atributos irrelevantes ou redundantes podem prejudicar o desempenho dos classificadores. Técnicas de seleção de atributos podem ser utilizadas para equilibrar essas necessidades. O objetivo do trabalho foi o de avaliar a eficácia dessas técnicas para a classificação de mudas de violeta. Vinte e seis parâmetros foram extraídos de seiscentas imagens rotuladas em quatro níveis de qualidade. Em seguida, os desempenhos de seis classificadores foram comparados considerando-se um universo de subconjuntos gerados por quatro técnicas de seleção de atributos. Os resultados mostraram que essas técnicas são realmente vantajosas, gerando ganhos de até 8,8% nas taxas de acertos e ao mesmo tempo reduzindo de 26 para 11 o número médio de atributos utilizados. O classificador Logistic Regression associado ao subconjunto gerado pelo Chi-quadrado foi o que apresentou melhor desempenho global, atingindo 80% de acerto. O classificador Random Forest ficou em segundo lugar, porém se mostrou menos sensível a seleção de atributos. / The automation of visual classification of products is gaining more importance in agricultural production processes. That said, one of the main difficulties encountered by ornamental plants and flowers producers is to ensure homogeneous growth of their plants. In this scenario, the seedlings used to grow the plants are very important since it is possible to estimate their growth potential by means of a visual inspection. Therefore, a computer vision system can be used to automate this task. Unlike traditional industries, the agricultural industry shows great variability among the products inspected. Supervised machine learning techniques can evaluate an attribute set representing the inspected object in order to correctly classify it, making it possible not only to deal with the variability of the inspected products but also with the incorporation of experts knowledge into the system. The definition of the attribute set to be extracted from the images of the products is of utmost importance, as it is it that provides all information used by the system. A set with several attributes ensures that all necessary information is captured; however irrelevant or redundant attributes can affect the performance of classifiers. Attribute selection techniques can be used to balance these needs. The aim of this study was then to evaluate the effectiveness of these techniques regarding the classification of African violet seedlings. Twenty- six parameters were extracted from six hundred images, labeled into four quality groups. Then, the performances of six classifiers were compared by considering the universe of subsets generated by four attribute selection techniques. The results showed that these techniques are indeed advantageous, generating gains of up to 8.8% in accuracy rate while reducing from 26 to 11 the average number of attributes used. Logistic Regression classifier, associated with the subset generated by the Chi-squared filter showed the best overall performance, achieving 80 % accuracy. Random Forest was second, but was less sensitive to attribute selection. Aprendizado de máquina Flores Mudas Produtos agrícolas Seleção Seleção de atributos Separação Visão computacional Agricultural products Attribute selection Computer vision Cuttings Flowers Machine learning Selection Sorting
30	Classificação da marcha em parkinsonianos: análise dos algoritmos de aprendizagem supervisionada / Classification of the parkinsonian gait: analysis of supervised learning algorithms Souza, Hugo Araújo 12 April 2017 (has links) Parkinson’s disease is the second most prevalent neurodegenerative disease in the elderly, although its dominance and incidence vary according to age, gender and race/ethnicity. Studies indicate that the prevalence increases with age, with an estimate of 5 to 26 cases per 100,000 people per year, being approximately 1% among individuals aged 65- 69 and ranging from 3% to 14.3% among the elderly over 85 years. The most common clinical signs in the inflammatory process include the presence of resting tremor, muscle stiffness, bradykinesia and postural instability. The diagnosis of the disease is not a simple task, as it is known that there are stages patterns of disease progression in the human organism. However, many patients do not follow this progress because of the heterogeneity of manifestations that may arise. The gait analysis has become an attractive and non-invasive quantitative mechanism that can aid in the detection and monitoring of PD patients. Feature extraction is a very important task for quality of the data to be used by the algorithms, aiming as main objective the reduction in the dimensionality of the data in a classification process. From the reduction of dimensionality it is possible to identify which attributes are important and to facilitate the visualization of the data. For data related to human gait, the purpose is to detect relevant attributes that may help in identifying gait cycle phases, such as support and swing phases, cadence, stride length, velocity, etc. To do this, it is necessary to identify and select which attributes are most relevant, as well as the classification method. This work evaluates the performance of supervised learning algorithms in the classification of human gait characteristics in an open database, also identifies which attributes are most relevant to the performance of the classifiers in aiding the identification of gait characteristics in PD patients. / A Doença de Parkinson é a segunda doença neurodegenerativa mais prevalente em idosos, embora seu domínio e incidência variem de acordo com a idade, sexo e raça/etnia. Estudos apontam que a prevalência aumenta com a idade, tendo estimativa de 5 a 26 casos a cada 100 mil pessoas por ano, sendo de aproximadamente 1% entre os indivíduos de 65 a 69 anos e, variando de 3% a 14,3% entre os idosos acima de 85 anos. Os sinais clínicos mais comuns no processo inflamatório incluem a presença de tremor em repouso, rigidez muscular, bradicinesia e instabilidade postural. O diagnóstico da doença não é uma tarefa simples, pois sabe-se que há padrões de estágios no avanço da doença no organismo humano. Porém, muitos pacientes não seguem esse progresso devido a heterogeneidade de manifestações que podem surgir. A análise da marcha tornou-se um mecanismo quantitativo atrativo e não invasivo que pode auxiliar na detecção e monitoramento de portadores de DP. A extração de características é uma tarefa de suma importância para a qualidade dos dados a serem empregados pelos algoritmos de AM, visando como principal objetivo a redução na dimensionalidade dos dados em um processo de classificação. A partir da redução da dimensionalidade é possível identificar, principalmente, quais atributos são importantes e facilitar a visualização dos dados. Para dados relacionados à marcha humana, o propósito é detectar relevantes atributos que possam ajudar na identificação das fases do ciclo da marcha, como as fases de apoio e swing, cadência, comprimento da passada, velocidade, entre outras. Para tal, é preciso identificar e selecionar quais atributos são mais relevantes, assim como o método de classificação. Este trabalho avalia o desempenho de algoritmos de aprendizagem supervisionada na classificação das características da marcha humana em uma base de dados aberta, também identifica quais atributos são mais relevantes para o desempenho dos classificadores no auxílio à identificação de características da marcha em portadores da DP. Aprendizagem supervisionada - Algoritmos Classificação de dados Seleção de atributos Marcha humana Doença de Parkinson Machine learning Data classification Feature selection Human gait Parkinson disease

Search results