• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1029
  • 185
  • 34
  • 24
  • 24
  • 24
  • 19
  • 14
  • 5
  • 4
  • 4
  • 4
  • 1
  • Tagged with
  • 1260
  • 1021
  • 595
  • 413
  • 219
  • 179
  • 175
  • 151
  • 146
  • 135
  • 130
  • 129
  • 124
  • 123
  • 115
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
281

AAREACT: uma arquitetura comportamental adaptativa para robôs móveis que integra visão, sonares e odometria. / AAREACT: an adaptive behavioral architecture for mobile robots that integrates vision, sonars and odometry.

Selvatici, Antonio Henrique Pinto 04 February 2005 (has links)
Para ter uma aplicação real, um robô móvel deve poder desempenhar sua tarefa em ambientes desconhecidos. Uma arquitetura para robôs móveis que se adapte ao meio em que o robô se encontra é então desejável. Este trabalho apresenta uma arquitetura adaptativa para robôs móveis, de nome AAREACT, que aprende como coordenar comportamentos primitivos codificados por Campos Potenciais através de aprendizado por reforço. Cada comportamento utiliza a informação de apenas um tipo de sensor (visão, sonar ou odometria). O sensor de visão foi desenvolvido neste trabalho, e utiliza os tempos para colisão obtidos através da análise de seqüências de imagens para indicar a disposição dos objetos à frente do robô. A atuação da arquitetura proposta é comparada com a apresentada por uma arquitetura com coordenação fixa dos comportamentos, demonstrando melhor desempenho. Os resultados obtidos neste trabalho também apontam a alta capacidade de adaptação da arquitetura AAREACT. / It is desirable that mobile robots applied to real world applications perform their operations in previously unknown environments. Thus, a mobile robot architecture capable of adaptation is very suitable. This work presents an adaptive architecture for mobile robots called AAREACT, that has the ability of learning how to coordinate primitive behaviors codified by the Potential Fields method through reinforcement learning. Each behavior uses the information of a single sensor (vision, sonar or odometer). This work also brings details about the vision sensor\'s development, which uses time-to-crash information in order to detect distances to frontal obstacles. The proposed architecture\'s actuation is compared to that showed by an architecture that performs a fixed coordination of its behaviors, and shows a better performance. The obtained results also suggest that AAREACT has good adaptation skills.
282

Ensino de projeto na FAUUSP: Faculdade de Arquitetura e Urbanismo da Universidade de São Paulo / Project Teaching at FAU USP: Faculdade de Arquitetura e Urbanismo da Universidade de São Paulo

Barossi, Antonio Carlos 17 November 2005 (has links)
Esta tese traz a proposta de que pensar sobre o ensino de projeto requer a utilização de procedimentos, conceitos e objetivos próprios da produção da arquitetura: a forma, o olhar, o vazio, a totalidade e a identidade. Aborda-se o ensino de projeto na Faculdade de Arquitetura e Urbanismo da Universidade de São Paulo hoje, e se considera que uma aproximação abrangente e conseqüente do ensino de projeto de arquitetura deva ser feita a partir da instância capaz de exprimi-lo plenamente: o aluno na cidade. O aluno como indivíduo, pessoa, com identidade e personalidade que traz em si a própria materialização desse ensino; e a cidade, espaço da sua realização, que tem no edifício da escola o elemento gerador e gerado pela cidade, e na forma de sua ocupação uma representação e expressão totalizadora desse ensino. Em primeiro lugar, após uma INTRODUÇÃO situando as circunstancias que determinaram este trabalho, faz-se uma REFLEXÃO sobre o Tempo do percurso do aluno situado no Espaço de sua realização, propondo a partir da História a perspectiva para a construção de um olhar para o projeto e, na especificidade de cada obra, o seu Método, exemplificando-o com base em um projeto profissional próprio. Permeando essa reflexão explicitam-se a partir da experiência docente as principais questões Didáticas que se apresentam no contexto do ensino, tanto do ponto de vista do processo geral de disciplinas ministradas como dos trabalhos nelas produzidos pelos alunos. Em seguida apresentam-se os elementos considerados indissociáveis e unos da AÇÃO acadêmica: o Professor e as obras de sua produção profissional, destacando as questões que remetem à atuação didática e vice-versa; os Alunos, na sua vivência dentro e fora da estrutura curricular revelada a partir de duas experiências; e a Escola, ambiente da experimentação, síntese e conjunção desses elementos, apresentada a partir de uma proposta de trabalho didático e do plano de uma disciplina. Depois, elabora-se uma PROPOSIÇÃO apresentada através de sugestões para a estrutura curricular à maneira de uma Arquitetura, cuja estrutura é o aluno, e um projeto para intervenções no espaço do aprendizado como representação e expressão das idéias de Ensino. Na primeira, a busca de uma representação formal e totalizadora da estrutura curricular; na outra, o projeto do espaço da realização do ensino e do aprendizado, que também é uma representação de caráter totalizador. A primeira, uma estrutura curricular, tendendo a uma arquitetura. A segunda, uma arquitetura, tendendo a uma estrutura de ensino. No seu encontro, o aluno. Finalmente apresenta a CONCLUSÃO, em que se relativizam os procedimentos didático-pedagógicos para o ensino de projeto, em função da perspectiva de uma inserção dos processos de aprendizado no contexto da produção da cidade, com a qual se mesclam, e nos quais se considera o aluno como sujeito, a história, como sua base, a obra do professor, como uma referência; e o edifício da escola, inserido na cidade, mais do que o lugar de sua realização, como a possibilidade de sua afirmação. / This thesis has the idea that to consider a structure for teaching project-design requires the use of procedures, concepts, and aims that are an immanent part of the production of architecture: the form, the view, the void, the wholeness, and the identity. It is about the teaching of project-design at the School of Architecture and Urbanism at the University of São Paulo nowadays, and it considers that an extensive and consequent approach to the teaching of architectural project-design has to start right from the instance that is capable of expressing it directly from its center: the student in the city. The student as an individual, a person with an identity and personality that carries the materialization of this teaching in himself, and the city, space of its realization, which has the school-building, an element generating and being generated by the city itself, and its occupation as representation and complete expression of this way of teaching. First, after an INTRODUCTION about the circumstances that determined this work, comes a REFLECTION about the Time period of the students course and the Space where its realized, proposing, based on History, a constructive view of the project, and, in the specified way of each work, its Method, exemplifying it based on a professional project. Through this reflection, the basic Didactic Questions in the context of teaching explain themselves based on the teaching experience, as well as from the point of view of the general process of the taught disciplines, as by the works produced by the students. After this are shown the elements considered as an inseparable unity of the academic ACTION: The Professor and the works of his professional production, emphasizing the questions referred to his didactic acting and vice versa, the Students, with their experiences inside and outside of the scholar structure developed from two sides, and the School, the environment of experimentation, a synthesis and conjunction of those elements, based itself on an idea of didactic work and a teaching concept. In following, a PROPOSITION is elaborated suggesting a study plan as a kind of Architecture whose structure is the student himself, and an intervention project, in the space of apprenticeship, being the representation and expression of the ideas of Teaching. For the first, the search for a formal and completing representation of the study plan, for the other, the spatial project of the realization of the teaching and learning which also is of a completing character. The first, a study plan tending to be architecture. The second, an architecture tending to be a structure of teaching. At their meeting point, the student. Finally a CONCLUSION that consider the limits of the didactic-pedagogic procedures to project-design teaching, by the insertion of learning processes in the context of city-producing, considering the student as subject, the history as his base and the work of the professor as a reference.
283

Técnicas de classificação hierárquica multirrótulo / Hierarchical multilabel classification techniques

Cerri, Ricardo 23 February 2010 (has links)
Muitos dos problemas de classificação descritos na literatura de Aprendizado de Máquina e Mineração de Dados dizem respeito à classificação de dados em que cada exemplo a ser classificado pertence a um conjunto finito, e geralmente pequeno, de classes que estão em um mesmo nível. Vários problemas de classificação, entretanto, são de natureza hierárquica, em que classes podem ser subclasses ou superclasses de outras classes. Em muitos problemas hierárquicos, principalmente no campo da Bioinformática, um ou mais exemplos podem ser associados a mais de uma classe simultaneamente. Esses problemas são conhecidos como problemas de classificação hierárquica tirrótulo. Nesta pesquisa, foram investigadas diferentes técnicas para lidar com esses tipos de problemas. Essas técnicas são baseadas em duas abordagens: local ou Top-Down e global ou One-Shot. Três técnicas descritas na literatura foram utilizadas. A primeira delas, chamada HMC-BR, é baseada na abordagem Top-Down, e utiliza uma estratégia de classificação binária chamada Um-Contra-Todos. As outras duas técnicas, baseadas na abordagem One-Shot, são chamadas C4.5H (uma extensão do algoritmo de indução de àrvores de decis~ao C4.5), e de Clus-HMC (baseada na noção de Predictive Clustering Trees, em que àrvores de decisão são estruturadas como uma hierarquia de grupos (clusters)). Além das técnicas descritas na literatura, duas novas técnicas foram propostas e implementadas nesta pesquisa, chamadas de HMC-LP e HMC-CT. Essas técnicas são variações hierárquicas de técnicas de classificação multirrótulo não hierárquicas. A técnica HMC-LP utiliza uma estratégia de combinação de classes e a técnica HMC-CT utiliza uma estratégia de decomposição de classes. Para a avaliação das técnicas, foram utilizadas medidas específicas para esse tipo de classificação. Os resultados experimentais mostraram que as técnicas propostas obtiveram desempenhos superiores ou semelhantes aos das técnicas descritas na literatura, dependendo da medida de avaliação utilizada e das características dos conjuntos de dados / Many of the classification problems described in the literature of Machine Learning and Data Mining are related to data classification where each example to be classified belongs to a finite, and usually small, set of classes located at the same level. There are many classification problems, however, that are of hierarchical nature, where classes can be subclasses or superclasses of other classes. In many hierarchical problems, mainly in the Bioinformatics field, one or more examples can be associated to more than one class simultaneously. These problems are known as hierarchical multilabel classification problems. In this research, different techniques to deal with these kinds of problems were investigated, based on two approaches, named local or Top-Down and global or One-Shot. Three techniques described in the literature were used. The first one, named HMC-BR, is based on the Top-Down approach, and uses a binary classification strategy named One-Against-All. The other two techniques, based on the One-Shot approach, are named C4.5H (an extension of the decision tree induction algorithm C4.5), and Clus-HMC (based on the notion of Predictive Clustering Trees, where decision trees are structured as a hierarchy of clusters). In addition to the techniques described in the literature, two new techniques were proposed, named HMC-LP and HMC-CT. These techniques are hierarchical variations of non-hierarchical multilabel classification techniques. The HMCLP technique uses a label combination strategy and the HMC-CT technique uses a label decomposition strategy. The evaluation of the techniques was performed using specific metrics for this kind of classification. The experimental results showed that the proposed techniques achieved better or similar performances than the techniques described in the literature, depending on the evaluation metric used and on the characteristics of the datasets
284

Ajuste de parâmetros de técnicas de classificação por algoritmos bioinspirados / Bioinspired parameter tuning of classifiers

Rossi, André Luis Debiaso 01 April 2009 (has links)
Aprendizado de máquina é uma área de pesquisa na qual se investiga como desenvolver sistemas capazes de aprender com a experiência. Muitos algoritmos de aprendizado possuem parâmetros cujos valores devem ser especificados pelo usuário. Em geral, esses valores influenciam diretamente no processo de aquisição do conhecimento, podendo gerar diferentes modelos. Recentemente, algoritmos de otimização bioinspirados têm sido aplicados com sucesso no ajuste de parâmetros de técnicas de aprendizado de máquina. Essas técnicas podem apresentar diferentes sensibilidades em relação aos valores escolhidos para seus parâmetros e diferentes algoritmos de ajuste de parâmetros podem apresentar desempenhos singulares. Esta dissertação investiga a utilização de algoritmos bioinspirados para o ajuste de parâmetros de redes neurais artificiais e máquinas de vetores de suporte em problemas de classificação. O objetivo dessa investigação é verificar quais são as técnicas que mais se beneficiam do ajuste de parâmetros e quais são os algoritmos mais eficientes para essas técnicas. Os resultados experimentais mostram que os algoritmos bioinspirados conseguem encontrar melhores clasificadores que outras abordagens. Porém, essa melhoria é estatisticamente significativa para alguns conjuntos de dados. Foi possível verificar que o uso dos valores padrão para os parâmetros das técnicas de classificação leva a desempenhos similares aos obtidos com os algoritmos bioinspirados. Entretanto, para alguns conjuntos de dados, o ajuste de parâmetros pode melhorar significativamente o desempenho dos classificadores / Machine learning is a research area whose main goal is to design computational systems capable of learning through experience. Many machine learning techniques have free parameters whose values are generally defined by the user. Usually, these values affect the knowledge acquisition process directly, resulting in different models. Recently, bioinspired optimization algorithms have been successfully applied to the parameter tuning of machine learning techniques. These techniques may present variable sensitivity to the selection of the values of its parameters and different parameter tuning algorithms may present different behaviors. This thesis investigates the use of bioinspired algorithms for the parameter tuning of artificial neural networks and support vector machines in classification problems. The goal of this thesis is to investigate which techniques benefits most from parameter tuning and which are the most efficient algorithms to use with these techniques. Experimental results show that these bioinspired algorithms can find better classifiers when compared to other approaches. However, this improvement is statistically significant only to some datasets. It was possible to verify that the use of standard parameter values for the classification techniques leads to similar performances to those obtained with the bioinspired algorithms. However, for some datasets, the parameter tuning may significantly improve a classifier performance
285

Hierarchical semi-supervised confidence-based active clustering and its application to the extraction of topic hierarchies from document collections / Agrupamento hierárquico semissupervisionado ativo baseado em confiança e sua aplicação para extração de hierarquias de tópicos a partir de coleções de documentos

Nogueira, Bruno Magalhães 16 December 2013 (has links)
Topic hierarchies are efficient ways of organizing document collections. These structures help users to manage the knowledge contained in textual data. These hierarchies are usually obtained through unsupervised hierarchical clustering algorithms. By not considering the context of the user in the formation of the hierarchical groups, unsupervised topic hierarchies may not attend the user\'s expectations in some cases. One possible solution for this problem is to employ semi-supervised clustering algorithms. These algorithms incorporate the user\'s knowledge through the usage of constraints to the clustering process. However, in the context of semi-supervised hierarchical clustering, the works in the literature do not efficient explore the selection of cases (instances or cluster) to add constraints, neither the interaction of the user with the clustering process. In this sense, in this work we introduce two semi-supervised hierarchical clustering algorithms: HCAC (Hierarchical Confidence-based Active Clustering) and HCAC-LC (Hierarchical Confidence-based Active Clustering with Limited Constraints). These algorithms employ an active learning approach based in the confidence of cluster merges. When a low confidence merge is detected, the user is invited to decide, from a pool of candidate pairs of clusters, the best cluster merge in that point. In this work, we employ HCAC and HCAC-LC in the extraction of topic hierarchies through the SMITH framework, which is also proposed in this thesis. This framework provides a series of well defined activities that allow the user\'s interaction in the generation of topic hierarchies. The active learning approach used in the HCAC-based algorithms, the kind of queries employed in these algorithms, as well as the SMITH framework for the generation of semi-supervised topic hierarchies are innovations to the state of the art proposed in this thesis. Our experimental results indicate that HCAC and HCAC-LC outperform other semi-supervised hierarchical clustering algorithms in diverse scenarios. The results also indicate that semi-supervised topic hierarchies obtained through the SMITH framework are more intuitive and easier to navigate than unsupervised topic hierarchies / Hierarquias de tópicos são formas eficientes de organização de coleções de documentos, auxiliando usuários a gerir o conhecimento materializado nessas publicações textuais. Tais hierarquias são usualmente construídas por meio de algoritmos de agrupamento hierárquico não supervisionado. Entretanto, por não considerarem o contexto do usuário na formação dos grupos, hierarquias de tópicos não supervisionadas nem sempre conseguem atender as suas expectativas. Uma solução para este problema e o emprego de algoritmos de agrupamento semissupervisionado, os quais incorporam o conhecimento de domínio do usuário por meio de restrições. Entretanto, para o contexto de agrupamento hierárquico semissupervisionado, não são eficientemente explorados na literatura métodos de seleção de casos (instâncias ou grupos) para receber restrições, bem como não há formas eficientes de interação do usuário com o processo de agrupamento hierárquico. Dessa maneira, neste trabalho, dois algoritmos de agrupamento hierárquico semissupervisionado são propostos: HCAC (Hierarchical Confidence-based Active Clustering) e HCAC-LC (Hierarchical Confidence-based Active Clustering with Limited Constraints). Estes algoritmos empregam uma abordagem de aprendizado ativo baseado na confiança de uma junção de clusters. Quando uma junção de baixa confiança e detectada, o usuário e convidado a decidir, em um conjunto de pares de grupos candidatos, a melhor junção naquele ponto. Estes algoritmos são aqui utilizados na extração de hierarquias de tópicos por meio do framework SMITH, também proposto nesse trabalho. Este framework fornece uma série de atividades bem definidas que possibilitam a interação do usuário para a obtenção de hierarquias de tópicos. A abordagem de aprendizado ativo utilizado nos algoritmos HCAC e HCAC-LC, o tipo de restrição utilizada nestes algoritmos, bem como o framework SMITH para obtenção de hierarquias de tópicos semissupervisionadas são inovações ao estado da arte propostos neste trabalho. Os resultados obtidos indicam que os algoritmos HCAC e HCAC-LC superam o desempenho de outros algoritmos hierárquicos semissupervisionados em diversos cenários. Os resultados também indicam que hierarquias de tópico semissupervisionadas obtidas por meio do framework SMITH são mais intuitivas e fáceis de navegar do que aquelas não supervisionadas
286

"Pré-processamento de dados em aprendizado de máquina supervisionado" / "Data pre-processing for supervised machine learning"

Batista, Gustavo Enrique de Almeida Prado Alves 16 May 2003 (has links)
A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste trabalho é proposta a utilização do algoritmo k-vizinhos mais próximos como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algoritmo k-vizinhos mais próximos pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a imputação pela média ou moda, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com classes desbalanceadas é de crucial importância, uma vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional Discover Learning Environmnet - DLE - o qual é um em framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto Discover, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD. / Data quality is a major concern in Machine Learning, which is frequently used to extract knowledge during the Data Mining phase of the relatively new research area called Knowledge Discovery from Databases - KDD. As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. Several aspects may influence the performance of a learning system due to data quality. In real world databases, two of these aspects are related to (i) the presence of missing data, which is handled in a rather naive way by many Machine Learning algorithms; (ii) the difference between the number of examples, or database records, that belong to different classes since, when this difference is large, learning systems may have difficulties to learn the concept related to the minority class. The problem of missing data is of great practical and theoretical interest. In many applications it is important to know how to react if the available information is incomplete or if sources of information become unavailable. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we propose the use of the k-nearest neighbour algorithm as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal missing data treatment strategies used by C4.5 and CN2, and the mean or mode imputation, a widely used method for treating missing values. The problem of learning from imbalanced data sets is of crucial importance since it is encountered in a large number of domains. Imbalanced class distributions might cause a significant bottleneck in the performance obtained by standard learning methods, which assume a balanced distribution of the classes. One solution to the problem of learning with skewed class distributions is to artificially balance the data set. In this work we propose the use of the one-sided selection method, which performs a careful removal of cases belonging to the majority class while leaving untouched all cases from the minority class. Such careful removal consists of detecting and removing cases considered less reliable, using some heuristics. An experimental application confirmed the efficiency of the proposed method. As there is not a mathematical analysis able to predict whether the performance of a learning system is better than others, experimentation plays an important role for evaluating learning systems. In this work we propose and implement a computational environment, the Discover Learning Environment - DLE - which is a framework to develop and evaluate new data pre-processing methods. The DLE is integrated into the Discover project, a major research project under development in our laboratory for planning and execution of experiments related to the use of learning systems during the Data Mining phase of the KDD process.
287

Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados / Automatic feature quantification in data clustering tasks

Andrade Filho, José Augusto 17 September 2013 (has links)
Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida / Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition
288

Técnica de aprendizado semissupervisionado para detecção de outliers / A semi-supervised technique for outlier detection

Zamoner, Fabio Willian 23 January 2014 (has links)
Detecção de outliers desempenha um importante papel para descoberta de conhecimento em grandes bases de dados. O estudo é motivado por inúmeras aplicações reais como fraudes de cartões de crédito, detecção de falhas em componentes industriais, intrusão em redes de computadores, aprovação de empréstimos e monitoramento de condições médicas. Um outlier é definido como uma observação que desvia das outras observações em relação a uma medida e exerce considerável influência na análise de dados. Embora existam inúmeras técnicas de aprendizado de máquina para tratar desse problemas, a maioria delas não faz uso de conhecimento prévio sobre os dados. Técnicas de aprendizado semissupervisionado para detecção de outliers são relativamente novas e incluem apenas um pequeno número de rótulos da classe normal para construir um classificador. Recentemente um modelo semissupervisionado baseado em rede foi proposto para classificação de dados empregando um mecanismo de competição e cooperação de partículas. As partículas são responsáveis pela propagação dos rótulos para toda a rede. Neste trabalho, o modelo foi adaptado a fim de detectar outliers através da definição de um escore de outlier baseado na frequência de visitas. O número de visitas recebido por um outlier é significativamente diferente dos demais objetos de mesma classe. Essa abordagem leva a uma maneira não tradicional de tratar os outliers. Avaliações empíricas sobre bases artificiais e reais demonstram que a técnica proposta funciona bem para bases desbalanceadas e atinge precisão comparável às obtidas pelas técnicas tradicionais de detecção de outliers. Além disso, a técnica pode fornecer novas perspectivas sobre como diferenciar objetos, pois considera não somente a distância física, mas também a formação de padrão dos dados / Outloier detection plays an important role for discovering knowledge in large data sets. The study is motivated by plethora of real applications such as credit card frauds, fault detection in industrial components, network instrusion detection, loan application precoessing and medical condition monitoring. An outlier is defined as an observation that deviates from other observations with respect to a measure and exerts a substantial influence on data analysis. Although numerous machine learning techniques have been developed for attacking this problem, most of them work with no prior knowledge of the data. Semi-supervised outlier detection techniques are reçlatively new and include only a few labels of normal class for building a classifier. Recently, a network-based semi-supervised model was proposed for data clasification by employing a mechanism based on particle competiton and cooperation. Such particle competition and cooperaction. Such particles are responsible for label propagation throughout the network. In this work, we adapt this model by defining a new outlier score based on visit frequency counting. The number of visits received by an outlier is significantly different from the remaining objects. This approach leads to an anorthodox way to deal with outliers. Our empirical ecaluations on both real and simulated data sets demonstrate that proposed technique works well with unbalanced data sets and achieves a precision compared to traditional outlier detection techniques. Moreover, the technique might provide new insights into how to differentiate objects because it considers not only the physical distance but also the pattern formation of the data
289

Empregando técnicas de visualização de informação para transformação interativa de dados multidimensionais / Transforming muldimensional data using information visualization techniques

Fatore, Francisco Morgani 27 July 2015 (has links)
A exploração de conjuntos de dados é um problema abordado com frequência em diversos domínios e tem como objetivo uma melhor compreensão de fenômenos simulados ou medidos. Tal atividade é precedida pelas etapas de coleta e armazenamento de dados que buscam registrar o máximo de detalhes sobre algum fenômeno observado. Porém, a exploração efetiva dos dados envolve uma série de desafios. Um deles é a dificuldade em identificar quais dados são realmente relevantes para as análises. Outro problema está relacionado com a falta de garantias de que os fatores fundamentais para a compreensão do problema tenham sido coletados. A transformação interativa de dados é uma abordagem que utiliza técnicas de visualização computacional para resolver ou minimizar esses problemas. No entanto, os trabalhos disponíveis na literatura possuem limitações, como interfaces demasiadamente complexas e mecanismos de interação pouco flexíveis. Assim, este projeto de mestrado teve como objetivo desenvolver novas técnicas visuais interativas para a transformação de dados multidimensionais. A metodologia desenvolvida se baseou no uso de biplots e na ação conjunta dos mecanismos de interação para superar as limitações das técnicas do estado da arte. Os resultados dos experimentos realizados sobre diversos conjuntos de dados dão indícios de que os métodos desenvolvidos possibilitam a obtenção de conjuntos de dados mais representativos. Mais especificamente, foram obtidos melhores resultados em tarefas de classificação de dados ao utilizar os métodos desenvolvidos. / The exploration of datasets is a frequently task in several fields and aims at a better understanding of simulated or measured phenomena. Such activity is preceded by the steps of collecting and storing data, which seek to record as much detail possible about an observed phenomenon. The exploration task is challenging due to many aspects. One of them is the difficulty in identifying which collected data are actually relevant to the analysis. Another one is related to the lack of guarantees that the key factors for understanding the problem have been collected. The interactive transformation of data is a visual based approach that seeks to solve or mitigate these problems. However, the available methods in the literature have limitations in several aspects, such as complex user interfaces and inflexible interactive mechanisms. So, this master project had the goal to develop novel visual techniques for the transformation of datasets. The proposed methodology was based on the use of biplots and interaction mechanisms to overcome the limitations of the state of the art techniques. Empirical results show that by using the proposed approach, it is possible to make the data more representative. Therefore, exploratory activities, classifications, were performed more efficiently and thus provided better results.
290

Seleção de abstração espacial no Aprendizado por Reforço avaliando o processo de aprendizagem / Selection of spatial abstraction in Reinforcement Learning by learning process evaluating

Silva, Cleiton Alves da 14 June 2017 (has links)
Agentes que utilizam técnicas de Aprendizado por Reforço (AR) buscam resolver problemas que envolvem decisões sequenciais em ambientes estocásticos sem conhecimento a priori. O processo de aprendizado desenvolvido pelo agente em geral é lento, visto que se concretiza por tentativa e erro e exige repetidas interações com cada estado do ambiente e como o estado do ambiente é representado por vários fatores, a quantidade de estados cresce exponencialmente de acordo com o número de variáveis de estado. Uma das técnicas para acelerar o processo de aprendizado é a generalização de conhecimento, que visa melhorar o processo de aprendizado, seja no mesmo problema por meio da abstração, ao explorar a similaridade entre estados semelhantes ou em diferentes problemas, ao transferir o conhecimento adquirido de um problema fonte para acelerar a aprendizagem em um problema alvo. Uma abstração considera partes do estado e, ainda que uma única não seja suficiente, é necessário descobrir qual combinação de abstrações pode atingir bons resultados. Nesta dissertação é proposto um método para seleção de abstração, considerando o processo de avaliação da aprendizagem durante o aprendizado. A contribuição é formalizada pela apresentação do algoritmo REPO, utilizado para selecionar e avaliar subconjuntos de abstrações. O algoritmo é iterativo e a cada rodada avalia novos subconjuntos de abstrações, conferindo uma pontuação para cada uma das abstrações existentes no subconjunto e por fim, retorna o subconjunto com as abstrações melhores pontuadas. Experimentos com o simulador de futebol mostram que esse método é efetivo e consegue encontrar um subconjunto com uma quantidade menor de abstrações que represente o problema original, proporcionando melhoria em relação ao desempenho do agente em seu aprendizado / Agents that use Reinforcement Learning (RL) techniques seek to solve problems that involve sequential decisions in stochastic environments without a priori knowledge. The learning process developed by the agent in general is slow, since it is done by trial and error and requires repeated iterations with each state of the environment and because the state of the environment is represented by several factors, the number of states grows exponentially according to the number of state variables. One of the techniques to accelerate the learning process is the generalization of knowledge, which aims to improve the learning process, be the same problem through abstraction, explore the similarity between similar states or different problems, transferring the knowledge acquired from A source problem to accelerate learning in a target problem. An abstraction considers parts of the state, and although a single one is not sufficient, it is necessary to find out which combination of abstractions can achieve good results. In this work, a method for abstraction selection is proposed, considering the evaluation process of learning during learning. The contribution is formalized by the presentation of the REPO algorithm, used to select and evaluate subsets of features. The algorithm is iterative and each round evaluates new subsets of features, giving a score for each of the features in the subset, and finally, returns the subset with the most highly punctuated features. Experiments with the soccer simulator show that this method is effective and can find a subset with a smaller number of features that represents the original problem, providing improvement in relation to the performance of the agent in its learning

Page generated in 0.0591 seconds