Global ETD Search

221	Employing nonlinear time series analysis tools with stable clustering algorithms for detecting concept drift on data streams / Aplicando ferramentas de análise de séries temporais não lineares e algoritmos de agrupamento estáveis para a detecção de mudanças de conceito em fluxos de dados Costa, Fausto Guzzo da 17 August 2017 (has links) Several industrial, scientific and commercial processes produce open-ended sequences of observations which are referred to as data streams. We can understand the phenomena responsible for such streams by analyzing data in terms of their inherent recurrences and behavior changes. Recurrences support the inference of more stable models, which are deprecated by behavior changes though. External influences are regarded as the main agent actuacting on the underlying phenomena to produce such modifications along time, such as new investments and market polices impacting on stocks, the human intervention on climate, etc. In the context of Machine Learning, there is a vast research branch interested in investigating the detection of such behavior changes which are also referred to as concept drifts. By detecting drifts, one can indicate the best moments to update modeling, therefore improving prediction results, the understanding and eventually the controlling of other influences governing the data stream. There are two main concept drift detection paradigms: the first based on supervised, and the second on unsupervised learning algorithms. The former faces great issues due to the labeling infeasibility when streams are produced at high frequencies and large volumes. The latter lacks in terms of theoretical foundations to provide detection guarantees. In addition, both paradigms do not adequately represent temporal dependencies among data observations. In this context, we introduce a novel approach to detect concept drifts by tackling two deficiencies of both paradigms: i) the instability involved in data modeling, and ii) the lack of time dependency representation. Our unsupervised approach is motivated by Carlsson and Memolis theoretical framework which ensures a stability property for hierarchical clustering algorithms regarding to data permutation. To take full advantage of such framework, we employed Takens embedding theorem to make data statistically independent after being mapped to phase spaces. Independent data were then grouped using the Permutation-Invariant Single-Linkage Clustering Algorithm (PISL), an adapted version of the agglomerative algorithm Single-Linkage, respecting the stability property proposed by Carlsson and Memoli. Our algorithm outputs dendrograms (seen as data models), which are proven to be equivalent to ultrametric spaces, therefore the detection of concept drifts is possible by comparing consecutive ultrametric spaces using the Gromov-Hausdorff (GH) distance. As result, model divergences are indeed associated to data changes. We performed two main experiments to compare our approach to others from the literature, one considering abrupt and another with gradual changes. Results confirm our approach is capable of detecting concept drifts, both abrupt and gradual ones, however it is more adequate to operate on complicated scenarios. The main contributions of this thesis are: i) the usage of Takens embedding theorem as tool to provide statistical independence to data streams; ii) the implementation of PISL in conjunction with GH (called PISLGH); iii) a comparison of detection algorithms in different scenarios; and, finally, iv) an R package (called streamChaos) that provides tools for processing nonlinear data streams as well as other algorithms to detect concept drifts. / Diversos processos industriais, científicos e comerciais produzem sequências de observações continuamente, teoricamente infinitas, denominadas fluxos de dados. Pela análise das recorrências e das mudanças de comportamento desses fluxos, é possível obter informações sobre o fenômeno que os produziu. A inferência de modelos estáveis para tais fluxos é suportada pelo estudo das recorrências dos dados, enquanto é prejudicada pelas mudanças de comportamento. Essas mudanças são produzidas principalmente por influências externas ainda desconhecidas pelos modelos vigentes, tal como ocorre quando novas estratégias de investimento surgem na bolsa de valores, ou quando há intervenções humanas no clima, etc. No contexto de Aprendizado de Máquina (AM), várias pesquisas têm sido realizadas para investigar essas variações nos fluxos de dados, referidas como mudanças de conceito. Sua detecção permite que os modelos possam ser atualizados a fim de apurar a predição, a compreensão e, eventualmente, controlar as influências que governam o fluxo de dados em estudo. Nesse cenário, algoritmos supervisionados sofrem com a limitação para rotular os dados quando esses são gerados em alta frequência e grandes volumes, e algoritmos não supervisionados carecem de fundamentação teórica para prover garantias na detecção de mudanças. Além disso, algoritmos de ambos paradigmas não representam adequadamente as dependências temporais entre observações dos fluxos. Nesse contexto, esta tese de doutorado introduz uma nova metodologia para detectar mudanças de conceito, na qual duas deficiências de ambos paradigmas de AM são confrontados: i) a instabilidade envolvida na modelagem dos dados, e ii) a representação das dependências temporais. Essa metodologia é motivada pelo arcabouço teórico de Carlsson e Memoli, que provê uma propriedade de estabilidade para algoritmos de agrupamento hierárquico com relação à permutação dos dados. Para usufruir desse arcabouço, as observações são embutidas pelo teorema de imersão de Takens, transformando-as em independentes. Esses dados são então agrupados pelo algoritmo Single-Linkage Invariante à Permutação (PISL), o qual respeita a propriedade de estabilidade de Carlsson e Memoli. A partir dos dados de entrada, esse algoritmo gera dendrogramas (ou modelos), que são equivalentes a espaços ultramétricos. Modelos sucessivos são comparados pela distância de Gromov-Hausdorff a fim de detectar mudanças de conceito no fluxo. Como resultado, as divergências dos modelos são de fato associadas a mudanças nos dados. Experimentos foram realizados, um considerando mudanças abruptas e o outro mudanças graduais. Os resultados confirmam que a metodologia proposta é capaz de detectar mudanças de conceito, tanto abruptas quanto graduais, no entanto ela é mais adequada para cenários mais complicados. As contribuições principais desta tese são: i) o uso do teorema de imersão de Takens para transformar os dados de entrada em independentes; ii) a implementação do algoritmo PISL em combinação com a distância de Gromov-Hausdorff (chamado PISLGH); iii) a comparação da metodologia proposta com outras da literatura em diferentes cenários; e, finalmente, iv) a disponibilização de um pacote em R (chamado streamChaos) que provê tanto ferramentas para processar fluxos de dados não lineares quanto diversos algoritmos para detectar mudanças de conceito. Agrupamento Aprendizado de máquina Clustering Concept drift Data streams Fluxos de dados Machine learning Mudanças de conceito Nonlinear time series Séries temporais não lineares
222	Proposição e avaliação de um modelo de transmissão de conhecimento coerente com comportamentos observados. / Proposal and evaluation of a knowledge transmission model consistent with observed behaviors. Rinaldi, Luciene Cristina Alves 01 October 2014 (has links) O avanço tecnológico faz com que simulações e experimentos computacionais sejam alternativas atraentes para estudar cientificamente princípios fundamentais de sistemas reais. Este trabalho foi desenvolvido buscando uma metodologia para encontrar um modelo de transmissão de conhecimento (competência) coerente com os comportamentos observados em campo na área de psicologia comparada que estuda primatas não humanos. O experimento visa apoiar os pesquisadores do Laboratório de Etologia Cognitiva do Instituto de Psicologia da USP que analisam os processos de aprendizagem de quebra de cocos, através da transferência de informações em um grupo de macacos prego que habitam uma ilha no Parque Ecológico do Tiete em São Paulo. O objetivo deste trabalho foi o desenvolvimento de um modelo computacional, implantado junto a uma plataforma de simulação, para avaliar experimentos virtuais de transmissão de conhecimento em macacos prego, analisando a influência de atividades periféricas sobre uma atividade específica (quebra de cocos). Além disso, a tese se propõe a discutir a coerência entre dados observados em campo e aqueles produzidos pela plataforma computacional. Embora as atividades periféricas não estejam diretamente relacionadas com a atividade específica do conhecimento a ser transmitido, contribuem indiretamente para isso, sendo este um tema de interesse da tese. O modelo desenvolvido trata tanto da proposição dos mecanismos de busca por uma matriz de transferência de conhecimento, como de um ambiente para simulação do sitio habitado pelos macacos, dando subsídios para ajuste e avaliação desta matriz (coeficientes que traduzem a importância de cada relação entre macacos nas suas diversas atividades). A plataforma computacional é alimentada com dados reais, que servem ainda como referencia para comparação com os resultados computacionais obtidos. A difusão do comportamento ocorre através da rede social considerando a proximidade entre os primatas (seus encontros). Cabe ressaltar que a simulação do comportamento dos indivíduos numa sociedade ocorre sobre um sistema matemático que não é capaz de representar suas propriedades mentais, nem de forma fiel o seu comportamento. Assim, o comportamento dos agentes são naturalmente limitados às características retratadas em modelos computacionais, de modo que os modelos mentais desses agentes e seus correspondentes comportamentos sociais são naturalmente simplificações da realidade. / Technological advances allow simulations and computational experiment to be attractive alternatives to proceed with scientific studies of some fundamental principles of real systems. This work was developed searching for a methodology to find a coherent model of knowledge (competence) transfer, in the study area of behavioral psychology of non-human primates. The experiment intends to assist researchers from the Laboratory of Cognitive Ethology of the Psychology Institute from USP, involved with the analysis of coconut break learning processes, based on knowledge transfer of a monkey group living on an island at Tiete Ecology Park, in Sao Paulo. The goal is the development of a computational model, implemented on a simulation platform, to assess virtual experiments on knowledge transfer in monkeys, evaluating the influence of peripheral activities on another specific one (coconut break). Furthermore, this thesis discusses the coherence between real and simulated data. Although secondary activities are not directly related to the specific one, there are evidences that they play a contribution role, a subject of this thesis too. The developed model considers both, the mechanism used to evolve and evaluate the knowledge transfer matrix (whose coefficients reflect the importance of each monkey relationship in their various activities). The computational platform is feed with real data, used also as a reference for comparison with simulation results. The behavior diffusion is performed inside a social network considering primates proximities (meetings). It is worth mentioning that the simulation runs on top of mathematical substrate not able to take into account all mental properties neither with fidelity all nuances of the social behavior. Therefore, the behavior of the agents in the simulation stage is constrained by those characteristics embedded in the used computational models, in such a way that their mental models and consequent behavior are naturally simplifications of the reality. Análise de rede social Aprendizado de máquina Comportamento social Computacional learning Computacional simulation Knowledge transfer Simulação computacional Social behavior Social network analysis Transferência de conhecimento
223	Complex network component unfolding using a particle competition technique / Desdobramento de componentes de redes complexas utilizando uma técnica de competição de partículas Urio, Paulo Roberto 12 June 2017 (has links) This work applies complex network theory to the problem of semi-supervised and unsupervised learning in networks that are representations of multivariate datasets. Complex networks allow the use of nonlinear dynamical systems to represent behaviors according to the connectivity patterns of networks. Inspired by behavior observed in nature, such as competition for limited resources, dynamical system models can be employed to uncover the organizational structure of a network. In this dissertation, we develop a technique for classifying data represented as interaction networks. As part of the technique, we model a dynamical system inspired by the biological dynamics of resource competition. So far, similar methods have focused on vertices as the resource of competition. We introduce edges as the resource of competition. In doing so, the connectivity pattern of a network might be used not only in the dynamical system simulation but in the learning task as well. / Este trabalho aplica a teoria de redes complexas para o estudo de uma técnica aplicada ao problema de aprendizado semissupervisionado e não-supervisionado em redes, especificamente, aquelas que representam conjuntos de dados multivariados. Redes complexas permitem o emprego de sistemas dinâmicos não-lineares que podem apresentar comportamentos de acordo com os padrões de conectividade de redes. Inspirado pelos comportamentos observados na natureza, tais como a competição por recursos limitados, sistema dinâmicos podem ser utilizados para revelar a estrutura da organização de uma rede. Nesta dissertação, desenvolve-se uma técnica aplicada ao problema de classificação de dados representados por redes de interação. Como parte da técnica, um sistema dinâmico inspirado na competição por recursos foi modelado. Métodos similares concentraram-se em vértices como o recurso da concorrência. Neste trabalho, introduziu-se arestas como o recurso-alvo da competição. Ao fazê-lo, utilizar-se-á o padrão de conectividade de uma rede tanto na simulação do sistema dinâmico, quanto na tarefa de aprendizado. Agrupamento de dados Aprendizado de máquina Aprendizado semissupervisionado Community detection Complex networks Data clustering Detecção de comunidades Machine learning Redes complexas Semi-supervised learning
224	Algoritmo kNN para previsão de dados temporais: funções de previsão e critérios de seleção de vizinhos próximos aplicados a variáveis ambientais em limnologia / Time series prediction using a KNN-based algorithm prediction functions and nearest neighbor selection criteria applied to limnological data Ferrero, Carlos Andres 04 March 2009 (has links) A análise de dados contendo informações sequenciais é um problema de crescente interesse devido à grande quantidade de informação que é gerada, entre outros, em processos de monitoramento. As séries temporais são um dos tipos mais comuns de dados sequenciais e consistem em observações ao longo do tempo. O algoritmo k-Nearest Neighbor - Time Series Prediction kNN-TSP é um método de previsão de dados temporais. A principal vantagem do algoritmo é a sua simplicidade, e a sua aplicabilidade na análise de séries temporais não-lineares e na previsão de comportamentos sazonais. Entretanto, ainda que ele frequentemente encontre as melhores previsões para séries temporais parcialmente periódicas, várias questões relacionadas com a determinação de seus parâmetros continuam em aberto. Este trabalho, foca-se em dois desses parâmetros, relacionados com a seleção de vizinhos mais próximos e a função de previsão. Para isso, é proposta uma abordagem simples para selecionar vizinhos mais próximos que considera a similaridade e a distância temporal de modo a selecionar os padrões mais similares e mais recentes. Também é proposta uma função de previsão que tem a propriedade de manter bom desempenho na presença de padrões em níveis diferentes da série temporal. Esses parâmetros foram avaliados empiricamente utilizando várias séries temporais, inclusive caóticas, bem como séries temporais reais referentes a variáveis ambientais do reservatório de Itaipu, disponibilizadas pela Itaipu Binacional. Três variáveis limnológicas fortemente correlacionadas são consideradas nos experimentos de previsão: temperatura da água, temperatura do ar e oxigênio dissolvido. Uma análise de correlação é realizada para verificar se os dados previstos mantem a correlação das variáveis. Os resultados mostram que, o critério de seleção de vizinhos próximos e a função de previsão, propostos neste trabalho, são promissores / Treating data that contains sequential information is an important problem that arises during the data mining process. Time series constitute a popular class of sequential data, where records are indexed by time. The k-Nearest Neighbor - Time Series Prediction kNN-TSP method is an approximator for time series prediction problems. The main advantage of this approximator is its simplicity, and is often used in nonlinear time series analysis for prediction of seasonal time series. Although kNN-TSP often finds the best fit for nearly periodic time series forecasting, some problems related to how to determine its parameters still remain. In this work, we focus in two of these parameters: the determination of the nearest neighbours and the prediction function. To this end, we propose a simple approach to select the nearest neighbours, where time is indirectly taken into account by the similarity measure, and a prediction function which is not disturbed in the presence of patterns at different levels of the time series. Both parameters were empirically evaluated on several artificial time series, including chaotic time series, as well as on a real time series related to several environmental variables from the Itaipu reservoir, made available by Itaipu Binacional. Three of the most correlated limnological variables were considered in the experiments carried out on the real time series: water temperature, air temperature and dissolved oxygen. Analyses of correlation were also accomplished to verify if the predicted variables values maintain similar correlation as the original ones. Results show that both proposals, the one related to the determination of the nearest neighbours as well as the one related to the prediction function, are promising Aprendizado de máquina Dados ambientais Environmental data Funções de previsão Limnologia Limnology Machine learning Nearest neighbor selection Prediction functions Previsão de dados temporais Seleção de vizinhos próximos Time series prediction
225	Detecção de patologias em plantações de eucaliptos com aprendizado de máquina / Detection of diseases in eucalyptus plantations with machine learning Oliveira, Matheus Della Croce 27 June 2016 (has links) As plantações de eucaliptos representam grande potencial econômico para a indústria de papel, celulose, entre outras, além de apresentar uma série de características positivas como alta produtividade, grande potencial de adaptação e ampla diversidade de espécies. Em consequência a tais vantagens, há décadas diversas pesquisas vem sendo realizadas com o intuito de monitorar e detectar diversas doenças que aferem este tipo de cultura. O monitoramento rápido das doenças em eucaliptos torna-se um requisito para evitar grandes perdas econômicas. Neste projeto de pesquisa utilizou-se imagens aéreas obtidas por VANTs (Veículos Aéreos Não-Tripulados) para detectar um tipo específico de estresse que afeta as plantações de eucaliptos: a Murcha de Ceratocyst is. Após rotular eucaliptos doentes e saudáveis e outras estruturas em imagens aéreas, técnicas de Aprendizado de Máquina Supervisionado foram desenvolvidas para generalizar o conhecimento e possibilitar uma rápida detecção através das imagens RGB e multiespectrais. Dentre as técnicas utilizadas, destacou-se a arquitetura de Redes Neurais Convolucional chamada de Custom- CNN, inspirada no modelo da tradicional arquitetura Lenet -5 agregando-se melhorias do estado-da-arte, como a camada convolucional 1x1. Na classificação do conjunto RGB, a Custom-CNN obteve o maior F-score, de 0,81, sendo que a técnica SVM-rbf obteve 0,67. No conjunto de dados com imagens multiespectrais, a Lenet -5 e a Custom-CNN at ingiram, respectivamente, 0,63 e 0,66 de F-score, enquanto o SVM-rbf obteve 0,46. Esta dissertação apresenta a metodologia utilizada para a classificação, elencando as principais características dos algoritmos utilizados, bem como os resultados experimentais obtidos. Há ainda uma aplicação do classificador Regressão Logística para o planejamento de trajetória com VANTs. / Eucalypt us plantations represent great economic potential for t he paper, pulp, among others, in addition to presenting a number of positive characteristics such as high productivity, great potential for adaptaion and wide diversity of species. In consequence of t hese advantages, there are several decades research has been conducted in order to monitor and detect various diseases that affect s this type of culture. The rapid monitoring of diseases in eucalyptus becomes a requirement to avoid major economic losses. In t his research project we used aerial images obtained by UAVs (Unmanned Aerial Vehicles) to detect an specific type of stress t hat a effect s eucalyptus plantations: the Ceratocyst is wilt . After labeling diseased eucalyptus, healthy eucalyptus and other structures in aerial images, Supervised Machine Learning techniques were developed to generalize knowledge and enable rapid detection through RGB and multispectral images. Among the techniques used, stood out t he Convolutional Neural Network architecture called Custom-CNN, that was inspired by the model of t raditional Lenet -5 architecture and with state-of-the-art improvements, such as t he 1x1 convolution layer. In t he classification of RGB dataset , the Custom-CNN obtained the highest F-score of 0.81, and SVM-RBF technique obtained 0.67. In t he dataset with multispectral images, Lenet -5 and Custom-CNN obtained, respectively, 0.63 and 0.66 of F-score, while SVM-rbf obtained 0.46. This paper presents the methodology used for classification, listing the main features of the algorithms and the experimental results. There is also an application of Logistic Regression classifier for path planning with UAVs. Aerial image classification Aprendizado de máquina Classificação em imagens aéreas Image processing Machine learning Processamento de imagens. Remote sensing Sensoriamento remoto UAVs VANTs
226	Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrieval Arcoverde, João Marcelo Azevedo 17 April 2007 (has links) Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored Aprendizado de máquina Categorização de textos Filtragem de informação Information filtering Information retrieval Machine learning Natural language processing Noun phrases Processamento de linguagem natural Recuperação de informação Sintagmas nominais Text categotization
227	Aprendizado não-supervisionado em redes neurais pulsadas de base radial. / Unsupervised learning in pulsed neural networks with radial basis function. Simões, Alexandre da Silva 07 April 2006 (has links) Redes neurais pulsadas - redes que utilizam uma codificação temporal da informação - têm despontado como uma nova e promissora abordagem dentro do paradigma conexionista emergente da ciência cognitiva. Um desses novos modelos é a rede neural pulsada de base radial, capaz de armazenar informação nos tempos de atraso axonais dos neurônios e que comporta algoritmos explícitos de treinamento. A recente proposição de uma sistemática para a codificação temporal dos dados de entrada utilizando campos receptivos gaussianos tem apresentado interessantes resultados na tarefa do agrupamento de dados (clustering). Este trabalho propõe uma função para o aprendizado não supervisionado dessa rede, com o objetivo de simplificar a sistemática de calibração de alguns dos seus parâmetros-chave, aprimorando a convergência da rede neural pulsada no aprendizado baseado em instâncias. O desempenho desse modelo é avaliado na tarefa de classificação de padrões, particularmente na classificação de pixels em imagens coloridas no domínio da visão computacional. / Pulsed neural networks - networks that encode information in the timing of spikes - have been studied as a new and promising approach in the artificial neural networks paradigm, emergent from cognitive science. One of these new models is the pulsed neural network with radial basis function, a network able to store information in the axonal propagation delay of neurons. Recently, a new method for encoding input-data by population code using gaussian receptive fields has showed interesting results in the clustering task. The present work proposes a function for the unsupervised learning task in this network, which goal includes the simplification of the calibration of the network key parameters and the enhancement of the pulsed neural network convergence to instance based learning. The performance of this model is evaluated for pattern classification, particularly for the pixel colors classification task, in the computer vision domain. Aprendizado de máquina Aprendizado não-supervisionado Artificial intelligence Computer vision Inteligência artificial Machine learning Neural networks Neurônio pulsado Pulsed neuron Redes neurais Spiking neuron Unsupervised learning Visão computacional
228	Genetic generation of fuzzy knowledge bases: new perspectives / Geração genética de bases de conhecimento fuzzy: novas perspectivas Cintra, Marcos Evandro 10 April 2012 (has links) This work focus on the genetic generation of fuzzy systems. One of the main contribution of this work is the proposal of the FCA-BASED method, which generates the genetic search space using the formal concept analysis theory by extracting rules from data. The experimental evaluation results of the FCA-BASED method show its robustness, producing a good trade-off between the accuracy and the interpretability of the generated models. Moreover, the FCA-BASED method presents improvements to the DOC-BASED method, a previously proposed approach, related to the reduction of the computational cost for the generation of the genetic search space. In order to tackle high dimensional datasets, we also propose the FUZZYDT method, a fuzzy version of the classic C4.5 decision tree, a highly scalable method that presents low computational cost and competitive accuracy. Due to these characteristics, FUZZYDT is used in this work as a baseline method for the experimental evaluation and comparisons of other classic and fuzzy classification methods. We also include in this work the use of the FUZZYDT method to a real world problem, the warning of the coffee rust disease in Brazilian crops. Furthermore, this work investigates the task of feature subset selection to address the dimensionality issue of fuzzy systems. To this end, we propose the FUZZYWRAPPER method, a wrapper-based approach that selects features taking the relevant information regarding the fuzzyfication of the attributes into account, in the feature selection process. This work also investigates the automatic design of fuzzy data bases, proposing the FUZZYDBD method, which estimates the number of fuzzy sets defining all the attributes of a dataset and evenly distributing the fuzzy sets in the domains of the attributes. A modified version of the FUZZYDBD method, FUZZYDBD-II, which defines independent numbers of fuzzy sets for each attribute of a dataset, by means of estimation functions, is also proposed in this work / Este trabalho foca na geração genética de sistemas fuzzy. Uma das principais contribuições deste trabalho é a proposta do método FCA-BASED, que gera o espaço de busca genético usando a teoria de análise de conceitos formais por meio da extração de regras dos dados. Os resultados da avaliação experimental do método FCA-BASED demonstram sua robustez. O método FCABASED também produz um bom trade-off entre acurácia e interpretabilidade dos modelos gerados. Além disso, o método FCA-BASED apresenta melhorias em relação ao método DOC-BASED, uma abordagem proposta anteriormente. Essas melhorias estão relacionadas à redução do custo computacional para a geração do espaço de busca genético. Para ser capaz de trabalhar com conjuntos de dados de alta dimensão, foi também proposto o método FUZZYDT, uma versão fuzzy da clássica árvore de decisão C4.5. FUZZYDT é um método altamente escalável que apresenta baixo custo computacional e acurácia competitiva. Devido a essas características, o FUZZYDT é usado nesse trabalho como um método baseline para a avaliação experimental e comparações de outros métodos de classificação, fuzzy e clássicos. Também está incluido nesse trabalho a aplicação do método FUZZYDT em um problema do mundo real, o alerta da doença da ferrugem cafeeira em plantações brasileiras. Além disso, esse trabalho investiga a tarefa de seleção de atributos como forma de atacar o problema da dimensionalidade de sistemas fuzzy. Para esse fim, foi proposto o método FUZZYWRAPPER, uma abordagem baseada em wrapper que seleciona atributos levando em consideração as informações relevantes sobre a fuzificação dos atributos durante o processo de seleção. Esse trabalho também investiga a construção automática de bases de dados fuzzy, incluindo a proposta do método FUZZYDBD, que estima o número de conjuntos fuzzy que define todos os atributos de um conjunto de dados e distribui os conjuntos fuzzy proporcionalmente nos domínios dos atributos. Uma versão modificada do método FUZZYDBD, o método FUZZYDBD-II, também é proposta nesse trabalho. O método FUZZYDBD-II define números independentes de conjuntos fuzzy para cada atributo de um conjunto de dados por meio de funções de estimação Algoritmos genéticos Aprendizado de máquina Classificação Classification Feature selection Fuzzy systems Genetic algorithms Genetic fuzzy systems Machine learning Seleção de atributos Sistemas fuzzy Sistemas fuzzy genéticos
229	Sistema ADAS para identificação de distrações e perturbações do motorista na condução de veículos / ADAS system for recognition of driver\'s distractions and disturbances while driving Berri, Rafael Alceste 31 January 2019 (has links) Este trabalho apresenta um sistema que se utiliza de características extraídas de dados provenientes de um sensor Kinect v2 para monitorar o motorista, dados de sensores inerciais, da telemetria do veículo e dados sobre a estrada/faixa de rodagem para reconhecer o estilo de direção, permitindo ao sistema detectar o uso do celular no trânsito, um motorista embriagado e a direção sonolenta, evitando assim, riscos relacionados com a direção. De fato, quando veículos são conduzidos por pessoas em ligações telefônicas, o risco de acidente aumenta de 4 a 6 vezes. Motoristas embriagados causaram 10:497 mortes nas rodovias dos Estados Unidos da América em 2016, segundo o órgão local responsável pela segurança no trânsito (NHTSA). Um Conjunto de Dados Naturalista do Comportamento do Motorista (NDBD) foi criado especificamente para este trabalho e utilizado para o teste e validação do sistema proposto. A solução proposta emprega duas análises dos dados do motorista, os subsistemas de reconhecimento de padrões de Curto e Longo prazos. Assim, pode-se detectar situações de risco na direção. O sistema possui 3 níveis de alerta: sem alerta, alerta baixo e alerta alto. O subsistema de Curto Prazo detecta situações de sem alerta e de algum nível de alerta. Já o subsistema de Longo Prazo é responsável por determinar o nível de alerta: baixo ou alto. Classificadores baseados em Aprendizado de Máquina e Redes Neurais Artificiais (RNA) foram utilizados. Um Algoritmo Genético foi empregado para otimizar e selecionar um conjunto de valores que ajustam a entrada de características, função de ativação dos neurônios e topologia/treino da rede neural. O sistema proposto alcançou 79;5% de acurácia nos frames do NDBD (conjunto de treinamento e validação obtidos utilizando um simulador veicular próprio), para a detecção conjunta de risco em situações de uso de celular, embriaguez ou condução normal. Para o classificador de Curto Prazo, utilizou-se períodos de 5 frames e uma janela de 140 frames para o Longo Prazo. Considerando a detecção individualizada dos problemas de condução, no caso específico da embriaguez (usados dados de embriaguez e direção normal) o sistema obteve 98% de acurácia, e especificamente para o uso de celular obteve 95% de acurácia. Na classificação de sem alerta (situações sem risco), o sistema obteve apenas 1;5% de predições erradas (falsos positivos), contribuindo assim para o conforto do motorista ao utilizar o sistema. / In this work, a system has been developed using features from a frontal Kinect v2 sensor to monitor the driver, from inertial sensors, car telemetry, and road lane data to recognize the driving style, enabling to recognize the use of a cell phone while driving, a drunk driver, and drowsy driving, avoiding driving risks. In fact, cars driven by people on phone calls, increases the risk of crash between 4 and 6 times. Drunk drivers caused 10;497 deaths on USA roads in 2016 according to NHTSA. The Naturalistic Driver Behavior Dataset (NDBD) was created specifically for this work and it was used to test the proposed system. The proposed solution uses two analysis of the drivers data, the Short-Term and Long-Term pattern recognition subsystems, thus it could detect the risk situations while driving. The system has 3 levels of alarm: no alarm, lowest alarm, and highest alarm. Short-Term detects between no alarm or some level alarm. Long-Term is responsible for determining the risk alarm level, low or high. The classifiers are based on Machine Learning and Artificial Neural Networks (ANN), furthermore, the values set to adjust input features, neuron activation functions, and network topology/training parameters were optimized and selected using a Genetic Algorithm. The proposed system achieved 79:5% of accuracy in NDBD frames (training and validation sets obtained using a driving simulator), for joint detection of risk in situations of cellphone usage, drunkenness, or normal driving. For the Short-Term classifier, it was used length periods of 5 frames and a window of 140 frames for Long-Term. Considering the individualized detection of driving problems, in the specific case of drunkenness (using data of drunkenness and normal driving), the system achieved 98% of accuracy, and specifically for cell phone usage 95% of accuracy. The best results achieved obtained only 1:5% of no risk situation having a wrong prediction (false positives with alarm activation), contributing to the driver comfort when he/she is using the system. ADAS ADAS Algoritmo genético Aprendizado de máquina Artificial neural networks Distrações do motorista Driver distractions Genetic algorithm Intelligent vehicles Machine learning Pattern recognition Reconhecimento de padrões Redes neurais artificiais Veículos inteligentes
230	Automatização do processo de seleção de transformações para otimização do tempo de execução por meio de aprendizado de máquina no arcabouço da LLVM. / Transformation selection process automation for execution time optimization through machine learning on LLVM framework. Sabaliauskas, Jorge Augusto 28 April 2015 (has links) A rápida evolução do hardware demanda uma evolução contínua dos compiladores. Um processo de ajuste deve ser realizado pelos projetistas de compiladores para garantir que o código gerado pelo compilador mantenha uma determinada qualidade, seja em termos de tempo de processamento ou outra característica pré-definida. Este trabalho visou automatizar o processo de ajuste de compiladores por meio de técnicas de aprendizado de máquina. Como resultado os planos de compilação obtidos usando aprendizado de máquina com as características propostas produziram código para programas cujos valores para os tempos de execução se aproximaram daqueles seguindo o plano padrão utilizado pela LLVM. / The fast evolution of hardware demands a continue evolution of the compilers. Compiler designers must perform a tuning process to ensure that the code generated by the compiler maintain a certain quality, both in terms of processing time or another preset feature. This work aims to automate compiler adjustment process through machine learning techniques. As a result the compiler plans obtained using machine learning with the proposed features had produced code for programs whose values for the execution times approached those following the standard plan used by LLVM. Ajuste de parâmetros de transformação Aprendizado computacional Aprendizado de máquina Code optimization Compiler tuning automatization process Machine learning Otimização de código Transformation parameters tuning

Search results