Global ETD Search

331	Arquitetura robótica inspirada na análise do comportamento / Robotic architecture inpired from Behavior analysis Cláudio Adriano Policastro 24 October 2008 (has links) Robôs sociáveis devem ser capazes de interagir, se comunicar, compreender e se relacionar com os seres humanos de uma forma natural. Existem diversas motivações práticas e científicas para o desenvolvimento de robôs sociáveis como plataforma de pesquisas, educação e entretenimento. Entretanto, embora diversos robôs sociáveis já tenham sido desenvolvidos com sucesso, ainda existe muito trabalho para aprimorar a sua eficácia. A utilização de uma arquitetura robótica pode reduzir fortemente o esforço requerido para o desenvolvimento de um robô sociável. Tal arquitetura robótica deve possuir estruturas e mecanismos para permitir a interação social, o controle do comportamento e o aprendizagem a partir do ambiente. Tal arquitetura deve ainda possuir estruturas e mecanismos para permitir a percepção e a atenção, a fim de permitir que um robô sociável perceba a riqueza do comportamento humano e do meio ambiente, e para aprender a partir de interações sociais. Os processos de aprendizado evidenciados na Análise do Comportamento podem levar ao desenvolvimento de métodos e estruturas promissoras para a construção de robôs sociáveis capazes de aprender por meio da interação com o meio ambiente e de exibir comportamento social apropriado. O proposito deste trabalho é o desenvolvimento de uma arquitetura robótica inspirada na Análise do Comportamento. A arquitetura desenvolvida é capaz de simular o aprendizado do comportamento operante e os métodos e estruturas propostos permitem o controlo e a exibição de comportamentos sociais apropriados e o aprendizado a partir da interação com o meio ambiente. A arquitetura proposta foi avaliada no contexto de um problema real não trivial: o aprendizado da atenção compartilhada. Os resultados obtidos mostram que a arquitetura é capaz de exibir comportamentos apropriados durante uma interação social real e controlada. Ainda, os resultados mostram também que a arquitetura pode aprender a partir de uma interação social. Este trabalho é a base para o desenvolvimento de uma ferramenta para a construção dos robôs sociáveis. Os resultados obtidos abrem muitas oportunidades de trabalhos futuros / Sociable robots should be able to interact, to communicate, to understand and to relate with human beings in a natural way. There are several scientific and practical motivations for developing sociable robots as platform of researches, education and entertainment. However, although several sociable robots have already been developed with success, much work remains to increase their effectiveness. The use of a robotic architecture may strongly reduce the time and effort required to construct a sociable robot. Such robotic architecture must have structures and mechanisms to allow social interaction, behavior control and learning from environment. Such architecture must also have structures and mechanisms to allow perception and attention, to enable a sociable robot to perceive the richness of the human behavior and of the environment, and to learn from social interactions. Learning processes evidenced on Behavior Analysis can led to the development of promising methods and structures for the construction social robots that are able to learn through interaction from the environment and to exhibit appropriate social behavior. The purpose of this work is the development of a robotic architecture inspired from Behavior Analysis. The developed architecture is able to simulate operant behavior learning and the proposed methods and structures allow the control and exhibition of appropriate social behavior and learning from interaction in the environment. The proposed architecture was evaluated in the context of a non trivial real problem: the learning of the shared attention. The obtained results show that the architecture is able to exhibit appropriate behaviors during a real and controlled social interaction. Additionally, the results show also that the architecture can learn from a social interaction. This work is the basis for developing a tool for the construction of social robots. The obtained results open oportunities of many future works Análise de comportamento Aprendizado de máquina Aprendizado por reforço Arquitetura robótica Representação híbrida do conhecimento Robôs sociáveis Behavior analysis Hybrid knowledge representation Machine learning Reinforcement learning Robotic architecture Sociable robots
332	Classicação de séries temporais utilizando diferentes representações de dados e ensembles / Time series classification using multiple representations and ensembles Rafael Giusti 23 August 2017 (has links) Dados temporais são ubíquos em quase todas as áreas do conhecimento humano. A área de aprendizado de máquina tem contribuído para a mineração desse tipo de dados com algoritmos para classificação, agrupamento, detecção de anomalias ou exceções e detecção de padrões recorrentes, dentre outros. Tais algoritmos dependem, muitas vezes, de uma função capaz de expressar um conceito de similaridade entre os dados. Um dos mais importantes modelos de classificação, denominado 1-NN, utiliza uma função de distância para comparar uma série temporal de interesse a um conjunto de referência, atribuindo à primeira o rótulo da série de referência mais semelhante. Entretanto, existem situações nas quais os dados temporais são insuficientes para identificar vizinhos de acordo com o conceito associado às classes. Uma possível abordagem é transportar as séries para um domínio de representação no qual atributos mais relevantes para a classificação são mais claros. Por exemplo, uma série temporal pode ser decomposta em componentes periódicas de diferentes frequências e amplitudes. Para muitas aplicações, essas componentes são muito mais significativas na discriminação das classes do que a evolução da série ao longo do tempo. Nesta Tese, emprega-se diversidade de representações e de distâncias para a classificação de séries temporais. Com base na escolha de uma representação de dados adequada para expor as características discriminativas do domínio, pode-se obter classificadores mais fiéis ao conceitoalvo. Para esse fim, promove-se um estudo de domínios de representação de dados temporais, visando identificar como esses domínios podem estabelecer espaços alternativos de decisão. Diferentes modelos do classificador 1-NN são avaliados isoladamente e associados em ensembles de classificadores a fim de se obter classificadores mais robustos. Funções de distância e domínios alternativos de representação são também utilizados neste trabalho para produzir atributos não temporais, denominados atributos de distâncias. Esses atributos refletem conceitos de vizinhança aos exemplos do conjunto de treinamento e podem ser utilizados para treinar modelos de classificação que tipicamente não são eficazes quando treinados com as observações originais. Nesta Tese mostra-se que atributos de distância permitem obter resultados compatíveis com o estado-da-arte. / Temporal data are ubiquitous in nearly all areas of human knowledge. The research field known as machine learning has contributed to temporal data mining with algorithms for classification, clustering, anomaly or exception detection, and motif detection, among others. These algorithms oftentimes are reliant on a distance function that must be capable of expressing a similarity concept among the data. One of the most important classification models, the 1-NN, employs a distance function when comparing a time series of interest against a reference set, and assigns to the former the label of the most similar reference time series. There are, however, several domains in which the temporal data are insufficient to characterize neighbors according to the concepts associated to the classes. One possible approach to this problem is to transform the time series into a representation domain in which the meaningful attributes for the classifier are more clearly expressed. For instance, a time series may be decomposed into periodic components of different frequency and amplitude values. For several applications, those components are much more meaningful in discriminating the classes than the temporal evolution of the original observations. In this work, we employ diversity of representation and distance functions for the classification of time series. By choosing a data representation that is more suitable to express the discriminating characteristics of the domain, we are able to achieve classification that are more faithful to the target-concept. With this goal in mind, we promote a study of time series representation domains, and we evaluate how such domains can provide alternative decision spaces. Different models of the 1-NN classifier are evaluated both isolated and associated in classification ensembles in order to construct more robust classifiers. We also use distance functions and alternative representation domains in order to extract nontemporal attributes, known as distance features. Distance features reflect neighborhood concepts of the instances to the training samples, and they may be used to induce classification models which are typically not as efficient when trained with the original time series observations. We show that distance features allow for classification results compatible with the state-of-the-art. Aprendizado de máquina Classificação de séries temporais Inteligência artificial Representação de séries temporais Séries temporais Artificial intelligence Machine learning Time series Time series classification Time series representation
333	Employing nonlinear time series analysis tools with stable clustering algorithms for detecting concept drift on data streams / Aplicando ferramentas de análise de séries temporais não lineares e algoritmos de agrupamento estáveis para a detecção de mudanças de conceito em fluxos de dados Fausto Guzzo da Costa 17 August 2017 (has links) Several industrial, scientific and commercial processes produce open-ended sequences of observations which are referred to as data streams. We can understand the phenomena responsible for such streams by analyzing data in terms of their inherent recurrences and behavior changes. Recurrences support the inference of more stable models, which are deprecated by behavior changes though. External influences are regarded as the main agent actuacting on the underlying phenomena to produce such modifications along time, such as new investments and market polices impacting on stocks, the human intervention on climate, etc. In the context of Machine Learning, there is a vast research branch interested in investigating the detection of such behavior changes which are also referred to as concept drifts. By detecting drifts, one can indicate the best moments to update modeling, therefore improving prediction results, the understanding and eventually the controlling of other influences governing the data stream. There are two main concept drift detection paradigms: the first based on supervised, and the second on unsupervised learning algorithms. The former faces great issues due to the labeling infeasibility when streams are produced at high frequencies and large volumes. The latter lacks in terms of theoretical foundations to provide detection guarantees. In addition, both paradigms do not adequately represent temporal dependencies among data observations. In this context, we introduce a novel approach to detect concept drifts by tackling two deficiencies of both paradigms: i) the instability involved in data modeling, and ii) the lack of time dependency representation. Our unsupervised approach is motivated by Carlsson and Memolis theoretical framework which ensures a stability property for hierarchical clustering algorithms regarding to data permutation. To take full advantage of such framework, we employed Takens embedding theorem to make data statistically independent after being mapped to phase spaces. Independent data were then grouped using the Permutation-Invariant Single-Linkage Clustering Algorithm (PISL), an adapted version of the agglomerative algorithm Single-Linkage, respecting the stability property proposed by Carlsson and Memoli. Our algorithm outputs dendrograms (seen as data models), which are proven to be equivalent to ultrametric spaces, therefore the detection of concept drifts is possible by comparing consecutive ultrametric spaces using the Gromov-Hausdorff (GH) distance. As result, model divergences are indeed associated to data changes. We performed two main experiments to compare our approach to others from the literature, one considering abrupt and another with gradual changes. Results confirm our approach is capable of detecting concept drifts, both abrupt and gradual ones, however it is more adequate to operate on complicated scenarios. The main contributions of this thesis are: i) the usage of Takens embedding theorem as tool to provide statistical independence to data streams; ii) the implementation of PISL in conjunction with GH (called PISLGH); iii) a comparison of detection algorithms in different scenarios; and, finally, iv) an R package (called streamChaos) that provides tools for processing nonlinear data streams as well as other algorithms to detect concept drifts. / Diversos processos industriais, científicos e comerciais produzem sequências de observações continuamente, teoricamente infinitas, denominadas fluxos de dados. Pela análise das recorrências e das mudanças de comportamento desses fluxos, é possível obter informações sobre o fenômeno que os produziu. A inferência de modelos estáveis para tais fluxos é suportada pelo estudo das recorrências dos dados, enquanto é prejudicada pelas mudanças de comportamento. Essas mudanças são produzidas principalmente por influências externas ainda desconhecidas pelos modelos vigentes, tal como ocorre quando novas estratégias de investimento surgem na bolsa de valores, ou quando há intervenções humanas no clima, etc. No contexto de Aprendizado de Máquina (AM), várias pesquisas têm sido realizadas para investigar essas variações nos fluxos de dados, referidas como mudanças de conceito. Sua detecção permite que os modelos possam ser atualizados a fim de apurar a predição, a compreensão e, eventualmente, controlar as influências que governam o fluxo de dados em estudo. Nesse cenário, algoritmos supervisionados sofrem com a limitação para rotular os dados quando esses são gerados em alta frequência e grandes volumes, e algoritmos não supervisionados carecem de fundamentação teórica para prover garantias na detecção de mudanças. Além disso, algoritmos de ambos paradigmas não representam adequadamente as dependências temporais entre observações dos fluxos. Nesse contexto, esta tese de doutorado introduz uma nova metodologia para detectar mudanças de conceito, na qual duas deficiências de ambos paradigmas de AM são confrontados: i) a instabilidade envolvida na modelagem dos dados, e ii) a representação das dependências temporais. Essa metodologia é motivada pelo arcabouço teórico de Carlsson e Memoli, que provê uma propriedade de estabilidade para algoritmos de agrupamento hierárquico com relação à permutação dos dados. Para usufruir desse arcabouço, as observações são embutidas pelo teorema de imersão de Takens, transformando-as em independentes. Esses dados são então agrupados pelo algoritmo Single-Linkage Invariante à Permutação (PISL), o qual respeita a propriedade de estabilidade de Carlsson e Memoli. A partir dos dados de entrada, esse algoritmo gera dendrogramas (ou modelos), que são equivalentes a espaços ultramétricos. Modelos sucessivos são comparados pela distância de Gromov-Hausdorff a fim de detectar mudanças de conceito no fluxo. Como resultado, as divergências dos modelos são de fato associadas a mudanças nos dados. Experimentos foram realizados, um considerando mudanças abruptas e o outro mudanças graduais. Os resultados confirmam que a metodologia proposta é capaz de detectar mudanças de conceito, tanto abruptas quanto graduais, no entanto ela é mais adequada para cenários mais complicados. As contribuições principais desta tese são: i) o uso do teorema de imersão de Takens para transformar os dados de entrada em independentes; ii) a implementação do algoritmo PISL em combinação com a distância de Gromov-Hausdorff (chamado PISLGH); iii) a comparação da metodologia proposta com outras da literatura em diferentes cenários; e, finalmente, iv) a disponibilização de um pacote em R (chamado streamChaos) que provê tanto ferramentas para processar fluxos de dados não lineares quanto diversos algoritmos para detectar mudanças de conceito. Agrupamento Aprendizado de máquina Fluxos de dados Mudanças de conceito Séries temporais não lineares Clustering Concept drift Data streams Machine learning Nonlinear time series
334	Complex network component unfolding using a particle competition technique / Desdobramento de componentes de redes complexas utilizando uma técnica de competição de partículas Paulo Roberto Urio 12 June 2017 (has links) This work applies complex network theory to the problem of semi-supervised and unsupervised learning in networks that are representations of multivariate datasets. Complex networks allow the use of nonlinear dynamical systems to represent behaviors according to the connectivity patterns of networks. Inspired by behavior observed in nature, such as competition for limited resources, dynamical system models can be employed to uncover the organizational structure of a network. In this dissertation, we develop a technique for classifying data represented as interaction networks. As part of the technique, we model a dynamical system inspired by the biological dynamics of resource competition. So far, similar methods have focused on vertices as the resource of competition. We introduce edges as the resource of competition. In doing so, the connectivity pattern of a network might be used not only in the dynamical system simulation but in the learning task as well. / Este trabalho aplica a teoria de redes complexas para o estudo de uma técnica aplicada ao problema de aprendizado semissupervisionado e não-supervisionado em redes, especificamente, aquelas que representam conjuntos de dados multivariados. Redes complexas permitem o emprego de sistemas dinâmicos não-lineares que podem apresentar comportamentos de acordo com os padrões de conectividade de redes. Inspirado pelos comportamentos observados na natureza, tais como a competição por recursos limitados, sistema dinâmicos podem ser utilizados para revelar a estrutura da organização de uma rede. Nesta dissertação, desenvolve-se uma técnica aplicada ao problema de classificação de dados representados por redes de interação. Como parte da técnica, um sistema dinâmico inspirado na competição por recursos foi modelado. Métodos similares concentraram-se em vértices como o recurso da concorrência. Neste trabalho, introduziu-se arestas como o recurso-alvo da competição. Ao fazê-lo, utilizar-se-á o padrão de conectividade de uma rede tanto na simulação do sistema dinâmico, quanto na tarefa de aprendizado. Agrupamento de dados Aprendizado de máquina Aprendizado semissupervisionado Detecção de comunidades Redes complexas Community detection Complex networks Data clustering Machine learning Semi-supervised learning
335	Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrieval João Marcelo Azevedo Arcoverde 17 April 2007 (has links) Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored Aprendizado de máquina Categorização de textos Filtragem de informação Processamento de linguagem natural Recuperação de informação Sintagmas nominais Information filtering Information retrieval Machine learning Natural language processing Noun phrases Text categotization
336	Genetic generation of fuzzy knowledge bases: new perspectives / Geração genética de bases de conhecimento fuzzy: novas perspectivas Marcos Evandro Cintra 10 April 2012 (has links) This work focus on the genetic generation of fuzzy systems. One of the main contribution of this work is the proposal of the FCA-BASED method, which generates the genetic search space using the formal concept analysis theory by extracting rules from data. The experimental evaluation results of the FCA-BASED method show its robustness, producing a good trade-off between the accuracy and the interpretability of the generated models. Moreover, the FCA-BASED method presents improvements to the DOC-BASED method, a previously proposed approach, related to the reduction of the computational cost for the generation of the genetic search space. In order to tackle high dimensional datasets, we also propose the FUZZYDT method, a fuzzy version of the classic C4.5 decision tree, a highly scalable method that presents low computational cost and competitive accuracy. Due to these characteristics, FUZZYDT is used in this work as a baseline method for the experimental evaluation and comparisons of other classic and fuzzy classification methods. We also include in this work the use of the FUZZYDT method to a real world problem, the warning of the coffee rust disease in Brazilian crops. Furthermore, this work investigates the task of feature subset selection to address the dimensionality issue of fuzzy systems. To this end, we propose the FUZZYWRAPPER method, a wrapper-based approach that selects features taking the relevant information regarding the fuzzyfication of the attributes into account, in the feature selection process. This work also investigates the automatic design of fuzzy data bases, proposing the FUZZYDBD method, which estimates the number of fuzzy sets defining all the attributes of a dataset and evenly distributing the fuzzy sets in the domains of the attributes. A modified version of the FUZZYDBD method, FUZZYDBD-II, which defines independent numbers of fuzzy sets for each attribute of a dataset, by means of estimation functions, is also proposed in this work / Este trabalho foca na geração genética de sistemas fuzzy. Uma das principais contribuições deste trabalho é a proposta do método FCA-BASED, que gera o espaço de busca genético usando a teoria de análise de conceitos formais por meio da extração de regras dos dados. Os resultados da avaliação experimental do método FCA-BASED demonstram sua robustez. O método FCABASED também produz um bom trade-off entre acurácia e interpretabilidade dos modelos gerados. Além disso, o método FCA-BASED apresenta melhorias em relação ao método DOC-BASED, uma abordagem proposta anteriormente. Essas melhorias estão relacionadas à redução do custo computacional para a geração do espaço de busca genético. Para ser capaz de trabalhar com conjuntos de dados de alta dimensão, foi também proposto o método FUZZYDT, uma versão fuzzy da clássica árvore de decisão C4.5. FUZZYDT é um método altamente escalável que apresenta baixo custo computacional e acurácia competitiva. Devido a essas características, o FUZZYDT é usado nesse trabalho como um método baseline para a avaliação experimental e comparações de outros métodos de classificação, fuzzy e clássicos. Também está incluido nesse trabalho a aplicação do método FUZZYDT em um problema do mundo real, o alerta da doença da ferrugem cafeeira em plantações brasileiras. Além disso, esse trabalho investiga a tarefa de seleção de atributos como forma de atacar o problema da dimensionalidade de sistemas fuzzy. Para esse fim, foi proposto o método FUZZYWRAPPER, uma abordagem baseada em wrapper que seleciona atributos levando em consideração as informações relevantes sobre a fuzificação dos atributos durante o processo de seleção. Esse trabalho também investiga a construção automática de bases de dados fuzzy, incluindo a proposta do método FUZZYDBD, que estima o número de conjuntos fuzzy que define todos os atributos de um conjunto de dados e distribui os conjuntos fuzzy proporcionalmente nos domínios dos atributos. Uma versão modificada do método FUZZYDBD, o método FUZZYDBD-II, também é proposta nesse trabalho. O método FUZZYDBD-II define números independentes de conjuntos fuzzy para cada atributo de um conjunto de dados por meio de funções de estimação Algoritmos genéticos Aprendizado de máquina Classificação Seleção de atributos Sistemas fuzzy Sistemas fuzzy genéticos Classification Feature selection Fuzzy systems Genetic algorithms Genetic fuzzy systems Machine learning
337	Uso de meta-aprendizado na recomendação de meta-heurísticas para o problema do caixeiro viajante / Using meta-learning on the recommendation of meta-heuristics for the traveling salesman problem Jorge Yoshio Kanda 07 December 2012 (has links) O problema do caixeiro viajante (PCV) é um problema clássico de otimização que possui diversas variações, aplicações e instâncias. Encontrar a solução ótima para muitas instâncias desse problema é geralmente muito difícil devido o alto custo computacional. Vários métodos de otimização, conhecidos como meta-heurísticas (MHs), são capazes de encontrar boas soluções para o PCV. Muitos algoritmos baseados em diversas MHs têm sido propostos e investigados para diferentes variações do PCV. Como não existe um algoritmo universal que encontre a melhor solução para todas as instâncias de um problema, diferentes MHs podem prover a melhor solução para diferentes instâncias do PCV. Desse modo, a seleção a priori da MH que produza a melhor solução para uma dada instância é uma tarefa difícil. A pesquisa desenvolvida nesta tese investiga o uso de abordagens de meta-aprendizado para selecionar as MHs mais promissoras para novas instâncias de PCV. Essas abordagens induzem meta-modelos preditivos a partir do treinamento das técnicas de aprendizado de máquina em um conjunto de meta-dados. Cada meta-exemplo, em nosso conjunto de meta-dados, representa uma instância de PCV descrita por características (meta-atributos) do PCV e pelo desempenho das MHs (meta-atributo alvo) para essa instância. Os meta-modelos induzidos são usados para indicar os valores do meta-atributo alvo para novas instâncias do PCV. Vários experimentos foram realizados durante a investigação desta pesquisa e resultados importantes foram obtidos / The traveling salesman problem (TSP) is a classical optimization problem that has several variations, applications and instances. To find the optimal solution for many instances of this problem is usually a very hard task due to high computational cost. Various optimization methods, known as metaheuristics (MHs), are capable to generate good solutions for the TSP. Many algorithms based on different MHs have been proposed and investigated for different variations of the TSP. Different MHs can provide the best optimization solution for different TSP instances, since there is no a universal algorithm able to find the best solution for all instances. Thus, a priori selection of the MH that produces the best solution for a given instance is a hard task. The research developed in this thesis investigates the use of meta-learning approaches to select the most promising MHs for new TSP instances. These approaches induce predictive meta-models from the training of machine learning techniques on a set of meta-data. In our meta-data, each meta-example is a TSP instance described by problem characteristics (meta-features) and performance of MHs (target meta-features) for this instance. The induced meta-models are used to indicate the values of the target meta-feature for new TSP instances. During the investigation of this research, several experiments were performed and important results were obtained Aprendizado de máquina Meta-aprendizado Meta-heurísticas Problema de seleção de algoritmos Problema do caixeiro viajante Algorithm selection problem Machine learning Meta-heuristics Meta-learning Traveling salesman problem
338	Algoritmo kNN para previsão de dados temporais: funções de previsão e critérios de seleção de vizinhos próximos aplicados a variáveis ambientais em limnologia / Time series prediction using a KNN-based algorithm prediction functions and nearest neighbor selection criteria applied to limnological data Carlos Andres Ferrero 04 March 2009 (has links) A análise de dados contendo informações sequenciais é um problema de crescente interesse devido à grande quantidade de informação que é gerada, entre outros, em processos de monitoramento. As séries temporais são um dos tipos mais comuns de dados sequenciais e consistem em observações ao longo do tempo. O algoritmo k-Nearest Neighbor - Time Series Prediction kNN-TSP é um método de previsão de dados temporais. A principal vantagem do algoritmo é a sua simplicidade, e a sua aplicabilidade na análise de séries temporais não-lineares e na previsão de comportamentos sazonais. Entretanto, ainda que ele frequentemente encontre as melhores previsões para séries temporais parcialmente periódicas, várias questões relacionadas com a determinação de seus parâmetros continuam em aberto. Este trabalho, foca-se em dois desses parâmetros, relacionados com a seleção de vizinhos mais próximos e a função de previsão. Para isso, é proposta uma abordagem simples para selecionar vizinhos mais próximos que considera a similaridade e a distância temporal de modo a selecionar os padrões mais similares e mais recentes. Também é proposta uma função de previsão que tem a propriedade de manter bom desempenho na presença de padrões em níveis diferentes da série temporal. Esses parâmetros foram avaliados empiricamente utilizando várias séries temporais, inclusive caóticas, bem como séries temporais reais referentes a variáveis ambientais do reservatório de Itaipu, disponibilizadas pela Itaipu Binacional. Três variáveis limnológicas fortemente correlacionadas são consideradas nos experimentos de previsão: temperatura da água, temperatura do ar e oxigênio dissolvido. Uma análise de correlação é realizada para verificar se os dados previstos mantem a correlação das variáveis. Os resultados mostram que, o critério de seleção de vizinhos próximos e a função de previsão, propostos neste trabalho, são promissores / Treating data that contains sequential information is an important problem that arises during the data mining process. Time series constitute a popular class of sequential data, where records are indexed by time. The k-Nearest Neighbor - Time Series Prediction kNN-TSP method is an approximator for time series prediction problems. The main advantage of this approximator is its simplicity, and is often used in nonlinear time series analysis for prediction of seasonal time series. Although kNN-TSP often finds the best fit for nearly periodic time series forecasting, some problems related to how to determine its parameters still remain. In this work, we focus in two of these parameters: the determination of the nearest neighbours and the prediction function. To this end, we propose a simple approach to select the nearest neighbours, where time is indirectly taken into account by the similarity measure, and a prediction function which is not disturbed in the presence of patterns at different levels of the time series. Both parameters were empirically evaluated on several artificial time series, including chaotic time series, as well as on a real time series related to several environmental variables from the Itaipu reservoir, made available by Itaipu Binacional. Three of the most correlated limnological variables were considered in the experiments carried out on the real time series: water temperature, air temperature and dissolved oxygen. Analyses of correlation were also accomplished to verify if the predicted variables values maintain similar correlation as the original ones. Results show that both proposals, the one related to the determination of the nearest neighbours as well as the one related to the prediction function, are promising Aprendizado de máquina Dados ambientais Funções de previsão Limnologia Previsão de dados temporais Seleção de vizinhos próximos Environmental data Limnology Machine learning Nearest neighbor selection Prediction functions Time series prediction
339	Detecção de patologias em plantações de eucaliptos com aprendizado de máquina / Detection of diseases in eucalyptus plantations with machine learning Matheus Della Croce Oliveira 27 June 2016 (has links) As plantações de eucaliptos representam grande potencial econômico para a indústria de papel, celulose, entre outras, além de apresentar uma série de características positivas como alta produtividade, grande potencial de adaptação e ampla diversidade de espécies. Em consequência a tais vantagens, há décadas diversas pesquisas vem sendo realizadas com o intuito de monitorar e detectar diversas doenças que aferem este tipo de cultura. O monitoramento rápido das doenças em eucaliptos torna-se um requisito para evitar grandes perdas econômicas. Neste projeto de pesquisa utilizou-se imagens aéreas obtidas por VANTs (Veículos Aéreos Não-Tripulados) para detectar um tipo específico de estresse que afeta as plantações de eucaliptos: a Murcha de Ceratocyst is. Após rotular eucaliptos doentes e saudáveis e outras estruturas em imagens aéreas, técnicas de Aprendizado de Máquina Supervisionado foram desenvolvidas para generalizar o conhecimento e possibilitar uma rápida detecção através das imagens RGB e multiespectrais. Dentre as técnicas utilizadas, destacou-se a arquitetura de Redes Neurais Convolucional chamada de Custom- CNN, inspirada no modelo da tradicional arquitetura Lenet -5 agregando-se melhorias do estado-da-arte, como a camada convolucional 1x1. Na classificação do conjunto RGB, a Custom-CNN obteve o maior F-score, de 0,81, sendo que a técnica SVM-rbf obteve 0,67. No conjunto de dados com imagens multiespectrais, a Lenet -5 e a Custom-CNN at ingiram, respectivamente, 0,63 e 0,66 de F-score, enquanto o SVM-rbf obteve 0,46. Esta dissertação apresenta a metodologia utilizada para a classificação, elencando as principais características dos algoritmos utilizados, bem como os resultados experimentais obtidos. Há ainda uma aplicação do classificador Regressão Logística para o planejamento de trajetória com VANTs. / Eucalypt us plantations represent great economic potential for t he paper, pulp, among others, in addition to presenting a number of positive characteristics such as high productivity, great potential for adaptaion and wide diversity of species. In consequence of t hese advantages, there are several decades research has been conducted in order to monitor and detect various diseases that affect s this type of culture. The rapid monitoring of diseases in eucalyptus becomes a requirement to avoid major economic losses. In t his research project we used aerial images obtained by UAVs (Unmanned Aerial Vehicles) to detect an specific type of stress t hat a effect s eucalyptus plantations: the Ceratocyst is wilt . After labeling diseased eucalyptus, healthy eucalyptus and other structures in aerial images, Supervised Machine Learning techniques were developed to generalize knowledge and enable rapid detection through RGB and multispectral images. Among the techniques used, stood out t he Convolutional Neural Network architecture called Custom-CNN, that was inspired by the model of t raditional Lenet -5 architecture and with state-of-the-art improvements, such as t he 1x1 convolution layer. In t he classification of RGB dataset , the Custom-CNN obtained the highest F-score of 0.81, and SVM-RBF technique obtained 0.67. In t he dataset with multispectral images, Lenet -5 and Custom-CNN obtained, respectively, 0.63 and 0.66 of F-score, while SVM-rbf obtained 0.46. This paper presents the methodology used for classification, listing the main features of the algorithms and the experimental results. There is also an application of Logistic Regression classifier for path planning with UAVs. Aprendizado de máquina Classificação em imagens aéreas Processamento de imagens. Sensoriamento remoto VANTs Aerial image classification Image processing Machine learning Remote sensing UAVs
340	Construção automática de redes bayesianas para extração de interações proteína-proteína a partir de textos biomédicos / Learning Bayesian networks for extraction of protein-protein interaction from biomedical articles Pedro Nelson Shiguihara Juárez 20 June 2013 (has links) A extração de Interações Proteína-Proteína (IPPs) a partir de texto é um problema relevante na área biomédica e um desafio na área de aprendizado de máquina. Na área biomédica, as IPPs são fundamentais para compreender o funcionamento dos seres vivos. No entanto, o número de artigos relacionados com IPPs está aumentando rapidamente, sendo impraticável identicá-las e catalogá-las manualmente. Por exemplo, no caso das IPPs humanas apenas 10% foram catalogadas. Por outro lado, em aprendizado de máquina, métodos baseados em kernels são frequentemente empregados para extrair automaticamente IPPs, atingindo resultados considerados estado da arte. Esses métodos usam informações léxicas, sintáticas ou semânticas como características. Entretanto, os resultados ainda são insuficientes, atingindo uma taxa relativamente baixa, em termos da medida F, devido à complexidade do problema. Apesar dos esforços em produzir kernels, cada vez mais sofisticados, usando árvores sintáticas como árvores constituintes ou de dependência, pouco é conhecido sobre o desempenho de outras abordagens de aprendizado de máquina como, por exemplo, as redes bayesianas. As àrvores constituintes são estruturas de grafos que contêm informação importante da gramática subjacente as sentenças de textos contendo IPPs. Por outro lado, a rede bayesiana permite modelar algumas regras da gramática e atribuir para elas uma distribuição de probabilidade de acordo com as sentenças de treinamento. Neste trabalho de mestrado propõe-se um método para construção automática de redes bayesianas a partir de árvores contituintes para extração de IPPs. O método foi testado em cinco corpora padrões da extração de IPPs, atingindo resultados competitivos, em alguns casos melhores, em comparação a métodos do estado da arte / Extracting Protein-Protein Interactions (PPIs) from text is a relevant problem in the biomedical field and a challenge in the area of machine learning. In the biomedical field, the PPIs are fundamental to understand the functioning of living organisms. However, the number of articles related to PPIs is increasing rapidly, hence it is impractical to identify and catalog them manually. For example, in the case of human PPIs only 10 % have been cataloged. On the other hand, machine learning methods based on kernels are often employed to automatically extract PPIs, achieving state of the art results. These methods use lexical, syntactic and semantic information as features. However, the results are still poor, reaching a relatively low rate of F-measure due to the complexity of the problem. Despite efforts to produce sophisticate kernels, using syntactic trees as constituent or dependency trees, little is known about the performance of other Machine Learning approaches, eg, Bayesian networks. Constituent tree structures are graphs which contain important information of the underlying grammar in sentences containing PPIs. On the other hand, the Bayesian network allows modeling some rules of grammar and assign to them a probability distribution according to the training sentences. In this master thesis we propose a method for automatic construction of Bayesian networks from constituent trees for extracting PPIs. The method was tested in five corpora, considered benchmark of extraction of PPI, achieving competitive results, and in some cases better results when compared to state of the art methods Aprendizado de máquina Extração de informação Extração de relação Redes bayesianas Bayesian networks Information extraction Machine learning Protei-protein interaction extraction Relation extraction

Search results