Global ETD Search

181	Regras de associação aplicadas aos filtros de mensagens e canais de informação do projeto direto / Association rules applied to messages filters and information channel in the direto environment Frighetto, Michele January 2003 (has links) Neste trabalho é apresentado um breve estudo sobre o processo de descoberta de conhecimento em banco de dados, com enfoque na etapa de mineração de dados através de regras de associação. Propostas por Agrawal em 1993, num estudo chamado análise de cesta de mercado, as regras de associação representam que com um certo grau de suporte e confiança um conjunto de itens pode estar presente numa transação visto que outro conjunto está presente. A necessidade de análise semelhante às realizadas por Agrawal surgiu em outros campos e estas foram estendidas a outras aplicações. Neste, são apresentadas as principais variações sobre o tema regras de associação encontradas na literatura. É proposta a mineração de dados através de regras de associação sobre filtros de mensagens e canais de informação do software de catálogo, agenda e correio eletrônico Direto. Para as pesquisas são utilizadas três ferramentas: Intelligent Miner, CBA e Magnus Opus. Elas foram aplicadas sobre uma lista de discussão da Linguagem Java, pois o projeto Direto ainda não possui mensagens públicas. As ferramentas possuem características distintas: o Intelligent Miner permite a definição de hierarquias sobre os dados que serão minerados; o Magnus Opus trabalha com diversos filtros e com a definição de intervalos para o tratamento de campos numéricos; o CBA permite que sejam especificados suportes múltiplos para os itens. / This work presents a brief review about knowledge discovery in database having association rules as the data mining process. Association rules were proposed by Agrawal in 1993 in a basket data analysis. Association rules have been extended to other applications because there is a necessity for similar Agrawal’s analysis in different domains. Here are presented some variations proposed in the literature about association rules along with the main algorithms. This work proposes the use of association rules over message filters and information channels from the Direto, which is a catalog, schedule and e-mail software. Three data mining tools were used: Intelligent Miner, CBA and Magnus Opus. They were applied over a Java discussion list because Direto project does not have public messages. Each tool has distinct features: Intelligent Miner allows to define a hierarchy over the data that will be mined; Magnus Opus works with many filters over the data and permits to define ranges over numeric fields and CBA allows to specify multiple minimum support over the items. Descoberta : Conhecimento Tecnologia da informação Internet : Aspectos sociais Data mining Association rules Discussion list Message filters Information channel Intelligent miner Magnus opus CBA
182	"Visualizações temporais em uma plataforma de software extensível e adaptável" / "Temporal visualizations in an extensible and adaptable software platform" Milton Hirokazu Shimabukuro 05 July 2004 (has links) Repositórios com volumes de dados cada vez maiores foram viabilizados pelo desenvolvimento tecnológico, criando importantes fontes de informação em diversas áreas da atividade humana. Esses repositórios freqüentemente incluem informação sobre o comportamento temporal e o posicionamento espacial dos itens neles representados, os quais são extremamente relevantes para a análise dos dados. O processo de descoberta de conhecimento a partir de grandes volumes de dados tem sido objeto de estudo em diversas disciplinas, dentre elas a Visualização de Informação, cujas técnicas podem apoiar diversas etapas desse processo. Esta tese versa sobre o uso da Visualização Exploratória em conjuntos de dados com atributos temporais e espaciais, empregando a estratégia de múltiplas visualizações coordenadas para apoiar o tratamento de dados em estágios iniciais de processos de descoberta de conhecimento. São propostas duas novas representações visuais temporais denominadas Variação Temporal Uni-escala e Variação Temporal Multi-escala para apoiar a análise exploratória de dados temporais. Adicionalmente, é proposto um modelo de arquitetura de software AdaptaVis, que permite a integração dessas e outras representações visuais em uma plataforma de visualização de informação flexível, extensível e adaptável às necessidades de diferentes usuários, tarefas e domínios de aplicação a plataforma InfoVis. Sessões de uso realizadas com dados e usuários reais dos domínios de Climatologia e Negócios permitiram validar empiricamente as representações visuais e o modelo. O modelo AdaptaVis e a plataforma InfoVis estabelecem bases para a continuidade de diversas pesquisas em Visualização de Informação, particularmente o estudo de aspectos relacionados ao uso coordenado de múltiplas visualizações, à modelagem do processo de coordenação, e à integração entre múltiplas técnicas visuais e analíticas. / Data repositories with ever increasing volumes have been made possible by the evolution in data collection technologies, creating important sources of information in several fields of human activity. Such data repositories often include information about both the temporal behavior and the spatial positioning of data items that will be relevant in future data analysis tasks. The process of discovering knowledge embedded in great volumes of data is a topic of study in several disciplines, including Information Visualization, which offers a range of techniques to support different stages of a discovery process. This thesis addresses the application of Exploratory Visualization techniques on datasets with temporal and spatial attributes, using the strategy of coordinating multiple data views, to assist data treatment on early stages of knowledge discovery processes. Two temporal visual representations are proposed Uni-scale Temporal Behavior and Multi-scale Temporal Behavior that support the exploratory analysis of temporal data. Moreover, a software architecture model is introduced AdaptaVis, that allows the integration of these and other visualization techniques into a flexible, extensible and adaptable information visualization platform called InfoVis that may be tailored to meet the requirements of different users, tasks and application domains. Sessions conducted with real data and users from the Climatology and Business application domains allowed an empirical validation of both the visual representations and the model. The AdaptaVis model and the InfoVis platform establish the basis for further research on issues related to the coordinated use of multiple data views, the modeling of the coordination process and the integration amongst multiple visual and analytical techniques. dados temporais e espaciais descoberta de conhecimento mineração de dados visual visualização de informação visualização exploratória exploratory visualization information visualization knowledge discovery temporal and spatial data visual data mining
183	[en] BRANCH-CUT-AND-PRICE APPROACH FOR PROCESS DISCOVERY / [pt] UMA ABORDAGEM PARA MINERAÇÃO DE PROCESSOS USANDO GERAÇÃO DE COLUNAS E CORTES GEORGES MIRANDA SPYRIDES 28 May 2019 (has links) [pt] Descoberta de Processo significa determinar um modelo de processo a partir de um registro histórico de eventos de um processo de negócios. Muitos algoritmos de descoberta de processos tentam sintetizar uma rede de Petri que representa o registro localizando locais e arcos que relacionam as classes de eventos. Bergenthum et al (2007) e van der Werf et al. (2008) propõem formulações para este problema descobrir um place de cada vez, em que cada solução básica do conjunto de desigualdades representa um lugar candidato. Propomos uma formulação global de programação inteira que, dado um registro histórico, determina todos os places e arcos que definem uma rede de Petri de uma só vez. Este modelo é uma alternativa a seleção de locais, mas tem um problema de eficiência devido à grande quantidade de variáveis inteiras usadas. Também propomos um método de decomposição para o modelo ILP global para tratar cada place e suas restrições associadas como um subproblema separado. Conseguimos então executar o algoritmo em instâncias sintéticas grandes, o que é inédito para esta classe de mineradores de processo. / [en] Process Discovery amounts to determine a process model from an event log of a business process. Many process discovery algorithms try to synthesize a Petri net representing the log by finding places and arcs that relate the event classes. Bergenthum et al. (2007) and van der Werf et al. (2008) propose formulations for this problem discover one place at a time, in which each basic solution of the set of inequalities represents a candidate place. We propose a global integer programming formulation that, given a log, determines all places and arcs defining a Petri net. This model simplifies the selection of places but has an efficiency problem due to a large number of integer variables used. We also propose a decomposition method for the global ILP model to treat each place and their associated constraints as a separate sub-problem. We can run the algorithm on large synthetic instances, which is unprecedented for this kind of process miner. [pt] PROGRAMACAO INTEIRA [pt] DESCOBERTA DE PROCESSO [pt] MINERACAO DE PROCESSOS [pt] GERACAO DE COLUNAS [en] INTER LINEAR PROGRAMMIN [en] PROCESS DISCOVERY [en] PROCESS MINING [en] COLUMN GERERATION
184	[pt] EXPLORANDO INFORMAÇÕES BASEADAS EM ONTOLOGIA ATRAVÉS DA REVELAÇÃO PROGRESSIVA DE RESPOSTAS VISUAIS PARA CONSULTAS RELACIONADAS / [en] EXPLORING ONTOLOGY-BASED INFORMATION THROUGH THE PROGRESSIVE DISCLOSURE OF VISUAL ANSWER TO RELATED QUERIES DALAI DOS SANTOS RIBEIRO 28 April 2020 (has links) [pt] A busca na Web se tornou o método predominante para as pessoas suprirem suas necessidades de informação. Embora seja difundido, o modelo tradicional de páginas de resultados de pesquisa só é satisfatório se o usuário souber, com bastante precisão, como elaborar sua consulta para corresponder à busca das informações desejada. Propomos um novo modelo para páginas de resultados de pesquisa, que vai além de fornecer uma lista navegável de resultados em forma de visualizações, através da geração implícita de consultas relacionadas para expandir o espaço de busca, revelando progressivamente os resultados correspondentes. / [en] Web search has become the predominant method for people to fulfill their information needs. Although widespread, the traditional model for search result pages is only satisfactory if the user knows quite precisely how to phrase their query to match their intended information. We propose a new model for search page results, which goes beyond providing a navigable list of visualization search results, by implicitly generating related queries to expand the search space and progressively disclosing the corresponding results. [pt] DESIGN DE INTERFACE [pt] BUSCA EXPLORATORIA [pt] DESCOBERTA PROGRESSIVA [pt] PAGINAS DE RESULTADOS DE BUSCA [pt] IHC [en] INTERFACE DESIGN [en] EXPLORATORY SEARCH [en] PROGRESSIVE DISCLOSURE [en] SEARCH RESULTS PAGE [en] HCI
185	[en] INTELLIGENT ASSISTANCE FOR KDD-PROCESS ORIENTATION / [pt] ASSISTÊNCIA INTELIGENTE À ORIENTAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS RONALDO RIBEIRO GOLDSCHMIDT 15 December 2003 (has links) [pt] A notória complexidade inerente ao processo de KDD - Descoberta de Conhecimento em Bases de Dados - decorre essencialmente de aspectos relacionados ao controle e à condução deste processo (Fayyad et al., 1996b; Hellerstein et al., 1999). De uma maneira geral, estes aspectos envolvem dificuldades em perceber inúmeros fatos cuja origem e os níveis de detalhe são os mais diversos e difusos, em interpretar adequadamente estes fatos, em conjugar dinamicamente tais interpretações e em decidir que ações devem ser realizadas de forma a procurar obter bons resultados. Como identificar precisamente os objetivos do processo, como escolher dentre os inúmeros algoritmos de mineração e de pré-processamento de dados existentes e, sobretudo, como utilizar adequadamente os algoritmos escolhidos em cada situação são alguns exemplos das complexas e recorrentes questões na condução de processos de KDD. Cabe ao analista humano a árdua tarefa de orientar a execução de processos de KDD. Para tanto, diante de cada cenário, o homem utiliza sua experiência anterior, seus conhecimentos e sua intuição para interpretar e combinar os fatos de forma a decidir qual a estratégia a ser adotada (Fayyad et al., 1996a, b; Wirth et al., 1998). Embora reconhecidamente úteis e desejáveis, são poucas as alternativas computacionais existentes voltadas a auxiliar o homem na condução do processo de KDD (Engels, 1996; Amant e Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). Aliado ao exposto acima, a demanda por aplicações de KDD em diversas áreas vem crescendo de forma muito acentuada nos últimos anos (Buchanan, 2000). É muito comum não existirem profissionais com experiência em KDD disponíveis para atender a esta crescente demanda (Piatetsky-Shapiro, 1999). Neste contexto, a criação de ferramentas inteligentes que auxiliem o homem no controle do processo de KDD se mostra ainda mais oportuna (Brachman e Anand, 1996; Mitchell, 1997). Assim sendo, esta tese teve como objetivos pesquisar, propor, desenvolver e avaliar uma Máquina de Assistência Inteligente à Orientação do Processo de KDD que possa ser utilizada, fundamentalmente, como instrumento didático voltado à formação de profissionais especializados na área da Descoberta de Conhecimento em Bases de Dados. A máquina proposta foi formalizada com base na Teoria do Planejamento para Resolução de Problemas (Russell e Norvig, 1995) da Inteligência Artificial e implementada a partir da integração de funções de assistência utilizadas em diferentes níveis de controle do processo de KDD: Definição de Objetivos, Planejamento de Ações de KDD, Execução dos Planos de Ações de KDD e Aquisição e Formalização do Conhecimento. A Assistência à Definição de Objetivos tem como meta auxiliar o homem na identificação de tarefas de KDD cuja execução seja potencialmente viável em aplicações de KDD. Esta assistência foi inspirada na percepção de um certo tipo de semelhança no nível intensional apresentado entre determinados bancos de dados. Tal percepção auxilia na prospecção do tipo de conhecimento a ser procurado, uma vez que conjuntos de dados com estruturas similares tendem a despertar interesses similares mesmo em aplicações de KDD distintas. Conceitos da Teoria da Equivalência entre Atributos de Bancos de Dados (Larson et al., 1989) viabilizam a utilização de uma estrutura comum na qual qualquer base de dados pode ser representada. Desta forma, bases de dados, ao serem representadas na nova estrutura, podem ser mapeadas em tarefas de KDD, compatíveis com tal estrutura. Conceitos de Espaços Topológicos (Lipschutz, 1979) e recursos de Redes Neurais Artificiais (Haykin, 1999) são utilizados para viabilizar os mapeamentos entre padrões heterogêneos. Uma vez definidos os objetivos em uma aplicação de KDD, decisões sobre como tais objetivos podem ser alcançados se tornam necessárias. O primeiro passo envolve a escolha de qual algoritmo de mineração de dados é o mais apropriado para o problema em questão. A Assistência ao Planejamento de Ações de KDD auxilia o homem nesta escolha. Utiliza, para tanto, uma metodologia de ordenação dos algoritmos de mineração baseada no desempenho prévio destes algoritmos em problemas similares (Soares et al., 2001; Brazdil et al., 2003). Critérios de ordenação de algoritmos baseados em similaridade entre bases de dados nos níveis intensional e extensional foram propostos, descritos e avaliados. A partir da escolha de um ou mais algoritmos de mineração de dados, o passo seguinte requer a escolha de como deverá ser realizado o pré-processamento dos dados. Devido à diversidade de algoritmos de pré-processamento, são muitas as alternativas de combinação entre eles (Bernstein et al., 2002). A Assistência ao Planejamento de Ações de KDD também auxilia o homem na formulação e na escolha do plano ou dos planos de ações de KDD a serem adotados. Utiliza, para tanto, conceitos da Teoria do Planejamento para Resolução de Problemas. Uma vez escolhido um plano de ações de KDD, surge a necessidade de executá-lo. A execução de um plano de ações de KDD compreende a execução, de forma ordenada, dos algoritmos de KDD previstos no plano. A execução de um algoritmo de KDD requer conhecimento sobre ele. A Assistência à Execução dos Planos de Ações de KDD provê orientações específicas sobre algoritmos de KDD. Adicionalmente, esta assistência dispõe de mecanismos que auxiliam, de forma especializada, no processo de execução de algoritmos de KDD e na análise dos resultados obtidos. Alguns destes mecanismos foram descritos e avaliados. A execução da Assistência à Aquisição e Formalização do Conhecimento constitui-se em um requisito operacional ao funcionamento da máquina proposta. Tal assistência tem por objetivo adquirir e disponibilizar os conhecimentos sobre KDD em uma representação e uma organização que viabilizem o processamento das funções de assistência mencionadas anteriormente. Diversos recursos e técnicas de aquisição de conhecimento foram utilizados na concepção desta assistência. / [en] Generally speaking, such aspects involve difficulties in perceiving innumerable facts whose origin and levels of detail are highly diverse and diffused, in adequately interpreting these facts, in dynamically conjugating such interpretations, and in deciding which actions must be performed in order to obtain good results. How are the objectives of the process to be identified in a precise manner? How is one among the countless existing data mining and preprocessing algorithms to be selected? And most importantly, how can the selected algorithms be put to suitable use in each different situation? These are but a few examples of the complex and recurrent questions that are posed when KDD processes are performed. Human analysts must cope with the arduous task of orienting the execution of KDD processes. To this end, in face of each different scenario, humans resort to their previous experiences, their knowledge, and their intuition in order to interpret and combine the facts and therefore be able to decide on the strategy to be adopted (Fayyad et al., 1996a, b; Wirth et al., 1998). Although the existing computational alternatives have proved to be useful and desirable, few of them are designed to help humans to perform KDD processes (Engels, 1996; Amant and Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). In association with the above-mentioned fact, the demand for KDD applications in several different areas has increased dramatically in the past few years (Buchanan, 2000). Quite commonly, the number of available practitioners with experience in KDD is not sufficient to satisfy this growing demand (Piatetsky-Shapiro, 1999). Within such a context, the creation of intelligent tools that aim to assist humans in controlling KDD processes proves to be even more opportune (Brachman and Anand, 1996; Mitchell, 1997). Such being the case, the objectives of this thesis were to investigate, propose, develop, and evaluate an Intelligent Machine for KDD-Process Orientation that is basically intended to serve as a teaching tool to be used in professional specialization courses in the area of Knowledge Discovery in Databases. The basis for formalization of the proposed machine was the Planning Theory for Problem-Solving (Russell and Norvig, 1995) in Artificial Intelligence. Its implementation was based on the integration of assistance functions that are used at different KDD process control levels: Goal Definition, KDD Action-Planning, KDD Action Plan Execution, and Knowledge Acquisition and Formalization. The Goal Definition Assistant aims to assist humans in identifying KDD tasks that are potentially executable in KDD applications. This assistant was inspired by the detection of a certain type of similarity between the intensional levels presented by certain databases. The observation of this fact helps humans to mine the type of knowledge that must be discovered since data sets with similar structures tend to arouse similar interests even in distinct KDD applications. Concepts from the Theory of Attribute Equivalence in Databases (Larson et al., 1989) make it possible to use a common structure in which any database may be represented. In this manner, when databases are represented in the new structure, it is possible to map them into KDD tasks that are compatible with such a structure. Topological space concepts and ANN resources as described in Topological Spaces (Lipschutz, 1979) and Artificial Neural Nets (Haykin, 1999) have been employed so as to allow mapping between heterogeneous patterns. After the goals have been defined in a KDD application, it is necessary to decide how such goals are to be achieved. The first step involves selecting the most appropriate data mining algorithm for the problem at hand. The KDD Action-Planning Assistant helps humans to make this choice. To this end, it makes use of a methodology for ordering the mining algorithms that is based on the previous experiences, their knowledge, and their intuition in order to interpret and combine the facts and therefore be able to decide on the strategy to be adopted (Fayyad et al., 1996a, b; Wirth et al., 1998). Although the existing computational alternatives have proved to be useful and desirable, few of them are designed to help humans to perform KDD processes (Engels, 1996; Amant & Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). In association with the above-mentioned fact, the demand for KDD applications in several different areas has increased dramatically in the past few years (Buchanan, 2000). Quite commonly, the number of available practitioners with experience in KDD is not sufficient to satisfy this growing demand (Piatetsky-Shapiro, 1999). Within such a context, the creation of intelligent tools that aim to assist humans in controlling KDD processes proves to be even more opportune (Brachman & Anand, 1996; Mitchell, 1997). Such being the case, the objectives of this thesis were to investigate, propose, develop, and evaluate an Intelligent Machine for KDD-Process Orientation that is basically intended to serve as a teaching tool to be used in professional specialization courses in the area of Knowledge Discovery in Databases. The basis for formalization of the proposed machine was the Planning Theory for Problem-Solving (Russell and Norvig, 1995) in Artificial Intelligence. Its implementation was based on the integration of assistance functions that are used at different KDD process control levels: Goal Definition, KDD Action- Planning, KDD Action Plan Execution, and Knowledge Acquisition and Formalization. The Goal Definition Assistant aims to assist humans in identifying KDD tasks that are potentially executable in KDD applications. This assistant was inspired by the detection of a certain type of similarity between the intensional levels presented by certain databases. The observation of this fact helps humans to mine the type of knowledge that must be discovered since data sets with similar structures tend to arouse similar interests even in distinct KDD applications. Concepts from the Theory of Attribute Equivalence in Databases (Larson et al., 1989) make it possible to use a common structure in which any database may be represented. In this manner, when databases are represented in the new structure, it is possible to map them into KDD tasks that are compatible with such a structure. Topological space concepts and ANN resources as described in Topological Spaces (Lipschutz, 1979) and Artificial Neural Nets (Haykin, 1999) have been employed so as to allow mapping between heterogeneous patterns. After the goals have been defined in a KDD application, it is necessary to decide how such goals are to be achieved. The first step involves selecting the most appropriate data mining algorithm for the problem at hand. The KDD Action-Planning Assistant helps humans to make this choice. To this end, it makes use of a methodology for ordering the mining algorithms that is based on the previous performance of these algorithms in similar problems (Soares et al., 2001; Brazdil et al., 2003). Algorithm ordering criteria based on database similarity at the intensional and extensional levels were proposed, described and evaluated. The data mining algorithm or algorithms having been selected, the next step involves selecting the way in which data preprocessing is to be performed. Since there is a large variety of preprocessing algorithms, many are the alternatives for combining them (Bernstein et al., 2002). The KDD Action-Planning Assistant also helps humans to formulate and to select the KDD action plan or plans to be adopted. To this end, it makes use of concepts contained in the Planning Theory for Problem-Solving. Once a KDD action plan has been chosen, it is necessary to execute it. Executing a KDD action plan involves the ordered execution of the KDD algorithms that have been anticipated in the plan. Executing a KDD algorithm requires knowledge about it. The KDD Action Plan Execution Assistant provides specific guidance on KDD algorithms. In addition, this assistant is equipped with mechanisms that provide specialized assistance for performing the KDD algorithm execution process and for analyzing the results obtained. Some of these mechanisms have been described and evaluated. The execution of the Knowledge Acquisition and Formalization Assistant is an operational requirement for running the proposed machine. The objective of this assistant is to acquire knowledge about KDD and to make such knowledge available by representing and organizing it a way that makes it possible to process the above-mentioned assistance functions. A variety of knowledge acquisition resources and techniques were employed in the conception of this assistant. [pt] MINERACAO DE DADOS [en] DATA MINING [en] KNOWLEDGE DISCOVERY IN DATABASES [en] KDD TASK DEFINITION ASSISTANCE [pt] PLANEJAMENTO EM KDD [en] PLANNING IN KDD
186	Soluções aproximadas para algoritmos escaláveis de mineração de dados em domínios de dados complexos usando GPGPU / On approximate solutions to scalable data mining algorithms for complex data problems using GPGPU Mamani, Alexander Victor Ocsa 22 September 2011 (has links) A crescente disponibilidade de dados em diferentes domínios tem motivado o desenvolvimento de técnicas para descoberta de conhecimento em grandes volumes de dados complexos. Trabalhos recentes mostram que a busca em dados complexos é um campo de pesquisa importante, já que muitas tarefas de mineração de dados, como classificação, detecção de agrupamentos e descoberta de motifs, dependem de algoritmos de busca ao vizinho mais próximo. Para resolver o problema da busca dos vizinhos mais próximos em domínios complexos muitas abordagens determinísticas têm sido propostas com o objetivo de reduzir os efeitos da maldição da alta dimensionalidade. Por outro lado, algoritmos probabilísticos têm sido pouco explorados. Técnicas recentes relaxam a precisão dos resultados a fim de reduzir o custo computacional da busca. Além disso, em problemas de grande escala, uma solução aproximada com uma análise teórica sólida mostra-se mais adequada que uma solução exata com um modelo teórico fraco. Por outro lado, apesar de muitas soluções exatas e aproximadas de busca e mineração terem sido propostas, o modelo de programação em CPU impõe restrições de desempenho para esses tipos de solução. Uma abordagem para melhorar o tempo de execução de técnicas de recuperação e mineração de dados em várias ordens de magnitude é empregar arquiteturas emergentes de programação paralela, como a arquitetura CUDA. Neste contexto, este trabalho apresenta uma proposta para buscas kNN de alto desempenho baseada numa técnica de hashing e implementações paralelas em CUDA. A técnica proposta é baseada no esquema LSH, ou seja, usa-se projeções em subespac¸os. O LSH é uma solução aproximada e tem a vantagem de permitir consultas de custo sublinear para dados em altas dimensões. Usando implementações massivamente paralelas melhora-se tarefas de mineração de dados. Especificamente, foram desenvolvidos soluções de alto desempenho para algoritmos de descoberta de motifs baseados em implementações paralelas de consultas kNN. As implementações massivamente paralelas em CUDA permitem executar estudos experimentais sobre grandes conjuntos de dados reais e sintéticos. A avaliação de desempenho realizada neste trabalho usando GeForce GTX470 GPU resultou em um aumento de desempenho de até 7 vezes, em média sobre o estado da arte em buscas por similaridade e descoberta de motifs / The increasing availability of data in diverse domains has created a necessity to develop techniques and methods to discover knowledge from huge volumes of complex data, motivating many research works in databases, data mining and information retrieval communities. Recent studies have suggested that searching in complex data is an interesting research field because many data mining tasks such as classification, clustering and motif discovery depend on nearest neighbor search algorithms. Thus, many deterministic approaches have been proposed to solve the nearest neighbor search problem in complex domains, aiming to reduce the effects of the well-known curse of dimensionality. On the other hand, probabilistic algorithms have been slightly explored. Recently, new techniques aim to reduce the computational cost relaxing the quality of the query results. Moreover, in large-scale problems, an approximate solution with a solid theoretical analysis seems to be more appropriate than an exact solution with a weak theoretical model. On the other hand, even though several exact and approximate solutions have been proposed, single CPU architectures impose limits on performance to deliver these kinds of solution. An approach to improve the runtime of data mining and information retrieval techniques by an order-of-magnitude is to employ emerging many-core architectures such as CUDA-enabled GPUs. In this work we present a massively parallel kNN query algorithm based on hashing and CUDA implementation. Our method, based on the LSH scheme, is an approximate method which queries high-dimensional datasets with sub-linear computational time. By using the massively parallel implementation we improve data mining tasks, specifically we create solutions for (soft) realtime time series motif discovery. Experimental studies on large real and synthetic datasets were carried out thanks to the highly CUDA parallel implementation. Our performance evaluation on GeForce GTX 470 GPU resulted in average runtime speedups of up to 7x on the state-of-art of similarity search and motif discovery solutions Busca ao vizinho mais próximo Busca por similaridade aproximada Complex data CUDA CUDA Dados complexos Data mining Descoberta der motifs GPGPU GPGPU Mineração de dados Motif-discovery Nearest neighbor search Projeção aleatória Random projection Similarity serach
187	Uso de redes neurais artificiais para descoberta de conhecimento sobre a escolha do modo de viagem / Using artificial neural network for the discovery of mode travel choice knowledge Wermersch, Fábio Glauco 09 May 2002 (has links) Esta pesquisa objetivou uma melhor compreensão do processo de escolha do modo de viagem. Empregou-se a abordagem indutiva dirigida a dados livre de suposições a priori da mineração em banco de dados (Data Mining), utilizando redes neurais artificiais (RNA) como ferramenta mineradora, à procura de conhecimento, ou informação útil, a respeito de escolha e capaz de indicar qual das estruturas de decisão subjacentes aos modelos de escolha modal considerados mais se aproximaria ao do observado. Partindo-se da ideia de que nesse processo exista um padrão o qual pode ser captado por uma RNA, ajustou-se um modelo de RNA aos dados e extraiu-se então o conhecimento contido no modelo de RNA ajustado através de um algoritmo de extração de árvore de decisão de RNA chamado Trepan (Trees parroting network), que foi analisado e interpretado à luz dos objetivos desta pesquisa. Os dados que foram utilizados nesse processo de descoberta de conhecimento são provenientes de uma pesquisa de entrevista domiciliar realizada na cidade de Bauru - SP, para fins de estimativa da matriz de deslocamentos origem-destino dessa cidade. Obteve-se quatro árvores de decisão com estruturas simples e com a araucária preditiva de 75% aproximadamente para os três modos de viagem estudados. Embora o conhecimento extraído dos modelos neurais ajustados não tenham proporcionado a indicação de qual das estruturas de decisão subjacentes aos modelos de escolha modal mais se aproxima da obtida com o modelo neural, foi constatada nas árvores resultantes do processo de descoberta do conhecimento uma relação de compensação entre o atributo sexo e os atributos relacionados à capacidade econômica do domicílio na decisão de escolha do modo carro para a realização de uma viagem. Os resultados também sugerem a não necessidade de mais um atributo de entrada referente ao deslocamento realizado em uma viagem para modelagem por RNA do processo de escolha do modo de viagem no contexto estudado. / This research aimed at a better understanding of the mode travel choice process. The inductive data driven free from a priori assumptions of the data mining approach was employed, using artificial neural networks (ANN) as a mining tool, looking for knowledge or useful information, concerning the choice process and capable of indicating which of the underlying decision structures to the considered modal choice models would come closer to the observed one. Taking into consideration that there is a pattern in this process that can be captured by ANN, an ANN model was fitted (trained) to the data, and the knowledge contained in the trained ANN model was extracted by employing an ANN decision tree extraction algorithm called Trepan (Trees parroting network), which was analysed and interpreted in the light of the object of this research. The data which was employed in this knowledge discovery process come from a household survey carried out in Bauru - SP in order to estimate the O-D matrix in this city. Four decision trees with simple structures and predicting accuracy of approximately 75% for the three travel modes studied were obtained. Even though the knowledge extracted from the trained ANN model has not yielded the indication of which of the underlying decision structures to the modal choice models was closer to the neural model, a compensating relation between the sex attribute and the household economic-related attribute in the decision of choosing the car mode in order to travel was evidenced in the trees resulting from the process of knowledge discovery. The results also suggest the lack of necessity of more than one input travel attribute concerning the displacement performed in a trip for the ANN modelling of the mode travel choice process in the studied context. Análise de demanda por transporte Artificial intelligence Artificial neural network Árvores de decisão Choice models Data mining Decision trees Inteligência artificial Knowledge discovery in database Mineração de dados Modelos de escolha Redes neurais artificiais Transport demand analysis
188	Uso de informação linguística e análise de conceitos formais no aprendizado de ontologias / Use of linguistic information and formal concept analysis for ontology learning. Torres, Carlos Eduardo Atencio 08 October 2012 (has links) Na atualidade, o interesse pelo uso de ontologias tem sido incrementado. No entanto, o processo de construção pode ser custoso em termos de tempo. Para uma ontologia ser construída, precisa-se de um especialista com conhecimentos de um editor de ontologias. Com a finalidade de reduzir tal processo de construção pelo especialista, analisamos e propomos um método para realizar aprendizado de ontologias (AO) de forma supervisionada. O presente trabalho consiste em uma abordagem combinada de diferentes técnicas no AO. Primeiro, usamos uma técnica estatística chamada C/NC-values, acompanhada da ferramenta Cogroo, para extrair os termos mais representativos do texto. Esses termos são considerados por sua vez como conceitos. Projetamos também uma gramática de restrições (GR), com base na informação linguística do Português, com o objetivo de reconhecer e estabelecer relações entre conceitos. Para poder enriquecer a informação na ontologia, usamos a análise de conceitos formais (ACF) com o objetivo de identificar possíveis superconceitos entre dois conceitos. Finalmente, extraímos ontologias para os textos de três temas, submetendo-as à avaliação dos especialistas na área. Um web site foi feito para tornar o processo de avaliação mais amigável para os avaliadores e usamos o questionário de marcos de características proposto pelo método OntoMetrics. Os resultados mostram que nosso método provê um ponto de partida aceitável para a construção de ontologias. / Nowadays, the interest in the use of ontologies has increased, nevertheless, the process of ontology construction can be very time consuming. To build an ontology, we need a domain expert with knowledge in an ontology editor. In order to reduce the time needed by the expert, we propose and analyse a supervised ontology learning (OL) method. The present work consists of a combined approach of different techniques in OL. First, we use a statistic technique called C/NC-values, with the help of the Cogroo tool, to extract the most significant terms. These terms are considered as concepts consequently. We also design a constraint grammar (CG) based in linguistic information of Portuguese to recognize relations between concepts. To enrich the ontology information, we use the formal concept analysis (FCA) in order to discover a parent for a set of concepts. In order to evaluate the method, we have extracted ontologies from text on three different domains and tested them with corresponding experts. A web site was built to make the evaluation process friendlier for the experts and we used an evaluation framework proposed in the OntoMetrics method. The results show that our method provides an acceptable starting point for the construction of ontologies. Análise de Conceitos Formais Análise Sintática Aprendizado de Ontologias Avaliação de Ontologias Constraint Grammar Descoberta de Relações Extração de Termos Formal Concept Analysis Gramática de Restrições Ontology Evaluation Ontology Learning Relation Discovery Syntactic Analysis Term Extraction
189	Identificação e estimação de ruído em redes DSL: uma abordagem baseada em inteligência computacional FARIAS, Fabrício de Souza 25 January 2012 (has links) Submitted by Irvana Coutinho (irvana@ufpa.br) on 2013-01-24T12:14:20Z No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_IdentificacaoEstimulacaoRuido.pdf: 1534456 bytes, checksum: 376786e221762a1b34af76521652d2bb (MD5) / Approved for entry into archive by Ana Rosa Silva(arosa@ufpa.br) on 2013-01-25T12:21:25Z (GMT) No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_IdentificacaoEstimulacaoRuido.pdf: 1534456 bytes, checksum: 376786e221762a1b34af76521652d2bb (MD5) / Made available in DSpace on 2013-01-25T12:21:25Z (GMT). No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_IdentificacaoEstimulacaoRuido.pdf: 1534456 bytes, checksum: 376786e221762a1b34af76521652d2bb (MD5) Previous issue date: 2012 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / Este trabalho propõe a utilização de técnicas de inteligência computacional objetivando identificar e estimar a potencia de ruídos em redes Digital Subscriber Line ou Linhas do Assinante Digital (DSL) em tempo real. Uma metodologia baseada no Knowledge Discovery in Databases ou Descobrimento de Conhecimento em Bases de Dados (KDD) para detecção e estimação de ruídos em tempo real, foi utilizada. KDD é aplicado para selecionar, pré-processar e transformar os dados antes da etapa de aplicação dos algoritmos na etapa de mineração de dados. Para identificação dos ruídos o algoritmo tradicional backpropagation baseado em Redes Neurais Artificiais (RNA) é aplicado objetivando identificar o tipo de ruído em predominância durante a coleta das informações do modem do usuário e da central. Enquanto, para estimação o algoritmo de regressão linear e o algoritmo híbrido composto por Fuzzy e regressão linear foram aplicados para estimar a potência em Watts de ruído crosstalk ou diafonia na rede. Os resultados alcançados demonstram que a utilização de algoritmos de inteligência computacional como a RNA são promissores para identificação de ruídos em redes DSL, e que algoritmos como de regressão linear e Fuzzy com regressão linear (FRL) são promissores para a estimação de ruídos em redes DSL. / This paper proposes the use of computational intelligence techniques aiming to identify and estimate the noise power in Digital Subscriber Line (DSL) networks on real time. A methodology based on Knowledge Discovery in Databases (KDD) for detect and estimate noise in real time, was used. KDD is applied to select, pre-process and transform data before data mining step. For noise identification the traditional backpropagation algorithm based on Artificial Neural Networks (ANN) is applied aiming to identify the predominant noise during the collection of information from the user's modem and the DSL Access Multiplexer (DSLAM). While the algorithm for noise estimation, linear regression and a hybrid algorithm consisting of Fuzzy with linear regression are applied to estimate the noise power in Watts. Results show that the use of computational intelligence algorithms such as RNA are promising for noise identification in DSL networks, and algorithms such as linear regression and fuzzy with linear regression (FRL) are promising for noise estimation in DSL networks. Rede DSL Redes neurais (Computação) Processo KDD Inteligência computacional
190	Uso de redes neurais artificiais para descoberta de conhecimento sobre a escolha do modo de viagem / Using artificial neural network for the discovery of mode travel choice knowledge Fábio Glauco Wermersch 09 May 2002 (has links) Esta pesquisa objetivou uma melhor compreensão do processo de escolha do modo de viagem. Empregou-se a abordagem indutiva dirigida a dados livre de suposições a priori da mineração em banco de dados (Data Mining), utilizando redes neurais artificiais (RNA) como ferramenta mineradora, à procura de conhecimento, ou informação útil, a respeito de escolha e capaz de indicar qual das estruturas de decisão subjacentes aos modelos de escolha modal considerados mais se aproximaria ao do observado. Partindo-se da ideia de que nesse processo exista um padrão o qual pode ser captado por uma RNA, ajustou-se um modelo de RNA aos dados e extraiu-se então o conhecimento contido no modelo de RNA ajustado através de um algoritmo de extração de árvore de decisão de RNA chamado Trepan (Trees parroting network), que foi analisado e interpretado à luz dos objetivos desta pesquisa. Os dados que foram utilizados nesse processo de descoberta de conhecimento são provenientes de uma pesquisa de entrevista domiciliar realizada na cidade de Bauru - SP, para fins de estimativa da matriz de deslocamentos origem-destino dessa cidade. Obteve-se quatro árvores de decisão com estruturas simples e com a araucária preditiva de 75% aproximadamente para os três modos de viagem estudados. Embora o conhecimento extraído dos modelos neurais ajustados não tenham proporcionado a indicação de qual das estruturas de decisão subjacentes aos modelos de escolha modal mais se aproxima da obtida com o modelo neural, foi constatada nas árvores resultantes do processo de descoberta do conhecimento uma relação de compensação entre o atributo sexo e os atributos relacionados à capacidade econômica do domicílio na decisão de escolha do modo carro para a realização de uma viagem. Os resultados também sugerem a não necessidade de mais um atributo de entrada referente ao deslocamento realizado em uma viagem para modelagem por RNA do processo de escolha do modo de viagem no contexto estudado. / This research aimed at a better understanding of the mode travel choice process. The inductive data driven free from a priori assumptions of the data mining approach was employed, using artificial neural networks (ANN) as a mining tool, looking for knowledge or useful information, concerning the choice process and capable of indicating which of the underlying decision structures to the considered modal choice models would come closer to the observed one. Taking into consideration that there is a pattern in this process that can be captured by ANN, an ANN model was fitted (trained) to the data, and the knowledge contained in the trained ANN model was extracted by employing an ANN decision tree extraction algorithm called Trepan (Trees parroting network), which was analysed and interpreted in the light of the object of this research. The data which was employed in this knowledge discovery process come from a household survey carried out in Bauru - SP in order to estimate the O-D matrix in this city. Four decision trees with simple structures and predicting accuracy of approximately 75% for the three travel modes studied were obtained. Even though the knowledge extracted from the trained ANN model has not yielded the indication of which of the underlying decision structures to the modal choice models was closer to the neural model, a compensating relation between the sex attribute and the household economic-related attribute in the decision of choosing the car mode in order to travel was evidenced in the trees resulting from the process of knowledge discovery. The results also suggest the lack of necessity of more than one input travel attribute concerning the displacement performed in a trip for the ANN modelling of the mode travel choice process in the studied context. Análise de demanda por transporte Árvores de decisão Inteligência artificial Mineração de dados Modelos de escolha Redes neurais artificiais Artificial intelligence Artificial neural network Choice models Data mining Decision trees Knowledge discovery in database Transport demand analysis

Search results