Global ETD Search

1	[en] DATA MINING WITH ROUGH SETS TECHNIQUES / [pt] MINERAÇÃO DE DADOS COM TÉCNICAS DE ROUGH SETS DANTE JOSE ALEXANDRE CID 13 October 2005 (has links) [pt] Esta dissertação investiga a utilização de Rough Sets no processo de descoberta de conhecimento em Bancos de Dados (KDD - Knowledge Discovery in Databases). O objetivo do trabalho foi avaliar o desempenho da técnica de Rough Sets na tarefa de Classificação de Dados. A Classificação é a tarefa da fase de Mineração de Dados que consiste na descoberta de regras de decisão, ou regras de inferência, que melhor representem um grupo de registros do banco de dados. O trabalho consistiu de cinco etapas principais: estudo sobre o processo de KDD; estudo sobre as técnicas de Rough Sets aplicadas à mineração de dados; análise de ferramentas de mineração de dados do mercado; evolução do projeto Bramining; e a realização de alguns estudos de caso para avaliar o Bramining. O estudo sobre o caso KDD abrangeu todas as suas fases: transformação, limpeza, seleção, mineração de dados e pós-processamento. O resultado obtido serviu de base para o aprimoramento do projeto Bramining. O estudo sobre as técnicas de Rough Sets envolveu a pesquisa de seus conceitos e sua aplicabilidade no contexto de KDD. A teoria de Rough Sets foi apresentada por Zdzislaw Pawlak no início dos anos 80 como uma abordagem matemática para a análise de dados vagos e imprecisos. Este estudo permitiu sua aplicação na ferramenta de mineração de dados desenvolvida. A análise de ferramentas de mineração de dados do mercado abrangeu o estudo e testes de aplicativos baseados em diferentes técnicas, enriquecimento a base de comparação utilizada na avaliação da pesquisa. A evolução do projeto Bramining consistiu no aprimoramento do ambiente KDD desenvolvido em estudos anteriores, passando a incluir técnica de Rough Sets em seu escopo. Os estudos de caso foram conduzidos paralelamente com o uso de Bramining e de outras ferramentas existentes, para efeito de comparação. Os índices apresentados pelo Bramining nos estudos de caso foram considerados, de forma geral, equivalentes aos do software comercial, tendo ambos obtidos regras de boa qualidade na maioria dos casos. O Bramining, entretanto, mostrou-se mais completo para o processo de KDD, graças às diversas opções nele disponíveis para preparação dos dados antes da fase de mineração. Os resultados obtidos comprovaram, através da aplicação desenvolvida, a adequação dos conceitos de Rough Sets à tarefa de classificação de dados. Alguns pontos frágeis da técnica foram identificados, como a necessidade de um mecanismo de apoio para a redução de atributos e a dificuldade em trabalhar com atributos de domínio contínuo. Porém, ao se inserir a técnica em um ambiente mais completo de KDD, como o Bramining, estas deficiências foram sanadas. As opções de preparação da base que o Bramining disponibiliza ao usuário para executar, em particular, a redução e a codificação de atributos permitem deixar os dados em estado adequado à aplicação de Rough Sets. A mineração de dados é uma questão bastante relevante nos dias atuais, e muitos métodos têm sido propostos para as diversas tarefas que dizem respeito a esta questão. A teoria de Rough Sets não mostrou significativas vantagens ou desvantagens em relação a outras técnicas já consagradas, mas foi de grande valia comprovar que há caminhos alternativos para o processo de descoberta de conhecimento. / [en] This dissertation investigates the application of Rough Sets to the process of KDD - Knowledge Discovery in Databases. The main goal of the work was to evaluate the performance of Rough Sets techniques in solving the classification problem. Classification is a task of the Data Mining step in KDD Process that performs the discovery of decision rules that best represent a group of registers in a database. The work had five major steps: study of the KDD process; study of Rough Sets techniques applied to data mining; evaluation of existing data mining tools; development of Bramining project; and execution of some case studies to evaluate Bramining. The study of KDD process included all its steps: transformation, cleaning, selection, data mining and post- processing. The results obtained served as a basis to the enhamcement of Bramining. The study of Rough Sets techniques included the research of theory´s concepts and its applicability at KDD context. The Rough Sets tehory has been introduced by Zdzislaw Pawlak in the early 80´s as a mathematical approach to the analysis of vague and uncertain data. This research made possible the implementation of the technique under the environment of the developed tool. The analysis of existing data mining tools included studying and testing of software based on different techniques, enriching the background used in the evaluation of the research. The evolution of Bramining Project consisted in the enhancement of the KDD environment developed in previous works, including the addition of Rough Sets techniques. The case studies were performed simultaneously with Bramining and a commercial minig tool, for comparison reasons. The quality of the knowledge generated by Bramining was considered equivalent to the results of commercial tool, both providing good decision rules for most of the cases. Nevertheless, Bramining proved to be more adapted to the complete KDD process, thanks to the many available features to prepare data to data mining step. The results achieved through the developed application proved the suitability of Rough Sets concepts to the data classification task. Some weaknesses of the technique were identified, like the need of a previous attribute reduction and the inability to deal with continuous domain data. But as the technique has been inserted in a more complete KDD environment like the Bramining Project, those weaknesses ceased to exist. The features of data preparation available in Bramining environment, particularly the reduction and attribute codification options, enable the user to have the database fairly adapted to the use of Rough Sets algorithms. Data mining is a very relevant issue in present days and many methods have been proposed to the different tasks involved in it. Compared to other techniques, Rough Sets Theory did not bring significant advantages or disadvantages to the process, but it has been of great value to show there are alternate ways to knowledge discovery. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] BANCO DE DADOS [en] DATABASE
2	[en] A STUDY ON RECOMMENDER SYSTEMS BASED ON CONTENT AND SOCIAL NETWORKS / [pt] UM ESTUDO DE RECOMENDADORES BASEADOS EM CONTEÚDO E REDES SOCIAIS RICARDO NIEDERBERGER CABRAL 12 May 2009 (has links) [pt] São duas as contribuições deste trabalho: (1) analisar a empregabilidade de algoritmos de recomendação para redes sociais. Tais algoritmos de recomendação podem receber como entrada não somente o grafo social destas redes como também características do conteúdo de itens a serem recomendados para usuários finais. Para tal, serão levantadas as principais características das redes sociais e as técnicas de recomendação automática que podem ser empregadas para essas tarefas. Especial atenção será dada à rede social online Flickr para compartilhamento de fotos e ao emprego de métricas de semelhança visual entre imagens. A segunda contribuição (2) é a construção de uma framework para a modelagem e análise de redes sociais, bem como o estudo do desempenho de algoritmos de recomendação nestes contextos. Estarão nela contidas as melhores práticas adotadas ao longo do estudo, como técnicas para coleta, análise e visualização de dados, classificação de redes sociais e tarefas de recomendação dentro destas, implementação dos algoritmos e arquiteturas de recomendadores. A relevância de tais contribuições advém da enorme quantidade de informação disponível online e crescente complexidade dos inter-relacionamentos entre esses dados. Sistemas recomendadores nesse contexto podem oferecer grande ajuda para usuários finais. / [en] This dissertation offers two major contributions: (1) to evaluate the suitability of recommender algorithms for social networks. Such recommender algorithms may receive as input not only the social graph of these networks but also content-based data from recommended items. For such, the relevant characteristics of social networks and the most important recommender techniques for these tasks will be surveyed. Special attention is given to the web-based system for social photo-sharing called Flickr and to the employment of visual metrics for image similarity. The second contribution (2) is the construction of a framework for the modeling and analysis of social networks, as well as aiding the empirical study of recommender algorithms on these contexts. Also part of this framework are the best practices adopted throughout the work done on this dissertation, such as: techniques for the gathering, analysis and visualization of data; social networks classification; identification and modeling of recommending tasks within these contexts; implementation of algorithms and their architecture. The relevance of such contributions lies on the enormous amount of information available online and on the ever-growing complexity of the relationships between this data. In this context, recommender systems may provide a great aid for end-users. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] WEB SEMANTICA [en] SEMANTIC WEB
3	[en] KNOWLEDGE DISCOVERY IN POLICE CRIMINAL RECORDS: ALGORITHMS AND SYSTEMS / [pt] DESCOBERTA DE CONHECIMENTO EM HISTÓRICOS CRIMINAIS: ALGORITMOS E SISTEMAS ISNARD THOMAS MARTINS 25 August 2009 (has links) [pt] Esta Tese propõe uma metodologia para extração de conhecimento em bases de históricos criminais. A abrangência da metodologia proposta envolve todo o ciclo de tratamento dos históricos criminais, desde a extração de radicais temáticos, passando pela construção de dicionários especializados para apoio à extração de entidades até o desenvolvimento de cenários criminais em formato de uma matriz de relacionamentos. Os cenários são convertidos em Mapas de Inteligência destinados à análise de vínculos criminais e descoberta de conhecimento para investigação e elucidação de delitos. Os Mapas de Inteligência extraídos são representados por redes de vínculos, posteriormente tratados como um grafo capacitado. Análises de associações extraídas serão desenvolvidas, utilizando métodos de caminho mais curto em grafos, mapas neurais autoorganizáveis e indicadores de relacionamentos sociais. O método proposto nesta pesquisa permite a visão de indícios ocultos pela complexidade das informações textuais e a descoberta de conhecimento entre associações criminais aplicando-se algoritmos híbridos. A metodologia proposta foi testada utilizando bases de documentos criminais referentes à quadrilhas de narcotraficantes e casos de crimes de maior comoção social ocorridos no Rio de Janeiro entre 1999 e 2003. / [en] This Dissertation proposes a methodology to extract knowledge from databases of police criminal records. The scope of the proposed methodology comprises the full cycle for treatment of the criminal records, from the extraction of word radicals, including the construction of specialized dictionaries to support entity extraction, up to the development of criminal scenarios shaped into a relationship matrix. The scenarios are converted into intelligence maps for the analysis of criminal connections and the discovery of knowledge aimed at investigating and clarifying crimes. The intelligence maps extracted are represented by grids which are subsequently treated as capacitated graphs. Analyses of the connections extracted are carried out using the shortest path method in graphs, self-organizing neural maps, and indicators of social relationships. The method proposed in this study helps revealing evidence that was concealed by the complexity of textual information, and discovering knowledge based on criminal connections by applying hybrid algorithms. The proposed methodology was tested using databases of criminal police records related to drug traffic organizations and crimes that caused major social disturbances in Rio de Janeiro, Brazil, from 1999 to 2003. [pt] REDES NEURAIS [en] NEURAL NETWORKS [pt] MINERACAO DE DADOS [en] DATA MINING
4	[en] DATA MINING APPLIED TO CUSTOMER RETENTION IN WIRELESS TELECOMMUNICATIONS / [pt] MINERAÇÃO DE DADOS NA RETENÇÃO DE CLIENTES EM TELEFONIA CELULAR JORGE BRANTES FERREIRA 16 September 2005 (has links) [pt] O objetivo desta dissertação é propor um sistema de mineração de dados completo para a solução de problemas de retenção de clientes, presentes nas mais variadas indústrias. Tal solução reside na correta identificação, em meio a gigantescas bases de dados, dos clientes cujos perfis e históricos de comportamento denotam que sua saída da empresa é iminente. Agindo então sobre a inteligência gerada a partir desta classificação de clientes, incentivos e ações de retenção devem ser postos em prática para evitar e/ou minimizar a perda para algum concorrente de clientes valiosos. Ao longo do processo de mineração de dados, deu-se atenção ao processo de preparação e representação dos dados e métodos de seleção de variáveis, na tentativa de melhorar e otimizar o desempenho dos modelos a serem estudados. Vários modelos diferentes foram testados, otimizados e comparados na tarefa de classificação de clientes como aqueles que permanecerão na empresa ou aqueles que apresentam riscos de abandono. Entre os modelos estudados estão: redes neurais, sistemas neuro-fuzzy hierárquicos, algoritmos genéticos, árvores de decisão e máquinas de vetor de suporte. Em particular, avaliou-se a questão do abandono de clientes (churn) na indústria de telecomunicações móvel brasileira, devido à disponibilidade de dados reais para a análise. Foi feito um estudo abrangente do problema do churn, identificando suas causas, conseqüências e detalhes. Conclui-se com uma análise do impacto da implementação da metodologia proposta em ações de retenção de clientes, sob o prisma da lucratividade ou corte de despesas em que tal utilização implicaria. / [en] The goal of this work is to propose a complete data mining system for the solution of customer retention problems, commonly found in many industries. Such a solution encompasses the accurate identification among huge amounts of data of those consumers who would most likely end their relationship with the firm, based on their historical behavior and individual profile. Acting upon the intelligence provided by a precise customer classification, incentives and retention actions should be put into practice to prevent or minimize the losses of valuable clients to competitors. Throughout the data mining process designed here, great care was given to the preparation and representation of the data and to input selection methods, in an effort to optimize the performance of the classification models. Various different classification techniques have been tested, with the objective of finding the one best suited for the task at hand: to pinpoint those customers who present clear risks of abandoning the analyzed company. Among the studied models were neural networks, decision trees, genetic algorithms, neuro-fuzzy systems and SVMs (Support Vector Machines). As a case study, the issue of churn (loss of customer to a competitor) in the Brazilian wireless telecommunications was tackled, due to the availability of data. A detailed study was made, identifying the causes, consequences and details of the business problem. As a conclusion, the great impact of the implementation of the proposed system in retention strategies of wireless carriers is evaluated, under the view of the profitability that would be generated by its use. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] TELEFONIA CELULAR [en] MOBILE TELECOMMUNICATIONS SERVICE [pt] CRM [en] CRM
5	[en] RECOMMENDATION BASED ON DATA MINING FOR RELATIONSHIP MARKETING / [pt] MINERAÇÃO DE DADOS VOLTADA PARA RECOMENDAÇÃO NO ÂMBITO DE MARKETING DE RELACIONAMENTO LIVIA FONSECA FRACALANZA 24 August 2009 (has links) [pt] Cross-selling é uma estratégia de vendas de produtos baseada em uma análise das compras passadas de um cliente ou nas compras passadas de outros clientes com o mesmo perfil. O algoritmo mais conhecido para análise da cesta de compras de um cliente é conhecido por market basket analysis. Este trabalho aborda a descoberta de padrões seqüenciais em grandes bases de dados e tem por objetivo apresentar um algoritmo eficiente que transforma o problema da cesta de compras em um problema de clique máximo. Primeiramente, os dados de entrada são transformados em um grafo e o problema da descoberta do clique máximo é resolvido revelando as relações mais recorrentes entre os itens em questão. Os experimentos apresentados na dissertação demonstram a eficiência do algoritmo em grandes volumes de dados. / [en] Cross-selling is a strategy to recommend products to customers based on their past purchases or the purchases of other customers with the same profile. The best known algorithm for the analysis of a client shopping basket is known in the literature as market basket analysis. This dissertation discusses the discovery of sequential patterns in large databases and aims at implementing an efficient algorithm that transforms the shopping cart problem into a maximum clique problem. First, input data is transformed into a graph and maximum cliques are detected to discover the most frequent relationship between the items on the transaction. The dissertation also includes experiments that evaluate the efficiency of the algorithm for large data volumes. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] INFORMATICA [en] COMPUTER SCIENCE [pt] PROBLEMA DO CLIQUE MAXIMO
6	[pt] MINERAÇÃO DE ITENS FREQUENTES EM SEQUÊNCIAS DE DADOS: UMA IMPLEMENTAÇÃO EFICIENTE USANDO VETORES DE BITS / [en] MINING FREQUENT ITEMSETS IN DATA STREAMS: AN EFFICIENT IMPLEMENTATION USING BIT VECTORS FRANKLIN ANDERSON DE AMORIM 11 February 2016 (has links) [pt] A mineração de conjuntos de itens frequentes em sequências de dados possui diversas aplicações práticas como, por exemplo, análise de comportamento de usuários, teste de software e pesquisa de mercado. Contudo, a grande quantidade de dados gerada pode representar um obstáculo para o processamento dos mesmos em tempo real e, consequentemente, na sua análise e tomada de decisão. Sendo assim, melhorias na eficiência dos algoritmos usados para estes fins podem trazer grandes benefícios para os sistemas que deles dependem. Esta dissertação apresenta o algoritmo MFI-TransSWmais, uma versão otimizada do algoritmo MFI-TransSW, que utiliza vetores de bits para processar sequências de dados em tempo real. Além disso, a dissertação descreve a implementação de um sistema de recomendação de matérias jornalísticas, chamado ClickRec, baseado no MFI-TransSWmais, para demonstrar o uso da nova versão do algoritmo. Por último, a dissertação descreve experimentos com dados reais e apresenta resultados da comparação de performance dos dois algoritmos e dos acertos do sistema de recomendações ClickRec. / [en] The mining of frequent itemsets in data streams has several practical applications, such as user behavior analysis, software testing and market research. Nevertheless, the massive amount of data generated may pose an obstacle to processing then in real time and, consequently, in their analysis and decision making. Thus, improvements in the efficiency of the algorithms used for these purposes may bring great benefits for systems that depend on them. This thesis presents the MFI-TransSWplus algorithm, an optimized version of MFI-TransSW algorithm, which uses bit vectors to process data streams in real time. In addition, this thesis describes the implementation of a news articles recommendation system, called ClickRec, based on the MFI-TransSWplus, to demonstrate the use of the new version of the algorithm. Finally, the thesis describes experiments with real data and presents results of performance and a comparison between the two algorithms in terms of performance and the hit rate of the ClickRec recommendation system. [pt] MINERACAO DE DADOS [pt] CONJUNTOS DE ITENS FREQUENTES [pt] SEQUENCIAS DE DADOS [en] DATA MINING [en] FREQUENT ITEMSETS [en] DATASTREAM
7	[pt] EXPLORANDO OS ASPECTOS SOCIAIS DO DECAIMENTO DE DESIGN / [en] EXPLORING THE SOCIAL ASPECTS OF DESIGN DECAY CAIO BARBOSA VIEIRA DA SILVA 01 July 2021 (has links) [pt] O desenvolvimento de código vem sendo executado de forma colaborativa há muito tempo. Plataformas, como o GitHub, contribuem para esse processo com vários mecanismos. Pull Request é um deles, e permite aos desenvolvedores enviarem suas contribuições para um repositório, onde essas mudanças podem ser discutidas e revisadas antes de serem integradas ao código principal. Um dos objetivos desse processo é evitar um fenômeno chamado design decay, que ocorre quando estruturas de pobres de design são introduzidas no código fonte. Como resultado, o projeto pode se tornar difícil de manter e evoluir. As técnicas existentes usam sintomas de código fonte (e.g., mal cheiros de código) para identificar a manifestação de design decay. No entanto, esses sintomas só podem identificar design decay que já se ocorreu. Assim, nesta dissertação, investigamos três aspectos sociais para prever a manifestação de design decay em projetos de código aberto. Dinâmica de comunicação representa informações sobre os papéis dos contribuidores e aspectos temporais das discussões. Conteúdo da discussão é a informação sendo trocada entre participantes de uma contribuição. Finalmente, dinâmica organizacional representa as características da equipe. A manifestação desses aspectos sociais ao longo do desenvolvimento de software pode induzir comportamentos que possivelmente afetam a qualidade do código. No entanto, nenhum estudo anterior investigou a sua influência no design decay. Assim, buscamos evidências sobre como esses três aspectos influenciam na manifestação de design decay. Para atingir esse objetivo, nós introduzimos um conjunto de métricas para caracterizar aspectos sociais num modelo de desenvolvimento baseado em pull requests. Então, nós analisamos sete projetos, extraindo seus commits e pull requests. Nossos resultados revelam que: (i) métricas sociais podem ser usadas para discriminar as pull requests que impactam na manifestação de design decay daquelas que não impactam; (ii) vários fatores da dinâmica da comunicação estão relacionados ao design decay. No entanto, os fatores temporais superam os fatores dos papéis dos participantes como indicadores de design decay; e (iii) aspectos relacionados à dinâmica organizacional, como o número de novatos, surpreendentemente, não estão associados a manifestação de design decay. / [en] Code development has been performing collaboratively for a long time. Platforms, such as GitHub, contribute to this process with various mechanisms. Pull Request is a mechanism that allows developers to submit their contributions to a project. Then, these changes can be discussed, analyzed, and reviewed before being integrated into the repository. One of the goals of this process is to avoid a phenomenon called design decay. It occurs when poor design structures are introduced in a project. As a result, the project may become difficult to maintain and evolve. Existing techniques use source code symptoms (e.g., code smells) to identify the manifestation of design decay. Nevertheless, such symptoms can only be used to identify design decay that is already present in the project. Thus, in this dissertation, we investigated the exploration of three social aspects to predict the manifestation of design decay on open-source projects as follows. Communication Dynamics represents information about contributor s roles and temporal aspects of their discussions. Discussion Content is the information being exchanged among participants of a contribution. Finally, Organizational Dynamics represents characteristics of the team organization. The manifestation of these social aspects along software development can induce behaviors that possibly affect the design quality. However, no previous study has investigated the influence of such social aspects on the manifestation of design decay. Thus, we aim to shed light on how these three aspects influence the design decay. To achieve this goal, we introduced a suite of metrics for characterizing social aspects in pull-based software development. Then, we analyzed seven open-source projects, mining both their commits and pull requests. Our results reveal that: (i) many social metrics, e.g., Discussion Length, can be used to discriminate between pull requests that impact on the manifestation of design decay from the ones that do not impact; (ii) various factors of communication dynamics, such as Number of Users, are related to design decay. Nevertheless, temporal factors of communication dynamics outperform the participant roles as indicators of design decay; and (iii) aspects related to organizational dynamics, such as the number of newcomers, are surprisingly not associated with design decay manifestation. [pt] MINERACAO DE DADOS [pt] DECAIMENTO DE DESIGN [pt] ASPECTOS SOCIAIS [en] DATA MINING [en] DESIGN DECAY [en] SOCIAL ASPECTS
8	[en] TEXT MINING AT THE INTELLIGENT WEB CRAWLING PROCESS / [pt] MINERAÇÃO DE TEXTOS NA COLETA INTELIGENTE DE DADOS NA WEB FABIO DE AZEVEDO SOARES 31 March 2009 (has links) [pt] Esta dissertação apresenta um estudo sobre a utilização de Mineração de Textos no processo de coleta inteligente de dados na Web. O método mais comum de obtenção de dados na Web consiste na utilização de web crawlers. Web crawlers são softwares que, uma vez alimentados por um conjunto inicial de URLs (sementes), iniciam o procedimento metódico de visitar um site, armazenálo em disco e extrair deste os hyperlinks que serão utilizados para as próximas visitas. Entretanto, buscar conteúdo desta forma na Web é uma tarefa exaustiva e custosa. Um processo de coleta inteligente de dados na Web, mais do que coletar e armazenar qualquer documento web acessível, analisa as opções de crawling disponíveis para encontrar links que, provavelmente, fornecerão conteúdo de alta relevância a um tópico definido a priori. Na abordagem de coleta de dados inteligente proposta neste trabalho, tópicos são definidos, não por palavras chaves, mas, pelo uso de documentos textuais como exemplos. Em seguida, técnicas de pré-processamento utilizadas em Mineração de Textos, entre elas o uso de um dicionário thesaurus, analisam semanticamente o documento apresentado como exemplo. Baseado nesta análise, o web crawler construído será guiado em busca do seu objetivo: recuperar informação relevante sobre o documento. A partir de sementes ou realizando uma consulta automática nas máquinas de buscas disponíveis, o crawler analisa, igualmente como na etapa anterior, todo documento recuperado na Web. Então, é executado um processo de comparação entre cada documento recuperado e o documento exemplo. Depois de obtido o nível de similaridade entre ambos, os hyperlinks do documento recuperado são analisados, empilhados e, futuramente, serão desempilhados de acordo seus respectivos e prováveis níveis de importância. Ao final do processo de coleta de dados, outra técnica de Mineração de Textos é aplicada, objetivando selecionar os documentos mais representativos daquela coleção de textos: a Clusterização de Documentos. A implementação de uma ferramenta que contempla as heurísticas pesquisadas permitiu obter resultados práticos, tornando possível avaliar o desempenho das técnicas desenvolvidas e comparar os resultados obtidos com outras formas de recuperação de dados na Web. Com este trabalho, mostrou-se que o emprego de Mineração de Textos é um caminho a ser explorado no processo de recuperação de informação relevante na Web. / [en] This dissertation presents a study about the application of Text Mining as part of the intelligent Web crawling process. The most usual way of gathering data in Web consists of the utilization of web crawlers. Web crawlers are softwares that, once provided with an initial set of URLs (seeds), start the methodical proceeding of visiting a site, store it in disk and extract its hyperlinks that will be used for the next visits. But seeking for content in this way is an expensive and exhausting task. An intelligent web crawling process, more than collecting and storing any web document available, analyses its available crawling possibilities for finding links that, probably, will provide high relevant content to a topic defined a priori. In the approach suggested in this work, topics are not defined by words, but rather by the employment of text documents as examples. Next, pre-processing techniques used in Text Mining, including the use of a Thesaurus, analyze semantically the document submitted as example. Based on this analysis, the web crawler thus constructed will be guided toward its objective: retrieve relevant information to the document. Starting from seeds or querying through available search engines, the crawler analyzes, exactly as in the previous step, every document retrieved in Web. the similarity level between them is obtained, the retrieved document`s hyperlinks are analysed, queued and, later, will be dequeued according to each one`s probable degree of importance. By the end of the gathering data process, another Text Mining technique is applied, with the propose of selecting the most representative document among the collected texts: Document Clustering. The implementation of a tool incorporating all the researched heuristics allowed to achieve results, making possible to evaluate the performance of the developed techniques and compare all obtained results with others means of retrieving data in Web. The present work shows that the use of Text Mining is a track worthy to be exploited in the process of retrieving relevant information in Web. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] WEB CRAWLING [en] WEB CRAWLING [pt] COLETA DE DADOS [en] DATA RETRIEVAL
9	[en] EXPLORING RDF KNOWLEDGE BASES THROUGH SERENDIPITY PATTERNS / [pt] EXPLORANDO BASES DE CONHECIMENTO EM RDF ATRAVÉS DE PADRÕES DE FORTUIDADE JERONIMO SIROTHEAU DE ALMEIDA EICHLER 15 January 2019 (has links) [pt] Fortuidade pode ser definida como a descoberta de algo que não está sendo buscado. Em outras palavras, fortuidade trata da descoberta de informação que provê valiosas intuições ao desvendar conhecimento inesperado. O tópico vem recebendo bastante atenção na literatura, uma vez que precisão pode ser justificadamente relaxada com o objetivo de aumentar a satisfação do usuário. Uma área que pode se beneficiar com fortuidade é a área de dados interligados, um gigantesco espaço de dados no qual dados são disponibilizados publicamente. Buscar e extrair informação relevante se torna uma tarefa desafiadora à medida que cada vez mais dados se tornam disponíveis nesse ambiente. Esta tese contribui para enfrentar este desafio de duas maneiras. Primeiro, apresenta um processo de orquestração de consulta que introduz três estratégias para injetar padrões de fortuidade no processo de consulta. Os padrões de fortuidade são inspirados em características básicas de eventos fortuitos, como analogia e perturbação, e podem ser usados para estender os resultados com informações adicionais, sugerindo consultas alternativas ou reordenando os resultados. Em segundo lugar, introduz uma base de dados que pode ser utilizada para comparar diferentes abordagens de obtenção de conteúdo fortuito. A estratégia adotada para construção dessa base de dados consiste em dividir o universo de dados em partições com base em um atributo global e conectar entidades de diferentes partições de acordo com o número de caminhos compartilhados. / [en] Serendipity is defined as the discovery of a thing when one is not searching for it. In other words, serendipity means the discovery of information that provides valuable insights by unveiling unanticipated knowledge. The topic is receiving increased attention in the literature, since the precision requirement may be justifiably relaxed in order to improve user satisfaction. A field that can benefit from serendipity is the Web of Data, an immense global data space where data is publicly available. As more and more data become available in this data space, searching and extracting relevant information becomes a challenging task. This thesis contributes to addressing this challenge in two ways. First, it presents a query orchestration process that introduces three strategies to inject serendipity patterns in the query process. The serendipity patterns are inspired by basic characteristics of serendipitous events, such as, analogy and disturbance, and can be used for augmenting the results with additional information, suggesting alternative queries or rebalancing the results. Second, it introduces a benchmark dataset that can be used to compare different approaches for locating serendipitous content. The strategy adopted for constructing the dataset consists of dividing the dataset into partitions based on a global feature and linking entities from different partitions according to the number of paths they share. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] DADOS INTERLIGADOS [en] LINKED DATA [pt] FORTUIDADE [en] SERENDIPITY [pt] AQUISICAO DE INFORMACAO [en] INFORMATION RETRIEVAL
10	[en] A MULTI-AGENT APPROACH TO DATA MINING PROCESSES: APPLICATIONS TO HEALTH CARE / [pt] UMA ABORDAGEM MULTIAGENTE PARA PROCESSOS DE MINERAÇÃO DE DADOS: APLICAÇÕES NA ÁREA DA SAÚDE REINIER MOREJON NOVALES 02 August 2018 (has links) [pt] A mineração de dados é um tema em alta que atrai pesquisadores de diferentes áreas, como bancos de dados, aprendizado de máquina e sistemas multiagentes. Como consequência do crescimento do volume de dados, há uma necessidade crescente de obter conhecimento desses grandes conjuntos de dados que são muito difíceis de manipular e processar com os métodos tradicionais. Os agentes de software podem desempenhar um papel significativo ao executar processos de mineração de dados de maneira mais eficiente. Por exemplo, eles podem trabalhar para realizar seleção, extração, pré-processamento e integração de dados, bem como mineração paralela, distribuída ou de múltiplas fontes. Este trabalho propõe uma abordagem (na forma de um framework) que usa agentes de software para gerenciar processos de mineração de dados. Para testar sua aplicabilidade, utilizamos vários conjuntos de dados relacionados ao domínio de saúde, representando alguns cenários de uso (hipotireoidismo, diabetes e arritmia). / [en] Data mining is a hot topic that attracts researchers from different areas, such as databases, machine learning, and multi-agent systems. As a consequence of the growth of data volume, there is a growing need to obtain knowledge from these large data sets that are very difficult to handle and process with traditional methods. Software agents can play a significant role performing data mining processes in ways that are more efficient. For instance, they can work to perform selection, extraction, preprocessing and integration of data as well as parallel, distributed, or multisource mining. This work proposes an approach (in the form of a framework) that uses software agents to manage data mining processes. In order to test its applicability, we use several data sets related to health care domain representing some usage scenarios (hypothyroidism, diabetes and arrhythmia). [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] MINERACAO DE DADOS [en] DATA MINING [pt] SISTEMAS MULTI-AGENTES [en] MULTI-AGENT SYSTEMS

Search results