Spelling suggestions: "subject:"mineracao dde dados"" "subject:"mineracao dee dados""
1 |
[en] DATA MINING WITH ROUGH SETS TECHNIQUES / [pt] MINERAÇÃO DE DADOS COM TÉCNICAS DE ROUGH SETSDANTE JOSE ALEXANDRE CID 13 October 2005 (has links)
[pt] Esta dissertação investiga a utilização de Rough Sets no
processo de descoberta de conhecimento em Bancos de
Dados (KDD - Knowledge Discovery in Databases). O
objetivo do trabalho foi avaliar o desempenho da técnica
de Rough Sets na tarefa de Classificação de Dados. A
Classificação é a tarefa da fase de Mineração de Dados
que consiste na descoberta de regras de decisão, ou
regras de inferência, que melhor representem um grupo de
registros do banco de dados. O trabalho consistiu de
cinco etapas principais: estudo sobre o processo de KDD;
estudo sobre as técnicas de Rough Sets aplicadas à
mineração de dados; análise de ferramentas de mineração
de dados do mercado; evolução do projeto Bramining; e a
realização de alguns estudos de caso para avaliar o
Bramining.
O estudo sobre o caso KDD abrangeu todas as suas fases:
transformação, limpeza, seleção, mineração de dados e
pós-processamento. O resultado obtido serviu de base
para o aprimoramento do projeto Bramining.
O estudo sobre as técnicas de Rough Sets envolveu a
pesquisa de seus conceitos e sua aplicabilidade no
contexto de KDD. A teoria de Rough Sets foi apresentada
por Zdzislaw Pawlak no início dos anos 80 como uma
abordagem matemática para a análise de dados vagos e
imprecisos. Este estudo permitiu sua aplicação na
ferramenta de mineração de dados desenvolvida.
A análise de ferramentas de mineração de dados do
mercado abrangeu o estudo e testes de aplicativos
baseados em diferentes técnicas, enriquecimento a base
de comparação utilizada na avaliação da pesquisa.
A evolução do projeto Bramining consistiu no
aprimoramento do ambiente KDD desenvolvido em estudos
anteriores, passando a incluir técnica de Rough Sets em
seu escopo.
Os estudos de caso foram conduzidos paralelamente com o
uso de Bramining e de outras ferramentas existentes,
para efeito de comparação.
Os índices apresentados pelo Bramining nos estudos de
caso foram considerados, de forma geral, equivalentes
aos do software comercial, tendo ambos obtidos regras de
boa qualidade na maioria dos casos. O Bramining,
entretanto, mostrou-se mais completo para o processo de
KDD, graças às diversas opções nele disponíveis para
preparação dos dados antes da fase de mineração.
Os resultados obtidos comprovaram, através da aplicação
desenvolvida, a adequação dos conceitos de Rough Sets à
tarefa de classificação de dados. Alguns pontos frágeis
da técnica foram identificados, como a necessidade de um
mecanismo de apoio para a redução de atributos e a
dificuldade em trabalhar com atributos de domínio
contínuo. Porém, ao se inserir a técnica em um ambiente
mais completo de KDD, como o Bramining, estas
deficiências foram sanadas. As opções de preparação da
base que o Bramining disponibiliza ao usuário para
executar, em particular, a redução e a codificação de
atributos permitem deixar os dados em estado adequado à
aplicação de Rough Sets.
A mineração de dados é uma questão bastante relevante
nos dias atuais, e muitos métodos têm sido propostos
para as diversas tarefas que dizem respeito a esta
questão. A teoria de Rough Sets não mostrou
significativas vantagens ou desvantagens em relação a
outras técnicas já consagradas, mas foi de grande valia
comprovar que há caminhos alternativos para o processo
de descoberta de conhecimento. / [en] This dissertation investigates the application of Rough
Sets to the process of KDD - Knowledge Discovery in
Databases. The main goal of the work was to evaluate the
performance of Rough Sets techniques in solving the
classification problem. Classification is a task of the
Data Mining step in KDD Process that performs the
discovery of decision rules that best represent a group of
registers in a database. The work had five major steps:
study of the KDD process; study of Rough Sets techniques
applied to data mining; evaluation of existing data mining
tools; development of Bramining project; and execution of
some case studies to evaluate Bramining.
The study of KDD process included all its steps:
transformation, cleaning, selection, data mining and post-
processing. The results obtained served as a basis to the
enhamcement of Bramining.
The study of Rough Sets techniques included the research
of theory´s concepts and its applicability at KDD context.
The Rough Sets tehory has been introduced by Zdzislaw
Pawlak in the early 80´s as a mathematical approach to the
analysis of vague and uncertain data. This research made
possible the implementation of the technique under the
environment of the developed tool.
The analysis of existing data mining tools included
studying and testing of software based on different
techniques, enriching the background used in the
evaluation of the research.
The evolution of Bramining Project consisted in the
enhancement of the KDD environment developed in previous
works, including the addition of Rough Sets techniques.
The case studies were performed simultaneously with
Bramining and a commercial minig tool, for comparison
reasons.
The quality of the knowledge generated by Bramining was
considered equivalent to the results of commercial tool,
both providing good decision rules for most of the cases.
Nevertheless, Bramining proved to be more adapted to the
complete KDD process, thanks to the many available
features to prepare data to data mining step.
The results achieved through the developed application
proved the suitability of Rough Sets concepts to the data
classification task. Some weaknesses of the technique were
identified, like the need of a previous attribute
reduction and the inability to deal with continuous domain
data. But as the technique has been inserted in a more
complete KDD environment like the Bramining Project, those
weaknesses ceased to exist. The features of data
preparation available in Bramining environment,
particularly the reduction and attribute codification
options, enable the user to have the database fairly
adapted to the use of Rough Sets algorithms.
Data mining is a very relevant issue in present days and
many methods have been proposed to the different tasks
involved in it. Compared to other techniques, Rough Sets
Theory did not bring significant advantages or
disadvantages to the process, but it has been of great
value to show there are alternate ways to knowledge
discovery.
|
2 |
[en] A STUDY ON RECOMMENDER SYSTEMS BASED ON CONTENT AND SOCIAL NETWORKS / [pt] UM ESTUDO DE RECOMENDADORES BASEADOS EM CONTEÚDO E REDES SOCIAISRICARDO NIEDERBERGER CABRAL 12 May 2009 (has links)
[pt] São duas as contribuições deste trabalho: (1) analisar a empregabilidade de algoritmos de recomendação para redes sociais. Tais algoritmos de recomendação podem receber como entrada não somente o grafo social destas redes como também características do conteúdo de itens a serem recomendados para usuários finais. Para tal, serão levantadas as principais características das redes sociais e as técnicas de recomendação automática que podem ser empregadas para essas tarefas. Especial atenção será dada à rede social online Flickr para compartilhamento de fotos e ao emprego de métricas de semelhança visual entre imagens. A segunda contribuição (2) é a construção de uma framework para a modelagem e análise de redes sociais, bem como o estudo do desempenho de algoritmos de recomendação nestes contextos. Estarão nela contidas as melhores práticas adotadas ao longo do estudo, como técnicas para coleta, análise e visualização de dados, classificação de redes sociais e tarefas de recomendação dentro destas, implementação dos algoritmos e arquiteturas de recomendadores. A relevância de tais contribuições advém da enorme quantidade de informação disponível online e crescente complexidade dos inter-relacionamentos entre esses dados. Sistemas recomendadores nesse contexto podem oferecer grande ajuda para usuários finais. / [en] This dissertation offers two major contributions: (1) to evaluate the
suitability of recommender algorithms for social networks. Such recommender
algorithms may receive as input not only the social graph of these
networks but also content-based data from recommended items. For such,
the relevant characteristics of social networks and the most important recommender
techniques for these tasks will be surveyed. Special attention is
given to the web-based system for social photo-sharing called Flickr and to
the employment of visual metrics for image similarity. The second contribution
(2) is the construction of a framework for the modeling and analysis of
social networks, as well as aiding the empirical study of recommender algorithms
on these contexts. Also part of this framework are the best practices
adopted throughout the work done on this dissertation, such as: techniques
for the gathering, analysis and visualization of data; social networks classification;
identification and modeling of recommending tasks within these
contexts; implementation of algorithms and their architecture. The relevance
of such contributions lies on the enormous amount of information
available online and on the ever-growing complexity of the relationships between
this data. In this context, recommender systems may provide a great
aid for end-users.
|
3 |
[en] KNOWLEDGE DISCOVERY IN POLICE CRIMINAL RECORDS: ALGORITHMS AND SYSTEMS / [pt] DESCOBERTA DE CONHECIMENTO EM HISTÓRICOS CRIMINAIS: ALGORITMOS E SISTEMASISNARD THOMAS MARTINS 25 August 2009 (has links)
[pt] Esta Tese propõe uma metodologia para extração de conhecimento em
bases de históricos criminais. A abrangência da metodologia proposta envolve
todo o ciclo de tratamento dos históricos criminais, desde a extração de radicais
temáticos, passando pela construção de dicionários especializados para apoio à
extração de entidades até o desenvolvimento de cenários criminais em formato de
uma matriz de relacionamentos. Os cenários são convertidos em Mapas de
Inteligência destinados à análise de vínculos criminais e descoberta de
conhecimento para investigação e elucidação de delitos. Os Mapas de Inteligência
extraídos são representados por redes de vínculos, posteriormente tratados como
um grafo capacitado. Análises de associações extraídas serão desenvolvidas,
utilizando métodos de caminho mais curto em grafos, mapas neurais autoorganizáveis
e indicadores de relacionamentos sociais. O método proposto nesta
pesquisa permite a visão de indícios ocultos pela complexidade das informações
textuais e a descoberta de conhecimento entre associações criminais aplicando-se
algoritmos híbridos. A metodologia proposta foi testada utilizando bases de
documentos criminais referentes à quadrilhas de narcotraficantes e casos de
crimes de maior comoção social ocorridos no Rio de Janeiro entre 1999 e 2003. / [en] This Dissertation proposes a methodology to extract knowledge from
databases of police criminal records. The scope of the proposed methodology
comprises the full cycle for treatment of the criminal records, from the extraction
of word radicals, including the construction of specialized dictionaries to support
entity extraction, up to the development of criminal scenarios shaped into a
relationship matrix. The scenarios are converted into intelligence maps for the
analysis of criminal connections and the discovery of knowledge aimed at
investigating and clarifying crimes. The intelligence maps extracted are
represented by grids which are subsequently treated as capacitated graphs.
Analyses of the connections extracted are carried out using the shortest path
method in graphs, self-organizing neural maps, and indicators of social
relationships. The method proposed in this study helps revealing evidence that
was concealed by the complexity of textual information, and discovering
knowledge based on criminal connections by applying hybrid algorithms. The
proposed methodology was tested using databases of criminal police records
related to drug traffic organizations and crimes that caused major social
disturbances in Rio de Janeiro, Brazil, from 1999 to 2003.
|
4 |
[en] DATA MINING APPLIED TO CUSTOMER RETENTION IN WIRELESS TELECOMMUNICATIONS / [pt] MINERAÇÃO DE DADOS NA RETENÇÃO DE CLIENTES EM TELEFONIA CELULARJORGE BRANTES FERREIRA 16 September 2005 (has links)
[pt] O objetivo desta dissertação é propor um sistema de
mineração de dados
completo para a solução de problemas de retenção de
clientes, presentes nas
mais variadas indústrias. Tal solução reside na correta
identificação, em meio a
gigantescas bases de dados, dos clientes cujos perfis e
históricos de
comportamento denotam que sua saída da empresa é iminente.
Agindo então
sobre a inteligência gerada a partir desta classificação de
clientes, incentivos e
ações de retenção devem ser postos em prática para evitar
e/ou minimizar a
perda para algum concorrente de clientes valiosos. Ao longo
do processo de
mineração de dados, deu-se atenção ao processo de
preparação e
representação dos dados e métodos de seleção de variáveis,
na tentativa de
melhorar e otimizar o desempenho dos modelos a serem
estudados. Vários
modelos diferentes foram testados, otimizados e comparados
na tarefa de
classificação de clientes como aqueles que permanecerão na
empresa ou
aqueles que apresentam riscos de abandono. Entre os modelos
estudados
estão: redes neurais, sistemas neuro-fuzzy hierárquicos,
algoritmos genéticos,
árvores de decisão e máquinas de vetor de suporte. Em
particular, avaliou-se a
questão do abandono de clientes (churn) na indústria de
telecomunicações
móvel brasileira, devido à disponibilidade de dados reais
para a análise. Foi feito
um estudo abrangente do problema do churn, identificando
suas causas,
conseqüências e detalhes. Conclui-se com uma análise do
impacto da
implementação da metodologia proposta em ações de retenção
de clientes, sob
o prisma da lucratividade ou corte de despesas em que tal
utilização implicaria. / [en] The goal of this work is to propose a complete data mining
system for the
solution of customer retention problems, commonly found in
many industries.
Such a solution encompasses the accurate identification
among huge amounts of
data of those consumers who would most likely end their
relationship with the
firm, based on their historical behavior and individual
profile. Acting upon the
intelligence provided by a precise customer classification,
incentives and
retention actions should be put into practice to prevent or
minimize the losses of
valuable clients to competitors. Throughout the data mining
process designed
here, great care was given to the preparation and
representation of the data and
to input selection methods, in an effort to optimize the
performance of the
classification models. Various different classification
techniques have been
tested, with the objective of finding the one best suited
for the task at hand: to
pinpoint those customers who present clear risks of
abandoning the analyzed
company. Among the studied models were neural networks,
decision trees,
genetic algorithms, neuro-fuzzy systems and SVMs (Support
Vector Machines).
As a case study, the issue of churn (loss of customer to
a competitor) in the
Brazilian wireless telecommunications was tackled, due to
the availability of data.
A detailed study was made, identifying the causes,
consequences and details of
the business problem. As a conclusion, the great impact of
the implementation of
the proposed system in retention strategies of wireless
carriers is evaluated,
under the view of the profitability that would be generated
by its use.
|
5 |
[en] RECOMMENDATION BASED ON DATA MINING FOR RELATIONSHIP MARKETING / [pt] MINERAÇÃO DE DADOS VOLTADA PARA RECOMENDAÇÃO NO ÂMBITO DE MARKETING DE RELACIONAMENTOLIVIA FONSECA FRACALANZA 24 August 2009 (has links)
[pt] Cross-selling é uma estratégia de vendas de produtos baseada em uma análise
das compras passadas de um cliente ou nas compras passadas de outros clientes
com o mesmo perfil. O algoritmo mais conhecido para análise da cesta de
compras de um cliente é conhecido por market basket analysis. Este trabalho
aborda a descoberta de padrões seqüenciais em grandes bases de dados e tem por
objetivo apresentar um algoritmo eficiente que transforma o problema da cesta
de compras em um problema de clique máximo. Primeiramente, os dados de
entrada são transformados em um grafo e o problema da descoberta do clique
máximo é resolvido revelando as relações mais recorrentes entre os itens em
questão. Os experimentos apresentados na dissertação demonstram a eficiência
do algoritmo em grandes volumes de dados. / [en] Cross-selling is a strategy to recommend products to customers based on their
past purchases or the purchases of other customers with the same profile. The
best known algorithm for the analysis of a client shopping basket is known in the
literature as market basket analysis. This dissertation discusses the discovery of
sequential patterns in large databases and aims at implementing an efficient
algorithm that transforms the shopping cart problem into a maximum clique
problem. First, input data is transformed into a graph and maximum cliques are
detected to discover the most frequent relationship between the items on the
transaction. The dissertation also includes experiments that evaluate the
efficiency of the algorithm for large data volumes.
|
6 |
[pt] MINERAÇÃO DE ITENS FREQUENTES EM SEQUÊNCIAS DE DADOS: UMA IMPLEMENTAÇÃO EFICIENTE USANDO VETORES DE BITS / [en] MINING FREQUENT ITEMSETS IN DATA STREAMS: AN EFFICIENT IMPLEMENTATION USING BIT VECTORSFRANKLIN ANDERSON DE AMORIM 11 February 2016 (has links)
[pt] A mineração de conjuntos de itens frequentes em sequências de dados
possui diversas aplicações práticas como, por exemplo, análise de comportamento
de usuários, teste de software e pesquisa de mercado. Contudo, a grande
quantidade de dados gerada pode representar um obstáculo para o processamento
dos mesmos em tempo real e, consequentemente, na sua análise e tomada de
decisão. Sendo assim, melhorias na eficiência dos algoritmos usados para estes
fins podem trazer grandes benefícios para os sistemas que deles dependem. Esta
dissertação apresenta o algoritmo MFI-TransSWmais, uma versão otimizada do
algoritmo MFI-TransSW, que utiliza vetores de bits para processar sequências de
dados em tempo real. Além disso, a dissertação descreve a implementação de um
sistema de recomendação de matérias jornalísticas, chamado ClickRec, baseado
no MFI-TransSWmais, para demonstrar o uso da nova versão do algoritmo. Por
último, a dissertação descreve experimentos com dados reais e apresenta
resultados da comparação de performance dos dois algoritmos e dos acertos do
sistema de recomendações ClickRec. / [en] The mining of frequent itemsets in data streams has several practical
applications, such as user behavior analysis, software testing and market research.
Nevertheless, the massive amount of data generated may pose an obstacle to
processing then in real time and, consequently, in their analysis and decision
making. Thus, improvements in the efficiency of the algorithms used for these
purposes may bring great benefits for systems that depend on them. This thesis
presents the MFI-TransSWplus algorithm, an optimized version of MFI-TransSW
algorithm, which uses bit vectors to process data streams in real time. In addition,
this thesis describes the implementation of a news articles recommendation
system, called ClickRec, based on the MFI-TransSWplus, to demonstrate the use of
the new version of the algorithm. Finally, the thesis describes experiments with
real data and presents results of performance and a comparison between the two
algorithms in terms of performance and the hit rate of the ClickRec
recommendation system.
|
7 |
[pt] EXPLORANDO OS ASPECTOS SOCIAIS DO DECAIMENTO DE DESIGN / [en] EXPLORING THE SOCIAL ASPECTS OF DESIGN DECAYCAIO BARBOSA VIEIRA DA SILVA 01 July 2021 (has links)
[pt] O desenvolvimento de código vem sendo executado de forma colaborativa há
muito tempo. Plataformas, como o GitHub, contribuem para esse processo
com vários mecanismos. Pull Request é um deles, e permite aos desenvolvedores
enviarem suas contribuições para um repositório, onde essas mudanças
podem ser discutidas e revisadas antes de serem integradas ao código principal.
Um dos objetivos desse processo é evitar um fenômeno chamado design
decay, que ocorre quando estruturas de pobres de design são introduzidas
no código fonte. Como resultado, o projeto pode se tornar difícil de manter
e evoluir. As técnicas existentes usam sintomas de código fonte (e.g., mal
cheiros de código) para identificar a manifestação de design decay. No entanto,
esses sintomas só podem identificar design decay que já se ocorreu.
Assim, nesta dissertação, investigamos três aspectos sociais para prever a
manifestação de design decay em projetos de código aberto. Dinâmica de
comunicação representa informações sobre os papéis dos contribuidores e
aspectos temporais das discussões. Conteúdo da discussão é a informação
sendo trocada entre participantes de uma contribuição. Finalmente, dinâmica
organizacional representa as características da equipe. A manifestação
desses aspectos sociais ao longo do desenvolvimento de software pode induzir
comportamentos que possivelmente afetam a qualidade do código. No
entanto, nenhum estudo anterior investigou a sua influência no design decay.
Assim, buscamos evidências sobre como esses três aspectos influenciam
na manifestação de design decay. Para atingir esse objetivo, nós introduzimos
um conjunto de métricas para caracterizar aspectos sociais num modelo
de desenvolvimento baseado em pull requests. Então, nós analisamos sete
projetos, extraindo seus commits e pull requests. Nossos resultados revelam
que: (i) métricas sociais podem ser usadas para discriminar as pull requests
que impactam na manifestação de design decay daquelas que não impactam;
(ii) vários fatores da dinâmica da comunicação estão relacionados ao design
decay. No entanto, os fatores temporais superam os fatores dos papéis dos
participantes como indicadores de design decay; e (iii) aspectos relacionados
à dinâmica organizacional, como o número de novatos, surpreendentemente,
não estão associados a manifestação de design decay. / [en] Code development has been performing collaboratively for a long time. Platforms,
such as GitHub, contribute to this process with various mechanisms.
Pull Request is a mechanism that allows developers to submit their contributions
to a project. Then, these changes can be discussed, analyzed, and
reviewed before being integrated into the repository. One of the goals of this
process is to avoid a phenomenon called design decay. It occurs when poor
design structures are introduced in a project. As a result, the project may
become difficult to maintain and evolve. Existing techniques use source code
symptoms (e.g., code smells) to identify the manifestation of design decay.
Nevertheless, such symptoms can only be used to identify design decay that
is already present in the project. Thus, in this dissertation, we investigated
the exploration of three social aspects to predict the manifestation of design
decay on open-source projects as follows. Communication Dynamics represents
information about contributor s roles and temporal aspects of their
discussions. Discussion Content is the information being exchanged among
participants of a contribution. Finally, Organizational Dynamics represents
characteristics of the team organization. The manifestation of these social
aspects along software development can induce behaviors that possibly affect
the design quality. However, no previous study has investigated the
influence of such social aspects on the manifestation of design decay. Thus,
we aim to shed light on how these three aspects influence the design decay.
To achieve this goal, we introduced a suite of metrics for characterizing social
aspects in pull-based software development. Then, we analyzed seven
open-source projects, mining both their commits and pull requests. Our results
reveal that: (i) many social metrics, e.g., Discussion Length, can be
used to discriminate between pull requests that impact on the manifestation
of design decay from the ones that do not impact; (ii) various factors
of communication dynamics, such as Number of Users, are related to design
decay. Nevertheless, temporal factors of communication dynamics outperform
the participant roles as indicators of design decay; and (iii) aspects
related to organizational dynamics, such as the number of newcomers, are
surprisingly not associated with design decay manifestation.
|
8 |
[en] TEXT MINING AT THE INTELLIGENT WEB CRAWLING PROCESS / [pt] MINERAÇÃO DE TEXTOS NA COLETA INTELIGENTE DE DADOS NA WEBFABIO DE AZEVEDO SOARES 31 March 2009 (has links)
[pt] Esta dissertação apresenta um estudo sobre a utilização de
Mineração de
Textos no processo de coleta inteligente de dados na Web. O
método mais comum
de obtenção de dados na Web consiste na utilização de web
crawlers. Web
crawlers são softwares que, uma vez alimentados por um
conjunto inicial de
URLs (sementes), iniciam o procedimento metódico de visitar
um site, armazenálo
em disco e extrair deste os hyperlinks que serão utilizados
para as próximas
visitas. Entretanto, buscar conteúdo desta forma na Web é
uma tarefa exaustiva e
custosa. Um processo de coleta inteligente de dados na Web,
mais do que coletar
e armazenar qualquer documento web acessível, analisa as
opções de crawling
disponíveis para encontrar links que, provavelmente,
fornecerão conteúdo de alta
relevância a um tópico definido a priori. Na abordagem de
coleta de dados
inteligente proposta neste trabalho, tópicos são definidos,
não por palavras chaves,
mas, pelo uso de documentos textuais como exemplos. Em
seguida, técnicas de
pré-processamento utilizadas em Mineração de Textos, entre
elas o uso de um
dicionário thesaurus, analisam semanticamente o documento
apresentado como
exemplo. Baseado nesta análise, o web crawler construído
será guiado em busca
do seu objetivo: recuperar informação relevante sobre o
documento. A partir de
sementes ou realizando uma consulta automática nas máquinas
de buscas
disponíveis, o crawler analisa, igualmente como na etapa
anterior, todo
documento recuperado na Web. Então, é executado um processo
de comparação
entre cada documento recuperado e o documento exemplo.
Depois de obtido o
nível de similaridade entre ambos, os hyperlinks do
documento recuperado são
analisados, empilhados e, futuramente, serão desempilhados
de acordo seus
respectivos e prováveis níveis de importância. Ao final do
processo de coleta de
dados, outra técnica de Mineração de Textos é aplicada,
objetivando selecionar os
documentos mais representativos daquela coleção de textos:
a Clusterização de
Documentos. A implementação de uma ferramenta que contempla
as heurísticas
pesquisadas permitiu obter resultados práticos, tornando
possível avaliar o
desempenho das técnicas desenvolvidas e comparar os
resultados obtidos com
outras formas de recuperação de dados na Web. Com este
trabalho, mostrou-se
que o emprego de Mineração de Textos é um caminho a ser
explorado no
processo de recuperação de informação relevante na Web. / [en] This dissertation presents a study about the application of
Text Mining as
part of the intelligent Web crawling process. The most
usual way of gathering
data in Web consists of the utilization of web crawlers.
Web crawlers are
softwares that, once provided with an initial set of URLs
(seeds), start the
methodical proceeding of visiting a site, store it in disk
and extract its hyperlinks
that will be used for the next visits. But seeking for
content in this way is an
expensive and exhausting task. An intelligent web crawling
process, more than
collecting and storing any web document available, analyses
its available crawling
possibilities for finding links that, probably, will
provide high relevant content to
a topic defined a priori. In the approach suggested in this
work, topics are not
defined by words, but rather by the employment of text
documents as examples.
Next, pre-processing techniques used in Text Mining,
including the use of a
Thesaurus, analyze semantically the document submitted as
example. Based on
this analysis, the web crawler thus constructed will be
guided toward its objective:
retrieve relevant information to the document. Starting
from seeds or querying
through available search engines, the crawler analyzes,
exactly as in the previous
step, every document retrieved in Web. the similarity level
between them is
obtained, the retrieved document`s hyperlinks are analysed,
queued and, later, will
be dequeued according to each one`s probable degree of
importance. By the end
of the gathering data process, another Text Mining
technique is applied, with the
propose of selecting the most representative document among
the collected texts:
Document Clustering. The implementation of a tool
incorporating all the
researched heuristics allowed to achieve results, making
possible to evaluate the
performance of the developed techniques and compare all
obtained results with
others means of retrieving data in Web. The present work
shows that the use of
Text Mining is a track worthy to be exploited in the
process of retrieving relevant
information in Web.
|
9 |
[en] EXPLORING RDF KNOWLEDGE BASES THROUGH SERENDIPITY PATTERNS / [pt] EXPLORANDO BASES DE CONHECIMENTO EM RDF ATRAVÉS DE PADRÕES DE FORTUIDADEJERONIMO SIROTHEAU DE ALMEIDA EICHLER 15 January 2019 (has links)
[pt] Fortuidade pode ser definida como a descoberta de algo que não está sendo buscado. Em outras palavras, fortuidade trata da descoberta de informação que provê valiosas intuições ao desvendar conhecimento inesperado. O tópico vem recebendo bastante atenção na literatura, uma vez que precisão pode ser justificadamente relaxada com o objetivo de aumentar a satisfação do usuário. Uma área que pode se beneficiar com fortuidade é a área de dados interligados, um gigantesco espaço de dados no qual dados são disponibilizados publicamente. Buscar e extrair informação relevante se torna uma tarefa desafiadora à medida que cada vez mais dados se tornam disponíveis nesse ambiente. Esta tese contribui para enfrentar este desafio de duas maneiras. Primeiro, apresenta um processo de orquestração de consulta que introduz três estratégias para injetar padrões de fortuidade no processo de consulta. Os padrões de fortuidade são inspirados em características básicas de eventos fortuitos, como analogia e perturbação, e podem ser usados para estender os resultados com informações adicionais, sugerindo consultas alternativas ou reordenando os resultados. Em segundo lugar, introduz uma base de dados que pode ser utilizada para comparar diferentes abordagens de obtenção de conteúdo fortuito. A estratégia adotada para construção dessa base de dados consiste em dividir o universo de dados em partições com base em um atributo global e conectar entidades de diferentes partições de acordo com o número de caminhos compartilhados. / [en] Serendipity is defined as the discovery of a thing when one is not searching for it. In other words, serendipity means the discovery of information that provides valuable insights by unveiling unanticipated knowledge. The topic is receiving increased attention in the literature, since the precision requirement may be justifiably relaxed in order to improve user satisfaction. A field that can benefit from serendipity is the Web of Data, an immense global data space where data is publicly available. As more and more data become available in this data space, searching and extracting relevant information becomes a challenging task. This thesis contributes to addressing this challenge in two ways. First, it presents a query orchestration process that introduces three strategies to inject serendipity patterns in the query process. The serendipity patterns are inspired by basic characteristics of serendipitous events, such as, analogy and disturbance, and can be used for augmenting the results with additional information, suggesting
alternative queries or rebalancing the results. Second, it introduces a benchmark dataset that can be used to compare different approaches for locating serendipitous content. The strategy adopted for constructing the dataset consists of dividing the dataset into partitions based on a global feature and linking entities from different partitions according to the number of paths they share.
|
10 |
[en] A MULTI-AGENT APPROACH TO DATA MINING PROCESSES: APPLICATIONS TO HEALTH CARE / [pt] UMA ABORDAGEM MULTIAGENTE PARA PROCESSOS DE MINERAÇÃO DE DADOS: APLICAÇÕES NA ÁREA DA SAÚDEREINIER MOREJON NOVALES 02 August 2018 (has links)
[pt] A mineração de dados é um tema em alta que atrai pesquisadores de diferentes áreas, como bancos de dados, aprendizado de máquina e sistemas multiagentes. Como consequência do crescimento do volume de dados, há uma necessidade crescente de obter conhecimento desses grandes conjuntos de dados que são muito difíceis de manipular e processar com os métodos tradicionais. Os agentes de software podem desempenhar um papel significativo ao executar processos de mineração de dados de maneira mais eficiente. Por exemplo, eles podem trabalhar para realizar seleção, extração, pré-processamento e integração de dados, bem como mineração paralela, distribuída ou de múltiplas fontes. Este trabalho propõe uma abordagem (na forma de um framework) que usa agentes de software para gerenciar processos de mineração de dados. Para testar sua aplicabilidade, utilizamos vários conjuntos de dados relacionados ao domínio de saúde, representando alguns cenários de uso (hipotireoidismo, diabetes e arritmia). / [en] Data mining is a hot topic that attracts researchers from different areas, such as databases, machine learning, and multi-agent systems. As a consequence of the growth of data volume, there is a growing need to obtain knowledge from these large data sets that are very difficult to handle and process with traditional methods. Software agents can play a significant role performing data mining processes in ways that are more efficient. For instance, they can work to perform selection, extraction, preprocessing and integration of data as well as parallel, distributed, or multisource mining. This work proposes an approach (in the form of a framework) that uses software agents to manage data mining processes. In order to test its applicability, we use several data sets related to health care domain representing some usage scenarios (hypothyroidism, diabetes and arrhythmia).
|
Page generated in 0.0621 seconds