11 |
[en] DATA MINING APPLIED TO CUSTOMER RETENTION IN WIRELESS TELECOMMUNICATIONS / [pt] MINERAÇÃO DE DADOS NA RETENÇÃO DE CLIENTES EM TELEFONIA CELULARJORGE BRANTES FERREIRA 16 September 2005 (has links)
[pt] O objetivo desta dissertação é propor um sistema de
mineração de dados
completo para a solução de problemas de retenção de
clientes, presentes nas
mais variadas indústrias. Tal solução reside na correta
identificação, em meio a
gigantescas bases de dados, dos clientes cujos perfis e
históricos de
comportamento denotam que sua saída da empresa é iminente.
Agindo então
sobre a inteligência gerada a partir desta classificação de
clientes, incentivos e
ações de retenção devem ser postos em prática para evitar
e/ou minimizar a
perda para algum concorrente de clientes valiosos. Ao longo
do processo de
mineração de dados, deu-se atenção ao processo de
preparação e
representação dos dados e métodos de seleção de variáveis,
na tentativa de
melhorar e otimizar o desempenho dos modelos a serem
estudados. Vários
modelos diferentes foram testados, otimizados e comparados
na tarefa de
classificação de clientes como aqueles que permanecerão na
empresa ou
aqueles que apresentam riscos de abandono. Entre os modelos
estudados
estão: redes neurais, sistemas neuro-fuzzy hierárquicos,
algoritmos genéticos,
árvores de decisão e máquinas de vetor de suporte. Em
particular, avaliou-se a
questão do abandono de clientes (churn) na indústria de
telecomunicações
móvel brasileira, devido à disponibilidade de dados reais
para a análise. Foi feito
um estudo abrangente do problema do churn, identificando
suas causas,
conseqüências e detalhes. Conclui-se com uma análise do
impacto da
implementação da metodologia proposta em ações de retenção
de clientes, sob
o prisma da lucratividade ou corte de despesas em que tal
utilização implicaria. / [en] The goal of this work is to propose a complete data mining
system for the
solution of customer retention problems, commonly found in
many industries.
Such a solution encompasses the accurate identification
among huge amounts of
data of those consumers who would most likely end their
relationship with the
firm, based on their historical behavior and individual
profile. Acting upon the
intelligence provided by a precise customer classification,
incentives and
retention actions should be put into practice to prevent or
minimize the losses of
valuable clients to competitors. Throughout the data mining
process designed
here, great care was given to the preparation and
representation of the data and
to input selection methods, in an effort to optimize the
performance of the
classification models. Various different classification
techniques have been
tested, with the objective of finding the one best suited
for the task at hand: to
pinpoint those customers who present clear risks of
abandoning the analyzed
company. Among the studied models were neural networks,
decision trees,
genetic algorithms, neuro-fuzzy systems and SVMs (Support
Vector Machines).
As a case study, the issue of churn (loss of customer to
a competitor) in the
Brazilian wireless telecommunications was tackled, due to
the availability of data.
A detailed study was made, identifying the causes,
consequences and details of
the business problem. As a conclusion, the great impact of
the implementation of
the proposed system in retention strategies of wireless
carriers is evaluated,
under the view of the profitability that would be generated
by its use.
|
12 |
[en] RECOMMENDATION BASED ON DATA MINING FOR RELATIONSHIP MARKETING / [pt] MINERAÇÃO DE DADOS VOLTADA PARA RECOMENDAÇÃO NO ÂMBITO DE MARKETING DE RELACIONAMENTOLIVIA FONSECA FRACALANZA 24 August 2009 (has links)
[pt] Cross-selling é uma estratégia de vendas de produtos baseada em uma análise
das compras passadas de um cliente ou nas compras passadas de outros clientes
com o mesmo perfil. O algoritmo mais conhecido para análise da cesta de
compras de um cliente é conhecido por market basket analysis. Este trabalho
aborda a descoberta de padrões seqüenciais em grandes bases de dados e tem por
objetivo apresentar um algoritmo eficiente que transforma o problema da cesta
de compras em um problema de clique máximo. Primeiramente, os dados de
entrada são transformados em um grafo e o problema da descoberta do clique
máximo é resolvido revelando as relações mais recorrentes entre os itens em
questão. Os experimentos apresentados na dissertação demonstram a eficiência
do algoritmo em grandes volumes de dados. / [en] Cross-selling is a strategy to recommend products to customers based on their
past purchases or the purchases of other customers with the same profile. The
best known algorithm for the analysis of a client shopping basket is known in the
literature as market basket analysis. This dissertation discusses the discovery of
sequential patterns in large databases and aims at implementing an efficient
algorithm that transforms the shopping cart problem into a maximum clique
problem. First, input data is transformed into a graph and maximum cliques are
detected to discover the most frequent relationship between the items on the
transaction. The dissertation also includes experiments that evaluate the
efficiency of the algorithm for large data volumes.
|
13 |
[en] WORD SENSE DESAMBIGUATION IN TEXT MINING / [pt] DESAMBIGUAÇÃO DE SENTIDO DE PALAVRAS DIRIGIDA POR TÉCNICAS DE AGRUPAMENTO SOB O ENFOQUE DA MINERAÇÃO DE TEXTOSROBERTO MIRANDA GOMES 10 September 2009 (has links)
[pt] Esta dissertação investigou a aplicação de processos de mineração de textos a
partir de técnicas de inteligência computacional e aprendizado de máquina no problema
de ambigüidade de sentido de palavras. O trabalho na área de métodos de apoio à decisão
teve como objetivo o desenvolvimento de técnicas capazes de automatizar os processos
de desambiguação bem como a construção de um protótipo baseado na implementação de
algumas dessas técnicas. Desambiguação de sentido de palavra é o processo de atribuição
de um significado a uma palavra obtido por meio de informações colhidas no contexto em
que ela ocorre, e um de seus objetivos é mitigar os enganos introduzidos por construções
textuais ambíguas, auxiliando assim o processo de tomada de decisão. Buscou-se ainda na
utilização de conceitos, ferramentas e formas de documentação considerados em
trabalhos anteriores de maneira a dar continuidade ao desenvolvimento científico e deixar
um legado mais facilmente reutilizável em trabalhos futuros. Atenção especial foi dada ao
processo de detecção de ambigüidades e, por esse motivo, uma abordagem diferenciada
foi empregada. Diferente da forma mais comum de desambiguação, onde uma máquina é
treinada para desambiguar determinado termo, buscou-se no presente trabalho a nãodependência
de se conhecer o termo a ser tratado e assim tornar o sistema mais robusto e
genérico. Para isso, foram desenvolvidas heurísticas específicas baseadas em técnicas de
inteligência computacional. Os critérios semânticos para identificação de termos
ambíguos foram extraídos das técnicas de agrupamento empregadas em léxicos
construídos após algum processo de normalização de termos. O protótipo, SID - Sistema
Inteligente de Desambiguação - foi desenvolvido em .NET, que permite uma grande
diversidade de linguagens no desenvolvimento, o que facilita o reuso do código para a
continuidade da pesquisa ou a utilização das técnicas implementadas em alguma
aplicação de mineração de textos. A linguagem escolhida foi o C#, pela sua robustez,
facilidade e semelhança sintática com JAVA e C++, linguagens amplamente conhecidas e
utilizadas pela maioria dos desenvolvedores. / [en] This dissertation investigated the application of text mining process from
techniques of computing intelligence and machine learning in the problem of
word sense ambiguity. The work in the methods of decision support area aimed to
develop techniques capable of doing a word meaning disambiguation
automatically and also to construct a prototype based on the application of such
techniques. Special attention was given to the process of ambiguity detection and,
for this reason, a differentiated approach was used. Unlikely the most common
type of disambiguation, in which the machine is trained to do it in determined
terms, the present work aimed to address the ambiguity problem without the need
of knowing the meaning of the term used, and thus, to make the system more
robust and generic. In order to achieve that, specific heurists were developed
based on computing intelligence techniques. The semantic criteria used to identify
the ambiguous terms were extracted from grouping techniques employed in lexis
built after some term normalization process.
|
14 |
[pt] MINERAÇÃO DE ITENS FREQUENTES EM SEQUÊNCIAS DE DADOS: UMA IMPLEMENTAÇÃO EFICIENTE USANDO VETORES DE BITS / [en] MINING FREQUENT ITEMSETS IN DATA STREAMS: AN EFFICIENT IMPLEMENTATION USING BIT VECTORSFRANKLIN ANDERSON DE AMORIM 11 February 2016 (has links)
[pt] A mineração de conjuntos de itens frequentes em sequências de dados
possui diversas aplicações práticas como, por exemplo, análise de comportamento
de usuários, teste de software e pesquisa de mercado. Contudo, a grande
quantidade de dados gerada pode representar um obstáculo para o processamento
dos mesmos em tempo real e, consequentemente, na sua análise e tomada de
decisão. Sendo assim, melhorias na eficiência dos algoritmos usados para estes
fins podem trazer grandes benefícios para os sistemas que deles dependem. Esta
dissertação apresenta o algoritmo MFI-TransSWmais, uma versão otimizada do
algoritmo MFI-TransSW, que utiliza vetores de bits para processar sequências de
dados em tempo real. Além disso, a dissertação descreve a implementação de um
sistema de recomendação de matérias jornalísticas, chamado ClickRec, baseado
no MFI-TransSWmais, para demonstrar o uso da nova versão do algoritmo. Por
último, a dissertação descreve experimentos com dados reais e apresenta
resultados da comparação de performance dos dois algoritmos e dos acertos do
sistema de recomendações ClickRec. / [en] The mining of frequent itemsets in data streams has several practical
applications, such as user behavior analysis, software testing and market research.
Nevertheless, the massive amount of data generated may pose an obstacle to
processing then in real time and, consequently, in their analysis and decision
making. Thus, improvements in the efficiency of the algorithms used for these
purposes may bring great benefits for systems that depend on them. This thesis
presents the MFI-TransSWplus algorithm, an optimized version of MFI-TransSW
algorithm, which uses bit vectors to process data streams in real time. In addition,
this thesis describes the implementation of a news articles recommendation
system, called ClickRec, based on the MFI-TransSWplus, to demonstrate the use of
the new version of the algorithm. Finally, the thesis describes experiments with
real data and presents results of performance and a comparison between the two
algorithms in terms of performance and the hit rate of the ClickRec
recommendation system.
|
15 |
[pt] EXPLORANDO OS ASPECTOS SOCIAIS DO DECAIMENTO DE DESIGN / [en] EXPLORING THE SOCIAL ASPECTS OF DESIGN DECAYCAIO BARBOSA VIEIRA DA SILVA 01 July 2021 (has links)
[pt] O desenvolvimento de código vem sendo executado de forma colaborativa há
muito tempo. Plataformas, como o GitHub, contribuem para esse processo
com vários mecanismos. Pull Request é um deles, e permite aos desenvolvedores
enviarem suas contribuições para um repositório, onde essas mudanças
podem ser discutidas e revisadas antes de serem integradas ao código principal.
Um dos objetivos desse processo é evitar um fenômeno chamado design
decay, que ocorre quando estruturas de pobres de design são introduzidas
no código fonte. Como resultado, o projeto pode se tornar difícil de manter
e evoluir. As técnicas existentes usam sintomas de código fonte (e.g., mal
cheiros de código) para identificar a manifestação de design decay. No entanto,
esses sintomas só podem identificar design decay que já se ocorreu.
Assim, nesta dissertação, investigamos três aspectos sociais para prever a
manifestação de design decay em projetos de código aberto. Dinâmica de
comunicação representa informações sobre os papéis dos contribuidores e
aspectos temporais das discussões. Conteúdo da discussão é a informação
sendo trocada entre participantes de uma contribuição. Finalmente, dinâmica
organizacional representa as características da equipe. A manifestação
desses aspectos sociais ao longo do desenvolvimento de software pode induzir
comportamentos que possivelmente afetam a qualidade do código. No
entanto, nenhum estudo anterior investigou a sua influência no design decay.
Assim, buscamos evidências sobre como esses três aspectos influenciam
na manifestação de design decay. Para atingir esse objetivo, nós introduzimos
um conjunto de métricas para caracterizar aspectos sociais num modelo
de desenvolvimento baseado em pull requests. Então, nós analisamos sete
projetos, extraindo seus commits e pull requests. Nossos resultados revelam
que: (i) métricas sociais podem ser usadas para discriminar as pull requests
que impactam na manifestação de design decay daquelas que não impactam;
(ii) vários fatores da dinâmica da comunicação estão relacionados ao design
decay. No entanto, os fatores temporais superam os fatores dos papéis dos
participantes como indicadores de design decay; e (iii) aspectos relacionados
à dinâmica organizacional, como o número de novatos, surpreendentemente,
não estão associados a manifestação de design decay. / [en] Code development has been performing collaboratively for a long time. Platforms,
such as GitHub, contribute to this process with various mechanisms.
Pull Request is a mechanism that allows developers to submit their contributions
to a project. Then, these changes can be discussed, analyzed, and
reviewed before being integrated into the repository. One of the goals of this
process is to avoid a phenomenon called design decay. It occurs when poor
design structures are introduced in a project. As a result, the project may
become difficult to maintain and evolve. Existing techniques use source code
symptoms (e.g., code smells) to identify the manifestation of design decay.
Nevertheless, such symptoms can only be used to identify design decay that
is already present in the project. Thus, in this dissertation, we investigated
the exploration of three social aspects to predict the manifestation of design
decay on open-source projects as follows. Communication Dynamics represents
information about contributor s roles and temporal aspects of their
discussions. Discussion Content is the information being exchanged among
participants of a contribution. Finally, Organizational Dynamics represents
characteristics of the team organization. The manifestation of these social
aspects along software development can induce behaviors that possibly affect
the design quality. However, no previous study has investigated the
influence of such social aspects on the manifestation of design decay. Thus,
we aim to shed light on how these three aspects influence the design decay.
To achieve this goal, we introduced a suite of metrics for characterizing social
aspects in pull-based software development. Then, we analyzed seven
open-source projects, mining both their commits and pull requests. Our results
reveal that: (i) many social metrics, e.g., Discussion Length, can be
used to discriminate between pull requests that impact on the manifestation
of design decay from the ones that do not impact; (ii) various factors
of communication dynamics, such as Number of Users, are related to design
decay. Nevertheless, temporal factors of communication dynamics outperform
the participant roles as indicators of design decay; and (iii) aspects
related to organizational dynamics, such as the number of newcomers, are
surprisingly not associated with design decay manifestation.
|
16 |
[en] USE OF PETRI NET TO MODEL RESOURCE ALLOCATION IN PROCESS MINING / [pt] USO DE REDES DE PETRI NA MODELAGEM DE ALOCAÇÃO DE RECURSOS EM MINERAÇÃO DE PROCESSOSBEATRIZ MARQUES SANTIAGO 22 November 2019 (has links)
[pt] Business Process Management é a ciência de observar como o trabalho é realizado em determinada organização garantindo produtos consistentes e se aproveitando de oportunidades de melhoria. Atualmente, boa parte dos processos são realizados em frameworks, muitos com armazenamento de arquivos de log, no qual é disponibilizada uma grande quantidade de informação que pode ser explorada de diferentes formas e com diferentes objetivos, área denominada como Mineração de Processos. Apesar de muitos desses dados contemplarem o modo como os recursos são alocados para cada atividade, o foco maior dos trabalhos nessa área é na descoberta do processo e na verificação de conformidade do mesmo. Nesta dissertação é proposto um modelo em petri net que incorpora a alocação de recurso, de forma a poder explorar as propriedades deste tipo de modelagem, como por exemplo a definição de todos os estados possíveis. Como aplicação do modelo, realizou-se um estudo comparativo entre duas políticas, uma mais especialista, de alocação de recurso, e outra mais generalista usando simulações de Monte Carlo com distribuição de probabilidade exponencial para o início de novos casos do processo e para estimação do tempo de execução do par recurso atividade. Sendo assim, para avaliação de cada política foi usado um sistema de pontuação que considera o andamento do processo e o tempo total de execução do mesmo. / [en] Business Process Management is the science of observing how the work is performed in a given organization ensuring consistent products and seeking opportunities for improvement. Currently, most of the processes are performed in frameworks, many with log files, in which a large amount of data is available. These data can be explored in different ways and with different objectives, giving rise to the Process Mining area. Although many of these data informs how resources are allocated for each activity, the major focus of previous work is on the discovery process techniques and process compliance. In this thesis a petri net model that incorporates resource allocation is proposed exploring the properties of this type of modeling, such as the definition of all possible states. As a model validation, it is applied in a
comparative study between two resource allocation policies, one considering the expertise of each resource and other with a more generalist allocation. The arrival of new cases and the resource-activity pair execution time were estimated by Monte Carlo simulations with exponential probability distribution. Thus, for the evaluation of each policy a scoring system was used considering the progress of the process and the total execution time.
|
17 |
[pt] OS EFEITOS DA ELEIÇÃO DE UM PREFEITO MINERADOR NO BRASIL / [en] THE EFFECTS OF ELECTING A MINER MAYOR: EVIDENCE FROM BRAZILWALLACE DE JESUS INOCENCIO 06 October 2022 (has links)
[pt] Este trabalho analisa se a eleição de mineradores como prefeitos em
municípios brasileiros tem implicações sobre o gasto público ambiental e
a saúde pública. Primeiro, ao combinar diferentes bases de dados públicas
administrativas, este trabalho identifica candidatos a prefeitos que detém
uma licença de mineração. Então, eu seleciono eleições com margem de
vitória estreita para aplicar uma regressão com descontinuidade que estima
os impactos de eleger um prefeito minerador na despesa pública ambiental. Na
sequência, utilizando diferenças-em-diferenças, eu foco na eleição de prefeitos
mineradores de ouro, cuja extração artesanal é altamente tóxica, e verifico
se a potencial emissão de mercúrio pelos garimpos afeta a saúde pública em
municípios vizinhos. Em ambos os casos, este trabalho não encontra um efeito
causal estatisticamente significante, porém, a análise carece de poder estatístico
por conta do tamanho reduzido da amostra. / [en] This paper analyses whether electing a miner as mayor in a Brazilian
municipality has implications on municipal environmental expenditure and
general health. First, by merging different public administrative data, this
paper identifies candidates for municipal office in Brazil who hold a mining
permit. Then, I use close elections to apply a regression discontinuity design
to estimate the impact of electing a miner mayor on public environmental
expense. Furthermore, by using a difference-in-differences approach, I focus on
the election of mayors who mine gold, a highly contaminating activity, and
check whether potential mercury contamination due to gold mining affects
health outcomes in neighboring municipalities. In both cases, this paper does
not find a statistically significant causal effect, however, the analysis lacks
statistical power due to the small sample size.
|
18 |
[en] TEXT MINING AT THE INTELLIGENT WEB CRAWLING PROCESS / [pt] MINERAÇÃO DE TEXTOS NA COLETA INTELIGENTE DE DADOS NA WEBFABIO DE AZEVEDO SOARES 31 March 2009 (has links)
[pt] Esta dissertação apresenta um estudo sobre a utilização de
Mineração de
Textos no processo de coleta inteligente de dados na Web. O
método mais comum
de obtenção de dados na Web consiste na utilização de web
crawlers. Web
crawlers são softwares que, uma vez alimentados por um
conjunto inicial de
URLs (sementes), iniciam o procedimento metódico de visitar
um site, armazenálo
em disco e extrair deste os hyperlinks que serão utilizados
para as próximas
visitas. Entretanto, buscar conteúdo desta forma na Web é
uma tarefa exaustiva e
custosa. Um processo de coleta inteligente de dados na Web,
mais do que coletar
e armazenar qualquer documento web acessível, analisa as
opções de crawling
disponíveis para encontrar links que, provavelmente,
fornecerão conteúdo de alta
relevância a um tópico definido a priori. Na abordagem de
coleta de dados
inteligente proposta neste trabalho, tópicos são definidos,
não por palavras chaves,
mas, pelo uso de documentos textuais como exemplos. Em
seguida, técnicas de
pré-processamento utilizadas em Mineração de Textos, entre
elas o uso de um
dicionário thesaurus, analisam semanticamente o documento
apresentado como
exemplo. Baseado nesta análise, o web crawler construído
será guiado em busca
do seu objetivo: recuperar informação relevante sobre o
documento. A partir de
sementes ou realizando uma consulta automática nas máquinas
de buscas
disponíveis, o crawler analisa, igualmente como na etapa
anterior, todo
documento recuperado na Web. Então, é executado um processo
de comparação
entre cada documento recuperado e o documento exemplo.
Depois de obtido o
nível de similaridade entre ambos, os hyperlinks do
documento recuperado são
analisados, empilhados e, futuramente, serão desempilhados
de acordo seus
respectivos e prováveis níveis de importância. Ao final do
processo de coleta de
dados, outra técnica de Mineração de Textos é aplicada,
objetivando selecionar os
documentos mais representativos daquela coleção de textos:
a Clusterização de
Documentos. A implementação de uma ferramenta que contempla
as heurísticas
pesquisadas permitiu obter resultados práticos, tornando
possível avaliar o
desempenho das técnicas desenvolvidas e comparar os
resultados obtidos com
outras formas de recuperação de dados na Web. Com este
trabalho, mostrou-se
que o emprego de Mineração de Textos é um caminho a ser
explorado no
processo de recuperação de informação relevante na Web. / [en] This dissertation presents a study about the application of
Text Mining as
part of the intelligent Web crawling process. The most
usual way of gathering
data in Web consists of the utilization of web crawlers.
Web crawlers are
softwares that, once provided with an initial set of URLs
(seeds), start the
methodical proceeding of visiting a site, store it in disk
and extract its hyperlinks
that will be used for the next visits. But seeking for
content in this way is an
expensive and exhausting task. An intelligent web crawling
process, more than
collecting and storing any web document available, analyses
its available crawling
possibilities for finding links that, probably, will
provide high relevant content to
a topic defined a priori. In the approach suggested in this
work, topics are not
defined by words, but rather by the employment of text
documents as examples.
Next, pre-processing techniques used in Text Mining,
including the use of a
Thesaurus, analyze semantically the document submitted as
example. Based on
this analysis, the web crawler thus constructed will be
guided toward its objective:
retrieve relevant information to the document. Starting
from seeds or querying
through available search engines, the crawler analyzes,
exactly as in the previous
step, every document retrieved in Web. the similarity level
between them is
obtained, the retrieved document`s hyperlinks are analysed,
queued and, later, will
be dequeued according to each one`s probable degree of
importance. By the end
of the gathering data process, another Text Mining
technique is applied, with the
propose of selecting the most representative document among
the collected texts:
Document Clustering. The implementation of a tool
incorporating all the
researched heuristics allowed to achieve results, making
possible to evaluate the
performance of the developed techniques and compare all
obtained results with
others means of retrieving data in Web. The present work
shows that the use of
Text Mining is a track worthy to be exploited in the
process of retrieving relevant
information in Web.
|
19 |
[en] AUTOMATIC TEXT CATEGORIZATION BASED ON TEXT MINING / [pt] CATEGORIZAÇÃO AUTOMÁTICA DE TEXTOS BASEADA EM MINERAÇÃO DE TEXTOSFABIO DE AZEVEDO SOARES 15 July 2014 (has links)
[pt] A Categorização de Documentos, uma das tarefas desempenhadas em Mineração de Textos, pode ser descrita como a obtenção de uma função que seja capaz de atribuir a um documento uma categoria a que ele pertença. O principal objetivo de se construir uma taxonomia de documentos é tornar mais fácil a obtenção de informação relevante. Porém, a implementação e a execução de um processo de Categorização de Documentos não é uma tarefa trivial: as ferramentas de Mineração de Textos estão em processo de amadurecimento e ainda, demandam elevado conhecimento técnico para a sua utilização. Além disso, exercendo grande importância em um processo de Mineração de Textos, a linguagem em que os documentos se encontram escritas deve ser tratada com as particularidades do idioma. Contudo há grande carência de ferramentas que forneçam tratamento adequado ao Português do Brasil. Dessa forma, os objetivos principais deste trabalho são pesquisar, propor, implementar e avaliar um framework de Mineração de Textos para a Categorização Automática de Documentos, capaz de auxiliar a execução do processo de descoberta de conhecimento e que ofereça processamento linguístico para o Português do Brasil. / [en] Text Categorization, one of the tasks performed in Text Mining, can be described as the achievement of a function that is able to assign a document to the category, previously defined, to which it belongs. The main goal of building a taxonomy of documents is to make easier obtaining relevant information. However, the implementation and execution of Text Categorization is not a trivial task: Text Mining tools are under development and still require high technical expertise to be handled, also having great significance in a Text Mining process, the language of the documents should be treated with the peculiarities of each idiom. Yet there is great need for tools that provide proper handling to Portuguese of Brazil. Thus, the main aims of this work are to research, propose, implement and evaluate a Text Mining Framework for Automatic Text Categorization, capable of assisting the execution of knowledge discovery process and provides language processing for Brazilian Portuguese.
|
20 |
[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOSIAN MONTEIRO NUNES 18 February 2016 (has links)
[pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model.
|
Page generated in 0.386 seconds