• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 39
  • 19
  • Tagged with
  • 58
  • 58
  • 57
  • 30
  • 30
  • 10
  • 9
  • 9
  • 8
  • 8
  • 7
  • 7
  • 7
  • 7
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

[en] DATA MINING APPLIED TO CUSTOMER RETENTION IN WIRELESS TELECOMMUNICATIONS / [pt] MINERAÇÃO DE DADOS NA RETENÇÃO DE CLIENTES EM TELEFONIA CELULAR

JORGE BRANTES FERREIRA 16 September 2005 (has links)
[pt] O objetivo desta dissertação é propor um sistema de mineração de dados completo para a solução de problemas de retenção de clientes, presentes nas mais variadas indústrias. Tal solução reside na correta identificação, em meio a gigantescas bases de dados, dos clientes cujos perfis e históricos de comportamento denotam que sua saída da empresa é iminente. Agindo então sobre a inteligência gerada a partir desta classificação de clientes, incentivos e ações de retenção devem ser postos em prática para evitar e/ou minimizar a perda para algum concorrente de clientes valiosos. Ao longo do processo de mineração de dados, deu-se atenção ao processo de preparação e representação dos dados e métodos de seleção de variáveis, na tentativa de melhorar e otimizar o desempenho dos modelos a serem estudados. Vários modelos diferentes foram testados, otimizados e comparados na tarefa de classificação de clientes como aqueles que permanecerão na empresa ou aqueles que apresentam riscos de abandono. Entre os modelos estudados estão: redes neurais, sistemas neuro-fuzzy hierárquicos, algoritmos genéticos, árvores de decisão e máquinas de vetor de suporte. Em particular, avaliou-se a questão do abandono de clientes (churn) na indústria de telecomunicações móvel brasileira, devido à disponibilidade de dados reais para a análise. Foi feito um estudo abrangente do problema do churn, identificando suas causas, conseqüências e detalhes. Conclui-se com uma análise do impacto da implementação da metodologia proposta em ações de retenção de clientes, sob o prisma da lucratividade ou corte de despesas em que tal utilização implicaria. / [en] The goal of this work is to propose a complete data mining system for the solution of customer retention problems, commonly found in many industries. Such a solution encompasses the accurate identification among huge amounts of data of those consumers who would most likely end their relationship with the firm, based on their historical behavior and individual profile. Acting upon the intelligence provided by a precise customer classification, incentives and retention actions should be put into practice to prevent or minimize the losses of valuable clients to competitors. Throughout the data mining process designed here, great care was given to the preparation and representation of the data and to input selection methods, in an effort to optimize the performance of the classification models. Various different classification techniques have been tested, with the objective of finding the one best suited for the task at hand: to pinpoint those customers who present clear risks of abandoning the analyzed company. Among the studied models were neural networks, decision trees, genetic algorithms, neuro-fuzzy systems and SVMs (Support Vector Machines). As a case study, the issue of churn (loss of customer to a competitor) in the Brazilian wireless telecommunications was tackled, due to the availability of data. A detailed study was made, identifying the causes, consequences and details of the business problem. As a conclusion, the great impact of the implementation of the proposed system in retention strategies of wireless carriers is evaluated, under the view of the profitability that would be generated by its use.
12

[en] RECOMMENDATION BASED ON DATA MINING FOR RELATIONSHIP MARKETING / [pt] MINERAÇÃO DE DADOS VOLTADA PARA RECOMENDAÇÃO NO ÂMBITO DE MARKETING DE RELACIONAMENTO

LIVIA FONSECA FRACALANZA 24 August 2009 (has links)
[pt] Cross-selling é uma estratégia de vendas de produtos baseada em uma análise das compras passadas de um cliente ou nas compras passadas de outros clientes com o mesmo perfil. O algoritmo mais conhecido para análise da cesta de compras de um cliente é conhecido por market basket analysis. Este trabalho aborda a descoberta de padrões seqüenciais em grandes bases de dados e tem por objetivo apresentar um algoritmo eficiente que transforma o problema da cesta de compras em um problema de clique máximo. Primeiramente, os dados de entrada são transformados em um grafo e o problema da descoberta do clique máximo é resolvido revelando as relações mais recorrentes entre os itens em questão. Os experimentos apresentados na dissertação demonstram a eficiência do algoritmo em grandes volumes de dados. / [en] Cross-selling is a strategy to recommend products to customers based on their past purchases or the purchases of other customers with the same profile. The best known algorithm for the analysis of a client shopping basket is known in the literature as market basket analysis. This dissertation discusses the discovery of sequential patterns in large databases and aims at implementing an efficient algorithm that transforms the shopping cart problem into a maximum clique problem. First, input data is transformed into a graph and maximum cliques are detected to discover the most frequent relationship between the items on the transaction. The dissertation also includes experiments that evaluate the efficiency of the algorithm for large data volumes.
13

[en] WORD SENSE DESAMBIGUATION IN TEXT MINING / [pt] DESAMBIGUAÇÃO DE SENTIDO DE PALAVRAS DIRIGIDA POR TÉCNICAS DE AGRUPAMENTO SOB O ENFOQUE DA MINERAÇÃO DE TEXTOS

ROBERTO MIRANDA GOMES 10 September 2009 (has links)
[pt] Esta dissertação investigou a aplicação de processos de mineração de textos a partir de técnicas de inteligência computacional e aprendizado de máquina no problema de ambigüidade de sentido de palavras. O trabalho na área de métodos de apoio à decisão teve como objetivo o desenvolvimento de técnicas capazes de automatizar os processos de desambiguação bem como a construção de um protótipo baseado na implementação de algumas dessas técnicas. Desambiguação de sentido de palavra é o processo de atribuição de um significado a uma palavra obtido por meio de informações colhidas no contexto em que ela ocorre, e um de seus objetivos é mitigar os enganos introduzidos por construções textuais ambíguas, auxiliando assim o processo de tomada de decisão. Buscou-se ainda na utilização de conceitos, ferramentas e formas de documentação considerados em trabalhos anteriores de maneira a dar continuidade ao desenvolvimento científico e deixar um legado mais facilmente reutilizável em trabalhos futuros. Atenção especial foi dada ao processo de detecção de ambigüidades e, por esse motivo, uma abordagem diferenciada foi empregada. Diferente da forma mais comum de desambiguação, onde uma máquina é treinada para desambiguar determinado termo, buscou-se no presente trabalho a nãodependência de se conhecer o termo a ser tratado e assim tornar o sistema mais robusto e genérico. Para isso, foram desenvolvidas heurísticas específicas baseadas em técnicas de inteligência computacional. Os critérios semânticos para identificação de termos ambíguos foram extraídos das técnicas de agrupamento empregadas em léxicos construídos após algum processo de normalização de termos. O protótipo, SID - Sistema Inteligente de Desambiguação - foi desenvolvido em .NET, que permite uma grande diversidade de linguagens no desenvolvimento, o que facilita o reuso do código para a continuidade da pesquisa ou a utilização das técnicas implementadas em alguma aplicação de mineração de textos. A linguagem escolhida foi o C#, pela sua robustez, facilidade e semelhança sintática com JAVA e C++, linguagens amplamente conhecidas e utilizadas pela maioria dos desenvolvedores. / [en] This dissertation investigated the application of text mining process from techniques of computing intelligence and machine learning in the problem of word sense ambiguity. The work in the methods of decision support area aimed to develop techniques capable of doing a word meaning disambiguation automatically and also to construct a prototype based on the application of such techniques. Special attention was given to the process of ambiguity detection and, for this reason, a differentiated approach was used. Unlikely the most common type of disambiguation, in which the machine is trained to do it in determined terms, the present work aimed to address the ambiguity problem without the need of knowing the meaning of the term used, and thus, to make the system more robust and generic. In order to achieve that, specific heurists were developed based on computing intelligence techniques. The semantic criteria used to identify the ambiguous terms were extracted from grouping techniques employed in lexis built after some term normalization process.
14

[pt] MINERAÇÃO DE ITENS FREQUENTES EM SEQUÊNCIAS DE DADOS: UMA IMPLEMENTAÇÃO EFICIENTE USANDO VETORES DE BITS / [en] MINING FREQUENT ITEMSETS IN DATA STREAMS: AN EFFICIENT IMPLEMENTATION USING BIT VECTORS

FRANKLIN ANDERSON DE AMORIM 11 February 2016 (has links)
[pt] A mineração de conjuntos de itens frequentes em sequências de dados possui diversas aplicações práticas como, por exemplo, análise de comportamento de usuários, teste de software e pesquisa de mercado. Contudo, a grande quantidade de dados gerada pode representar um obstáculo para o processamento dos mesmos em tempo real e, consequentemente, na sua análise e tomada de decisão. Sendo assim, melhorias na eficiência dos algoritmos usados para estes fins podem trazer grandes benefícios para os sistemas que deles dependem. Esta dissertação apresenta o algoritmo MFI-TransSWmais, uma versão otimizada do algoritmo MFI-TransSW, que utiliza vetores de bits para processar sequências de dados em tempo real. Além disso, a dissertação descreve a implementação de um sistema de recomendação de matérias jornalísticas, chamado ClickRec, baseado no MFI-TransSWmais, para demonstrar o uso da nova versão do algoritmo. Por último, a dissertação descreve experimentos com dados reais e apresenta resultados da comparação de performance dos dois algoritmos e dos acertos do sistema de recomendações ClickRec. / [en] The mining of frequent itemsets in data streams has several practical applications, such as user behavior analysis, software testing and market research. Nevertheless, the massive amount of data generated may pose an obstacle to processing then in real time and, consequently, in their analysis and decision making. Thus, improvements in the efficiency of the algorithms used for these purposes may bring great benefits for systems that depend on them. This thesis presents the MFI-TransSWplus algorithm, an optimized version of MFI-TransSW algorithm, which uses bit vectors to process data streams in real time. In addition, this thesis describes the implementation of a news articles recommendation system, called ClickRec, based on the MFI-TransSWplus, to demonstrate the use of the new version of the algorithm. Finally, the thesis describes experiments with real data and presents results of performance and a comparison between the two algorithms in terms of performance and the hit rate of the ClickRec recommendation system.
15

[pt] EXPLORANDO OS ASPECTOS SOCIAIS DO DECAIMENTO DE DESIGN / [en] EXPLORING THE SOCIAL ASPECTS OF DESIGN DECAY

CAIO BARBOSA VIEIRA DA SILVA 01 July 2021 (has links)
[pt] O desenvolvimento de código vem sendo executado de forma colaborativa há muito tempo. Plataformas, como o GitHub, contribuem para esse processo com vários mecanismos. Pull Request é um deles, e permite aos desenvolvedores enviarem suas contribuições para um repositório, onde essas mudanças podem ser discutidas e revisadas antes de serem integradas ao código principal. Um dos objetivos desse processo é evitar um fenômeno chamado design decay, que ocorre quando estruturas de pobres de design são introduzidas no código fonte. Como resultado, o projeto pode se tornar difícil de manter e evoluir. As técnicas existentes usam sintomas de código fonte (e.g., mal cheiros de código) para identificar a manifestação de design decay. No entanto, esses sintomas só podem identificar design decay que já se ocorreu. Assim, nesta dissertação, investigamos três aspectos sociais para prever a manifestação de design decay em projetos de código aberto. Dinâmica de comunicação representa informações sobre os papéis dos contribuidores e aspectos temporais das discussões. Conteúdo da discussão é a informação sendo trocada entre participantes de uma contribuição. Finalmente, dinâmica organizacional representa as características da equipe. A manifestação desses aspectos sociais ao longo do desenvolvimento de software pode induzir comportamentos que possivelmente afetam a qualidade do código. No entanto, nenhum estudo anterior investigou a sua influência no design decay. Assim, buscamos evidências sobre como esses três aspectos influenciam na manifestação de design decay. Para atingir esse objetivo, nós introduzimos um conjunto de métricas para caracterizar aspectos sociais num modelo de desenvolvimento baseado em pull requests. Então, nós analisamos sete projetos, extraindo seus commits e pull requests. Nossos resultados revelam que: (i) métricas sociais podem ser usadas para discriminar as pull requests que impactam na manifestação de design decay daquelas que não impactam; (ii) vários fatores da dinâmica da comunicação estão relacionados ao design decay. No entanto, os fatores temporais superam os fatores dos papéis dos participantes como indicadores de design decay; e (iii) aspectos relacionados à dinâmica organizacional, como o número de novatos, surpreendentemente, não estão associados a manifestação de design decay. / [en] Code development has been performing collaboratively for a long time. Platforms, such as GitHub, contribute to this process with various mechanisms. Pull Request is a mechanism that allows developers to submit their contributions to a project. Then, these changes can be discussed, analyzed, and reviewed before being integrated into the repository. One of the goals of this process is to avoid a phenomenon called design decay. It occurs when poor design structures are introduced in a project. As a result, the project may become difficult to maintain and evolve. Existing techniques use source code symptoms (e.g., code smells) to identify the manifestation of design decay. Nevertheless, such symptoms can only be used to identify design decay that is already present in the project. Thus, in this dissertation, we investigated the exploration of three social aspects to predict the manifestation of design decay on open-source projects as follows. Communication Dynamics represents information about contributor s roles and temporal aspects of their discussions. Discussion Content is the information being exchanged among participants of a contribution. Finally, Organizational Dynamics represents characteristics of the team organization. The manifestation of these social aspects along software development can induce behaviors that possibly affect the design quality. However, no previous study has investigated the influence of such social aspects on the manifestation of design decay. Thus, we aim to shed light on how these three aspects influence the design decay. To achieve this goal, we introduced a suite of metrics for characterizing social aspects in pull-based software development. Then, we analyzed seven open-source projects, mining both their commits and pull requests. Our results reveal that: (i) many social metrics, e.g., Discussion Length, can be used to discriminate between pull requests that impact on the manifestation of design decay from the ones that do not impact; (ii) various factors of communication dynamics, such as Number of Users, are related to design decay. Nevertheless, temporal factors of communication dynamics outperform the participant roles as indicators of design decay; and (iii) aspects related to organizational dynamics, such as the number of newcomers, are surprisingly not associated with design decay manifestation.
16

[en] USE OF PETRI NET TO MODEL RESOURCE ALLOCATION IN PROCESS MINING / [pt] USO DE REDES DE PETRI NA MODELAGEM DE ALOCAÇÃO DE RECURSOS EM MINERAÇÃO DE PROCESSOS

BEATRIZ MARQUES SANTIAGO 22 November 2019 (has links)
[pt] Business Process Management é a ciência de observar como o trabalho é realizado em determinada organização garantindo produtos consistentes e se aproveitando de oportunidades de melhoria. Atualmente, boa parte dos processos são realizados em frameworks, muitos com armazenamento de arquivos de log, no qual é disponibilizada uma grande quantidade de informação que pode ser explorada de diferentes formas e com diferentes objetivos, área denominada como Mineração de Processos. Apesar de muitos desses dados contemplarem o modo como os recursos são alocados para cada atividade, o foco maior dos trabalhos nessa área é na descoberta do processo e na verificação de conformidade do mesmo. Nesta dissertação é proposto um modelo em petri net que incorpora a alocação de recurso, de forma a poder explorar as propriedades deste tipo de modelagem, como por exemplo a definição de todos os estados possíveis. Como aplicação do modelo, realizou-se um estudo comparativo entre duas políticas, uma mais especialista, de alocação de recurso, e outra mais generalista usando simulações de Monte Carlo com distribuição de probabilidade exponencial para o início de novos casos do processo e para estimação do tempo de execução do par recurso atividade. Sendo assim, para avaliação de cada política foi usado um sistema de pontuação que considera o andamento do processo e o tempo total de execução do mesmo. / [en] Business Process Management is the science of observing how the work is performed in a given organization ensuring consistent products and seeking opportunities for improvement. Currently, most of the processes are performed in frameworks, many with log files, in which a large amount of data is available. These data can be explored in different ways and with different objectives, giving rise to the Process Mining area. Although many of these data informs how resources are allocated for each activity, the major focus of previous work is on the discovery process techniques and process compliance. In this thesis a petri net model that incorporates resource allocation is proposed exploring the properties of this type of modeling, such as the definition of all possible states. As a model validation, it is applied in a comparative study between two resource allocation policies, one considering the expertise of each resource and other with a more generalist allocation. The arrival of new cases and the resource-activity pair execution time were estimated by Monte Carlo simulations with exponential probability distribution. Thus, for the evaluation of each policy a scoring system was used considering the progress of the process and the total execution time.
17

[pt] OS EFEITOS DA ELEIÇÃO DE UM PREFEITO MINERADOR NO BRASIL / [en] THE EFFECTS OF ELECTING A MINER MAYOR: EVIDENCE FROM BRAZIL

WALLACE DE JESUS INOCENCIO 06 October 2022 (has links)
[pt] Este trabalho analisa se a eleição de mineradores como prefeitos em municípios brasileiros tem implicações sobre o gasto público ambiental e a saúde pública. Primeiro, ao combinar diferentes bases de dados públicas administrativas, este trabalho identifica candidatos a prefeitos que detém uma licença de mineração. Então, eu seleciono eleições com margem de vitória estreita para aplicar uma regressão com descontinuidade que estima os impactos de eleger um prefeito minerador na despesa pública ambiental. Na sequência, utilizando diferenças-em-diferenças, eu foco na eleição de prefeitos mineradores de ouro, cuja extração artesanal é altamente tóxica, e verifico se a potencial emissão de mercúrio pelos garimpos afeta a saúde pública em municípios vizinhos. Em ambos os casos, este trabalho não encontra um efeito causal estatisticamente significante, porém, a análise carece de poder estatístico por conta do tamanho reduzido da amostra. / [en] This paper analyses whether electing a miner as mayor in a Brazilian municipality has implications on municipal environmental expenditure and general health. First, by merging different public administrative data, this paper identifies candidates for municipal office in Brazil who hold a mining permit. Then, I use close elections to apply a regression discontinuity design to estimate the impact of electing a miner mayor on public environmental expense. Furthermore, by using a difference-in-differences approach, I focus on the election of mayors who mine gold, a highly contaminating activity, and check whether potential mercury contamination due to gold mining affects health outcomes in neighboring municipalities. In both cases, this paper does not find a statistically significant causal effect, however, the analysis lacks statistical power due to the small sample size.
18

[en] TEXT MINING AT THE INTELLIGENT WEB CRAWLING PROCESS / [pt] MINERAÇÃO DE TEXTOS NA COLETA INTELIGENTE DE DADOS NA WEB

FABIO DE AZEVEDO SOARES 31 March 2009 (has links)
[pt] Esta dissertação apresenta um estudo sobre a utilização de Mineração de Textos no processo de coleta inteligente de dados na Web. O método mais comum de obtenção de dados na Web consiste na utilização de web crawlers. Web crawlers são softwares que, uma vez alimentados por um conjunto inicial de URLs (sementes), iniciam o procedimento metódico de visitar um site, armazenálo em disco e extrair deste os hyperlinks que serão utilizados para as próximas visitas. Entretanto, buscar conteúdo desta forma na Web é uma tarefa exaustiva e custosa. Um processo de coleta inteligente de dados na Web, mais do que coletar e armazenar qualquer documento web acessível, analisa as opções de crawling disponíveis para encontrar links que, provavelmente, fornecerão conteúdo de alta relevância a um tópico definido a priori. Na abordagem de coleta de dados inteligente proposta neste trabalho, tópicos são definidos, não por palavras chaves, mas, pelo uso de documentos textuais como exemplos. Em seguida, técnicas de pré-processamento utilizadas em Mineração de Textos, entre elas o uso de um dicionário thesaurus, analisam semanticamente o documento apresentado como exemplo. Baseado nesta análise, o web crawler construído será guiado em busca do seu objetivo: recuperar informação relevante sobre o documento. A partir de sementes ou realizando uma consulta automática nas máquinas de buscas disponíveis, o crawler analisa, igualmente como na etapa anterior, todo documento recuperado na Web. Então, é executado um processo de comparação entre cada documento recuperado e o documento exemplo. Depois de obtido o nível de similaridade entre ambos, os hyperlinks do documento recuperado são analisados, empilhados e, futuramente, serão desempilhados de acordo seus respectivos e prováveis níveis de importância. Ao final do processo de coleta de dados, outra técnica de Mineração de Textos é aplicada, objetivando selecionar os documentos mais representativos daquela coleção de textos: a Clusterização de Documentos. A implementação de uma ferramenta que contempla as heurísticas pesquisadas permitiu obter resultados práticos, tornando possível avaliar o desempenho das técnicas desenvolvidas e comparar os resultados obtidos com outras formas de recuperação de dados na Web. Com este trabalho, mostrou-se que o emprego de Mineração de Textos é um caminho a ser explorado no processo de recuperação de informação relevante na Web. / [en] This dissertation presents a study about the application of Text Mining as part of the intelligent Web crawling process. The most usual way of gathering data in Web consists of the utilization of web crawlers. Web crawlers are softwares that, once provided with an initial set of URLs (seeds), start the methodical proceeding of visiting a site, store it in disk and extract its hyperlinks that will be used for the next visits. But seeking for content in this way is an expensive and exhausting task. An intelligent web crawling process, more than collecting and storing any web document available, analyses its available crawling possibilities for finding links that, probably, will provide high relevant content to a topic defined a priori. In the approach suggested in this work, topics are not defined by words, but rather by the employment of text documents as examples. Next, pre-processing techniques used in Text Mining, including the use of a Thesaurus, analyze semantically the document submitted as example. Based on this analysis, the web crawler thus constructed will be guided toward its objective: retrieve relevant information to the document. Starting from seeds or querying through available search engines, the crawler analyzes, exactly as in the previous step, every document retrieved in Web. the similarity level between them is obtained, the retrieved document`s hyperlinks are analysed, queued and, later, will be dequeued according to each one`s probable degree of importance. By the end of the gathering data process, another Text Mining technique is applied, with the propose of selecting the most representative document among the collected texts: Document Clustering. The implementation of a tool incorporating all the researched heuristics allowed to achieve results, making possible to evaluate the performance of the developed techniques and compare all obtained results with others means of retrieving data in Web. The present work shows that the use of Text Mining is a track worthy to be exploited in the process of retrieving relevant information in Web.
19

[en] AUTOMATIC TEXT CATEGORIZATION BASED ON TEXT MINING / [pt] CATEGORIZAÇÃO AUTOMÁTICA DE TEXTOS BASEADA EM MINERAÇÃO DE TEXTOS

FABIO DE AZEVEDO SOARES 15 July 2014 (has links)
[pt] A Categorização de Documentos, uma das tarefas desempenhadas em Mineração de Textos, pode ser descrita como a obtenção de uma função que seja capaz de atribuir a um documento uma categoria a que ele pertença. O principal objetivo de se construir uma taxonomia de documentos é tornar mais fácil a obtenção de informação relevante. Porém, a implementação e a execução de um processo de Categorização de Documentos não é uma tarefa trivial: as ferramentas de Mineração de Textos estão em processo de amadurecimento e ainda, demandam elevado conhecimento técnico para a sua utilização. Além disso, exercendo grande importância em um processo de Mineração de Textos, a linguagem em que os documentos se encontram escritas deve ser tratada com as particularidades do idioma. Contudo há grande carência de ferramentas que forneçam tratamento adequado ao Português do Brasil. Dessa forma, os objetivos principais deste trabalho são pesquisar, propor, implementar e avaliar um framework de Mineração de Textos para a Categorização Automática de Documentos, capaz de auxiliar a execução do processo de descoberta de conhecimento e que ofereça processamento linguístico para o Português do Brasil. / [en] Text Categorization, one of the tasks performed in Text Mining, can be described as the achievement of a function that is able to assign a document to the category, previously defined, to which it belongs. The main goal of building a taxonomy of documents is to make easier obtaining relevant information. However, the implementation and execution of Text Categorization is not a trivial task: Text Mining tools are under development and still require high technical expertise to be handled, also having great significance in a Text Mining process, the language of the documents should be treated with the peculiarities of each idiom. Yet there is great need for tools that provide proper handling to Portuguese of Brazil. Thus, the main aims of this work are to research, propose, implement and evaluate a Text Mining Framework for Automatic Text Categorization, capable of assisting the execution of knowledge discovery process and provides language processing for Brazilian Portuguese.
20

[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOS

IAN MONTEIRO NUNES 18 February 2016 (has links)
[pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model.

Page generated in 0.386 seconds