• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 403
  • 34
  • 7
  • 6
  • 6
  • 6
  • 5
  • 5
  • 1
  • Tagged with
  • 449
  • 206
  • 141
  • 134
  • 96
  • 92
  • 82
  • 78
  • 74
  • 74
  • 65
  • 64
  • 41
  • 41
  • 40
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
111

Organização flexível de documentos / Flexible organization of documents

Rios, Tatiane Nogueira 25 March 2013 (has links)
Diversos métodos têm sido desenvolvidos para a organização da crescente quantidade de documentos textuais. Esses métodos frequentemente fazem uso de algoritmos de agrupamento para organizar documentos que referem-se a um mesmo assunto em um mesmo grupo, supondo que conteúdos de documentos de um mesmo grupo são similares. Porém, existe a possibilidade de que documentos pertencentes a grupos distintos também apresentem características semelhantes. Considerando esta situação, há a necessidade de desenvolver métodos que possibilitem a organização flexível de documentos, ou seja, métodos que possibilitem que documentos sejam organizados em diferentes grupos com diferentes graus de compatibilidade. O agrupamento fuzzy de documentos textuais apresenta-se como uma técnica adequada para este tipo de organização, uma vez que algoritmos de agrupamento fuzzy consideram que um mesmo documento pode ser compatível com mais de um grupo. Embora tem-se desenvolvido algoritmos de agrupamento fuzzy que possibilitam a organização flexível de documentos, tal organização é avaliada em termos do desempenho do agrupamento de documentos. No entanto, considerando que grupos de documentos devem possuir descritores que identifiquem adequadamente os tópicos representados pelos mesmos, de maneira geral os descritores de grupos tem sido extraídos utilizando alguma heurística sobre um conjunto pequeno de documentos, realizando assim, uma avaliação simples sobre o significado dos grupos extraídos. No entanto, uma apropriada extração e avaliação de descritores de grupos é importante porque os mesmos são termos representantes da coleção que identificam os tópicos abordados nos documentos. Portanto, em aplicações em que o agrupamento fuzzy é utilizado para a organização flexível de documentos, uma descrição apropriada dos grupos obtidos é tão importante quanto um bom agrupamento, uma vez que, neste tipo de agrupamento, um mesmo descritor pode indicar o conteúdo de mais de um grupo. Essa necessidade motivou esta tese, cujo objetivo foi investigar e desenvolver métodos para a extração de descritores de grupos fuzzy para a organização flexível de documentos. Para cumprir esse objetivo desenvolveu se: i) o método SoftO-FDCL (Soft Organization - Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy at são extraídos após o processo de agrupamento fuzzy, visando identicar tópicos da organização flexível de documentos independentemente do algoritmo de agrupamento fuzzy utilizado; ii) o método SoftO-wFDCL ( Soft Organization - weighted Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy at também são extraídos após o processo de agrupamento fuzzy utilizando o grau de pertinência dos documentos em cada grupo, obtidos do agrupamento fuzzy, como fator de ponderação dos termos candidatos a descritores; iii) o método HSoftO-FDCL (Hierarchical Soft Organization - Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy hierárquicos são extraídos após o processo de agrupamento hierárquico fuzzy, identificando tópicos da organização hierárquica flexível de documentos. Adicionalmente, apresenta-se nesta tese uma aplicação do método SoftO-FDCL no contexto do programa de educação médica continuada canadense, reforçando a utilidade e aplicabilidade da organização flexível de documentos / Several methods have been developed to organize the growing number of textual documents. Such methods frequently use clustering algorithms to organize documents with similar topics into clusters. However, there are situations when documents of dffierent clusters can also have similar characteristics. In order to overcome this drawback, it is necessary to develop methods that permit a soft document organization, i.e., clustering documents into different clusters according to different compatibility degrees. Among the techniques that we can use to develop methods in this sense, we highlight fuzzy clustering algorithms (FCA). By using FCA, one of the most important steps is the evaluation of the yield organization, which is performed considering that all analyzed topics are adequately identified by cluster descriptors. In general, cluster descriptors are extracted using some heuristic over a small number of documents. The adequate extraction and evaluation of cluster descriptors is important because they are terms that represent the collection and identify the topics of the documents. Therefore, an adequate description of the obtained clusters is as important as a good clustering, since the same descriptor might identify one or more clusters. Hence, the development of methods to extract descriptors from fuzzy clusters obtained for soft organization of documents motivated this thesis. Aiming at investigating such methods, we developed: i) the SoftO-FDCL (Soft Organization - Fuzzy Description Comes Last) method, in which descriptors of fuzzy clusters are extracted after clustering documents, identifying topics regardless the adopted fuzzy clustering algorithm; ii) the SoftO-wFDCL (Soft Organization - weighted Fuzzy Description Comes Last) method, in which descriptors of fuzzy clusters are also extracted after the fuzzy clustering process using the membership degrees of the documents as a weighted factor for the candidate descriptors; iii) the HSoftO-FDCL (Hierarchical Soft Organization - Fuzzy Description Comes Last) method, in which descriptors of hierarchical fuzzy clusters are extracted after the hierarchical fuzzy clustering process, identifying topics by means of a soft hierarchical organization of documents. Besides presenting these new methods, this thesis also discusses the application of the SoftO-FDCL method on documents produced by the Canadian continuing medical education program, presenting the utility and applicability of the soft organization of documents in real-world scenario
112

Hierarchical semi-supervised confidence-based active clustering and its application to the extraction of topic hierarchies from document collections / Agrupamento hierárquico semissupervisionado ativo baseado em confiança e sua aplicação para extração de hierarquias de tópicos a partir de coleções de documentos

Nogueira, Bruno Magalhães 16 December 2013 (has links)
Topic hierarchies are efficient ways of organizing document collections. These structures help users to manage the knowledge contained in textual data. These hierarchies are usually obtained through unsupervised hierarchical clustering algorithms. By not considering the context of the user in the formation of the hierarchical groups, unsupervised topic hierarchies may not attend the user\'s expectations in some cases. One possible solution for this problem is to employ semi-supervised clustering algorithms. These algorithms incorporate the user\'s knowledge through the usage of constraints to the clustering process. However, in the context of semi-supervised hierarchical clustering, the works in the literature do not efficient explore the selection of cases (instances or cluster) to add constraints, neither the interaction of the user with the clustering process. In this sense, in this work we introduce two semi-supervised hierarchical clustering algorithms: HCAC (Hierarchical Confidence-based Active Clustering) and HCAC-LC (Hierarchical Confidence-based Active Clustering with Limited Constraints). These algorithms employ an active learning approach based in the confidence of cluster merges. When a low confidence merge is detected, the user is invited to decide, from a pool of candidate pairs of clusters, the best cluster merge in that point. In this work, we employ HCAC and HCAC-LC in the extraction of topic hierarchies through the SMITH framework, which is also proposed in this thesis. This framework provides a series of well defined activities that allow the user\'s interaction in the generation of topic hierarchies. The active learning approach used in the HCAC-based algorithms, the kind of queries employed in these algorithms, as well as the SMITH framework for the generation of semi-supervised topic hierarchies are innovations to the state of the art proposed in this thesis. Our experimental results indicate that HCAC and HCAC-LC outperform other semi-supervised hierarchical clustering algorithms in diverse scenarios. The results also indicate that semi-supervised topic hierarchies obtained through the SMITH framework are more intuitive and easier to navigate than unsupervised topic hierarchies / Hierarquias de tópicos são formas eficientes de organização de coleções de documentos, auxiliando usuários a gerir o conhecimento materializado nessas publicações textuais. Tais hierarquias são usualmente construídas por meio de algoritmos de agrupamento hierárquico não supervisionado. Entretanto, por não considerarem o contexto do usuário na formação dos grupos, hierarquias de tópicos não supervisionadas nem sempre conseguem atender as suas expectativas. Uma solução para este problema e o emprego de algoritmos de agrupamento semissupervisionado, os quais incorporam o conhecimento de domínio do usuário por meio de restrições. Entretanto, para o contexto de agrupamento hierárquico semissupervisionado, não são eficientemente explorados na literatura métodos de seleção de casos (instâncias ou grupos) para receber restrições, bem como não há formas eficientes de interação do usuário com o processo de agrupamento hierárquico. Dessa maneira, neste trabalho, dois algoritmos de agrupamento hierárquico semissupervisionado são propostos: HCAC (Hierarchical Confidence-based Active Clustering) e HCAC-LC (Hierarchical Confidence-based Active Clustering with Limited Constraints). Estes algoritmos empregam uma abordagem de aprendizado ativo baseado na confiança de uma junção de clusters. Quando uma junção de baixa confiança e detectada, o usuário e convidado a decidir, em um conjunto de pares de grupos candidatos, a melhor junção naquele ponto. Estes algoritmos são aqui utilizados na extração de hierarquias de tópicos por meio do framework SMITH, também proposto nesse trabalho. Este framework fornece uma série de atividades bem definidas que possibilitam a interação do usuário para a obtenção de hierarquias de tópicos. A abordagem de aprendizado ativo utilizado nos algoritmos HCAC e HCAC-LC, o tipo de restrição utilizada nestes algoritmos, bem como o framework SMITH para obtenção de hierarquias de tópicos semissupervisionadas são inovações ao estado da arte propostos neste trabalho. Os resultados obtidos indicam que os algoritmos HCAC e HCAC-LC superam o desempenho de outros algoritmos hierárquicos semissupervisionados em diversos cenários. Os resultados também indicam que hierarquias de tópico semissupervisionadas obtidas por meio do framework SMITH são mais intuitivas e fáceis de navegar do que aquelas não supervisionadas
113

Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados / Automatic feature quantification in data clustering tasks

Andrade Filho, José Augusto 17 September 2013 (has links)
Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida / Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition
114

Substituição de valores ausentes: uma abordagem baseada em um algoritmo evolutivo para agrupamento de dados / Missing value substitution: an approach based on evolutionary algorithm for clustering data

Silva, Jonathan de Andrade 29 April 2010 (has links)
A substituição de valores ausentes, também conhecida como imputação, é uma importante tarefa para a preparação dos dados em aplicações de mineração de dados. Este trabalho propõe e avalia um algoritmo para substituição de valores ausentes baseado em um algoritmo evolutivo para agrupamento de dados. Este algoritmo baseia-se na suposição de que grupos (previamente desconhecidos) de dados podem prover informações úteis para o processo de imputação. Para avaliar experimentalmente o algoritmo proposto, simulações de valores ausentes foram realizadas em seis bases de dados, para problemas de classificação, com a aplicação de dois mecanismos amplamente usados em experimentos controlados: MCAR e MAR. Os algoritmos de imputação têm sido tradicionalmente avaliados por algumas medidas de capacidade de predição. Entretanto, essas tradicionais medidas de avaliação não estimam a influência dos métodos de imputação na etapa final em tarefas de modelagem (e.g., em classificação). Este trabalho descreve resultados experimentais obtidos sob a perspectiva de predição e inserção de tendências (viés) em problemas de classificação. Os resultados de diferentes cenários nos quais o algoritmo proposto, apresenta em geral, desempenho semelhante a outros seis algoritmos de imputação reportados na literatura. Finalmente, as análises estatísticas reportadas sugerem que melhores resultados de predição não implicam necessariamente em menor viés na classificação / The substitution of missing values, also called imputation, is an important data preparation task for data mining applications. This work proposes and evaluates an algorithm for missing values imputation that is based on an evolutionary algorithm for clustering. This algorithm is based on the assumption that clusters of (partially unknown) data can provide useful information for the imputation process. In order to experimentally assess the proposed method, simulations of missing values were performed on six classification datasets, with two missingness mechanisms widely used in practice: MCAR and MAR. Imputation algorithms have been traditionally assessed by some measures of prediction capability. However, this traditionall approach does not allow inferring the influence of imputed values in the ultimate modeling tasks (e.g., in classification). This work describes the experimental results obtained from the prediction and insertion bias perspectives in classification problems. The results illustrate different scenarios in which the proposed algorithm performs similarly to other six imputation algorithms reported in the literature. Finally, statistical analyses suggest that best prediction results do not necessarily imply in less classification bias
115

Abordagens evolutivas para agrupamento relacional de dados / Evolutionary approaches to relational data clustering

Horta, Danilo 22 February 2010 (has links)
O agrupamento de dados é uma técnica fundamental em aplicações de diversos campos do mercado e da ciência, como, por exemplo, no comércio, na biologia, na psiquiatria, na astronomia e na mineração da Web. Ocorre que em um subconjunto desses campos, como engenharia industrial, ciências sociais, engenharia sísmica e recuperação de documentos, as bases de dados são usualmente descritas apenas pelas proximidades entre os objetos (denominadas bases de dados relacionais). Mesmo em aplicações nas quais os dados não são naturalmente relacionais, o uso de bases relacionais permite que os dados em si sejam mantidos sob sigilo, o que pode ser de grande valia para bancos ou corretoras, por exemplo. Nesta dissertação é apresentada uma revisão de algoritmos de agrupamento de dados que lidam com bases de dados relacionais, com foco em algoritmos que produzem partições rígidas (hard ou crisp) dos dados. Particular ênfase é dada aos algoritmos evolutivos, que têm se mostrado capazes de resolver problemas de agrupamento de dados com relativa acurácia e de forma computacionalmente eficiente. Nesse contexto, propõe-se nesta dissertação um novo algoritmo evolutivo de agrupamento capaz de operar sobre dados relacionais e também capaz de estimar automaticamente o número de grupos nos dados (usualmente desconhecido em aplicações práticas). É demonstrado empiricamente que esse novo algoritmo pode superar métodos tradicionais da literatura em termos de eficiência computacional e acurácia / Data clustering is a fundamental technique for applications in several fields of science and marketing, as commerce, biology, psychiatry, astronomy, and Web mining. However, in a subset of these fields, such as industrial engineering, social sciences, earthquake engineering, and retrieval of documents, datasets are usually described only by proximities between their objects (called relational datasets). Even in applications where the data are not naturally relational, the use of relational datasets preserves the datas secrecy, which can be of great value to banks or brokers, for instance. This dissertation presents a review of data clustering algorithms which deals with relational datasets, with a focus on algorithms that produce hard or crisp partitions of data. Particular emphasis is given to evolutionary algorithms, which have proved of being able to solve problems of data clustering accurately and efficiently. In this context, we propose a new evolutionary algorithm for clustering able to operate on relational datasets and also able to automatically estimate the number of clusters (which is usually unknown in practical applications). It is empirically shown that this new algorithm can overcome traditional methods described in the literature in terms of computational efficiency and accuracy
116

Identificação de covers a partir de grandes bases de dados de músicas / Cover song identification using big data bases

Ferreira, Martha Dais 30 April 2014 (has links)
Acrescente capacidade de armazenamento introduziu novos desafios no contexto de exploração de grandes bases de dados de músicas. Esse trabalho consiste em investigar técnicas de comparação de músicas representadas por sinais polifônicos, com o objetivo de encontrar similaridades, permitindo a identificação de músicas cover em grandes bases de dados. Técnicas de extração de características a partir de sinais musicais foram estudas, como também métricas de comparação a partir das características obtidas. Os resultados mostraram que é possível encontrar um novo método de identificação de covers com um menor custo computacional do que os existentes, mantendo uma boa precisão / The growing capacity in storage and transmission of songs has introduced a new challenges in the context of large music data sets exploration. This work aims at investigating techniques for comparison of songs represented by polyphonic signals, towards identifying cover songs in large data sets. Techniques for music feature extraction were evaluated and compared. The results show that it is possible to develop new methods for cover identification with a lower computational cost when compared to existing solutions, while keeping the good precision
117

Adaptação de viés indutivo de algoritmos de agrupamento de fluxos de dados / Adapting the inductive bias of data-stream clustering algorithms

Albertini, Marcelo Keese 11 April 2012 (has links)
Diversas áreas de pesquisa são dedicadas à compreensão de fenômenos que exigem a coleta ininterrupta de sequências de amostras, denominadas fluxos de dados. Esses fenômenos frequentemente apresentam comportamento variável e são estudados por meio de indução não supervisionada baseada em agrupamento de dados. Atualmente, o processo de agrupamento tem exibido sérias limitações em sua aplicação a fluxos de dados, devido às exigências impostas pelas variações comportamentais e pelo modo de coleta de dados. Embora tem-se desenvolvido algoritmos eficientes para agrupar fluxos de dados, há a necessidade de estudos sobre a influência de variações comportamentais nos parâmetros de algoritmos (e.g., taxas de aprendizado e limiares de proximidade), as quais interferem diretamente na compreensão de fenômenos. Essa lacuna motivou esta tese, cujo objetivo foi a proposta de uma abordagem para a adaptação do viés indutivo de algoritmos de agrupamento de fluxos de dados de acordo com variações comportamentais dos fenômenos em estudo. Para cumprir esse objetivo projetou-se: i) uma abordagem baseada em uma nova arquitetura de rede neural artificial que permite avaliação de comportamento de fenômenos por meio da estimação de cadeias de Markov e entropia de Shannon; ii) uma abordagem para adaptar parâmetros de algoritmos de agrupamento tradicional de acordo com variações comportamentais em blocos sequenciais de dados; e iii) uma abordagem para adaptar parâmetros de agrupamento de acordo com a contínua avaliação da estabilidade de dados. Adicionalmente, apresenta-se nesta tese uma taxonomia de técnicas de detecção de variação comportamental de fenômenos e uma formalização para o problema de agrupamento de fluxos de dados / Several research fields have described phenomena that produce endless sequences of samples, referred to as data streams. These phenomena usually present behavior variation and are studied by means of unsupervised induction based on data clustering. In order to cope with the characteristics of data streams, researchers have designed clustering algorithms with low time and space complexity requirements. However, predefined and static parameters (thresholds, number of clusters and learning rates) found in current algorithms still limit the application of clustering to data streams. This limitation motivated this thesis, which proposes a continuous approach to evaluate behavior variations and adapt algorithm inductive bias by changing its parameters. The main contribution of this thesis is the proposal of three approaches to adapt induction bias: i) an approach based on the design of an adaptive artificial self-organizing neural network architecture that enables behavior evaluation by means of Markov chain and Shannon entropy estimations; ii) an approach to adapt traditional data clustering algorithms according to behavior variations in sequences of data chunks; and iii) an approach based on the proposed neural network architecture to continuously adapt parameters by means of the evaluation of data stability. Additionally, in order to analyze the essential characteristics of data streams, this thesis presents a formalization for the problem of data stream clustering and a taxonomy on approaches to detect behavior variations
118

Agrupamento de fornos de redução de alumínio utilizando os algoritmos Affinity Propagation, Mapa auto–organizável de Kohonen (som), Fuzzy C–Means e K–Means

LIMA, Flávia Ayana Nascimento de 11 October 2017 (has links)
Submitted by Marina Farias (mgmf@ufpa.br) on 2018-02-21T13:19:33Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_AgrupamentoFornosReducao.pdf: 6297988 bytes, checksum: 9e3c95180dbdfbdbc60f142c239aeb87 (MD5) / Approved for entry into archive by Marina Farias (mgmf@ufpa.br) on 2018-02-21T13:23:06Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_AgrupamentoFornosReducao.pdf: 6297988 bytes, checksum: 9e3c95180dbdfbdbc60f142c239aeb87 (MD5) / Made available in DSpace on 2018-02-21T13:23:06Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_AgrupamentoFornosReducao.pdf: 6297988 bytes, checksum: 9e3c95180dbdfbdbc60f142c239aeb87 (MD5) Previous issue date: 2017-10-11 / O constante avanço da tecnologia requer medidas que beneficiem as indústrias em busca do lucro e da competitividade. Em relação à indústria de minerais, o processo de fundição de alumínio geralmente possui grande número de células, também chamado de forno ou cuba de redução, produzindo alumínio em um procedimento contínuo e complexo. Um monitoramento analítico é essencial para aumentar a vantagem competitiva dessa indústria, por exemplo, durante a operação, algumas células compartilham comportamentos semelhantes às outras, formando grupos ou clusters de células. Esses clusters dependem de padrões de dados geralmente implícitos ou invisíveis para a operação, mas que podem ser encontrados por meio da análise de dados. Neste trabalho, são apresentadas quatro técnicas de agrupamento, o Affinity Propagation, o mapa auto–organizável de Kohonen (SOM), o algoritmo difuso Fuzzy C–Means (FCM) e o K–Means. Essas técnicas são utilizadas para encontrar e agrupar as células que apresentam comportamentos semelhantes, de acordo com sete variáveis tais como as que consiste no processo de redução do alumínio. Este trabalho visa trazer o benefício do agrupamento, principalmente pela simplificação da análise da linha de produção do alumínio, uma vez que um grande número de células pode se resumir em um único grupo, o que pode fornecer informações mais compactas para o controle e a modelagem dos dados. Este benefício de identificar os dados que possuem características semelhantes e agrupá–los faz com que a análise dos grupos se torne mais simples para quem irá manusear esses dados futuramente. Nesse trabalho de dissertação também será feito a identificação da quantidade ideal de grupo em cada técnica utilizada. / The continuous development of technology accounts for measures that provide industries benefits to grant them profitability and competitive advantage. In the mineralogy field, aluminum smelting usually requires substantial number of cells, also known as reduction pots, to produce aluminum in a continuous and complex process. Analytical monitoring is essential for those industries’ competitive advantage, given that during operation some cells show behavior similar to others, thereby forming clusters of cells. These clusters depend on data patterns usually implicit or invisible for the operation, but can be found by data analysis techniques. In this work four clustering techniques are presented to that end: the Affinity Propagation; the Kohonen Self Organizing Map; the Fuzzy C–Means; and the K–Means Algorithm. These techniques are used to find and group cells that share similar behavior, by analysing seven variables which are closely related to the aluminum reduction process. This work aims at addressing the benefits of clustering, especially by simplifying the aluminum potline analysis, once a large group of cells might be summarized in one sole group, what can provide more compact yet rich information for data driven modeling and control. Moreover, the identification of similar data patterns in clusters makes the task of those who is going to be in charge of analyzing these dats. This work also identifies the ideal cluster size for each technique applied.
119

Pre-processing approaches for collaborative filtering based on hierarchical clustering / Abordagens de pré-processamento para filtragem colaborativa baseada em agrupamento hierárquico

Fernando Soares de Aguiar Neto 19 October 2018 (has links)
Recommender Systems (RS) support users to find relevant content, such as movies, books, songs, and other products based on their preferences. Such preferences are gathered by analyzing past users interactions, however, data collected for this purpose are typically prone to sparsity and high dimensionality. Clustering-based techniques have been proposed to handle these problems effectively and efficiently by segmenting the data into a number of similar groups based on predefined characteristics. Although these techniques have gained increasing attention in the recommender systems community, they are usually bound to a particular recommender system and/or require critical parameters, such as the number of clusters. In this work, we present three variants of a general-purpose method to optimally extract users groups from a hierarchical clustering algorithm specifically targeting RS problems. The proposed extraction methods do not require critical parameters and can be applied prior to any recommendation system. Our experiments have shown promising recommendation results in the context of nine well-known public datasets from different domains. / Sistemas de Recomendação auxiliam usuários a encontrar conteúdo relevante, como filmes, livros, músicas entre outros produtos baseando-se em suas preferências. Tais preferências são obtidas ao analisar interações passadas dos usuários, no entanto, dados coletados com esse propósito tendem a tipicamente possuir alta dimensionalidade e esparsidade. Técnicas baseadas em agrupamento de dados têm sido propostas para lidar com esses problemas de foma eficiente e eficaz ao dividir os dados em grupos similares baseando-se em características pré-definidas. Ainda que essas técnicas tenham recebido atenção crescente na comunidade de sistemas de recomendação, tais técnicas são usualmente atreladas a um algoritmo de recomendação específico e/ou requerem parâmetros críticos, como número de grupos. Neste trabalho, apresentamos três variantes de um método de propósitvo geral de extração ótima de grupos em uma hierarquia, atacando especificamente problemas em Sistemas de Recomendação. Os métodos de extração propostos não requerem parâmetros críticos e podem ser aplicados antes de qualquer sistema de recomendação. Os experimentos mostraram resultados promissores no contexto de nove bases de dados públicas conhecidas em diferentes domínios.
120

Uso de informações lingüísticas na etapa de pré - processamento em mineração de textos

Silva, Cassiana Fagundes da 27 February 2004 (has links)
Made available in DSpace on 2015-03-05T13:53:43Z (GMT). No. of bitstreams: 0 Previous issue date: 27 / Nenhuma / Este trabalho apresenta estudos, com realização de experimentos e análise de resultados, da aplicação de informações lingüísticas na etapa de pré-processamento no processo de Mineração de Textos para as tarefas de Categorização e Agrupamento de Documentos. Usualmente, o pré-processamento utilizado no processo de Mineração de Textos para estas tarefas consiste na remoção de termos irrelevantes (tais como, preposição, artigos, pronomes, entre outros), normalização morfológica e seleção dos termos (ao que denominamos baseado em métodos usuais). Propõe-se, ao longo deste trabalho, um pré-processamento que faz o uso de informações lingüísticas, ou seja, um préprocessamento baseado em combinações gramaticais, visando avaliar a repercussão do uso dessas informações nos resultados de tarefas de Mineração de Textos. Foram realizados diversos experimentos para a validação da abordagem proposta junto à língua portuguesa. O corpus utilizado nos experimentos consiste de um extrato do corpus NILC (Núcleo Inter

Page generated in 0.0767 seconds