211 |
Escolha de descritores mínimos e estabelecimento de coleções nucleares em Capsicum spp. / Choice of minimum descriptors and establishment of Capsicum spp. core collectionsSILVA, Waldir Camargos Júnior e 05 March 2008 (has links)
Made available in DSpace on 2014-07-29T14:52:04Z (GMT). No. of bitstreams: 1
WALDIR CAMARGOS JuNIOR.pdf: 2631108 bytes, checksum: c08dda26b9fe6ea085335d05b2827a16 (MD5)
Previous issue date: 2008-03-05 / The plant genetic diversity is a valuable guarantee for possible adversities that
can be risking the survival of biological species. Brazil is one of the richest countries in
biodiversity of plants, with about 20% of all the existing biodiversity on Earth and around
19% of the agricultural lands in the world. Genetic resources are studied in well-defined
stages, such as collecting or introduction, multiplication, preservation/conservation,
evaluation/characterization and use. In Brazil, the Empresa Brasileira de Pesquisa
Agropecuária manages a national system of curatorship of genetic resources in which more
than 250 thousand samples of plants, animals and microorganisms are preserved. The
plants of the genus Capsicum (chilli and sweet peppers) are found throughout the national
territory, presenting countless kinds, with a great phenotypic and genotypic diversity.
Practically all the brazilian states have their own cultivars, but some of them, can be in
fact, considered a mere duplicate because, sometimes, the same cultivar is known under
different names. Thus, the morphological characterization is a task of great importance to
this plant genus so, it is possible to avoid the conservation and maintenance of accessions
of similar genomic patterns in germplasm banks. Embrapa Hortaliças has a collection of
germplasm of sweet and chilli peppers (Capsicum spp.), which amounts to about 2,500
accessions. These mainly belong to the species C. annuum, C. baccatum, C. chinense and
C. frutescens. The morphological characterization of most of these acessions (893) have
been carried out in recent years for a series of characters (descriptors) which allow the
investigation of the structure of their genetic variability and, from then the proposition of
strategies to handle the collection. Considering the need of studies aiming to know, value
and use the accessions of the Capsicum spp. Embrapa Hortaliças collection, this research
was developed with the objective of describing the accessions and the descriptors available
in this collection, in order to search for minimum descriptors and propose core collections
for this germplasm bank. The study demonstrated that it is possible to reduce around 50%
the number of descriptors currently used in the characterization of the accessions, without
significant harm to the representation of the genetic variability of the collection. The
factorial correspondence analysis showed to be appropriate for the selection of minimum
descriptors, as well as to the proposition of core collections from germplasm banks,
characterized, predominantly, by qualitative data. Variables related to the fruit showed
great variability in all the germplasm collection, demonstrating that these attributes are
important in the genetic discrimination among the accessions. The study also showed that
the geographical origin, regardless of the species, is directly associated with the genetic
divergence among the accessions in Capsicum spp. / A diversidade genética vegetal representa uma inestimável garantia às
possíveis adversidades que estejam colocando em risco a sobrevivência das espécies
biológicas. O Brasil é um dos países mais ricos em diversidade biológica de plantas,
possuindo cerca de 20% de toda a biodiversidade existente no planeta e cerca de 19% dos
solos agricultáveis do mundo. Os recursos genéticos são estudados em etapas bem
definidas, tais como, coleta ou introdução, multiplicação, preservação/conservação,
avaliação/caracterização e uso. No Brasil, a Empresa Brasileira de Pesquisa Agropecuária
gerencia um sistema nacional de curadoria de recursos genéticos, em que mais de 250 mil
amostras de plantas, animais e microrganismos são conservadas. As plantas do gênero
Capsicum (pimentas e pimentões) são encontradas em todo território nacional,
apresentando uma infinidade de formas, com grande diversidade fenotípica e genotípica.
Praticamente todos os estados brasileiros possuem cultivares próprias, porém, muito
provavelmente, parte do que se conhece pode tratar-se de mera duplicata, visto ocorrerem
diversas cultivares iguais com nomes diferentes. Dessa forma, a caracterização
morfológica constitui uma tarefa de grande importância para esse gênero vegetal, para
evitar a conservação e manutenção de acessos de formas genômicas semelhantes em
bancos de germoplasma. A Embrapa Hortaliças possui uma coleção de germoplasma de
pimentas e pimentões (Capsicum spp.) que conta, atualmente, com cerca de dois mil e
quinhentos acessos. Estes pertencem principalmente às espécies C. annuum, C. baccatum,
C. chinense e C. frutescens. A caracterização morfológica de grande parte desses acessos
(893 acessos) tem sido feita ao longo dos últimos anos, para uma série de caracteres
(descritores) que permitem investigar a estrutura de sua variabilidade genética e, a partir
daí, propor estratégias de manejo da coleção. Considerando-se a necessidade de estudos
visando conhecer, valorizar e utilizar os acessos da coleção de Capsicum spp. da Embrapa
Hortaliças, desenvolveu-se este trabalho com o objetivo de descrever os acessos e os
descritores disponíveis nessa coleção, de forma a buscar descritores mínimos e propor
coleções nucleares para o banco de germoplasma. O estudo demonstrou que é possível
reduzir, em cerca de 50%, o número de descritores atualmente utilizados na caracterização
dos acessos, sem prejuízo significativo à representação da variabilidade genética da
coleção. A análise fatorial de correspondência demonstrou ser apropriada para a seleção de
descritores mínimos, bem como para a proposição de coleções nucleares a partir de bancos
de germoplasma que se encontram caracterizados, predominantemente, com dados de
natureza qualitativa. As variáveis relacionadas ao fruto apresentaram grande variabilidade
em toda a coleção de germoplasma, demonstrando-se que esses atributos são importantes
na discriminação genética entre os acessos. O estudo revelou, também, que a origem
geográfica, independentemente da espécie, tem associação direta com a divergência
genética entre os acessos em Capsicum spp.
|
212 |
[en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION / [pt] UM FRAMEWORK BASEADO EM MODELO PARA CLUSTERIZAÇÃO SEMISSUPERVISIONADA E DETECÇÃO DE COMUNIDADESDANIEL LEMES GRIBEL 09 September 2021 (has links)
[pt] Em clusterização baseada em modelos, o objetivo é separar amostras de
dados em grupos significativos, otimizando a aderência dos dados observados a
um modelo matemático. A recente adoção de clusterização baseada em modelos
tem permitido a profissionais e usuários mapearem padrões complexos nos
dados e explorarem uma ampla variedade de aplicações. Esta tese investiga
abordagens orientadas a modelos para detecção de comunidades e para o estudo
de clusterização semissupervisionada, adotando uma perspectiva baseada em
máxima verossimilhança. Focamos primeiramente na exploração de técnicas
de otimização com restrições para apresentar um novo modelo de detecção de
comunidades por meio de modelos de blocos estocásticos (SBMs). Mostramos
que a formulação com restrições revela comunidades estruturalmente diferentes
daquelas obtidas com modelos clássicos. Em seguida, estudamos um cenário
onde anotações imprecisas são fornecidas na forma de relações must-link e
cannot-link, e propomos um modelo de clusterização semissupervisionado.
Nossa análise experimental mostra que a incorporação de supervisão parcial
e de conhecimento prévio melhoram significativamente os agrupamentos. Por
fim, examinamos o problema de clusterização semissupervisionada na presença
de rótulos de classe não confiáveis. Investigamos o caso em que grupos de
anotadores deliberadamente classificam incorretamente as amostras de dados
e propomos um modelo para lidar com tais anotações incorretas. / [en] In model-based clustering, we aim to separate data samples into meaningful
groups by optimizing the fit of some observed data to a mathematical model.
The recent adoption of model-based clustering has allowed practitioners to
model complex patterns in data and explore a wide range of applications. This thesis investigates model-driven approaches for community detection and semisupervised clustering by adopting a maximum-likelihood perspective. We first focus on exploiting constrained optimization techniques to present a new model for community detection with stochastic block models (SBMs). We show that the proposed constrained formulation reveals communities structurally different from those obtained with classical community detection models. We then study a setting where inaccurate annotations are provided as must-link and cannot-link relations, and propose a novel semi-supervised clustering model.
Our experimental analysis shows that incorporating partial supervision and
appropriately encoding prior user knowledge significantly enhance clustering performance. Finally, we examine the problem of semi-supervised clustering in the presence of unreliable class labels. We focus on the case where groups of untrustworthy annotators deliberately misclassify data samples and propose a model to handle such incorrect statements.
|
213 |
Construção do livro de ofertas a partir de dados de alta frequência e um algoritmo de predição de valores baseado em técnicas de agrupamento e regressão linear / Offerbook construction from high frequency data and an algorithm for predicting values based on clustering techniques and linear regression.Moreira, Rodrigo Bossini Tavares 24 June 2013 (has links)
A negociação algorítmica oferece algoritmos que tomam decisões de compra e/ou venda com base em parâmetros pré-determinados, oscilações de preços no mercado, dados históricos etc. Uma vantagem oferecida por ela é a possibilidade de atuação rápida no mercado, possivelmente aproveitando as melhores ofertas disponíveis. A Bovespa disponibiliza dados referentes à troca de mensagens entre as partes que constituem o mercado nanceiro. A partir dessas mensagens, geralmente é possível fazer a construção do livro de ofertas, que contém informações referentes às ofertas de compra e venda disponíveis em dado instante e também sobre negociações que foram concretizadas. Esses dados são disponibilizados em diferentes formatos. Os dados de futuros utilizados neste trabalho, por exemplo, seguem o formato padrão do protocolo FIX, que dene cada mensagem como uma coleção de pares de chave/valor. Um outro formato de dados próprio da Bovespa é utilizado para a disponibilização de dados de ações. Neste trabalho faz-se a construção do livro de ofertas a partir dos dados de futuros, com a proposta de uma estrutura de dados eciente para a manipulação de mensagens no formato do protocolo FIX. Também discute-se sobre a possibilidade de construção do livro de ofertas a partir dos dados de ações. Finalmente, um algoritmo de predição de valores baseado em técnicas de mineração de dados como agrupamento é proposto e analisado quanto à sua aplicabilidade. / Algorithmic trading offers algorithms that make buy/sell decisions based on predetermined parameters, market price fluctuations, historical data and so on. One advantage it offers is the possibility of quickly operating on the market, possibly taking advantage of the best buy/sell offers currently available. Bovespa provides data regarding message exchange between the constituent parts of the financial market. From these messages, it is usually possible to extract the offerbook, which contains information regarding buy/sell offers available at a given moment in time. This data is provided in different formats. The future data used in this work, for example, is according to the Fix protocol format, which defines each message as a collection of key/value pairs. Another data format proprietary from Bovespa is used to provide stock data. In this work the construction of the offerbook is made from the future data and the proposal of an efficient data structure for dealing with messages in Fix format is made. It is also discussed the possibility of constructing the offerbook from the stock data. Finally, a predicting values algorithm based on data mining techniques such as clustering is proposed and its applicability is analysed.
|
214 |
Um framework para agrupar funções com base no comportamento da comunicação de dados em plataformas multiprocessadas / A framework for clustering functions based on the behavior of data communication on multiprocessed platformsSantos, Rafael Ribeiro dos 12 June 2018 (has links)
O aumento da demanda por sistemas computacionais mais eficientes para obter alto desempenho impôs novos desafios à comunidade de pesquisa, que precisou buscar por novas plataformas heterogêneas para grandes aplicações. Para utilizar todo o potencial dessas plataformas, podese agrupar a aplicação em grupos menores de modo que cada grupo seja executado em uma unidade de processamento específica, para reduzir o gargalo de comunicação, de acordo com o comportamento de comunicação durante a execução da aplicação. Com o propósito de oferecer um agrupamento mais eficiente, este projeto propõe a análise de agrupamento de uma aplicação levando em consideração não só o volume total de dados, mas também a distribuição desse volume durante o tempo de execução associado à restrição da banda e da taxa de transmissão. Embora alguns trabalhos considerem o volume total de dados para o agrupamento, não é evidenciado como esse volume é distribuído e como a restrição de banda afeta o agrupamento. Assim, neste projeto foi implementado um framework para sugerir um agrupamento considerando a distribuição do volume de comunicação e restrições de banda. Além disso, foi desenvolvido um módulo de extensão para a ferramenta externa MCProf (Memory and Communication Profiler) com o objetivo de obter a distribuição do volume de comunicação. A validação do framework foi realizada por meios de testes de agrupamentos de aplicações nos quais foram comparados o tempo de comunicação do agrupamento gerado pela execução do framework em relação aos resultado dos agrupamentos considerando os trabalhos da literatura. O uso desta abordagem apresentou um aumento no desempenho que variou de 1,117X a 2,621X para as aplicações usadas nos experimentos. / The increased demand for more efficient computing systems to achieve high performance proposed new challenges to the research community, which needed to search for new heterogeneous platforms for large applications. To utilize the full potential of these platforms, the application can be grouped into small groups that runs on a specific processing unit to reduce the communication bottleneck according to the communication behavior during application execution . With the purpose of offering a more efficient clustering, this project proposes the analysis of clustering of an application taking into account not only the total volume of data, but also the distribution of that volume during the execution time associated to the band and restriction of rate transmission. Although some studies consider the total volume of data for the cluster, it is not clear how this volume is distributed and how the band constraint affects clustering. Thus, in this project was implemented a framework to suggest a cluster considering the distribution of the volume of communication and band restrictions. In addition, an extension module was developed for the external tool MCProf (Memory and Communication Profiler) in order to obtain the distribution of the communication. The validation of the framework was performed by clsutering tests which used applications in which the communication time of the cluster generated by the execution of framework was compared to the results of the clusters considering the literature. The use of this approach showed an increase in performance ranging from 1.117X to 2.621X for the applications used in the experiments.
|
215 |
Agrupamento de dados complexos para apoiar consultas por similaridade com tratamento de restrições / Clustering complex data for processing constrained similarity queriesSouza, Jessica Andressa de 21 November 2018 (has links)
Devido aos avanços tecnológicos ocorridos nos últimos anos, houve um aumento na quantidade e complexidade de dados gerados. Assim, aprofundou-se a necessidade do desenvolvimento de estratégias eficientes que permitam o armazenamento, a recuperação e a representação resumida desses tipos de dados complexos. Dentre as estratégias exploradas pelos pesquisadores da área para atender a esses propósitos estão os Métodos de Acesso. Esses métodos têm como objetivo indexar os dados de maneira eficaz para reduzir o tempo de consulta. Além disso, eles têm sido aplicados para apoiar o processamento de técnicas de Mineração de Dados, como a Detecção de Agrupamentos. Dentre os métodos de acesso, as estruturas de indexação métrica são construídas usando apenas o critério baseado na distância entre os elementos do conjunto de dados em questão, i.e. operações de similaridade sobre as características intrínsecas dos dados. Desse modo, nem sempre os resultados correspondem ao contexto desejado pelo usuário. Este trabalho explorou o desenvolvimento de algoritmos que permitam aos métodos de acesso métrico processarem detecção de agrupamento de dados para auxiliar o processamento de consultas com maior carga semântica; visando contribuir no tratamento da questão da eficiência de abordagens que envolvam operações por similaridade (por exemplo, técnicas de mineração de dados e consultas por similaridade). Diante deste contexto, foram desenvolvidas três abordagens, a primeira apresenta o método clusMAM (Unsupervised Clustering using Metric Access Methods), o qual tem como objetivo apresentar um agrupamento dos dados com a aplicação de um Método de Acesso Métrico a partir de um conjunto resumido dos dados. A segunda abordagem apresenta a abordagem CCkNN (Class-Constraint k-NN) para lidar com o problema de restrições de múltiplas classes sobre o espaço de busca. Por fim, a terceira abordagem apresenta o método CfQ (Clustering for Querying) realizando a integração das técnicas clusMAM com CCkNN, empregando os pontos positivos de cada estratégia adotada pelos algoritmos. No geral, os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva na redução de medidas de similaridade requiridas durante um processamento de técnicas que são baseadas em computações de distância. / Due to the technological advances over the last years, both the amount and variety of data available have been increased at a fast pace. Thus, this scenario has influenced the development of effective strategies for the processing, summarizing, as well as to provide fast and automatic understanding of such data. The Access Methods are strategies that have been explored by researchers in the area to aid these purposes. These methods aim to effectively index data to reduce the time required for processing similarity querying. In addition, they have been applied to aid the processing of Data Mining techniques, such as Clustering Detection. Among the access methods, the metric structures are constructed applying only the criterion based on the distance computation between the elements of the dataset, i.e. similarity operations on the intrinsic characteristics of the dataset. Thus, the results do not always correspond to the context desired by users. This work explored the development of algorithms that allow metric access methods to process queries with a higher semantic load, aimed at contributing to the treatment of the quality question on the results of approaches that involve similarity operation (for example, data mining techniques and similarity queries). In this context, three approaches have been developed: the first approach presents the method clusMAM (Unsupervised Clustering using Metric Access Methods), which aims to display a clustering from a dataset with the application of a Metric Access Method from a summarized set. The second approach presents the CCkNN approach to dealing with the problem of multi-class constraints on the search space. Finally, the third proposal presents the method CfQ (Clustering for Querying) by integrating the techniques clusMAM with CCkNN, using the positive points of each strategy applied by the algorithms. In general, the experiments carried out showed that the proposed methods can contribute to an effective way of reducing similarity computations, which is required during a processing of techniques that are based on distance computations.
|
216 |
Seleção de características apoiada por mineração visual de dados / Feature selection supported by visual data miningBotelho, Glenda Michele 17 February 2011 (has links)
Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características, configurando um processo de seleção. A qualidade dos subconjuntos de características selecionados é avaliada comparando-se as projeções obtidas para estes subconjuntos com a projeção obtida com conjunto original de dados. Isto é feito quantitativamente, por meio da medida de silhueta, e qualitativamente, pela observação visual da projeção. Além da seleção apoiada por projeção, este trabalho propõe um aprimoramento no seletor de características baseado no cálculo de saliências de uma rede neural Multilayer Perceptron. Esta alteração, que visa selecionar características mais discriminantes e reduzir a quantidade de cálculos para se obter as saliências, utiliza informações provenientes dos agrupamentos de características, de forma a alterar a topologia da rede neural em que se baseia o seletor. Os resultados mostraram que a seleção de características baseada em projeção obtém subconjuntos capazes de gerar novas projeções com qualidade visual satisfatória. Em relação ao seletor por saliência proposto, este também gera subconjuntos responsáveis por altas taxas de classificação de imagens e por novas projeções com bons valores de silhueta / Due to the ever growing amount of digital images and, consequently, the quantity and complexity of your features, there has been a need to select the most relevant features so that not only problems caused by high dimensional data sets, correlated features can be minimized, and also the efficiency of the tasks that may employ such features can be enhanced. Many feature selection methods are based on statistical analysis or neural network approaches. This work proposes the addition of visual data mining techniques, particularly multidimensional data projection approaches, to aid the feature selection process. Multidimensional data projection seeks to map a m-dimensional data space onto a p-dimensional space, so that p < m, usually 2 or 3, while preserving distance relationship among data instances. Traditionally, each image is represented by a point, and points projected close to each other indicate clusters of images which share a common properties. However, this work proposes the projection of features. Hence, if we select only a few samples of each cluster of features from the projection, we will end up with a subset of features, revealing a feature selection process. The quality of the feature subset may be assessed by comparing such projections with those obtained with the original data set. This can be achieved either quantitatively, by means of silhouette measures, or qualitatively, by means of visual inspection of the projection. As well as the projection based feature selection, this work proposes an enhancement in the Multilayer Perceptron salience based feature selector. This enhancement, whose aim is to perfect the selection of more discriminant features at the expenses of less computing power, employs information from feature clusters, so as to change the topology of the neural network on which the selector is based. Results have shown that projection-based feature selection produces subsets capable of generating new data projections of satisfactory visual quality. As for the proposed salience-based selector, new subsets with high image classification rates and good silhouette measures have been reported
|
217 |
Propagação de secas na bacia do Rio Paraná: do evento climático ao impacto hidrológico / Drougth propagation in the Paraná river basin: from the climatic event to the hydrologic impactMelo, Davi de Carvalho Diniz 26 April 2017 (has links)
Desastres naturais (secas, enchentes, etc) têm resultado em perdas humanas e grandes prejuízos financeiros em diversos lugares do mundo. Os recentes períodos de seca ocorridos na região sudeste do Brasil mostraram a importância de se dispor de estratégias de mitigação dos efeitos decorrentes desses eventos extremos. Um pré-requisito para prever impactos desses eventos no futuro, é compreender como os mesmos ocorreram no passado, caracterizando-os espacial e temporalmente. Diante do exposto, o objetivo deste trabalho é quantificar os impactos regionais no sistema hidrológico causados por eventos extremos e identificar conexões entre as secas meteorológicas e hidrológicas, usando a bacia do rio Paraná como estudo de caso. Para tanto, foram identificados e caracterizados os principais eventos de seca ocorridos entre 1995 e 2015, analisaram-se as perdas de água nos componentes do balanço hídrico e no armazenamento total de água. Foram utilizados dados de sensoriamento remoto, incluindo medições da missão GRACE de anomalias no armazenamento total de água terrestre (TWSA), e estimativas de precipitação e evapotranspiração pelos satélites TRMM e MODIS, respectivamente. Simulações de modelos globais de assimilação de dados de superfície terrestre forneceram estimativas de escoamento superficial e umidade do solo. Foram coletados dados de 37 reservatórios para quantificar as perdas de água no armazenamento em terra. Os resultados mostram que o TWSA diminuiu 150 ± 50 km3 entre 2011 e 2015 na bacia do rio Paraná, o armazenamento dos reservatórios diminuiu 30% em relação à capacidade máxima do sistema com taxas de -17 a -25 km3 ano-1 durante as secas. Foram identificados seis grupos de reservatórios cujas respostas são variáveis de acordo com tipo de forçante (natural ou antropogênica) de maior controle. A análise dos tempos de resposta do sistema hidrológico sugere um tempo de até aproximadamente 6 meses para que medidas de combate às secas sejam tomadas. Este estudo ressalta as vantagens do uso combinado de dados de diferentes fontes em estudos regionais. / Natural disasters have caused major economics and human losses globally. Recent droughts over Southeast Brazil underscored the importance of having mitigation strategies to fight the effects from extreme events and a prerequisite to anticipate the impacts from future events is an understanding of past droughts by means of spatial and temporal characterization. The objective of this study is to quantify regional impacts of extreme events on the hydrological system and identify linkages between meteorological and hydrological droughts. To this end, major droughts events between 1995 and 2015 were identified and characterized. Depletion in total water storage (TWS) and main components of the water budget were analyzed. Simulated soil moisture and runoff from land surface models and remote sensing data were used, including measurements of TWS anomalies (TWSA) data from GRACE mission, rainfall and evapotranspiration estimates from TRMM and MODIS satellites, respectively. To quantify reservoir storage depletion, data from 37 reservoirs were collected. Results show that TWSA declined by 150 ± 50 km3 between 2011 and 2015 in the Paraná basin; and reservoir storage decreased 30% relative to the system\'s maximum capacity, with negative trends ranging from -17 to -25 km3 yr-1 during the droughts. Six groups of reservoirs were identified whose response vary according to the main forcing type: human and/or natural controls. Analysis of the system\'s time lag responses indicated a 6 month window during which actions could be taken to combat the drought impacts. This study emphasizes the importance of integrating remote sensing, modelling and monitoring data to evaluate droughts and develop a comprehensive understanding of the linkages between meteorological and hydrological droughts for future management.
|
218 |
Fatoração de matrizes no problema de coagrupamento com sobreposição de colunas / Matrix factorization for overlapping columns coclusteringBrunialti, Lucas Fernandes 31 August 2016 (has links)
Coagrupamento é uma estratégia para análise de dados capaz de encontrar grupos de dados, então denominados cogrupos, que são formados considerando subconjuntos diferentes das características descritivas dos dados. Contextos de aplicação caracterizados por apresentar subjetividade, como mineração de texto, são candidatos a serem submetidos à estratégia de coagrupamento; a flexibilidade em associar textos de acordo com características parciais representa um tratamento adequado a tal subjetividade. Um método para implementação de coagrupamento capaz de lidar com esse tipo de dados é a fatoração de matrizes. Nesta dissertação de mestrado são propostas duas estratégias para coagrupamento baseadas em fatoração de matrizes não-negativas, capazes de encontrar cogrupos organizados com sobreposição de colunas em uma matriz de valores reais positivos. As estratégias são apresentadas em termos de suas definições formais e seus algoritmos para implementação. Resultados experimentais quantitativos e qualitativos são fornecidos a partir de problemas baseados em conjuntos de dados sintéticos e em conjuntos de dados reais, sendo esses últimos contextualizados na área de mineração de texto. Os resultados são analisados em termos de quantização do espaço e capacidade de reconstrução, capacidade de agrupamento utilizando as métricas índice de Rand e informação mútua normalizada e geração de informação (interpretabilidade dos modelos). Os resultados confirmam a hipótese de que as estratégias propostas são capazes de descobrir cogrupos com sobreposição de forma natural, e que tal organização de cogrupos fornece informação detalhada, e portanto de valor diferenciado, para as áreas de análise de agrupamento e mineração de texto / Coclustering is a data analysis strategy which is able to discover data clusters, known as coclusters. This technique allows data to be clustered based on different subsets defined by data descriptive features. Application contexts characterized by subjectivity, such as text mining, are candidates for applying coclustering strategy due to the flexibility to associate documents according to partial features. The coclustering method can be implemented by means of matrix factorization, which is suitable to handle this type of data. In this thesis two strategies are proposed in non-negative matrix factorization for coclustering. These strategies are able to find column overlapping coclusters in a given dataset of positive data and are presented in terms of their formal definitions as well as their algorithms\' implementation. Quantitative and qualitative experimental results are presented through applying synthetic datasets and real datasets contextualized in text mining. This is accomplished by analyzing them in terms of space quantization, clustering capabilities and generated information (interpretability of models). The well known external metrics Rand index and normalized mutual information are used to achieve the analysis of clustering capabilities. Results confirm the hypothesis that the proposed strategies are able to discover overlapping coclusters naturally. Moreover, these coclusters produced by the new algorithms provide detailed information and are thus valuable for future research in cluster analysis and text mining
|
219 |
Ensemble de agrupamentos para sistemas de recomendação baseados em conteúdo / Cluster ensemble to content-based recommender systemsCosta, Fernando Henrique da Silva 05 November 2018 (has links)
O crescimento acelerado da internet proporcionou uma quantidade grande de informações acessíveis aos usuários. Ainda que tal quantidade possua algumas vantagens, os usuários que possuem pouca ou nenhuma experiência para escolher uma alternativa dentre as várias apresentadas terão dificuldades em encontrar informações (ou itens, considerando o escopo deste trabalho) úteis e que atendam às suas necessidades. Devido a esse contexto, os sistemas de recomendação foram desenvolvidos para auxiliar os usuários a encontrar itens relevantes e personalizados. Tais sistemas são divididos em diversas arquiteturas. Como exemplo estão as arquiteturas baseadas em: conteúdo, filtro colaborativo e conhecimento. Para este trabalho, a primeira arquitetura foi explorada. A arquitetura baseada em conteúdo recomenda itens ao usuário com base na similaridade desses aos itens que o usuário mostrou interesse no passado. Por consequência, essa arquitetura possui a limitação de, geralmente, realizar recomendações com baixa serendipidade, uma vez que os itens recomendados tendem a ser semelhantes àqueles observados pelo o usuário e, portanto, não apresentam novidade ou surpresa. Diante desta limitação, o aspecto de serendipidade tem destaque nas discussões apresentadas neste trabalho. Assim, o objetivo deste trabalho é minimizar o problema da baixa serendipidade das recomendações por meio da utilização da análise de similaridades parciais implementada usando ensemble de agrupamentos. Para alcançar este objetivo, estratégias de recomendação baseadas em conteúdo implementadas usando agrupamento e ensemble de agrupamento foram propostas e avaliadas neste trabalho. A avaliação contou com análises qualitativas sobre as recomendações produzidas e com um estudo com usuários. Nesse estudo, quatro estratégias de recomendação de notícias foram avaliadas, incluindo as duas propostas neste trabalhos, uma estratégia baseada em recomendação aleatória, e uma estratégia baseada em coagrupamento. As avaliações consideraram aspectos de relevância, surpresa e serendipidade de recomendações. Esse último aspecto é descrito como itens que apresentam tanto surpresa quanto relevância ao usuário. Os resultados de ambas análises mostraram a viabilidade da utilização de agrupamento como base de recomendação, uma vez que o ensemble de agrupamentos obteve resultados satisfatórios em todos os aspectos, principalmente em surpresa, enquanto a estratégia baseada em agrupamento simples obteve os melhores resultados em relevância e serendipidade / The accelerated growth of the internet has provided a large amount of information accessible to users. Although this amount of information has some advantages, users who have little or no experience in choosing one of several alternatives will find it difficulty to find useful information (or items, considering the scope of this work) that meets their needs. Due to this context, recommender systems have been developed to help users find relevant and personalized items. Such systems are divided into several architectures as content-based, collaborative filtering and knowledge-based. The first architecture was explored in this work. The content-based architecture recommends items to the user based on their similarity to items that the user has shown interest in the past. Consequently, this architecture has the limitation of generally making recommendations with low serendipity, since the recommended items tend to be similar to those observed by the user and, therefore, do not present novelty or surprise. Given this limitation, the aspect of serendipity is highlighted in the discussions presented in this work. Thus, the objective of this work is to minimize the problem of the low serendipity of the recommendations through the use of the partial similarity analysis implemented using cluster ensemble. To achieve this goal, content-based recommendation strategies implemented using clustering and cluster ensemble were proposed and evaluated. The evaluation involved qualitative analysis of the recommendations and a study with users. In such a study, four news recommendation strategies were evaluated including the two strategies proposed in this work, a strategy based on random recommendation, and a strategy based on co-clustering. The evaluations considered aspects of relevance, surprise and serendipity of recommendations. This last aspect is described as items that present both surprise and relevance to the user. The results of both analyzes showed the feasibility of using clustering as the basis of recommendation, since cluster ensemble had satisfactory results in all aspects, mainly in surprise, whereas the simple clustering-based strategy obtained the best results in relevance and serendipity
|
220 |
Procedimento para projeto de arranjo físico modular em manufatura através de algoritmo genético de agrupamento / Procedure to the design of modular facility layouts through clustering genetic algorithmArgoud, Ana Rita Tiradentes Terra 16 March 2007 (has links)
O objetivo desta tese foi desenvolver um procedimento para projeto de arranjo físico modular. O procedimento usa um algoritmo genético de agrupamento para gerar módulos de arranjo físico em manufatura. Um módulo é um grupo de máquinas com um fluxo característico. O algoritmo genético de agrupamento (AGA) permite ao usuário especificar a priori o número desejado de módulos (problema de K-agrupamentos), e também trabalhar de forma que o número e formação dos módulos seja uma otimização do problema (problema de agrupamento automático). Uma característica importante do AGA é sua flexibilidade, pois fornece possibilidade ao usuário de dirigir seu raciocínio através da escolha de diferentes codificações do cromossomo, de funções de aptidão para avaliar a qualidade da solução, de medidas de similaridade para comparação de seqüências de operações e de métodos de geração da nova população. Para tal foram desenvolvidos três operadores de cruzamento e quatro operadores de mutação. Os experimentos permitiram avaliar o comportamento do AGA com diferentes operadores e configurações de parâmetros, através do número de vezes em que a melhor solução foi encontrada. Os módulos de arranjo físico gerados pelo AGA e o arranjo físico final da fábrica foram comparados aqueles da principal referência encontrada na bibliografia em projeto de arranjo físico modular. No arranjo físico final da fábrica, elaborado a partir das soluções do AGA, houve importante redução da distância total percorrida pelo conjunto de peças, demonstrando a eficácia do algoritmo genético de agrupamento. Dessa forma, os resultados apontaram o algoritmo genético de agrupamento como uma alternativa à geração de módulos de arranjo físico em projeto de arranjo físico modular. / The objective of this thesis was the development of a procedure to the design of modular facility layouts. The procedure uses a clustering genetic algorithm to generate layout modules. A module is a group of machines with a specific patterned flow. The clustering genetic algorithm (CGA) allows the specification of the desired number of modules (K-grouping problem) and also the optimization of the number of modules (automatic clustering problem). The genetic algorithm is very flexible and the user can guide his reasoning. It supplies different options of chromosome encoding, generation of the initial population, fitness function to evaluate the solution quality, different similarity measures for comparison of operation sequences and methods for generation of the new population. Three crossover operators and four mutation operators have been developed. The experiments have allowed evaluating the behavior of the CGA with different operators and parameters configurations, through the number of times in which the best solution was found. The layout modules generated by the CGA and the block layout were compared with the main reference which was found in literature in the design of modular facility layouts. In the block layout elaborated from the solutions of the CGA there was an important reduction of the total distance traveled by the set of parts, demonstrating the effectiveness of the clustering genetic algorithm. The results indicated that the clustering genetic algorithm is an alternative for generation of layout modules in the design of modular facility layouts.
|
Page generated in 0.0868 seconds