Spelling suggestions: "subject:"agrupamento"" "subject:"grupamento""
91 |
[pt] TARIFAÇÃO ZONAL DO USO DA TRANSMISSÃO APLICADA A SISTEMAS ELÉTRICOS INTERLIGADOS / [en] ZONAL TARIFF FOR THE TRANSMISSION USAGE APPLIED TO INTERCONNECTED POWER SYSTEMSJÉSSICA FELIX MACEDO TALARICO 30 September 2021 (has links)
[pt] Os sistemas de transmissão cumprem uma função vital para o bom desempenho dos mercados de energia elétrica. A precificação do seu uso afeta diretamente a remuneração das empresas concessionárias e os custos dos participantes do mercado. No Brasil, os usuários do sistema interligado nacional (SIN) devem pagar pela disponibilização dos equipamentos que compõem a rede para as transmissoras detentoras destes ativos de forma proporcional ao seu uso. Assim, a agência reguladora brasileira (ANEEL) estabeleceu as tarifas de uso do sistema de transmissão (TUST), que são calculadas anualmente por barra via
metodologia nodal. Tais tarifas são compostas por duas parcelas: locacional e selo. A parcela locacional reflete o uso efetivo da rede por cada agente participante, medindo o impacto da injeção de potência marginal de uma barra nos equipamentos do sistema. A parcela selo consiste num valor constante que
garantirá a remuneração da porção não utilizada da rede. Em geral, a proximidade elétrica das barras do sistema implica valores tarifários similares. Esta Dissertação de Mestrado propõe uma nova metodologia a ser incorporada no cálculo da TUST, considerando a divisão do SIN em zonas tarifárias de transmissão (ZTT). Desta forma, cada ZTT apresentará uma única tarifa a ser aplicada aos seus participantes, que corresponderá à média ponderada das tarifas finais calculadas via metodologia nodal. Para a identificação das ZTT, são aplicadas técnicas de agrupamento k-Means e espectral nos sistemas IEEE-RTS e SIN. Nesta
dissertação, avalia-se também o uso de modelos matemáticos para definir o número ideal de ZTT a ser considerado. São realizadas diversas análises de sensibilidade relativas a mudanças de despacho, alterações de topologia e evolução do sistema ao longo dos anos. Os resultados correspondentes são então
extensivamente discutidos. / [en] Transmission systems play a vital role in the good performance of the electrical energy markets. The pricing of its use directly affects the budget of concessionary companies and the costs of market participants. In Brazil, users of the national interconnected system (NIS) must pay for the equipment availability
that makes up the network to the transmission companies that own these assets in proportion to their use. Thus, the Brazilian regulatory agency (ANEEL) established the tariffs for transmission system usage (TTSU), which are calculated annually by bus using the nodal methodology. Such tariffs are made up of two
installments: locational and postage stamp. The locational portion reflects the effective use of the grid by each participating agent, measuring the impact of the marginal power injection at a bus on the system equipment. The stamp portion consists of a constant amount that will guarantee the remuneration of the unused portion of the network. In general, the electrical proximity of the system buses leads
to similar tariff values. This dissertation proposes a new methodology to be incorporated into the TTSU calculation, considering the division of the NIS into transmission tariff zones (TTZ). In this way, each TTZ will present a single tariff to be applied to its participants, which will correspond to the weighted average of the final tariffs calculated via the nodal methodology. For the identification of the TTZ, k-Means and Spectral clustering techniques are applied to the IEEE-RTS and SIN systems. In this dissertation, the use of mathematical models is also assessed to define the ideal number of TTZ to be considered. Various sensitivity analyses are carried out regarding changes in dispatch, grid topology and expansion of the
system over the years. The corresponding results are deeply discussed.
|
92 |
Análise do desenvolvimento rural dos municípios do estado de São Paulo /Palácio, Vinicius January 2019 (has links)
Orientador: Wagner Luiz Lourenzani / Coorientador: Ferenc Istvan Bankuti / Coorientadora: Raquel Pereira de Souza / Resumo: O conceito de desenvolvimento rural vem ganhando novas formas de abordagem desde que o seu sentido ultrapassou a perspectiva estritamente econômica. A definição contemporânea engloba fatores que envolvem características ambientais, sociais e política-institucionais do meio analisado. Nesse sentido, a configuração de um índice de desenvolvimento rural, de caráter multifuncional e multidimensional, ganha novos elementos para sua construção, elevando a complexidade em busca da real caracterização do município, de seu estado ambiental e da qualidade de vida de seus habitantes. Para aplicação de tal índice, buscou-se um recorte geográfico significativo em termos rurais, sendo uma análise em nível estadual, com uma unidade de análise municipal. Para tanto foi escolhido o estado de São Paulo. O segundo maior estado em número de municípios no Brasil, é reconhecido por sua infraestrutura tecnológica nos grandes centros urbanos; no entanto, também possui um setor agropecuário de grande relevância e com características singulares. Conhecer o perfil rural sob uma ótica multidimensional é justificado para suprir de informações os tomadores de decisão do meio público e privado, bem como buscar compreender a real situação em termos municipais. Nesse sentido, o objetivo deste estudo consiste em avaliar o nível de desenvolvimento rural dos municípios do estado de São Paulo, por meio de um índice multidimensional. Para cumprir tal proposta foram realizados o processo de determinação dos fatore... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: The concept of rural development has been gaining new forms of approach since its meaning has gone beyond the strictly economic perspective. The contemporary definition encompasses factors that involve environmental, social, and political-institutional characteristics of the analyzed environment. In this sense, the configuration of a multifunctional and multidimensional rural development index gains new elements for its construction, raising the complexity in search of the real characterization of the municipality, its environmental state and the quality of life of its inhabitants. In order to apply such index, a significant geographic cut was sought in rural terms, being an analysis at the state level, with a unit of municipal analysis. For that, the state of São Paulo was chosen. The second largest number of municipalities in Brazil is recognized for its technological infrastructure in large urban centers; however, it also has an agricultural sector of great relevance and with unique characteristics. Knowing the rural profile from a multidimensional perspective is justified to supply information to decision makers in the public and private sectors, as well as to seek to understand the real situation in municipal terms. In this sense, the objective of this study is to evaluate the level of rural development of the municipalities of the state of São Paulo, through a multidimensional index. In order to comply with this proposal, the process of determining the rural development... (Complete abstract click electronic access below) / Mestre
|
93 |
Estratégias de condução de populações segregantes de soja portadoras do gene RR e seleção por meio de análises uni e multivariada /Silva, Fabiana Mota da. January 2015 (has links)
Orientador: Sandra Helena Unêda-Trevisoli / Banca: Ivana Marino Bárbaro / Banca: Rogério Farinelli / Banca: Rinaldo Cesar de Paula / Banca: Andréia da Silva Meyer / Resumo: A soja é considerada uma cultura de grande importância econômica, devido ao fato de ser a oleaginosa mais consumida no mundo. O crescimento da produção de soja no Brasil, se deve, principalmente, aos esforços dos programas de melhoramento genético de plantas. A eficiência na seleção dependerá, portanto, do ganho genético e dos métodos de melhoramento adotados para a condução das populações por ocasião da avaliação das famílias. De acordo com a conveniência do melhorista, algumas modificações podem ser efetuadas nos métodos tradicionais de condução das populações segregantes. Neste contexto, o método bulk com seleção em F3 é uma alternativa. Além disso, as técnicas univariadas e multivariadas de análises de dados podem acelerar o progresso do melhoramento genético da soja, devido à possibilidade de predição de ganhos e a aplicação de metodologias eficientes que auxiliam na seleção de genótipos promissores. Devido à escassez de estudos que comprovam a eficiência do método bulk com seleção em F3 em soja, objetivou-se com o presente trabalho avaliar a eficiência do método bulk com seleção em F3 em relação ao método tradicional bulk, para características de interesse agronômico no melhoramento genético da soja, visando comparar qual estratégia de condução é mais eficiente em termos de ganho genético, bem como selecionar as famílias superiores por meio de análises univariada e multivariada. Para a realização do trabalho foram utilizadas 20 populações segregantes, conduzidas por dois métodos, bulk com seleção em F3 (bulkF3) e bulk, as quais originaram as respectivas famílias nas gerações F3, F4 e F5. Foram selecionadas 60 melhores famílias de cada método, de acordo com a performance média agronômica. Foram avaliadas as seguintes características agronômicas: altura da inserção da primeira vagem (AIV), altura da planta na maturidade (APM), número de ramos (NR), número... / Abstract: Soybean crop is considered a culture of great economic importance, due to the fact that this crop is the most consumed oilseed in the world. The improvement in the Brazilian soybean production is mostly due to the effort of plant breeding programs. Therefore, the efficiency of selection will depend on the genetic gain and on the breeding methods adopted to conduct the populations on the occasion of progenies evaluation. According to the breeder convenience, some modifications may be made on the traditional methods for conducting the segregating populations. Within this context, the bulk method with selection on F3 is an alternative. Furthermore, the univariate and multivariate techniques of data analyses may improve the soybean breeding progress, due to the possibility to predict the genetic gain and to applicate efficient methodologies which may assist to select promising genotypes. Due to the few numbers of studies that show the efficiency of bulk method with selection in F3, the aim of this study was to evaluate the efficiency of bulk method with selection in F3 in comparison to the traditional bulk method, for traits of agronomic interest in soybean, seeking to compare which conducting strategy is more efficient in terms of genetic gain, as well to select superior families using univariate and multivariate analyses. For conducting the study, 20 segregating populations were used and conducted by two methods, bulk and bulk with selection in F3 (bulkF3), which originated its families in generations F3, F4 and F5.The 60 best families were selected within each method, according to their agronomic performance. The following traits were evaluated: height of the first hull (HFH), plant height at maturity (PHM), number of hulls per plant (NHP), number of branches per plant (NBP), hundred seeds weight (HSW) and grains yield (GY). The two methods were compared by the estimated genetic components, the predicted genetic gain and the predicted ... / Doutor
|
94 |
Uso de informação genômica para estimação de parâmetros genéticos para características de crescimento e carcaça em bovinos Nelore /Costa, Rebeka Magalhães da January 2019 (has links)
Orientador: Danísio Prado Munari / Coorientador: Tatiane Cristina Seleguim Chud / Banca: Lenira El Faro Zadra / Banca: Henrique Nunes de Oliveira / Resumo: A seleção tradicional para características quantitativas de importância econômica é realizada geralmente com base nos valores genéticos preditos a partir de registros fenotípicos de um indivíduo e de seus parentes. Com a disponibilidade da informação genômica, a predição do valor genético para características complexas tem sido amplamente aperfeiçoada. A utilização da predição genômica poderá levar a um ganho genético mais rápido do que o alcançado com métodos tradicionais de seleção, com base apenas em dados de pedigree e fenotípicos. O objetivo deste trabalho foi avaliar a influência da inclusão da informação genômica nas estimativas dos parâmetros genéticos e tendências genéticas para ganho de peso diário do nascimento aos 120 dias de idade (GP1), dos 120 aos 210 dias de idade (GP2), dos 210 aos 365 dias de idade (GP3), dos 365 aos 450 dias de idade (GP4), área de olho de lombo (AOL), espessura de gordura subcutânea (EGS) e espessura de gordura subcutânea na garupa (EGP8) em bovinos da raça Nelore. Além disso, avaliou-se a associação genética entre as características estudadas e, por meio das análises de agrupamento não-hierárquicas, verificou-se quais os grupos de animais mais indicados para atender aos objetivos de seleção, visando contribuir para o processo de seleção do programa de melhoramento da raça Nelore. As estimativas de parâmetros genéticos foram obtidas com base em registros de pedigree de 192.483 animais, nascidos entre 1934 e 2016, registros fenotípicos de 8... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Traditional selection for economically important quantitative traits is generally performed on the basis of breeding values predicted from phenotypic records of an individual and their relatives. With the availability of genomic information, the prediction of breeding values for complex traits has been vastly improved. The use of genomic prediction may lead to a faster genetic gain compared to that achieved by traditional pedigree-based selection methods. The aim of this study was to evaluate the influence of the inclusion of genomic information on the genetic parameters estimates and the genetic trends for daily weight gain from birth to 120 days of age (GP1), from 120 to 210 days of age (GP2), from 210 to 365 days of age (GP3), from 365 to 450 days of age (GP4), ribeye area (AOL), subcutaneous backfat thickness (EGS) and rump fat (EGP8) in Nelore cattle. Further, the genetic associations between the studied traits were evaluated and, by using non-hierarchical clustering analyses it was verified which groups of animals were most suitable for meeting the selection objectives, in order to contribute to the selection process of the breeding program of the Nelore breed. The genetic parameters estimates were obtained based on the pedigree records of 192,483 animals born between 1934 and 2016, phenotypic records of 80,114 animals and genotypes of 8,652 animals, which were provided by the "Associação Nacional de Criadores e Pesquisadores" (ANCP). The (co) variance components were o... (Complete abstract click electronic access below) / Mestre
|
95 |
Diversidade fenotípica e determinação do teor de óleo em pinhão-manso por espectroscopia no infravermelho próximo /Moraes, Amanda Carolina Prado de. January 2016 (has links)
Orientador: Sandra Helena Unêda-Trevisoli / Coorientador: Antônio Orlando Di Mauro / Banca: Gustavo Henrique de Almeida Teixeira / Banca: Ivana Marino Bárbaro / Resumo: O objetivo do presente trabalho consistiu em caracterizar a diversidade fenotípica em genótipos de pinhão-manso através de análises multivariadas, além de desenvolver um modelo de calibração para a determinação do teor de óleo por meio da espectroscopia do infravermelho próximo (NIR) visando a seleção de genótipos com alto teor de óleo. Para a análise fenotípica, foram avaliados 11 caracteres agronômicos em 165 genótipos de pinhão-manso pertencentes ao banco de germoplasma in vivo localizado no Departamento de Produção Vegetal da UNESP/FCAV, Jaboticabal, SP. Os caracteres utilizados foram: altura da planta, diâmetro do caule, número de ramificações primárias, comprimento de fruto, largura de fruto, peso de fruto, formato de fruto, comprimento de semente, largura de semente, peso de semente e teor de óleo. Os dados foram submetidos à análise de componentes principais (PCA), análise de agrupamento pelo método hierárquico de Ward e método não hierárquico k-médias. O caráter formato de fruto foi retirado das análises multivariadas por ser de natureza qualitativa. Na PCA, os 4 CPs explicaram 71,62% da variância total. Os caracteres de maior contribuição para a discriminação dos genótipos no CP1 foram peso de semente, largura de fruto, comprimento de fruto e peso de fruto. Destacaram-se 22 genótipos promissores com potencial para serem explorados em programas de melhoramento genético. O dendrograma obtido pela análise de agrupamento de Ward e para a análise de k-médias geraram nove... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: The purpose of this study was to characterize the phenotypic diversity in Jatropha genotypes by multivariate analysis, and developing a calibration model for determination oil content by Near-infrared spectroscopy (NIR) in order to select genotypes with high oil content. For the phenotypic analysis, 11 agronomic characters were evaluated in 165 genotypes of Jatropha belonging to the germplasm bank in vivo located in the Department of Plant Production UNESP / FCAV, Jaboticabal, SP. The characters were: plant height, stem diameter, number of primary branches, fruit length, fruit width, fruit weight, fruit shape, seed length, seed width, seed weight and oil content. The data were submitted to principal component analysis (PCA), cluster analysis by the hierarchical method of Ward and non- hierarchical method of k-means. The character fruit shape was removed from multivariate analysis for being qualitative. In PCA, the 4 PCs explained 71.62% of the total variance. The greatest contribution of the characters to discriminate the genotypes in PC1 were seed weight, fruit width, fruit length and fruit weight. They highlighted 22 promising genotypes with potential to be exploited in breeding programs. The dendrogram obtained by Ward cluster analysis and the k-means analysis generated nine groups, 5 of which grouped genotypes with advantageous features. Multivariate analyzes allowed the characterization of the genotypes, allowing the selection for many traits and indicating gains strateg... (Complete abstract click electronic access below) / Mestre
|
96 |
Análise multivariada da implementação dos princípios de gestão da qualidade da série de normas ISO 9000 /Correa, André Luiz. January 2018 (has links)
Orientador: Glaucia Aparecida Prates / Coorientador: Antonio Francisco Savi / Banca: Luiz Veriano Oliveira Dalla Valentina / Banca: Lesley Carina do Lago Attadia Galli / Resumo: O objetivo geral desta pesquisa foi identificar em que grau os princípios de gestão da qualidade estão inter-relacionados. O primeiro objetivo específico foi identificar o nível de implementação dos princípios de gestão da qualidade na organização. O segundo objetivo específico foi reduzir o conjunto inicial de vinte e uma variáveis para poucas variáveis que expliquem como esses princípios de gestão estão inter-relacionados. O terceiro objetivo foi direcionar a organização para a implementação de ações de melhoria sobre os princípios de gestão que minimizem esforços e recursos necessários. Foi realizado um estudo de caso em uma organização industrial certificada ISO 9001 envolvida na cadeia de suprimentos sucroenergética. O instrumento de coleta de dados foi elaborado tendo como referência a norma ISO 10014. Inicialmente o questionário foi aplicado para um grupo de doze respondentes de perfis distintos para verificar o nível de dificuldade no entendimento das questões. Foi calculado o coeficiente de Cronbach sendo obtido um valor de ∝=0,94, demonstrando forte consistência interna no questionário. Foram obtidas 98 respostas completas que foram analisadas por meio de técnicas estatísticas descritivas e multivariadas, como a análise de fatores por componentes principais e análise de agrupamentos. Para as análises estatísticas foram utilizados os softwares Excel® 2016 e Statistica® 7.0. Por meio da análise de fatores as vinte e uma variáveis iniciais foram reduzidas a dois fatore... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: The general objective of this research was to identify to what degree the principles of quality management are interrelated. The first specific objective was to identify the level of implementation of the principles of quality management in the organization. The second specific objective was to reduce the initial set of twenty-one variables to a few variables that explain how these management principles are interrelated. The third objective was to direct the organization to the implementation of improvement actions on the management principles that minimize the efforts and necessary resources. A case study was carried out in an ISO 9001 certified industrial organization involved in the sugarcane supply chain. The data collection instrument was developed with reference to ISO 10014. Initially the questionnaire was applied to a group of twelve respondents from different profiles to verify the level of difficulty in understanding the issues. The Cronbach coefficient was calculated and a value of α = 0.94 was obtained, showing a strong internal consistency in the questionnaire. A total of 98 responses were obtained, which were analyzed using descriptive and multivariate statistical techniques, such as principal components factor analysis and cluster analysis. For the statistical analysis, the software Excel® 2016 and Statistica® 7.0 were used. Through the factor analysis, the twenty-one initial variables were reduced to two factors, which were called process management and people... (Complete abstract click electronic access below) / Mestre
|
97 |
[en] REORGANIZATION AND COMPRESSION OF SEISMIC DATA / [pt] REORGANIZAÇÃO E COMPRESSÃO DE DADOS SÍSMICOSFLAVIA MEDEIROS DOS ANJOS 19 February 2008 (has links)
[pt] Dados sísmicos, utilizados principalmente na indústria de
petróleo,
costumam apresentar dimensões de dezenas de gigabytes e em
alguns casos,
centenas. Este trabalho apresenta propostas de manipulação
destes dados que
ajudem a contornar problemas enfrentados por aplicativos
de processamento e
interpretação sísmica ao trabalhar com arquivos deste
porte. As propostas se
baseiam em reorganização e compressão. O conhecimento do
formato de
utilização dos dados permite reestruturar seu
armazenamento diminuindo o
tempo gasto com a transferência entre o disco e a memória
em até 90%. A
compressão é utilizada para diminuir o espaço necessário
para armazenamento.
Para dados desta natureza os melhores resultados, em taxa
de redução, são das
técnicas de compressão com perda, entre elas as
compressões por
agrupamento. Neste trabalho apresentamos um algoritmo que
minimiza o erro
médio do agrupamento uma vez que o número de grupos tenha
sido
determinado. Em qualquer método desta categoria o grau de
erro e a taxa de
compressão obtidos dependem do número de grupos. Os dados
sísmicos
possuem uma coerência espacial que pode ser aproveitada
para melhorar a
compressão dos mesmos. Combinando-se agrupamento e o
aproveitamento da
coerência espacial conseguimos comprimir os dados com
taxas variando de 7%
a 25% dependendo do erro associado. Um novo formato é
proposto utilizando a
reorganização e a compressão em conjunto. / [en] Seismic data, used mainly in the petroleum industry,
commonly present
sizes of tens of gigabyte, and, in some cases, hundreds.
This work presents
propositions for manipulating these data in order to help
overcoming the
problems that application for seismic processing and
interpretation face while
dealing with file of such magnitude. The propositions are
based on reorganization
and compression. The knowledge of the format in which the
data will
be used allows us to restructure storage reducing disc-
memory transference time
up to 90%. Compression is used to save storage space. For
data of such nature,
best results in terms of compression rates come from
techniques associated to
information loss, being clustering one of them. In this
work we present an
algorithm for minimizing the cost of clustering a set of
data for a pre-determined
number of clusters. Seismic data have space coherence that
can be used to
improve their compression. Combining clustering with the
use of space
coherence we were able to compress sets of data with rates
from 7% to 25%
depending on the error associated. A new file format is
proposed using reorganization
and compression together.
|
98 |
Algoritmos evolutivos para modelos de mistura de gaussianas em problemas com e sem restrições / Evolutionary algorithms for gausian mixture models with and without constraintsCovões, Thiago Ferreira 09 December 2014 (has links)
Nesta tese, são estudados algoritmos para agrupamento de dados, com particular ênfase em Agrupamento de Dados com Restrições, no qual, além dos objetos a serem agrupados, são fornecidos pelo usuário algumas informações sobre o agrupamento desejado. Como fundamentação para o agrupamento, são considerados os modelos de mistura finitos, em especial, com componentes gaussianos, usualmente chamados de modelos de mistura de gaussianas. Dentre os principais problemas que os algoritmos desenvolvidos nesta tese de doutorado buscam tratar destacam-se: (i) estimar parâmetros de modelo de mistura de gaussianas; (ii) como incorporar, de forma eficiente, restrições no processo de aprendizado de forma que tanto os dados quanto as restrições possam ser adicionadas de forma online; (iii) estimar, via restrições derivadas de conceitos pré-determinados sobre os objetos (usualmente chamados de classes), o número de grupos destes conceitos. Como ferramenta para auxiliar no desenvolvimento de soluções para tais problemas, foram utilizados algoritmos evolutivos que operam com mais de uma solução simultaneamente, além de utilizarem informações de soluções anteriores para guiar o processo de busca. Especificamente, foi desenvolvido um algoritmo evolutivo baseado na divisão e união de componentes para a estimação dos parâmetros de um modelo de mistura de gaussianas. Este algoritmo foi comparado com o algoritmo do mesmo gênero considerado estado-da-arte na literatura, apresentando resultados competitivos e necessitando de menos parâmetros e um menor custo computacional. Nesta tese, foram desenvolvidos dois algoritmos que incorporam as restrições no processo de agrupamento de forma online. Ambos os algoritmos são baseados em algoritmos bem-conhecidos na literatura e apresentaram, em comparações empíricas, resultados melhores que seus antecessores. Finalmente, foram propostos dois algoritmos para se estimar o número de grupos por classe. Ambos os algoritmos foram comparados com algoritmos reconhecidos na literatura de agrupamento de dados com restrições, e apresentaram resultados competitivos ou melhores que estes. A estimação bem sucedida do número de grupos por classe pode auxiliar em diversas tarefas de mineração de dados, desde a sumarização dos dados até a decomposição de problemas de classificação em sub-problemas potencialmente mais simples. / In the last decade, researchers have been giving considerable attention to the field of Constrained Clustering. Algorithms in this field assume that along with the objects to be clustered, the user also provides some constraints about which kind of clustering (s)he prefers. In this thesis, two scenarios are studied: clustering with and without constraints. The developments are based on finite mixture models, namely, models with Gaussian components, which are usually called Gaussian Mixture Models (GMMs). In this context the main problems addressed are: (i) parameter estimation of GMMs; (ii) efficiently integrating constraints in the learning process allowing both constraints and the data to be added in the modeling in an online fashion; (iii) estimating, by using constraints derived from pre-determined concepts (usually named classes), the number of clusters per concept. Evolutionary algorithms were adopted to develop solutions for such problems. These algorithms analyze more than one solution simultaneously and use information provided by previous solutions to guide the search process. Specifically, an evolutionary algorithm based on procedures that perform splitting and merging of components to estimate the parameters of a GMM was developed. This algorithm was compared to an algorithm considered as the state-of-the-art in the literature, obtaining competitive results while requiring less parameters and being more computationally efficient. Besides the aforementioned contributions, two algorithms for online constrained clustering were developed. Both algorithms are based on well known algorithms from the literature and get better results than their predecessors. Finally, two algorithms to estimate the number of clusters per class were also developed. Both algorithms were compared to well established algorithms from the literature of constrained clustering, and obtained equal or better results than the ones obtained by the contenders. The successful estimation of the number of clusters per class is helpful to a variety of data mining tasks, such as data summarization and problem decomposition of challenging classification problems.
|
99 |
Pre-processing approaches for collaborative filtering based on hierarchical clustering / Abordagens de pré-processamento para filtragem colaborativa baseada em agrupamento hierárquicoAguiar Neto, Fernando Soares de 19 October 2018 (has links)
Recommender Systems (RS) support users to find relevant content, such as movies, books, songs, and other products based on their preferences. Such preferences are gathered by analyzing past users interactions, however, data collected for this purpose are typically prone to sparsity and high dimensionality. Clustering-based techniques have been proposed to handle these problems effectively and efficiently by segmenting the data into a number of similar groups based on predefined characteristics. Although these techniques have gained increasing attention in the recommender systems community, they are usually bound to a particular recommender system and/or require critical parameters, such as the number of clusters. In this work, we present three variants of a general-purpose method to optimally extract users groups from a hierarchical clustering algorithm specifically targeting RS problems. The proposed extraction methods do not require critical parameters and can be applied prior to any recommendation system. Our experiments have shown promising recommendation results in the context of nine well-known public datasets from different domains. / Sistemas de Recomendação auxiliam usuários a encontrar conteúdo relevante, como filmes, livros, músicas entre outros produtos baseando-se em suas preferências. Tais preferências são obtidas ao analisar interações passadas dos usuários, no entanto, dados coletados com esse propósito tendem a tipicamente possuir alta dimensionalidade e esparsidade. Técnicas baseadas em agrupamento de dados têm sido propostas para lidar com esses problemas de foma eficiente e eficaz ao dividir os dados em grupos similares baseando-se em características pré-definidas. Ainda que essas técnicas tenham recebido atenção crescente na comunidade de sistemas de recomendação, tais técnicas são usualmente atreladas a um algoritmo de recomendação específico e/ou requerem parâmetros críticos, como número de grupos. Neste trabalho, apresentamos três variantes de um método de propósitvo geral de extração ótima de grupos em uma hierarquia, atacando especificamente problemas em Sistemas de Recomendação. Os métodos de extração propostos não requerem parâmetros críticos e podem ser aplicados antes de qualquer sistema de recomendação. Os experimentos mostraram resultados promissores no contexto de nove bases de dados públicas conhecidas em diferentes domínios.
|
100 |
Aprendizado não supervisionado de hierarquias de tópicos a partir de coleções textuais dinâmicas / Unsupervised learning of topic hierarchies from dynamic text collectionsMarcacini, Ricardo Marcondes 19 May 2011 (has links)
A necessidade de extrair conhecimento útil e inovador de grandes massas de dados textuais, tem motivado cada vez mais a investigação de métodos para Mineração de Textos. Dentre os métodos existentes, destacam-se as iniciativas para organização de conhecimento por meio de hierarquias de tópicos, nas quais o conhecimento implícito nos textos é representado em tópicos e subtópicos, e cada tópico contém documentos relacionados a um mesmo tema. As hierarquias de tópicos desempenham um papel importante na recupera ção de informação, principalmente em tarefas de busca exploratória, pois permitem a análise do conhecimento de interesse em diversos níveis de granularidade e exploração interativa de grandes coleções de documentos. Para apoiar a construção de hierarquias de tópicos, métodos de agrupamento hierárquico têm sido utilizados, uma vez que organizam coleções textuais em grupos e subgrupos, de forma não supervisionada, por meio das similaridades entre os documentos. No entanto, a maioria dos métodos de agrupamento hierárquico não é adequada em cenários que envolvem coleções textuais dinâmicas, pois são exigidas frequentes atualizações dos agrupamentos. Métodos de agrupamento que respeitam os requisitos existentes em cenários dinâmicos devem processar novos documentos assim que são adicionados na coleção, realizando o agrupamento de forma incremental. Assim, neste trabalho é explorado o uso de métodos de agrupamento incremental para o aprendizado não supervisionado de hierarquias de tópicos em coleções textuais dinâmicas. O agrupamento incremental é aplicado na construção e atualização de uma representação condensada dos textos, que mantém um sumário das principais características dos dados. Os algoritmos de agrupamento hierárquico podem, então, ser aplicados sobre as representa ções condensadas, obtendo-se a organização da coleção textual de forma mais eficiente. Foram avaliadas experimentalmente três estratégias de agrupamento incremental da literatura, e proposta uma estratégia alternativa mais apropriada para hierarquias de tópicos. Os resultados indicaram que as hierarquias de tópicos construídas com uso de agrupamento incremental possuem qualidade próxima às hierarquias de tópicos construídas por métodos não incrementais, com significativa redução do custo computacional / The need to extract new and useful knowledge from large textual collections has motivated researchs on Text Mining methods. Among the existing methods, initiatives for the knowledge organization by topic hierarchies are very popular. In the topic hierarchies, the knowledge is represented by topics and subtopics, and each topic contains documents of similar content. They play an important role in information retrieval, especially in exploratory search tasks, allowing the analysis of knowledge in various levels of granularity and interactive exploration of large document collections. Hierarchical clustering methods have been used to support the construction of topic hierarchies. These methods organize textual collections in clusters and subclusters, in an unsupervised manner, using similarities among documents. However, most existing hierarchical clustering methods is not suitable for scenarios with dynamic text collections, since frequent clustering updates are necessary. Clustering methods that meet these requirements must process new documents that are inserted into textual colections, in general, through incremental clustering. Thus, we studied the incremental clustering methods for unsupervised learning of topic hierarchies for dynamic text collections. The incremental clustering is used to build and update a condensed representation of texts, which maintains a summary of the main features of the data. The hierarchical clustering algorithms are applied in these condensed representations, obtaining the textual organization more efficiently. We experimentally evaluate three incremental clustering algorithms available in the literature. Also, we propose an alternative strategy more appropriate for construction of topic hieararchies. The results indicated that the topic hierarchies construction using incremental clustering have quality similar to non-incremental methods. Furthermore, the computational cost is considerably reduced using incremental clustering methods
|
Page generated in 0.0746 seconds