Spelling suggestions: "subject:"matrizes nãonegativas"" "subject:"matrizes ovonegativas""
1 |
As M-matrizes e suas aplicaçõesChamma, Olinda Thome 14 July 2018 (has links)
Orientador : Biswa Nath Datta / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Científica / Made available in DSpace on 2018-07-14T08:34:22Z (GMT). No. of bitstreams: 1
Chamma_OlindaThome_M.pdf: 1061205 bytes, checksum: a2e8e86cc1f5ccd1cba718fca6802e41 (MD5)
Previous issue date: 1979 / Resumo: Não informado / Abstract: Not informed / Mestrado / Mestre em Matemática
|
2 |
Espaços de Hilbert de reprodução e aproximação de soluções e equações integrais de volterraFERREIRA, Estela Costa 29 February 2016 (has links)
O objetivo deste trabalho e encontrar uma solução exata para um sistema de equações
integrais de Volterra. Para isso, usaremos a teoria de espacos de reprodução e núcleos
positivos definidos, visto que as técnicas usuais de resoluções de equações diferenciais e
integrais possuem restrições. Grande parte do estudo voltado a solução de equações se baseia
em analisar o comportamento das soluções, o chamado estudo qualitativo. Este não e o
nosso interesse, queremos aproximar a solução do problema usando a representa c~ao dessa
solução em uma base ortonormal especial de um espaço de Hilbert de reprodução gerado
por um núcleo positivo de nido adequado. Dessa forma, truncando a serie encontrada para
a solução do sistema de Volterra podemos exibir uma boa aproxima c~ao para a solução
do sistema. As equações integrais de Volterra, foco deste trabalho, s~ao importantes para
a modelagem de fenômenos físicos, demográficos ou epidemiológicos. Para a resolução de
tais equações, faremos um estudo introdutório sobre conceitos de álgebra linear, análise e
teoria da medida com o intuito de abranger temas como: existência de base de um espaço
vetorial, o processo de ortogonaliza c~ao de Gram-Schmidt, os espaços Lp, entre outros.
Faremos uma breve análise sobre a transformada de Laplace, assim como resolveremos
uma equação diferencial e integral usando este método. Tambem resolveremos um sistema
de equações integrais através da transformada de Laplace para exemplificar o método.
Cabe lembrar que a maioria das equações não pode ser resolvida por meio da transformada
de Laplace. Faremos um estudo de resolução de equações lineares de Volterra e então
abrangeremos esse estudo para equa c~oes n~ao lineares. / The aim of this study is to give the exact solution to a system of linear Volterra integral
equations. So do it, we will use the theory of reproduction Kernel method and positive
de nite kernels, since the usual method to solve di erential and integral equations have
restrictions. Much of the study about solving equations is based on analyzing the behavior
of solutions, called qualitative study. This is not our interest, we want to approach the
solution of the problem using the representation of the solution in a special orthonormal
basis of the reproduction kernel Hilbert space generated by an appropriate positive de nite
kernel. Thus, truncating the series found for the solution of the Volterra system, we
can give a good approximation to the system solution. The Volterra integral equations,
focus of this work, are important to modeling physical, demographic or epidemiological
phenomena. For solving such equations, we make an introductory study of linear algebra,
analysis and measure theory in order to comprehend topics such as: existence of a base in
a vector space, the Gram-Schmidt orthogonalization process, the spaces Lp, and others.
We make a brief analysis of the Laplace transform, as well as solve a di erential and
integral equation using this method. We also solve a system of integral equations by
Laplace transform to illustrate the method. It should be noted that most of the equations
can not be solved by means of the Laplace transform. We will study how to solve linear
Volterra equations and then extend the study to nonlinear equations.
|
3 |
Fatoração de matrizes no problema de coagrupamento com sobreposição de colunas / Matrix factorization for overlapping columns coclusteringBrunialti, Lucas Fernandes 31 August 2016 (has links)
Coagrupamento é uma estratégia para análise de dados capaz de encontrar grupos de dados, então denominados cogrupos, que são formados considerando subconjuntos diferentes das características descritivas dos dados. Contextos de aplicação caracterizados por apresentar subjetividade, como mineração de texto, são candidatos a serem submetidos à estratégia de coagrupamento; a flexibilidade em associar textos de acordo com características parciais representa um tratamento adequado a tal subjetividade. Um método para implementação de coagrupamento capaz de lidar com esse tipo de dados é a fatoração de matrizes. Nesta dissertação de mestrado são propostas duas estratégias para coagrupamento baseadas em fatoração de matrizes não-negativas, capazes de encontrar cogrupos organizados com sobreposição de colunas em uma matriz de valores reais positivos. As estratégias são apresentadas em termos de suas definições formais e seus algoritmos para implementação. Resultados experimentais quantitativos e qualitativos são fornecidos a partir de problemas baseados em conjuntos de dados sintéticos e em conjuntos de dados reais, sendo esses últimos contextualizados na área de mineração de texto. Os resultados são analisados em termos de quantização do espaço e capacidade de reconstrução, capacidade de agrupamento utilizando as métricas índice de Rand e informação mútua normalizada e geração de informação (interpretabilidade dos modelos). Os resultados confirmam a hipótese de que as estratégias propostas são capazes de descobrir cogrupos com sobreposição de forma natural, e que tal organização de cogrupos fornece informação detalhada, e portanto de valor diferenciado, para as áreas de análise de agrupamento e mineração de texto / Coclustering is a data analysis strategy which is able to discover data clusters, known as coclusters. This technique allows data to be clustered based on different subsets defined by data descriptive features. Application contexts characterized by subjectivity, such as text mining, are candidates for applying coclustering strategy due to the flexibility to associate documents according to partial features. The coclustering method can be implemented by means of matrix factorization, which is suitable to handle this type of data. In this thesis two strategies are proposed in non-negative matrix factorization for coclustering. These strategies are able to find column overlapping coclusters in a given dataset of positive data and are presented in terms of their formal definitions as well as their algorithms\' implementation. Quantitative and qualitative experimental results are presented through applying synthetic datasets and real datasets contextualized in text mining. This is accomplished by analyzing them in terms of space quantization, clustering capabilities and generated information (interpretability of models). The well known external metrics Rand index and normalized mutual information are used to achieve the analysis of clustering capabilities. Results confirm the hypothesis that the proposed strategies are able to discover overlapping coclusters naturally. Moreover, these coclusters produced by the new algorithms provide detailed information and are thus valuable for future research in cluster analysis and text mining
|
4 |
Simplificação e análise de redes com dados multivariados / Simplification and analysis of network with multivariate dataDias, Markus Diego Sampaio da Silva 17 October 2018 (has links)
As técnicas de visualização desempenham um papel importante na assistência e compreensão de redes e seus elementos. No entanto, quando enfrentamos redes massivas, a análise tende a ser prejudicada pela confusão visual. Esquemas de simplificação e agrupamento têm sido algumas das principais alternativas neste contexto. No entanto, a maioria das técnicas de simplificação consideram apenas informações extraídas da topologia da rede, desconsiderando conteúdo adicional definido nos nós ou arestas da rede. Neste trabalho, propomos dois estudos. Primeiro uma nova metodologia para simplificação de redes que utiliza tanto a topologia quanto o conteúdo associado aos elementos de rede. A metodologia proposta baseia-se na fatoração de matriz não negativa (NMF) e emparelhamento para realizar a simplificação, combinadas para gerar uma representação hierárquica da rede, agrupando elementos semelhantes em cada nível da hierarquia. Propomos também um estudo da utilização da teoria de processamento de sinal em grafos para filtrar os dados associados aos elementos da rede e o seu efeito no processo de simplificação. / Visualization tools play an important role in assisting and understanding networks and their elements. However, when faced with larger networks, analytical tasks can be hindered by visual clutter. Schemes of simplification and clustering have been a main alternative in this context. Nevertheless, most simplification techniques consider only information extracted from the network topology, disregarding additional content defined in nodes or edges. In this paper, we propose two studies. First, a new methodology for network simplification that uses both topology and content associated with network elements. The proposed methodology is based on non-negative matrix factorization (NMF) and graph matching to perform the simplification, combined to generate a hierarchical representation of the network, grouping the most similar elements at each level of a hierarchy. We also provide a study of the use of the graph signal processing theory to filter data associated to the elements of a network and its effect in the process of simplification.
|
5 |
Fatoração de matrizes no problema de coagrupamento com sobreposição de colunas / Matrix factorization for overlapping columns coclusteringLucas Fernandes Brunialti 31 August 2016 (has links)
Coagrupamento é uma estratégia para análise de dados capaz de encontrar grupos de dados, então denominados cogrupos, que são formados considerando subconjuntos diferentes das características descritivas dos dados. Contextos de aplicação caracterizados por apresentar subjetividade, como mineração de texto, são candidatos a serem submetidos à estratégia de coagrupamento; a flexibilidade em associar textos de acordo com características parciais representa um tratamento adequado a tal subjetividade. Um método para implementação de coagrupamento capaz de lidar com esse tipo de dados é a fatoração de matrizes. Nesta dissertação de mestrado são propostas duas estratégias para coagrupamento baseadas em fatoração de matrizes não-negativas, capazes de encontrar cogrupos organizados com sobreposição de colunas em uma matriz de valores reais positivos. As estratégias são apresentadas em termos de suas definições formais e seus algoritmos para implementação. Resultados experimentais quantitativos e qualitativos são fornecidos a partir de problemas baseados em conjuntos de dados sintéticos e em conjuntos de dados reais, sendo esses últimos contextualizados na área de mineração de texto. Os resultados são analisados em termos de quantização do espaço e capacidade de reconstrução, capacidade de agrupamento utilizando as métricas índice de Rand e informação mútua normalizada e geração de informação (interpretabilidade dos modelos). Os resultados confirmam a hipótese de que as estratégias propostas são capazes de descobrir cogrupos com sobreposição de forma natural, e que tal organização de cogrupos fornece informação detalhada, e portanto de valor diferenciado, para as áreas de análise de agrupamento e mineração de texto / Coclustering is a data analysis strategy which is able to discover data clusters, known as coclusters. This technique allows data to be clustered based on different subsets defined by data descriptive features. Application contexts characterized by subjectivity, such as text mining, are candidates for applying coclustering strategy due to the flexibility to associate documents according to partial features. The coclustering method can be implemented by means of matrix factorization, which is suitable to handle this type of data. In this thesis two strategies are proposed in non-negative matrix factorization for coclustering. These strategies are able to find column overlapping coclusters in a given dataset of positive data and are presented in terms of their formal definitions as well as their algorithms\' implementation. Quantitative and qualitative experimental results are presented through applying synthetic datasets and real datasets contextualized in text mining. This is accomplished by analyzing them in terms of space quantization, clustering capabilities and generated information (interpretability of models). The well known external metrics Rand index and normalized mutual information are used to achieve the analysis of clustering capabilities. Results confirm the hypothesis that the proposed strategies are able to discover overlapping coclusters naturally. Moreover, these coclusters produced by the new algorithms provide detailed information and are thus valuable for future research in cluster analysis and text mining
|
6 |
Aplicação da teoria das matrizes não-negativas e matrizes-M ao modelo de LeontiefRech, Sérgio José January 2002 (has links)
Seja Uln sistema econômico, que envolve n indústrias interdependentes tais que cada indústria produz um único tipo de artigo. Denotemos com t ij a quantidade da entrada (insumo) da iêsima mercadoria que a economia necessita para produzir uma unidade da mercadoria} de saída (produto). A matriz T := [ tlj ] de insumo-produto de Leontief é uma matriz não-negativa. Descreveremos as propriedades das matrizes não-negativas, necessárias para uma análise matemática do modelo de Leontief. Se esse modelo descreve uma economia viável, a soma dos elementos em cada coluna de T será menor ou igual a l. Suponhamos mais que o sistema econômico modelado contenha um setor aberto, onde trabalho, lucro, etc. entram como segue. Seja x, o produto total que a indústria i requer para atender à demanda do setor aberto e das n indústrias. Então x = Tx + d, onde d := [ d,] é o vetor das demandas, isto é, d; é a demanda do s~tor aberto sobre a indústria iésúna. Aqui l;JXj representa o insumo que a j ésima indústria necessita da i•s•ma indústria. Os níveis de produção requeridos pela totalidade das n indústrias, a fim de poder atender a essas demandas, constituem o vetor-solução do sistema linear Ax = d, com A := I- T. Como a soma dos elementos de cada coluna de T é menor ou igual a I; o raio espectral de T também é menor ou igual a 1. Quando o raio espectral é menor que 1, T é convergente e A tem um inversa com todos os elementos não-negativos (matriz não-negativa). Discutiremos as matrizes não-negativas. Além disso, os elementos não-diagonais de A := I - T são todos negativos ou nulos. Matrizes com esse quadro de sinais, cujas inversas são não-negativas, são ditas matrizes-M não-singulares. Discutjremos também as matrizes-M não-singulares e singulares. O objetivo principal deste trabalho é a apl icação interessante da teoria das matrizes nãonegativas e matrizes-M, na análise do modelo de Leontief descrito muito brevemente acima, resultando um método elegante de análise de insumo-produto. / Let us consid~r an economic system, that involves n interdependent industries, assuming that each industry produces only one type of commodities. Let tij denote the amount of input ofthe ith commodity needed by the economy to produce a unit output o f commodity j. The Leontief input-output matrix T := [ tij] is a nonnegative matrix. We will describe the properties of nonnegative matrices, necessary for a mathematical analysis ofthe Leontiefs model. Ifthat model describes an economically feasible situation, the sum of the elements in each column of T does not exceed I. Let us further suppose that the modeled economic system contains an open sector, where labor, profit, etc. enter in the following way. Let x, be the total output o f the industry i required to meet the demand o f the open sector and ali n industries. Then x = Tx + d, where d := [ d; ], is the vector ofthe demands, that is, d; is the demand of the open sector from the ith industry. Here li]Xj represents the input requirement of the jth industry from the ith. The output leveis required o f the totality o f the n industries, in order to meet these demands, are the solution vector x ofthe linear system Ax = d, with A :=I- T. As the sum ofthe elements of each column ofT is at most I, it follows that the spectral radius ofT is also at most I. When the spectral radius is less than 1, T is convergent and A is inverse-positive, that is, A'1 is a nonnegative matrix. We will discuss the nonnegative matrices. Besides, A:= I - T has ali its off-diagonal entries nonpositive. Jnverse-positive matrices with this sign pattem are called nonsingular M-matrices. We will also discuss nonsingular and singular M-matrices. The main goal of this work is the interesting appl ication of the nonnegative matrices and M-matrices theory to the analysis ofthe Leontiefs model, described very shortly above, resulting in an elegant method o f input-output analysis.
|
7 |
Aplicação da teoria das matrizes não-negativas e matrizes-M ao modelo de LeontiefRech, Sérgio José January 2002 (has links)
Seja Uln sistema econômico, que envolve n indústrias interdependentes tais que cada indústria produz um único tipo de artigo. Denotemos com t ij a quantidade da entrada (insumo) da iêsima mercadoria que a economia necessita para produzir uma unidade da mercadoria} de saída (produto). A matriz T := [ tlj ] de insumo-produto de Leontief é uma matriz não-negativa. Descreveremos as propriedades das matrizes não-negativas, necessárias para uma análise matemática do modelo de Leontief. Se esse modelo descreve uma economia viável, a soma dos elementos em cada coluna de T será menor ou igual a l. Suponhamos mais que o sistema econômico modelado contenha um setor aberto, onde trabalho, lucro, etc. entram como segue. Seja x, o produto total que a indústria i requer para atender à demanda do setor aberto e das n indústrias. Então x = Tx + d, onde d := [ d,] é o vetor das demandas, isto é, d; é a demanda do s~tor aberto sobre a indústria iésúna. Aqui l;JXj representa o insumo que a j ésima indústria necessita da i•s•ma indústria. Os níveis de produção requeridos pela totalidade das n indústrias, a fim de poder atender a essas demandas, constituem o vetor-solução do sistema linear Ax = d, com A := I- T. Como a soma dos elementos de cada coluna de T é menor ou igual a I; o raio espectral de T também é menor ou igual a 1. Quando o raio espectral é menor que 1, T é convergente e A tem um inversa com todos os elementos não-negativos (matriz não-negativa). Discutiremos as matrizes não-negativas. Além disso, os elementos não-diagonais de A := I - T são todos negativos ou nulos. Matrizes com esse quadro de sinais, cujas inversas são não-negativas, são ditas matrizes-M não-singulares. Discutjremos também as matrizes-M não-singulares e singulares. O objetivo principal deste trabalho é a apl icação interessante da teoria das matrizes nãonegativas e matrizes-M, na análise do modelo de Leontief descrito muito brevemente acima, resultando um método elegante de análise de insumo-produto. / Let us consid~r an economic system, that involves n interdependent industries, assuming that each industry produces only one type of commodities. Let tij denote the amount of input ofthe ith commodity needed by the economy to produce a unit output o f commodity j. The Leontief input-output matrix T := [ tij] is a nonnegative matrix. We will describe the properties of nonnegative matrices, necessary for a mathematical analysis ofthe Leontiefs model. Ifthat model describes an economically feasible situation, the sum of the elements in each column of T does not exceed I. Let us further suppose that the modeled economic system contains an open sector, where labor, profit, etc. enter in the following way. Let x, be the total output o f the industry i required to meet the demand o f the open sector and ali n industries. Then x = Tx + d, where d := [ d; ], is the vector ofthe demands, that is, d; is the demand of the open sector from the ith industry. Here li]Xj represents the input requirement of the jth industry from the ith. The output leveis required o f the totality o f the n industries, in order to meet these demands, are the solution vector x ofthe linear system Ax = d, with A :=I- T. As the sum ofthe elements of each column ofT is at most I, it follows that the spectral radius ofT is also at most I. When the spectral radius is less than 1, T is convergent and A is inverse-positive, that is, A'1 is a nonnegative matrix. We will discuss the nonnegative matrices. Besides, A:= I - T has ali its off-diagonal entries nonpositive. Jnverse-positive matrices with this sign pattem are called nonsingular M-matrices. We will also discuss nonsingular and singular M-matrices. The main goal of this work is the interesting appl ication of the nonnegative matrices and M-matrices theory to the analysis ofthe Leontiefs model, described very shortly above, resulting in an elegant method o f input-output analysis.
|
8 |
Aplicação da teoria das matrizes não-negativas e matrizes-M ao modelo de LeontiefRech, Sérgio José January 2002 (has links)
Seja Uln sistema econômico, que envolve n indústrias interdependentes tais que cada indústria produz um único tipo de artigo. Denotemos com t ij a quantidade da entrada (insumo) da iêsima mercadoria que a economia necessita para produzir uma unidade da mercadoria} de saída (produto). A matriz T := [ tlj ] de insumo-produto de Leontief é uma matriz não-negativa. Descreveremos as propriedades das matrizes não-negativas, necessárias para uma análise matemática do modelo de Leontief. Se esse modelo descreve uma economia viável, a soma dos elementos em cada coluna de T será menor ou igual a l. Suponhamos mais que o sistema econômico modelado contenha um setor aberto, onde trabalho, lucro, etc. entram como segue. Seja x, o produto total que a indústria i requer para atender à demanda do setor aberto e das n indústrias. Então x = Tx + d, onde d := [ d,] é o vetor das demandas, isto é, d; é a demanda do s~tor aberto sobre a indústria iésúna. Aqui l;JXj representa o insumo que a j ésima indústria necessita da i•s•ma indústria. Os níveis de produção requeridos pela totalidade das n indústrias, a fim de poder atender a essas demandas, constituem o vetor-solução do sistema linear Ax = d, com A := I- T. Como a soma dos elementos de cada coluna de T é menor ou igual a I; o raio espectral de T também é menor ou igual a 1. Quando o raio espectral é menor que 1, T é convergente e A tem um inversa com todos os elementos não-negativos (matriz não-negativa). Discutiremos as matrizes não-negativas. Além disso, os elementos não-diagonais de A := I - T são todos negativos ou nulos. Matrizes com esse quadro de sinais, cujas inversas são não-negativas, são ditas matrizes-M não-singulares. Discutjremos também as matrizes-M não-singulares e singulares. O objetivo principal deste trabalho é a apl icação interessante da teoria das matrizes nãonegativas e matrizes-M, na análise do modelo de Leontief descrito muito brevemente acima, resultando um método elegante de análise de insumo-produto. / Let us consid~r an economic system, that involves n interdependent industries, assuming that each industry produces only one type of commodities. Let tij denote the amount of input ofthe ith commodity needed by the economy to produce a unit output o f commodity j. The Leontief input-output matrix T := [ tij] is a nonnegative matrix. We will describe the properties of nonnegative matrices, necessary for a mathematical analysis ofthe Leontiefs model. Ifthat model describes an economically feasible situation, the sum of the elements in each column of T does not exceed I. Let us further suppose that the modeled economic system contains an open sector, where labor, profit, etc. enter in the following way. Let x, be the total output o f the industry i required to meet the demand o f the open sector and ali n industries. Then x = Tx + d, where d := [ d; ], is the vector ofthe demands, that is, d; is the demand of the open sector from the ith industry. Here li]Xj represents the input requirement of the jth industry from the ith. The output leveis required o f the totality o f the n industries, in order to meet these demands, are the solution vector x ofthe linear system Ax = d, with A :=I- T. As the sum ofthe elements of each column ofT is at most I, it follows that the spectral radius ofT is also at most I. When the spectral radius is less than 1, T is convergent and A is inverse-positive, that is, A'1 is a nonnegative matrix. We will discuss the nonnegative matrices. Besides, A:= I - T has ali its off-diagonal entries nonpositive. Jnverse-positive matrices with this sign pattem are called nonsingular M-matrices. We will also discuss nonsingular and singular M-matrices. The main goal of this work is the interesting appl ication of the nonnegative matrices and M-matrices theory to the analysis ofthe Leontiefs model, described very shortly above, resulting in an elegant method o f input-output analysis.
|
9 |
Biagrupamento heurístico e coagrupamento baseado em fatoração de matrizes: um estudo em dados textuais / Heuristic biclustering and coclustering based on matrix factorization: a study on textual dataRamos Diaz, Alexandra Katiuska 16 October 2018 (has links)
Biagrupamento e coagrupamento são tarefas de mineração de dados que permitem a extração de informação relevante sobre dados e têm sido aplicadas com sucesso em uma ampla variedade de domínios, incluindo aqueles que envolvem dados textuais -- foco de interesse desta pesquisa. Nas tarefas de biagrupamento e coagrupamento, os critérios de similaridade são aplicados simultaneamente às linhas e às colunas das matrizes de dados, agrupando simultaneamente os objetos e os atributos e possibilitando a criação de bigrupos/cogrupos. Contudo suas definições variam segundo suas naturezas e objetivos, sendo que a tarefa de coagrupamento pode ser vista como uma generalização da tarefa de biagrupamento. Estas tarefas, quando aplicadas nos dados textuais, demandam uma representação em um modelo de espaço vetorial que, comumente, leva à geração de espaços caracterizados pela alta dimensionalidade e esparsidade, afetando o desempenho de muitos dos algoritmos. Este trabalho apresenta uma análise do comportamento do algoritmo para biagrupamento Cheng e Church e do algoritmo para coagrupamento de decomposição de valores em blocos não negativos (\\textit{Non-Negative Block Value Decomposition} - NBVD), aplicado ao contexto de dados textuais. Resultados experimentais quantitativos e qualitativos são apresentados a partir das experimentações destes algoritmos em conjuntos de dados sintéticos criados com diferentes níveis de esparsidade e em um conjunto de dados real. Os resultados são avaliados em termos de medidas próprias de biagrupamento, medidas internas de agrupamento a partir das projeções nas linhas dos bigrupos/cogrupos e em termos de geração de informação. As análises dos resultados esclarecem questões referentes às dificuldades encontradas por estes algoritmos nos ambiente de experimentação, assim como se são capazes de fornecer informações diferenciadas e úteis na área de mineração de texto. De forma geral, as análises realizadas mostraram que o algoritmo NBVD é mais adequado para trabalhar com conjuntos de dados em altas dimensões e com alta esparsidade. O algoritmo de Cheng e Church, embora tenha obtidos resultados bons de acordo com os objetivos do algoritmo, no contexto de dados textuais, propiciou resultados com baixa relevância / Biclustering e coclustering are data mining tasks that allow the extraction of relevant information about data and have been applied successfully in a wide variety of domains, including those involving textual data - the focus of interest of this research. In biclustering and coclustering tasks, similarity criteria are applied simultaneously to the rows and columns of the data matrices, simultaneously grouping the objects and attributes and enabling the discovery of biclusters/coclusters. However their definitions vary according to their natures and objectives, being that the task of coclustering can be seen as a generalization of the task of biclustering. These tasks applied in the textual data demand a representation in a model of vector space, which commonly leads to the generation of spaces characterized by high dimensionality and sparsity and influences the performance of many algorithms. This work provides an analysis of the behavior of the algorithm for biclustering Cheng and Church and the algorithm for coclustering non-negative block decomposition (NBVD) applied to the context of textual data. Quantitative and qualitative experimental results are shown, from experiments on synthetic datasets created with different sparsity levels and on a real data set. The results are evaluated in terms of their biclustering oriented measures, internal clustering measures applied to the projections in the lines of the biclusters/coclusters and in terms of generation of information. The analysis of the results clarifies questions related to the difficulties faced by these algorithms in the experimental environment, as well as if they are able to provide differentiated information useful to the field of text mining. In general, the analyses carried out showed that the NBVD algorithm is better suited to work with datasets in high dimensions and with high sparsity. The algorithm of Cheng and Church, although it obtained good results according to its own objectives, provided results with low relevance in the context of textual data
|
10 |
Biagrupamento heurístico e coagrupamento baseado em fatoração de matrizes: um estudo em dados textuais / Heuristic biclustering and coclustering based on matrix factorization: a study on textual dataAlexandra Katiuska Ramos Diaz 16 October 2018 (has links)
Biagrupamento e coagrupamento são tarefas de mineração de dados que permitem a extração de informação relevante sobre dados e têm sido aplicadas com sucesso em uma ampla variedade de domínios, incluindo aqueles que envolvem dados textuais -- foco de interesse desta pesquisa. Nas tarefas de biagrupamento e coagrupamento, os critérios de similaridade são aplicados simultaneamente às linhas e às colunas das matrizes de dados, agrupando simultaneamente os objetos e os atributos e possibilitando a criação de bigrupos/cogrupos. Contudo suas definições variam segundo suas naturezas e objetivos, sendo que a tarefa de coagrupamento pode ser vista como uma generalização da tarefa de biagrupamento. Estas tarefas, quando aplicadas nos dados textuais, demandam uma representação em um modelo de espaço vetorial que, comumente, leva à geração de espaços caracterizados pela alta dimensionalidade e esparsidade, afetando o desempenho de muitos dos algoritmos. Este trabalho apresenta uma análise do comportamento do algoritmo para biagrupamento Cheng e Church e do algoritmo para coagrupamento de decomposição de valores em blocos não negativos (\\textit{Non-Negative Block Value Decomposition} - NBVD), aplicado ao contexto de dados textuais. Resultados experimentais quantitativos e qualitativos são apresentados a partir das experimentações destes algoritmos em conjuntos de dados sintéticos criados com diferentes níveis de esparsidade e em um conjunto de dados real. Os resultados são avaliados em termos de medidas próprias de biagrupamento, medidas internas de agrupamento a partir das projeções nas linhas dos bigrupos/cogrupos e em termos de geração de informação. As análises dos resultados esclarecem questões referentes às dificuldades encontradas por estes algoritmos nos ambiente de experimentação, assim como se são capazes de fornecer informações diferenciadas e úteis na área de mineração de texto. De forma geral, as análises realizadas mostraram que o algoritmo NBVD é mais adequado para trabalhar com conjuntos de dados em altas dimensões e com alta esparsidade. O algoritmo de Cheng e Church, embora tenha obtidos resultados bons de acordo com os objetivos do algoritmo, no contexto de dados textuais, propiciou resultados com baixa relevância / Biclustering e coclustering are data mining tasks that allow the extraction of relevant information about data and have been applied successfully in a wide variety of domains, including those involving textual data - the focus of interest of this research. In biclustering and coclustering tasks, similarity criteria are applied simultaneously to the rows and columns of the data matrices, simultaneously grouping the objects and attributes and enabling the discovery of biclusters/coclusters. However their definitions vary according to their natures and objectives, being that the task of coclustering can be seen as a generalization of the task of biclustering. These tasks applied in the textual data demand a representation in a model of vector space, which commonly leads to the generation of spaces characterized by high dimensionality and sparsity and influences the performance of many algorithms. This work provides an analysis of the behavior of the algorithm for biclustering Cheng and Church and the algorithm for coclustering non-negative block decomposition (NBVD) applied to the context of textual data. Quantitative and qualitative experimental results are shown, from experiments on synthetic datasets created with different sparsity levels and on a real data set. The results are evaluated in terms of their biclustering oriented measures, internal clustering measures applied to the projections in the lines of the biclusters/coclusters and in terms of generation of information. The analysis of the results clarifies questions related to the difficulties faced by these algorithms in the experimental environment, as well as if they are able to provide differentiated information useful to the field of text mining. In general, the analyses carried out showed that the NBVD algorithm is better suited to work with datasets in high dimensions and with high sparsity. The algorithm of Cheng and Church, although it obtained good results according to its own objectives, provided results with low relevance in the context of textual data
|
Page generated in 0.0534 seconds