121 |
As relações entre indústria e serviços de economias selecionadas em diferentes níveis de desenvolvimento : uma análise de redes em matrizes de insumo-produto, para os anos de 2000, 2010 e 2014 /Alves, Karolina Barbosa January 2020 (has links)
Orientador: Rogerio Gomes / Resumo: O estudo pressupõe que a concentração das interações de comércio internacional não alterou significativamente o quadro internacional das últimas décadas. O presente estudo busca avaliar as relações internacionais entre agregados econômicos das maiores economias mundiais a partir dos conceitos de encadeamentos da demanda e oferta definidos pelos elos intersetoriais (Hirschman, 1958). Mesmo que o comércio internacional dos Serviços seja ainda pequeno quando comparado ao de Bens, ele vem apresentando crescente relevância devido ao avanço da demanda por serviços com elevado valor agregado. As atividades Industriais e de Serviços foram obtidos por agregação das Matrizes Insumo-Produto fornecidas pela World Input-Output Database (WIOD), de acordo com a classificação dos setores ISIC Rev. 4. A independência ou dependência das estruturas econômicas nacionais e as mudanças recentes nos fluxos de comércio são analisados por meio de Análise de Redes (software Gephi) aplicada a uma amostra de oito países em diferentes graus de desenvolvimento. Os resultados permitem confirmar parcialmente a hipótese, ou seja, o número de relações (conexões da rede) aumentou, mas não houve correspondente aumento da intensidade dos fluxos, a conectividade e compartilhamento da informação na rede são dependentes de poucos atores, mostrando que o alcance a novas conexões na Rede não necessariamente elevam a relevância do nó e a intensidade de suas conexões. / Abstract: The study assumes that the concentration of international trade interactions has not significantly altered the international situation in recent decades. The present study seeks to evaluate the international relations between economic aggregates of the largest world economies from the concepts of chains of demand and supply defined by intersectoral links (Hirschman, 1958). Even though the international trade in Services is still small when compared to that of Goods, it has been showing increasing relevance due to the increase in demand for Services with high added value. The Industrial and Service activities were obtained by aggregating the Input-Output Matrices provided by the World Input-Output Database (WIOD), according to the classification of the ISIC Rev. 4 sectors. The independence or dependence of national economic structures and recent changes in trade flows they are analyzed using Network Analysis (Gephi software) applied to a sample of eight countries in different degrees of development. The results allow to partially confirm the hypothesis, that is, the number of relationships (network connections) increased, but there was no corresponding increase in the intensity of flows, the connectivity and sharing of information on the network are dependent on a few actors, showing that the reach new connections on the Network do not necessarily increase the relevance of the node and the intensity of its connections. / Mestre
|
122 |
Sobre a termodinâmica dos espectros / On the spectrum thermodynamicCarnovali Junior, Edelver 18 April 2008 (has links)
Três ensembles, respectivamente relacionados com as distribuições Gaussiana, Lognormal e de Levy, são abordados neste trabalho primordialmente do ponto de vista da termodinâmica de seus espectros. Novas expressões para as grandezas termodinâmicas sao encontradas para os ensembles de Stieltjes e de Bertuola-Pato, e a conexão destes com os ensembles Gaussianos e estabelecida. Esta tese também se compromete com a continuação do desenvolvimento e aprimorarão do ensemble generalizado de Bertuola-Pato, estendendo alguns resultados para os ensembles simplifico e unitário generalizados, alem do ortogonal generalizado já introduzido anteriormente por A. C. Bertuola e M. P. Pato. / Three ensembles, related to the Gaussian, the Lognormal and the L´evy distributions respectively, have been studied in this work and were investigated most of all in what concerns their spectral thermodynamics. New expressions for the thermodynamics quantities were found for the Stieltjes and the Bertuola-Pato ensembles, and the connection with the gaussian ensembles is established. This work concerned with the development continuity and with the improvement of Bertuola-Pato generalized ensemble, extending some of the results to the simplectic and unitary generalized ensembles, besides the orthogonal generalized ensemble introduced before by A. C. Bertuola and M. P. Pato.
|
123 |
Aplicação da teoria das matrizes não-negativas e matrizes-M ao modelo de LeontiefRech, Sérgio José January 2002 (has links)
Seja Uln sistema econômico, que envolve n indústrias interdependentes tais que cada indústria produz um único tipo de artigo. Denotemos com t ij a quantidade da entrada (insumo) da iêsima mercadoria que a economia necessita para produzir uma unidade da mercadoria} de saída (produto). A matriz T := [ tlj ] de insumo-produto de Leontief é uma matriz não-negativa. Descreveremos as propriedades das matrizes não-negativas, necessárias para uma análise matemática do modelo de Leontief. Se esse modelo descreve uma economia viável, a soma dos elementos em cada coluna de T será menor ou igual a l. Suponhamos mais que o sistema econômico modelado contenha um setor aberto, onde trabalho, lucro, etc. entram como segue. Seja x, o produto total que a indústria i requer para atender à demanda do setor aberto e das n indústrias. Então x = Tx + d, onde d := [ d,] é o vetor das demandas, isto é, d; é a demanda do s~tor aberto sobre a indústria iésúna. Aqui l;JXj representa o insumo que a j ésima indústria necessita da i•s•ma indústria. Os níveis de produção requeridos pela totalidade das n indústrias, a fim de poder atender a essas demandas, constituem o vetor-solução do sistema linear Ax = d, com A := I- T. Como a soma dos elementos de cada coluna de T é menor ou igual a I; o raio espectral de T também é menor ou igual a 1. Quando o raio espectral é menor que 1, T é convergente e A tem um inversa com todos os elementos não-negativos (matriz não-negativa). Discutiremos as matrizes não-negativas. Além disso, os elementos não-diagonais de A := I - T são todos negativos ou nulos. Matrizes com esse quadro de sinais, cujas inversas são não-negativas, são ditas matrizes-M não-singulares. Discutjremos também as matrizes-M não-singulares e singulares. O objetivo principal deste trabalho é a apl icação interessante da teoria das matrizes nãonegativas e matrizes-M, na análise do modelo de Leontief descrito muito brevemente acima, resultando um método elegante de análise de insumo-produto. / Let us consid~r an economic system, that involves n interdependent industries, assuming that each industry produces only one type of commodities. Let tij denote the amount of input ofthe ith commodity needed by the economy to produce a unit output o f commodity j. The Leontief input-output matrix T := [ tij] is a nonnegative matrix. We will describe the properties of nonnegative matrices, necessary for a mathematical analysis ofthe Leontiefs model. Ifthat model describes an economically feasible situation, the sum of the elements in each column of T does not exceed I. Let us further suppose that the modeled economic system contains an open sector, where labor, profit, etc. enter in the following way. Let x, be the total output o f the industry i required to meet the demand o f the open sector and ali n industries. Then x = Tx + d, where d := [ d; ], is the vector ofthe demands, that is, d; is the demand of the open sector from the ith industry. Here li]Xj represents the input requirement of the jth industry from the ith. The output leveis required o f the totality o f the n industries, in order to meet these demands, are the solution vector x ofthe linear system Ax = d, with A :=I- T. As the sum ofthe elements of each column ofT is at most I, it follows that the spectral radius ofT is also at most I. When the spectral radius is less than 1, T is convergent and A is inverse-positive, that is, A'1 is a nonnegative matrix. We will discuss the nonnegative matrices. Besides, A:= I - T has ali its off-diagonal entries nonpositive. Jnverse-positive matrices with this sign pattem are called nonsingular M-matrices. We will also discuss nonsingular and singular M-matrices. The main goal of this work is the interesting appl ication of the nonnegative matrices and M-matrices theory to the analysis ofthe Leontiefs model, described very shortly above, resulting in an elegant method o f input-output analysis.
|
124 |
Aplicação da teoria das matrizes não-negativas e matrizes-M ao modelo de LeontiefRech, Sérgio José January 2002 (has links)
Seja Uln sistema econômico, que envolve n indústrias interdependentes tais que cada indústria produz um único tipo de artigo. Denotemos com t ij a quantidade da entrada (insumo) da iêsima mercadoria que a economia necessita para produzir uma unidade da mercadoria} de saída (produto). A matriz T := [ tlj ] de insumo-produto de Leontief é uma matriz não-negativa. Descreveremos as propriedades das matrizes não-negativas, necessárias para uma análise matemática do modelo de Leontief. Se esse modelo descreve uma economia viável, a soma dos elementos em cada coluna de T será menor ou igual a l. Suponhamos mais que o sistema econômico modelado contenha um setor aberto, onde trabalho, lucro, etc. entram como segue. Seja x, o produto total que a indústria i requer para atender à demanda do setor aberto e das n indústrias. Então x = Tx + d, onde d := [ d,] é o vetor das demandas, isto é, d; é a demanda do s~tor aberto sobre a indústria iésúna. Aqui l;JXj representa o insumo que a j ésima indústria necessita da i•s•ma indústria. Os níveis de produção requeridos pela totalidade das n indústrias, a fim de poder atender a essas demandas, constituem o vetor-solução do sistema linear Ax = d, com A := I- T. Como a soma dos elementos de cada coluna de T é menor ou igual a I; o raio espectral de T também é menor ou igual a 1. Quando o raio espectral é menor que 1, T é convergente e A tem um inversa com todos os elementos não-negativos (matriz não-negativa). Discutiremos as matrizes não-negativas. Além disso, os elementos não-diagonais de A := I - T são todos negativos ou nulos. Matrizes com esse quadro de sinais, cujas inversas são não-negativas, são ditas matrizes-M não-singulares. Discutjremos também as matrizes-M não-singulares e singulares. O objetivo principal deste trabalho é a apl icação interessante da teoria das matrizes nãonegativas e matrizes-M, na análise do modelo de Leontief descrito muito brevemente acima, resultando um método elegante de análise de insumo-produto. / Let us consid~r an economic system, that involves n interdependent industries, assuming that each industry produces only one type of commodities. Let tij denote the amount of input ofthe ith commodity needed by the economy to produce a unit output o f commodity j. The Leontief input-output matrix T := [ tij] is a nonnegative matrix. We will describe the properties of nonnegative matrices, necessary for a mathematical analysis ofthe Leontiefs model. Ifthat model describes an economically feasible situation, the sum of the elements in each column of T does not exceed I. Let us further suppose that the modeled economic system contains an open sector, where labor, profit, etc. enter in the following way. Let x, be the total output o f the industry i required to meet the demand o f the open sector and ali n industries. Then x = Tx + d, where d := [ d; ], is the vector ofthe demands, that is, d; is the demand of the open sector from the ith industry. Here li]Xj represents the input requirement of the jth industry from the ith. The output leveis required o f the totality o f the n industries, in order to meet these demands, are the solution vector x ofthe linear system Ax = d, with A :=I- T. As the sum ofthe elements of each column ofT is at most I, it follows that the spectral radius ofT is also at most I. When the spectral radius is less than 1, T is convergent and A is inverse-positive, that is, A'1 is a nonnegative matrix. We will discuss the nonnegative matrices. Besides, A:= I - T has ali its off-diagonal entries nonpositive. Jnverse-positive matrices with this sign pattem are called nonsingular M-matrices. We will also discuss nonsingular and singular M-matrices. The main goal of this work is the interesting appl ication of the nonnegative matrices and M-matrices theory to the analysis ofthe Leontiefs model, described very shortly above, resulting in an elegant method o f input-output analysis.
|
125 |
Sobre a termodinâmica dos espectros / On the spectrum thermodynamicEdelver Carnovali Junior 18 April 2008 (has links)
Três ensembles, respectivamente relacionados com as distribuições Gaussiana, Lognormal e de Levy, são abordados neste trabalho primordialmente do ponto de vista da termodinâmica de seus espectros. Novas expressões para as grandezas termodinâmicas sao encontradas para os ensembles de Stieltjes e de Bertuola-Pato, e a conexão destes com os ensembles Gaussianos e estabelecida. Esta tese também se compromete com a continuação do desenvolvimento e aprimorarão do ensemble generalizado de Bertuola-Pato, estendendo alguns resultados para os ensembles simplifico e unitário generalizados, alem do ortogonal generalizado já introduzido anteriormente por A. C. Bertuola e M. P. Pato. / Three ensembles, related to the Gaussian, the Lognormal and the L´evy distributions respectively, have been studied in this work and were investigated most of all in what concerns their spectral thermodynamics. New expressions for the thermodynamics quantities were found for the Stieltjes and the Bertuola-Pato ensembles, and the connection with the gaussian ensembles is established. This work concerned with the development continuity and with the improvement of Bertuola-Pato generalized ensemble, extending some of the results to the simplectic and unitary generalized ensembles, besides the orthogonal generalized ensemble introduced before by A. C. Bertuola and M. P. Pato.
|
126 |
Aplicação da teoria das matrizes não-negativas e matrizes-M ao modelo de LeontiefRech, Sérgio José January 2002 (has links)
Seja Uln sistema econômico, que envolve n indústrias interdependentes tais que cada indústria produz um único tipo de artigo. Denotemos com t ij a quantidade da entrada (insumo) da iêsima mercadoria que a economia necessita para produzir uma unidade da mercadoria} de saída (produto). A matriz T := [ tlj ] de insumo-produto de Leontief é uma matriz não-negativa. Descreveremos as propriedades das matrizes não-negativas, necessárias para uma análise matemática do modelo de Leontief. Se esse modelo descreve uma economia viável, a soma dos elementos em cada coluna de T será menor ou igual a l. Suponhamos mais que o sistema econômico modelado contenha um setor aberto, onde trabalho, lucro, etc. entram como segue. Seja x, o produto total que a indústria i requer para atender à demanda do setor aberto e das n indústrias. Então x = Tx + d, onde d := [ d,] é o vetor das demandas, isto é, d; é a demanda do s~tor aberto sobre a indústria iésúna. Aqui l;JXj representa o insumo que a j ésima indústria necessita da i•s•ma indústria. Os níveis de produção requeridos pela totalidade das n indústrias, a fim de poder atender a essas demandas, constituem o vetor-solução do sistema linear Ax = d, com A := I- T. Como a soma dos elementos de cada coluna de T é menor ou igual a I; o raio espectral de T também é menor ou igual a 1. Quando o raio espectral é menor que 1, T é convergente e A tem um inversa com todos os elementos não-negativos (matriz não-negativa). Discutiremos as matrizes não-negativas. Além disso, os elementos não-diagonais de A := I - T são todos negativos ou nulos. Matrizes com esse quadro de sinais, cujas inversas são não-negativas, são ditas matrizes-M não-singulares. Discutjremos também as matrizes-M não-singulares e singulares. O objetivo principal deste trabalho é a apl icação interessante da teoria das matrizes nãonegativas e matrizes-M, na análise do modelo de Leontief descrito muito brevemente acima, resultando um método elegante de análise de insumo-produto. / Let us consid~r an economic system, that involves n interdependent industries, assuming that each industry produces only one type of commodities. Let tij denote the amount of input ofthe ith commodity needed by the economy to produce a unit output o f commodity j. The Leontief input-output matrix T := [ tij] is a nonnegative matrix. We will describe the properties of nonnegative matrices, necessary for a mathematical analysis ofthe Leontiefs model. Ifthat model describes an economically feasible situation, the sum of the elements in each column of T does not exceed I. Let us further suppose that the modeled economic system contains an open sector, where labor, profit, etc. enter in the following way. Let x, be the total output o f the industry i required to meet the demand o f the open sector and ali n industries. Then x = Tx + d, where d := [ d; ], is the vector ofthe demands, that is, d; is the demand of the open sector from the ith industry. Here li]Xj represents the input requirement of the jth industry from the ith. The output leveis required o f the totality o f the n industries, in order to meet these demands, are the solution vector x ofthe linear system Ax = d, with A :=I- T. As the sum ofthe elements of each column ofT is at most I, it follows that the spectral radius ofT is also at most I. When the spectral radius is less than 1, T is convergent and A is inverse-positive, that is, A'1 is a nonnegative matrix. We will discuss the nonnegative matrices. Besides, A:= I - T has ali its off-diagonal entries nonpositive. Jnverse-positive matrices with this sign pattem are called nonsingular M-matrices. We will also discuss nonsingular and singular M-matrices. The main goal of this work is the interesting appl ication of the nonnegative matrices and M-matrices theory to the analysis ofthe Leontiefs model, described very shortly above, resulting in an elegant method o f input-output analysis.
|
127 |
Reordenação de matrizes de dados quantitativos usando árvores PQR / Using PQR trees for quantitative data matrix reorderingMedina, Bruno Figueiredo, 1990- 27 August 2018 (has links)
Orientador: Celmar Guimarães da Silva / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia / Made available in DSpace on 2018-08-27T09:05:54Z (GMT). No. of bitstreams: 1
Medina_BrunoFigueiredo_M.pdf: 3649814 bytes, checksum: ab007f9e22f1dab1394a99e9b4d80b4f (MD5)
Previous issue date: 2015 / Resumo: Matrizes são estruturas subjacentes a diferentes tipos de visualização de dados, como por exemplo, heatmaps. Diferentes algoritmos possibilitam uma permutação automática de suas linhas e colunas para prover um melhor entendimento visual, procurando agrupar linhas e colunas similares e evidenciar padrões. Trabalhos anteriores testaram e compararam alguns desses algoritmos em matrizes de dados binários, obtendo bons resultados o algoritmo PQR-Sort with Sorted Restrictions, em termos de tempo de execução e qualidade da reordenação em alguns tipos de matrizes. Contudo, este algoritmo não foi estendido para trabalhar com matrizes de dados quantitativos. Dessa forma, como continuidade desses trabalhos, este projeto testa a hipótese de que é possível elaborar variações do algoritmo PQR-Sort with Sorted Restrictions capazes de reordenar matrizes de dados quantitativos, e cuja eficiência de tempo e de qualidade da reordenação supere algoritmos de mesmo propósito. Neste projeto, foram elaborados os algoritmos Smoothed Multiple Binarization (SMB) e Multiple Binarization (MB). Ambos utilizam criação de vetores característicos (para descoberta de padrões canônicos de dados), árvores PQR e binarização de matrizes para sua reordenação. O SMB possui um potencial para prover boas reordernações de matrizes que contenham ruídos, pois faz o tratamento destes ruídos no conjunto de dados. Esses algoritmos foram testados e comparados com o Multidimensional Scaling (MDS) e algoritmo de Sugiyama adaptado (heurística baricêntrica), em termos de qualidade de reordenação e tempo de execução sobre matrizes sintéticas com os padrões canônicos Simplex, Band, Circumplex e Equi. Os resultados obtidos indicaram que os algoritmos SMB e MB destacaram-se dentre os demais pela capacidade de evidenciação do padrão Circumplex, e trouxeram resultados similares aos dos algoritmos testados para os padrões Equi e Band. Os resultados também indicam que SMB e MB são, em média, 3 e 6 vezes mais rápidos que o MDS, respectivamente. Deste modo, o uso de SMB e MB torna-se atrativo para a reordenação de matrizes que evidenciem padrões Circumplex, Equi e Band / Abstract: Matrices are structures underlying different types of data visualization, as heatmap. Different algorithms enable automatic permutation of their rows and columns to provide a better visual understanding, aiming to group similar rows and columns and show patterns. Earlier work tested and compared some of these algorithms on binary data matrices, and revealed that PQR-Sort with Sorted Restrictions algorithm returned good results in terms of runtime and quality of reordered matrix. However, this algorithm was not extended for quantitative data matrices. Thus, as a continuation of these studies, this project aims to test the hypothesis that it is possible to develop variations of the PQR-Sort with Sorted Restrictions algorithm able to reorder quantitative data matrices, and whose quality of results and time efficiency surpasses algorithms that have the same purpose. In this work, it was elaborated the Smoothed Multiple Binarization (SMB) and Multiple Binarization (MB). Both use feature selection (to discovering canonical pattern of data), PQR Tree and binary matrices for their reordering. SMB algorithm has a potential to provide good matrices reordering with noise, because it does the noise treatment in data sets. These algorithms were tested and compared with Multidimensional Scaling (MDS) and Adapted Sugiyama (or Barycentric Heuristic) algorithms, in terms of quality of reordering and runtime on synthetics matrices with the canonical patterns Simplex, Band, Circumplex and Equi. The results indicated that SMB and MB algorithms stood out from the others by capacity of highlight Circumplex pattern, besides showing that may to obtain similar results to MDS and Adapted Sugiyama for Equi and Band patterns. Furthermore, SMB and MB were, on average, 3 and 6 times faster than MDS, respectively. Thus, the use of the SMB and MB algorithms can be attractive for matrices reordering that evidence Circumplex, Equi and Band patterns / Mestrado / Tecnologia e Inovação / Mestre em Tecnologia
|
128 |
[en] BINARY MATRIX FACTORIZATION POST-PROCESSING AND APPLICATIONS / [pt] PÓS-PROCESSAMENTO DE FATORAÇÃO BINÁRIA DE MATRIZES E APLICAÇÕESGEORGES MIRANDA SPYRIDES 06 February 2024 (has links)
[pt] Novos métodos de fatoração de matrizes introduzem restrições às matrizes decompostas, permitindo tipos únicos de análise. Uma modificação significativa é a fatoração de matrizes binárias para matrizes binárias. Esta técnica pode revelar subconjuntos comuns e mistura de subconjuntos, tornando-a útil em uma variedade de aplicações, como análise de cesta de mercado, modelagem de tópicos e sistemas de recomendação. Apesar das vantagens, as abordagens atuais enfrentam um trade-off entre precisão, escalabilidade e explicabilidade. Enquanto os métodos baseados em gradiente descendente são escaláveis, eles geram altos erros de reconstrução quando limitados para matrizes binárias. Por outro lado, os métodos heurísticos não são escaláveis. Para superar isso, essa tese propõe um procedimento de pós-processamento para discretizar matrizes obtidas por gradiente descendente. Esta nova abordagem recupera o erro de reconstrução após a limitação e processa com sucesso matrizes maiores dentro de um prazo razoável. Testamos esta técnica a muitas aplicações, incluindo um novo pipeline para descobrir e visualizar padrões em processos petroquímicos em batelada. / [en] Novel methods for matrix factorization introduce constraints to the
decomposed matrices, allowing for unique kinds of analysis. One significant
modification is the binary matrix factorization for binary matrices. This
technique can reveal common subsets and mixing of subsets, making it useful
in a variety of applications, such as market basket analysis, topic modeling,
and recommendation systems. Despite the advantages, current approaches face
a trade-off between accuracy, scalability, and explainability. While gradient
descent-based methods are scalable, they yield high reconstruction errors
when thresholded for binary matrices. Conversely, heuristic methods are not
scalable. To overcome this, this thesis propose a post-processing procedure
for discretizing matrices obtained by gradient descent. This novel approach
recovers the reconstruction error post-thresholding and successfully processes
larger matrices within a reasonable timeframe. We apply this technique to
many applications including a novel pipeline for discovering and visualizing
patterns in petrochemical batch processes.
|
129 |
Singularidades de famílias de matrizes simétricas / Singularities of families of symmetric matricesDias, Luis Renato Gonçalves 26 February 2009 (has links)
Estudamos singularidades de famílias de matrizes simétricas. O objetivo é classificar as singularidades simples de tais famílias e estudar a geometria de alguns objetos associados a elas / We study the singularities of families of symmetric matrices. The aim of this work is to classify simple singularities of such families and study the geometry of some objects associated to them
|
130 |
Biagrupamento heurístico e coagrupamento baseado em fatoração de matrizes: um estudo em dados textuais / Heuristic biclustering and coclustering based on matrix factorization: a study on textual dataRamos Diaz, Alexandra Katiuska 16 October 2018 (has links)
Biagrupamento e coagrupamento são tarefas de mineração de dados que permitem a extração de informação relevante sobre dados e têm sido aplicadas com sucesso em uma ampla variedade de domínios, incluindo aqueles que envolvem dados textuais -- foco de interesse desta pesquisa. Nas tarefas de biagrupamento e coagrupamento, os critérios de similaridade são aplicados simultaneamente às linhas e às colunas das matrizes de dados, agrupando simultaneamente os objetos e os atributos e possibilitando a criação de bigrupos/cogrupos. Contudo suas definições variam segundo suas naturezas e objetivos, sendo que a tarefa de coagrupamento pode ser vista como uma generalização da tarefa de biagrupamento. Estas tarefas, quando aplicadas nos dados textuais, demandam uma representação em um modelo de espaço vetorial que, comumente, leva à geração de espaços caracterizados pela alta dimensionalidade e esparsidade, afetando o desempenho de muitos dos algoritmos. Este trabalho apresenta uma análise do comportamento do algoritmo para biagrupamento Cheng e Church e do algoritmo para coagrupamento de decomposição de valores em blocos não negativos (\\textit{Non-Negative Block Value Decomposition} - NBVD), aplicado ao contexto de dados textuais. Resultados experimentais quantitativos e qualitativos são apresentados a partir das experimentações destes algoritmos em conjuntos de dados sintéticos criados com diferentes níveis de esparsidade e em um conjunto de dados real. Os resultados são avaliados em termos de medidas próprias de biagrupamento, medidas internas de agrupamento a partir das projeções nas linhas dos bigrupos/cogrupos e em termos de geração de informação. As análises dos resultados esclarecem questões referentes às dificuldades encontradas por estes algoritmos nos ambiente de experimentação, assim como se são capazes de fornecer informações diferenciadas e úteis na área de mineração de texto. De forma geral, as análises realizadas mostraram que o algoritmo NBVD é mais adequado para trabalhar com conjuntos de dados em altas dimensões e com alta esparsidade. O algoritmo de Cheng e Church, embora tenha obtidos resultados bons de acordo com os objetivos do algoritmo, no contexto de dados textuais, propiciou resultados com baixa relevância / Biclustering e coclustering are data mining tasks that allow the extraction of relevant information about data and have been applied successfully in a wide variety of domains, including those involving textual data - the focus of interest of this research. In biclustering and coclustering tasks, similarity criteria are applied simultaneously to the rows and columns of the data matrices, simultaneously grouping the objects and attributes and enabling the discovery of biclusters/coclusters. However their definitions vary according to their natures and objectives, being that the task of coclustering can be seen as a generalization of the task of biclustering. These tasks applied in the textual data demand a representation in a model of vector space, which commonly leads to the generation of spaces characterized by high dimensionality and sparsity and influences the performance of many algorithms. This work provides an analysis of the behavior of the algorithm for biclustering Cheng and Church and the algorithm for coclustering non-negative block decomposition (NBVD) applied to the context of textual data. Quantitative and qualitative experimental results are shown, from experiments on synthetic datasets created with different sparsity levels and on a real data set. The results are evaluated in terms of their biclustering oriented measures, internal clustering measures applied to the projections in the lines of the biclusters/coclusters and in terms of generation of information. The analysis of the results clarifies questions related to the difficulties faced by these algorithms in the experimental environment, as well as if they are able to provide differentiated information useful to the field of text mining. In general, the analyses carried out showed that the NBVD algorithm is better suited to work with datasets in high dimensions and with high sparsity. The algorithm of Cheng and Church, although it obtained good results according to its own objectives, provided results with low relevance in the context of textual data
|
Page generated in 0.0742 seconds