Spelling suggestions: "subject:"dimensionalidade"" "subject:"imensionalidade""
1 |
"Análise visual em processos de redução de dimensionalidade para mineração em sistemas de bases de dados"Razente, Humberto Luiz 21 May 2004 (has links)
O grande volume de dados coletados pelas empresas nas últimas décadas tornou-se uma fonte de informações valiosas, permitindo às empresas obter maior competitividade. Entretanto, a análise desses dados - a transformação deles em informações úteis - tornou-se uma tarefa difícil. Em muitos casos, além desses dados existirem em grande número de itens, eles são compostos por um grande número de dimensões (ou atributos), dificultando a sua compreensão. Nesses dados, uma eliminação de atributos correlacionados poderia diminuir a complexidade de diversas técnicas de análise existentes. Embora a existência de correlações entre atributos possa ser encontrada por diversas técnicas estatísticas, essas correlações também podem ser observadas visualmente. Este trabalho apresenta a técnica Visualização por Blocos Verticais - BV que permite a sobreposição de diferentes mapeamentos de um mesmo conjunto de dados de alta dimensão, tornando possível a observação visual das correlações existentes entre os atributos. A técnica Visualização por Blocos Horizontais - BH, também apresentada neste trabalho, permite a sobreposição de mapeamentos de eventos orientados por um atributo separador, permitindo observar a evolução dos objetos como um todo. Ambas as técnicas utilizam o algoritmo FastMap para realizar a redução de dimensionalidade dos dados para um espaço euclidiano tridimensional para viabilizar sua visualização em um ambiente interativo e intuitivo.
|
2 |
Confinamento quântico em hetero-estruturas semicondutoras de baixa dimensionalidadeSilva, Jusciane da Costa e January 2008 (has links)
SILVA, Jusciane da Costa e. Confinamento quântico em hetero-estruturas semicondutoras de baixa dimensionalidade. 2008. 161 f. Tese (Doutorado em Física) - Programa de Pós-Graduação em Física, Departamento de Física, Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2008. / Submitted by Edvander Pires (edvanderpires@gmail.com) on 2015-06-08T19:06:12Z
No. of bitstreams: 1
2008_tese_jcsilva.pdf: 13619378 bytes, checksum: a3f4c7764a488787096097d7d5a0ac01 (MD5) / Approved for entry into archive by Edvander Pires(edvanderpires@gmail.com) on 2015-06-08T19:07:00Z (GMT) No. of bitstreams: 1
2008_tese_jcsilva.pdf: 13619378 bytes, checksum: a3f4c7764a488787096097d7d5a0ac01 (MD5) / Made available in DSpace on 2015-06-08T19:07:00Z (GMT). No. of bitstreams: 1
2008_tese_jcsilva.pdf: 13619378 bytes, checksum: a3f4c7764a488787096097d7d5a0ac01 (MD5)
Previous issue date: 2008 / Os materiais semicondutores são responsáveis pelo grande desenvolvimento na indústria eletrônica e surgimento de novas tecnologias. O conceito de hetero-estrutura deu um grande impulso à física do estado sólido. É impossível imaginar a moderna física do estado sólido sem hetero-estruturas semicondutoras. A física de semicondutores está atualmente concentrada no estudo dos chamados sistemas de dimensões reduzidas: poços, fios, pontos e anéis quânticos, assunto de pesquisa de dois terços da comunidade de física de semicondutores. Neste trabalho, investigaremos o confinamento dos portadores e dos excitons em hetero-estruturas de baixas dimensão; poço, ponto e anel quântico. Iniciaremos com o estudo das propriedades excitônicas de poços quânticos Si/Si_{1-x}Ge_x, considerando duas possibilidades para o alinhamento de banda: tipo-I, onde os portadores de cargas, elétron e buraco, estão confinados no mesmo material, e tipo-II, onde os portadores estão espacialmente localizados em materiais diferentes. Usaremos um Hamiltoniano que, na aproximação da massa efetiva, leva em conta a existência de interfaces não abruptas entre os materiais que compõe o sistema. Nos sistemas tipo-I, observamos que a energia do exciton sofre um aumento quando consideramos campos elétricos aplicados. Já em sistemas tipo-II, o campo magnético afeta bem mais o confinamento do elétron do que o do buraco. Investigamos alguns fenômenos nos anéis quânticos, como: impurezas, efeitos geométricos, rugosidade e anéis duplos. Calculamos os níveis de energia do elétron em anéis quânticos considerando um campo magnético perpendicular, levando em conta um modelo realístico, que consiste em anéis com barreiras e potenciais finitos, não limitado a pequenas pertubações. Quando consideramos a presença de uma impureza no anel quântico, há uma quebra de simetria no sistema e consequetemente as oscilações Aharanov-Bohm (AB) são anuladas. Entretanto, para duas impurezas, as oscilações AB são recuperadas se as distâncias entre as impurezas e o plano forem iguais, no caso das impurezas positivas e para impurezas negativas as oscilações são recuperadas independente das posições das impurezas. A existência de interfaces rugosas é responsável por um considerável deslocamento nas energias dos portadores. Além disso, a degenerescência nos pontos de transição do momento angular nas oscilações AB é levantada quando consideramos superfícies rugosas, em casos especiais, as oscilações AB nas energias do estado fundamental pode ser anuladas. Fizemos também um estudo teórico da energia dos portadores em pontos quânticos tipo-I e tipo-II, além de um estudo em pontos quânticos duplos $InGaAs/GaAs$ analisando o efeito de afastamento entre os pontos e considerando dois tipos de acoplamento: lateral e vertical. A equação de Schodinger em três dimensões, na aproximação da massa efetiva, é resolvida para elétrons e buracos a partir de um método de evolução temporal da função de onda. Observamos que as curvas do Stark shift das energias de ligação e total do exciton em pontos quânticos Si/Si_{0.85}Ge_{0.15} tipo-I são assimétricas devido à existência de um dipolo elétrico intrínseco nestes sistemas. No entanto, quando consideramos o efeito de um campo magnético paralelo ao plano, o Stark shift torna-se mais simétrico. No caso dos pontos duplos, vimos que a energia de confinamento do elétron em pontos quânticos acoplados lateralmente, quando consideramos os raios dos pontos iguais, degeneram à medida que a distância entre os pontos aumenta. Entretanto, quando os raios dos pontos são diferentes, essas energias não têm mudanças significativas. Para o caso do acoplamento vertical, o comportamento é semelhante ao dos pontos lado a lado: Para raios iguais em ambos os pontos quânticos, os pares de estados tornam-se degenerados à medida que a distância entre os pontos aumenta, o que não acontece quando consideramos o caso de pontos com raios diferentes.
|
3 |
"Análise visual em processos de redução de dimensionalidade para mineração em sistemas de bases de dados"Humberto Luiz Razente 21 May 2004 (has links)
O grande volume de dados coletados pelas empresas nas últimas décadas tornou-se uma fonte de informações valiosas, permitindo às empresas obter maior competitividade. Entretanto, a análise desses dados - a transformação deles em informações úteis - tornou-se uma tarefa difícil. Em muitos casos, além desses dados existirem em grande número de itens, eles são compostos por um grande número de dimensões (ou atributos), dificultando a sua compreensão. Nesses dados, uma eliminação de atributos correlacionados poderia diminuir a complexidade de diversas técnicas de análise existentes. Embora a existência de correlações entre atributos possa ser encontrada por diversas técnicas estatísticas, essas correlações também podem ser observadas visualmente. Este trabalho apresenta a técnica Visualização por Blocos Verticais - BV que permite a sobreposição de diferentes mapeamentos de um mesmo conjunto de dados de alta dimensão, tornando possível a observação visual das correlações existentes entre os atributos. A técnica Visualização por Blocos Horizontais - BH, também apresentada neste trabalho, permite a sobreposição de mapeamentos de eventos orientados por um atributo separador, permitindo observar a evolução dos objetos como um todo. Ambas as técnicas utilizam o algoritmo FastMap para realizar a redução de dimensionalidade dos dados para um espaço euclidiano tridimensional para viabilizar sua visualização em um ambiente interativo e intuitivo.
|
4 |
Understanding interactive multidimensional projections / Compreendendo projeções multidimensionais interativasFadel, Samuel Gomes 14 October 2016 (has links)
The large amount of available data on a diverse range of human activities provides many opportunities for understanding, improving and revealing unknown patterns in them. Powerful automatic methods for extracting this knowledge from data are already available from machine learning and data mining. They, however, rely on the expertise of analysts to improve their results when those are not satisfactory. In this context, interactive multidimensional projections are a useful tool for the analysis of multidimensional data by revealing their underlying structure while allowing the user to manipulate the results to provide further insight into this structure. This manipulation, however, has received little attention regarding their influence on the mappings, as they can change the final layout in unpredictable ways. This is the main motivation for this research: understanding the effects caused by changes in these mappings. We approach this problem from two perspectives. First, the user perspective, we designed and developed visualizations that help reduce the trial and error in this process by providing the right piece of information for performing manipulations. Furthermore, these visualizations help explain the changes in the map caused by such manipulations. Second, we defined the effectiveness of manipulation in quantitative terms, then developed an experimental framework for assessing manipulations in multidimensional projections under this view. This framework is based on improving mappings using known evaluation measures for these techniques. Using the improvement of measures as different types of manipulations, we perform a series of experiments on five datasets, five measures, and four techniques. Our experimental results show that there are possible types of manipulations that can happen effectively, with some techniques being more susceptible to manipulations than others. / O grande volume de dados disponíveis em uma diversa gama de atividades humanas cria várias oportunidades para entendermos, melhorarmos e revelarmos padrões previamente desconhecidos em tais atividades. Métodos automáticos para extrair esses conhecimentos a partir de dados já existem em áreas como aprendizado de máquina e mineração de dados. Entretanto, eles dependem da perícia do analista para obter melhores resultados quando estes não são satisfatórios. Neste contexto, técnicas de projeção multidimensional interativas são uma ferramenta útil para a análise de dados multidimensionais, revelando sua estrutura subjacente ao mesmo tempo que permite ao analista manipular os resultados interativamente, estendendo o processo de exploração. Essa interação, entretanto, não foi estudada com profundidade com respeito à sua real influência nos mapeamentos, já que podem causar mudanças não esperadas no mapeamento final. Essa é a principal motivação desta pesquisa: entender os efeitos causados pelas mudanças em tais mapeamentos. Abordamos o problema de duas perspectivas. Primeiro, da perspectiva do usuário, desenvolvemos visualizações que ajudam a diminuir tentativas e erros neste processo provendo a informação necessária a cada passo da interação. Além disso, essas visualizações ajudam a explicar as mudanças causadas no mapeamento pela manipulação. A segunda perspectiva é a efetividade da manipulação. Definimos de forma quantitativa a efetividade da manipulação, e então desenvolvemos um arcabouço para avaliar manipulações sob a visão da efetividade. Este arcabouço é baseado em melhorias nos mapeamentos usando medidas de avaliação conhecidas para tais técnicas. Usando tais melhorias como diferentes formas de manipulação, realizamos uma série de experimentos em cinco bases de dados, cinco medidas e quatro técnicas. Nossos resultados experimentais nos dão evidências que existem certos tipos de manipulação que podem acontecer efetivamente, com algumas técnicas sendo mais suscetíveis a manipulações do que outras.
|
5 |
Robust algorithms for linear regression and locally linear embedding / Algoritmos robustos para regressão linear e locally linear embeddingRettes, Julio Alberto Sibaja January 2017 (has links)
RETTES, Julio Alberto Sibaja. Robust algorithms for linear regression and locally linear embedding. 2017. 105 f. Dissertação (Mestrado em Ciência da Computação)- Universidade Federal do Ceará, Fortaleza, 2017. / Submitted by Weslayne Nunes de Sales (weslaynesales@ufc.br) on 2017-03-30T13:15:27Z
No. of bitstreams: 1
2017_dis_rettesjas.pdf: 3569500 bytes, checksum: 46cedc2d9f96d0f58bcdfe3e0d975d78 (MD5) / Approved for entry into archive by Rocilda Sales (rocilda@ufc.br) on 2017-04-04T11:10:44Z (GMT) No. of bitstreams: 1
2017_dis_rettesjas.pdf: 3569500 bytes, checksum: 46cedc2d9f96d0f58bcdfe3e0d975d78 (MD5) / Made available in DSpace on 2017-04-04T11:10:44Z (GMT). No. of bitstreams: 1
2017_dis_rettesjas.pdf: 3569500 bytes, checksum: 46cedc2d9f96d0f58bcdfe3e0d975d78 (MD5)
Previous issue date: 2017 / Nowadays a very large quantity of data is flowing around our digital society. There is a growing interest in converting this large amount of data into valuable and useful information. Machine learning plays an essential role in the transformation of data into knowledge. However, the probability of outliers inside the data is too high to marginalize the importance of robust algorithms. To understand that, various models of outliers are studied. In this work, several robust estimators within the generalized linear model for regression framework are discussed and analyzed: namely, the M-Estimator, the S-Estimator, the MM-Estimator, the RANSAC and the Theil-Sen estimator. This choice is motivated by the necessity of examining algorithms with different working principles. In particular, the M-, S-, MM-Estimator are based on a modification of the least squares criterion, whereas the RANSAC is based on finding the smallest subset of points that guarantees a predefined model accuracy. The Theil Sen, on the other hand, uses the median of least square models to estimate. The performance of the estimators under a wide range of experimental conditions is compared and analyzed. In addition to the linear regression problem, the dimensionality reduction problem is considered. More specifically, the locally linear embedding, the principal component analysis and some robust approaches of them are treated. Motivated by giving some robustness to the LLE algorithm, the RALLE algorithm is proposed. Its main idea is to use different sizes of neighborhoods to construct the weights of the points; to achieve this, the RAPCA is executed in each set of neighbors and the risky points are discarded from the corresponding neighborhood. The performance of the LLE, the RLLE and the RALLE over some datasets is evaluated. / Na atualidade um grande volume de dados é produzido na nossa sociedade digital. Existe um crescente interesse em converter esses dados em informação útil e o aprendizado de máquinas tem um papel central nessa transformação de dados em conhecimento. Por outro lado, a probabilidade dos dados conterem outliers é muito alta para ignorar a importância dos algoritmos robustos. Para se familiarizar com isso, são estudados vários modelos de outliers. Neste trabalho, discutimos e analisamos vários estimadores robustos dentro do contexto dos modelos de regressão linear generalizados: são eles o M-Estimator, o S-Estimator, o MM-Estimator, o RANSAC e o Theil-Senestimator. A escolha dos estimadores é motivada pelo principio de explorar algoritmos com distintos conceitos de funcionamento. Em particular os estimadores M, S e MM são baseados na modificação do critério de minimização dos mínimos quadrados, enquanto que o RANSAC se fundamenta em achar o menor subconjunto que permita garantir uma acurácia predefinida ao modelo. Por outro lado o Theil-Sen usa a mediana de modelos obtidos usando mínimos quadradosno processo de estimação. O desempenho dos estimadores em uma ampla gama de condições experimentais é comparado e analisado. Além do problema de regressão linear, considera-se o problema de redução da dimensionalidade. Especificamente, são tratados o Locally Linear Embedding, o Principal ComponentAnalysis e outras abordagens robustas destes. É proposto um método denominado RALLE com a motivação de prover de robustez ao algoritmo de LLE. A ideia principal é usar vizinhanças de tamanhos variáveis para construir os pesos dos pontos; para fazer isto possível, o RAPCA é executado em cada grupo de vizinhos e os pontos sob risco são descartados da vizinhança correspondente. É feita uma avaliação do desempenho do LLE, do RLLE e do RALLE sobre algumas bases de dados.
|
6 |
Confinamento quÃntico em hetero-estruturas semicondutoras de baixa dimensionalidade.Jusciane da Costa e Silva 17 April 2008 (has links)
Conselho Nacional de Desenvolvimento CientÃfico e TecnolÃgico / Os materiais semicondutores sÃo responsÃveis pelo
grande desenvolvimento na indÃstria eletrÃnica e surgimento de novas tecnologias. O conceito de hetero-estrutura deu um grande impulso à fÃsica do estado sÃlido. à impossÃvel imaginar a moderna fÃsica do estado sÃlido sem hetero-estruturas semicondutoras. A fÃsica de semicondutores està atualmente concentrada no estudo dos chamados sistemas de dimensÃes reduzidas: poÃos, fios, pontos e anÃis quÃnticos, assunto de pesquisa de dois terÃos da comunidade de fÃsica de semicondutores.
Neste trabalho, investigaremos o confinamento dos portadores e dos excitons em hetero-estruturas de baixas dimensÃo; poÃo, ponto e anel quÃntico. Iniciaremos com o estudo das propriedades excitÃnicas de poÃos quÃnticos Si/Si_{1-x}Ge_x, considerando duas possibilidades para o alinhamento de banda: tipo-I, onde os portadores de cargas, elÃtron e buraco, estÃo confinados no mesmo material, e tipo-II, onde os portadores estÃo espacialmente localizados em materiais diferentes. Usaremos um Hamiltoniano que,
na aproximaÃÃo da massa efetiva, leva em conta a existÃncia de interfaces nÃo abruptas entre os materiais que compÃe o sistema. Nos sistemas tipo-I, observamos que a energia do exciton sofre um aumento quando consideramos campos elÃtricos aplicados. JÃ em sistemas tipo-II, o campo magnÃtico afeta bem mais o confinamento do elÃtron do que o do buraco.
Investigamos alguns fenÃmenos nos anÃis quÃnticos, como:
impurezas, efeitos geomÃtricos, rugosidade e anÃis duplos.
Calculamos os nÃveis de energia do elÃtron em anÃis quÃnticos
considerando um campo magnÃtico perpendicular, levando em conta um modelo realÃstico, que consiste em anÃis com barreiras e potenciais finitos, nÃo limitado a pequenas pertubaÃÃes. Quando consideramos a presenÃa de uma impureza no anel quÃntico, hà uma quebra de simetria no sistema e consequetemente as oscilaÃÃes Aharanov-Bohm (AB) sÃo anuladas. Entretanto, para duas impurezas,
as oscilaÃÃes AB sÃo recuperadas se as distÃncias entre as
impurezas e o plano forem iguais, no caso das impurezas positivas e para impurezas negativas as oscilaÃÃes sÃo recuperadas independente das posiÃÃes das impurezas. A existÃncia de interfaces rugosas à responsÃvel por um considerÃvel deslocamento nas energias dos portadores. AlÃm disso, a degenerescÃncia nos pontos de transiÃÃo do momento angular nas oscilaÃÃes AB à levantada quando consideramos superfÃcies rugosas, em casos especiais, as oscilaÃÃes AB nas energias do estado fundamental
pode ser anuladas.
Fizemos tambÃm um estudo teÃrico da energia dos portadores em pontos quÃnticos tipo-I e tipo-II, alÃm de um estudo em pontos quÃnticos duplos $InGaAs/GaAs$ analisando o efeito de afastamento entre os pontos e considerando dois tipos de acoplamento: lateral e vertical. A equaÃÃo de Schodinger em trÃs dimensÃes, na aproximaÃÃo da massa efetiva, à resolvida para elÃtrons e buracos a partir de um mÃtodo de evoluÃÃo temporal da funÃÃo de onda. Observamos que as curvas do Stark shift das energias de ligaÃÃo e total do exciton em pontos quÃnticos Si/Si_{0.85}Ge_{0.15} tipo-I sÃo assimÃtricas devido à existÃncia de um dipolo elÃtrico intrÃnseco nestes sistemas. No entanto, quando consideramos o efeito de um campo magnÃtico paralelo ao plano, o Stark shift torna-se mais simÃtrico. No caso dos pontos duplos, vimos que a energia de confinamento do
elÃtron em pontos quÃnticos acoplados lateralmente, quando
consideramos os raios dos pontos iguais, degeneram à medida que a distÃncia entre os pontos aumenta. Entretanto, quando os raios dos pontos sÃo diferentes, essas energias nÃo tÃm mudanÃas significativas. Para o caso do acoplamento vertical, o comportamento à semelhante ao dos pontos lado a lado: Para raios iguais em ambos os pontos quÃnticos, os pares de estados tornam-se degenerados à medida que a distÃncia entre os pontos aumenta, o que nÃo acontece quando consideramos o caso de pontos com raios diferentes.
|
7 |
Understanding interactive multidimensional projections / Compreendendo projeções multidimensionais interativasSamuel Gomes Fadel 14 October 2016 (has links)
The large amount of available data on a diverse range of human activities provides many opportunities for understanding, improving and revealing unknown patterns in them. Powerful automatic methods for extracting this knowledge from data are already available from machine learning and data mining. They, however, rely on the expertise of analysts to improve their results when those are not satisfactory. In this context, interactive multidimensional projections are a useful tool for the analysis of multidimensional data by revealing their underlying structure while allowing the user to manipulate the results to provide further insight into this structure. This manipulation, however, has received little attention regarding their influence on the mappings, as they can change the final layout in unpredictable ways. This is the main motivation for this research: understanding the effects caused by changes in these mappings. We approach this problem from two perspectives. First, the user perspective, we designed and developed visualizations that help reduce the trial and error in this process by providing the right piece of information for performing manipulations. Furthermore, these visualizations help explain the changes in the map caused by such manipulations. Second, we defined the effectiveness of manipulation in quantitative terms, then developed an experimental framework for assessing manipulations in multidimensional projections under this view. This framework is based on improving mappings using known evaluation measures for these techniques. Using the improvement of measures as different types of manipulations, we perform a series of experiments on five datasets, five measures, and four techniques. Our experimental results show that there are possible types of manipulations that can happen effectively, with some techniques being more susceptible to manipulations than others. / O grande volume de dados disponíveis em uma diversa gama de atividades humanas cria várias oportunidades para entendermos, melhorarmos e revelarmos padrões previamente desconhecidos em tais atividades. Métodos automáticos para extrair esses conhecimentos a partir de dados já existem em áreas como aprendizado de máquina e mineração de dados. Entretanto, eles dependem da perícia do analista para obter melhores resultados quando estes não são satisfatórios. Neste contexto, técnicas de projeção multidimensional interativas são uma ferramenta útil para a análise de dados multidimensionais, revelando sua estrutura subjacente ao mesmo tempo que permite ao analista manipular os resultados interativamente, estendendo o processo de exploração. Essa interação, entretanto, não foi estudada com profundidade com respeito à sua real influência nos mapeamentos, já que podem causar mudanças não esperadas no mapeamento final. Essa é a principal motivação desta pesquisa: entender os efeitos causados pelas mudanças em tais mapeamentos. Abordamos o problema de duas perspectivas. Primeiro, da perspectiva do usuário, desenvolvemos visualizações que ajudam a diminuir tentativas e erros neste processo provendo a informação necessária a cada passo da interação. Além disso, essas visualizações ajudam a explicar as mudanças causadas no mapeamento pela manipulação. A segunda perspectiva é a efetividade da manipulação. Definimos de forma quantitativa a efetividade da manipulação, e então desenvolvemos um arcabouço para avaliar manipulações sob a visão da efetividade. Este arcabouço é baseado em melhorias nos mapeamentos usando medidas de avaliação conhecidas para tais técnicas. Usando tais melhorias como diferentes formas de manipulação, realizamos uma série de experimentos em cinco bases de dados, cinco medidas e quatro técnicas. Nossos resultados experimentais nos dão evidências que existem certos tipos de manipulação que podem acontecer efetivamente, com algumas técnicas sendo mais suscetíveis a manipulações do que outras.
|
8 |
Extração de tópicos baseado em agrupamento de regras de associação / Topic extraction based on association rule clusteringSantos, Fabiano Fernandes dos 29 May 2015 (has links)
Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos, como o Latent Semantic Analysis (LSA) ou o Non-negative Matrix Factorization (NMF), e modelos de tópicos probabilísticos, como o Latent Dirichlet Allocation (LDA) e suas extensões. A representação baseada em modelos de tópicos é uma das abordagens mais interessantes uma vez que elas fornece uma estrutura que descreve a coleção de documentos em uma forma que revela sua estrutura interna e as suas inter-relações. As abordagens de extração de tópicos também fornecem uma estratégia de redução da dimensionalidade visando a construção de novas dimensões que representam os principais tópicos ou assuntos identificados na coleção de documentos. Entretanto, a extração é eficiente de informações sobre as relações entre os termos para construção da representação de documentos ainda é um grande desafio de pesquisa. Os modelos para representação de documentos que exploram a correlação entre termos normalmente enfrentam um grande desafio para manter um bom equilíbrio entre (i) a quantidade de dimensões obtidas, (ii) o esforço computacional e (iii) a interpretabilidade das novas dimensões obtidas. Assim,é proposto neste trabalho o modelo para representação de documentos Latent Association Rule Cluster based Model (LARCM). Este é um modelo de extração de tópicos não-probabilístico que explora o agrupamento de regras de associação para construir uma representação da coleção de documentos com dimensionalidade reduzida tal que as novas dimensões são extraídas a partir das informações sobre as relações entre os termos. No modelo proposto, as regras de associação são extraídas para cada documento para obter termos correlacionados que formam expressões multi-palavras. Essas relações entre os termos formam o contexto local da relação entre termos. Em seguida, aplica-se um processo de agrupamento em todas as regras de associação para formar o contexto geral das relações entre os termos, e cada grupo de regras de associação obtido formará um tópico, ou seja, uma dimensão da representação. Também é proposto neste trabalho uma metodologia de avaliação que permite selecionar modelos que maximizam tanto os resultados na tarefa de classificação de textos quanto os resultados de interpretabilidade dos tópicos obtidos. O modelo LARCM foi comparado com o modelo LDA tradicional e o modelo LDA utilizando uma representação que inclui termos compostos (bag-of-related-words). Os resultados dos experimentos indicam que o modelo LARCM produz uma representação para os documentos que contribui significativamente para a melhora dos resultados na tarefa de classificação de textos, mantendo também uma boa interpretabilidade dos tópicos obtidos. O modelo LARCM também apresentou ótimo desempenho quando utilizado para extração de informação de contexto para aplicação em sistemas de recomendação sensíveis ao contexto. / A structured representation of documents in an appropriate format for the automatic knowledge extraction without loss of relevant information is one of the most important steps of text mining, since the quality of the results obtained with automatic approaches for the text knowledge extraction is strongly related to the quality of the selected attributes to represent the collection of documents. The Vector Space model (VSM) is a traditional structured representation of documents. In this model, each document is represented as a vector of weights that corresponds to the features of the document. The bag-of-words model is the most popular VSM approach because of its simplicity and general applicability. However, the bag-of-words model does not include dependencies of the terms and has a high dimensionality. Several models for document representation have been proposed in the literature in order to capture the dependence among the terms, especially models based on phrases or compound terms, the Generalized Vector Space Model (GVSM) and their extensions, non-probabilistic topic models as Latent Semantic Analysis (LSA) or Non-negative Matrix Factorization (NMF) and still probabilistic topic models as the Latent Dirichlet Allocation (LDA) and their extensions. The topic model representation is one of the most interesting approaches since it provides a structure that describes the collection of documents in a way that reveals their internal structure and their interrelationships. Also, this approach provides a dimensionality reduction strategy aiming to built new dimensions that represent the main topics or ideas of the document collection. However, the efficient extraction of information about the relations of terms for document representation is still a major research challenge nowadays. The document representation models that explore correlated terms usually face a great challenge of keeping a good balance among the (i) number of extracted features, (ii) the computational performance and (iii) the interpretability of new features. In this way, we proposed the Latent Association Rule Cluster based Model (LARCM). The LARCM is a non-probabilistic topic model that explores association rule clustering to build a document representation with low dimensionality in a way that each dimension is composed by information about the relations among the terms. In the proposed approach, the association rules are built for each document to extract the correlated terms that will compose the multi-word expressions. These relations among the terms are the local context of relations. Then, a clustering process is applied for all association rules to discover the general context of the relations, and each obtained cluster is an extracted topic or a dimension of the new document representation. This work also proposes in this work an evaluation methodology to select topic models that maximize the results in the text classification task as much as the interpretability of the obtained topics. The LARCM model was compared against both the traditional LDA model and the LDA model using a document representation that includes multi-word expressions (bag-of-related-words). The experimental results indicate that LARCM provides an document representation that improves the results in the text classification task and even retains a good interpretability of the extract topics. The LARCM model also achieved great results as a method to extract contextual information for context-aware recommender systems.
|
9 |
Mapeamento e visualização de dados em alta dimensão com mapas auto-organizados. / Mapping and visualization of high dimensional data with self-organized maps.Kitani, Edson Caoru 14 June 2013 (has links)
Os seres vivos têm uma impressionante capacidade de lidar com ambientes complexos com grandes quantidades de informações de forma muito autônoma. Isto os torna um modelo ideal para o desenvolvimento de sistemas artificiais bioinspirados. A rede neural artificial auto-organizada de Kohonen é um excelente exemplo de um sistema baseado nos modelos biológicos. Esta tese discutirá ilustrativamente o reconhecimento e a generalização de padrões em alta dimensão nos sistemas biológicos e como eles lidam com redução de dimensionalidade para otimizar o armazenamento e o acesso às informações memorizadas para fins de reconhecimento e categorização de padrões, mas apenas para contextualizar o tema com as propostas desta tese. As novas propostas desenvolvidas nesta tese são úteis para aplicações de extração não supervisionada de conhecimento a partir dos mapas auto-organizados. Trabalha-se sobre o modelo da Rede Neural de Kohonen, mas algumas das metodologias propostas também são aplicáveis com outras abordagens de redes neurais auto-organizadas. Será apresentada uma técnica de reconstrução visual dos neurônios do Mapa de Kohonen gerado pelo método híbrido PCA+SOM. Essa técnica é útil quando se trabalha com banco de dados de imagens. Propõe-se também um método para melhorar a representação dos dados do mapa SOM e discute-se o resultado do mapeamento SOM como uma generalização das informações do espaço de dados. Finalmente, apresenta-se um método de exploração de espaço de dados em alta dimensão de maneira auto-organizada, baseado no manifold dos dados, cuja proposta foi denominada Self Organizing Manifold Mapping (SOMM). São apresentados os resultados computacionais de ensaios realizados com cada uma das propostas acima e eles são avaliados as com métricas de qualidade conhecidas, além de uma nova métrica que está sendo proposta neste trabalho. / Living beings have an amazing capacity to deal with complex environments with large amounts of information autonomously. They are the perfect model for bioinspired artificial system development. The artificial neural network developed by Kohonen is an excellent example of a system based on biological models. In this thesis, we will discuss illustratively pattern recognition and pattern generalization in high dimensional data space by biological system. Then, a brief discussion of how they manage dimensionality reduction to optimize memory space and speed up information access in order to categorize and recognize patterns. The new proposals developed in this thesis are useful for applications of unsupervised knowledge extraction using self-organizing maps. The proposals use Kohonens model. However, any self-organizing neural network in general can also use the proposed techniques. It will be presented a visual reconstruction technique for Kohonens neurons, which was generated by hybrid method PCA+SOM. This technique is useful when working with images database. It is also proposed a method for improving the representation of SOMs map and discussing the result of the SOMs mapping as a generalization of the information data space. Finally, it is proposed a method for exploring high dimension data space in a self-organized way on the data manifold. This new proposal was called Self Organizing Manifold Mapping (SOMM). We present the results of computational experiments on each of the above proposals and evaluate the results using known quality metrics, as well as a new metric that is being proposed in this thesis.
|
10 |
Técnicas computacionais de apoio à classificação visual de imagens e outros dados / Computational techniques to support classification of images and other dataPaiva, José Gustavo de Souza 20 December 2012 (has links)
O processo automático de classificação de dados em geral, e em particular de classificação de imagens, é uma tarefa computacionalmente intensiva e variável em termos de precisão, sendo consideravelmente dependente da configuração do classificador e da representação dos dados utilizada. Muitos dos fatores que afetam uma adequada aplicação dos métodos de classificação ou categorização para imagens apontam para a necessidade de uma maior interferência do usuário no processo. Para isso são necessárias mais ferramentas de apoio às várias etapas do processo de classificação, tais como, mas não limitadas, a extração de características, a parametrização dos algoritmos de classificação e a escolha de instâncias de treinamento adequadas. Este doutorado apresenta uma metodologia para Classificação Visual de Imagens, baseada na inserção do usuário no processo de classificação automática através do uso de técnicas de visualização. A ideia é permitir que o usuário participe de todos os passos da classificação de determinada coleção, realizando ajustes e consequentemente melhorando os resultados de acordo com suas necessidades. Um estudo de diversas técnicas de visualização candidatas para a tarefa é apresentado, com destaque para as árvores de similaridade, sendo apresentadas melhorias do algoritmo de construção em termos de escalabilidade visual e de tempo de processamento. Adicionalmente, uma metodologia de redução de dimensionalidade visual semi-supervisionada é apresentada para apoiar, pela utilização de ferramentas visuais, a criação de espaços reduzidos que melhorem as características de segregação do conjunto original de características. A principal contribuição do trabalho é um sistema de classificação visual incremental que incorpora todos os passos da metodologia proposta, oferecendo ferramentas interativas e visuais que permitem a interferência do usuário na classificação de coleções incrementais com configuração de classes variável. Isso possibilita a utilização do conhecimento do ser humano na construção de classificadores que se adequem a diferentes necessidades dos usuários em diferentes cenários, produzindo resultados satisfatórios para coleções de dados diversas. O foco desta tese é em categorização de coleções de imagens, com exemplos também para conjuntos de dados textuais / Automatic data classification in general, and image classification in particular, are computationally intensive tasks with variable results concerning precision, being considerably dependent on the classifier´s configuration and data representation. Many of the factors that affect an adequate application of classification or categorization methods for images point to the need for more user interference in the process. To accomplish that, it is necessary to develop a larger set of supporting tools for the various stages of the classification set up, such as, but not limited to, feature extraction, parametrization of the classification algorithm and selection of adequate training instances. This doctoral Thesis presents a Visual Image Classification methodology based on the user´s insertion in the classification process through the use of visualization techniques. The idea is to allow the user to participate in all classification steps, adjusting several stages and consequently improving the results according to his or her needs. A study on several candidate visualization techniques is presented, with emphasis on similarity trees, and improvements of the tree construction algorithm, both in visual and time scalability, are shown. Additionally, a visual semi-supervised dimensionality reduction methodology was developed to support, through the use of visual tools, the creation of reduced spaces that improve segregation of the original feature space. The main contribution of this work is an incremental visual classification system incorporating all the steps of the proposed methodology, and providing interactive and visual tools that permit user controlled classification of an incremental collection with evolving class configuration. It allows the use of the human knowledge on the construction of classifiers that adapt to different user needs in different scenarios, producing satisfactory results for several data collections. The focus of this Thesis is image data sets, with examples also in classification of textual collections
|
Page generated in 0.0772 seconds