Spelling suggestions: "subject:"dimensionalidade"" "subject:"imensionalidade""
61 |
Análise da influência de funções de distância para o processamento de consultas por similaridade em recuperação de imagens por conteúdo / Analysis of the influence of distance functions to answer similarity queries in content-based image retrieval.Bugatti, Pedro Henrique 16 April 2008 (has links)
A recuperação de imagens baseada em conteúdo (Content-based Image Retrieval - CBIR) embasa-se sobre dois aspectos primordiais, um extrator de características o qual deve prover as características intrínsecas mais significativas dos dados e uma função de distância a qual quantifica a similaridade entre tais dados. O grande desafio é justamente como alcançar a melhor integração entre estes dois aspectos chaves com intuito de obter maior precisão nas consultas por similaridade. Apesar de inúmeros esforços serem continuamente despendidos para o desenvolvimento de novas técnicas de extração de características, muito pouca atenção tem sido direcionada à importância de uma adequada associação entre a função de distância e os extratores de características. A presente Dissertação de Mestrado foi concebida com o intuito de preencher esta lacuna. Para tal, foi realizada a análise do comportamento de diferentes funções de distância com relação a tipos distintos de vetores de características. Os três principais tipos de características intrínsecas às imagens foram analisados, com respeito a distribuição de cores, textura e forma. Além disso, foram propostas duas novas técnicas para realização de seleção de características com o desígnio de obter melhorias em relação à precisão das consultas por similaridade. A primeira técnica emprega regras de associação estatísticas e alcançou um ganho de até 38% na precisão, enquanto que a segunda técnica utilizando a entropia de Shannon alcançou um ganho de aproximadamente 71% ao mesmo tempo em que reduz significantemente a dimensionalidade dos vetores de características. O presente trabalho também demonstra que uma adequada utilização das funções de distância melhora efetivamente os resultados das consultas por similaridade. Conseqüentemente, desdobra novos caminhos para realçar a concepção de sistemas CBIR / The retrieval of images by visual content relies on a feature extractor to provide the most meaningful intrinsic characteristics (features) from the data, and a distance function to quantify the similarity between them. A challenge in this field supporting content-based image retrieval (CBIR) to answer similarity queries is how to best integrate these two key aspects. There are plenty of researching on algorithms for feature extraction of images. However, little attention have been paid to the importance of the use of a well-suited distance function associated to a feature extractor. This Master Dissertation was conceived to fill in this gap. Therefore, herein it was investigated the behavior of different distance functions regarding distinct feature vector types. The three main types of image features were evaluated, regarding color distribution, texture and shape. It was also proposed two new techniques to perform feature selection over the feature vectors, in order to improve the precision when answering similarity queries. The first technique employed statistical association rules and achieve up to 38% gain in precision, while the second one employing the Shannon entropy achieved 71%, while siginificantly reducing the size of the feature vector. This work also showed that the proper use of a distance function effectively improves the similarity query results. Therefore, it opens new ways to enhance the acceptance of CBIR systems
|
62 |
Um estudo sobre o papel de medidas de similaridade em visualização de coleções de documentos / A study on the role of similarity measures in visual text analyticsFrizzi Alejandra San Roman Salazar 27 September 2012 (has links)
Técnicas de visualização de informação, tais como as que utilizam posicionamento de pontos baseado na similaridade do conteúdo, são utilizadas para criar representações visuais de dados que evidenciem certos padrões. Essas técnicas são sensíveis à qualidade dos dados, a qual, por sua vez, depende de uma etapa de pré-processamento muito influente. Esta etapa envolve a limpeza do texto e, em alguns casos, a detecção de termos e seus pesos, bem como a definição de uma função de (dis)similaridade. Poucos são os estudos realizados sobre como esses cálculos de (dis)similaridade afetam a qualidade das representações visuais geradas para dados textuais. Este trabalho apresenta um estudo sobre o papel das diferentes medidas de (dis)similaridade entre pares de textos na geração de mapas visuais. Nos concentramos principalmente em dois tipos de funções de distância, aquelas computadas a partir da representação vetorial do texto (Vector Space Model (VSM)) e em medidas de comparação direta de strings textuais. Comparamos o efeito na geração de mapas visuais com técnicas de posicionamento de pontos, utilizando as duas abordagens. Para isso, foram utilizadas medidas objetivas para comparar a qualidade visual dos mapas, tais como Neighborhood Hit (NH) e Coeficiente de Silhueta (CS). Descobrimos que ambas as abordagens têm pontos a favor, mas de forma geral, o VSM apresentou melhores resultados quanto à discriminação de classes. Porém, a VSM convencional não é incremental, ou seja, novas adições à coleção forçam o recálculo do espaço de dados e das dissimilaridades anteriormente computadas. Nesse sentido, um novo modelo incremental baseado no VSM (Incremental Vector Space Model (iVSM)) foi considerado em nossos estudos comparativos. O iVSM apresentou os melhores resultados quantitativos e qualitativos em diversas configurações testadas. Os resultados da avaliação são apresentados e recomendações sobre a aplicação de diferentes medidas de similaridade de texto em tarefas de análise visual, são oferecidas / Information visualization techniques, such as similarity based point placement, are used for generating of visual data representation that evidence some patterns. These techniques are sensitive to data quality, which depends of a very influential preprocessing step. This step involves cleaning the text and in some cases, detecting terms and their weights, as well as definiting a (dis)similarity function. There are few studies on how these (dis)similarity calculations aect the quality of visual representations for textual data. This work presents a study on the role of the various (dis)similarity measures in generating visual maps. We focus primarily on two types of distance functions, those based on vector representations of the text (Vector Space Model (VSM)) and measures obtained from direct comparison of text strings, comparing the effect on the visual maps obtained with point placement techniques with the two approaches. For this, objective measures were employed to compare the visual quality of the generated maps, such as the Neighborhood Hit and Silhouette Coefficient. We found that both approaches have strengths, but in general, the VSM showed better results as far as class discrimination is concerned. However, the conventional VSM is not incremental, i.e., new additions to the collection force the recalculation of the data space and dissimilarities previously computed. Thus, a new model based on incremental VSM (Incremental Vector Space Model (iVSM)) has been also considered in our comparative studies. iVSM showed the best quantitative and qualitative results in several of the configurations considered. The evaluation results are presented and recommendations on the application of different similarity measures for text analysis tasks visually are provided
|
63 |
Emprego de técnicas de análise exploratória de dados utilizados em Química Medicinal / Use of different techniques for exploratory data analysis in Medicinal ChemistryJadson Castro Gertrudes 10 September 2013 (has links)
Pesquisas na área de Química Medicinal têm direcionado esforços na busca por métodos que acelerem o processo de descoberta de novos medicamentos. Dentre as diversas etapas relacionadas ao longo do processo de descoberta de substâncias bioativas está a análise das relações entre a estrutura química e a atividade biológica de compostos. Neste processo, os pesquisadores da área de Química Medicinal analisam conjuntos de dados que são caracterizados pela alta dimensionalidade e baixo número de observações. Dentro desse contexto, o presente trabalho apresenta uma abordagem computacional que visa contribuir para a análise de dados químicos e, consequentemente, a descoberta de novos medicamentos para o tratamento de doenças crônicas. As abordagens de análise exploratória de dados, utilizadas neste trabalho, combinam técnicas de redução de dimensionalidade e de agrupamento para detecção de estruturas naturais que reflitam a atividade biológica dos compostos analisados. Dentre as diversas técnicas existentes para a redução de dimensionalidade, são discutidas o escore de Fisher, a análise de componentes principais e a análise de componentes principais esparsas. Quanto aos algoritmos de aprendizado, são avaliados o k-médias, fuzzy c-médias e modelo de misturas ICA aperfeiçoado. No desenvolvimento deste trabalho foram utilizados quatro conjuntos de dados, contendo informações de substâncias bioativas, sendo que dois conjuntos foram relacionados ao tratamento da diabetes mellitus e da síndrome metabólica, o terceiro conjunto relacionado a doenças cardiovasculares e o último conjunto apresenta substâncias que podem ser utilizadas no tratamento do câncer. Nos experimentos realizados, os resultados alcançados sugerem a utilização das técnicas de redução de dimensionalidade juntamente com os algoritmos não supervisionados para a tarefa de agrupamento dos dados químicos, uma vez que nesses experimentos foi possível descrever níveis de atividade biológica dos compostos estudados. Portanto, é possível concluir que as técnicas de redução de dimensionalidade e de agrupamento podem possivelmente ser utilizadas como guias no processo de descoberta e desenvolvimento de novos compostos na área de Química Medicinal. / Researches in Medicinal Chemistry\'s area have focused on the search of methods that accelerate the process of drug discovery. Among several steps related to the process of discovery of bioactive substances there is the analysis of the relationships between chemical structure and biological activity of compounds. In this process, researchers of medicinal chemistry analyze data sets that are characterized by high dimensionality and small number of observations. Within this context, this work presents a computational approach that aims to contribute to the analysis of chemical data and, consequently, the discovery of new drugs for the treatment of chronic diseases. Approaches used in exploratory data analysis, employed in this work, combine techniques of dimensionality reduction and clustering for detecting natural structures that reflect the biological activity of the analyzed compounds. Among several existing techniques for dimensionality reduction, we have focused the Fisher\'s score, principal component analysis and sparse principal component analysis. For the clustering procedure, this study evaluated k-means, fuzzy c-means and enhanced ICA mixture model. In order to perform experiments, we used four data sets, containing information of bioactive substances. Two sets are related to the treatment of diabetes mellitus and metabolic syndrome, the third set is related to cardiovascular disease and the latter set has substances that can be used in cancer treatment. In the experiments, the obtained results suggest the use of dimensionality reduction techniques along with clustering algorithms for the task of clustering chemical data, since from these experiments, it was possible to describe different levels of biological activity of the studied compounds. Therefore, we conclude that the techniques of dimensionality reduction and clustering can be used as guides in the process of discovery and development of new compounds in the field of Medicinal Chemistry
|
64 |
Vazamentos de corrente e ineficiÃncia de transporte em nanoestruturas semicondutoras investigadas atravÃs de propagaÃÃo de pacotes de onda. / CURRENT LEAKAGE AND TRANSPORT INEFFICIENCY IN SEMICONDUCTOR NANOSTRUCTURES INVESTIGATED BY QUANTUM WAVE PACKETAriel Adorno de Sousa 08 May 2015 (has links)
CoordenaÃÃo de AperfeÃoamento de Pessoal de NÃvel Superior / Os avanÃos nas tÃcnicas de crescimento tornaram possÃvel a fabricaÃÃo de estruturas semicondutoras quase-unidimensionais em escalas nanomÃtricas, chamadas pontos, fios, poÃos e anÃis quÃnticos. Interesse nessas estruturas tem crescido consideravelmente, nÃo sà devido Ãs suas possÃveis aplicaÃÃes em dispositivos eletrÃnicos e à sua manipulaÃÃo quÃmica fÃcil, mas tambÃm porque eles oferecem a possibilidade de explorar experimentalmente vÃrios aspectos de confinamento quÃntico, espalhamento e fenÃmenos de interferÃncia. Em particular, neste trabalho, investigamos as propriedades eletrÃnicas e de transporte em poÃos quÃnticos, fios e anÃis, cujas dimensÃes podem ser alcanÃados experimentalmente. Para isto, resolvemos a equaÃÃo de SchrÃdinger dependente do tempo utilizando o mÃtodo Split-operator em duas dimensÃes.
Nesta tese, abordamos quatro trabalhos, sendo o primeiro uma analogia ao Paradoxo de Braess para um sistema mesoscÃpico. Para isso, utilizamos um anel quÃntico com um canal adicional na regiÃo central, alinhado com os canais de entrada e saÃda. Este canal extra faz o papel do caminho adicional em uma rede de trÃfego na teoria dos jogos, similar ao caso do paradoxo de Braess. Calculamos as auto-energias e a evoluÃÃo temporal para o anel quÃntico. Surpreendentemente, o coeficiente de transmissÃo para algumas larguras do canal extra diminuiu, semelhante ao que acontece com redes de trÃfego, onde a presenÃa de uma via extra nÃo necessariamente melhora o fluxo total. Com a analise dos resultados obtidos, foi possÃvel determinar que neste sistema o paradoxo ocorre devido a efeitos de interferÃncia e de espalhamento quÃntico.
No segundo trabalho, foi feita uma extensÃo do primeiro, (i) aplicando-se um campo magnÃtico, onde foi possÃvel obter o efeito Aharonov-Bohm para pequenos valores do canal extra e controlar efeitos de interferÃncia responsÃveis pelo paradoxo mencionado, e (ii) fazendo tambÃm a aplicaÃÃo de um potencial que simula a ponta de um microscÃpio de forÃa atÃmica (AFM) interagindo com a amostra - este potencial à repulsivo e simula um possÃvel fechamento do caminho em que o pacote de onda se propaga. Assim, neste trabalho, realizamos uma contra-prova do primeiro, onde observamos que com o posicionamento da ponta do AFM sobre canal extra, se diminui o efeito de reduÃÃo de corrente devido ao paradoxo de Braess.
No terceiro trabalho, realizamos uma anÃlise de tunelamento entre dois fios quÃnticos separados por uma certa distÃncia e calculamos qual a menor distÃncia para qual ocorre tunelamento significativo nesse sistema eletrÃnico. Este trabalho à de fundamental importÃncia para o manufaturamento de dispositivos nanoestruturados, porque nos permite investigar qual a distÃncia mÃnima para a construÃÃo de um circuito eletrÃnico sem que haja interferÃncias nas transmissÃes das informaÃÃes.
No quarto e Ãltimo trabalho desta tese, investigamos a energia de ligaÃÃo do elÃtron-impureza em GaN/HfO2 para um poÃo quÃntico. Consideramos simultaneamente as contribuiÃÃes de todas as interaÃÃes das auto-energias devido ao descasamento das constantes dielÃtricas entre os materiais. Foram estudados poÃos largos e estreitos, comparando os resultados para diferentes posiÃÃes da impureza e a contribuiÃÃo da auto-energia para o sistema. / Advances in growth techniques have made possible the fabrication of quasi one-dimensional semiconductor structures on nanometric scales, called quantum dots, wires, wells and rings. Interest in these structures has grown considerably not only due to their possible applications in electronic devices and to their easy chemical manipulation, but also because they offer the possibility of experimentally exploring several aspects of quantum confinement, scattering and interference phenomena. In particular, in this work, we investigate the electronic and transport properties in quantum wells, wires and rings, whose dimensions can be achieved experimentally. For this purpose, we solve the time-dependent SchrÃdinger equation using the split-operator method in two dimensions.
We address four different problems: in the first one, the electronic transport properties of a mesoscopic branched out quantum ring are discussed in analogy to the Braess Paradox of game theory, which, in simple words, states that adding an extra path to a traffic network does not necessarily improves its overall flow. In this case, we consider a quantum ringindex{Quantum ring} with an extra channel in its central region, aligned with the input and output leads. This extra channel plays the role of an additional path in a similar way as the extra roads in the classical Braess paradox. Our results show that in this system, surprisingly the transmission coefficient decreases for some values of the extra channel width, similarly to the case of traffic networks in the original Braess problem. We demonstrate that such transmission reduction in our case originates from both quantum scattering and interference effects, and is closely related to recent experimental results in a similar mesoscopic system.
In the second work of this thesis, we extend the first system by considering different ring geometries, and by investigating the effects of an external perpendicular magnetic field and of obstructions to the electrons pathways on the transport properties of the system. For narrow widths of the extra channel, it is possible to observe Aharonov-Bohm oscillations in the transmission probability. More importantly, the Aharonov-Bohm phase acquired by the wave function in the presence of the magnetic field allows one to verify in which situations the transmission reduction induced by the extra channel is purely due to interference. We simulate a possible closure of one of the paths by applying a local electrostatic potential, which can be seen as a model for the charged tip of an atomic force microscope (AFM). We show that positioning the AFM tip in the extra channel suppresses the transmission reduction due to the Braess paradox, thus demonstrating that closing the extra path improves the overall transport properties of the system.
In the third work, we analyze the tunneling of wave packets between two semiconductor quantum wires separated by a short distance. We investigate the smallest distance at which a significant tunneling between the semiconduting wires still occur. This work is of fundamental importantance for the manufacturing of future nanostructured devices, since it provides information on the minimum reasonable distances between the electron channels in miniaturized electronic circuits, where quantum tunnelling and interference effects will start to play a major role.
In the last work of this thesis, we investigate the binding energy of the electron-impurity pair in a GaN/HfO2 quantum well. We consider simultaneously the contributions of all interactions in the self-energy due to the dielectric constant mismatch between materials. We investigate the electron-impurity bound states in quantum wells of several widths, and compared the results for different impurity positions.
|
65 |
Mapas auto-organizáveis com topologioa variante no tempo para categorização em subespaços em dados de alta dimensionalidade e vistas múltiplasANTONINO, Victor Oliveira 16 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-04-24T15:04:03Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
mapas-auto-organizaveis2.pdf: 2835656 bytes, checksum: 8836a86bd2cced9353cb25b53383b305 (MD5) / Made available in DSpace on 2017-04-24T15:04:03Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
mapas-auto-organizaveis2.pdf: 2835656 bytes, checksum: 8836a86bd2cced9353cb25b53383b305 (MD5)
Previous issue date: 2016-08-16 / Métodos e algoritmos em aprendizado de máquina não supervisionado têm sido empregados em diversos problemas significativos. Uma explosão na disponibilidade de dados de várias fontes e modalidades está correlacionada com os avanços na obtenção, compressão, armazenamento, transferência e processamento de grandes quantidades de dados complexos com alta dimensionalidade, como imagens digitais, vídeos de vigilância e microarranjos de DNA. O agrupamento se torna difícil devido à crescente dispersão desses dados, bem como a dificuldade crescente em discriminar distâncias entre os pontos de dados. Este trabalho apresenta um algoritmo de agrupamento suave em subespaços baseado em um mapa auto-organizável (SOM) com estrutura variante no tempo, o que significa que o agrupamento dos dados pode ser alcançado sem qualquer conhecimento prévio, tais como o número de categorias ou a topologia dos padrões de entrada, nos quais ambos são determinados durante o processo de treinamento. O modelo também atribui diferentes pesos a diferentes dimensões, o que implica que cada dimensão contribui para o descobrimento dos aglomerados de dados. Para validar o modelo, diversos conjuntos de dados reais foram utilizados, considerando uma diversificada gama de contextos, tais como mineração de dados, expressão genética, agrupamento multivista e problemas de visão computacional. Os resultados são promissores e conseguem lidar com dados reais caracterizados pela alta dimensionalidade. / Unsupervised learning methods have been employed on many significant problems. A blast in
the availability of data from multiple sources and modalities is correlated with advancements in
how to obtain, compress, store, transfer, and process large amounts of complex high-dimensional
data, such as digital images, surveillance videos, and DNA microarrays. Clustering becomes
challenging due to the increasing sparsity of such data, as well as the increasing difficulty in
discriminating distances between data points. This work presents a soft subspace clustering
algorithm based on a self-organizing map (SOM) with time-variant structure, meaning that
clustering data can be achieved without any prior knowledge such as the number of categories or
input data topology, in which both are determined during the training process. The model also
assigns different weights to different dimensions, this implies that every dimension contributes to
uncover clusters. To validate the model, we used a number of real-world data sets, considering a
diverse range of contexts such as data mining, gene expression, multi-view and computer vision
problems. The promising results can handle real-world data characterized by high dimensionality.
|
66 |
Análise da influência de funções de distância para o processamento de consultas por similaridade em recuperação de imagens por conteúdo / Analysis of the influence of distance functions to answer similarity queries in content-based image retrieval.Pedro Henrique Bugatti 16 April 2008 (has links)
A recuperação de imagens baseada em conteúdo (Content-based Image Retrieval - CBIR) embasa-se sobre dois aspectos primordiais, um extrator de características o qual deve prover as características intrínsecas mais significativas dos dados e uma função de distância a qual quantifica a similaridade entre tais dados. O grande desafio é justamente como alcançar a melhor integração entre estes dois aspectos chaves com intuito de obter maior precisão nas consultas por similaridade. Apesar de inúmeros esforços serem continuamente despendidos para o desenvolvimento de novas técnicas de extração de características, muito pouca atenção tem sido direcionada à importância de uma adequada associação entre a função de distância e os extratores de características. A presente Dissertação de Mestrado foi concebida com o intuito de preencher esta lacuna. Para tal, foi realizada a análise do comportamento de diferentes funções de distância com relação a tipos distintos de vetores de características. Os três principais tipos de características intrínsecas às imagens foram analisados, com respeito a distribuição de cores, textura e forma. Além disso, foram propostas duas novas técnicas para realização de seleção de características com o desígnio de obter melhorias em relação à precisão das consultas por similaridade. A primeira técnica emprega regras de associação estatísticas e alcançou um ganho de até 38% na precisão, enquanto que a segunda técnica utilizando a entropia de Shannon alcançou um ganho de aproximadamente 71% ao mesmo tempo em que reduz significantemente a dimensionalidade dos vetores de características. O presente trabalho também demonstra que uma adequada utilização das funções de distância melhora efetivamente os resultados das consultas por similaridade. Conseqüentemente, desdobra novos caminhos para realçar a concepção de sistemas CBIR / The retrieval of images by visual content relies on a feature extractor to provide the most meaningful intrinsic characteristics (features) from the data, and a distance function to quantify the similarity between them. A challenge in this field supporting content-based image retrieval (CBIR) to answer similarity queries is how to best integrate these two key aspects. There are plenty of researching on algorithms for feature extraction of images. However, little attention have been paid to the importance of the use of a well-suited distance function associated to a feature extractor. This Master Dissertation was conceived to fill in this gap. Therefore, herein it was investigated the behavior of different distance functions regarding distinct feature vector types. The three main types of image features were evaluated, regarding color distribution, texture and shape. It was also proposed two new techniques to perform feature selection over the feature vectors, in order to improve the precision when answering similarity queries. The first technique employed statistical association rules and achieve up to 38% gain in precision, while the second one employing the Shannon entropy achieved 71%, while siginificantly reducing the size of the feature vector. This work also showed that the proper use of a distance function effectively improves the similarity query results. Therefore, it opens new ways to enhance the acceptance of CBIR systems
|
67 |
Machine learning via dynamical processes on complex networks / Aprendizado de máquina via processos dinâmicos em redes complexasCupertino, Thiago Henrique 20 December 2013 (has links)
Extracting useful knowledge from data sets is a key concept in modern information systems. Consequently, the need of efficient techniques to extract the desired knowledge has been growing over time. Machine learning is a research field dedicated to the development of techniques capable of enabling a machine to \"learn\" from data. Many techniques have been proposed so far, but there are still issues to be unveiled specially in interdisciplinary research. In this thesis, we explore the advantages of network data representation to develop machine learning techniques based on dynamical processes on networks. The network representation unifies the structure, dynamics and functions of the system it represents, and thus is capable of capturing the spatial, topological and functional relations of the data sets under analysis. We develop network-based techniques for the three machine learning paradigms: supervised, semi-supervised and unsupervised. The random walk dynamical process is used to characterize the access of unlabeled data to data classes, configuring a new heuristic we call ease of access in the supervised paradigm. We also propose a classification technique which combines the high-level view of the data, via network topological characterization, and the low-level relations, via similarity measures, in a general framework. Still in the supervised setting, the modularity and Katz centrality network measures are applied to classify multiple observation sets, and an evolving network construction method is applied to the dimensionality reduction problem. The semi-supervised paradigm is covered by extending the ease of access heuristic to the cases in which just a few labeled data samples and many unlabeled samples are available. A semi-supervised technique based on interacting forces is also proposed, for which we provide parameter heuristics and stability analysis via a Lyapunov function. Finally, an unsupervised network-based technique uses the concepts of pinning control and consensus time from dynamical processes to derive a similarity measure used to cluster data. The data is represented by a connected and sparse network in which nodes are dynamical elements. Simulations on benchmark data sets and comparisons to well-known machine learning techniques are provided for all proposed techniques. Advantages of network data representation and dynamical processes for machine learning are highlighted in all cases / A extração de conhecimento útil a partir de conjuntos de dados é um conceito chave em sistemas de informação modernos. Por conseguinte, a necessidade de técnicas eficientes para extrair o conhecimento desejado vem crescendo ao longo do tempo. Aprendizado de máquina é uma área de pesquisa dedicada ao desenvolvimento de técnicas capazes de permitir que uma máquina \"aprenda\" a partir de conjuntos de dados. Muitas técnicas já foram propostas, mas ainda há questões a serem reveladas especialmente em pesquisas interdisciplinares. Nesta tese, exploramos as vantagens da representação de dados em rede para desenvolver técnicas de aprendizado de máquina baseadas em processos dinâmicos em redes. A representação em rede unifica a estrutura, a dinâmica e as funções do sistema representado e, portanto, é capaz de capturar as relações espaciais, topológicas e funcionais dos conjuntos de dados sob análise. Desenvolvemos técnicas baseadas em rede para os três paradigmas de aprendizado de máquina: supervisionado, semissupervisionado e não supervisionado. O processo dinâmico de passeio aleatório é utilizado para caracterizar o acesso de dados não rotulados às classes de dados configurando uma nova heurística no paradigma supervisionado, a qual chamamos de facilidade de acesso. Também propomos uma técnica de classificação de dados que combina a visão de alto nível dos dados, por meio da caracterização topológica de rede, com relações de baixo nível, por meio de medidas de similaridade, em uma estrutura geral. Ainda no aprendizado supervisionado, as medidas de rede modularidade e centralidade Katz são aplicadas para classificar conjuntos de múltiplas observações, e um método de construção evolutiva de rede é aplicado ao problema de redução de dimensionalidade. O paradigma semissupervisionado é abordado por meio da extensão da heurística de facilidade de acesso para os casos em que apenas algumas amostras de dados rotuladas e muitas amostras não rotuladas estão disponíveis. É também proposta uma técnica semissupervisionada baseada em forças de interação, para a qual fornecemos heurísticas para selecionar parâmetros e uma análise de estabilidade mediante uma função de Lyapunov. Finalmente, uma técnica não supervisionada baseada em rede utiliza os conceitos de controle pontual e tempo de consenso de processos dinâmicos para derivar uma medida de similaridade usada para agrupar dados. Os dados são representados por uma rede conectada e esparsa na qual os vértices são elementos dinâmicos. Simulações com dados de referência e comparações com técnicas de aprendizado de máquina conhecidas são fornecidos para todas as técnicas propostas. As vantagens da representação de dados em rede e de processos dinâmicos para o aprendizado de máquina são evidenciadas em todos os casos
|
68 |
"Resultados analíticos para as distribuições estatísticas relacionadas à caminhada determinista do turista sem memória: efeito da dimensionalidade do sistema e modelos de campo médio". / Analytical results for the statistical distribution related to a memoryless deterministic walk: Dimensionality effect and mean-field modelsTerçariol, César Augusto Sangaletti 21 December 2004 (has links)
Considere um meio caracterizado por $N$ pontos cujas coordenadas são geradas aleatoriamente de maneira uniforme nas arestas unitárias de um hipercubo $d$-dimensional. Um caminhante parte de cada ponto deste meio desordenado e se movimenta obedecendo à regra determinista de ir para o ponto mais próximo que não tenha sido visitado nos últimos $mu$ passos. Este processo foi denominado de caminhada determinista do turista. Cada trajetória gerada por esta dinâmica possui uma parte inicial não-periódica de $t$ passos (transiente) e uma parte final periódica de $p$ passos (atrator). As probabilidades de vizinhança são expressas através da fórmula de Cox, que é parametrizada pela função beta incompleta normalizada $I_d = I_{1/4}[1/2,(d+1)/2]$. Enfati-zamos aqui que a distribuição relevante é $S_{mu,d}^{(N)}(t,p)$, a distribuição conjunta de $t$ e $p$, que tem como casos particulares as distribuições marginais, previamente estudadas. O objetivo deste estudo é obter analiticamente estas distribuições para a caminhada determinista do turista sem memória no espaço euclideano, no modelo de distâncias aleatórias (que corresponde ao limite $d
ightarrow infty$) e no modelo de mapeamento aleatório (que é um caso limite das redes de Kauffman). As distribuições analíticas obtidas foram validadas através de experimentos numéricos. A distribuição conjunta de tempos de transiente e período de atratores, no limite termodinâmico para uma dimensionalidade arbitrária vale: $S_{1,d}^{(infty)}(t,p) = [Gamma(1+I_d^{-1}) cdot (t+I_d^{-1})/Gamma(t+p+I_d^{-1})] cdot delta_{p,2}$, onde $t=0,1,2,ldots,infty$; $Gamma(z)$ é a função gama e $delta_{i,j}$ é o delta de Kronecker. A caminhada determinista do turista sem memória no modelo de mapeamento aleatório produz uma distribuição de períodos não-trivial ($S_{0,rm}^{(N)}(p) propto p^{-1}$), que é obtida de $S_{0,rm}^{(N)}(t,p) = Gamma(N)/{Gamma[N+1-(t+p)]N^{t+p}}$, onde enfatizamos que o número de pontos explorados $n_e=t+p$ é a grandeza fundamental nos problemas considerados. / Consider a medium characterized by $N$ points whose coordinates are randomly generated by a uniform distribution along the unitary edges of a $d$-dimensional hypercube. A walker leaves from each point of this disordered medium and moves according to the deterministic rule to go the nearest point which has not been visited in the preceding $mu$ steps. This process has been called the deterministic tourist walk. Each trajectory generated by this dynamics has an initial non-periodic part of $t$ steps (transient) and a final periodic part of $p$ steps (attractor). The neighborhood probabilities are given by the Cox formula, which is parameterized by the normalized incomplete beta function $I_d = I_{1/4}[1/2,(d+1)/2]$. Here we stress that the relevant distribution is the joint $t$ and $p$ distribution $S_{mu,d}^{(N)}(t,p)$, which has as particular cases, the marginal distributions previously studied. The objective of this study is to obtain analytically these distributions for the memoryless deterministic tourist walk in the euclidean space, random link model (which corresponds to $d
ightarrow infty$ limit) and random map model (which is a limiting case of the Kauffman model). The obtained distributions have been validated by numerical experiments. The joint transient time and attractor period distribution in the thermodynamic limit for an arbitrary dimensionality is: $S_{1,d}^{(infty)}(t,p) = [Gamma(1+I_d^{-1}) cdot (t+I_d^{-1})/Gamma(t+p+I_d^{-1})] cdot delta_{p,2}$, where $t=0,1,2,ldots,infty$; $Gamma(z)$ is the gamma function and $delta_{i,j}$ is the Kronecker's delta. The memoryless deterministic tourist walk in the random map leads to a non-trivial cycle distribution ($S_{0,rm}^{(N)}(p) propto p^{-1}$), which is obtained from $S_{0,rm}^{(N)}(t,p) = Gamma(N)/{Gamma[N+1-(t+p)]N^{t+p}}$, where we stress that the number of explored points $n_e=t+p$ is the fundamental quantity in the considered problems.
|
69 |
"Resultados analíticos para as distribuições estatísticas relacionadas à caminhada determinista do turista sem memória: efeito da dimensionalidade do sistema e modelos de campo médio". / Analytical results for the statistical distribution related to a memoryless deterministic walk: Dimensionality effect and mean-field modelsCésar Augusto Sangaletti Terçariol 21 December 2004 (has links)
Considere um meio caracterizado por $N$ pontos cujas coordenadas são geradas aleatoriamente de maneira uniforme nas arestas unitárias de um hipercubo $d$-dimensional. Um caminhante parte de cada ponto deste meio desordenado e se movimenta obedecendo à regra determinista de ir para o ponto mais próximo que não tenha sido visitado nos últimos $mu$ passos. Este processo foi denominado de caminhada determinista do turista. Cada trajetória gerada por esta dinâmica possui uma parte inicial não-periódica de $t$ passos (transiente) e uma parte final periódica de $p$ passos (atrator). As probabilidades de vizinhança são expressas através da fórmula de Cox, que é parametrizada pela função beta incompleta normalizada $I_d = I_{1/4}[1/2,(d+1)/2]$. Enfati-zamos aqui que a distribuição relevante é $S_{mu,d}^{(N)}(t,p)$, a distribuição conjunta de $t$ e $p$, que tem como casos particulares as distribuições marginais, previamente estudadas. O objetivo deste estudo é obter analiticamente estas distribuições para a caminhada determinista do turista sem memória no espaço euclideano, no modelo de distâncias aleatórias (que corresponde ao limite $d
ightarrow infty$) e no modelo de mapeamento aleatório (que é um caso limite das redes de Kauffman). As distribuições analíticas obtidas foram validadas através de experimentos numéricos. A distribuição conjunta de tempos de transiente e período de atratores, no limite termodinâmico para uma dimensionalidade arbitrária vale: $S_{1,d}^{(infty)}(t,p) = [Gamma(1+I_d^{-1}) cdot (t+I_d^{-1})/Gamma(t+p+I_d^{-1})] cdot delta_{p,2}$, onde $t=0,1,2,ldots,infty$; $Gamma(z)$ é a função gama e $delta_{i,j}$ é o delta de Kronecker. A caminhada determinista do turista sem memória no modelo de mapeamento aleatório produz uma distribuição de períodos não-trivial ($S_{0,rm}^{(N)}(p) propto p^{-1}$), que é obtida de $S_{0,rm}^{(N)}(t,p) = Gamma(N)/{Gamma[N+1-(t+p)]N^{t+p}}$, onde enfatizamos que o número de pontos explorados $n_e=t+p$ é a grandeza fundamental nos problemas considerados. / Consider a medium characterized by $N$ points whose coordinates are randomly generated by a uniform distribution along the unitary edges of a $d$-dimensional hypercube. A walker leaves from each point of this disordered medium and moves according to the deterministic rule to go the nearest point which has not been visited in the preceding $mu$ steps. This process has been called the deterministic tourist walk. Each trajectory generated by this dynamics has an initial non-periodic part of $t$ steps (transient) and a final periodic part of $p$ steps (attractor). The neighborhood probabilities are given by the Cox formula, which is parameterized by the normalized incomplete beta function $I_d = I_{1/4}[1/2,(d+1)/2]$. Here we stress that the relevant distribution is the joint $t$ and $p$ distribution $S_{mu,d}^{(N)}(t,p)$, which has as particular cases, the marginal distributions previously studied. The objective of this study is to obtain analytically these distributions for the memoryless deterministic tourist walk in the euclidean space, random link model (which corresponds to $d
ightarrow infty$ limit) and random map model (which is a limiting case of the Kauffman model). The obtained distributions have been validated by numerical experiments. The joint transient time and attractor period distribution in the thermodynamic limit for an arbitrary dimensionality is: $S_{1,d}^{(infty)}(t,p) = [Gamma(1+I_d^{-1}) cdot (t+I_d^{-1})/Gamma(t+p+I_d^{-1})] cdot delta_{p,2}$, where $t=0,1,2,ldots,infty$; $Gamma(z)$ is the gamma function and $delta_{i,j}$ is the Kronecker's delta. The memoryless deterministic tourist walk in the random map leads to a non-trivial cycle distribution ($S_{0,rm}^{(N)}(p) propto p^{-1}$), which is obtained from $S_{0,rm}^{(N)}(t,p) = Gamma(N)/{Gamma[N+1-(t+p)]N^{t+p}}$, where we stress that the number of explored points $n_e=t+p$ is the fundamental quantity in the considered problems.
|
70 |
Machine learning via dynamical processes on complex networks / Aprendizado de máquina via processos dinâmicos em redes complexasThiago Henrique Cupertino 20 December 2013 (has links)
Extracting useful knowledge from data sets is a key concept in modern information systems. Consequently, the need of efficient techniques to extract the desired knowledge has been growing over time. Machine learning is a research field dedicated to the development of techniques capable of enabling a machine to \"learn\" from data. Many techniques have been proposed so far, but there are still issues to be unveiled specially in interdisciplinary research. In this thesis, we explore the advantages of network data representation to develop machine learning techniques based on dynamical processes on networks. The network representation unifies the structure, dynamics and functions of the system it represents, and thus is capable of capturing the spatial, topological and functional relations of the data sets under analysis. We develop network-based techniques for the three machine learning paradigms: supervised, semi-supervised and unsupervised. The random walk dynamical process is used to characterize the access of unlabeled data to data classes, configuring a new heuristic we call ease of access in the supervised paradigm. We also propose a classification technique which combines the high-level view of the data, via network topological characterization, and the low-level relations, via similarity measures, in a general framework. Still in the supervised setting, the modularity and Katz centrality network measures are applied to classify multiple observation sets, and an evolving network construction method is applied to the dimensionality reduction problem. The semi-supervised paradigm is covered by extending the ease of access heuristic to the cases in which just a few labeled data samples and many unlabeled samples are available. A semi-supervised technique based on interacting forces is also proposed, for which we provide parameter heuristics and stability analysis via a Lyapunov function. Finally, an unsupervised network-based technique uses the concepts of pinning control and consensus time from dynamical processes to derive a similarity measure used to cluster data. The data is represented by a connected and sparse network in which nodes are dynamical elements. Simulations on benchmark data sets and comparisons to well-known machine learning techniques are provided for all proposed techniques. Advantages of network data representation and dynamical processes for machine learning are highlighted in all cases / A extração de conhecimento útil a partir de conjuntos de dados é um conceito chave em sistemas de informação modernos. Por conseguinte, a necessidade de técnicas eficientes para extrair o conhecimento desejado vem crescendo ao longo do tempo. Aprendizado de máquina é uma área de pesquisa dedicada ao desenvolvimento de técnicas capazes de permitir que uma máquina \"aprenda\" a partir de conjuntos de dados. Muitas técnicas já foram propostas, mas ainda há questões a serem reveladas especialmente em pesquisas interdisciplinares. Nesta tese, exploramos as vantagens da representação de dados em rede para desenvolver técnicas de aprendizado de máquina baseadas em processos dinâmicos em redes. A representação em rede unifica a estrutura, a dinâmica e as funções do sistema representado e, portanto, é capaz de capturar as relações espaciais, topológicas e funcionais dos conjuntos de dados sob análise. Desenvolvemos técnicas baseadas em rede para os três paradigmas de aprendizado de máquina: supervisionado, semissupervisionado e não supervisionado. O processo dinâmico de passeio aleatório é utilizado para caracterizar o acesso de dados não rotulados às classes de dados configurando uma nova heurística no paradigma supervisionado, a qual chamamos de facilidade de acesso. Também propomos uma técnica de classificação de dados que combina a visão de alto nível dos dados, por meio da caracterização topológica de rede, com relações de baixo nível, por meio de medidas de similaridade, em uma estrutura geral. Ainda no aprendizado supervisionado, as medidas de rede modularidade e centralidade Katz são aplicadas para classificar conjuntos de múltiplas observações, e um método de construção evolutiva de rede é aplicado ao problema de redução de dimensionalidade. O paradigma semissupervisionado é abordado por meio da extensão da heurística de facilidade de acesso para os casos em que apenas algumas amostras de dados rotuladas e muitas amostras não rotuladas estão disponíveis. É também proposta uma técnica semissupervisionada baseada em forças de interação, para a qual fornecemos heurísticas para selecionar parâmetros e uma análise de estabilidade mediante uma função de Lyapunov. Finalmente, uma técnica não supervisionada baseada em rede utiliza os conceitos de controle pontual e tempo de consenso de processos dinâmicos para derivar uma medida de similaridade usada para agrupar dados. Os dados são representados por uma rede conectada e esparsa na qual os vértices são elementos dinâmicos. Simulações com dados de referência e comparações com técnicas de aprendizado de máquina conhecidas são fornecidos para todas as técnicas propostas. As vantagens da representação de dados em rede e de processos dinâmicos para o aprendizado de máquina são evidenciadas em todos os casos
|
Page generated in 0.0916 seconds