91 |
Sherlock N-Overlap: normalization invasive and overlap coefficient for analysis of similarity between source code in programming disciplines / Sherlock N-Overlap: normalizaÃÃo invasiva e coeficiente de sobreposiÃÃo para anÃlise de similaridade entre cÃdigos-fonte em disciplinas de programaÃÃoDanilo Leal Maciel 07 July 2014 (has links)
CoordenaÃÃo de AperfeÃoamento de Pessoal de NÃvel Superior / This work is contextualized in the problem of plagiarism detection among source codes in programming classes. Despite the wide set of tools available for the detection of plagiarism, only few tools are able to effectively identify all lexical and semantic similarities between pairs of codes, because of the complexity inherent to this type of analysis. Therefore to the problem and the scenario in question, it was made a study about the main approaches discussed in the literature on detecting plagiarism in source code and as a main contribution, conceived to be a relevant tool in the field of laboratory practices. The tool is based on Sherlock algorithm, which has been enhanced as of two perspectives: firstly, with changes in the similarity coefficient used by the algorithm in order to improve its sensitivity for comparison of signatures; secondly, proposing intrusive techniques preprocessing that, besides eliminating irrelevant information, are also able to overemphasize structural aspects of the programming language, or gathering separating strings whose meaning is more significant for the comparison or even eliminating sequences less relevant to highlight other enabling better inference about the degree of similarity. The tool, called Sherlock N-Overlap was subjected to rigorous evaluation methodology, both in simulated scenarios as classes in programming, with results exceeding tools currently highlighted in the literature on plagiarism detection. / Este trabalho se contextualiza no problema da detecÃÃo de plÃgio entre cÃdigos-fonte em turmas de programaÃÃo. Apesar da ampla quantidade de ferramentas disponÃveis para a detecÃÃo de plÃgio, poucas sÃo capazes de identificar, de maneira eficaz, todas as semelhanÃas lÃxicas e semÃnticas entre pares de cÃdigos, o que se deve à complexidade inerente a esse tipo de anÃlise. Fez-se, portanto, para o problema e o cenÃrio em questÃo, um estudo das principais abordagens discutidas na literatura sobre detecÃÃo de plÃgio em cÃdigo-fonte e, como principal contribuiÃÃo, concebeu-se uma ferramenta aplicÃvel no domÃnio de prÃticas laboratoriais. A ferramenta tem por base o algoritmo Sherlock, que foi aprimorado sob duas perspectivas: a primeira, com modificaÃÃes no coeficiente de similaridade usado pelo algoritmo, de maneira a melhorar a sua sensibilidade para comparaÃÃo de assinaturas; a segunda, propondo tÃcnicas de prÃ-processamento invasivas que, alÃm de eliminar informaÃÃo irrelevante, sejam tambÃm capazes de sobrevalorizar aspectos estruturais da linguagem de programaÃÃo, reunindo ou separando sequÃncias de caracteres cujo significado seja mais expressivo para a comparaÃÃo ou, ainda, eliminando sequÃncias menos relevantes para destacar outras que permitam melhor inferÃncia sobre o grau de similaridade. A ferramenta, denominada Sherlock N-Overlap, foi submetida a rigorosa metodologia de avaliaÃÃo, tanto em cenÃrios simulados como em turmas de programaÃÃo, apresentando resultados superiores a ferramentas atualmente em destaque na literatura sobre detecÃÃo de plÃgio.
|
92 |
Explorando variedade em consultas por similaridade / Investigationg variety in similarity queriesLúcio Fernandes Dutra Santos 26 October 2012 (has links)
A complexidade dos dados armazenados em grandes bases de dados aumenta sempre, criando a necessidade de novas formas de consulta. As consultas por similaridade vêm apresentando crescente interesse para tratar de dados complexos, sendo as mais representativas a consulta por abrangência (\'R IND. q\' Range query) e a consulta aos k-vizinhos mais próximos (k-\'NN IND. q\' k-Nearest Neighboor query). Até recentemente, essas consultas não estavam disponíveis nos Sistemas de Gerenciamento de Bases de Dados (SGBD). Agora, com o início de sua disponibilidade, tem se tornado claro que os operadores de busca fundamentais usados para executá-las não são suficientes para atender às necessidades das aplicações que as demandam. Assim, estão sendo estudadas variações e extensões aos operadores fundamentais, em geral voltados às necessidades de domínios de aplicações específicas. Além disso, os seguintes problemas vêm impactando diretamente sua aceitação por parte dos usuários e, portanto, sua usabilidade: (i) os operadores fundamentais são pouco expressivos em situações reais; (ii) a cardinalidade dos resultados tende a ser grande, obrigando o usuário analisar muitos elementos; e (iii) os resultados nem sempre atendem ao interesse do usuário, implicando na reformulação e ajuste frequente das consultas. O objetivo desta dissertação é o desenvolvimento de uma técnica inédita para exibir um grau de variedade nas respostas às consultas aos k-vizinhos mais próximos em domínios de dados métricos, explorando aspectos de diversidade em extensões dos operadores fundamentais usando apenas as propriedades básicas do espaço métrico sem a solicitação de outra informação por parte do usuário. Neste sentido, são apresentados: a formalização de um modelo de variedade que possibilita inserir diversidade nas consultas por similaridade sem a definição de parâmetros por parte do usuário; um algoritmo incremental para responder às consultas aos k-vizinhos mais próximos com variedade; um método de avaliação de sobreposição de variedade para as consultas por similaridade. As propriedades desses resultados permitem usar as técnicas desenvolvidas para apoiar a propriedade de variedade nas consultas aos k-vizinhos mais próximos em Sistemas de Gerenciamento de Bases de Dados / The data being collected and generated nowadays increases not only in volume, but also in complexity, leading to the need of new query operators. Similarity queries are one of the most pursued resources to retrieve complex data. The most studied operators to perform similarity are the Range Query (\'R IND.q\') and the k-Nearest Neighbor Query (k-\'NN IND. q\'). Until recently, those queries were not available in the Database Management Systems. Now they are starting to become available, but since its earliest applications to develop real systems, it became clear that the basic similarity query operators are not enough to meet the requirements of the target applications. Therefore, new variations and extensions to the basic operators are being studied, although every work up to now is only pursuing the requirements of specific application domains. Furthermore, the following issues are directly impacting their acceptance by users and therefore its usability: (i) the basic operators are not expressive in real situations, (ii) the result-set cardinality tends to be large, imposing to the user the need to analyze to many elements, and (iii) the results do not always meet the users interest, resulting in the reformulation and adjustment of the queries. The goal of this dissertation is the development of a novel technique to enable a degree of variety the answers of k-nearest neighbor queries in metric spaces, investigating aspects of diversity in extensions of the basic operators using only the properties of metric spaces, never requesting extra information from the user. In this monograph, we present: the formalization of the variety model that allows to support diversity in similarity queries without requiring diversification parameters from the user; a greedy algorithm to obtain answers for similarity queries to the k-nearest neighbors with variety; an evaluation method to assess the diversification ratio existing on a subset of elements in metric space. The properties of those results allow using our proposed techniques to support variety in k-nearest neighbor queries in Database Management Systems
|
93 |
Modelos de custo e estatísticas para consultas por similaridade / Cost models and statistics for similarity searchingMarcos Vinícius Naves Bêdo 10 October 2017 (has links)
Consultas por similaridade constituem um paradigma de busca que fornece suporte à diversas tarefas computacionais, tais como agrupamento, classificação e recuperação de informação. Neste contexto, medir a similaridade entre objetos requer comparar a distância entre eles, o que pode ser formalmente modelado pela teoria de espaços métricos. Recentemente, um grande esforço de pesquisa tem sido dedicado à inclusão de consultas por similaridade em Sistemas Gerenciadores de Bases de Dados (SGBDs), com o objetivo de (i) permitir a combinação de comparações por similaridade com as comparações por identidade e ordem já existentes em SGBDs e (ii) obter escalabilidade para grandes bases de dados. Nesta tese, procuramos dar um próximo passo ao estendermos também o otimizador de consultas de um SGBD. Em particular, propomos a ampliação de dois módulos do otimizador: o módulo de Espaço de Distribuição de Dados e o módulo de Modelo de Custo. Ainda que o módulo de Espaço de Distribuição de Dados permita representar os dados armazenados, essas representações são insuficientes para modelar o comportamento das comparações em espaços métricos, sendo necessário estender este módulo para contemplar distribuições de distância. De forma semelhante, o módulo Modelo de Custo precisa ser ampliado para dar suporte à modelos de custo que utilizem estimativas sobre distribuições de distância. Toda a investigação aqui conduzida se concentra em cinco contribuições. Primeiro, foi criada uma nova sinopse para distribuições de distância, o Histograma Compactado de Distância (CDH), de onde é possível inferir valores de seletividade e raios para consultas por similaridade. Uma comparação experimental permitiu mostrar os ganhos das estimativas da sinopse CDH com relação à diversos competidores. Também foi proposto um modelo de custo baseado na sinopse CDH, o modelo Stockpile, cujas estimativas se mostraram mais precisas na comparação com outros modelos. Os Histogramas-Omni são apresentados como a terceira contribuição desta tese. Estas estruturas de indexação, construídas a partir de restrições de particionamento de histogramas, permitem a execução otimizada de consultas que mesclam comparações por similaridade, identidade e ordem. A quarta contribuição de nossa investigação se refere ao modelo RVRM, que é capaz de indicar quanto é possível empregar as estimativas das sinopses de distância para otimizar consultas por similaridade em conjuntos de dados de alta dimensionalidade. O modelo RVRM se mostrou capaz de identificar intervalos de dimensões para os quais essas consultas podem ser executadas eficientes. Finalmente, a última contribuição desta tese propõe a integração das sinopses e modelos revisados em um sistema com sintaxe de alto nível que pode ser acoplado em um otimizador de consultas. / Similarity searching is a foundational paradigm for many modern computer applications, such as clustering, classification and information retrieval. Within this context, the meaning of similarity is related to the distance between objects, which can be formally expressed by the Metric Spaces Theory. Many studies have focused on the inclusion of similarity search into Database Management Systems (DBMSs) for (i) enabling similarity comparisons to be combined with the DBMSs identity and order comparisons and (ii) providing scalability for very large databases. As a step further, we propose the extension of the DBMS Query Optimizer and, particularly, the extension of two modules of the Query Optimizer, namely Data Distribution Space and Cost Model modules. Although the Data Distribution Space enables representations of stored data, such representations are unsuitable for modeling the behavior of similarity comparisons, which requires the extension of the module to support distance distributions. Likewise, the Cost Model module must be extended to support cost models that depend on distance distributions. Our study is based on five contributions. A new synopsis for distance distributions, called Compact-Distance Histogram (CDH), is proposed and enables radius and selectivity estimation for similarity searching. An experimental comparison showed the gains of the estimates drawn from CDH in comparison to several competitors. A cost model based on the CDH synopsis and with accurate estimates, called Stockpile, is also proposed. Omni-Histograms are presented as the third contribution of the thesis. Such indexing structures are constructed according to histogram partition constraints and enable the optimization of queries that combine similarity, identity and order comparisons. The fourth contribution refers to the model RVRM, which indicates the possible use of the estimates obtained from distance-based synopses for the query optimization of high-dimensional datasets and identifies intervals of dimensions where similarity searching can be efficiently executed. Finally, the thesis proposes the integration of the reviewed synopses and cost models into a single system with a high-level language that can be coupled to a DBMS Query Optimizer.
|
94 |
Modelo de custo para consultas por similaridade em espaços métricos / Cost model for similarity queries in metric spacesGisele Busichia Baioco 24 January 2007 (has links)
Esta tese apresenta um modelo de custo para estimar o número de acessos a disco (custo de I/O) e o número de cálculos de distância (custo de CPU) para consultas por similaridade executadas sobre métodos de acesso métricos dinâmicos. O objetivo da criação do modelo é a otimização de consultas por similaridade em Sistemas de Gerenciamento de Bases de Dados relacionais e objeto-relacionais. Foram considerados dois tipos de consultas por similaridade: consulta por abrangência e consulta aos k-vizinhos mais próximos. Como base para a criação do modelo de custo foi utilizado o método de acesso métrico dinâmico Slim-Tree. O modelo estima a dimensão intrínseca do conjunto de dados pela sua dimensão de correlação fractal. A validação do modelo é confirmada por experimentos com conjuntos de dados sintéticos e reais, de variados tamanhos e dimensões, que mostram que as estimativas obtidas em geral estão dentro da faixa de variação medida em consultas reais / This thesis presents a cost model to estimate the number of disk accesses (I/O costs) and the number of distance calculations (CPU costs) to process similarity queries over data indexed by dynamic metric access methods. The goal of the model is to optimize similarity queries on relational and object-relational Database Management Systems. Two types of similarity queries were taken into consideration: range queries and k-nearest neighbor queries. The dynamic metric access method Slim-Tree was used as the basis for the creation of the cost model. The model takes advantage of the intrinsic dimension of the data set, estimated by its correlation fractal dimension. Experiments were performed on real and synthetic data sets, with different sizes and dimensions, in order to validate the proposed model. They confirmed that the estimations are accurate, being always within the range achieved executing real queries
|
95 |
PathSim : um algoritmo para calcular a similaridade entre caminhos XML / PathSim: A XML path similarity algorithmVinson, Alexander Richard January 2007 (has links)
Algoritmos de similaridade que comparam dados expressos em XML são importantes em diversas aplicações que manipulam informações armazenadas nesse padrão. Sistemas de integração de dados XML e de consulta a instâncias XML são exemplos dessas aplicações. A utilização de funções de similaridade para efetuar as comparações nessas aplicações melhora seus resultados finais. A melhora ocorre porque as funções de similaridade possibilitam encontrar estruturas não idênticas às apresentadas nos parâmetros das consultas mas que armazenam informações relevantes. Uma característica importante que pode ser utilizada para definir se dois elementos XML representam o mesmo objeto real é os caminhos que chegam a estes elementos nas suas respectivas árvores. No entanto, os nodos que representam um determinado objeto real em duas instâncias XML diferentes podem se acessados por caminhos distintos, devido a opções de modelagem dos documentos. Portanto um algoritmo para calcular a similaridade entre caminhos XML é importante para as aplicações descritas acima. Neste contexto, esta dissertação objetiva desenvolver um algoritmo de similaridade entre caminhos XML. O resultado principal do trabalho é um algoritmo de similaridade entre caminhos XML, nomeado PathSim, que efetua o cálculo de similaridade entre dois caminhos baseado no número mínimo de operações de edição (inserção, remoção e substituição de nomes de elementos) necessárias para transformar um caminho no outro. Além deste algoritmo, foram desenvolvidas três funções de pré-processamento para simplificar os caminhos XML e melhoram os resultados do algoritmo. Adicionalmente, duas variações do algoritmo PathSim são apresentadas, uma incrementada com comparações entre combinações de nomes de elementos, nomeada PathSimC, e a outra auxiliada por técnicas de alinhamento, nomeada PathSimA. Experimentos utilizando documentos XML criados por terceiros, validam empiricamente os algoritmos PathSim e PathSimC.Nos experimentos, os algoritmos foram comparados a uma abordagem para mensurar a similaridade entre caminhos encontrada na literatura. Os algoritmos apresentam melhores resultados que o baseline. Os ganhos variam de acordo com o ambiente onde os caminhos foram extraídos e com as funções de pré-processamento que foram aplicadas aos caminhos. / Similarity algorithms for comparing XML data are important in various applications that manipulate information stored according to this standard. XML data integration systems and XML instance querying systems are examples of such applications. The use of similarity functions to evaluate comparisons in these applications improves their final results. The improvement occurs because similarity functions allow finding structures that are not identical to the query parameter but store relevant information. One important feature that may be used to define if two XML elements represent the same real world object is the paths that lead to those objects in their corresponding trees. However, the nodes that represent a specific real world object in two different XML instances may be accessed by distinct paths, due to XML design decisions. Thus a method for assessing the similarity of XML paths is important in the applications described above. In this context, the goal of this dissertation is to develop a XML path similarity algorithm. The main contribution of this work is a XML path similarity algorithm, named Path- Sim, that calculates the similarity between two paths by computing the minimum number of edit operations (element name insertions, deletions and substitutions) required to transform one path into another. Besides the algorithm, three preprocessing functions were developed to simplify XML paths and improve the results of the algorithm. Additionally, two variations of PathSim algorithm are presented, one enhanced with comparisons among combinations of element names, named PathSimC, and the other one assisted by alignment techniques, named PathSimA. Experiments using XML documents created by third parties validate the algorithms PathSim and PathSimC empirically. On the experiments, the algorithms are compared to a path similarity algorithm found in the literature. The proposed algorithms presents better results than the baseline. The gains vary according to the environment from which the paths were extracted and to the preprocessing functions applied.
|
96 |
Avaliação da qualidade de funções de similaridade no contexto de consultas por abrangência / Quality evaluation of similarity functions for range queriesStasiu, Raquel Kolitski January 2007 (has links)
Em sistemas reais, os dados armazenados tipicamente apresentam inconsistências causadas por erros de gra a, abreviações, caracteres trocados, entre outros. Isto faz com que diferentes representações do mesmo objeto do mundo real sejam registrados como elementos distintos, causando um problema no momento de consultar os dados. Portanto, o problema investigado nesta tese refere-se às consultas por abrangência, que procuram encontrar objetos que representam o mesmo objeto real consultado . Esse tipo de consulta não pode ser processado por coincidência exata, necessitando de um mecanismo de consulta com suporte à similaridade. Para cada consulta submetida a uma determinada coleção, a função de similaridade produz um ranking dos elementos dessa coleção ordenados pelo valor de similaridade entre cada elemento e o objeto consulta. Como somente os elementos que são variações do objeto consulta são relevantes e deveriam ser retornados, é necessário o uso de um limiar para delimitar o resultado. O primeiro desa o das consultas por abrangência é a de nição do limiar. Geralmente é o especialista humano que faz a estimativa manualmente através da identi - cação de elementos relevantes e irrelevantes para cada consulta e em seguida, utiliza uma medida como revocação e precisão (R&P). A alta dependência do especialista humano di culta o uso de consultas por abrangência na prática, principalmente em grandes coleções. Por esta razão, o método apresentado nesta tese tem por objetivo estimar R&P para vários limiares com baixa dependência do especialista humano. Como um sub-produto do método, também é possível selecionar o limiar mais adequado para uma função sobre uma determinada coleção. Considerando que as funções de similaridade são imperfeitas e que apresentam níveis diferentes de qualidade, é necessário avaliar a função de similaridade para cada coleção, pois o resultado é dependente dos dados. Um limiar para uma coleção pode ser totalmente inadequado para outra coleção, embora utilizando a mesma função de similaridade. Como forma de medir a qualidade de funções de similaridade no contexto de consultas por abrangência, esta tese apresenta a discernibilidade. Trata-se de uma medida que de ne a habilidade da função de similaridade de separar elementos relevantes e irrelevantes. Comparando com a precisão média, a discernibilidade captura variações que não são percebidas pela precisão média, o que mostra que a discernibilidade é mais apropriada para consultas por abrangência. Uma extensa avaliação experimental usando dados reais mostra a viabilidade tanto do método de estimativas como da medida de discernibilidade para consultas por abrangência. / In real systems, stored data typically have inconsistencies caused by typing errors, abbreviations, transposed characters, amongst others. For this reason, di erent representations of the same real world object are stored as distinct elements, causing problems during query processing. In this sense, this thesis investigates range queries which nd objects that represent the same real world object being queried . This type of query cannot be processed by exact matching, thus requiring the support for querying by similarity. For each query submitted to a given collection, the similarity function produces a ranked list of all elements in this collection. This ranked list is sorted decreasingly by the similarity score value with the query object. Only the variations of the query object should be part of the result as only those items are relevant. For this reason, it is necessary to apply a threshold value to properly split the ranking. The rst challenge of range queries is the de nition of a proper threshold. Usually, a human specialist makes the estimation manually through the identi cation of relevant and irrelevant elements for each query. Then, he/she uses measures such as recall and precision (R&P). The high dependency on the human specialist is the main di culty related to use of range queries in real situations, specially for large collections. In this sense, the method presented in this thesis has the objective of estimating R&P at several thresholds with low human intervention. As a by-product of this method, it is possible to select the optimal threshold for a similarity function in a given collection. Considering the fact that the similarity functions are imperfect and vary in quality, it is necessary to evaluate the similarity function for each collection as the result is domain dependent. A threshold value for a collection could be totally inappropriate for another, even though the same similarity function is applied. As a measure of quality of similarity functions for range queries, this thesis introduces discernability. This is a measure to quantify the ability of the similarity function in separating relevant and irrelevant elements. Comparing discernability and mean average precision, the rst one can capture variations that are not noticed by precision-based measures. This property shows that discernability presents better results for evaluating similarity functions for range queries. An extended experimental evaluation using real data shows the viability of both, the estimation method and the discernability measure, applied to range queries.
|
97 |
Automatizando o processo de estimativa de revocação e precisão de funções de similaridade / Automatizing the process of estimating recall and precision of similarity functionsSantos, Juliana Bonato dos January 2008 (has links)
Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. / Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision.
|
98 |
ConPredict: Predição de Links em Redes de Coautoria Baseada em ConteúdoANTUNES, Jamilson Batista 18 June 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-11T12:26:42Z
No. of bitstreams: 2
DISSERTAÇAO JAMILSON ANTUNES.pdf: 1825865 bytes, checksum: 48aaec0f076229795f6ad7e8e7c46878 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T12:59:16Z (GMT) No. of bitstreams: 2
DISSERTAÇAO JAMILSON ANTUNES.pdf: 1825865 bytes, checksum: 48aaec0f076229795f6ad7e8e7c46878 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T12:59:16Z (GMT). No. of bitstreams: 2
DISSERTAÇAO JAMILSON ANTUNES.pdf: 1825865 bytes, checksum: 48aaec0f076229795f6ad7e8e7c46878 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-06-18 / A predição de relacionamentos (Link Prediction) é uma subárea da Mineração
de Links e uma das tarefas associadas à Análise de Redes Sociais. Seu objetivo é predizer
o surgimento de relacionamentos futuros entre os nós em uma rede social.
Este trabalho tem como foco a análise de redes de coautoria, que são um tipo
particular de rede de relacionamentos. Já foram propostos muitos métodos para lidar
com problemas de predição de links em redes de coautoria. A maioria deles consiste na
análise da estrutura da rede através do uso de alguma métrica. Assim, esses trabalhos
limitam-se a analisar a rede levando em consideração apenas sua topologia, sem
considerar a similaridade do conteúdo dos nós.
Este trabalho propõe a utilização de uma abordagem híbrida (baseada na
topologia da rede e a baseada em conteúdo) para predição de links em redes de
coautoria. O método proposto inicialmente analisa a estrutura da rede atual, e propõe
uma lista de links futuros (pares de autores candidatos a colaborarem no futuro) com
base na distância entre os nós da rede atual (análise baseada em padrões estruturais da
rede). Apenas nós com distância máxima de dois farão parte dessa lista. A seguir, o
método proposto calcula a similaridade de conteúdo de cada par de nós (links) nessa
lista inicial (análise baseada em similaridade de conteúdo). Apenas os pares de nós que
alcançarem o limiar de similaridade adotado (parametrizável) serão propostos como
links futuros. Aqui, a análise de similaridade de conteúdo leva em conta os títulos e
resumos dos trabalhos publicados por cada autor.
Basicamente, o método trabalha com três redes de coautorias: a rede inicial,
usada para predição de novos links (chamada nesse trabalho de rede de Coautoria A),
uma rede de validação (rede de Coautoria B) e a rede predita (rede de Coautoria C). Nos
experimentos realizados, as redes A e B foram extraídas a partir de um repositório de
publicações. A rede de Coautoria A (rede inicial) foi gerada a partir de um intervalo de
três anos de publicações cientificas, e a rede de Coautoria B (rede futura real)
considerava os três anos consecutivos. A rede de Coautoria C predita segundo o método
proposto foi comparada com a rede B, a fim de medirmos a performance do nosso
método. Os experimentos realizados com quatro sub-redes reais demonstraram que,
em geral, o método obteve desempenho satisfatório, tendo obtido melhor resultado
sem o uso de Stemming (método para redução de uma palavra ao seu radical,
removendo as desinências, afixos, e vogais temáticas) na fase de processamento do
conteúdo textual de cada nó da rede.
|
99 |
Diversidade funcional de plantas lenhosas em resposta a gradientes sucessionais e edáficosPinho, Bruno Ximenes 06 June 2014 (has links)
Submitted by Amanda Silva (amanda.osilva2@ufpe.br) on 2015-03-11T14:42:25Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
DISSERAÇÃO Bruno Ximenes Pinho.pdf: 2949861 bytes, checksum: f7ac9f8d88dddcd169532c953876e3b9 (MD5) / Made available in DSpace on 2015-03-11T14:42:25Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
DISSERAÇÃO Bruno Ximenes Pinho.pdf: 2949861 bytes, checksum: f7ac9f8d88dddcd169532c953876e3b9 (MD5)
Previous issue date: 2014-06-06 / A sucessão florestal é um tema central na ecologia e provê um cenário ideal para entender como assembleias de plantas são organizadas, mas os mecanismos que determinam a substituição de espécies ao longo de gradientes sucessionais e ambientais raramente são examinados. A partir de uma perspectiva funcional, com base em atributos foliares, nós testamos a hipótese de que fatores edáficos determinam o sucesso de diferentes estratégias ecológicas vegetais e o papel de diferentes processos ecológicos (filtros ambientais e limitação de similaridade), definindo assim mudanças na composição e estrutura de comunidades vegetais, em uma sucessão florestal secundária. Adicionalmente, avaliamos a validade do método de classificação de tipos funcionais CSR para plantas lenhosas em florestas tropicais, testando em seguida os pressupostos da “Teoria CSR”, que prevê o envolvimento de estratégias ecológicas vegetais na sucessão com base em um triplo trade-off na evolução das plantas, associados à capacidade das espécies competirem por recursos (C), tolerarem estresses (S) e responderem a distúrbios (R). Ao longo da sucessão, a fertilidade e o pH do solo apresentaram uma forte tendência de redução, explicando a progressiva substituição de espécies com alta capacidade de competir por recursos e crescer rapidamente, em estágios iniciais, por outras mais tolerantes a estresses, com tecidos densos e baixa demanda por recursos dos solos, que dominaram estágios sucessionais avançados e florestas maduras. No início da sucessão, a complementariedade de nicho foi o principal determinante da ocorrência e abundância das espécies, provavelmente como resultado de interações antagônicas, que podem limitar a similaridade entre as espécies que co-ocorrem em uma comunidade. No entanto, com a redução da disponibilidade de nutrientes e aumento da acidez dos solos, filtros abióticos se tornaram progressivamente mais preponderantes, restringindo gradualmente a diversidade de estratégias vegetais de aquisição e uso de recursos, ao longo da sucessão. Relações multivariadas entre os atributos foliares das espécies demonstraram a consistência dos trade-offs observados em outros contextos e utilizados como base para a construção do método de classificação CSR. O método também foi capaz de explicar as mudanças sucessionais observadas em concordância com a teoria CSR, i.e. a substituição gradual de espécies com caráter competitivo por plantas mais tolerantes a estresses. Em resumo, esses resultados sugerem que fatores edáficos e processos de nicho determinam fortemente padrões de distribuição, abundância e coexistência de espécies em florestas tropicais; e que a Teoria CSR pode ser amplamente utilizada para quantificar, comparar e prever a estrutura de comunidades com base em estratégias adaptativas vegetais.
|
100 |
Comparação de duas metodologias multivariadas no estudo de similaridade entre fragmentos de Floresta Atlântica / Comparison of two multivariate methodologies in the study of similarity between fragments of atlantic forestMOTA, Adalmeres Cavalcanti da 30 April 2007 (has links)
Submitted by (ana.araujo@ufrpe.br) on 2016-05-18T16:58:57Z
No. of bitstreams: 1
Adalmeres Cavalcanti da Mota.pdf: 1836429 bytes, checksum: 8b4e6565f8982ad5bf38cee78a593a22 (MD5) / Made available in DSpace on 2016-05-18T16:58:57Z (GMT). No. of bitstreams: 1
Adalmeres Cavalcanti da Mota.pdf: 1836429 bytes, checksum: 8b4e6565f8982ad5bf38cee78a593a22 (MD5)
Previous issue date: 2007-04-30 / Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / Studies carried in the Atlantic Forest has pointed out to the floristic heterogeneity of this vegetation in different regions of Brazil. However, a refined comparison of the floristic relations, becomes necessary to identify the level of affinity among them. The objective of this work was to compare two multivaried methodologies in the study of similarity among fragments of the Atlantic Forest. A bibliographical survey was carried out from 11 fragments of Atlantic Forest, located in the States of Pernambuco, Rio Grande do Norte, Minas Gerais, São Paulo and Rio de Janeiro. The data set for the accomplishment of the study of the floristic similarity was construed using two methodologies of the multivaried analysis techniques. In the usual methodology it was used a binary matrix (presence/absence) of 236 arboreal species present in the 11 fragments, a cluster analysis, using the method of the simple linkage and the coefficient of Jaccard was applied. In the proposal methodology it was used the analysis of principal components for reduction of the dimension of the matrix density and absolute dominancy of the 236 arboreal species,considering the scores of these principal components to apply the cluster analysis, through a method of simple linkage and the Euclidian distance. In the usual methodology it was identified two fragments, one in the Northeastern Region(Pernambuco) and another in the Southeastern Region (Minas Gerais). In the proposal methodology it was identified only one group with fragments in the Northeastern region (Pernambuco),standing out that the quantitative variables are of utmost importance for the association of the forests in different regions. The proposal methodology has potential for use in the study of similarity of the forest fragments. / Estudos realizados na Floresta Atlântica têm apontado para a heterogeneidade florística dessa vegetação em diferentes regiões do Brasil. Entretanto, uma comparação mais refinada das relações florísticas, faz-se necessário para identificar o nível de afinidade entre as mesmas. O objetivo deste trabalho foi comparar duas metodologias multivariadas no estudo de similaridade entre fragmentos de Floresta Atlântica. Foi realizado um levantamento bibliográfico e a partir de 11 fragmentos de Floresta Atlântica, localizados nos Estados de Pernambuco, do Rio Grande do Norte, de Minas Gerais, de São Paulo e do Rio de Janeiro. Montaram-se os bancos de dados para a realização do estudo da similaridade florística empregando duas metodologias de técnicas de análise multivariada. Na metodologia usual foi utilizada uma matriz binária (presença/ausência) de 236 espécies arbóreas ocorrentes nos 11 fragmentos, e realizada uma análise de Agrupamento, utilizando-se o método da ligação simples e o coeficiente de Jaccard. Na metodologia proposta foi utilizada a análise de componentes principais para redução da dimensão da matriz de densidades e dominâncias absolutas das 236 espécies arbóreas, utilizando dos escores desses componentes principais para aplicar a análise de agrupamento, por meio do método de ligação simples e a distância Euclidiana. Na metodologia usual foram identificados dois agrupamentos um com fragmentos da região nordestina (Pernambuco), e outro com fragmentos da região sudeste (Minas Gerais). Na metodologia proposta foi identificado apenas um grupo com fragmentos da região nordestina (Pernambuco), ressaltando que as variáveis quantitativas são de suma importância para a associação das matas em diferentes regiões. A metodologia proposta tem potencial para utilização no estudo de similaridade de fragmentos florestais.
|
Page generated in 0.0715 seconds