41 |
Avaliação experimental de uma técnica de padronização de escores de similaridade / Experimental evaluation of a similarity score standardization techniqueNunes, Marcos Freitas January 2009 (has links)
Com o crescimento e a facilidade de acesso a Internet, o volume de dados cresceu muito nos últimos anos e, consequentemente, ficou muito fácil o acesso a bases de dados remotas, permitindo integrar dados fisicamente distantes. Geralmente, instâncias de um mesmo objeto no mundo real, originadas de bases distintas, apresentam diferenças na representação de seus valores, ou seja, os mesmos dados no mundo real podem ser representados de formas diferentes. Neste contexto, surgiram os estudos sobre casamento aproximado utilizando funções de similaridade. Por consequência, surgiu a dificuldade de entender os resultados das funções e selecionar limiares ideais. Quando se trata de casamento de agregados (registros), existe o problema de combinar os escores de similaridade, pois funções distintas possuem distribuições diferentes. Com objetivo de contornar este problema, foi desenvolvida em um trabalho anterior uma técnica de padronização de escores, que propõe substituir o escore calculado pela função de similaridade por um escore ajustado (calculado através de um treinamento), o qual é intuitivo para o usuário e pode ser combinado no processo de casamento de registros. Tal técnica foi desenvolvida por uma aluna de doutorado do grupo de Banco de Dados da UFRGS e será chamada aqui de MeaningScore (DORNELES et al., 2007). O presente trabalho visa estudar e realizar uma avaliação experimental detalhada da técnica MeaningScore. Com o final do processo de avaliação aqui executado, é possível afirmar que a utilização da abordagem MeaningScore é válida e retorna melhores resultados. No processo de casamento de registros, onde escores de similaridades distintos devem ser combinados, a utilização deste escore padronizado ao invés do escore original, retornado pela função de similaridade, produz resultados com maior qualidade. / With the growth of the Web, the volume of information grew considerably over the past years, and consequently, the access to remote databases became easier, which allows the integration of distributed information. Usually, instances of the same object in the real world, originated from distinct databases, present differences in the representation of their values, which means that the same information can be represented in different ways. In this context, research on approximate matching using similarity functions arises. As a consequence, there is a need to understand the result of the functions and to select ideal thresholds. Also, when matching records, there is the problem of combining the similarity scores, since distinct functions have different distributions. With the purpose of overcoming this problem, a previous work developed a technique that standardizes the scores, by replacing the computed score by an adjusted score (computed through a training), which is more intuitive for the user and can be combined in the process of record matching. This work was developed by a Phd student from the UFRGS database research group, and is referred to as MeaningScore (DORNELES et al., 2007). The present work intends to study and perform an experimental evaluation of this technique. As the validation shows, it is possible to say that the usage of the MeaningScore approach is valid and return better results. In the process of record matching, where distinct similarity must be combined, the usage of the adjusted score produces results with higher quality.
|
42 |
Avaliação experimental de uma técnica de padronização de escores de similaridade / Experimental evaluation of a similarity score standardization techniqueNunes, Marcos Freitas January 2009 (has links)
Com o crescimento e a facilidade de acesso a Internet, o volume de dados cresceu muito nos últimos anos e, consequentemente, ficou muito fácil o acesso a bases de dados remotas, permitindo integrar dados fisicamente distantes. Geralmente, instâncias de um mesmo objeto no mundo real, originadas de bases distintas, apresentam diferenças na representação de seus valores, ou seja, os mesmos dados no mundo real podem ser representados de formas diferentes. Neste contexto, surgiram os estudos sobre casamento aproximado utilizando funções de similaridade. Por consequência, surgiu a dificuldade de entender os resultados das funções e selecionar limiares ideais. Quando se trata de casamento de agregados (registros), existe o problema de combinar os escores de similaridade, pois funções distintas possuem distribuições diferentes. Com objetivo de contornar este problema, foi desenvolvida em um trabalho anterior uma técnica de padronização de escores, que propõe substituir o escore calculado pela função de similaridade por um escore ajustado (calculado através de um treinamento), o qual é intuitivo para o usuário e pode ser combinado no processo de casamento de registros. Tal técnica foi desenvolvida por uma aluna de doutorado do grupo de Banco de Dados da UFRGS e será chamada aqui de MeaningScore (DORNELES et al., 2007). O presente trabalho visa estudar e realizar uma avaliação experimental detalhada da técnica MeaningScore. Com o final do processo de avaliação aqui executado, é possível afirmar que a utilização da abordagem MeaningScore é válida e retorna melhores resultados. No processo de casamento de registros, onde escores de similaridades distintos devem ser combinados, a utilização deste escore padronizado ao invés do escore original, retornado pela função de similaridade, produz resultados com maior qualidade. / With the growth of the Web, the volume of information grew considerably over the past years, and consequently, the access to remote databases became easier, which allows the integration of distributed information. Usually, instances of the same object in the real world, originated from distinct databases, present differences in the representation of their values, which means that the same information can be represented in different ways. In this context, research on approximate matching using similarity functions arises. As a consequence, there is a need to understand the result of the functions and to select ideal thresholds. Also, when matching records, there is the problem of combining the similarity scores, since distinct functions have different distributions. With the purpose of overcoming this problem, a previous work developed a technique that standardizes the scores, by replacing the computed score by an adjusted score (computed through a training), which is more intuitive for the user and can be combined in the process of record matching. This work was developed by a Phd student from the UFRGS database research group, and is referred to as MeaningScore (DORNELES et al., 2007). The present work intends to study and perform an experimental evaluation of this technique. As the validation shows, it is possible to say that the usage of the MeaningScore approach is valid and return better results. In the process of record matching, where distinct similarity must be combined, the usage of the adjusted score produces results with higher quality.
|
43 |
Avaliação experimental de uma técnica de padronização de escores de similaridade / Experimental evaluation of a similarity score standardization techniqueNunes, Marcos Freitas January 2009 (has links)
Com o crescimento e a facilidade de acesso a Internet, o volume de dados cresceu muito nos últimos anos e, consequentemente, ficou muito fácil o acesso a bases de dados remotas, permitindo integrar dados fisicamente distantes. Geralmente, instâncias de um mesmo objeto no mundo real, originadas de bases distintas, apresentam diferenças na representação de seus valores, ou seja, os mesmos dados no mundo real podem ser representados de formas diferentes. Neste contexto, surgiram os estudos sobre casamento aproximado utilizando funções de similaridade. Por consequência, surgiu a dificuldade de entender os resultados das funções e selecionar limiares ideais. Quando se trata de casamento de agregados (registros), existe o problema de combinar os escores de similaridade, pois funções distintas possuem distribuições diferentes. Com objetivo de contornar este problema, foi desenvolvida em um trabalho anterior uma técnica de padronização de escores, que propõe substituir o escore calculado pela função de similaridade por um escore ajustado (calculado através de um treinamento), o qual é intuitivo para o usuário e pode ser combinado no processo de casamento de registros. Tal técnica foi desenvolvida por uma aluna de doutorado do grupo de Banco de Dados da UFRGS e será chamada aqui de MeaningScore (DORNELES et al., 2007). O presente trabalho visa estudar e realizar uma avaliação experimental detalhada da técnica MeaningScore. Com o final do processo de avaliação aqui executado, é possível afirmar que a utilização da abordagem MeaningScore é válida e retorna melhores resultados. No processo de casamento de registros, onde escores de similaridades distintos devem ser combinados, a utilização deste escore padronizado ao invés do escore original, retornado pela função de similaridade, produz resultados com maior qualidade. / With the growth of the Web, the volume of information grew considerably over the past years, and consequently, the access to remote databases became easier, which allows the integration of distributed information. Usually, instances of the same object in the real world, originated from distinct databases, present differences in the representation of their values, which means that the same information can be represented in different ways. In this context, research on approximate matching using similarity functions arises. As a consequence, there is a need to understand the result of the functions and to select ideal thresholds. Also, when matching records, there is the problem of combining the similarity scores, since distinct functions have different distributions. With the purpose of overcoming this problem, a previous work developed a technique that standardizes the scores, by replacing the computed score by an adjusted score (computed through a training), which is more intuitive for the user and can be combined in the process of record matching. This work was developed by a Phd student from the UFRGS database research group, and is referred to as MeaningScore (DORNELES et al., 2007). The present work intends to study and perform an experimental evaluation of this technique. As the validation shows, it is possible to say that the usage of the MeaningScore approach is valid and return better results. In the process of record matching, where distinct similarity must be combined, the usage of the adjusted score produces results with higher quality.
|
44 |
[pt] MEDIDAS DE SIMILARIDADE ENTRE SÉRIES TEMPORAIS / [en] TIME SERIES SYMILARITY MEASURESJOSE LUIZ DO NASCIMENTO DE AGUIAR 27 October 2016 (has links)
[pt] Atualmente, uma tarefa muito importante na mineração de dados é compreender como extrair os dados mais informativos dentre um número muito grande de dados. Uma vez que todos os campos de conhecimento apresentam uma grande quantidade de dados que precisam ser reduzidas até as informações mais representativas, a abordagem das séries temporais é definitivamente um método muito forte para representar e extrair estas informações. No entanto nós precisamos ter uma ferramenta apropriada para inferir os dados mais significativos destas séries temporais, e para nos ajudar, podemos utilizar alguns métodos de medida de similaridade para saber o grau de igualdade entre duas séries temporais, e nesta pesquisa nós vamos realizar um estudo utilizando alguns métodos de similaridade baseados em medidas de distância e aplicar estes métodos em alguns algoritmos de clusterização para fazer uma avaliação de se existe uma combinação (método de similaridade baseado em distância / algoritmo de clusterização) que apresenta uma performance melhor em relação a todos os outros utilizados neste estudo, ou se existe um método de similaridade baseado em distância que mostra um desempenho melhor que os demais. / [en] Nowadays a very important task in data mining is to understand how to collect the most informative data in a very amount of data. Once every single field of knowledge have lots of data to summarize in the most representative information, the time series approach is definitely a very strong way to represent and collect this information from it (12, 22). On other hand we need to have an appropriate tool to extract the most significant data from this time series. To help us we can use some similarity methods to know how similar is one time series from another In this work we will perform a research using some distance-based similarity methods and apply it in some clustering algorithms to do an assessment to see if there is a combination (distance-based similarity methods / clustering algorithm) that present a better performance in relation with all the others used in this work or if there exists one distancebased similarity method that shows a better performance between the others.
|
45 |
Suporte a consultas por similaridade unárias em SQL / Extending SQL to support unary similary queriesFerreira, Mônica Ribeiro Porto 15 February 2008 (has links)
Os operadores convencionais para comparação de dados por igualdade e por relação de ordem total não são adequados para o gerenciamento de dados complexos como, por exemplo, os dados multimí?dia (imagens, áudio, textos longos), séries temporais e seqüências genéticas. Para comparar dados desses tipos, o grau de similaridade entre suas instâncias é, em geral, o fator mais importante sendo, portanto, indicado que as operações de consulta sejam realizadas utilizando os chamados operadores por similaridade. Existem operadores de busca por similaridade tanto unários quanto binários. Os operadores unários são utilizados para implementar operações de seleção, enquanto os operadores binários destinam-se a operações de junção. A álgebra relacional, usada nos Sistemas de Gerenciamento de Bases de Dados Relacionais, não provê suporte para expressar critérios de busca por similaridade. Para suprir esse suporte, está em desenvolvimento no Grupo de Bases de Dados e Imagens (GBdI-ICMC-USP) uma extensão à álgebra relacional que permite representar as consultas por similaridade em expressões algébricas. Esta dissertação incorpora-se nesse empreendimento, abordando o tratamento aos operadores unários por similaridade na álgebra, bem como a implementação do otimizador de consultas por similaridade no SIREN (Similarity Retrieval Engine) para que as consultas por similaridade possam ser respondidas pelos Sistemas de Gerenciamento de Bases de Dados relacionais / Conventional operators for data comparison based on exact matching and total order relations are not appropriate to manage complex data, such as multimedia data (e.g. images, audio and large texts), time series and genetic sequences. In fact, the most important aspect to compare complex data is usually the similarity degree between instances, leading to the use of similarity operators to perform search and retrieval operations. Similarity operators can be classified as unary or as binary, respectively used to implement selection operations and joins. However, the Relation Algebra, employed in Relational Database Management Systems (DBMS), does not provide resources to express similarity search criteria. In order to fulfill this lack of support, an extension to the Relational Algebra is under development at GBdI-ICMC-USP (Grupo de Bases de Dados e Imagens), aiming to represent similarity queries in algebraic expressions. This work contributes to such an effort by dealing with unary similarity operators in Relational Algebra and by developing a similarity query optimizer for SIREN (Similarity Retrieval Engine), therefore allowing similarity queries to be answered by Relational DBMS
|
46 |
Suporte a consultas por similaridade unárias em SQL / Extending SQL to support unary similary queriesMônica Ribeiro Porto Ferreira 15 February 2008 (has links)
Os operadores convencionais para comparação de dados por igualdade e por relação de ordem total não são adequados para o gerenciamento de dados complexos como, por exemplo, os dados multimí?dia (imagens, áudio, textos longos), séries temporais e seqüências genéticas. Para comparar dados desses tipos, o grau de similaridade entre suas instâncias é, em geral, o fator mais importante sendo, portanto, indicado que as operações de consulta sejam realizadas utilizando os chamados operadores por similaridade. Existem operadores de busca por similaridade tanto unários quanto binários. Os operadores unários são utilizados para implementar operações de seleção, enquanto os operadores binários destinam-se a operações de junção. A álgebra relacional, usada nos Sistemas de Gerenciamento de Bases de Dados Relacionais, não provê suporte para expressar critérios de busca por similaridade. Para suprir esse suporte, está em desenvolvimento no Grupo de Bases de Dados e Imagens (GBdI-ICMC-USP) uma extensão à álgebra relacional que permite representar as consultas por similaridade em expressões algébricas. Esta dissertação incorpora-se nesse empreendimento, abordando o tratamento aos operadores unários por similaridade na álgebra, bem como a implementação do otimizador de consultas por similaridade no SIREN (Similarity Retrieval Engine) para que as consultas por similaridade possam ser respondidas pelos Sistemas de Gerenciamento de Bases de Dados relacionais / Conventional operators for data comparison based on exact matching and total order relations are not appropriate to manage complex data, such as multimedia data (e.g. images, audio and large texts), time series and genetic sequences. In fact, the most important aspect to compare complex data is usually the similarity degree between instances, leading to the use of similarity operators to perform search and retrieval operations. Similarity operators can be classified as unary or as binary, respectively used to implement selection operations and joins. However, the Relation Algebra, employed in Relational Database Management Systems (DBMS), does not provide resources to express similarity search criteria. In order to fulfill this lack of support, an extension to the Relational Algebra is under development at GBdI-ICMC-USP (Grupo de Bases de Dados e Imagens), aiming to represent similarity queries in algebraic expressions. This work contributes to such an effort by dealing with unary similarity operators in Relational Algebra and by developing a similarity query optimizer for SIREN (Similarity Retrieval Engine), therefore allowing similarity queries to be answered by Relational DBMS
|
47 |
Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs / Set similarity joins exploring multilevel parallelism on GPUsRibeiro Junior, Sidney 29 August 2017 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2017-10-05T11:30:17Z
No. of bitstreams: 2
Dissertação - Sidney Ribeiro Junior - 2017.pdf: 1832065 bytes, checksum: 41b96bdea09ea7b5ddb6551265e0622b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-10-05T11:30:38Z (GMT) No. of bitstreams: 2
Dissertação - Sidney Ribeiro Junior - 2017.pdf: 1832065 bytes, checksum: 41b96bdea09ea7b5ddb6551265e0622b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-10-05T11:30:38Z (GMT). No. of bitstreams: 2
Dissertação - Sidney Ribeiro Junior - 2017.pdf: 1832065 bytes, checksum: 41b96bdea09ea7b5ddb6551265e0622b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2017-08-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Similarity Join is an important operation for information retrieval, near duplicate detection, data
analysis etc. State-of-the-art algorithms for similarity join use a technique known as prefix filtering
to reduce the amount of sets to be entirely compared by previously discarding dissimilar sets.
However, prefix filtering is only effective when looking for very similar data. An alternative to
speedup the similarity join when prefix filtering is not efficient is to explore parallelism.
In this work we developed three multi-level fine-grained parallel algorithms for many-core
architectures (such as modern Graphic Processing Units) to solve the similarity join problem. The
proposed algorithms have shown speedup gains of 109x and 17x when compared with sequential
(ppjoin) and parallel (fgssjoin) state-of-the-art solutions, respectively, on standard real text
databases. / A Junção por Similaridade é uma operação importante no contexto de recuperação da informação,
identificação de duplicatas, análise de dados etc. Os algoritmos do estado da arte que realizam a
junção por similaridade utilizam uma técnica chamada filtragem por prefixo, que diminui a
quantidade de pares a serem totalmente comparados ao descartar previamente pares dissimilares.
No entanto, a filtragem por prefixo é eficaz apenas quando se deseja encontrar pares muito
similares. Uma alternativa para melhorar o desempenho da junção por similaridade quando a
filtragem por prefixo é ineficaz, é explorar paralelismo.
Neste trabalho foram desenvolvidos três algoritmos com paralelismo multinível de granularidade
fina para arquiteturas many-core (como as modernas Unidades de Processamento Gráfico) para
resolver o problema da junção por similaridade. Os algoritmos desenvolvidos demonstraram
ganhos de speedup de até 109x e 17x em relação às soluções do estado da arte sequencial (ppjoin)
e paralela (fgssjoin), respectivamente, quando executado sobre bases de dados textuais padrão
reais.
|
48 |
Classificação de úlceras venosas dermatológicas para apoio a consultas por similaridade utilizando superpixels e aprendizado profundo / Classification of venous dermatological ulcers to support similarity queries using superpixels and deep learningBlanco, Gustavo 01 April 2019 (has links)
Sistemas de recuperação de imagens por conteúdo (do inglês Content-based ImageRetrieval - CBIR) têm sido cada vez mais utilizados em diversas aplicações de tratamento e análise de imagens, devido a dois fatores: CBIR é um procedimento que pode ser feito automaticamente, permitindo tratar o grande volume de imagens adquiridos em hospitais, e também é a base para o processamento de consultas por similaridade. No contexto médico tais sistemas auxiliam em diversas tarefas, desde treinamento de profissionais até em sistemas de auxílio a diagnóstico (do inglês Computer-Aided Diagnosis - CAD). Um sistema computacional capaz de comparar e classificar imagens obtidas em exames de pacientes utilizando uma base prévia de conhecimento poderia agilizar o atendimento da população e fornecer aos especialistas informações relevantes de forma rápida e simples. Neste trabalho, o foco foi na análise de imagens de úlceras venosas. Foram desenvolvidas duas técnicas para classificação dessas imagens. A primeira, denominada Counting-Labels Similarity Measure (CL-Measure) possuia vantagem de lidar com imagens segmentadas de forma automática, por superpixels, e ser versátil o suficiente para permitir adaptação para outros domínios. A ideia principal do CL-Measure consiste na criação de sub-imagens baseadas em uma classificação prévia, calcular a distância entre elas e agregar as distâncias parciais obtidas a partir de uma função apropriada. A segunda técnica, denominada Quality of Tissues from Dermatological Ulcers(QTDU), faz uso de redes convolucionais (CNNs) para rotulação dos superpixels com a vantagem de compor todo o processo de identificação de características e classificação, dispensando a necessidade de identificar qual o extrator de características mais adequado para o contexto em questão. Experimentos realizados sobre a base de imagens analisada, utilizando 179572 super pixels divididos em 4 classes, indicam que a QTDU é a abordagem mais eficaz até o momento para o contexto de classificação de imagens dermatológicas, com médias de AUC=0,986, sensitividade = 0,97,e especificidade=0,974 superando as abordagens anteriores baseadas em aprendizado de máquina em 11;7% e 8;2% considerando o coeficiente KAPPAeF-Measure, respectivamente. / Content-based Image Retrieval (CBIR) systems have been increasingly used in many image processing and analysis applications because of two factors: CBIR is a procedure that can be done automatically, allowing to handle the large volume of images acquired in hospitals, and it is also the basis for processing similarity queries. In the medical context, such systems assist in various tasks, from training of professionals to develop Computer-Aided Diagnosis CAD systems. A computer system capable of comparing and classifying images obtained from patient exams using a prior knowledge base could expedite the care of the population and provide specialists with relevant information quickly. In this study, the focus was on the analysis of images of venous ulcers. Two techniques were developed to classify these images. The first, called Counting-Labels Similarity Measure (CL-Measure) has the advantage of dealing with automatically segmented images by superpixels, and is versatile enough to allow adaptation to other domains. The main idea of CL-Measure is to create sub-images based on a previous classification, calculate the distance between them and add the partial distances obtained from an appropriate function. The second technique, called Quality of Tissues from Dermatological Ulcers (QTDU), makes use of convolutional networks (CNNs) for superpixels labeling, with the advantage of encompassing the whole process of identification of features and classification, without the need of identifying which extractor would be the best for the context in question. Experiments carried out on the image database using 179,572 superpixels divided into 4 classes, indicate that the QTDU is the most effective approach to date for the context of classification of dermatological ulcer images, with averages of AUC = 0.986, sensitivity = 0.97 , and specificity = 0.974, surpassing previous approaches based on machine learning in 11.7% and 8.2% considering the KAPPA and F-Measure coefficients, respectively.
|
49 |
Explorando variedade em consultas por similaridade / Investigationg variety in similarity queriesSantos, Lúcio Fernandes Dutra 26 October 2012 (has links)
A complexidade dos dados armazenados em grandes bases de dados aumenta sempre, criando a necessidade de novas formas de consulta. As consultas por similaridade vêm apresentando crescente interesse para tratar de dados complexos, sendo as mais representativas a consulta por abrangência (\'R IND. q\' Range query) e a consulta aos k-vizinhos mais próximos (k-\'NN IND. q\' k-Nearest Neighboor query). Até recentemente, essas consultas não estavam disponíveis nos Sistemas de Gerenciamento de Bases de Dados (SGBD). Agora, com o início de sua disponibilidade, tem se tornado claro que os operadores de busca fundamentais usados para executá-las não são suficientes para atender às necessidades das aplicações que as demandam. Assim, estão sendo estudadas variações e extensões aos operadores fundamentais, em geral voltados às necessidades de domínios de aplicações específicas. Além disso, os seguintes problemas vêm impactando diretamente sua aceitação por parte dos usuários e, portanto, sua usabilidade: (i) os operadores fundamentais são pouco expressivos em situações reais; (ii) a cardinalidade dos resultados tende a ser grande, obrigando o usuário analisar muitos elementos; e (iii) os resultados nem sempre atendem ao interesse do usuário, implicando na reformulação e ajuste frequente das consultas. O objetivo desta dissertação é o desenvolvimento de uma técnica inédita para exibir um grau de variedade nas respostas às consultas aos k-vizinhos mais próximos em domínios de dados métricos, explorando aspectos de diversidade em extensões dos operadores fundamentais usando apenas as propriedades básicas do espaço métrico sem a solicitação de outra informação por parte do usuário. Neste sentido, são apresentados: a formalização de um modelo de variedade que possibilita inserir diversidade nas consultas por similaridade sem a definição de parâmetros por parte do usuário; um algoritmo incremental para responder às consultas aos k-vizinhos mais próximos com variedade; um método de avaliação de sobreposição de variedade para as consultas por similaridade. As propriedades desses resultados permitem usar as técnicas desenvolvidas para apoiar a propriedade de variedade nas consultas aos k-vizinhos mais próximos em Sistemas de Gerenciamento de Bases de Dados / The data being collected and generated nowadays increases not only in volume, but also in complexity, leading to the need of new query operators. Similarity queries are one of the most pursued resources to retrieve complex data. The most studied operators to perform similarity are the Range Query (\'R IND.q\') and the k-Nearest Neighbor Query (k-\'NN IND. q\'). Until recently, those queries were not available in the Database Management Systems. Now they are starting to become available, but since its earliest applications to develop real systems, it became clear that the basic similarity query operators are not enough to meet the requirements of the target applications. Therefore, new variations and extensions to the basic operators are being studied, although every work up to now is only pursuing the requirements of specific application domains. Furthermore, the following issues are directly impacting their acceptance by users and therefore its usability: (i) the basic operators are not expressive in real situations, (ii) the result-set cardinality tends to be large, imposing to the user the need to analyze to many elements, and (iii) the results do not always meet the users interest, resulting in the reformulation and adjustment of the queries. The goal of this dissertation is the development of a novel technique to enable a degree of variety the answers of k-nearest neighbor queries in metric spaces, investigating aspects of diversity in extensions of the basic operators using only the properties of metric spaces, never requesting extra information from the user. In this monograph, we present: the formalization of the variety model that allows to support diversity in similarity queries without requiring diversification parameters from the user; a greedy algorithm to obtain answers for similarity queries to the k-nearest neighbors with variety; an evaluation method to assess the diversification ratio existing on a subset of elements in metric space. The properties of those results allow using our proposed techniques to support variety in k-nearest neighbor queries in Database Management Systems
|
50 |
Dinâmica da diversidade de florestas manejadas através da abordagem de ajuste e seleção de modelos para distribuição de abundância entre espécies / Temporal dynamics of tree diversity in the context of forest management, using species abundance distribution modelsNaves, Rafaela Pereira 31 October 2017 (has links)
As florestas na Amazônia tem sido exploradas para a provisão de madeira. A exploração era feita sem planejamento das atividades (Exploração Convencional ou EC), resultando em grandes áreas de florestas degradadas. A partir da década de 90, foram estabelecidas técnicas para minimizar os danos da exploração à vegetação remanescente, visando ciclos sequenciais de corte, sem prejuízo à produção, através da Exploração de Impacto Reduzido (EIR). Embora muito tenha sido discutido sobre o quão mais eficiente a EIR seja em relação a EC, ainda existem lacunas, principalmente acerca da organização e manutenção da diversidade dessas áreas. A exploração é, de maneira muito resumida, o corte de algumas árvores de interesse comercial e a morte acidental de outras árvores que não as de interesse, pela queda e arraste das toras, construção das estradas e dos pátios de estocagem. As clareiras formadas, em geral, são maiores que as que ocorrem naturalmente na floresta. Essas clareiras são ocupadas por espécies de rápido crescimento, potencialmente mudando a organização da comunidade. Assim, são necessárias abordagens para detectar e então caracterizar quais os impactos que a exploração tem na diversidade de comunidades arbóreas. É importante ressaltar que muitas decisões sobre a sustentabilidade do manejo são tomadas considerando como essas comunidades respondem a distúrbios. Diante do apresentado, esta tese teve como objetivo analisar a dinâmica da diversidade de florestas submetidas à exploração florestal. A distribuição de abundância entre espécies (DAE) é uma abordagem paramétrica para caracterização de comunidades, baseada em um dos poucos padrões que se mantem em todas as comunidades: muitas espécies raras e poucas espécies abundantes, sendo também o reflexo de como as espécies partilham recursos. Distúrbios mudam a identidade das espécies dominantes, podendo ser refletido em alterações nos parâmetros e/ou curvas da DAE. Nós analisamos a DAE de áreas submetidas ao manejo florestal (EIR e EC) e uma área Controle, antes do manejo e ao longo de 16 anos em Paragominas, Pará, Brasil. Antes da exploração, em 1993, foram estabelecidas três parcelas permanentes, onde os indivíduos arbóreos com DAP ≥ 25 cm foram cadastrados. Indivíduos menores (DAP ≥ 10 cm) foram mensurados em sub-parcelas. Após essa primeira medição, foi conduzida exploração em duas parcelas (EIR e EC) e a terceira parcela foi mantida como Controle. As parcelas foram medidas novamente em 1994, 1998, 2000, 2006 e 2009. Para testar se a DAE muda devido ao manejo, usamos a distribuição Poisson Lognormal (PLN) para descrever cada ano e cada tratamento. Para detectar mudanças na similaridade, em termos de composição de espécies e abundância relativa de cada espécie, nós usamos o parâmetro de correlação da PLN bivariada para comparar a comunidade antes da exploração com os outros anos. Ao contrário do esperado, não foram encontradas mudanças estatisticamente relevantes nos parâmetros da DAE ao longo do tempo em nenhum dos três tratamentos. Entretanto o parâmetro de correlação diminui para a comunidade com o menor critério de inclusão de DAP, nas últimas medições das áreas exploradas. Nós também analisamos a DAE dessas mesmas áreas considerando como medida de abundância a área basal de cada espécie. Não foram encontradas mudanças relvantes na DAE, apenas diminuição do parâmetro de correlação. Embora o manejo tenha resultado na diminuição de até 22% dos indivíduos e 27% da área basal, ele não é imediatamente detectado na DAE pois as mortes acidentais são a maioria no manejo. Para cada árvore explorada, em média 19 árvores com DAP ≥ 10 cm são mortas acidentalmente. Essa morte acidental é de certa forma independente da espécie, assim todas as espécies tem suas abundâncias diminuídas. A distribuição PLN considera os efeitos da amostragem através do processo Poisson, então mesmo que a porcentagem de indivíduos mortos fosse maior, dificilmente seria detectável na DAE. No entanto, a diminuição do parâmetro de correlação ao longo do tempo nas áreas exploradas é devido ao aumento da abundância e da área basal de espécies de rápido crescimento como as do gênero Cecropia. A DAE da Ilha de Barro Colorado (BCI), Panamá, também foi analisada (28 anos de medições, DAP ≥ 1 cm). Nós dividimos o conjunto de dados em quatro critérios de inclusão de DAP (1, 10, 25 e 45 cm). Visto que a área não é submetida a grandes distúrbios e, como era esperado, não foram encontradas mudanças relevantes nem na DAE nem na identidade das espécies dominantes. Muitos indivíduos morreram durante esse período, devido a elevada mortalidade, comum para árvores pequenas (DAP < 10 cm), e outra grande parcela da comunidade não atingiu os critérios de DAP que geralmente são amostrados (10, 25 e 45 cm). Mesmo os indivíduos considerados ingressantes, de acordo com esses critérios, já estavam presentes na parcela na primeira medição, apenas eram menores que esses critérios. Diante do apresentado, um distúrbio pode demorar décadas para aparecer nas classes de DAP que geralmente são amostradas, por exemplo DAP ≥ 10 cm. Assim, reiteramos que efeito ou falta de efeito de distúrbios na diversidade de comunidades arbóreas deve ser interpretado com muita cautela. / Amazon tropical forests in Brazil have been exploited for the provisioning of timber, mainly using conventional logging (CL) practices. Little operational planning has been considered and, as a result, large forest areas in the Amazon have become highly degraded over time. Since the 1990\'s, reduced impact logging (RIL) has been adopted as a means of reducing the damage caused by timber exploitation and of establishing more sustainable practices, trying to make sequential logging cycles possible. Much has been discussed about the higher efficiency of RIL or CL, but there are still important knowledge gaps, mainly regarding tree diversity and forest functioning in logged areas. The logging of commercial species and the accidental death of non-targeted trees may alter environmental conditions, leading to higher abundance of some species and to the reduction of others, thus modifying forest structure and diversity. These changes promoted by exploitation have a signature in the structure of the remaining community and tracking them at the community level is still a great challenge, but important decisions are mainly taken considering tree diversity. The development of tools is crucial to quantify the effects of disturbance and to predict its consequence over communities. The main goal of this thesis was to analyze the temporal dynamics of tree diversity in the context of forest management. Species abundance distribution models (SAD) are a parametric approach, based on the most strong pattern in community ecology: few species have high abundance and rarity is the rule. It is also independent of sampling size and related to how species share resources. Species dominance change as a result of disturbances, and these changes may be detectable by changes on the parameters and/or curves of the SAD. We used inventory data from three permanent plots established in 1993 in Paragominas, Pará, Brazil. All the trees with Diameter at Breast Height (DBH) ≥ 25 cm were determined and measured and smaller individuals were measured within subplots (DBH ≥ 10 cm). After this first survey, we harvested two plots using different techniques (RIL and CL) and a third plot was kept as Control. The plots were surveyed again in 1994, 1998, 2000, 2006 and 2009. To test if it is possible to detect changes in the SAD due to logging we used the Poisson Lognormal distribution (PLN) to describe the data from each year. To detect changes in species similarity, we compared species composition and abundance over time, using the correlation parameter of the bivariate PLN. We compared the same plots in 1993 (before exploitation) and in the years that followed. We observed no relevant changes in SAD, but only small changes in the correlation parameter in the last surveys. We also analyzed species\' basal area distribution, and found no statistically relevant changes apart from small changes in the correlation parameter in harvested areas. After exploitation, we observed a reduction of as much as 22 % of the number of trees and 27% of the basal area, and mortality was mainly attributed to the accidental death of non-targeted trees. For each tree harvested, an average 19 trees died accidentally. Because of the dominant role of these random accidental deaths, the signature of management operations could not be detected immediately after logging, using SAD or the correlation parameter. Since SAD models consider sampling effects (Poisson process), any disturbance which causes the random death of trees may not be detected in the short run. However, the start of small changes could be noticed within a couple of decades. The relative abundance of some species has been altered in exploited forests, which was detected by changes in the correlation parameter. Pioneer species of the genus Cecropia have become the most abundant trees in the last survey, considering DBH ≥ 10 cm. We also evaluated species abundance distribution in the Barro Colorado Island, Panama (28 years, DBH ≥ 1 cm). We established four different inclusion criteria (DBH 1, 10, 25 and 45). The area was not subject to major disturbances and, as expected, we observed no relevant changes in the SAD during this period. A large number of individuals died during this period, due to the high mortality common to small trees (DBH ≥ 10 cm), and many others have not reached the used inclusion criteria (10, 25 and 45 cm). Using these inclusion criteria, we showed that the community recruited during this period was already present in the forest in the first survey, but those trees just did not reach the size to be measured. Therefore, a recent disturbance may take decades to be detected within the DBH classes usually sampled. We highlight the role of time scale in the interpretation of tree diversity dynamics.
|
Page generated in 0.0452 seconds