• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 33
  • 20
  • 2
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 62
  • 62
  • 12
  • 12
  • 12
  • 12
  • 10
  • 9
  • 9
  • 8
  • 8
  • 8
  • 8
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Similaridade em big data / Similarity in big data

Lúcio Fernandes Dutra Santos 19 July 2017 (has links)
Os volumes de dados armazenados em grandes bases de dados aumentam em ritmo sempre crescente, pressionando o desempenho e a flexibilidade dos Sistemas de Gerenciamento de Bases de Dados (SGBDs). Os problemas de se tratar dados em grandes quantidades, escopo, complexidade e distribuição vêm sendo tratados também sob o tema de big data. O aumento da complexidade cria a necessidade de novas formas de busca - representar apenas números e pequenas cadeias de caracteres já não é mais suficiente. Buscas por similaridade vêm se mostrando a maneira por excelência de comparar dados complexos, mas até recentemente elas não estavam disponíveis nos SGBDs. Agora, com o início de sua disponibilidade, está se tornando claro que apenas os operadores de busca por similaridade fundamentais não são suficientes para lidar com grandes volumes de dados. Um dos motivos disso é que similaridade\' é, usualmente, definida considerando seu significado quando apenas poucos estão envolvidos. Atualmente, o principal foco da literatura em big data é aumentar a eficiência na recuperação dos dados usando paralelismo, existindo poucos estudos sobre a eficácia das respostas obtidas. Esta tese visa propor e desenvolver variações dos operadores de busca por similaridade para torná-los mais adequados para processar big data, apresentando visões mais abrangentes da base de dados, aumentando a eficácia das respostas, porém sem causar impactos consideráveis na eficiência dos algoritmos de busca e viabilizando sua execução escalável sobre grandes volumes de dados. Para alcançar esse objetivo, este trabalho apresenta quatro frentes de contribuições: A primeira consistiu em um modelo de diversificação de resultados que pode ser aplicado usando qualquer critério de comparação e operador de busca por similaridade. A segunda focou em definir técnicas de amostragem e de agrupamento de dados com o modelo de diversificação proposto, acelerando o processo de análise dos conjuntos de resultados. A terceira contribuição desenvolveu métodos de avaliação da qualidade dos conjuntos de resultados diversificados. Por fim, a última frente de contribuição apresentou uma abordagem para integrar os conceitos de mineração visual de dados e buscas por similaridade com diversidade em sistemas de recuperação por conteúdo, aumentando o entendimento de como a propriedade de diversidade pode ser aplicada. / The data being collected and generated nowadays increase not only in volume, but also in complexity, requiring new query operators. Health care centers collecting image exams and remote sensing from satellites and from earth-based stations are examples of application domains where more powerful and flexible operators are required. Storing, retrieving and analyzing data that are huge in volume, structure, complexity and distribution are now being referred to as big data. Representing and querying big data using only the traditional scalar data types are not enough anymore. Similarity queries are the most pursued resources to retrieve complex data, but until recently, they were not available in the Database Management Systems. Now that they are starting to become available, its first uses to develop real systems make it clear that the basic similarity query operators are not enough to meet the requirements of the target applications. The main reason is that similarity is a concept formulated considering only small amounts of data elements. Nowadays, researchers are targeting handling big data mainly using parallel architectures, and only a few studies exist targeting the efficacy of the query answers. This Ph.D. work aims at developing variations for the basic similarity operators to propose better suited similarity operators to handle big data, presenting a holistic vision about the database, increasing the effectiveness of the provided answers, but without causing impact on the efficiency on the searching algorithms. To achieve this goal, four mainly contributions are presented: The first one was a result diversification model that can be applied in any comparison criteria and similarity search operator. The second one focused on defining sampling and grouping techniques with the proposed diversification model aiming at speeding up the analysis task of the result sets. The third contribution concentrated on evaluation methods for measuring the quality of diversified result sets. Finally, the last one defines an approach to integrate the concepts of visual data mining and similarity with diversity searches in content-based retrieval systems, allowing a better understanding of how the diversity property is applied in the query process.
52

Operação de busca exata aos K-vizinhos mais próximos reversos em espaços métricos / Answering exact reverse k-nerarest neighbors queries in metric space

Willian Dener de Oliveira 19 March 2010 (has links)
A complexidade dos dados armazenados em grandes bases de dados aumenta cada vez mais, criando a necessidade de novas operações de consulta. Uma classe de operações que tem apresentado interesse crescente são as chamadas Consultas por Similaridade, sendo as mais conhecidas as consultas por Abrangência (\'R IND. q\') e por k-Vizinhos mais Proximos (kNN), sendo que esta ultima obtem quais são os k elementos armazenados mais similares a um dado elemento de referência. Outra consulta que é interessante tanto para consultas diretas quanto como parte de operações de análises mais complexas e a operação de consulta aos k-Vizinhos mais Próximos Reversos (RkNN). Seu objetivo e obter todos os elementos armazenados que têm um dado elemento de referência como um dos seus k elementos mais similares. Devido a complexidade de execução da operação de RkNN, a grande maioria das soluções existentes restringem-se a dados representados em espaços multidimensionais euclidianos (nos quais estão denidas tambem operações cardinais e topológicas, além de se considerar a similaridade como sendo a distância Euclidiana entre dois elementos), ou então obtém apenas respostas aproximadas, sujeitas a existência de falsos negativos. Várias aplicações de análise de dados científicos, médicos, de engenharia, financeiros, etc. requerem soluções eficientes para o problema da operação de RkNN sobre dados representados em espaços métricos, onde os elementos não podem ser considerados estar em um espaço nem Euclidiano nem multidimensional. Num espaço métrico, além dos próprios elementos armazenados existe apenas uma função de comparação métrica entre pares de objetos. Neste trabalho, são propostas novas podas de espaço de busca e o algoritmo RkNN-MG que utiliza essas novas podas para solucionar o problema de consultas RkNN exatas em espaços métricos sem limitações. Toda a proposta supõe que o conjunto de dados esta em um espaço métrico imerso isometricamente em espaço euclidiano e utiliza propriedades da geometria métrica válida neste espaço para realizar podas eficientes por lei dos cossenos combinada com as podas tradicionais por desigualdade triangular. Os experimentos demonstram comparativamente que as novas podas são mais eficientes que as tradicionais podas por desigualdade triangular, tendo desempenhos equivalente quando comparadas em conjuntos de alta dimensionalidade ou com dimensão fractal alta. Assim, os resultados confirmam as novas podas propostas como soluções alternativas eficientes para o problema de consultas RkNN / Data stored in large databases present an ever increasing complexity, pressing for the development of new classes of query operators. One such class, which is enticing an increasing interest, is the so-called Similarity Queries, where the most common are the similarity range queries (\'R IND. q\') and the k-nearest neighbor queries (kNN). A k-nearest neighbor query aims at retrieving the k stored elements nearer (or more similar) to a given reference element. Another important similarity query is the reverse k-nearest neighbor (RkNN), useful both for queries posed directly by the analyst and for queries that are part of more complex analysis processes. The objective of a reverse k-nearest neighbor queries is obtaining the stored elements that has the query reference element as one of their k-nearest neighbors. As the RkNN operation is a rather expensive operation, from the computational standpoint, most existing solutions only solve the query when applied over Euclidean multidimensional spaces (as these spaces also define cardinal and topological operations besides the Euclidean distance between pairs of elements) or retrieve only approximate answers, where false negatives can occur. Several applications, like the analysis of scientific, medical, engineering or financial data, require efficient and exact answers for the RkNN queries over data which is frequently represented in metric spaces, that is where no other property besides the similarity measure exists. Therefore, for applications handling metrical data, the assumption of Euclidean metric or even multidimensional data cannot be used. In this work, we propose new pruning rules based on the law of cosines, and the RkNN-MG algorithm, which uses them to solve RkNN queries in a way that is exact, faster than the existing approaches, that is not limited for any value of k, and that can be applied both over static and over dynamic datasets. The new pruning rules assume that the data set is in a metric space that can be embedded into an Euclidean space and use metric geometry properties valid in this space to perform effective pruning based on the law of cosines combined with the traditional pruning based on the triangle inequality property. The experiments show that the new pruning rules are alkways more efficient than the traditional pruning rules based solely on the triangle inequality. The experiments show that for high high dimensionality datasets, or for metric datasets with high fractal dimensionality, the performance improvement is smaller than for for lower dimensioinality datasets, but it\'s never worse. Thus, the results confirm that the our pruning rules are efficient alternative to solve RkNN queries in general
53

Transformação de espaços métricos otimizando a recuperação de imagens por conteúdo e avaliação por análise visual / Metric space transformation optimizing content-based image retrieval and visual analysis evaluation

Letrícia Pereira Soares Avalhais 30 January 2012 (has links)
O problema da descontinuidade semântica tem sido um dos principais focos de pesquisa no desenvolvimento de sistemas de recuperação de imagens baseada em conteúdo (CBIR). Neste contexto, as pesquisas mais promissoras focam principalmente na inferência de pesos de características contínuos e na seleção de características. Entretanto, os processos tradicionais de inferência de pesos contínuos são computacionalmente caros e a seleção de características equivale a uma ponderação binária. Visando tratar adequadamente o problema de lacuna semântica, este trabalho propõe dois métodos de transformação de espaço de características métricos baseados na inferência de funções de transformação por meio de algoritmo genético. O método WF infere funções de ponderação para ajustar a função de dissimilaridade e o método TF infere funções para transformação das características. Comparados às abordagens de inferência de pesos contínuos da literatura, ambos os métodos propostos proporcionam uma redução drástica do espaço de busca ao limitar a busca à escolha de um conjunto ordenado de funções de transformação. Análises visuais do espaço transformado e de gráficos de precisão vs. revocação confirmam que TF e WF superam a abordagem tradicional de ponderação de características. Adicionalmente, foi verificado que TF supera significativamente WF em termos de precisão dos resultados de consultas por similaridade por permitir transformação não lineares no espaço de característica, conforme constatado por análise visual. / The semantic gap problem has been a major focus of research in the development of content-based image retrieval (CBIR) systems. In this context, the most promising research focus primarily on the inference of continuous feature weights and feature selection. However, the traditional processes of continuous feature weighting are computationally expensive and feature selection is equivalent to a binary weighting. Aiming at alleviating the semantic gap problem, this master dissertation proposes two methods for the transformation of metric feature spaces based on the inference of transformation functions using Genetic Algorithms. The WF method infers weighting functions and the TF method infers transformation functions for the features. Compared to the existing methods, both proposed methods provide a drastic searching space reduction by limiting the search to the choice of an ordered set of transformation functions. Visual analysis of the transformed space and precision. vs. recall graphics confirm that both TF and WF outperform the traditional feature eighting methods. Additionally, we found that TF method significantly outperforms WF regarding the query similarity accuracy by performing non linear feature space transformation, as found in the visual analysis.
54

Vyhledávání v multimodálních databázích / Multimodal Database Search

Krejčíř, Tomáš January 2009 (has links)
The field that deals with storing and effective searching of multimedia documents is called Information retrieval. This paper describes solution of effective searching in collections of shots. Multimedia documents are presented as vectors in high-dimensional space, because in such collection of documents it is easier to define semantics as well as the mechanisms of searching. The work aims at problems of similarity searching based on metric space, which uses distance functions, such as Euclidean, Chebyshev or Mahalanobis, for comparing global features and cosine or binary rating for comparing local features. Experiments on the TRECVid dataset compare implemented distance functions. Best distance function for global features appears to be Mahalanobis and for local features cosine rating.
55

An Introduction to Metric Spaces

Erickson Andersson, Samuel, Wiman, David January 2022 (has links)
In this thesis we start off by ensuring that the reader is up to speed when it comes to some well known definitions and theorems from real analysis. We then introduce the reader to metric spaces and provide them with some examples such as the real numbers with the Euclidean distance, and compact sets with the Hausdorff distance. Then, we go on to define important concepts such as inner points, limit points, open sets, boundary and much more. We also show, whenever we can, how these concepts are connected. With these tools in place we move on to explain how limits and continuity are defined in metric spaces as well as providing the reader with several examples. We then introduce the reader to the concepts of compactness and uniform convergence, for which we show some interesting results such as how uniform convergence and the supremum norm are related. We finish off by covering curves and connectedness (including pathconnectedness) in metric spaces, before we briefly touch on topological spaces as to give the reader a hint of what further mathematics studies might hold. / I detta examensarbete börjar vi med att försäkra oss om att läsaren har de förkunskaper som behövs för att kunna ta del av arbetet. Detta görs genom att påminna läsaren om viktiga definitioner och satser från reell analys. Därefter introducerar vi läsaren till metriska rum och ger en mängd olika exempel på dessa som läsaren förhoppningsvis redan stött på. Detta inkluderar bland annat de reella talen med euklidiskt avstånd och slutna och begränsade mängder med Hausdorff-avstånd. När vi väl förklarat distanskonceptet introducerar vi inre punkter, hopningspunkter, öppna mängder, randpunkter och mycket mer. Vi visar dessutom, närhelst vi kan, hur dessa koncept hänger samman. När alla dessa grundbegrepp är etablerade kan vi fortsätta med att förklara gränsvärden och kontinuitet i metriska rum. Vi ger även läsaren flera exempel på detta. I arbetets andra hälft tar vi upp kompakthet och likformig konvergens, för vilka vi presenterar en del intressanta resultat, såsom hur likformig konvergens och supremumnormen är relaterade. Vi avslutar examensarbetet genom att gå igenom kurvor och sammanhängande mängder (inklusive bågvis sammanhängande mängder) i metriska rum, innan vi kort tar upp topologiska rum för att ge läsaren en föraning om vad vidare matematikstudier kan innehålla.
56

Neue Indexingverfahren für die Ähnlichkeitssuche in metrischen Räumen über großen Datenmengen / New indexing techniques for similarity search in metric spaces

Guhlemann, Steffen 06 July 2016 (has links) (PDF)
Ein zunehmend wichtiges Thema in der Informatik ist der Umgang mit Ähnlichkeit in einer großen Anzahl unterschiedlicher Domänen. Derzeit existiert keine universell verwendbare Infrastruktur für die Ähnlichkeitssuche in allgemeinen metrischen Räumen. Ziel der Arbeit ist es, die Grundlage für eine derartige Infrastruktur zu legen, die in klassische Datenbankmanagementsysteme integriert werden könnte. Im Rahmen einer Analyse des State of the Art wird der M-Baum als am besten geeignete Basisstruktur identifiziert. Dieser wird anschließend zum EM-Baum erweitert, wobei strukturelle Kompatibilität mit dem M-Baum erhalten wird. Die Abfragealgorithmen werden im Hinblick auf eine Minimierung notwendiger Distanzberechnungen optimiert. Aufbauend auf einer mathematischen Analyse der Beziehung zwischen Baumstruktur und Abfrageaufwand werden Freiheitsgrade in Baumänderungsalgorithmen genutzt, um Bäume so zu konstruieren, dass Ähnlichkeitsanfragen mit einer minimalen Anzahl an Anfrageoperationen beantwortet werden können. / A topic of growing importance in computer science is the handling of similarity in multiple heterogenous domains. Currently there is no common infrastructure to support this for the general metric space. The goal of this work is lay the foundation for such an infrastructure, which could be integrated into classical data base management systems. After some analysis of the state of the art the M-Tree is identified as most suitable base and enhanced in multiple ways to the EM-Tree retaining structural compatibility. The query algorithms are optimized to reduce the number of necessary distance calculations. On the basis of a mathematical analysis of the relation between the tree structure and the query performance degrees of freedom in the tree edit algorithms are used to build trees optimized for answering similarity queries using a minimal number of distance calculations.
57

Introduction to some modes of convergence : Theory and applications

Bolibrzuch, Milosz January 2017 (has links)
This thesis aims to provide a brief exposition of some chosen modes of convergence; namely uniform convergence, pointwise convergence and L1 convergence. Theoretical discussion is complemented by simple applications to scientific computing. The latter include solving differential equations with various methods and estimating the convergence, as well as modelling problematic situations to investigate odd behaviors of usually convergent methods.
58

Indexação de dados em domínios métricos generalizáveis / Indexing complex data in Generic Metric Domains.

Pola, Ives Renê Venturini 10 June 2005 (has links)
Os sistemas Gerenciadores de Bases de Dados (SGBDs) foram desenvolvidos para manipular domínios de dados numéricos e/ou pequenas seqüencias de caracteres (palavras) e não foram projetados prevendo a manipulação de dados complexos, como por exemplo dados multimídia. Os operadores em domínios de dados que requisitam a relação de ordem têm pouca utilidade para manipular operações que envolvem dados complexos. Uma classe de operadores que se adequa melhor para manipular esses dados são os operadores por similaridade: consulta por abrangência (``range queries') e consulta de vizinhos mais próximos (``k-nearest neighbor queries'). Embora muitos resultados já tenham sido obtidos na elaboração de algoritmos de busca por similaridade, todos eles consideram uma única função para a medida de similaridade, que deve ser universalmente aplicável a todos os pares de elementos do conjunto de dados. Este projeto propõe explorar a possibilidade de trabalhar com estruturas de dados concebidas dentro dos conceitos de dados em domínios métricos, mas que admitam o uso de uma função de distância adaptável, ou seja, que mude para determinados grupos de objetos, dependendo de algumas características universais, e assim permitindo acomodar características que sejam particulares a algumas classes de imagens e não de todo o conjunto delas, classificando as imagens em uma hierarquia de tipos, onde cada tipo está associado a uma função de distância diferente e vetores de características diferentes, todos indexados numa mesma árvore. / The DBMS were developed to manipulate data in numeric domains and short strings, not considering the manipulation of complex data, like multimidia data. The operators em data domain which requests for the total order property have no use to handle complex data. An operator class that fit well to handle this type of data are the similarity operators: range query and nearest neighbor query. Although many results have been shown in research to answer similarity queries, all use only one distance function to measure the similarity, which must be applicable to all pairs of elements of the set. The goal of this work is to explore the possibility of deal with complex data in metric domains, that uses a suitable distance function, that changes its behavior for certain groups of data, depending of some universal features, allowing them to use specific features of some classes of data, not shared for the entire set. This flexibility will allow to reduce the set of useful features of each element in the set individually, relying in the values obtainded for one or few features extracted in first place. This values will guide the others important features to extract from data.
59

Indexação de dados em domínios métricos generalizáveis / Indexing complex data in Generic Metric Domains.

Ives Renê Venturini Pola 10 June 2005 (has links)
Os sistemas Gerenciadores de Bases de Dados (SGBDs) foram desenvolvidos para manipular domínios de dados numéricos e/ou pequenas seqüencias de caracteres (palavras) e não foram projetados prevendo a manipulação de dados complexos, como por exemplo dados multimídia. Os operadores em domínios de dados que requisitam a relação de ordem têm pouca utilidade para manipular operações que envolvem dados complexos. Uma classe de operadores que se adequa melhor para manipular esses dados são os operadores por similaridade: consulta por abrangência (``range queries') e consulta de vizinhos mais próximos (``k-nearest neighbor queries'). Embora muitos resultados já tenham sido obtidos na elaboração de algoritmos de busca por similaridade, todos eles consideram uma única função para a medida de similaridade, que deve ser universalmente aplicável a todos os pares de elementos do conjunto de dados. Este projeto propõe explorar a possibilidade de trabalhar com estruturas de dados concebidas dentro dos conceitos de dados em domínios métricos, mas que admitam o uso de uma função de distância adaptável, ou seja, que mude para determinados grupos de objetos, dependendo de algumas características universais, e assim permitindo acomodar características que sejam particulares a algumas classes de imagens e não de todo o conjunto delas, classificando as imagens em uma hierarquia de tipos, onde cada tipo está associado a uma função de distância diferente e vetores de características diferentes, todos indexados numa mesma árvore. / The DBMS were developed to manipulate data in numeric domains and short strings, not considering the manipulation of complex data, like multimidia data. The operators em data domain which requests for the total order property have no use to handle complex data. An operator class that fit well to handle this type of data are the similarity operators: range query and nearest neighbor query. Although many results have been shown in research to answer similarity queries, all use only one distance function to measure the similarity, which must be applicable to all pairs of elements of the set. The goal of this work is to explore the possibility of deal with complex data in metric domains, that uses a suitable distance function, that changes its behavior for certain groups of data, depending of some universal features, allowing them to use specific features of some classes of data, not shared for the entire set. This flexibility will allow to reduce the set of useful features of each element in the set individually, relying in the values obtainded for one or few features extracted in first place. This values will guide the others important features to extract from data.
60

Transport optimal : régularité et applications / Optimal Transport : Regularity and applications

Gallouët, Thomas 10 December 2012 (has links)
Cette thèse comporte deux parties distinctes, toutes les deux liées à la théorie du transport optimal. Dans la première partie, nous considérons une variété riemannienne, deux mesures à densité régulière et un coût de transport, typiquement la distance géodésique quadratique et nous nous intéressons à la régularité de l’application de transport optimal. Le critère décisif à cette régularité s’avère être le signe du tenseur de Ma-Trudinger-Wang (MTW). Nous présentons tout d’abord une synthèse des travaux réalisés sur ce tenseur. Nous nous intéressons ensuite au lien entre la géométrie des lieux d’injectivité et le tenseur MTW. Nous montrons que dans de nombreux cas, la positivité du tenseur MTW implique la convexité des lieux d’injectivité. La deuxième partie de cette thèse est liée aux équations aux dérivées partielles. Certaines peuvent être considérées comme des flots gradients dans l’espace de Wasserstein W2. C’est le cas de l’équation de Keller-Segel en dimension 2. Pour cette équation nous nous intéressons au problème de quantification de la masse lors de l’explosion des solutions ; cette explosion apparaît lorsque la masse initiale est supérieure à un seuil critique Mc. Nous cherchons alors à montrer qu’elle consiste en la formation d’un Dirac de masse Mc. Nous considérons ici un modèle particulaire en dimension 1 ayant le même comportement que l’équation de Keller-Segel. Pour ce modèle nous exhibons des bassins d’attractions à l’intérieur desquels l’explosion se produit avec seulement le nombre critique de particules. Finalement nous nous intéressons au profil d’explosion : à l’aide d’un changement d’échelle parabolique nous montrons que la structure de l’explosion correspond aux points critiques d’une certaine fonctionnelle. / This thesis consists in two distinct parts both related to the optimal transport theory.The first part deals with the regularity of the optimal transport map. The key tool is the Ma-Trundinger-Wang tensor and especially its positivity. We first give a review of the known results about the MTW tensor. We then explore the geometrical consequences of the MTW tensor on the injectivity domain. We prove that in many cases the positivity of MTW implies the convexity of the injectivity domain. The second part is devoted to the behaviour of a Keller-Segel solution in the super critical case. In particular we are interested in the mass quantization problem: we wish to quantify the mass aggregated when the blow-up occurs. In order to study the behaviour of the solution we consider a particle approximation of a Keller-Segel type equation in dimension 1. We define this approximation using the gradient flow interpretation of the Keller-Segel equation and the particular structure of the Wasserstein space in dimension 1. We show two kinds of results; we first prove a stability theorem for the blow-up mechanism: we exhibit basins of attraction in which the solution blows up with only the critical number of particles. We then prove a rigidity theorem for the blow-up mechanism: thanks to a parabolic rescaling we prove that the structure of the blow-up is given by the critical points of a certain functional.

Page generated in 0.0749 seconds