Global ETD Search

31	Effective and efficient similarity search in databases Lange, Dustin January 2013 (has links) Given a large set of records in a database and a query record, similarity search aims to find all records sufficiently similar to the query record. To solve this problem, two main aspects need to be considered: First, to perform effective search, the set of relevant records is defined using a similarity measure. Second, an efficient access method is to be found that performs only few database accesses and comparisons using the similarity measure. This thesis solves both aspects with an emphasis on the latter. In the first part of this thesis, a frequency-aware similarity measure is introduced. Compared record pairs are partitioned according to frequencies of attribute values. For each partition, a different similarity measure is created: machine learning techniques combine a set of base similarity measures into an overall similarity measure. After that, a similarity index for string attributes is proposed, the State Set Index (SSI), which is based on a trie (prefix tree) that is interpreted as a nondeterministic finite automaton. For processing range queries, the notion of query plans is introduced in this thesis to describe which similarity indexes to access and which thresholds to apply. The query result should be as complete as possible under some cost threshold. Two query planning variants are introduced: (1) Static planning selects a plan at compile time that is used for all queries. (2) Query-specific planning selects a different plan for each query. For answering top-k queries, the Bulk Sorted Access Algorithm (BSA) is introduced, which retrieves large chunks of records from the similarity indexes using fixed thresholds, and which focuses its efforts on records that are ranked high in more than one attribute and thus promising candidates. The described components form a complete similarity search system. Based on prototypical implementations, this thesis shows comparative evaluation results for all proposed approaches on different real-world data sets, one of which is a large person data set from a German credit rating agency. / Ziel von Ähnlichkeitssuche ist es, in einer Menge von Tupeln in einer Datenbank zu einem gegebenen Anfragetupel all diejenigen Tupel zu finden, die ausreichend ähnlich zum Anfragetupel sind. Um dieses Problem zu lösen, müssen zwei zentrale Aspekte betrachtet werden: Erstens, um eine effektive Suche durchzuführen, muss die Menge der relevanten Tupel mithilfe eines Ähnlichkeitsmaßes definiert werden. Zweitens muss eine effiziente Zugriffsmethode gefunden werden, die nur wenige Datenbankzugriffe und Vergleiche mithilfe des Ähnlichkeitsmaßes durchführt. Diese Arbeit beschäftigt sich mit beiden Aspekten und legt den Fokus auf Effizienz. Im ersten Teil dieser Arbeit wird ein häufigkeitsbasiertes Ähnlichkeitsmaß eingeführt. Verglichene Tupelpaare werden entsprechend der Häufigkeiten ihrer Attributwerte partitioniert. Für jede Partition wird ein unterschiedliches Ähnlichkeitsmaß erstellt: Mithilfe von Verfahren des Maschinellen Lernens werden Basisähnlichkeitsmaßes zu einem Gesamtähnlichkeitsmaß verbunden. Danach wird ein Ähnlichkeitsindex für String-Attribute vorgeschlagen, der State Set Index (SSI), welcher auf einem Trie (Präfixbaum) basiert, der als nichtdeterministischer endlicher Automat interpretiert wird. Zur Verarbeitung von Bereichsanfragen wird in dieser Arbeit die Notation der Anfragepläne eingeführt, um zu beschreiben welche Ähnlichkeitsindexe angefragt und welche Schwellwerte dabei verwendet werden sollen. Das Anfrageergebnis sollte dabei so vollständig wie möglich sein und die Kosten sollten einen gegebenen Schwellwert nicht überschreiten. Es werden zwei Verfahren zur Anfrageplanung vorgeschlagen: (1) Beim statischen Planen wird zur Übersetzungszeit ein Plan ausgewählt, der dann für alle Anfragen verwendet wird. (2) Beim anfragespezifischen Planen wird für jede Anfrage ein unterschiedlicher Plan ausgewählt. Zur Beantwortung von Top-k-Anfragen stellt diese Arbeit den Bulk Sorted Access-Algorithmus (BSA) vor, der große Mengen von Tupeln mithilfe fixer Schwellwerte von den Ähnlichkeitsindexen abfragt und der Tupel bevorzugt, die hohe Ähnlichkeitswerte in mehr als einem Attribut haben und damit vielversprechende Kandidaten sind. Die vorgestellten Komponenten bilden ein vollständiges Ähnlichkeitssuchsystem. Basierend auf einer prototypischen Implementierung zeigt diese Arbeit vergleichende Evaluierungsergebnisse für alle vorgestellten Ansätze auf verschiedenen Realwelt-Datensätzen; einer davon ist ein großer Personendatensatz einer deutschen Wirtschaftsauskunftei. Datenbanken Ähnlichkeitssuche Suchverfahren Ähnlichkeitsmaße Indexstrukturen Databases Similarity Search Search Algorithms Similarity Measures Index Structures Data processing Computer science
32	Räumliche Optimierung der Bestandesstruktur unter Berücksichtigung von Einzelbaumeffekten Herrmann, Isabelle 17 July 2014 (has links) (PDF) In dieser Dissertation werden erstmals Kenntnisse über ökologische Felder von Einzelbäumen mit Methoden der räumlichen Optimierung kombiniert, um ein Werkzeug zu schaffen, mit dem Empfehlungen für die Strukturierung von Beständen erarbeiten werden können. Dabei waren drei unterschiedliche waldbauliche Problemstellungen Ausgangspunkt der Arbeit. Die ausführliche Beschreibung der Probleme führte zur Ableitung eines allgemeinen Optimierungsproblems, das nach optimalen Stammverteilungsplänen bzgl. verschiedener, waldbaulicher Zielsetzungen sucht. Der erster Schwerpunkt war die mathematische Herleitung der Zielgrößen. Hierbei wurde die Idee der Einzelbaumeffekte und das Konzept der ökologischen Felder verwendet, um die Zielgrößen aus den Einzelbaumeffekten zu entwickeln. Der zweite Schwerpunkt umfasste die Suche nach einem geeigneten Optimierungsmodell, mit dem die Horizontalstruktur eines Bestandes basierend auf weitreichenden, stetigen Einzelbaumeffekten räumlich optimiert werden konnte. Der gegebene Überblick zum Stand der Forschung bzgl. der räumlichen Optimierung in der Forstwissenschaft zeigte auf, dass nur Teilaspekte des allgemeinen Optimierungsproblems bisher modelliert worden sind. Von den vier daraufhin neu entwickelten Optimierungsmodellen wurden ein kontinuierliches und ein diskretes Modells nach der Auswertung der Eigenschaften weiterverwendet. Die Bewertung von verschiedenen, vorgestellten Nachbarschaftsdefinitionen und Varianten von lokalen Suchverfahren, Meta- und Hybridheuristiken führte zur Verwendung von k-opt für das diskrete Optimierungsmodell, von Compass Search für das kontinuierliche Optimierungsmodell und von Threshold Accepting und Iterated Local Search für beide Modelle. Für alle drei Optimierungsprobleme wurden jeweils zwei Tests je Algorithmus mit einer in C++ implementierten Optimierungssoftware durchgeführt. Beim ersten Test sollten in kurzer Zeit wiederholt gute Lösungen berechnet werden, während im zweiten Test wesentlich mehr Funktionswertberechnungen zur Verfügung standen, um eine sehr gute Lösung zu erhalten. Die Auswertung der Testrechnungen zeigte, dass das diskrete Optimierungsmodell dem kontinuierlichen Modell außer bei einem geringen Bestockungsgrad des Bestandes vorzuziehen ist. Die Zielfunktionsdefinitionen hatten wesentlichen Einfluss auf die Lösungen, vor allem bei gegenläufigen Zielen. Sehr gute Lösungen wiesen dabei charakteristische Verteilungsschemata der Baumpositionen auf, die nur durch eine Optimierung und nicht durch das wiederholte, zufällige Verteilen von Bäumen gefunden werden konnten. Für das diskrete Modell lieferte Threshold Accepting vor 2-opt und Iterated Local Search fast immer die besten Ergebnisse. 4-opt war immer deutlich schlechter als die anderen Algorithmen. Threshold Accepting berechnete sowohl sehr schnell gute Lösungen und als auch die besten Lösungen, wenn eine intensive Suche mit sehr vielen Funktionswertberechnungen möglich war. Einzelbaumeffekte Räumliche Optimerung lokale Suchverfahren Metaheuristiken single tree effects spatial optimization local search metaheuristics ddc:630 rvk:ZC 88130
33	Konzeption und Realisierung eines kontextsensitiven Routingverfahrens Debes, Maik January 2008 (has links) Zugl.: Ilmenau, Techn. Univ., Diss., 2008
34	The State Space of Complex Systems Heilmann, Frank 14 October 2005 (has links) (PDF) In dieser Arbeit wird eine Beschreibung von Monte-Carlo-Verfahren zur Lösung komplexer Optimierungsaufgaben mit Hilfe von Markov-Ketten durchgeführt. Nach einer kurzen Einführung werden Lösungsmenge solcher Aufgaben und der physikalische Zustandsraum komplexer Systeme identifiziert. Zunächst wird die Dynamik von Zufallswanderern im Zustandsraum mit Hilfe von Master-Gleichungen modelliert. Durch Einführung von Performanzkriterien können verschiedene Optimierungsstrategien quantitativ miteinander verglichen werden. Insbesondere wird das Verfahren Extremal Optimization vorgestellt, dass ebenfalls als Markov-Prozess verstanden werden kann. Es wird bewiesen, dass eine im Sinne der genannten Kriterien beste Implementierung existiert. Da diese von einem sogenannten Fitness Schedule abhängt, wird dieser für kleine Beispielsysteme explizit berechnet. Daran anschließend wird die Zustandsdichte komplexer Systeme betrachtet. Nach einem kurzen Überblick über vorhandene Methoden folgt eine detaillierte Untersuchung des Verfahrens von Wang und Landau. Numerische und analytische Hinweise werden gegeben, nach denen dieser Algorithmus innerhalb seiner Klasse wahrscheinlich der Optimale ist. Eine neue Methode zur Approximation der Zustandsdichte wird vorgestellt, die insbesondere für die Untersuchung komplexer Systeme geeignet ist. Abschließend wird ein Ausblick auf zukünftige Arbeiten gegeben. Extremal Optimization Transition Matrix Monte Carlo Verfahren von Wang und Landau Zustandsdichte ddc:530 Globale Optimierung Kontrolltheorie Simulated annealing Statistische Physik Stochastisches Suchverfahren
35	Large scale mining and retrieval of visual data in a multimodal context Quack, Till January 2009 (has links) Zugl.: Zürich, Techn. Hochsch., Diss.
36	The State Space of Complex Systems Heilmann, Frank 14 October 2005 (has links) In dieser Arbeit wird eine Beschreibung von Monte-Carlo-Verfahren zur Lösung komplexer Optimierungsaufgaben mit Hilfe von Markov-Ketten durchgeführt. Nach einer kurzen Einführung werden Lösungsmenge solcher Aufgaben und der physikalische Zustandsraum komplexer Systeme identifiziert. Zunächst wird die Dynamik von Zufallswanderern im Zustandsraum mit Hilfe von Master-Gleichungen modelliert. Durch Einführung von Performanzkriterien können verschiedene Optimierungsstrategien quantitativ miteinander verglichen werden. Insbesondere wird das Verfahren Extremal Optimization vorgestellt, dass ebenfalls als Markov-Prozess verstanden werden kann. Es wird bewiesen, dass eine im Sinne der genannten Kriterien beste Implementierung existiert. Da diese von einem sogenannten Fitness Schedule abhängt, wird dieser für kleine Beispielsysteme explizit berechnet. Daran anschließend wird die Zustandsdichte komplexer Systeme betrachtet. Nach einem kurzen Überblick über vorhandene Methoden folgt eine detaillierte Untersuchung des Verfahrens von Wang und Landau. Numerische und analytische Hinweise werden gegeben, nach denen dieser Algorithmus innerhalb seiner Klasse wahrscheinlich der Optimale ist. Eine neue Methode zur Approximation der Zustandsdichte wird vorgestellt, die insbesondere für die Untersuchung komplexer Systeme geeignet ist. Abschließend wird ein Ausblick auf zukünftige Arbeiten gegeben. info:eu-repo/classification/ddc/530 ddc:530 Globale Optimierung Kontrolltheorie Simulated annealing Statistische Physik Stochastisches Suchverfahren Extremal Optimization Transition Matrix Monte Carlo Verfahren von Wang und Landau Zustandsdichte
37	Räumliche Optimierung der Bestandesstruktur unter Berücksichtigung von Einzelbaumeffekten Herrmann, Isabelle 23 April 2014 (has links) In dieser Dissertation werden erstmals Kenntnisse über ökologische Felder von Einzelbäumen mit Methoden der räumlichen Optimierung kombiniert, um ein Werkzeug zu schaffen, mit dem Empfehlungen für die Strukturierung von Beständen erarbeiten werden können. Dabei waren drei unterschiedliche waldbauliche Problemstellungen Ausgangspunkt der Arbeit. Die ausführliche Beschreibung der Probleme führte zur Ableitung eines allgemeinen Optimierungsproblems, das nach optimalen Stammverteilungsplänen bzgl. verschiedener, waldbaulicher Zielsetzungen sucht. Der erster Schwerpunkt war die mathematische Herleitung der Zielgrößen. Hierbei wurde die Idee der Einzelbaumeffekte und das Konzept der ökologischen Felder verwendet, um die Zielgrößen aus den Einzelbaumeffekten zu entwickeln. Der zweite Schwerpunkt umfasste die Suche nach einem geeigneten Optimierungsmodell, mit dem die Horizontalstruktur eines Bestandes basierend auf weitreichenden, stetigen Einzelbaumeffekten räumlich optimiert werden konnte. Der gegebene Überblick zum Stand der Forschung bzgl. der räumlichen Optimierung in der Forstwissenschaft zeigte auf, dass nur Teilaspekte des allgemeinen Optimierungsproblems bisher modelliert worden sind. Von den vier daraufhin neu entwickelten Optimierungsmodellen wurden ein kontinuierliches und ein diskretes Modells nach der Auswertung der Eigenschaften weiterverwendet. Die Bewertung von verschiedenen, vorgestellten Nachbarschaftsdefinitionen und Varianten von lokalen Suchverfahren, Meta- und Hybridheuristiken führte zur Verwendung von k-opt für das diskrete Optimierungsmodell, von Compass Search für das kontinuierliche Optimierungsmodell und von Threshold Accepting und Iterated Local Search für beide Modelle. Für alle drei Optimierungsprobleme wurden jeweils zwei Tests je Algorithmus mit einer in C++ implementierten Optimierungssoftware durchgeführt. Beim ersten Test sollten in kurzer Zeit wiederholt gute Lösungen berechnet werden, während im zweiten Test wesentlich mehr Funktionswertberechnungen zur Verfügung standen, um eine sehr gute Lösung zu erhalten. Die Auswertung der Testrechnungen zeigte, dass das diskrete Optimierungsmodell dem kontinuierlichen Modell außer bei einem geringen Bestockungsgrad des Bestandes vorzuziehen ist. Die Zielfunktionsdefinitionen hatten wesentlichen Einfluss auf die Lösungen, vor allem bei gegenläufigen Zielen. Sehr gute Lösungen wiesen dabei charakteristische Verteilungsschemata der Baumpositionen auf, die nur durch eine Optimierung und nicht durch das wiederholte, zufällige Verteilen von Bäumen gefunden werden konnten. Für das diskrete Modell lieferte Threshold Accepting vor 2-opt und Iterated Local Search fast immer die besten Ergebnisse. 4-opt war immer deutlich schlechter als die anderen Algorithmen. Threshold Accepting berechnete sowohl sehr schnell gute Lösungen und als auch die besten Lösungen, wenn eine intensive Suche mit sehr vielen Funktionswertberechnungen möglich war. info:eu-repo/classification/ddc/630 ddc:630
38	k-ary search on modern processors Schlegel, Benjamin, Gemulla, Rainer, Lehner, Wolfgang 19 May 2022 (has links) This paper presents novel tree-based search algorithms that exploit the SIMD instructions found in virtually all modern processors. The algorithms are a natural extension of binary search: While binary search performs one comparison at each iteration, thereby cutting the search space in two halves, our algorithms perform k comparisons at a time and thus cut the search space into k pieces. On traditional processors, this so-called k-ary search procedure is not beneficial because the cost increase per iteration offsets the cost reduction due to the reduced number of iterations. On modern processors, however, multiple scalar operations can be executed simultaneously, which makes k-ary search attractive. In this paper, we provide two different search algorithms that differ in terms of efficiency and memory access patterns. Both algorithms are first described in a platform independent way and then evaluated on various state-of-the-art processors. Our experiments suggest that k-ary search provides significant performance improvements (factor two and more) on most platforms. info:eu-repo/classification/ddc/510 ddc:510 info:eu-repo/classification/ddc/000 ddc:000

Search results