Spelling suggestions: "subject:"untersuchungsverfahren""
31 |
Effective and efficient similarity search in databasesLange, Dustin January 2013 (has links)
Given a large set of records in a database and a query record, similarity search aims to find all records sufficiently similar to the query record. To solve this problem, two main aspects need to be considered: First, to perform effective search, the set of relevant records is defined using a similarity measure. Second, an efficient access method is to be found that performs only few database accesses and comparisons using the similarity measure. This thesis solves both aspects with an emphasis on the latter.
In the first part of this thesis, a frequency-aware similarity measure is introduced. Compared record pairs are partitioned according to frequencies of attribute values. For each partition, a different similarity measure is created: machine learning techniques combine a set of base similarity measures into an overall similarity measure. After that, a similarity index for string attributes is proposed, the State Set Index (SSI), which is based on a trie (prefix tree) that is interpreted as a nondeterministic finite automaton. For processing range queries, the notion of query plans is introduced in this thesis to describe which similarity indexes to access and which thresholds to apply. The query result should be as complete as possible under some cost threshold. Two query planning variants are introduced: (1) Static planning selects a plan at compile time that is used for all queries. (2) Query-specific planning selects a different plan for each query. For answering top-k queries, the Bulk Sorted Access Algorithm (BSA) is introduced, which retrieves large chunks of records from the similarity indexes using fixed thresholds, and which focuses its efforts on records that are ranked high in more than one attribute and thus promising candidates.
The described components form a complete similarity search system. Based on prototypical implementations, this thesis shows comparative evaluation results for all proposed approaches on different real-world data sets, one of which is a large person data set from a German credit rating agency. / Ziel von Ähnlichkeitssuche ist es, in einer Menge von Tupeln in einer Datenbank zu einem gegebenen Anfragetupel all diejenigen Tupel zu finden, die ausreichend ähnlich zum Anfragetupel sind.
Um dieses Problem zu lösen, müssen zwei zentrale Aspekte betrachtet werden: Erstens, um eine effektive Suche durchzuführen, muss die Menge der relevanten Tupel mithilfe eines Ähnlichkeitsmaßes definiert werden. Zweitens muss eine effiziente Zugriffsmethode gefunden werden, die nur wenige Datenbankzugriffe und Vergleiche mithilfe des Ähnlichkeitsmaßes durchführt. Diese Arbeit beschäftigt sich mit beiden Aspekten und legt den Fokus auf Effizienz.
Im ersten Teil dieser Arbeit wird ein häufigkeitsbasiertes Ähnlichkeitsmaß eingeführt. Verglichene Tupelpaare werden entsprechend der Häufigkeiten ihrer Attributwerte partitioniert. Für jede Partition wird ein unterschiedliches Ähnlichkeitsmaß erstellt: Mithilfe von Verfahren des Maschinellen Lernens werden Basisähnlichkeitsmaßes zu einem Gesamtähnlichkeitsmaß verbunden. Danach wird ein Ähnlichkeitsindex für String-Attribute vorgeschlagen, der State Set Index (SSI), welcher auf einem Trie (Präfixbaum) basiert, der als nichtdeterministischer endlicher Automat interpretiert wird. Zur Verarbeitung von Bereichsanfragen wird in dieser Arbeit die Notation der Anfragepläne eingeführt, um zu beschreiben welche Ähnlichkeitsindexe angefragt und welche Schwellwerte dabei verwendet werden sollen. Das Anfrageergebnis sollte dabei so vollständig wie möglich sein und die Kosten sollten einen gegebenen Schwellwert nicht überschreiten. Es werden zwei Verfahren zur Anfrageplanung vorgeschlagen: (1) Beim statischen Planen wird zur Übersetzungszeit ein Plan ausgewählt, der dann für alle Anfragen verwendet wird. (2) Beim anfragespezifischen Planen wird für jede Anfrage ein unterschiedlicher Plan ausgewählt. Zur Beantwortung von Top-k-Anfragen stellt diese Arbeit den Bulk Sorted Access-Algorithmus (BSA) vor, der große Mengen von Tupeln mithilfe fixer Schwellwerte von den Ähnlichkeitsindexen abfragt und der Tupel bevorzugt, die hohe Ähnlichkeitswerte in mehr als einem Attribut haben und damit vielversprechende Kandidaten sind.
Die vorgestellten Komponenten bilden ein vollständiges Ähnlichkeitssuchsystem. Basierend auf einer prototypischen Implementierung zeigt diese Arbeit vergleichende Evaluierungsergebnisse für alle vorgestellten Ansätze auf verschiedenen Realwelt-Datensätzen; einer davon ist ein großer Personendatensatz einer deutschen Wirtschaftsauskunftei.
|
32 |
Räumliche Optimierung der Bestandesstruktur unter Berücksichtigung von EinzelbaumeffektenHerrmann, Isabelle 17 July 2014 (has links) (PDF)
In dieser Dissertation werden erstmals Kenntnisse über ökologische Felder von Einzelbäumen mit Methoden der räumlichen Optimierung kombiniert, um ein Werkzeug zu schaffen, mit dem Empfehlungen für die Strukturierung von Beständen erarbeiten werden können. Dabei waren drei unterschiedliche waldbauliche Problemstellungen Ausgangspunkt der Arbeit. Die ausführliche Beschreibung der Probleme führte zur Ableitung eines allgemeinen Optimierungsproblems, das nach optimalen Stammverteilungsplänen bzgl. verschiedener, waldbaulicher Zielsetzungen sucht.
Der erster Schwerpunkt war die mathematische Herleitung der Zielgrößen. Hierbei wurde die Idee der Einzelbaumeffekte und das Konzept der ökologischen Felder verwendet, um die Zielgrößen aus den Einzelbaumeffekten zu entwickeln. Der zweite Schwerpunkt umfasste die Suche nach einem geeigneten Optimierungsmodell, mit dem die Horizontalstruktur eines Bestandes basierend auf weitreichenden, stetigen Einzelbaumeffekten räumlich optimiert werden konnte. Der gegebene Überblick zum Stand der Forschung bzgl. der räumlichen Optimierung in der Forstwissenschaft zeigte auf, dass nur Teilaspekte des allgemeinen Optimierungsproblems bisher modelliert worden sind. Von den vier daraufhin neu entwickelten Optimierungsmodellen wurden ein kontinuierliches und ein diskretes Modells nach der Auswertung der Eigenschaften weiterverwendet.
Die Bewertung von verschiedenen, vorgestellten Nachbarschaftsdefinitionen und Varianten von lokalen Suchverfahren, Meta- und Hybridheuristiken führte zur Verwendung von k-opt für das diskrete Optimierungsmodell, von Compass Search für das kontinuierliche Optimierungsmodell und von Threshold Accepting und Iterated Local Search für beide Modelle. Für alle drei Optimierungsprobleme wurden jeweils zwei Tests je Algorithmus mit einer in C++ implementierten Optimierungssoftware durchgeführt. Beim ersten Test sollten in kurzer Zeit wiederholt gute Lösungen berechnet werden, während im zweiten Test wesentlich mehr Funktionswertberechnungen zur Verfügung standen, um eine sehr gute Lösung zu erhalten.
Die Auswertung der Testrechnungen zeigte, dass das diskrete Optimierungsmodell dem kontinuierlichen Modell außer bei einem geringen Bestockungsgrad des Bestandes vorzuziehen ist. Die Zielfunktionsdefinitionen hatten wesentlichen Einfluss auf die Lösungen, vor allem bei gegenläufigen Zielen. Sehr gute Lösungen wiesen dabei charakteristische Verteilungsschemata der Baumpositionen auf, die nur durch eine Optimierung und nicht durch das wiederholte, zufällige Verteilen von Bäumen gefunden werden konnten. Für das diskrete Modell lieferte Threshold Accepting vor 2-opt und Iterated Local Search fast immer die besten Ergebnisse. 4-opt war immer deutlich schlechter als die anderen Algorithmen. Threshold Accepting berechnete sowohl sehr schnell gute Lösungen und als auch die besten Lösungen, wenn eine intensive Suche mit sehr vielen Funktionswertberechnungen möglich war.
|
33 |
Konzeption und Realisierung eines kontextsensitiven RoutingverfahrensDebes, Maik January 2008 (has links)
Zugl.: Ilmenau, Techn. Univ., Diss., 2008
|
34 |
The State Space of Complex SystemsHeilmann, Frank 14 October 2005 (has links) (PDF)
In dieser Arbeit wird eine Beschreibung von Monte-Carlo-Verfahren zur
Lösung komplexer Optimierungsaufgaben mit Hilfe von Markov-Ketten
durchgeführt. Nach einer kurzen Einführung werden Lösungsmenge solcher
Aufgaben und der physikalische Zustandsraum komplexer Systeme
identifiziert.
Zunächst wird die Dynamik von Zufallswanderern im Zustandsraum mit Hilfe
von Master-Gleichungen modelliert. Durch Einführung von Performanzkriterien
können verschiedene Optimierungsstrategien quantitativ miteinander
verglichen werden. Insbesondere wird das Verfahren Extremal
Optimization vorgestellt, dass ebenfalls als Markov-Prozess
verstanden werden kann. Es wird bewiesen, dass eine im Sinne der
genannten Kriterien beste Implementierung existiert. Da diese von einem
sogenannten Fitness Schedule abhängt, wird dieser für kleine
Beispielsysteme explizit berechnet.
Daran anschließend wird die Zustandsdichte komplexer Systeme betrachtet.
Nach einem kurzen Überblick über vorhandene Methoden folgt eine
detaillierte Untersuchung des Verfahrens von Wang und Landau.
Numerische und analytische Hinweise werden gegeben, nach denen dieser
Algorithmus innerhalb seiner Klasse wahrscheinlich der Optimale ist. Eine
neue Methode zur Approximation der Zustandsdichte wird vorgestellt, die
insbesondere für die Untersuchung komplexer Systeme geeignet ist.
Abschließend wird ein Ausblick auf zukünftige Arbeiten gegeben.
|
35 |
Large scale mining and retrieval of visual data in a multimodal contextQuack, Till January 2009 (has links)
Zugl.: Zürich, Techn. Hochsch., Diss.
|
36 |
The State Space of Complex SystemsHeilmann, Frank 14 October 2005 (has links)
In dieser Arbeit wird eine Beschreibung von Monte-Carlo-Verfahren zur
Lösung komplexer Optimierungsaufgaben mit Hilfe von Markov-Ketten
durchgeführt. Nach einer kurzen Einführung werden Lösungsmenge solcher
Aufgaben und der physikalische Zustandsraum komplexer Systeme
identifiziert.
Zunächst wird die Dynamik von Zufallswanderern im Zustandsraum mit Hilfe
von Master-Gleichungen modelliert. Durch Einführung von Performanzkriterien
können verschiedene Optimierungsstrategien quantitativ miteinander
verglichen werden. Insbesondere wird das Verfahren Extremal
Optimization vorgestellt, dass ebenfalls als Markov-Prozess
verstanden werden kann. Es wird bewiesen, dass eine im Sinne der
genannten Kriterien beste Implementierung existiert. Da diese von einem
sogenannten Fitness Schedule abhängt, wird dieser für kleine
Beispielsysteme explizit berechnet.
Daran anschließend wird die Zustandsdichte komplexer Systeme betrachtet.
Nach einem kurzen Überblick über vorhandene Methoden folgt eine
detaillierte Untersuchung des Verfahrens von Wang und Landau.
Numerische und analytische Hinweise werden gegeben, nach denen dieser
Algorithmus innerhalb seiner Klasse wahrscheinlich der Optimale ist. Eine
neue Methode zur Approximation der Zustandsdichte wird vorgestellt, die
insbesondere für die Untersuchung komplexer Systeme geeignet ist.
Abschließend wird ein Ausblick auf zukünftige Arbeiten gegeben.
|
37 |
Räumliche Optimierung der Bestandesstruktur unter Berücksichtigung von EinzelbaumeffektenHerrmann, Isabelle 23 April 2014 (has links)
In dieser Dissertation werden erstmals Kenntnisse über ökologische Felder von Einzelbäumen mit Methoden der räumlichen Optimierung kombiniert, um ein Werkzeug zu schaffen, mit dem Empfehlungen für die Strukturierung von Beständen erarbeiten werden können. Dabei waren drei unterschiedliche waldbauliche Problemstellungen Ausgangspunkt der Arbeit. Die ausführliche Beschreibung der Probleme führte zur Ableitung eines allgemeinen Optimierungsproblems, das nach optimalen Stammverteilungsplänen bzgl. verschiedener, waldbaulicher Zielsetzungen sucht.
Der erster Schwerpunkt war die mathematische Herleitung der Zielgrößen. Hierbei wurde die Idee der Einzelbaumeffekte und das Konzept der ökologischen Felder verwendet, um die Zielgrößen aus den Einzelbaumeffekten zu entwickeln. Der zweite Schwerpunkt umfasste die Suche nach einem geeigneten Optimierungsmodell, mit dem die Horizontalstruktur eines Bestandes basierend auf weitreichenden, stetigen Einzelbaumeffekten räumlich optimiert werden konnte. Der gegebene Überblick zum Stand der Forschung bzgl. der räumlichen Optimierung in der Forstwissenschaft zeigte auf, dass nur Teilaspekte des allgemeinen Optimierungsproblems bisher modelliert worden sind. Von den vier daraufhin neu entwickelten Optimierungsmodellen wurden ein kontinuierliches und ein diskretes Modells nach der Auswertung der Eigenschaften weiterverwendet.
Die Bewertung von verschiedenen, vorgestellten Nachbarschaftsdefinitionen und Varianten von lokalen Suchverfahren, Meta- und Hybridheuristiken führte zur Verwendung von k-opt für das diskrete Optimierungsmodell, von Compass Search für das kontinuierliche Optimierungsmodell und von Threshold Accepting und Iterated Local Search für beide Modelle. Für alle drei Optimierungsprobleme wurden jeweils zwei Tests je Algorithmus mit einer in C++ implementierten Optimierungssoftware durchgeführt. Beim ersten Test sollten in kurzer Zeit wiederholt gute Lösungen berechnet werden, während im zweiten Test wesentlich mehr Funktionswertberechnungen zur Verfügung standen, um eine sehr gute Lösung zu erhalten.
Die Auswertung der Testrechnungen zeigte, dass das diskrete Optimierungsmodell dem kontinuierlichen Modell außer bei einem geringen Bestockungsgrad des Bestandes vorzuziehen ist. Die Zielfunktionsdefinitionen hatten wesentlichen Einfluss auf die Lösungen, vor allem bei gegenläufigen Zielen. Sehr gute Lösungen wiesen dabei charakteristische Verteilungsschemata der Baumpositionen auf, die nur durch eine Optimierung und nicht durch das wiederholte, zufällige Verteilen von Bäumen gefunden werden konnten. Für das diskrete Modell lieferte Threshold Accepting vor 2-opt und Iterated Local Search fast immer die besten Ergebnisse. 4-opt war immer deutlich schlechter als die anderen Algorithmen. Threshold Accepting berechnete sowohl sehr schnell gute Lösungen und als auch die besten Lösungen, wenn eine intensive Suche mit sehr vielen Funktionswertberechnungen möglich war.
|
38 |
k-ary search on modern processorsSchlegel, Benjamin, Gemulla, Rainer, Lehner, Wolfgang 19 May 2022 (has links)
This paper presents novel tree-based search algorithms that exploit the SIMD instructions found in virtually all modern processors. The algorithms are a natural extension of binary search: While binary search performs one comparison at each iteration, thereby cutting the search space in two halves, our algorithms perform k comparisons at a time and thus cut the search space into k pieces. On traditional processors, this so-called k-ary search procedure is not beneficial because the cost increase per iteration offsets the cost reduction due to the reduced number of iterations. On modern processors, however, multiple scalar operations can be executed simultaneously, which makes k-ary search attractive. In this paper, we provide two different search algorithms that differ in terms of efficiency and memory access patterns. Both algorithms are first described in a platform independent way and then evaluated on various state-of-the-art processors. Our experiments suggest that k-ary search provides significant performance improvements (factor two and more) on most platforms.
|
Page generated in 0.0606 seconds