• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Vergleichsmethoden und Bewertung von Vektor-DBMS für KI

Westholt, Lukas 10 December 2024 (has links)
KI-Suchsysteme oder -Chatbots sind gesellschaftliche Zukunftstechnologien und zunehmend auf die effiziente Verarbeitung unstrukturierter Daten in Form von Embeddings angewiesen. Sie haben unterschiedliche Anforderungen an Vektor-DBMS (VDBMS), deren Markt in den letzten fünf Jahren aufgrund steigender Auswahl unübersichtlich geworden ist. Ziel dieser Arbeit ist die Erleichterung der mehrdimensionalenWahl zwischen VDBMS mittels Daten der systematischen Evaluation von verhältnisskalierten Leistungsmetriken sowie nominalskalierten Merkmalen. Die Methodik umfasst ein eigens entwickeltes Benchmarking-System, welches Latenz, Durchsatz und Ressourcennutzung misst. Zugunsten der Reproduzierbarkeit des Systems wurde konsequent auf allgemein verfügbare Cloudumgebung per Infrastructure-as-Code und automatisierte Verfahren gesetzt. Zudem wird Vererbung und das Adapter-Design-Pattern genutzt, um die Erweiterbarkeit der Software sicherzustellen. Analysiert werden neun gängige VDBMS (darunter Qdrant, Redis und Chroma) für vier Anwendungsfälle in Industrie, Handel und Wissenschaft. Vergleichend werden publizierte Benchmarking-Systeme herangezogen. Um die Eignung von VDBMS individuell zu bewerten, wird ein algorithmusbasiertes Empfehlungssystem vorgestellt, bei dem neben den genannten Parametern fallspezifische Anforderungen wie Transaktionsunterstützung berücksichtigt werden. Die Arbeit liefert Messdaten von zwei Testaufbauten und zeigt, dass Qdrant in den Kategorien Latenz, Abfragedurchsatz und Upload-Zeit eines Datensatzes die beste Leistung erzielt, auch bei hohen Präzisionsanforderungen. Redis überzeugt durch geringe Latenz, während Chroma Schwächen aufweist. Das Empfehlungssystem wird für die Anwendungsfälle eingesetzt und ermittelt unterschiedliche Produktlösungen. Die Ergebnisse deduzieren eine Präzedenz für Qdrant, betonen präzise Selektion und unterstützen Entwickler:innen bei der Wahl des geeigneten VDBMS.:1 Einleitung 2 Embeddings und VDBMS 2.1 Embeddings 2.2 Vektordatenbankmanagementsysteme 2.3 Verfahren zur Berechnung der Ähnlichkeit 2.4 Verfahren zur Berechnung des nächsten Nachbarn 3 Anforderungsanalyse 3.1 Schlüsselszenarien zum Einsatz von VDBMS 3.2 Wahl und Eigenschaften der VDBMS 3.3 Vergleichsmetriken für Datenbanken 3.4 Weitere nominale Vergleichseigenschaften 3.5 Ergebnisse der Anforderungsanalyse 4 Architektur des Testsystems 4.1 Management- und Benchmarking-System für VDBMS 4.2 Cloud-Infrastruktur 4.3 Rastersuche und Laufzeitanalyse 5 Evaluation 5.1 Messdaten des ersten Aufbaus 5.2 Messdaten des zweiten Aufbaus 5.3 Leistungsvergleich der VDBMS 5.4 Empfehlungssystem 5.5 Auswertung der Schlüsselszenarien anhand des Empfehlungssystems 6 Zusammenfassung und Ausblick Glossar Abkürzungsverzeichnis Literatur Abbildungsverzeichnis Tabellenverzeichnis Anhang A Resultate der Experimente: Datentabellen B Beispiel: VDBMS-Empfehlungssystem C Arbeit mit Leipzig Corpora Collection D Ausblick: GUI für Bereitstellung von VDBMS / AI search systems or chatbots are societal technologies of the future and are increasingly dependent on the efficient processing of unstructured data in the form of embeddings. They have different requirements for vector DBMSs (VDBMS), whose market has become congested in the last five years due to a broadening spectrum. The aim of this work is to facilitate the multidimensional choice between VDBMSs using data from the systematic evaluation of ratio-scaled performance metrics and nominal-scaled features. The methods include a specifically developed benchmarking system that measures latency, throughput and resource utilisation. In favour of the reproducibility of the system, a generally available cloud environment via infrastructure-as-code and automated processes were consistently used. In addition, inheritance and the adapter design pattern are used to ensure the extensibility of the software. Nine common VDBMSs (including Qdrant, Redis and Chroma) are analysed for four use cases in industry, commerce and science. Published benchmarking systems are used for comparison. In order to evaluate the suitability of VDBMSs individually, an algorithm-based recommendation system is presented, in which case-specific requirements such as transaction support are taken into account in addition to the parameters mentioned. We provide measurement data from two test setups and show that Qdrant achieves the best performance in the categories of latency, query throughput and upload time of a data set, especially with high precision requirements. Redis impresses with its low latency, while Chroma shows weaknesses. The evaluation of the nominal characteristics results in two categories of VDBMSs: 1. traditional DBMSs with vector extension support and 2. dedicated VDBMSs. Our recommendation system is applied to the use cases and determines different product solutions. The results deduce a precedent for Qdrant, emphasise precise selection and support developers in choosing the appropriate VDBMS.:1 Einleitung 2 Embeddings und VDBMS 2.1 Embeddings 2.2 Vektordatenbankmanagementsysteme 2.3 Verfahren zur Berechnung der Ähnlichkeit 2.4 Verfahren zur Berechnung des nächsten Nachbarn 3 Anforderungsanalyse 3.1 Schlüsselszenarien zum Einsatz von VDBMS 3.2 Wahl und Eigenschaften der VDBMS 3.3 Vergleichsmetriken für Datenbanken 3.4 Weitere nominale Vergleichseigenschaften 3.5 Ergebnisse der Anforderungsanalyse 4 Architektur des Testsystems 4.1 Management- und Benchmarking-System für VDBMS 4.2 Cloud-Infrastruktur 4.3 Rastersuche und Laufzeitanalyse 5 Evaluation 5.1 Messdaten des ersten Aufbaus 5.2 Messdaten des zweiten Aufbaus 5.3 Leistungsvergleich der VDBMS 5.4 Empfehlungssystem 5.5 Auswertung der Schlüsselszenarien anhand des Empfehlungssystems 6 Zusammenfassung und Ausblick Glossar Abkürzungsverzeichnis Literatur Abbildungsverzeichnis Tabellenverzeichnis Anhang A Resultate der Experimente: Datentabellen B Beispiel: VDBMS-Empfehlungssystem C Arbeit mit Leipzig Corpora Collection D Ausblick: GUI für Bereitstellung von VDBMS

Page generated in 0.0204 seconds