In recent years, the most popular web search engines have excelled in their ability to answer short queries that require clear, localized and personalized answers. When it comes to complex exploratory search tasks however, the main challenge for the searcher remains the same as back in the 1990s: Trying to formulate a single query that contains all the right keywords to produce at least some relevant results.
In this work we want to investigate new ways to facilitate exploratory search by making use of context information from the user's entire search process. Therefore we present the concept of session-based semantic search, with an optional extension to collaborative search scenarios. To improve the relevance of search results we expand queries with terms from the user's recent query history in the same search context (session-based search). We introduce a novel method for query classification based on statistical topic models which allows us to track the most important topics in a search session so that we can suggest relevant documents that could not be found through keyword matching.
To demonstrate the potential of these concepts, we have built the prototype of a session-based semantic search engine which we release as free and open source software. In a qualitative user study that we have conducted, this prototype has shown promising results and was well-received by the participants.:1. Introduction
2. Related Work
2.1. Topic Models
2.1.1. Common Traits
2.1.2. Topic Modeling Techniques
2.1.3. Topic Labeling
2.1.4. Topic Graph Visualization
2.2. Session-based Search
2.3. Query Classification
2.4. Collaborative Search
2.4.1. Aspects of Collaborative Search Systems
2.4.2. Collaborative Information Retrieval Systems
3. Core Concepts
3.1. Session-based Search
3.1.1. Session Data
3.1.2. Query Aggregation
3.2. Topic Centroid
3.2.1. Topic Identification
3.2.2. Topic Shift
3.2.3. Relevance Feedback
3.2.4. Topic Graph Visualization
3.3. Search Strategy
3.3.1. Prerequisites
3.3.2. Search Algorithms
3.3.3. Query Pipeline
3.4. Collaborative Search
3.4.1. Shared Topic Centroid
3.4.2. Group Management
3.4.3. Collaboration
3.5. Discussion
4. Prototype
4.1. Document Collection
4.1.1. Selection Criteria
4.1.2. Data Preparation
4.1.3. Search Index
4.2. Search Engine
4.2.1. Search Algorithms
4.2.2. Query Pipeline
4.2.3. Session Persistence
4.3. User Interface
4.4. Performance Review
4.5. Discussion
5. User Study
5.1. Methods
5.1.1. Procedure
5.1.2. Implementation
5.1.3. Tasks
5.1.4. Questionnaires
5.2. Results
5.2.1. Participants
5.2.2. Task Review
5.2.3. Literature Research Results
5.3. Discussion
6. Conclusion
Bibliography
Weblinks
A. Appendix
A.1. Prototype: Source Code
A.2. Survey
A.2.1. Tasks
A.2.2. Document Filter for Google Scholar
A.2.3. Questionnaires
A.2.4. Participant’s Answers
A.2.5. Participant’s Search Results / Die führenden Web-Suchmaschinen haben sich in den letzten Jahren gegenseitig darin übertroffen, möglichst leicht verständliche, lokalisierte und personalisierte Antworten auf kurze Suchanfragen anzubieten. Bei komplexen explorativen Rechercheaufgaben hingegen ist die größte Herausforderung für den Nutzer immer noch die gleiche wie in den 1990er Jahren: Eine einzige Suchanfrage so zu formulieren, dass alle notwendigen Schlüsselwörter enthalten sind, um zumindest ein paar relevante Ergebnisse zu erhalten.
In der vorliegenden Arbeit sollen neue Methoden entwickelt werden, um die explorative Suche zu erleichtern, indem Kontextinformationen aus dem gesamten Suchprozess des Nutzers einbezogen werden. Daher stellen wir das Konzept der sitzungsbasierten semantischen Suche vor, mit einer optionalen Erweiterung auf kollaborative Suchszenarien. Um die Relevanz von Suchergebnissen zu steigern, werden Suchanfragen mit Begriffen aus den letzten Anfragen des Nutzers angereichert, die im selben Suchkontext gestellt wurden (sitzungsbasierte Suche). Außerdem wird ein neuartiger Ansatz zur Klassifizierung von Suchanfragen eingeführt, der auf statistischen Themenmodellen basiert und es uns ermöglicht, die wichtigsten Themen in einer Suchsitzung zu erkennen, um damit weitere relevante Dokumente vorzuschlagen, die nicht durch Keyword-Matching gefunden werden konnten.
Um das Potential dieser Konzepte zu demonstrieren, wurde im Rahmen dieser Arbeit der Prototyp einer sitzungsbasierten semantischen Suchmaschine entwickelt, den wir als freie Software veröffentlichen. In einer qualitativen Nutzerstudie hat dieser Prototyp vielversprechende Ergebnisse hervorgebracht und wurde von den Teilnehmern positiv aufgenommen.:1. Introduction
2. Related Work
2.1. Topic Models
2.1.1. Common Traits
2.1.2. Topic Modeling Techniques
2.1.3. Topic Labeling
2.1.4. Topic Graph Visualization
2.2. Session-based Search
2.3. Query Classification
2.4. Collaborative Search
2.4.1. Aspects of Collaborative Search Systems
2.4.2. Collaborative Information Retrieval Systems
3. Core Concepts
3.1. Session-based Search
3.1.1. Session Data
3.1.2. Query Aggregation
3.2. Topic Centroid
3.2.1. Topic Identification
3.2.2. Topic Shift
3.2.3. Relevance Feedback
3.2.4. Topic Graph Visualization
3.3. Search Strategy
3.3.1. Prerequisites
3.3.2. Search Algorithms
3.3.3. Query Pipeline
3.4. Collaborative Search
3.4.1. Shared Topic Centroid
3.4.2. Group Management
3.4.3. Collaboration
3.5. Discussion
4. Prototype
4.1. Document Collection
4.1.1. Selection Criteria
4.1.2. Data Preparation
4.1.3. Search Index
4.2. Search Engine
4.2.1. Search Algorithms
4.2.2. Query Pipeline
4.2.3. Session Persistence
4.3. User Interface
4.4. Performance Review
4.5. Discussion
5. User Study
5.1. Methods
5.1.1. Procedure
5.1.2. Implementation
5.1.3. Tasks
5.1.4. Questionnaires
5.2. Results
5.2.1. Participants
5.2.2. Task Review
5.2.3. Literature Research Results
5.3. Discussion
6. Conclusion
Bibliography
Weblinks
A. Appendix
A.1. Prototype: Source Code
A.2. Survey
A.2.1. Tasks
A.2.2. Document Filter for Google Scholar
A.2.3. Questionnaires
A.2.4. Participant’s Answers
A.2.5. Participant’s Search Results
Identifer | oai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:30574 |
Date | 11 October 2017 |
Creators | Straub, Sebastian |
Contributors | Dachselt, Raimund, Mitschick, Annett, Lehmann, Anke, Technische Universität Dresden |
Source Sets | Hochschulschriftenserver (HSSS) der SLUB Dresden |
Language | English |
Detected Language | English |
Type | doc-type:masterThesis, info:eu-repo/semantics/masterThesis, doc-type:Text |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0025 seconds