Spelling suggestions: "subject:"document retrieval"" "subject:"adocument retrieval""
1 |
The use of graph theory in modelling thematic structure in the content of documentsFarbey, B. A. January 1984 (has links)
No description available.
|
2 |
An associative text FILTER for micro-computer based document retrievalBarros, Silvano Piedade Venacio January 1983 (has links)
No description available.
|
3 |
A syntactically-based preprocessor for a limited experimental Arabic document retrieval systemIbrahim, Farid M. S. January 1988 (has links)
The research reported in this thesis is about the description and discussion of an experimental document retrieval system for Arabic texts, using linguistic methods of analysis. Specifically, Arabic presents difficulties for the efficient retrieval of information because it is an agglutinative language, thus rendering the stop list method (as commonly used for English texts) near to useless.
|
4 |
Índices comprimidos para la recuperación de documentosFerrada Escobar, Héctor Ricardo January 2016 (has links)
Doctor en Ciencias, Mención Computación / Document Retrieval (DR) aims at efficiently retrieving the documents from a collection that
are relevant to user queries. A challenging variant arises when the documents are arbitrary
strings and the collection is large. This scenario arises in DNA or protein sequence collections,
software repositories, multimedia sequences, East Asian languages, and others. Several DR
compressed data structures have been developed to face this challenge, offering different
space/time complexities. However, in practice the proposals with the best time performance
require too much extra space.
This thesis innovates in three aspects: (1) we build on Lempel-Ziv 1978 (LZ78) compres-
sion, instead of suffix arrays, to build DR indices; (2) we build on Lempel-Ziv 1977 (LZ77)
compression to handle highly repetitive collections; (3) we start the study of approximate
answers in this DR scenario, which is common in DR on natural language texts.
In this aspect, our main contribution is a new approach to DR based on LZ78 data
compression, offering structures to solve the two most fundamental problems in the DR
field: Document Listing (DL) and Top-k Retrieval. Our novel indices offer a competitive
space/time tradeoff for both situations. Besides, our proposals are also capable of retrieving
approximate answers, saving a lot of space and/or time compared with any structure that
returns the full answer for any of these problems.
Our second main contribution is the design of a structure for indexing highly repetitive
text collections that solves the DL problem, which is built on the LZ77 parsing. This is
the first attempt to solve DR problems using LZ77 data compression, which is the best
compression scheme for such collections.
On the other hand, we improve on basic data structures used, among others, in DR.
We present an alternative design to the best theoretical Range Minimum Queries solution,
maintaining its good complexities in space usage and query time. We obtain a simpler formula
that leads to the fastest and most compact practical implementation to date.
We also implemented various promising theoretical proposals for compressed suffix ar-
rays, for which no previous implementations existed. Finally, we design and implement a
compressed text index for highly repetitive collections that solves pattern matching, which
is based on the LZ77 compression, and which is the basis for our LZ77-based DR index. / Document Retrieval (DR) apunta a la recuperación eficiente de documentos relevantes de una colección, para las consultas del usuario. Una variante que surge como desafío es cuando los documentos provienen de una gran colección de textos arbitrarios. Este escenario ocurre con colecciones de secuencias de ADN o proteínas, repositorios de software, secuencias multimedia e idiomas del Lejano Oriente, entre otros entornos. Varias estructuras de datos comprimidas para DR han sido desarrolladas a fin de hacer frente a este desafío, ofreciendo diferentes complejidades en tiempo/espacio. Sin embargo, en la práctica las propuestas con el mejor rendimiento en tiempo, requieren a su vez de demasiado espacio extra.
Esta tesis innova tres aspectos: (1) construímos índices para DR en base a la compresión Lempel-Ziv 1978 (LZ78) en lugar de arreglos de sufíjos; (2) manipulamos colecciones altamente repetitivas en base a la compresión Lempel-Ziv 1977 (LZ77); (3) comenzamos a estudiar cómo entregar respuestas aproximadas en dicho escenario de DR, lo cual es una práctica común en textos de lenguaje natural.
Nuestra principal contribución es un nuevo enfoque para DR basado en la compresión de datos LZ78, ofreciendo estructuras que resuelven los dos problemas fundamentales del campo de DR: Document Listing (DL) y Top-k Retrieval. Nuestros nuevos índices ofrecen desempeño competitivo en tiempo/espacio en ambos casos. Además nuestras propuestas también entregan respuestas aproximadas, ahorrando considerable espacio y/o tiempo comparado con cualquier otra estructura que entregue una respuesta completa a alguno de estos problemas.
También diseñamos una estructura que indexa colecciones de texto altamente repetitivo y resuelve el problema de DL, basada en la compresión LZ77. Este el primer intento dirigido a resolver un problema de DR utilizando compresión de datos LZ77, que además es el mejor esquema de compresión para dichas colecciones.
Por otro lado, realizamos mejoras sobre estructuras de datos básicas utilizadas en DR. Presentamos un diseño alternativo a la mejor solución teórica para Range Minimum Queries, manteniendo sus buenas complejidades en términos de espacio utilizado y tiempo de consulta. Logramos una fórmula más sencilla obteniendo como resultado la implementación más rápida y compacta conocida hasta hoy.
Además implementamos varias propuestas teóricas promisorias para el arreglo de sufijos, de las cuales no existen implementaciones previas. Finalmente, diseñamos e implementamos un índice de texto comprimido para colecciones altamente repetitivas que resuelve el pattern matching, el cual se basa en la compresión LZ77, y que además es la base para nuestro índice sobre el LZ77 para DR. / This work has been partially funded by Conicyt Ph.D Scholarship Chile; Fondecyt Grant 1-140976; Millennium Nucleus for Information and Coordination in Networks, and Basal Center for Biotechnology and Bioengineering
|
5 |
Estructuras de datos sucintas para recuperación de documentosValenzuela Serra, Daniel Alejandro January 2013 (has links)
Magíster en Ciencias, Mención Computación / La recuperación de documentos consiste en, dada una colección de documentos y un patrón de consulta, obtener los documentos más relevantes para la consulta. Cuando los documentos están disponibles con anterioridad a las consultas, es posible construir un índice que permita, al momento de realizar las consultas, obtener documentos relevantes en tiempo razonable. Contar con índices que resuelvan un problema como éste es fundamental en áreas como recuperación de la información, minería de datos y bioinformática, entre otros.
Cuando el texto que se indexa es lenguaje natural, la solución paradigmática corresponde al índice invertido. Sin embargo, los problemas de recuperación de documentos emergen también en escenarios en que el texto y los patrones de consulta pueden ser secuencias generales de caracteres, como lenguajes orientales, bases de datos multimedia, secuencias genómicas, etc. En estos escenarios los índices invertidos clásicos no se aplican con el mismo éxito. Si bien existen soluciones que requieren espacio lineal en este escenario de texto general, el espacio que utilizan es un problema importante: estas soluciones pueden utilizar más de 20 veces el espacio de la colección.
Esta tesis presenta nuevos algoritmos y estructuras de datos para resolver algunos pro- blemas fundamentales para recuperación de documentos en colecciones de texto general, en espacio reducido. Más específicamente, se ofrecen nuevas soluciones al problema de document listing con frecuencias, y recuperación de los top-k documentos. Como subproducto, se de- sarrolló un nuevo esquema de compresión para bitmaps repetitivos que puede ser de interés por sí mismo.
También se presentan implementaciones de las nuevas propuestas, y de trabajos relaciona- dos. Estudiamos nuestros algoritmos desde un punto de vista práctico y los comparamos con el estado del arte. Nuestros experimentos muestran que nuestras soluciones para document listing reducen el espacio de la mejor solución existente en un 40%, con un impacto mínimo en los tiempos de consulta.
Para recuperación de los top-k documentos, también se redujo el espacio de la mejor solución existente en un 40% en la práctica, manteniendo los tiempos de consulta. Así mismo, mejoramos el tiempo de esta solución hasta en un factor de 100, a expensas de usar un bit extra por carácter. Nuestras soluciones son capaces de retornar los top-10 a top-100 documentos en el orden de milisegundos. Nuestras nuevas soluciones dominan la mayor parte del mapa espacio-tiempo, apuntando a ser el estándar contra el cual comparar la investigación futura.
|
6 |
Suffix Trees for Document RetrievalReck, Ryan 01 June 2012 (has links)
This thesis presents a look at the suitability of Suffix Trees for full text indexing and retrieval. Typically suffix trees are built on a character level, where the tree records which characters follow each other character. By building suffix trees for documents based on words instead of characters, the resulting tree effectively indexes every word or sequence of words that occur in any of the documents. Ukkonnen's algorithm is adapted to build word-level suffix trees. But the primary focus is on developing Algorithms for searching the suffix tree for exact and approximate, or fuzzy, matches to arbitrary query strings. A proof-of-concept implementation is built and compared to a Lucene index for retrieval over a subset of the Reuters RCV1 data set.
|
7 |
Open-ended Spoken Language Technology: Studies on Spoken Dialogue Systems and Spoken Document Retrieval Systems / 拡張可能な音声言語技術: 音声対話システムと音声文書検索システムにおける研究Kanda, Naoyuki 24 March 2014 (has links)
京都大学 / 0048 / 新制・課程博士 / 博士(情報学) / 甲第18415号 / 情博第530号 / 新制||情||94(附属図書館) / 31273 / 京都大学大学院情報学研究科知能情報学専攻 / (主査)教授 奥乃 博, 教授 河原 達也, 教授 髙木 直史, 講師 吉井 和佳 / 学位規則第4条第1項該当 / Doctor of Informatics / Kyoto University / DFAM
|
8 |
Retrieval and Labeling of Documents Using Ontologies: Aided by a Collaborative FilteringAlshammari, Asma 06 June 2023 (has links)
No description available.
|
9 |
Investigations of Free Text Indexing Using NLP : Comparisons of Search Algorithms and Models in Apache Solr / Undersöka hur fritextindexering kan förbättras genom NLPSundstedt, Alfred January 2023 (has links)
As Natural Language Processing progresses societal and applications like OpenAI obtain more considerable popularity in society, businesses encourage the integration of NLP into their systems. Both to improve the user experience and provide users with their requested information. For case management systems, a complicated task is to provide the user with relevant documents, since customers often have large databases containing similar information. This presumes that the user needs to match the requested topic perfectly. Imagine if there was a solution to search for context, instead of formulating the perfect prompt, via established NLP models like BERT. Imagine if the system understood its content. This thesis aims to investigate how a free text index can be improved using NLP from a user perspective and implement it. Using AI to help a free text index, in this case, Apache Solr, can make it easier for users to find the specific content the users are looking for. It is interesting to see how the search can be improved with the help of NLP models and present a more relevant result for the user. NLP can improve user prompts, known as queries, and assist in indexing the information. The task is to conduct a practical investigation by configuring the free text database Apache Solr, with and without NLP support. This is investigated by learning the search models' content, letting the search models provide their relevant search results, for some user queries, and evaluating the results. The investigated search models were a string-based model, an OpenNLP model, and BERT models segmented on paragraph level and sentence level. A hybrid search model of OpenNLP and BERT, on paragraph level, was the best solution overall.
|
10 |
A HYBRID APPROACH TO RETRIEVING WEB DOCUMENTS AND SEMANTIC WEB DATAImmaneni, Trivikram 18 January 2008 (has links)
No description available.
|
Page generated in 0.09 seconds