La recuperación de información, como disciplina claramente diferenciada de la recuperación de datos, posee una naturaleza determinista que provoca ineludiblemente ciertas dosis de incertidumbre a la hora de la realizar una operación de búsqueda. Es por ello que, desde el inicio del desarrollo de esta disciplina, ha surgido una considerable cantidad de propuestas de medida de la efectividad del funcionamiento de los sistemas encargados de esta tarea: los sistemas de recuperación de información (SRI). La consolidación de la World Wide Web como ejemplo paradigmático del desarrollo de la Sociedad de la Información y del Conocimiento, y la continua multiplicación del número de documentos que en ella se publican cada día, propicia la creación de los sistemas de recuperación de información más avanzados, de mayor volumen de documentos gestionados y de mayor popularidad: los motores de búsqueda. En estos sistemas, no obstante, subyacen las dudas sobre su efectividad, máxime cuando los mismos suelen ofrecer grandes cantidades de referencias entre las cuales abundan muchas poco relevantes con la necesidad de información del usuario. La evaluación de estos sistemas ha sido, hasta el momento. dispersa y dispar. La dispersión procede de la poca uniformidad de los criterios empleados y la disparidad surge de la aperiodicidad de los estudios y por la diferente cobertura de los mismos. Surge entonces la necesidad de proponer el desarrollo de un modelo de evaluación multidimensional de estos sistemas, próximo a los usuarios y al contexto donde se desarrolla, la World Wide Web, entorno difícil de gestionar y que, además, se encuentra afectado de grandes dosis de volatilidad. Nuestra propuesta de modelo de evaluación adapta medidas empleadas en otros procesos de la misma naturaleza, basadas en los juicios de relevancia y en la detección de errores y/o duplicados e implementa una función discreta de ponderación de la relevancia de los documentos diseñada con base en su posición dentro de la respuesta que ofrece el motor. Por último, nuestra propuesta analiza la similitud de las colecciones de documentos almacenadas en los índices de los motores. El análisis de la serie de datos producidos por el experimento de verificación de viabilidad de este modelo, nos ha permitido identificar un comporta- miento tipo de los motores de búsqueda, a pesar de lo difuso y heterogéneo que resulta el espacio donde han de trabajar. / Information Retrieval, thinked as discipline clearly distinguised to data retrieval. gets a deterministic nature that implies. inescapably, small doses of uncertainty about the effectiveness of a search. So, since the beginning of the development of this discipline, has growth a considerably number of proposals oriented to mesaure the effectiveness of the Information Retrieval Systems. The consolidation of the World Wide Web as the paradigmatic schema for developing the Information and Knowledge Society, and the continuous multiplication of the number of documents published in this environment, has leaded the implementation and establishment of the most advanced, great and extense information retrieval systems: the web search engines. Nevertheless, under these systems underlie the doubt about their effectivenes, especially when they usually present, as response to a question, many documents with few relevance to the user information need. The evaluation of these systems has been, until the moment, dispense and different. The scattering is dued to the little uniformity detected into the set of criteria used in these works, and this disparity derives from their aperiodicity and different coverage. It is necessary to dispose of a proposal of a model for a multidimensional evaluation of the web search engines, near to the users and oriented to the context: the World Wide Web. Our proposal adjusts and combines several measures based on the relevance of the documents. traditionally used in another studies of similar nature and goals, with the detection of the percentages of dead links and duplicates references, implementing a discrete function for the measurement of the relevance. designed in basis of the documents position into the response offered by the searh engine. The analysis of the series of data produced by our experiment, let us the possibility of identify a standard behaviour of the search engines, in spite of the diffuse and heterogeneus space where they have to work.
Identifer | oai:union.ndltd.org:TDX_UM/oai:www.tdx.cat:10803/10904 |
Date | 10 July 2002 |
Creators | Martínez Méndez, Francisco Javier |
Contributors | Rodríguez Muñoz, José Vicente, Universidad de Murcia. Departamento de Información y Documentación |
Publisher | Universidad de Murcia |
Source Sets | Universidad de Murcia |
Language | Spanish |
Detected Language | Spanish |
Type | info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion |
Format | application/pdf |
Source | TDR (Tesis Doctorales en Red) |
Rights | ADVERTENCIA. El acceso a los contenidos de esta tesis doctoral y su utilización debe respetar los derechos de la persona autora. Puede ser utilizada para consulta o estudio personal, así como en actividades o materiales de investigación y docencia en los términos establecidos en el art. 32 del Texto Refundido de la Ley de Propiedad Intelectual (RDL 1/1996). Para otros usos se requiere la autorización previa y expresa de la persona autora. En cualquier caso, en la utilización de sus contenidos se deberá indicar de forma clara el nombre y apellidos de la persona autora y el título de la tesis doctoral. No se autoriza su reproducción u otras formas de explotación efectuadas con fines lucrativos ni su comunicación pública desde un sitio ajeno al servicio TDR. Tampoco se autoriza la presentación de su contenido en una ventana o marco ajeno a TDR (framing). Esta reserva de derechos afecta tanto al contenido de la tesis como a sus resúmenes e índices., info:eu-repo/semantics/openAccess |
Page generated in 0.002 seconds