Global ETD Search

Return to search

ALGORITMOS DE CLUSTERING PARALELOS EN SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN DISTRIBUIDOS

La información es útil si cuando se necesita está disponible y se puede hacer
uso de ella. La disponibilidad suele darse fácilmente cuando la información está bien
estructurada y ordenada, y además, no es muy extensa. Pero esta situación no es
la más común, cada vez se tiende más a que la cantidad de información ofrecida
crezca de forma desmesurada, que esté desestructurada y que no presente un orden
claro. La estructuración u ordenación manual es inviable debido a las dimensiones
de la información a manejar. Por todo ello se hace clara la utilidad, e incluso la
necesidad, de buenos sistemas de recuperación de información (SRI). Además, otra
característica también importante es que la información tiende a presentarse de forma
natural de manera distribuida, lo cual implica la necesidad de SRI que puedan trabajar
en entornos distribuidos y con técnicas de paralelización.
Esta tesis aborda todos estos aspectos desarrollando y mejorando métodos que
permitan obtener SRI con mejores prestaciones, tanto en calidad de recuperación como
en eficiencia computacional, los cuales además permiten trabajar desde el enfoque de
sistemas ya distribuidos.
El principal objetivo de los SRI será proporcionar documentos relevantes y omitir
los considerados irrelevantes respecto a una consulta dada. Algunos de los problemas
más destacables de los SRI son: la polisemia y la sinonimia; las palabras relacionadas
(palabras que juntas tienen un signi cado y separadas otro); la enormidad de la información a manejar; la heterogeneidad de los documentos; etc. De todos ellos esta tesis
se centra en la polisemia y la sinonimia, las palabras relacionadas (indirectamente
mediante la lematización semántica) y en la enormidad de la información a manejar.
El desarrollo de un SRI comprende básicamente cuatro fases distintas: el preprocesamiento,
la modelización, la evaluación y la utilización. El preprocesamiento
que conlleva las acciones necesarias para transformar los documentos de la colección
en una estructura de datos con la información relevante de los documentos ha sido
una parte importante del estudio de esta tesis. En esta fase nos hemos centrado en
la reducción de los datos y estructuras a manejar, maximizando la información contenida.
La modelización, ha sido la fase más analizada y trabajada en esta tesis, es
la que se encarga de defi nir la estructura y comportamiento del SRI. / Jiménez González, D. (2011). ALGORITMOS DE CLUSTERING PARALELOS EN SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN DISTRIBUIDOS [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/11234 / Palancia

Paralelo

Distribuido

Recuperación de información

Identifer	oai:union.ndltd.org:upv.es/oai:riunet.upv.es:10251/11234
Date	20 July 2011
Creators	Jiménez González, Daniel
Contributors	Vidal Gimeno, Vicente Emilio, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació
Publisher	Universitat Politècnica de València
Source Sets	Universitat Politècnica de València
Language	Spanish
Detected Language	Spanish
Type	info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Source	Riunet
Rights	http://rightsstatements.org/vocab/InC/1.0/, info:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds

ALGORITMOS DE CLUSTERING PARALELOS EN SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN DISTRIBUIDOS

Description

Links & Downloads

Tags

Additional Fields