Global ETD Search

11	Indexamiento en espacios no-métricos Sepúlveda Benitez, Víctor Hugo January 2012 (has links) Magíster en Ciencias, Mención Computación / Ingeniero Civil en Computación / La mayoría de los sistemas de recuperación de información multimedia utilizan algún esquema de indexamiento para acelerar las búsquedas por similitud en una colección de datos, evitando un análisis detallado de grandes porciones de la colección. Estos enfoques suelen utilizar la desigualdad triangular para descartar elementos. Esto requiere que la distancia de comparación satisfaga los postulados métricos. Sin embargo, estudios recientes muestran que para ciertas aplicaciones resulta apropiado el uso de distancias no métricas, que pueden entregar mejores juicios de la similitud de dos objetos. En esos casos, la falta de la desigualdad triangular hace imposible el uso de los enfoques tradicionales para el indexamiento. En esta tesis se estudian, implementan y prueban las principales técnicas del estado del arte para indexar espacios no métricos genéricos, en un ambiente que permite concluir acerca de varios aspectos y las ventajas de las diferentes estrategias probadas. Las técnicas consideradas fueron DynDex, LCE, QIC y TriGen, aunque la técnica QIC no es comparada con las demás pues falla en ser adecuadamente aplicable a los diferentes espacios en estudio. Se utilizan varios espacios no métricos con distintas características tanto en el índice de fallo de la desigualdad triangular, como en la capacidad de indexamiento. Adicionalmente, se propone e implementa CP-Index, una técnica de indexamiento aproximado original. Esta técnica hace uso de Clustering y de Pivotes para acelerar las búsquedas en espacios no métricos, sin comprometer significativamente la calidad de la respuesta. CP-Index se adapta dinámicamente a las condiciones del espacio no métrico, usando pivotes cuando la fracción de tríos que rompen la desigualdad triangular es pequeña, pero buscando secuencialmente los candidatos más prometedores cuando el uso de pivotes se vuelve inútil para descartar elementos. Una conclusión importante de esta investigación es que la mayoría de las técnicas que tratan de generar un resultado exacto durante las búsquedas por similitud resultan ser demasiado costosas para los conjuntos de datos utilizados. En su lugar, las técnicas aproximadas tienden a generar un mucho mejor trade-off de trabajo y calidad. Por ejemplo, LCE resulta ser una técnica excesivamente costosa tanto en tiempo de construcción como en tiempo de consulta pues modifica la distancia reduciendo mucho el poder de descarte de los índices tradicionales. Por otro lado, CP-Index obtiene resultados ligeramente superiores a los de DynDex y TriGen, pero con la ventaja de no necesitar exhaustivas pruebas y ajustes para adaptarse a las características del espacio. De este modo, en aquellos espacios en los que DynDex supera a TriGen, CP-Index se comporta igual o mejor que el primero, mientras que en los espacios en los que TriGen funciona mejor, CP-Index también obtiene resultados ligeramente superiores. Sistemas de reconocimiento de modelos Sistemas multimedios Indización Espacios no-métricos CP-Index
12	Ampliación y perfeccionamiento de los métodos cuantitativos y leyes clásicas en recuperación de la información: desarrollo de un sistema de indización y segmentación automática para textos en español Rodríguez Luna, Manuela 29 July 2013 (has links) Se desarrolla e implementa un Sistema de Indización y Segmentación Automática para textos largos en español, contribuyendo a su categorización textual e indización automática. Para su desarrollo, se estudian y perfeccionan los métodos cuantitativos y leyes clásicas en Recuperación de Información, como son los modelos relativos al proceso de repetición de palabras (Zipf, 1949), (Mandelbrot, 1953) y al proceso de creación de vocabulario (Heaps, 1978). Se realiza una crítica de las circunstancias de aplicación de los modelos y se estudia la estabilidad de los parámetros de manera experimental mediante recuentos en textos y sus fragmentos. Se establecen recomendaciones a priori para los valores de sus parámetros, dependiendo de las circunstancias de aplicación y del tipo de texto analizado. Se observa el comportamiento de los parámetros de las fórmulas para vislumbrar una relación directa con la tipología de texto analizado. Se propone un nuevo modelo (Log-%) para la visualización de la distribución de frecuencias de las palabras de un texto. El objetivo final es detectar los cambios temáticos que se producen en un documento, para establecer su estructura temática y obtener la indización automática de cada una de sus partes. De este modo, se obtiene la categorización del texto o documento utilizando la enumeración de sus partes temáticas a modo de niveles o estructura arbórea. Una vez constituidas las partes temáticas del texto en sus niveles correspondientes con los términos indizados, estos se agrupan en bloques distribuidos jerárquicamente según se desglose el documento en cuestión. El bloque inicial describe el contenido global de todo el documento con una cantidad inicial de palabras o descriptores. Seguidamente este bloque inicial se subdivide en varios bloques, los cuales corresponden a distintas partes del documento total, cada uno de estos también contiene una serie de palabras que describe el contenido y así sucesivamente hasta poder formar las div.... / Rodríguez Luna, M. (2013). Ampliación y perfeccionamiento de los métodos cuantitativos y leyes clásicas en recuperación de la información: desarrollo de un sistema de indización y segmentación automática para textos en español [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/31517 / Palancia Métodos cuantitativos Indización Automática Segmentación Automática Métodos estadísticos Métodos probabilísticos Similitud entre palabras Lematización Ley de Zipf Ley de Heaps
13	Avaliação do processo de indexação de assuntos em repositórios institucionais pela abordagem da recuperação da informação / Tartarotti, Roberta Cristina Dal'Evedove January 2019 (has links) Orientador: Mariângela Spotti Lopes Fujita / Resumo: Na contemporaneidade, os repositórios institucionais possibilitam a reunião, armazenamento, tratamento, preservação e visibilidade dos recursos informacionais produzidos no âmbito acadêmico. Considerando-se que o campo da Organização do Conhecimento possui os fundamentos teórico-práticos necessários no que tange aos problemas de representação e recuperação em sistemas de recuperação da informação, a proposição da tese foi investigar/avaliar o processo de indexação de assuntos em repositórios institucionais no contexto de bibliotecas universitárias e sua influência na recuperação da informação pelos usuários, visando o aprimoramento do tratamento/da representação temática da informação documental e da recuperação por assuntos. O objetivo geral da pesquisa foi contribuir para a implementação/melhorias de diretrizes de indexação de assuntos em repositórios institucionais no contexto de bibliotecas universitárias, possibilitando a adequada representação e recuperação por assuntos nestes sistemas de recuperação da informação. Para tanto, foram delineados os seguintes objetivos específicos: a) realizar estudo teórico sobre os repositórios institucionais como sistemas de recuperação da informação e do processo de indexação de assuntos em perspectiva dicotômica: do tratamento/da representação e da recuperação por assuntos no contexto de bibliotecas universitárias; b) investigar o tratamento/a representação temática da informação documental em repositórios institucionais no contexto d... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: In present times, the institutional repositories enable the gathering, storage, treatment, preservation and visibility of information resources produced in the academic field. Considering that the Knowledge Organization field has the necessary theoretical-practical foundations regarding the issues of representation and retrieval in information retrieval systems, the proposition of the thesis was to investigate/evaluate the subject indexing process in institutional repositories in the context of academic libraries and its influence on information retrieval by users, aiming at improving the treatment/thematic representation of documentary information and subject retrieval. The general objective of the research was to contribute to the implementation / improvement of subject index guidelines in institutional repositories in the context of academic libraries, enabling the adequate representation and subject retrieval in information retrieval systems. To this end, the following specific objectives were outlined: a) conducting a theoretical study on institutional repositories as information retrieval systems and the subject index process within in a dichotomous perspective: of the treatment/of the representation and of the subject retrieval in the context of academic libraries; b) investigating the treatment/the thematic representation of documentary information in institutional repositories in the context of academic libraries, by means of the application of organizational diagnos... (Complete abstract click electronic access below) / Resumen: En los tiempos contemporáneos, los repositorios institucionales permiten la recolección, almacenamiento, tratamiento, preservación y visibilidad de los recursos informacionales producidos en el campo académico. Considerando que el campo de la Organización del Conocimiento presenta los fundamentos teórico-prácticos necesarios en cuanto a los problemas de representación y recuperación en los sistemas de recuperación de información, la propuesta de la tesis fue investigar/evaluar el proceso de indización por materias en repositorios institucionales y su influencia en la recuperación de información por los usuarios, pretendiendo el perfeccionamiento del tratamiento temático de la información documental y de la recuperación por materias en estos sistemas de recuperación tanto en el contexto de bibliotecas universitarias como en el ámbito académico. El objetivo general de la investigación fue contribuir a la implementación/mejoras de directrices de indización por materias en repositorios institucionales en el contexto de bibliotecas universitarias, posibilitando la adecuada representación y recuperación por materias en estos sistemas de recuperación de información. Para ello, fueron delineados los seguientes objetivos específicos: a) realizar un estudio teórico sobre el proceso de indización por materias desde la perspectiva de la Organización del Conocimiento en perspectiva dicotómica: del tratamiento/de la representación y de la recuperación por materias en el contexto de bibliot... (Resumen completo clicar acceso eletrônico abajo) / Doutor Indexação de assuntos Recuperação por assuntos Avaliação da indexação de assuntos Repositórios institucionais. Bibliotecas universitárias. Subject indexing Subject retrieval Subject indexing evaluation Institutional repositories University libraries Indización por materias Recuperación por materias Repositorios institucionales Bibliotecas universitárias.
14	Estudo de vocabulário controlado na indexação automática : aplicação no processo de indexação do Sistema de Indización Semiautomática (SISA) / Narukawa, Cristina Miyuki. January 2011 (has links) Resumo: A indexação automática é um processo complexo e delegar a atividade de atribuição de termos aos sistemas automáticos requer análise, tanto dos métodos, quanto das características dos instrumentos de indexação. Desse modo, propomos investigar a atuação de vocabulário controlado neste processo a partir da análise dos resultados de aplicação do vocabulário ThesAgro no Sistema de Indización SemiAutomatica (SISA), com objetivos de identificar as características que definem e distinguem os tipos de vocabulários; analisar propostas metodológicas e sistemas de indexação; aplicar o ThesAgro no sistema SISA em análise comparativa com a indexação manual da Biblioteca Nacional de Agricultura (BINAGRI), e analisar os fatores intervenientes que apontam os problemas ocasionados à indexação automática. De modo geral, buscamos contribuir com o desenvolvimento do tema ao levantar subsídios para adaptação de vocabulários controlados. Realizamos uma revisão teórica sobre sistemas de indexação automática e um experimento aplicando o ThesAgro no sistema SISA com 100 artigos da área agrícola, especificamente sobre fruticultura. Utilizamos, como parâmetro de avaliação, a indexação manual realizada pela BINAGRI e análise comparativa com os resultados de pesquisa anterior em que se avaliou o desempenho do vocabulário Descritores em Ciências da Saúde (DeCS) no referido sistema. A partir da análise dos resultados constatamos que o vocabulário condiciona os resultados do processo de indexação automática e, portanto, é necessário compreendê-lo, considerando os métodos de identificação das unidades representativas da informação, aplicação de tratamento linguístico, características da área do conhecimento, relações semânticas, idioma, atualização, uso de vocabulários... (Resumo completo, clicara acesso eletrônico abaixo) / Abstract: Automatic indexing is a complex process, and delegating the attribution of terms to automatic systems requires analyzing not only the methods, but also the features of indexing instruments. Thereby, we propose to investigate the role of controlled vocabulary in such process, based on the analysis of results from the application of ThesAgro vocabulary in the Semi-Automatic Indexing System (SISA - Sistema de Indización SemiAutomatica -), with the purposes of identifying the characteristics which define and distinguish the types of vocabularies; analyzing methodological proposals and indexing systems; applying the ThesAgro in the SISA, making a comparative analysis related to the manual indexing by the National Library of Agriculture (BINAGRI - Biblioteca Nacional de Agricultura), and analyzing the intervening factors pointing to the occurrence of problems concerning automatic indexing. As a general matter, we seek to contribute to the development of this theme by raising subsidies for adapting controlled vocabularies. We have performed a theoretical review on automatic indexing systems, and an experiment applying the ThesAgro in the SISA, with 100 articles on agriculture , specifically about fruit production. The manual indexing performed by BINAGRI and the comparative analysis with the results from a previous research, which evaluated the performance of the vocabulary from the Health Sciences Descriptors (DeCS - Descritores em Ciências da Saúde) in the before mentioned system, have served as the evaluation parameter. The analysis of results allows us to conclude that the vocabulary conditions the results of the automatic indexing process. Thus, it is necessary to understand it, considering the identification methods of the information representative units, application of linguistic treatment, features of the... (Complete abstract click electronic access below) / Orientador: Mariângela Spotti Lopes Fujita / Coorientador: Isidoro Gil Leiva / Banca: Renato Rocha Souza / Banca: José Augusto Chaves Guimarães / Mestre Ciência da informação. Indexação automática. Automatic indexing. eng Controlled vocabulary. eng Automatic Indexing Systems. eng

Page generated in 0.044 seconds