Global ETD Search

1	Consultas sobre espacios métricos en paralelo Gil Costa, Graciela Verónica January 2011 (has links) El trabajo desarrollado en esta tesis tuvo como objetivo el diseño, implementación y evaluación de un índice distribuido para objetos en espacios métricos y su respectiva estrategia de procesamiento paralelo de consultas para máquinas de búsqueda. / Tesis doctoral de la Facultad de Ciencias Físicomatemáticas y Naturales (Universidad Nacional de San Luis). Grado alcanzado: Doctor en Ciencias de la Computación. Director de tesis: Martín Mauricio; co-director: Marcela Printista. Ciencias Informáticas Algoritmos
2	Extracción de Términos Categorizados a Través de un Servicio Web Serpell Carriquiry, Cristián Felipe January 2008 (has links) El tema del acceso a la información es de especial interés dado el contexto actual de la web 2.0, donde se generan grandes volúmenes de información por parte de muchos usuarios. Es deseable categorizar y priorizar la información disponible para mejorar el acceso a ella. Para esto se han creado variadas interfaces basadas en términos que la caracterizan. El trabajo consistió en el estudio de herramientas computacionales para extraer términos o palabras clave categorizados a partir de un texto en español, el diseño y construcción de un sistema que realice dicha acción y finalmente el diseño de una aplicación tipo servicio web que sirva para construir una interfaz que facilite el acceso a un conjunto de documentos a partir de los términos extraídos. Para la realización de este trabajo, el alumno estudió herramientas existentes de minería de texto y extracción de información, de acuerdo a los requerimientos del sistema que extrae términos categorizados. Esto incluye distintos modelos y algoritmos estudiados a nivel teórico, además de implementaciones de los algoritmos elegidos. Se eligió el modelo de campos aleatorios condicionales como la base de la extracción de términos, y se estudiaron las distintas características del texto relevantes para dicho modelo. Gracias a una serie de experimentos, se concluyó que la aplicación tipo servicio web propuesta cumple con los objetivos de generar una interfaz útil para el acceso a distintas colecciones de documentos, categorizados según nombres de personas. Se comprobó que la aplicación resulta efectiva incluso para colecciones de contenido profundamente distinto. Además, es suficientemente extensible como para ser aplicada en el futuro a otro tipo de categorías, como lugares, instituciones u otra, permitiendo tener más dimensiones para explorar los documentos. Computación Indexación Extracción de información Minería de texto Interfaz Etiquetado
3	Indexación Comprimida de Imágenes Valenzuela Serra, Daniel Alejandro January 2009 (has links) No autorizada por el autor para ser publicada a texto completo / El continuo aumento de los volúmenes de información almacenada digitalmente ha fomentado el desarrollo de técnicas para brindar acceso y búsqueda de manera eficiente a los datos. En particular, el manejo de grandes colecciones de imágenes es un problema de gran interés. Un enfoque es tratar las imágenes como secuencias de texto bidimensional. En este contexto, han sido planteadas recientemente dos estructuras de autoindexación para colecciones de imágenes, basadas en extender autoíndices de texto unidimensional. Estas estructuras almacenan la colección en espacio proporcional al requerido para almacenar la colección comprimida, permitiendo a la vez el acceso directo a cualquier parte de la colección y la búsqueda eficiente de patrones en ella. Dos tipos de autoíndices para secuencias de texto son el Arreglo de Sufijos Comprimido y el Índice FM, y en ellos se basan las soluciones para imágenes. Este trabajo se centra en la implementación de esos dos autoíndices para imágenes. Se implementaron distintas variantes para ambas estructuras buscando la mejor manera de adaptarlas a secuencias bidimensionales, y mejorando significativamente varios de los algoritmos originales. Finalmente se diseñaron y ejecutaron experimentos para comparar las distintas variantes de ambos índices, tanto en términos de espacio requerido por las estructuras, como de tiempo en responder las consultas de acceso y búsqueda de patrones. Las estructuras basadas en el Arreglo de Sufijos Comprimido resultaron mejores en cuanto a tiempo, mientras que aquellas basadas en el Índice FM resultaron mejores en términos de espacio requerido, cuando el rango de colores es pequeño. Por ejemplo, con el Arreglo de Sufijos Comprimido somos capaces de almacenar una colección utilizando un 80% del espacio que requeriría la representación plana, pudiendo dar acceso a cualquier subimagen a una velocidad aproximada de 1 megapixel por segundo. Con esta estructura somos capaces de contar las ocurrencias de un patrón a una velocidad aproximada de 0,5 megapixeles por segundo, y podemos localizar la posición de cada ocurrencia en menos de 0,1 milisegundo. Sobre colecciones con un rango de color más pequeño, utilizando el Índice FM podemos alcanzar niveles de compresión del 50 %, pudiendo llegar al 25% si aceptamos pérdida de información. Con esta estructura podemos acceder a cualquier subimagen y realizar la búsqueda de patrones a una velocidad de 0,1 megapixel por segundo. Computación Indexación Estructuras de datos Ciencia de la computación Algoritmos computacionales Imágenes
4	Implementación de una Red Semántica de Archivos Muñoz Zolotoochin, Juan Enrique January 2011 (has links) El almacenamiento de contenido en nuestro computador es ineficaz. Frente al problema de encontrar un cierto contenido en el disco duro estamos obligados a recordar nombres de archivos, extensiones y carpetas, los cuales distan mucho de reflejar el verdadero contenido que hay en cada uno de ellos. Una indexación efectiva no solo debe permitir el uso de metadatos altamente específicos al tipo de contenido que se está almacenando, sino también reducir la ambigüedad de conceptos y explicitar las relaciones entre los elementos indexados. En esta memoria de título se propone un sistema de indexación semántica de archivos basado en RDF, aprovechando la flexibilidad de esta forma de representación de metadatos para construir un índice colaborativo de acceso público. Cada archivo es indexado mediante un identificador que se construye a partir de una función de hashing sobre él mismo, el cual es a la vez la URL donde se despliegan la información del contenido y sus relaciones con otros archivos. Se le da especial énfasis a la accesibilidad de la información, contando con interfaces de usuario gráficas así como programáticas para el despliegue y captura de datos. Durante el desarrollo de esta memoria se encontraron muchos obstáculos, los cuales radican principalmente en la baja adopción de tecnologíias de la Web Semántica sobre las cuales se basa el prototipo implementado. De igual importancia que el sistema de indexación antes mencionado, son los documentos y las herramientas que se desarrollaron en el camino para superar estas dificultades. Se buscó ampliamente que el proyecto realizado sirva como una instancia educativa, no solo para el autor de esta memoria de título, sino para todos quienes se interesen en estas áreas de desarrollo. Todas las herramientas desarrolladas se liberaron de forma abierta bajo licencia MIT. Ciencias de los materiales Web semántica Indexación de archivos
5	Recuperación de información en ficheros XES de gran dimensión mediante técnicas de indexación Aponte Báez, Yosvanys 19 January 2016 (has links) No description available. Indexación XML XES Minería de procesos Hadoop Lenguajes y Sistemas Informáticos
6	Indexación de revistas científicas y la publicación de artículos Huaroto, Libio 11 November 2019 (has links) Ponencia que describe los procesos para indexación de revistas científicas y sugerencias para publicar artículos en revistas indexadas. Indexación de revistas Publicaciones científicas Acceso abierto Pre print server SCOPUS web of Science
7	Procesamiento paralelo y distribuido aplicado al almacenamiento y recuperación de información documental Zorrilla Pantaleón, Marta Elena 20 December 2001 (has links) Para la consecución del objetivo propuesto, se ha trabajado con redes neuronales con función de base radial, perceptrones multicapa y con métodos constructivos como Cascade Correlation. Los resultados obtenidos con estas arquitecturas no han sido positivos, pues, o bien fracasaban en el ajuste, o bien, la memoria requerida era muy superior a su alternativa con Índices Inversos.Por este motivo, se ha propuesto una nueva arquitectura, la de red Hiperbandas, cuyas características más relevantes se pueden resumir en que se trata de una red que se construye ex profeso para clasificar un conjunto de datos de entrada sin interacción del usuario, con error cero y adecuada para situaciones donde los patrones de entrada se agrupan formando clases que pueden estar solapadas. Para verificar las prestaciones de esta nueva arquitectura, se han realizado comparaciones con el sistema usual basado en la técnica de Índices Inversos implementado mediante un B-Tree simple. Para llevar a cabo este análisis, se han examinado los parámetros que se utilizan generalmente para evaluar el rendimiento de un DRS, estos son: el tiempo de indexación, el espacio de almacenamiento requerido, la eficiencia de búsqueda y la efectividad de la consulta. Indexación documental Redes neuronales artificiales Recuperación de información 004
8	Combinado Indexación y Compresión en Texto Semi-Estructurado Sologuren Gutiérrez, Felipe Leopoldo January 2009 (has links) El almacenamiento digital de la información debe abordar tanto el problema de la incorporación de datos al sistema como su recuperación, y debe hacer un catálogo acorde con las consultas que sobre ellos quiera hacerse. El espacio ocupado para el almacenamiento y el tiempo necesario para ingresar la información, y para recuperala, depende directamente de la estructura utilizada en el repositorio. De este modo, cuando nos referimos a información que ya cuenta cion un grado de estructuración, la indexación debe ser coherente con la estructuta formal de la misma, para favorecer así la consulta. En el presente estudio se aborda el problema de la compresión estática de información semi-estructurada combinada con una indezación tendiente a soportar uin conjunto de consultas sobre los datos, con un fuerte énfasis en el almacenamiento en memoria secundaria. El ámbito de desarrollo de la aplicación propuesta se enmarca dentro de la documentación XML y su lenguaje de consulta XQuery. El modelo utilizado en la implementación está basado en la propuestas desarrolladas por Baeza-Yates y Navarro en Proximal Nodes. La implementación corresponde a un desarrollo posterior de un procesador destinado a soportar consultas en el lenguaje XPath desarrollado por Manuel Ortega como memoria de Ingeniería. El desarrollo de la capa de almacenamiento del prototipo actual se enfoca en la resolución de problemas en tres áreas: recuperación del archivo fuente, consulta eficiente sobre la estructura del documento, y búsqueda de texto en lenguaje natural. Las estructuras diseñadas adhieren a técnicas recientes en el área de la compresión y de recuperación de la información en XML. El resultado de esta memoria es un autoíndice XML con gran desempeño en colecciones de tamaño pequeño y mediano, con capacidad de abordar colecciones de gran tamaño con resucesos limitados de memoria principal, y con un gran potencial de adaptación para colecciones en un nuevo contexto dinámico. El prototipo presenta un desempeño altamente competitivo con las alternativas existentes en el estado del arte. Computación Indexación Estructuras compactadas
9	Recuperación de pasajes multilingües para la búsqueda de respuestas Gómez Soriano, José Manuel 07 May 2008 (has links) JAVA Information Retrieval System (JIRS) es un sistema de Recuperación de Información especialmente orientado a tareas de Búsqueda de Respuestas. Los tradicionales motores de búsqueda se basan en las palabras claves de la pregunta para obtener los documentos relevantes a una consulta. JIRS, por el contrario, intenta obtener trozos de texto, es decir pasajes, con mayor probabilidad de contener la respuesta. Para ello realiza una búsqueda basada en los n-gramas de la pregunta -efectuada en lenguaje natural- usando tres posibles modelos. Los modelos de n-gramas desarrollados son independientes del idioma, lo que hace de JIRS un sistema idóneo para trabajar en ambientes multilingües. Por otra parte, JIRS incorpora un potente núcleo que permite una adaptación y escalabilidad sin precedentes en los modernos motores de búsqueda. Desde sus inicios fue diseñado para que fuera una herramienta potente que permitiese adaptarse sin dificultad a muy diferentes funciones. Esto permite ampliar o modificar aspectos de JIRS de forma muy fácil e intuitiva sin que el usuario final tenga que conocer el código desarrollado por otros. Además, permite generar nuevas aplicaciones con una estructura cliente/servidor, distribuida, etc. únicamente modificando el archivo de configuración. Este trabajo presenta el estado del arte de la Recuperación de Información centrándose en la Búsqueda de Respuestas multilingüe, así como una descripción detallada de JIRS junto con sus modelos de búsqueda exponiendo, finalmente, los resultados obtenidos por este sistema en las competiciones del CLEF. / Gómez Soriano, JM. (2007). Recuperación de pasajes multilingües para la búsqueda de respuestas [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1930 Recuperación de información Recuperación de pasajes Extracción de la información Modelo espacio vectorial Documento Término Consulta Pregunta Indexación Fichero invertido LENGUAJES Y SISTEMAS INFORMATICOS 12 - Matemáticas 120317 - Informática 120304 - Inteligencia artificial
10	BERTie Bott’s Every Flavor Labels : A Tasty Guide to Developing a Semantic Role Labeling Model for Galician Bruton, Micaella January 2023 (has links) For the vast majority of languages, Natural Language Processing (NLP) tools are either absent entirely, or leave much to be desired in their final performance. Despite having nearly 4 million speakers, one such low-resource language is Galician. In an effort to expand available NLP resources, this project sought to construct a dataset for Semantic Role Labeling (SRL) and produce a baseline for future research to use in comparisons. SRL is a task which has shown success in amplifying the final output for various NLP systems, including Machine Translation and other interactive language models. This project was successful in that fact and produced 24 SRL models and two SRL datasets; one Galician and one Spanish. mBERT and XLM-R were chosen as the baseline architectures; additional models were first pre-trained on the SRL task in a language other than the target to measure the effects of transfer-learning. Scores are reported on a scale of 0.0-1.0. The best performing Galician SRL model achieved an f1 score of 0.74, introducing a baseline for future Galician SRL systems. The best performing Spanish SRL model achieved an f1 score of 0.83, outperforming the baseline set by the 2009 CoNLL Shared Task by 0.025. A pre-processing method, verbal indexing, was also introduced which allowed for increased performance in the SRL parsing of highly complex sentences; effects were amplified in scenarios where the model was both pre-trained and fine-tuned on datasets utilizing the method, but still visible even when only used during fine-tuning. / För de allra flesta språken saknas språkteknologiska verktyg (NLP) helt, eller för dem de var i finns tillgängliga är dessa verktygs prestanda minst sagt, sämre än medelmåttig. Trots sina nästan 4 miljoner talare, är galiciska ett språk med brist på tillräckliga resurser. I ett försök att utöka tillgängliga NLP-resurser för språket, konstruerades i detta projekt en uppsättning data för så kallat Semantic Role Labeling (SRL) som sedan användes för att utveckla grundläggande SRL-modeller att falla tillbaka på och jämföra med i framtida forskning. SRL är en uppgift som har visat framgång när det gäller att förstärka slutresultatet för olika NLP-system, inklusive maskinöversättning och andra interaktiva språkmodeller. I detta avseende visade detta projekt på framgång och som del av det utvecklades 24 SRL-modeller och två SRL-datauppsåttningar; en galicisk och en spansk. mBERT och XLM-R valdes som baslinjearkitekturer; ytterligare modeller tränades först på en SRL-uppgift på ett språk annat än målspråket för att mäta effekterna av överföringsinlärning (Transfer Learning) Poäng redovisas på en skala från 0.0-1.0. Den galiciska SRL-modellen med bäst prestanda uppnådde ett f1-poäng på 0.74, vilket introducerar en baslinje för framtida galiciska SRL-system. Den bästa spanska SRL-modellen uppnådde ett f1-poäng på 0.83, vilket överträffade baslinjen +0.025 som sattes under CoNLL Shared Task 2009. I detta projekt introduceras även en ny metod för behandling av lingvistisk data, så kallad verbalindexering, som ökade prestandan av mycket komplexa meningar. Denna prestandaökning först märktes ytterligare i de scenarier och är en modell både förtränats och finjusterats på uppsättningar data som behandlats med metoden, men visade även på märkbara förbättringar då en modell endast genomgått finjustering. / Para la gran mayoría de los idiomas, las herramientas de procesamiento del lenguaje natural (NLP) están completamente ausentes o dejan mucho que desear en su desempeño final. A pesar de tener casi 4 millones de hablantes, el gallego continúa siendo un idioma de bajos recursos. En un esfuerzo por expandir los recursos de NLP disponibles, el objetivo de este proyecto fue construir un conjunto de datos para el Etiquetado de Roles Semánticos (SRL) y producir una referencia para que futuras investigaciones puedan utilizar en sus comparaciones. SRL es una tarea que ha tenido éxito en la amplificación del resultado final de varios sistemas NLP, incluida la traducción automática, y otros modelos de lenguaje interactivo. Este proyecto fue exitoso en ese hecho y produjo 24 modelos SRL y dos conjuntos de datos SRL; uno en gallego y otro en español. Se eligieron mBERT y XLM-R como las arquitecturas de referencia; previamente se entrenaron modelos adicionales en la tarea SRL en un idioma distinto al idioma de destino para medir los efectos del aprendizaje por transferencia. Las puntuaciones se informan en una escala de 0.0 a 1.0. El modelo SRL gallego con mejor rendimiento logró una puntuación de f1 de 0.74, introduciendo un objetivo de referencia para los futuros sistemas SRL gallegos. El modelo español de SRL con mejor rendimiento logró una puntuación de f1 de 0.83, superando la línea base establecida por la Tarea Compartida CoNLL de 2009 en 0.025. También se introdujo un método de preprocesamiento, indexación verbal, que permitió un mayor rendimiento en el análisis SRL de oraciones muy complejas; los efectos se amplificaron cuando el modelo primero se entrenó y luego se ajustó con los conjuntos de datos que utilizaban el método, pero los efectos aún fueron visibles incluso cuando se lo utilizó solo durante el ajuste. natural language processing NLP Galician low-resource language low resource language semantic role labeling SRL mBERT XLM-R transfer-learning transfer learning Spanish verbal indexing procesamento de linguaxe natural NLP Galego lingua de recursos limitados etiquetado de papeis semánticos SRL mBERT XLM-R aprendizaxe por transferencia Español indexación verbal språkteknologiska verktyg NLP naturlig språkbehandling galiciska språk med begränsade resurser semantisk rollmärkning SRL mBERT XLM-R överföringsinlärning spanska verbal indexering verbalindexering procesamiento del lenguaje natural NLP Gallego idioma de bajos recursos etiquetado de roles semánticos SRL mBERT XLM-R aprendizaje por transferencia Español indexación verbal

Search results