Global ETD Search

1	Investigando y recolectando información de repositorios académicos y redes sociales Huaroto, Libio 19 June 2021 (has links) Presentación que aborda aspectos sobre los procesos de recoleccipon de información a través de recolectores de información, asi como recursos de información sobre la base de esta recolección. Acceso abierto Repositorios Recolectores Buscadores de información
2	Servicios de cache distribuidos para motores de búsqueda web Gómez Pantoja, Carlos January 2014 (has links) Doctor en Ciencias, Mención Computación / Los Motores de Búsqueda Web (WSEs) actuales están formados por cientos de nodos de procesamiento, los cuales están particionados en grupos llamados servicios. Cada servicio lleva a cabo una función específica, entre los que se destacan: (i) Servicio de Front-End; (ii) Servicio de Cache; y (iii) Servicio de Índice. Específicamente, el Servicio de Front-End maneja las consultas de usuario que arriban al WSE, las distribuye entre los otros servicios, espera por los resultados y genera la respuesta final al usuario. La idea clave del Servicio de Cache es reutilizar resultados previamente computados a consultas hechas en el pasado, lo cual reduce la utilización de recursos y las latencias asociadas. Finalmente, el Servicio de Índice utiliza un índice invertido para obtener de manera eficiente los identificadores de documentos que mejor responden la consulta. El presente trabajo de tesis se focaliza en el diseño e implementación de servicios de cache distribuidos eficientes. Varios aspectos del sistema y el tráfico de consultas deben ser considerados en el diseño de servicios de cache eficientes: (i) distribuciones sesgadas de las consultas de usuario; (ii) nodos que entran y salen de los servicios (de una forma planificada o súbitamente); y (iii) la aparición de consultas en ráfaga. Cualquiera de estos tópicos es un problema importante, ya que (i) genera una asignación de carga desbalanceada entre los nodos; el tópico (ii) impacta en el servicio cuando no se utilizan mecanismos de balance de carga dinámicos, empeorando la asignación desbalanceada de carga y perdiendo información importante ante fallas; y finalmente (iii) puede congestionar o dejar fuera de servicio algunos nodos debido al abrupto incremento en el tráfico experimentado, incluso si se tiene un servicio balanceado. Dada la arquitectura que se emplea en este trabajo, el Servicio de Cache es el más expuesto a los problemas mencionados, poniendo en riesgo la tasa de hit de este servicio clave y el tiempo de respuesta del WSE. Este trabajo ataca los problemas mencionados anteriormente proponiendo mejoras arquitecturales, tales como un enfoque de balance de carga dinámico para servicios de cache altamente acoplados (desplegados en clusters) basados en Consistent Hashing, y un esquema para monitoreo y distribución de consultas frecuentes. El mecanismo de balance de carga propuesto es una nueva solución al problema de balance de carga en clusters de computadores que corren aplicaciones manejadas por los datos (data-driven). Además, se estudia cómo predecir la aparición de consultas en ráfaga para tomar acciones correctivas antes de que saturen o colapsen algunos nodos. Finalmente, se adopta la idea de un sistema tolerante a fallas para proteger información valiosa obtenida a través del tiempo. La idea fundamental es replicar algunas entradas de cache entre distintos nodos para que sean usados en caso de fallas. Buscadores de internet Protocolos de redes de computadores Cache distribuídos WSEs
3	Comparación entre índice invertido y Wavelet Tree como máquinas de búsqueda González Cornejo, Senén Andrés January 2009 (has links) Las máquinas de búsqueda para la Web utilizan el índice invertido como estructura de datos que permite acelerar las búsquedas en grandes colecciones de texto. Para lograr tiempos de respuesta por consulta menores al medio segundo, tanto el índice como la colección de texto se particionan en dos grupos de máquinas distintos. Cada consulta se envía al primer grupo, las cuales responden con los documentos más relevantes para esa consulta. Desde estos resultados se seleccionan los documentos más relevantes en forma global. Dichos documentos se envían al segundo grupo de máquinas las cuales extraen de la colección de texto el resumen (o snippet) asociado a cada documento en el resultado y construyen la página Web final a ser presentada al usuario como respuesta a su consulta. En este trabajo de memoria se propone un método alternativo de procesamiento de consultas, el cual ocupa un solo grupo de máquinas para realizar ambas operaciones, es decir, en un solo grupo de máquinas se realiza la determinación de los mejores documentos y la construcción de la página Web de respuesta. Para esto se recurre al uso de estrategias de texto comprimido auto-indexado y memoria cache diseñada para mantener las listas invertidas de los términos más frecuentes en las consultas. El texto comprimido auto-indexado se utiliza para generar de manera on-line las listas invertidas y para generar el resumen asociado a cada documento en la respuesta a una consulta. Los resultados experimentales muestran que en el mismo espacio ocupado por el índice invertido estándar es posible ubicar la memoria cache de listas invertidas y el texto comprimido, y alcanzar la misma tasa de respuestas por unidad de tiempo que se logra con el índice invertido. La ventaja está en que en el nuevo esquema no es necesario el uso del segundo grupo de máquinas, y por lo tanto se logra un mejor uso de los recursos de hardware, lo cual es relevante para la operación económica de los grandes centros de datos para máquinas de búsqueda. Computación Buscadores de internet Recuperación de información
4	Propuesta y Desarrollo de un Sistema de Recuperación de la Información Basado en Reglas de Negocios y Perfiles del Usuario Bonilla Dávila, Diego José January 2010 (has links) No autorizado por el autor para ser publicada a texto completo / Los Sistemas de Información tradicionales generan muchas incertidumbres al minuto de realizar búsquedas en un ambiente de negocio. Esto es producto que la principal características de dicha información es que la componen documentos que poseen un diccionario de palabras pequeño, acotado al negocio y de un tamaño reducido, que apunta a entregar una información específica. En esta tesis abordamos el diseño y desarrollo de un buscador que utiliza las variables relevantes del negocio para pesar los documentos que recupera. Con este proyecto se logró obtener un Sistema de Recuperación de la Información que valoriza los documentos por las variables de las reglas de negocio y por variables del usuario del Sistema, diseñado en un sistema parametrizable, permitiendo la adaptación a distintos negocios y distintos tipos de documentos. Las pruebas de usuario comprueban que el buscador posee un rendimiento similar a otros al momento de recuperar documentos relevantes, pero utilizando variables del documento propios del negocio. Este logro es fundamental, ya que no sólo sabemos que los resultados poseen contenidos relevantes para el usuario, sino que también poseen una relevancia en las operaciones que la empresa realiza. Computación Administración de bases de datos Buscadores
5	O direito ao esquecimento na era digital: desafios da regulação da desvinculação de urls prejudiciais a pessoas naturais nos índices de pesquisa dos buscadores horizontais Gonçalves, Luciana Helena 15 April 2016 (has links) Submitted by Luciana Helena Gonçalves (lucianahgoncalves@gmail.com) on 2016-05-13T17:12:59Z No. of bitstreams: 1 Dissertacao_Luciana_Goncalves_versão_final.pdf: 882706 bytes, checksum: a06c2632cc87e1f0188267ebc95be19f (MD5) / Rejected by Letícia Monteiro de Souza (leticia.dsouza@fgv.br), reason: Prezada Luciana, Seu trabalho não segue as normas ABNT. Favor verificar dissertações de seus colegas na biblioteca digital para a comparação. Atenciosamente, Letícia Monteiro 3799-3631 on 2016-05-13T17:20:41Z (GMT) / Submitted by Luciana Helena Gonçalves (lucianahgoncalves@gmail.com) on 2016-05-15T20:47:10Z No. of bitstreams: 1 Dissertacao_Luciana_Goncalves_final..pdf: 880344 bytes, checksum: 78bced6f00281444c0a2eee60600136e (MD5) / Approved for entry into archive by Letícia Monteiro de Souza (leticia.dsouza@fgv.br) on 2016-05-16T12:31:45Z (GMT) No. of bitstreams: 1 Dissertacao_Luciana_Goncalves_final..pdf: 880344 bytes, checksum: 78bced6f00281444c0a2eee60600136e (MD5) / Made available in DSpace on 2016-05-16T12:43:58Z (GMT). No. of bitstreams: 1 Dissertacao_Luciana_Goncalves_final..pdf: 880344 bytes, checksum: 78bced6f00281444c0a2eee60600136e (MD5) Previous issue date: 2016-04-15 / In the 'Recurso Especial' regarding to the petition filed with the court by the broadcasting presenter, Xuxa Meneghel, in order to compel Google Search to delist the results related to the expression 'Xuxa pedophile' or to any other term which would link her name to this criminal act from its search engine index, the Reporting Judge of this decision, Nancy Andrighi, has defined accurately the controversy of this dissertation: the daily life of thousands of people depends nowadays on the information which is on the web, and that would be not easily found without the use of the database provided by search engines. On the other hand, these search engines can be used to locate web pages with information, URLs which are results of the search under people’s names. In this way, what can be done? A right to be forgotten, in other words, the possibility of requiring the delisting of an URL from the search engine’s index which is a result of a search using the name of a person could really exist? There are people who affirm that the most appropriate measure to deal with this problem would be to reach out to the person who uploaded the content on the web. There are also people who defend that a right to be forgotten protection would represent a big threat to the freedom of expression. Before this context, this dissertation aims at establishing which could be the characteristics and limits of the right to be forgotten in the digital era, by taking into account the current condition of the Brazilian legal system in respect of this topic. In this way, this right will be confronted with other rights and public and private interests (specially the right to freedom of expression and the right to information) and also consider the characteristics of the operation of the global computer network. By remembering of the importance of the electronic search engines in the exercise of the access to information and, moreover, the difficulties which are related to the delisting of the information from all the sites in which it had been published, our dissertation will focus on the potential – and on the difficulties – of using the regulation of these mechanisms of search for the effective protection of the right to be forgotten in the digital era. / No julgamento do recurso especial referente à ação ajuizada pela apresentadora Xuxa Meneghel para compelir o Google Search a desvincular dos seus índices de busca os resultados relativos à pesquisa sobre a expressão 'Xuxa pedófila' ou qualquer outra que associasse o nome da autora a esta prática criminosa, a relatora da decisão, a Ministra Nancy Andrighi, definiu de maneira clara a controvérsia de que cuida este trabalho: o cotidiano de milhares de pessoas depende atualmente de informações que estão na web, e que dificilmente seriam encontradas sem a utilização das ferramentas de pesquisas oferecidas pelos sites de busca. Por outro lado, esses mesmos buscadores horizontais podem ser usados para a localização de páginas com informações, URLs prejudiciais resultantes da busca com o nome das pessoas. Diante disso, o que fazer? Existiria realmente um direito de ser esquecido, isto é, de ter uma URL resultante de uma pesquisa sobre o nome de uma pessoa desvinculado do índice de pesquisa do buscador horizontal? Há quem afirme que a medida mais apropriada para lidar com esse problema seria ir atrás do terceiro que publicou essa informação originariamente na web. Há também quem defenda que a proteção de um direito de ser esquecido representaria uma ameaça grande demais para a liberdade de expressão e de informação. Diante deste quadro, esta dissertação visa a estabelecer quais podem ser as características e os limites do direito ao esquecimento na era digital, de acordo com o estado atual da legislação brasileira a respeito, confrontando-se tal direito com outros direitos e interesses públicos e privados (especialmente o direito à liberdade de expressão e à informação) e levando em conta as características de funcionamento da própria rede mundial de computadores, em especial das ferramentas de buscas. Tendo em vista a importância dos buscadores horizontais no exercício do acesso à informação e, além disso, as dificuldades relacionadas à retirada de URLs de todos os sítios em que tenham sido publicadas, nossa pesquisa focará no potencial – e nas dificuldades – de se empregar a regulação de tais ferramentas de busca para a proteção eficaz do direito ao esquecimento na era digital. Direito ao esquecimento na era digital Direito à informação Buscadores horizontais Direito Direito à privacidade - Brasil Ferramentas de busca na Web Liberdade de informação
6	Diseño e Implementación de un Metabuscador de Párrafos para la Recuperación de Documentos Similares en la Web Bravo Márquez, Felipe January 2010 (has links) La recuperación de documentos similares a un documento dado en la Web, es un problema no resuelto por los motores de búsqueda tradicionales. Esto se debe, a que los motores de búsqueda están pensados para resolver necesidades de información de usuarios basadas en conjuntos pequeños de términos clave. En este trabajo, se define el problema de recuperación de documentos similares como el proceso en que un usuario ingresa un párrafo a un sistema de información y éste le retorna los documentos con mayor similitud a éste en la Web. Los documentos recuperados son rankeados por medio de una métrica de similitud estimada por el sistema. La resolución del problema, podría ser utilizado en contextos como la detección de plagio, el análisis de impacto de documentos en la Web y la recuperación de ideas similares. Se propone una metodología basada en modelos de lenguaje generativos y metabuscadores. Los modelos de lenguaje son utilizados como generadores de consultas aleatorizadas sobre el texto del documento entregado, donde se propone un modelo que extrae términos relevantes sin reposición llamado Modelo de Lenguaje Hipergeométrico. El conjunto de consultas generado intenta ser una representación de la información relevante del documento. Posteriormente, cada consulta es enviada como entrada a una lista de motores de búsqueda de la Web. Para luego combinar los resultados de cada búsqueda en una única respuesta. A este proceso se le conoce como metabúsqueda. Finalmente, los resultados son ordenados por relevancia y presentados al usuario. Para estimar la relevancia entre el documento de entrada y los documentos encontrados se propone una función de scoring basada en la ley de Zipf, la cual considera los rankings locales de aparición de cada resultado, la confianza en los motores de búsqueda utilizados y la cantidad instancias de búsqueda en que éstos son recuperados. Se definen los requerimientos de software junto a un análisis preliminar de las características de éste donde se define una arquitectura basada en capas. La capa de aplicación de la herramienta es diseñada acorde a una arquitectura orientada a servicios, de manera que pueda interoperar con otros sistemas. La herramienta se diseña en base al paradigma de orientación a objetos y el uso patrones de diseño conocidos. Esto se realiza para permitir la mantenibilidad y extensibilidad del modelo al uso de diversas estrategias para la generación de consultas, rankeo de resultados y para permitir al metabuscador hacer uso de diversos motores de búsqueda externos. La capa de interfaz se diseña como una interfaz Web donde el usuario ingresa el párrafo dentro de un cuadro de texto, permitiéndole a éste además, evaluar la calidad de los resultados entregados. Los resultados son registrados dentro de la capa de datos, para poder evaluar continuamente la calidad predictiva del modelo al adaptar sus parámetros al conocimiento entregado por los usuarios. Una vez implementada la herramienta, se realiza una serie de experimentos basados en métricas de recuperación de información para evaluar la calidad del modelo en la herramienta implementada. Se obtiene una precisión de 0.87 para los primeros resultados recuperados al evaluar la relevancia de 2400 documentos recuperados sobre una muestra de 160 párrafos entregados como entrada al sistema. Además, se valida que la combinación de varios motores de búsquedas mejora la precisión del modelo, al ampliar la cobertura de la Web. Finalmente, se evalúan la calidad del diseño y la implementación del software. Para el caso del diseño de software la evaluación se realiza en base a métricas de orientación a objetos, y para el caso de la implementación se evalúan la funcionalidad y el rendimiento en base a casos de pruebas. En ambos casos, los resultados obtenidos comprueban la extensibilidad y mantenibilidad del diseño junto al cumplimiento de los requerimientos funcionales y no funcionales establecidos. Ingeniería Computación Recuperación de información Buscadores de internet Metabuscadores ZIPF
7	Especificación de un sistema de aprendizaje de patrones de navegación web utilizando gramáticas libres de contexto probabilísticas de hipertexto Cortez Vasquéz, Augusto Parcemón, Cortez Vasquéz, Augusto Parcemón January 2016 (has links) Publicación a texto completo no autorizada por el autor / Presenta los fundamentos metodológicos del uso de lenguajes probabilistas para identificar sitios web más relevantes o visitados. Representa las sesiones web mediante grafos y gramáticas libres de contexto probabilísticos, de tal forma que las sesiones que tengan mayor probabilidad son consideradas las más visitadas o más preferidas, por tanto las más relevantes en relación a un tópico determinado. Realiza la especificación de una herramienta para el procesamiento de sesiones web obtenidas a partir del log de servidor representado mediante gramáticas probabilistas libres de contexto. / Tesis Lingüística computacional Procesamiento del lenguaje natural Páginas Web Buscadores en sitios Web
8	DoLaw: buscador semántico especializado para la legislación peruana de tecnologías de información Otoya Paz, Diego Augusto January 2019 (has links) Desarrolla un programa especializado en la búsqueda de documentos en legislación peruana de tecnología de información, a través de la interpretación semántica de las palabras clave que el usuario final introduce. La finalidad es realizar una búsqueda en el contenido completo de dichos documentos, con elementos funcionales personalizados para la legislación peruana de tecnología de información, diseñados para facilitar la búsqueda al brindar funcionalidades adicionales específicas para dicha legislación. Durante el proyecto se definen distintos procesos; análisis de las consultas del usuario, análisis del contenido de la legislación, indexación, generación de consultas ponderadas por prioridad, ordenamiento de resultados obtenidos, entre otros, con el fin de satisfacer las necesidades de los usuarios, sin afectar la precisión y exhaustividad de los resultado. / Tesis Desarrollo de sitios Web Buscadores en sitios Web Motores de búsqueda Ingeniería de Sistemas y Comunicaciones
9	Arte transmídia na era digital / - Gabriel, Martha Carrer Cruz 28 September 2012 (has links) Esta tese reflete sobre um processo específico: a transmídia e seu potencial de criar novas possibilidades interativas e artísticas apropriando-se dos ambientes digitais. A disseminação tecnológica no cotidiano das pessoas nas últimas décadas alavanca uma proliferação e diversidade de mídias que propiciam um ambiente fértil para desenvolvimento de processos transmidiáticos. Apesar de a transmídia não ser um fenômeno novo, as novas possibilidades que o ambiente digital hiperconectado e rico em novas mídias e interfaces traz são inúmeras, não apenas nas áreas das artes, mas também em quaisquer áreas que envolvam comunicação, informação e interação. Novos modos de interação trazem consigo novas possibilidades, tanto quanto novos desafios. O foco deste trabalho é o contexto atual transmidiático e as oportunidades e desafios emergentes de seu uso. O escopo compreende também a apresentação e análise de algumas obras de arte que se beneficiaram do uso da transmídia como processo fundamental para seu desenvolvimento, razão pela qual não seriam possíveis em outro cenário que não o transmidiático atual. Foram desenvolvidos pela autora quatro trabalhos de arte como experimentação transmídia que refletem os resultados obtidos. / This thesis reflects about a particular process: the transmedia and its potential to create new interactive and artistic possibilities that appropriate from the digital environments. The technological dissemination in people\'s daily lives in the past decades leverages a media proliferation and diversification that propitiate a fertile environment for the development of transmedia processes. Although transmedia is not a new phenomenon, the new possibilities that the actual digital environment provide -- hiper-connected and rich in new media and interfaces -- are countless, not only in the field of Arts, but also in any other areas related to communication, information and interaction. New interactive modes bring with themselves new possibilities as much as new challenges. The focus of this work is the emergent transmedia context and the opportunities and challenges that rise from its use. The scope here also involves the presentation and analysis of some artworks that take advantage from the use of transmedia as a fundamental process to their development, not being able to exist in any other scenario than the present one. It was developed by the author four artworks as transmedia experimentation that reflect the achieved results. Buscadores Convergence Convergência Mobile Mobile Redes Sociais Search Engines Social Media Transmedia Transmídia
10	[en] CRAWLING THE LINKED DATA CLOUD / [pt] COLETA DE DADOS INTERLIGADOS RAPHAEL DO VALE AMARAL GOMES 26 April 2016 (has links) [pt] As melhores práticas de dados interligados recomendam que se utilizem ontologias bem conhecidas de modo a facilitar a ligação entre um novo conjunto de triplas RDF (ou, abreviadamente, tripleset) e os já existentes. Entretanto, ambas as tarefas apresentam dificuldades. Esta tese apresenta frameworks para criação de buscadores de metadados que ajudam na seleção de ontologias e na escolha de triplesets que podem ser usados, respectivamente, nos processos de publicação e interligação de triplesets. Resumidamente, o administrador de um novo tripleset deve inicialmente definir um conjunto de termos que descrevam o domínio de interesse do tripleset. Um buscador de metadados, construído segundo os frameworks apresentados na tese, irá localizar, nos vocabulários dos triplesets existentes, aqueles que possuem relação direta ou indireta com os termos definidos pelo administrador. O buscador retornará então uma lista de ontologias que podem ser utilizadas para o domínio, bem como uma lista dos triplesets relacionados. O buscador tem então como foco os metadados dos triplesets, incluindo informações de subclasse, e a sua saída retorna somente metadados, justificando assim chama-lo de buscador focado em metadados . / [en] The Linked Data best practices recommend to publish a new tripleset using well-known ontologies and to interlink the new tripleset with other triplesets. However, both are difficult tasks. This thesis describes frameworks for metadata crawlers that help selecting the ontologies and triplesets to be used, respectively, in the publication and the interlinking processes. Briefly, the publisher of a new tripleset first selects a set of terms that describe the application domain of interest. Then, he submits the set of terms to a metadata crawler, constructed using one of the frameworks described in the thesis, that searches for triplesets which vocabularies include terms direct or transitively related to those in the initial set of terms. The crawler returns a list of ontologies that are used for publishing the new tripleset, as well as a list of triplesets with which the new tripleset can be interlinked. Hence, the crawler focuses on specific metadata properties, including subclass of, and returns only metadata, which justifies the classification metadata focused crawler. [pt] LINKED DATA [en] LINKED DATA [pt] BUSCADORES FOCADOS [pt] RECOMENDACAO DE TRIPLESETS

Search results