Global ETD Search

51	Usando bases de dados relacionais para geração semi-automática de ontologias destinadas à extração de dados Vivan, Orlando Miguel January 2003 (has links) Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames". Armazenamento : Dados Recuperacao : Informacao Extracao : Dados Extração semântica Ontologias
52	Modelo de metadados para armazenamento e recuperação de imagens estáticas no formato DICOM Machado, Miriam Schacker January 2002 (has links) Em linhas gerais, este trabalho aborda os temas de armazenamento de grandes volumes de imagens no formato DICOM, e a recuperação das mesmas com base em informações associadas a estas imagens (metadados independentes do conteúdo), informações obtidas na fase da interpretação das imagens (metadados descritivos de conteúdo), ou usando informações visuais que foram anotadas nas imagens ou extraídas das mesmas, por médicos especialistas em imagens médicas (metadados dependentes do conteúdo). Este trabalho foi desenvolvido com o propósito de elaborar uma modelagem conceitual que permita a descrição dos dados relevantes de imagens no formato DICOM, de maneira a facilitar a recuperação das mesmas posteriormente. As classes pertencentes ao modelo conceitual, decorrentes dessa modelagem, viabilizam a documentação de imagens médicas estáticas no formato DICOM. Visando o armazenamento de um grande volume de imagens médicas por um longo período de tempo, e considerando o desenvolvimento de uma solução economicamente viável para as instituições que provêm diagnóstico médico por imagens, o modelo propõe o armazenamento das imagens em um ambiente separado do banco de dados. Portanto, este trabalho apresenta uma solução que gerencia a localização das imagens em mídias on-line, near-line e off-line. Este gerenciamento mantém o banco de dados atualizado quanto à localização atual das imagens, mantém as imagens armazenadas e distribuídas em mídias conforme a disponibilidade dos recursos físicos de armazenamento, e auxilia na recuperação das imagens. Este modelo serviu como base para a implementação de um sistema protótipo que possibilita a descrição e a recuperação de imagens DICOM. Os resultados obtidos através da implementação do sistema protótipo, em termos de armazenamento, recuperação e gerenciamento da localização das imagens nos diferentes ambientes (online, near-line e off-line), são apresentados e discutidos. Informática médica Armazenamento : Imagem Recuperacao : Imagem Recuperação : Informação visual
53	Validação do mecanismo de tolerância a falhas do SGBD InterBase através de injeção de falhas Rodegheri, Paulo Ricardo January 2002 (has links) O presente trabalho explora a aplicação de técnicas de injeção de falhas, que simulam falhas transientes de hardware, para validar o mecanismo de detecção e de recuperação de erros, medir os tempos de indisponibilidade do banco de dados após a ocorrência de uma falha que tenha provocado um FUDVK. Adicionalmente, avalia e valida a ferramenta de injeção de falhas FIDe, utilizada nos experimentos, através de um conjunto significativo de testes de injeção de falhas no ambiente do SGBD. A plataforma experimental consiste de um computador Intel Pentium 550 MHz com 128 MB RAM, do sistema operacional Linux Conectiva kernel versão 2.2.13. O sistema alvo das injeções de falhas é o SGBD centralizado InterBase versão 4.0. As aplicações para a carga de trabalho foram escritas em VFULSWV SQL e executadas dentro de uma sessão chamada LVTO. Para a injeção de falhas foram utilizadas três técnicas distintas: 1) o comando NLOO do sistema operacional; 2) UHVHW geral no equipamento; 3) a ferramenta de injeção de falhas FIDe, desenvolvida no grupo de injeção de falhas do PPGC da UFRGS. Inicialmente são introduzidos e reforçados os conceitos básicos sobre o tema, que serão utilizados no decorrer do trabalho e são necessários para a compreensão deste estudo. Em seguida é apresentada a ferramenta de injeção de falhas Xception e são também analisados alguns experimentos que utilizam ferramentas de injeção de falhas em bancos de dados. Concluída a revisão bibliográfica é apresentada a ferramenta de injeção de falhas – o FIDe, o modelo de falhas adotado, a forma de abordagem, a plataforma de hardware e software, a metodologia e as técnicas utilizadas, a forma de condução dos experimentos realizados e os resultados obtidos com cada uma das técnicas. No total foram realizados 3625 testes de injeções de falhas. Com a primeira técnica foram realizadas 350 execuções, com a segunda técnica foram realizadas 75 execuções e com a terceira técnica 3200 execuções, em 80 testes diferentes. O modelo de falhas proposto para este trabalho refere-se a falhas de crash baseadas em corrupção de memória e registradores, parada de CPU, aborto de transações ou reset geral. Os experimentos foram divididos em três técnicas distintas, visando a maior cobertura possível de erros, e apresentam resultados bastante diferenciados. Os experimentos com o comando NLOO praticamente não afetaram o ambiente do banco de dados. Pequeno número de injeção de falhas com o FIDe afetaram significativamente a dependabilidade do SGBD e os experimentos com a técnica de UHVHW geral foram os que mais comprometeram a dependabilidade do SGBD. Banco : Dados Recuperacao : Erros Tolerancia : Falhas Injecao : Falhas Deteccao : Erros
54	Visibilidade web de universidades Klinger, Augusto January 2011 (has links) Visibilidade Web é a área de estudo das medidas de visibilidade de organizações, termos ou documentos na web, sendo um dos campos de pesquisa da ciência de Webmetria. Neste trabalho, uma fórmula para o cálculo de visibilidade na web é proposta, baseando-se na visão proporcionada por diferentes motores de busca. O resultado final é um indicador de Visibilidade Web para universidades. São apresentados e analisados rankings de universidades do mundo todo encontrados na web, tais como o ARWU, o WR e o THE. Tais rankings trabalham com indicadores compostos, mas abordam a questão da visibilidade na rede de maneiras diferentes. Também são discutidos alguns trabalhos recentes no campo de Visibilidade Web. O indicador elaborado baseia-se na classificação do site oficial da universidade nos buscadores como meio de pontuar a visibilidade, valendo-se de metabusca. Um método de fusão de rankings é utilizado para a pontuação. Siglas de universidades brasileiras foram submetidas ao cálculo de visibilidade e classificadas, mostrando uma aplicação da fórmula no mundo real. Dois rankings foram construídos, um deles apontando falhas no método proposto e o segundo contornando o problema encontrado, apresentando uma classificação justa, coerente com a realidade e com outros rankings de universidades brasileiras. A principal contribuição do trabalho é a definição de um indicador de visibilidade na web que mostra como são classificadas as instituições através dos principais pontos de entrada da rede: os motores de busca. / Web Visibility is the area of study of visibility measures of organizations, terms or documents on the web, one of the fields of the Webmetrics science. In this work, a formula for the calculation of visibility on the web is proposed, based on the vision provided by different search engines. The result is an indicator of Web Visibility for universities. In related works section are presented and analyzed rankings of universities around the world from the web, such as ARWU, WR and THE. Such rankings work with composite indicators, but address the issue of visibility on the network in different ways. Also are covered some resent works in the field of Web Visibility. The indicator developed is based on the classification of the universities’ official website in search engines as a means of scoring the visibility, using a metasearch engine. A method of rankings fusion is used for the scoring process. Acronyms of Brazilian universities were subjected to the calculation of visibility and classified, showing an application of the formula in the real world. Two rankings were built, one of them pointing out flaws in the proposed method and another solving the problem encountered with a fair rating, consistent with reality and with other rankings of universities. The main contribution of this work is a Web Visibility indicator that shows how the institutions are classified by the main entry points of the network: the search engines. Recuperacao : Informacao Serviços Web Web visibility Universities ranking
55	Sobre estatística de dados bibliométricos em grupos de pesquisadores : universalidade e avaliação / About statistics on bibliometric data of researchers’ groups: universality and evaluation Kalil, Fahad January 2012 (has links) Agências de fomento à pesquisa, centros de pesquisas, universidades e a comunidade científica de uma forma geral buscam incessantemente pelo aperfeiçoamento e aumento da qualidade da produção científica de seus pesquisadores. Logo, faz-se necessário que sejam providas ferramentas e métodos eficazes para obtenção de avaliações coerentes. Vários métodos têm sido propostos ao longo dos anos e diferentes formas de avaliação vêm sendo empregadas em órgãos reguladores, como a agência brasileira de pós-graduação CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior), todavia algumas questões ainda foram pouco exploradas. Com o advento do índice h (hindex) de Hirsch, que une fundamentalmente quantidade com qualidade, pois avalia um conjunto de artigos de acordo com sua distribuição de citações, uma série de estudos com as mais variadas estatísticas têm sido propostos. Contudo, não há na literatura atual, por exemplo, uma expressão analítica para distribuição de índices h de um grupo de pesquisadores, nem a verificação da existência de universalidade desta distribuição para diferentes grupos e bases de dados. Este trabalho aborda, num primeiro momento, um estudo sobre a distribuição de índice h e de citações em três áreas científicas distintas: física, biologia e ciência da computação, que possuem diferentes práticas de publicações e métodos de pesquisa. O trabalho ainda propõe uma nova métrica para construção de rankings baseado no índice h sucessivo de segunda ordem, por nós denominada s-index, o qual torna possível a comparação entre grupos de pesquisadores de tamanhos diferentes, assim proporcionando, por exemplo, uma comparação em termos de produtividade de grupos com grande quantidade de pesquisadores e grupos menores, mas que ainda assim reflita seus potenciais de produção. Por fim, é realizado estudo da correlação entre o s-index desenvolvido no trabalho e a classificação de cursos de mestrado e doutorado recomendados e reconhecidos realizada pela CAPES, usando dados de pesquisadores de programas de pós-graduação em física e biologia. As abordagens apresentadas podem ser usadas na classificação de grupos de pesquisadores, a partir de uma visão quantitativa, tentando eliminar, assim, métodos qualitativos de avaliação de difícil generalização e replicação. / Research financing agencies, research centers, universities and the scientific community are frequently seeking for improvement and enhancement on the quality of researchers’ work. Therefore, it is necessary to provide optimized tools and methods to get consistent evaluations. Several methods have been proposed over the years and different forms of evaluation are used by agencies such as Coordination for the Improvement of Higher Level Personnel (Capes), although some issues have been overlooked. With the invention of the h-index (Hirsch), that binds quantity with quality by measuring a set of papers according to their citation distribution, many studies have been considered with several different statistical methods. In the current literature, it is not found an analytical expression for h-index distribution over a researchers’ group, nor the proof of universality in this kind of distribution for different groups and databases. This master thesis discusses primarily a study about h-index distribution and citations in three distinct scientific fields: physics, biology and computer science, which has different publication and research practices. Also, it is proposed a novel metric for ranking based on successive h-index, named as s-index, which makes possible to compare researchers’ groups with different sizes, providing for example, a comparison in terms of productivity on higher and smaller groups of researchers, reflecting their skills on scientific production. A correlation study is conducted in order to compare the s-index, developed in this thesis, with the classification of post-graduation courses performed by Capes, using data from postgraduation researchers in physics and biology. The approaches presented can be used to classify researchers’ groups through a quantitative view, by eliminating some qualitative evaluations that are hardly generalizable and replicable. Recuperacao : Informacao Ontologias Researchers’ analysis H-index Bibliometrics
56	Database recovery in the design environment : requirements analysis and performance evaluation Iochpe, Cirano January 1989 (has links) In the pastfew years, considerable research effort has been spent on data models, processing mo deis, and system architectures for supporting advanced applications Uke CADICAM, software engineering, image processing, and knowledge management. These so-called non-standard applications pose new requirements on database systems. Conventional database systems (i.e. database systems constructed to support businessrelated applications) either cope with the new requirements only in an unsatisfactory way or do not cope with them at ali. Examples ofsuch new requirements are the need of more powerful data models which enable the definition as well as manipulation offairly structured data objects and the requirement of new processing models which better support long-time data manipulation as well as allow database system users to exchange noncommitted results. To better support new data and processing models, new database systems have been proposed and developed which realize object-oriented data models that in turn support the definition and operation of both complex object structures and object behavior. In design environments as the ones represented by CAD applications, these so-called non-standard database systems are usually distributed over server-workstations computer configwations. While actual object versions are kept in the so-called public database on server, designers create new objects as well as new object versions in their private databases which are maintained by the system at the workstations. Besides that, many new design database system prototypes realize a hierarchy of system buffers to accelerate data processing at the system s application level. While the storage subsystem implements the traditional page/segment buffer to reduce the number of I/O-operations between main memory and diste, data objects are processed by application programs at the workstatíon at higher leveis ofabstraction and the objects are kept there by so-called object-oriented buffer managers in special main memory representations. The present dissertation reports on the investigation of database recovery requirements and database recovery performance in design environments. The term design environment is used here to characterize those data processing environments which support so-called design applications (e.g. CADICAM, software engineering). The dissertation begins by analyzing the conanon architectural characteristics of a set of new design database system prototypes. After proposing a reference architecture for those systems, we investigate the properties of a set ofwell known design processing models which can be found in the literature. Relying on both the reference architecture and the characteristics of design processing models, the dissertation presents a thorough study of recovery requirements in the design environment. Then, the possibility ofadapting existing recovery techniques to maintain system reliability in design database systems is investigated. Finally, the dissertation reports on a recovery performance evaluation involving several existing as well as new recovery mechanisms. The simulation model used in the performance analysis is described and the simulation results are presented. Banco : Dados Banco : Dados orientados : Objetos Recuperacao : Erros
57	Usando bases de dados relacionais para geração semi-automática de ontologias destinadas à extração de dados Vivan, Orlando Miguel January 2003 (has links) Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames". Armazenamento : Dados Recuperacao : Informacao Extracao : Dados Extração semântica Ontologias
58	Modelo de metadados para armazenamento e recuperação de imagens estáticas no formato DICOM Machado, Miriam Schacker January 2002 (has links) Em linhas gerais, este trabalho aborda os temas de armazenamento de grandes volumes de imagens no formato DICOM, e a recuperação das mesmas com base em informações associadas a estas imagens (metadados independentes do conteúdo), informações obtidas na fase da interpretação das imagens (metadados descritivos de conteúdo), ou usando informações visuais que foram anotadas nas imagens ou extraídas das mesmas, por médicos especialistas em imagens médicas (metadados dependentes do conteúdo). Este trabalho foi desenvolvido com o propósito de elaborar uma modelagem conceitual que permita a descrição dos dados relevantes de imagens no formato DICOM, de maneira a facilitar a recuperação das mesmas posteriormente. As classes pertencentes ao modelo conceitual, decorrentes dessa modelagem, viabilizam a documentação de imagens médicas estáticas no formato DICOM. Visando o armazenamento de um grande volume de imagens médicas por um longo período de tempo, e considerando o desenvolvimento de uma solução economicamente viável para as instituições que provêm diagnóstico médico por imagens, o modelo propõe o armazenamento das imagens em um ambiente separado do banco de dados. Portanto, este trabalho apresenta uma solução que gerencia a localização das imagens em mídias on-line, near-line e off-line. Este gerenciamento mantém o banco de dados atualizado quanto à localização atual das imagens, mantém as imagens armazenadas e distribuídas em mídias conforme a disponibilidade dos recursos físicos de armazenamento, e auxilia na recuperação das imagens. Este modelo serviu como base para a implementação de um sistema protótipo que possibilita a descrição e a recuperação de imagens DICOM. Os resultados obtidos através da implementação do sistema protótipo, em termos de armazenamento, recuperação e gerenciamento da localização das imagens nos diferentes ambientes (online, near-line e off-line), são apresentados e discutidos. Informática médica Armazenamento : Imagem Recuperacao : Imagem Recuperação : Informação visual
59	Redução do esforço do usuário na configuração da deduplicação de grandes bases de dados / Reducing the user effort to tune large scale deduplication Dal Bianco, Guilherme January 2014 (has links) A deduplicação consiste na tarefa de identificar quais objetos (registros, documentos, textos, etc.) são potencialmente os mesmos em uma base de dados (ou em um conjunto de bases de dados). A identificação de dados duplicados depende da intervenção do usuário, principalmente para a criação de um conjunto contendo pares duplicados e não duplicados. Tais informações são usadas para ajudar na identificação de outros possíveis pares duplicados presentes na base de dados. Em geral, quando a deduplicação é estendida para grandes conjuntos de dados, a eficiência e a qualidade das duplicatas dependem diretamente do “ajuste” de um usuário especialista. Nesse cenário, a configuração das principais etapas da deduplicação (etapas de blocagem e classificação) demandam que o usuário seja responsável pela tarefa pouco intuitiva de definir valores de limiares e, em alguns casos, fornecer pares manualmente rotulados. Desse modo, o processo de calibração exige que o usuário detenha um conhecimento prévio sobre as características específicas da base de dados e os detalhes do funcionamento do método de deduplicação. O objetivo principal desta tese é tratar do problema da configuração da deduplicação de grandes bases de dados, de modo a reduzir o esforço do usuário. O usuário deve ser somente requisitado para rotular um conjunto reduzido de pares automaticamente selecionados. Para isso, é proposta uma metodologia, chamada FS-Dedup, que incorpora algoritmos do estado da arte da deduplicação para permitir o processamento de grandes volumes de dados e adiciona um conjunto de estratégias com intuito de possibilitar a definição dos parâmetros do deduplicador, removendo os detalhes de configuração da responsabilidade do usuário. A metodologia pode ser vista como uma camada capaz de identificar as informações requisitadas pelo deduplicador (principalmente valores de limiares) a partir de um conjunto de pares rotulados pelo usuário. A tese propõe também uma abordagem que trata do problema da seleção dos pares informativos para a criação de um conjunto de treinamento reduzido. O desafio maior é selecionar um conjunto reduzido de pares suficientemente informativo para possibilitar a configuração da deduplicação com uma alta eficácia. Para isso, são incorporadas estratégias para reduzir o volume de pares candidatos a um algoritmo de aprendizagem ativa. Tal abordagem é integrada à metodologia FS-Dedup para possibilitar a remoção da intervenção especialista nas principais etapas da deduplicação. Por fim, um conjunto exaustivo de experimentos é executado com objetivo de validar as ideias propostas. Especificamente, são demonstrados os promissores resultados alcançados nos experimentos em bases de dados reais e sintéticas, com intuito de reduzir o número de pares manualmente rotulados, sem causar perdas na qualidade da deduplicação. / Deduplication is the task of identifying which objects (e.g., records, texts, documents, etc.) are potentially the same in a given dataset (or datasets). It usually requires user intervention in several stages of the process, mainly to ensure that pairs representing matchings and non-matchings can be determined. This information can be used to help detect other potential duplicate records. When deduplication is applied to very large datasets, the matching quality depends on expert users. The expert users are requested to define threshold values and produce a training set. This intervention requires user knowledge of the noise level of the data and a particular approach to deduplication so that it can be applied to configure the most important stages of the process (e.g. blocking and classification). The main aim of this thesis is to provide solutions to help in tuning the deduplication process in large datasets with a reduced effort from the user, who is only required to label an automatically selected subset of pairs. To achieve this, we propose a methodology, called FS-Dedup, which incorporates state-of-the-art algorithms in its deduplication core to address high performance issues. Following this, a set of strategies is proposed to assist in setting its parameters, and removing most of the detailed configuration concerns from the user. The methodology proposed can be regarded as a layer that is able to identify the specific information requested in the deduplication approach (mainly, threshold values) through pairs that are manually labeled by the user. Moreover, this thesis proposed an approach which would enable to select an informative set of pairs to produce a reduced training set. The main challenge here is how to select a “representative” set of pairs to configure the deduplication with high matching quality. In this context, the proposed approach incorporates an active learning method with strategies that allow the deduplication to be carried out on large datasets. This approach is integrated with the FS-Dedup methodology to avoid the need for a definition of threshold values in the most important deduplication stages. Finally, exhaustive experiments using both synthetic and real datasets have been conducted to validate the ideas outlined in this thesis. In particular, we demonstrate the ability of our approach to reduce the user effort without degrading the matching quality. Banco : Dados Recuperacao : Informacao Data integration Deduplication Signature-based deduplication
60	VersionsRank : escores de reputação de páginas web baseados na detecção de versões Silva, Glauber Rodrigues da January 2009 (has links) Os motores de busca utilizam o WebGraph formado pelas páginas e seus links para atribuir reputação às páginas Web. Essa reputação é utilizada para montar o ranking de resultados retornados ao usuário. No entanto, novas versões de páginas com uma boa reputação acabam por distribuir os votos de reputação entre todas as versões, trazendo prejuízo à página original e também as suas versões. O objetivo deste trabalho é especificar novos escores que considerem todas as versões de uma página Web para atribuir reputação para as mesmas. Para atingir esse objetivo, foram propostos quatro escores que utilizam a detecção de versões para atribuir uma reputação mais homogênea às páginas que são versões de um mesmo documento. Os quatro escores propostos podem ser classificados em duas categorias: os que realizam mudanças estruturais no WebGraph (VersionRank e VersionPageRank) e os que realizam operações aritméticas sobre os escores obtidos pelo algoritmo de PageRank (VersionSumRank e VersionAverageRank). Os experimentos demonstram que o VersionRank tem desempenho 26,55% superior ao PageRank para consultas navegacionais sobre a WBR03 em termos de MRR, e em termos de P@10, o VersionRank tem um ganho de 9,84% para consultas informacionais da WBR99. Já o escore VersionAverageRank, apresentou melhores resultados na métrica P@10 para consultas informacionais na WBR99 e WBR03. Na WBR99, os ganhos foram de 6,74% sobre o PageRank. Na WBR03, para consultas informacionais aleatórias o escore VersionAverageRank obteve um ganho de 35,29% em relação ao PageRank. / Search engines use WebGraph formed by the pages and their links to assign reputation to Web pages. This reputation is used for ranking show for the user. However, new versions of pages with a good reputation distribute your votes of reputation among all versions, damaging the reputation of original page and also their versions. The objective of this work is to specify the new scores to consider all versions of a Web page to assign reputation to them. To achieve this goal, four scores were proposed using the version detection to assign a more homogeneous reputation to the pages that are versions of the same document. The four scores proposed can be classified into two categories: those who perform structural changes in WebGraph (VersionRank and VersionPageRank) and those who performs arithmetic operations on the scores obtained by the PageRank algorithm (VersionSumRank and VersionAverageRank). The experiments show that the performance VersionRank is 26.55% higher than the PageRank for navigational queries on WBR03 in terms of MRR, and in terms of P@10, the VersionRank has a gain of 9.84% for the WBR99 informational queries. The score VersionAverageRank showed better results in the metric P@10 for WBR99 and WBR03 information queries. In WBR99, it had a gain of 6.74% compared to PageRank. In WBR03 for random informational queries, VersionAverageRank showed an increase of 35.29% compared to PageRank. World Wide Web (WWW) Recuperacao : Informacao Ranking Version detection PageRank

Search results