Global ETD Search

311	Busca multimodal para apoio à pesquisa em biodiversidade / Multimodal search to support research on biodiversity Fedel, Gabriel de Souza 18 August 2018 (has links) Orientador: Cláudia Maria Bauzer Medeiros / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-18T07:07:49Z (GMT). No. of bitstreams: 1 Fedel_GabrieldeSouza_M.pdf: 14390093 bytes, checksum: 63058da33a22121e927f1cdbaff297d3 (MD5) Previous issue date: 2011 / Resumo: A pesquisa em computação aplicada à biodiversidade apresenta muitos desafios, que vão desde o grande volume de dados altamente heterogêneos até a variedade de tipos de usuários. Isto gera a necessidade de ferramentas versáteis de recuperação. As ferramentas disponíveis ainda são limitadas e normalmente só consideram dados textuais, deixando de explorar a potencialidade da busca por dados de outra natureza, como imagens ou sons. Esta dissertação analisa os problemas de realizar consultas multimodais a partir de predicados que envolvem texto e imagem para o domínio de biodiversidade, especificando e implementando um conjunto de ferramentas para processar tais consultas. As contribuições do trabalho, validado com dados reais, incluem a construção de uma ontologia taxonômica associada a nomes vulgares e a possibilidade de apoiar dois perfis de usuários (especialistas e leigos). Estas características estendem o escopo da consultas atualmente disponíveis em sistemas de biodiversidade. Este trabalho está inserido no projeto Bio-CORE, uma parceria entre pesquisadores de computação e biologia para criar ferramentas computacionais para dar apoio à pesquisa em biodiversidade / Abstract: Research on Computing applied to biodiversity present several challenges, ranging from the massive volumes of highly heterogeneous data to the variety in user profiles. This kind of scenario requires versatile data retrieval and management tools. Available tools are still limited. Most often, they only consider textual data and do not take advantage of the multiple data types available, such as images or sounds. This dissertation discusses issues concerning multimodal queries that involve both text and images as search parameters, for the domanin of biodiversity. It presents the specification and implementation of a set of tools to process such queries, which were validate with real data from Unicamp's Zoology Museum. The aim contributions also include the construction of a taxonomic ontology that includes species common names, and support to both researchers and non-experts in queries. Such features extend the scop of queries available in biodiversity information systems. This research is associated with the Biocore project, jointly conducted by researchers in computing and biology, to design and develop computational tools to support research in biodiversity / Mestrado / Banco de Dados / Mestre em Ciência da Computação Banco de dados Biodiversidade Imagens - Recuperação Databases Biodiversity Image database Ontologies (Information retrieval)
312	Métodos de poda estática para índices de máquinas de busca. / Static Pruning Method for Search Index Engines Santos, Célia Francisca dos 22 February 2006 (has links) Made available in DSpace on 2015-04-11T14:03:08Z (GMT). No. of bitstreams: 1 Celia Francisca dos Santos.pdf: 545200 bytes, checksum: 1be2bb65210d0ea7f3239ecdd2efa28d (MD5) Previous issue date: 2006-02-22 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Neste trabalho são propostos e avaliados experimentalmente novos métodos de poda estática especialmente projetados para máquinas de busca web. Os métodos levam em consideração a localidade de ocorrência dos termos nos documentos para realizar a poda em índices de máquinas de busca e, por esta razão, são chamados de "métodos de poda baseados em localidade". Quatro novos métodos de poda que utilizam informação de localidade são propostos aqui: two-pass lbpm, full coverage, top fragments e random. O método two-pass lbpm é o mais efetivo dentre os métodos baseados em localidade, mas requer uma construção completa dos índices antes de realizar o processo de poda. Por outro lado, full coverage, top fragments e random são métodos single-pass que executam a poda dos índices sem requerer uma construção prévia dos índices originais. Os métodos single-pass são úteis para ambientes onde a base de documentos sofre alterações contínuas, como em máquinas de busca de grande escala desenvolvidas para a web. Experimentos utilizando uma máquina de busca real mostram que os métodos propostos neste trabalho podem reduzir o custo de armazenamento dos índices em até 60%, enquanto mantém uma perda mínima de precisão. Mais importante, os resultados dos experimentos indicam que esta mesma redução de 60% no tamanho dos índices pode reduzir o tempo de processamento de consultas para quase 57% do tempo original. Além disso, os experimentos mostram que, para consultas conjuntivas e frases, os métodos baseados em localidade produzem resultados melhores do que o método de Carmel, melhor método proposto na literatura. Por exemplo, utilizando apenas consultas com frases, com uma redução de 67% no tamanho dos índices, o método baseados em localidade two-pass lbpm produziu resultados com uma grau de similaridade de 0.71, em relação aos resultados obtidos com os índices originais, enquanto o método de Carmel produziu resultados com um grau de similaridade de apenas 0.39. Os resultados obtidos mostram que os métodos de poda baseados em localidade são mais efetivos em manter a qualidade dos resultados providos por máquinas de busca. Recuperação de Informação Máquina de Busca Web Poda em Índices Recuperação de Informação Máquina de Busca Web Information Retrieval Search Engine Web Index Pruning
313	Arcabouço para anotação de componentes de imagem / A framework for semantic annotation of image components Muraro, Émerson, 1986- 21 August 2018 (has links) Orientador: Ricardo da Silva Torres / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-21T20:19:19Z (GMT). No. of bitstreams: 1 Muraro_Emerson_M.pdf: 4254243 bytes, checksum: dd239dd897e8a66aa289cbf5b61988d8 (MD5) Previous issue date: 2012 / Resumo: Com a disseminação de dispositivos mais baratos para sua aquisição, armazenamento e disponibilização, imagens vêm sendo utilizadas em várias aplicações (tais como comerciais, científicas, e pessoais). O uso de imagens nessas aplicações tem motivado a criação de objetos digitais heterogêneos. Imagens não são usadas isoladamente e podem compor outros objetos digitais. Esses novos objetos digitais são conhecidos como Objetos Complexos. Esta dissertação apresenta um arcabouço para anotação semântica automática de componentes de imagem, visando o seu uso na construção de objetos complexos. Esta proposta utiliza diversas formas de busca para encontrar termos para anotação: ontologias, busca por palavras-chaves e por conteúdo visual. Os termos encontrados são ponderados por pesos que definem sua importância, e são combinados por técnicas de fusão de dados em uma única lista de sugestões. As principais contribuições deste trabalho são: especificação do processo de anotação semântica automática de componentes de imagem, que considera o conteúdo visual da imagem, palavras-chaves definidas, ontologias e possíveis combinações envolvendo estas alternativas e especificação e implementação parcial de um arcabouço para anotação de objetos complexos de imagens encapsulados em componentes / Abstract: Due to the dissemination of low-cost devices for acquisition, storage, and sharing, images have been used in several applications, (e.g., commercial, scientific, and personal). The use of images in those applications has motivated the creation of heterogeneous digital objects. Images are not longer used in isolation and are used to compose other digital objects, named Complex Objects. In this work, we present a new framework for automatic semantic annotation of image components, aiming at supporting their use in the construction of complex objects. Our proposal uses several approaches for defining appropriate terms to be used in the annotation process: ontologies, textual terms, and image content descriptions. Found terms are weighted according to their importance, and are combined using data fusion techniques. The main contributions of this work are: the specification of an automatic semantic annotation process for image components, that takes into account image visual properties, defined textual terms, ontologies, and their combination, and the specification and partial implementation of an infrastructure for annotating image complex objects encapsulated in components / Mestrado / Ciência da Computação / Mestre em Ciência da Computação Web semântica Componente de software Metadados Ontologies (Information retrieval) Semantic Web Component software Metadata
314	Exploiting contextual information for image re-ranking and rank aggregation in image retrieval tasks = Explorando informações contextuais para reclassificação de imagens e agregação de listas em tarefas de recuperação de imagens / Explorando informações contextuais para reclassificação de imagens e agregação de listas em tarefas de recuperação de imagens Pedronette, Daniel Carlos Guimarães, 1983- 20 August 2018 (has links) Orientador: Ricardo da Silva Torres / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-20T17:07:45Z (GMT). No. of bitstreams: 1 Pedronette_DanielCarlosGuimaraes_D.pdf: 10238688 bytes, checksum: d7f661effb8fc3ce49cc7d4b11f6480e (MD5) Previous issue date: 2012 / Resumo: Sistemas de Recuperação de Images baseados no Conteúdo (Content-Based Image Retrieval - CBIR) têm como objetivo satisfazer as necessidades dos usuários a partir de especificações de consulta. Dado um padrão de consulta (e.g., uma imagem de consulta) como entrada, um sistema CBIR recupera as imagens mais similares em uma coleção considerando suas propriedades visuais. Como o maior interesse dos usuários diz respeito às primeiras posições da lista de imagens retornadas, a eficácia desses sistemas é extremamente dependente da acurácia da função de distância adotada...Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: Content-Based Image Retrieval (CBIR) systems aims at meeting the user needs expressed in query specifications. Given a query pattern (e.g., query image) as input, a CBIR system retrieves the most similar images in a collection by taking into account image visual properties. Since users are interested in the images placed at the first positions of the returned ranked lists, accurately ranking collection images is of great relevance...Note: The complete abstract is available with the full electronic document / Doutorado / Ciência da Computação / Doutor em Ciência da Computação Recuperação da informação Imagens - Recuperação Processamento de imagens Reconhecimento de padrões Information retrieval Image - Retrieval Image processing Pattern recognition
315	Uma proposta de interface de resultados de buscas em sistemas de recuperação de informação : a semiótica e a interação humano computador como aporte teórico / Baptista, Fabricio January 2019 (has links) Orientador: Edberto Ferneda / Coorientador: Carlos Cândido de Almeida / Banca: Walter Moreira / Banca: Maria José Vicentini Jorente / Banca: Ana Carolina Simionato / Banca: José Remo Ferreira Braga / Resumo: Com o crescente aumento de documentos digitais disponíveis em acervos on-line, torna-se inevitável realizar estudos que proporcionem avanços no modo como os usuários buscam informações nesses documentos. A Recuperação de Informação procura meios para aperfeiçoar este processo através de diferentes núcleos de estudo como modelagem, classificação de textos, arquitetura de sistemas, interfaces de usuário, visualização de dados, entre outros. Diante dessas opções passíveis de investigação, optou-se por restringir esta pesquisa às interfaces de usuário, especificamente os resultados de busca. Nesta perspectiva, o objetivo deste estudo é propor um modelo de interface computacional para apresentação dos resultados de busca em sistemas de recuperação de informação, agregando elementos visuais fundamentados nas áreas de Semiótica e da Interação Humano Computador. Neste sentido, realizou-se uma pesquisa dividida em duas partes. Em um primeiro momento, apresenta-se uma pesquisa bibliográfica de caráter exploratório. Em seguida, foi realizada a pesquisa aplicada. A pesquisa bibliográfica embasou a fundamentação teórica e forneceu subsídios para o levantamento de desafios da recuperação de informação. A pesquisa aplicada procurou responder de forma prática ao objetivo e questionamento da pesquisa. Assim, apresenta-se uma proposta de interface que combina recursos visuais e textuais para contribuir com o processo de percepção dos usuários em relação aos resultados das buscas. Concluindo, a... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: With the growing number of digital documents available in online collections, it becomes inevitable to conduct studies that provide advances in how users search for information in those documents. Information Retrieval looks for ways to improve this process through different study centers such as modeling, text classification, system architecture, user interfaces, data visualization, among others. Faced with these investigative options, it was decided to restrict this research to user interfaces, specifically search results. In this perspective, the objective of this study is to propose a computational interface model to present the search results in information retrieval systems, adding visual elements based on the Semiotics and Human Computer Interaction areas. In this sense, a research was carried out in two parts. At first, an exploratory bibliographic research is presented. The applied research was then carried out. The bibliographical research based the theoretical foundation and provided subsidies for the collection of information retrieval challenges. The applied research sought to respond in a practical way to the objective and questioning of the research. Thus, a proposal of interface is presented that combines visual and textual resources to contribute to the process of perception of the users in relation to the search results. In conclusion, it is believed that it is possible to relate to the development of Information Retrieval interfaces the visual and interacti... (Complete abstract click electronic access below) / Doutor Recuperação da informação. Interação homem-máquina. Semiótica.
316	Programa computacional ODR-ATA para densitometria óssea baseado na densitometria radiografica / Oliveira, Márcio Teixeira. January 2014 (has links) Resumo: A densitometria radiográfica é técnica que permite avaliar a densidade óssea, utilizando referências confeccionadas em material inerte (ex. alumínio), principalmente para investigação de alterações ósseas e doenças como a osteoporose. Para aumentar a precisão de técnica, alguns autores propõe o uso de equações matemáticas, como métodos dos mínimos quadrados, teorema de LaPlace e regra de Sarrus o que permitirá obter melhor ajuste da curva característica de absorção aos raios-X pelo objeto de estudo. O uso de tecnologias como Java, gnuplot, broffice calc, todas elas de código aberto, possibilitou-nos o desenvolvimento do software "ODR-ATA", capaz de analisar e processar imagens radiográficas digitais ou digitalizadas e calcular valores de densidade próximos aos valores do objeto em estudo. Atualmente diversas soluções pagas possuem suporte para realizar a densitometria radiográfica. O objetivo deste estudo foi desenvolver uma solução computacional de código livre, para cálculo da densidade óssea a partir da densitometria radiográfica. Para testar o software, foi realizado um experimento a partir de uma tomada radiográfica de uma escada de alumínio de valores conhecidos. Foram feitas 10 repetições e avaliados os degraus 4, 5, 6, 7 e 8 da escada de alumínio. Os resultados obtidos pelo "ODR-ATA" para os degraus 5, 6, 7 e 8 demonstraram uma precisão e exatidão de ordem de 3,64% e 3,63% respectivamente, atestando a validade e confiabilidadena utilização do software na obtenção da densidade óssea obtida pela densidade radiográfica. / Abstract: The radiographic densitometry is the technic that allows the evaluation of bone density, which uses references created in inert material (e.g. aluminium) especially to the investigation of bone modifications and illnesses such as osteoporosis. To increase technical precision some authors suggest the use of mathematical equations, such as the least squares method, Laplace's theorem, and the Rule of Sarrus allowing better results when achieving the adjustment of the curve that is characteristic of X-ray absorption by what is being studied. The usage of technologies such as Java, gnuplot, broffice calc, all of open code, allowed us to develop the software "ODR-ATA", which is capable of analyzing and processing digital radiographic images and of calculating values of density close to the values of the object under study. Recently, various paid solutions have the support to perform radiographic densitometry. The purpose of this study is to develop a computational solution of free code to calculate bone density starting from the radiographic densitometry. In order to test the software I performed an experiment that started with the radiography of an aluminum ladder of unknown values. I performed 10 repetitions and evaluated steps 4,5,6,7, and 8 of the aluminum ladder. The results I achieved with "ODR-ATA" for steps of number 5,6,7, and 8 show a precision of 3,64%% and 3,63% respectively, which attest for the validity and reliability of the software in the discovery of the bone density obtained through the radiographic densitometry / Orientador: Mário Jefferson Quirino Louzada / Banca: Luciana Del Pinoti Ciarlini / Banca: Gilberto Aparecido Coclete / Mestre Densidade óssea. Informática na medicina. Osteoporose. Raios X. radiographic densitometry
317	Sistematização semântico-ontológica computacional do vocabulário técnico da indústria de artefatos de borracha / Batista, Abner Maicon Fortunato. January 2012 (has links) Orientador: Claudia Zavaglia / Banca: Rogério Aparecido Sá Ramalho / Banca: Maria Cristina Parreira da Silva / Resumo: Ontologias têm diversas aplicações em sistemas de Processamento Automático de Línguas Naturais (PLN), tais como tradutores automáticos e sistemas de recuperação e de extração de informação. Ontologias são também o alicerce da chamada Web Semântica, um novo conceito de Web que permite a interoperabilidade entre recursos, fornecendo significado aos sistemas que operam com grandes contingentes de dados na Web, a rede mundial de computadores. Gruber (1993) define ontologia como uma especificação formal de uma conceitualização, ou seja, uma descrição formal dos conceitos e das relações existentes entre esses conceitos em um determinado domínio do conhecimento. No caso de uma ontologia linguística, abordam-se apenas os conceitos lexicalizados em uma língua. Desse modo, a estruturação de um domínio em uma ontologia linguística se concentra em uma dimensão semântico-conceitual. Este trabalho propõe a construção de ontologia linguisticamente motivada para o domínio da Indústria de Artefatos de Borracha (IAB), uma área de grande interesse à indústria e à pesquisa no Brasil, porém pouco explorada quanto aos recursos informacionais que esse setor demanda. Para estruturar o conhecimento do domínio da IAB, estabelecendo as relações entre os conceitos, lançou-se mão de um córpus em língua portuguesa para o referido domínio de onde são extraídos e analisados os termos. A análise dos termos e de suas relações de sentido foi fundamentada a partir da Teoria do Léxico Gerativo de Pustejovsky (1995), valendo-se, sobretudo, da Estrutura Qualia, que especifica quatro aspectos essenciais do sentido de uma palavra, a saber: constitutivo, formal, télico e agentivo. Em seguida, o modelo conceito obtido foi implementado em OWL (Ontology Web Language), uma linguagem computacional voltada para a Web Semântica. O resultado obtido com essa pesquisa foi uma... / Abstract: Ontologies have several applications on Natural Language Processing (NLP) such as machine translators and retrieval and extraction information systems. Ontologies are also the foundation of the so-called Semantic Web, a new concept of the Web that allows interoperability among resources, providing meaning to systems that operate with a large number of data on the Web. Gruber (1993) defines ontology as a formal specification of a conceptualization, i.e., a formal description of concepts and the relationships among these concepts in a given field of knowledge. In the case of a linguistic ontology, only lexicalized concepts in a natural language are approached. Thus, the structuring of a domain in a linguistic ontology focuses on a semantic-conceptual dimension. This research proposes the construction of a linguistically motivated ontology for the domain of Rubber Artifacts Industry (RAI), an area of great interest to industry and research in Brazil, but little explored with regard to the information resources that this industry demands. In order to structure knowledge of the field of RAI, establishing relationships among concepts, a Portuguese corpus was used for that domain from which the terms are extracted and analyzed. The analysis of the terms and their semantic relationships was based on the Generative Lexicon Theory by Pustejovsky (1995), mainly with the use of the Qualia Structure, which specifies four essential aspects of word meaning, namely, constitutive, formal, telic and agentive. Then, the conceptual model obtained was implemented in OWL (Ontology Web Language), a Semantic Web-oriented computer language. The results obtained from this research were a computational semanticontological systematization of the technical vocabulary of Rubber Artifacts Industry (including translations of technical terms in English and French) that can generate a number of useful ... / Résumé: Les ontologies ont plusieurs applications sur le traitement automatique du langage naturel (TALN) tels que les traducteurs automatiques et des systèmes d'information et de récupération d'extraction. Les ontologies sont aussi à la base de la Web Sémantique que l'on appelle, un nouveau concept du Web qui permet l'interopérabilité entre les ressources, donner un sens à des systèmes qui fonctionnent avec un grand nombre de données sur le Web. Gruber (1993) définit l'ontologie comme une spécification formelle d'une conceptualisation, c'est à dire, une description formelle des concepts et des relations entre ces concepts dans un certain domaine de la connaissance. Dans le cas d'une ontologie linguistique, seulement les concepts lexicalisés dans une langue naturelle sont abordés. Ainsi, la structuration d'un domaine dans une ontologie linguistique met l'accent sur une dimension sémantique et conceptuelle. Cette recherche propose la construction d'une ontologie linguistique motivée pour le domaine de l'industrie d'artifacts de caoutchouc (IAC), une zone d'un grand intérêt pour l'industrie et la recherche au Brésil, mais peu explorée en ce qui concerne les sources d'information que ce secteur exige. Afin de structurer les connaissances du domaine de la IAC, l'établissement de relations entre les concepts, un corpus portugais a été utilisé pour ce domaine à partir duquel les termes sont extraits et analysés. L'analyse des termes et leurs relations sémantiques a été basée sur la Théorie Du Lexique Génératif de Pustejovsky (1995), principalement avec l'utilisation de la structure Qualia, qui spécifie quatre aspects essentiels du sens des mots, à savoir, constitutifs, formel, télique et agentif. Ensuite, le modèle conceptuel obtenu a été mis en œuvre dans le langage OWL (Ontology Web Language), un langage informatique orienté à Web ... / Mestre Lingüística aplicada. Lexicografia. Borracha - Industria - Terminologia. Linguistica - Processamento de dados. Web semântica. Applied linguistics
318	Feedback de relevância orientado a termos: um novo método para ordenação de resultados de motores de busca. / Term-oriented relevance feedback: a novel ranking method for search engines. Hattori, Fernando 23 May 2016 (has links) O modelo de recuperação de informação mais amplamente utilizado no contexto de acervos digitais é o Vector Space Model. Algoritmos implementados para este modelo que aproveitam informações sobre relevância obtidas dos usuários (chamados feedbacks) na tentativa de melhorar os resultados da busca. Porém, estes algoritmos de feedback de relevância não possuem uma estratégia global e permanente, as informações obtidas desses feedbacks são descartadas para cada nova sessão de usuário (são perenes) ou não modificam os documentos como um todo (são alterações locais). Este trabalho apresenta um método de feedbacks de relevância denominado orientado a termos, permitindo que as modificações realizadas por influência dos feedbacks dos usuários sejam globais e permanentes. Foram realizados experimentos utilizando o dataset ClueWeb09 que dão evidências de que este método melhora a qualidade dos resultados da busca em relação ao modelo tradicional Vector Space Model. / The Vector Space Model is the most widely used information retrieval model within digital libraries\' systems. Algorithms developed to be used with this model use relevance information obtained from users (called feedbacks) to improve the search results. However, the relevance feedback algorithms developed are not global nor permanent, the feedbacks are discarded in users new sessions and do not affect every document. This paper presents a method that uses of relevance feedback named terms oriented. In this method, users\' feedbacks lead to modifications in the terms\' vectors representations. These modifications are global and permanent, influencing further searches. An experiment was conducted using the ClueWeb09 dataset, giving evidence that this method improves the quality of search results when compared with Vector Space Model. Biblioteca digital Digital library Information retrieval Motores de busca Recuperação de informação Search engines
319	Modelo social de relevância para opiniões. / S.O.R.M.: Social Opinion Relevance Model. Lima, Allan Diego Silva 02 October 2014 (has links) Esta tese apresenta um modelo de relevância de opinião genérico e independente de domínio para usuários de Redes Sociais. O Social Opinion Relevance Model (SORM) é capaz de estimar a relevância de uma opinião com base em doze parâmetros distintos. Comparado com outros modelos, a principal característica que distingue o SORM é a sua capacidade para fornecer resultados personalizados de relevância de uma opinião, de acordo com o perfil da pessoa para a qual ela está sendo estimada. Devido à falta de corpus de relevância de opiniões capazes de testar corretamente o SORM, fez-se necessária a criação de um novo corpus chamado Social Opinion Relevance Corpus (SORC). Usando o SORC, foram realizados experimentos no domínio de jogos eletrônicos que ilustram a importância da personalização da relevância para alcançar melhores resultados, baseados em métricas típicas de Recuperação de Informação. Também foi realizado um teste de significância estatística que reforça e confirma as vantagens que o SORM oferece. / This thesis presents a generic and domain independent opinion relevance model for Social Network users. The Social Opinion Relevance Model (SORM) is able to estimate an opinions relevance based on twelve different parameters. Compared to other models, SORMs main distinction is its ability to provide customized results, according to whom the opinion relevance is being estimated for. Due to the lack of opinion relevance corpora that are able to properly test our model, we have created a new one called Social Opinion Relevance Corpus (SORC). Using SORC, we carried out some experiments on the Electronic Games domain that illustrate the importance of customizing opinion relevance in order to achieve better results, based on typical Information Retrieval metrics, such as NDCG, QMeasure and MAP. We also performed a statistical significance test that reinforces and corroborates the advantages that SORM offers. Information retrieval Mineração de opinião Opinion mining Opinion relevance Pesquisa social Recuperação de informação Relevância da opinião Social search
320	Análise de métodos para programação de contextualização. / Analysis of methods for programming of page context classification. Marangon, Sílvio Luís 26 October 2006 (has links) A localização de páginas relevantes na Internet em atividades como clipping de notícias, detecção de uso indevido de marcas ou em serviços anti-phishing torna-se cada vez mais complexa devido a vários fatores como a quantidade cada vez maior de páginas na Web e a grande quantidade de páginas irrelevantes retornadas por mecanismos de busca. Em muitos casos as técnicas tradicionais utilizadas em mecanismos de busca na Internet, isto é, localização de termos em páginas e ordenação por relevância, não são suficientes para resolver o problema de localização de páginas específicas em atividades como as citadas anteriormente. A contextualização das páginas, ou seja, a classificação de páginas segundo um contexto definido pelo usuário baseando-se nas necessidades de uma atividade específica deve permitir uma busca mais eficiente por páginas na Internet. Neste trabalho é estudada a utilização de métodos de mineração na Web para a composição de métodos de contextualização de páginas, que permitam definir contextos mais sofisticados como seu assunto ou alguma forma de relacionamento. A contextualização de páginas deve permitir a solução de vários problemas na busca de páginas na Internet pela composição de métodos, que permitam a localização de páginas através de um conjunto de suas características, diferentemente de mecanismos de busca tradicionais que apenas localizam páginas que possuam um ou mais termos especificados. / Internet services as news clipping service, anti-phising, anti-plagiarism service and other that require intensive searching in Internet have a difficult work, because of huge number of existing pages. Search Engines try driver this problem, but search engines methods retrieve a lot of irrelevant pages, some times thousands of pages and more powerful methods are necessary to drive this problem. Page content, subject, hyperlinks or location can be used to define page context and create a more powerful method that can retrieve more relevant pages, improving precision. Classification of page context is defined as classification of a page by a set of its feature. This report presents a study about Web Mining, Search Engines and application of web mining technologies to classify page context. Page context classification applied to search engines must solve the problem of irrelevant pages flood by allowing search engines retrieve pages of a context. Information retrieval Mecanismos de busca Mineração de Web Recuperação de informação Search engines Web mining

Search results