A recuperação de informação é ainda um assunto essencial a melhorar nos diferentes tipos de sistemas web. Um tipo de sistema web que é muito utilizado na atualidade, é o sistema colaborativo. Estes sistemas permitem que os usuários estejam mais envolvidos, seja contribuindo com a inserção de textos, imagens ou dados, assim como utilizando etiquetas (tags) para identificar aos elementos existentes no sistema e que serão compartilhados com outros usuários. Nesta dissertação utilizamos um sistema colaborativo de compartilhamento de imagens arquitetônicas, onde os usuários podem inserir títulos e tags livremente para descrever uma imagem. Contudo as tags podem ter um significado ambíguo, resultando em imagens recuperadas que não são relevantes, quando são utilizadas técnicas tradicionais, como por exemplo busca booleana ou por palavra-chave. Além disso, os usuários podem utilizar consultas mais complexas utilizando uma linguagem livre, e utilizando as técnicas mencionadas podem recuperar informação não relevante. Assim, esta pesquisa aborda, a construção de uma ontologia no domínio arquitetônico denominada OntoArq, baseada no vocabulário controlado da USP e no tesauro experimental de arquitetura brasileira, a qual possibilitou fortalecer a relação entre as tags e os conceitos estruturados da ontologia, por meio de uso de hierarquias de classes e relações semânticas existentes entre as classes. A ontologia também ajudou a melhorar a recuperação de documentos para consultas complexas que utilizam uma linguagem livre, por meio da adição de termos arquitetônicos relacionados à consulta original dada pelo usuário. E quando a consulta expandida é utilizada em conjunto com o modelo de espaço vetorial existente no sistema de recuperação, auxilia na recuperação de imagens mais relevantes. A avaliação de nossa abordagem foi realizada através de experimentos que utilizaram os dados do sistema Arquigrafia, dois conjuntos de consultas e medidas de avaliação como precisão, cobertura e medida-F. Os conjuntos eram compostos por 11 consultas dada por especialistas da área de arquitetura e 9 consultas aleatórias extraídas do log de busca do Google Analytics do sistema Arquigrafia, tendo um total de 20 consultas. Para nossos experimentos utilizamos as 20 consultas que pertenciam aos dois conjuntos de consultas mencionados, dentre os quais obtivemos resultados positivos para 16 consultas, considerando um valor de precisão, cobertura e medida-F maior do que 50%, com nossa abordagem. Em comparação a outra abordagem, que usa a técnica de busca boolena, obteve-se 1 consulta com resultado positivo, também considerando precisão, cobertura e medida-F maior do que 50%. Assim, podemos concluir que nossa abordagem obteve melhores resultados. Além disso, pelos resultados obtidos, consideramos que nossa abordagem, ao utilizar uma ontologia, pode ser um inicio de como empregar as ontologias como ferramenta de apoio para dar um maior significado semântico às tags que existem num sistema colaborativo e como as ontologias permitem a adição de termos na consulta, sendo estes termos relacionados a uma área do conhecimento, que para nosso caso, a área da arquitetura. Desta maneira podemos recuperar os documentos associados às imagens, os quais serão mais relevantes para consulta feita pelo usuário. / Information retrieval is an essential issue in different web system that needs to be improved. In recent years, collaborative systems have gained popularity. In this thesis, we use a collaborative system of architectural image sharing, that users can add titles and tags freely to describe an image. However, the tags may have an ambiguous meaning, resulting in recovering images that are not relevant when traditional technics are used, such as Boolean and keyword search. In addition, users usually use natural language in their queries and with the mentioned techniques it is less posible to retrieve relevant information. Our research approach is to construct an ontology for architectural domain, based on the controlled vocabulary of USP and the experimental thesaurus architecture information. The ontology allowed to enhance the relationship between tags and structured concepts of ontology, improving the information retrieval through the expanded terms. And when the expanded query is used in conjunction with the vector space model in the recovery system, it helps retrieve more relevant images. The evaluation of our approach was carried out through experiments that used data of Arquigrafia system, two sets of queries were created and metrics like precision, coverage and measure-F were used. The sets consisted of 11 queries given by architecture experts and 9 random queries extracted from Google Analytics logs of the Arquigrafia system, taking a total of 20 queries. In our experiments we used the 20 queries from the two sets, among which we obtained positive results for 16 queries, considering precision, coverage and F-measure values greater than 50%, applying our approach. In comparison to another approach, which uses the Boolean search technique, we obtained 1 query with positive result, also considering the same metrics with values greater than 50%. Thus, we can conclude that our approach has achieved better results. In addition, from the results obtained, we consider that our approach using an ontology can be a beginning of how to use ontologies as a support tool to give a greater semantic meaning to tags that exist in a collaborative system, and how Ontologies allow the addition of semantic terms in queries, like terms related to a knowledge area, in our case the area of architecture. In this way we can retrieve documents associated with images, which will be more relevant to the user\'s query.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-10032017-131019 |
Date | 27 October 2016 |
Creators | Yucra, Marisol Solis |
Contributors | Wassermann, Renata |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0029 seconds