Spelling suggestions: "subject:"vocabulário controlado"" "subject:"vocabulário controlador""
1 |
Arcabouço de arquitetura da informação para ciclo de vida de projeto de vocabulário controlado : uma aplicação em Engenharia de SoftwareAlbuquerque, Fernando Antônio de Araújo Chacon de 24 October 2017 (has links)
Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2017-12-18T18:13:55Z
No. of bitstreams: 1
2017_FernandoAntôniodeAraújoChacondeAlbuquerque.pdf: 6441313 bytes, checksum: 6b50ce88e68f8e399c5b4fb03fddd28f (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-02-22T12:06:17Z (GMT) No. of bitstreams: 1
2017_FernandoAntôniodeAraújoChacondeAlbuquerque.pdf: 6441313 bytes, checksum: 6b50ce88e68f8e399c5b4fb03fddd28f (MD5) / Made available in DSpace on 2018-02-22T12:06:17Z (GMT). No. of bitstreams: 1
2017_FernandoAntôniodeAraújoChacondeAlbuquerque.pdf: 6441313 bytes, checksum: 6b50ce88e68f8e399c5b4fb03fddd28f (MD5)
Previous issue date: 2018-02-22 / A pesquisa que resultou nesta tese investigou processos de desenvolvimento e de avaliação de vocabulários controlados. Esta tese inclui os seguintes elementos: resultado de pesquisa bibliográfica sobre arquitetura da informação, recuperação da informação, organização da informação e representação da informação; proposta de arcabouço para ciclo de vida de projeto de vocabulário controlado; e exemplo de uso de elementos desse arcabouço na construção de um protótipo de vocabulário controlado no domínio da Engenharia de Software. O arcabouço proposto é composto por arquitetura de referência, modelo de domínio, modelo de qualidade e lista de atividades. Entre os elementos do modelo de qualidade proposto, existe uma lista de características de qualidade de vocabulários controlados. Os modelos propostos estão parcialmente alinhados a ferramentas semânticas existentes. / The research that resulted in this thesis has investigated development and evaluation processes of controlled vocabularies. This thesis includes the following elements: results of a bibliographic research on information architecture, information recovery, information organization and information representation; proposal of a framework for controlled vocabulary project life cycle; and example of use of this framework during the construction of a prototype of a controlled vocabulary on the Software Engineering domain. The proposed framework is composed of reference architecture, domain model, quality model and list of activities. Among the elements of the proposed quality model, there is a list of controlled vocabulary quality characteristics. The proposed models are partially aligned to existing semantic tools.
|
2 |
Utilização de ontologias para busca em um sistema colaborativo de imagens arquitetônicas / On the use of ontologies for search in a collaborative system for architectural imagesYucra, Marisol Solis 27 October 2016 (has links)
A recuperação de informação é ainda um assunto essencial a melhorar nos diferentes tipos de sistemas web. Um tipo de sistema web que é muito utilizado na atualidade, é o sistema colaborativo. Estes sistemas permitem que os usuários estejam mais envolvidos, seja contribuindo com a inserção de textos, imagens ou dados, assim como utilizando etiquetas (tags) para identificar aos elementos existentes no sistema e que serão compartilhados com outros usuários. Nesta dissertação utilizamos um sistema colaborativo de compartilhamento de imagens arquitetônicas, onde os usuários podem inserir títulos e tags livremente para descrever uma imagem. Contudo as tags podem ter um significado ambíguo, resultando em imagens recuperadas que não são relevantes, quando são utilizadas técnicas tradicionais, como por exemplo busca booleana ou por palavra-chave. Além disso, os usuários podem utilizar consultas mais complexas utilizando uma linguagem livre, e utilizando as técnicas mencionadas podem recuperar informação não relevante. Assim, esta pesquisa aborda, a construção de uma ontologia no domínio arquitetônico denominada OntoArq, baseada no vocabulário controlado da USP e no tesauro experimental de arquitetura brasileira, a qual possibilitou fortalecer a relação entre as tags e os conceitos estruturados da ontologia, por meio de uso de hierarquias de classes e relações semânticas existentes entre as classes. A ontologia também ajudou a melhorar a recuperação de documentos para consultas complexas que utilizam uma linguagem livre, por meio da adição de termos arquitetônicos relacionados à consulta original dada pelo usuário. E quando a consulta expandida é utilizada em conjunto com o modelo de espaço vetorial existente no sistema de recuperação, auxilia na recuperação de imagens mais relevantes. A avaliação de nossa abordagem foi realizada através de experimentos que utilizaram os dados do sistema Arquigrafia, dois conjuntos de consultas e medidas de avaliação como precisão, cobertura e medida-F. Os conjuntos eram compostos por 11 consultas dada por especialistas da área de arquitetura e 9 consultas aleatórias extraídas do log de busca do Google Analytics do sistema Arquigrafia, tendo um total de 20 consultas. Para nossos experimentos utilizamos as 20 consultas que pertenciam aos dois conjuntos de consultas mencionados, dentre os quais obtivemos resultados positivos para 16 consultas, considerando um valor de precisão, cobertura e medida-F maior do que 50%, com nossa abordagem. Em comparação a outra abordagem, que usa a técnica de busca boolena, obteve-se 1 consulta com resultado positivo, também considerando precisão, cobertura e medida-F maior do que 50%. Assim, podemos concluir que nossa abordagem obteve melhores resultados. Além disso, pelos resultados obtidos, consideramos que nossa abordagem, ao utilizar uma ontologia, pode ser um inicio de como empregar as ontologias como ferramenta de apoio para dar um maior significado semântico às tags que existem num sistema colaborativo e como as ontologias permitem a adição de termos na consulta, sendo estes termos relacionados a uma área do conhecimento, que para nosso caso, a área da arquitetura. Desta maneira podemos recuperar os documentos associados às imagens, os quais serão mais relevantes para consulta feita pelo usuário. / Information retrieval is an essential issue in different web system that needs to be improved. In recent years, collaborative systems have gained popularity. In this thesis, we use a collaborative system of architectural image sharing, that users can add titles and tags freely to describe an image. However, the tags may have an ambiguous meaning, resulting in recovering images that are not relevant when traditional technics are used, such as Boolean and keyword search. In addition, users usually use natural language in their queries and with the mentioned techniques it is less posible to retrieve relevant information. Our research approach is to construct an ontology for architectural domain, based on the controlled vocabulary of USP and the experimental thesaurus architecture information. The ontology allowed to enhance the relationship between tags and structured concepts of ontology, improving the information retrieval through the expanded terms. And when the expanded query is used in conjunction with the vector space model in the recovery system, it helps retrieve more relevant images. The evaluation of our approach was carried out through experiments that used data of Arquigrafia system, two sets of queries were created and metrics like precision, coverage and measure-F were used. The sets consisted of 11 queries given by architecture experts and 9 random queries extracted from Google Analytics logs of the Arquigrafia system, taking a total of 20 queries. In our experiments we used the 20 queries from the two sets, among which we obtained positive results for 16 queries, considering precision, coverage and F-measure values greater than 50%, applying our approach. In comparison to another approach, which uses the Boolean search technique, we obtained 1 query with positive result, also considering the same metrics with values greater than 50%. Thus, we can conclude that our approach has achieved better results. In addition, from the results obtained, we consider that our approach using an ontology can be a beginning of how to use ontologies as a support tool to give a greater semantic meaning to tags that exist in a collaborative system, and how Ontologies allow the addition of semantic terms in queries, like terms related to a knowledge area, in our case the area of architecture. In this way we can retrieve documents associated with images, which will be more relevant to the user\'s query.
|
3 |
Estudo sobre o impacto da adição de vocabulários estruturados da área de ciências da saúde no Currículo LattesAraújo, Charles Henrique de January 2016 (has links)
A busca de informações em bases de dados de instituições que possuem grande volume de dados necessita cada vez mais de processos mais eficientes para realização dessa tarefa. Problemas de grafia, idioma, sinonímia, abreviação de termos e a falta de padronização dos termos, tanto nos argumentos de busca, quanto na indexação dos documentos, interferem diretamente nos resultados. Diante disso, este estudo teve como objetivo avaliar o impacto da adição de vocabulários estruturados da área de Ciências da Saúde no Currículo Lattes, na recuperação de perfis similares de pesquisadores das áreas de Ciências Biológicas e Ciências da Saúde, utilizando técnicas de mineração de dados, expansão de consultas, modelos vetoriais de consultas e utilização de algoritmo de trigramas. Foram realizados cruzamentos de informações entre as palavras-chaves de artigos publicados registrados no Currículo Lattes e as informações contidas no Medical Subject Headings (MeSH) e nos Descritores em Ciências da Saúde (DeCS), bem como comparações entre os resultados das consultas, utilizando as palavras-chaves originais e adicionando-lhes os termos resultantes do processo de expansão de consultas. Os resultados mostram que a metodologia adotada neste estudo pode incrementar qualitativamente o universo de perfis recuperados, podendo dessa forma contribuir para a melhoria dos Sistemas de Informações do Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq. / Information retrieval in large databases need increasingly more efficient ways for accomplishing this task. There are many problems, like spelling, language, synonym, acronyms, lack of standardization of terms, both in the search arguments, as in the indexing of documents. They directly interfere in the results. Thus, this study aimed to evaluate the impact of the addition of structured vocabularies of Health Sciences area in Lattes Database, in the recovery of similar profiles of researchers that work in Biological Sciences and Health Sciences, using Query Expansion, Data Mining procedures, Vector Models and Trigram Phrase Matching algorithm. Crosschecking keywords of articles registered in Lattes Database and Medical Subject Headings (MeSH) and Health Sciences Descriptors (DeCS) terms, as well as comparisons between the results of queries using the original keywords and adding them to query expansion terms. The results show that the methodology used in this study can qualitatively increase the set of recovered profiles, contributing to the improvement of CNPq Information Systems.
|
4 |
Estudo sobre o impacto da adição de vocabulários estruturados da área de ciências da saúde no Currículo LattesAraújo, Charles Henrique de January 2016 (has links)
A busca de informações em bases de dados de instituições que possuem grande volume de dados necessita cada vez mais de processos mais eficientes para realização dessa tarefa. Problemas de grafia, idioma, sinonímia, abreviação de termos e a falta de padronização dos termos, tanto nos argumentos de busca, quanto na indexação dos documentos, interferem diretamente nos resultados. Diante disso, este estudo teve como objetivo avaliar o impacto da adição de vocabulários estruturados da área de Ciências da Saúde no Currículo Lattes, na recuperação de perfis similares de pesquisadores das áreas de Ciências Biológicas e Ciências da Saúde, utilizando técnicas de mineração de dados, expansão de consultas, modelos vetoriais de consultas e utilização de algoritmo de trigramas. Foram realizados cruzamentos de informações entre as palavras-chaves de artigos publicados registrados no Currículo Lattes e as informações contidas no Medical Subject Headings (MeSH) e nos Descritores em Ciências da Saúde (DeCS), bem como comparações entre os resultados das consultas, utilizando as palavras-chaves originais e adicionando-lhes os termos resultantes do processo de expansão de consultas. Os resultados mostram que a metodologia adotada neste estudo pode incrementar qualitativamente o universo de perfis recuperados, podendo dessa forma contribuir para a melhoria dos Sistemas de Informações do Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq. / Information retrieval in large databases need increasingly more efficient ways for accomplishing this task. There are many problems, like spelling, language, synonym, acronyms, lack of standardization of terms, both in the search arguments, as in the indexing of documents. They directly interfere in the results. Thus, this study aimed to evaluate the impact of the addition of structured vocabularies of Health Sciences area in Lattes Database, in the recovery of similar profiles of researchers that work in Biological Sciences and Health Sciences, using Query Expansion, Data Mining procedures, Vector Models and Trigram Phrase Matching algorithm. Crosschecking keywords of articles registered in Lattes Database and Medical Subject Headings (MeSH) and Health Sciences Descriptors (DeCS) terms, as well as comparisons between the results of queries using the original keywords and adding them to query expansion terms. The results show that the methodology used in this study can qualitatively increase the set of recovered profiles, contributing to the improvement of CNPq Information Systems.
|
5 |
Ontologias no processo de indexação automática de documentos textuais / Ontologies in automatic indexing proccess of textual documentsPansani Junior, Eder Antonio [UNESP] 06 May 2016 (has links)
Submitted by EDER ANTONIO PANSANI JUNIOR null (epansani@gmail.com) on 2016-06-03T12:24:33Z
No. of bitstreams: 1
Dissertação_ME_Eder_Pansani-v15(Final).pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5) / Approved for entry into archive by Ana Paula Grisoto (grisotoana@reitoria.unesp.br) on 2016-06-06T18:47:42Z (GMT) No. of bitstreams: 1
pansanijunior_ea_me_mar.pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5) / Made available in DSpace on 2016-06-06T18:47:42Z (GMT). No. of bitstreams: 1
pansanijunior_ea_me_mar.pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5)
Previous issue date: 2016-05-06 / Apesar dos avanços tecnológicos das últimas décadas, a busca por informações relevantes ainda é uma tarefa árdua. A recuperação de informação envolve, por um lado, um acervo documental que deve ser representado por expressões linguísticas que resumem seu conteúdo temático. Por outro lado, pessoas tentam descrever linguisticamente as suas necessidades de informação a fim de obterem documentos relevantes para satisfazer tais necessidades. Um sistema de recuperação de informação é, portanto, um elemento mediador entre um acervo documental e seus requisitantes. Um dos aspectos que interferem diretamente na sua eficiência é a forma como os documentos são representados. Sendo assim, pesquisas sobre indexação automática tomam importância, principalmente em ambiente de grande produção e disseminação de documentos, como é o caso da Web. A utilização de vocabulários controlados como elementos de normalização terminológica é um recurso utilizado para melhorar os resultados do processo de indexação. Este trabalho tem por objetivo propor, avaliar e desenvolver um método de utilização de ontologias no processo de indexação automática de documentos textuais, fazendo uso da estrutura lógica e conceitual das ontologias de domínio e implementado um método que permite aos sistemas de indexação automática a realização de inferências automáticas, favorecendo uma representação dos documentos mais semântica e abrangente. Conclui-se com o estudo que a utilização das ontologias como vocabulários controlados em sistemas de indexação automática pode oferecer resultados promissores, permitindo a descoberta automática de termos e a resolução de alguns problemas ligados à linguagem que permeia todo o processo de recuperação de informação. / Despite the technological advances of recent decades, the search for relevant information is still an arduous task. The information retrieval involves, on the one hand, a documentary collection that must be represented by linguistic expressions which summarize its thematic content. On the other hand, people try describing linguistically their information needs in order to obtain relevant documents to satisfy those needs. An information retrieval system is therefore a mediating element between a documentary collection and its requesters. One of the aspects that directly interferes in their efficiency is how documents are represented. Therefore, researches on automatic indexing take importance, particularly, in an environment of large production and dissemination of documents, as it’s the case of the Web. The use of controlled vocabularies as terminology standardization elements is a feature used to improve the results of the indexing process. This study aims to propose, evaluate and develop a method for using ontologies in the automatic indexing process of textual documents, making use of logical and conceptual structure of domain ontologies and implementing a method that enables automatic indexing systems, an execution of automatic inferences, favoring a semantic and comprehensive documents representation. The study conclusion is that the use of ontologies as controlled vocabularies in automatic indexing systems can offer promising results, allowing the automatic discovery of terms and the resolution of some language related problems that permeates the whole process of information retrieval.
|
6 |
Abrangência nas estratégias de busca em Anestesiologia: descritores nas bases de dados MEDLINE e EMBASE / Comprehensiveness in search strategies in Anesthesiology: subheadings in MEDLINE and EMBASE databasesVolpato, Enilze de Souza Nogueira [UNESP] 24 July 2017 (has links)
Submitted by Enilze de Souza N Volpato null (enilze@btu.unesp.br) on 2017-09-20T13:58:00Z
No. of bitstreams: 1
tese Enilze doutorado 18 set 2017.pdf: 2811609 bytes, checksum: 80bb3a313f1b7220a03a2d560f6d0719 (MD5) / Approved for entry into archive by LUIZA DE MENEZES ROMANETTO (luizamenezes@reitoria.unesp.br) on 2017-09-20T14:47:30Z (GMT) No. of bitstreams: 1
volpato_esn_dr_bot.pdf: 2811609 bytes, checksum: 80bb3a313f1b7220a03a2d560f6d0719 (MD5) / Made available in DSpace on 2017-09-20T14:47:30Z (GMT). No. of bitstreams: 1
volpato_esn_dr_bot.pdf: 2811609 bytes, checksum: 80bb3a313f1b7220a03a2d560f6d0719 (MD5)
Previous issue date: 2017-07-24 / Introdução: Para auxiliar os pesquisadores a identificarem os termos que devem compor a estratégia de busca, bibliotecários e educadores orientam os pesquisadores a consultarem e incluírem os termos (autorizados e não autorizados) do vocabulário controlado da base de dados na formulação de estratégias sensíveis para elaboração de revisões sistemáticas. No entanto, ao utilizar todos os termos disponíveis no tesauros (i.e. vocabulário controlado), as estratégias podem ficar extensas, pois alguns descritores incluem muitos termos não autorizados. Objetivo: Avaliar a praticidade e abrangência das estratégias de buscas compostas por descritores tanto do MeSH como do EMTREE, na área de Anestesiologia, que possam compor uma única estratégia de busca a ser utilizada nas bases de dados MEDLINE via PubMed e EMBASE. Método: Em nosso estudo transversal de estratégias de busca, selecionamos e analisamos 37 estratégias de busca desenvolvidas para o campo de Anestesiologia. Foram elaboradas as estratégias de busca originais que incluíram todos os termos disponibilizados nos vocabulários controlados, ou seja, com todas as variações referentes às diferentes grafias e ordens, direta e indireta, analisadas neste estudo. As estratégias originais foram modificadas com a exclusão dos termos que eram uma variação de grafia ou da ordem (direta ou indireta) para comparação dos resultados e adaptadas para submissão nas duas bases de dados. Resultados: As estratégias originais (com inclusão das variações: diferentes grafias e ordens direta e indireta) recuperaram o mesmo número de registros que as estratégias modificadas (sem a inclusão das variações)na base de dados Medline (média de 61,3%) e maior número na EMBASE (média de 63,9 %), na amostra analisada. O número de resultados obtidos pelas pesquisas analisadas não foi idêntico usando a associação ou não dos termos MeSH e EMTREE, sendo que a associação dos termos dos dois vocabulários controlados recuperou maior número de registros em comparação com o uso de termos de apenas um deles, nas duas bases de dados estudadas. Conclusões: Considerando os resultados, recomendamos o uso de todos os termos disponíveis nos vocabulários controlados incluindo termos autorizados e não autorizados (ou seja, diferentes ortografias e ordem direta e indireta do mesmo termo) e a associação dos termos do MeSH com os do EMTREE, para elaboração de estratégias de busca altamente sensíveis na realização de revisões sistemáticas. / Introduction: A high-quality electronic search is essential in ensuring accuracy and comprehensivness in identifying potentially relevant records in conducting a systematic review. To assist researchers in identifying terms when formulating a sensitive search strategy, librarians and educators instruct researchers to consult and include preferred and non-preferred terms of the controlled database. However, by using all available terms in the thesaurus (i.e. subject headings), strategies can be lengthy and very laborious. Objective: To identify the most efficient method for searching in both Medline through PubMed and EMBASE, covering search terms with different spellings, direct and indirect orders, and association (or lack thereof) with MeSH and EMTREE terms. Method: In our cross-sectional study of search strategies, we selected and analysed 37 search strategies specifically developed for the anesthesiology field. These search strategies were adapted in order to cover all potentially relevant search terms in terms of different spellings and direct and indirect orders, most efficiently. Results: When adapted to include different spellings and direct and indirect orders, adapted versions of the selected search strategies retrieved the same number of search results in the Medline (mean of 61,3%) and higher number in EMBASE (mean of 63,9%) of the analyzed sample. The number of results retrieved by the searches analysed was not identical using the association or not of MeSH and EMTREE terms; however the association of these terms from both controlled vocabularies retireved a large number of records compared to the use of either one of them. Conclusions: In view of these results, we recommend the use of search terms which include preferred and non-preferred terms (i.e., different spellings and direct/indirect order of the same term) and associated MeSH and EMTREE terms, in order to develop highly-sensitive search strategies for systematic reviews.
|
7 |
Estudo sobre o impacto da adição de vocabulários estruturados da área de ciências da saúde no Currículo LattesAraújo, Charles Henrique de January 2016 (has links)
A busca de informações em bases de dados de instituições que possuem grande volume de dados necessita cada vez mais de processos mais eficientes para realização dessa tarefa. Problemas de grafia, idioma, sinonímia, abreviação de termos e a falta de padronização dos termos, tanto nos argumentos de busca, quanto na indexação dos documentos, interferem diretamente nos resultados. Diante disso, este estudo teve como objetivo avaliar o impacto da adição de vocabulários estruturados da área de Ciências da Saúde no Currículo Lattes, na recuperação de perfis similares de pesquisadores das áreas de Ciências Biológicas e Ciências da Saúde, utilizando técnicas de mineração de dados, expansão de consultas, modelos vetoriais de consultas e utilização de algoritmo de trigramas. Foram realizados cruzamentos de informações entre as palavras-chaves de artigos publicados registrados no Currículo Lattes e as informações contidas no Medical Subject Headings (MeSH) e nos Descritores em Ciências da Saúde (DeCS), bem como comparações entre os resultados das consultas, utilizando as palavras-chaves originais e adicionando-lhes os termos resultantes do processo de expansão de consultas. Os resultados mostram que a metodologia adotada neste estudo pode incrementar qualitativamente o universo de perfis recuperados, podendo dessa forma contribuir para a melhoria dos Sistemas de Informações do Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq. / Information retrieval in large databases need increasingly more efficient ways for accomplishing this task. There are many problems, like spelling, language, synonym, acronyms, lack of standardization of terms, both in the search arguments, as in the indexing of documents. They directly interfere in the results. Thus, this study aimed to evaluate the impact of the addition of structured vocabularies of Health Sciences area in Lattes Database, in the recovery of similar profiles of researchers that work in Biological Sciences and Health Sciences, using Query Expansion, Data Mining procedures, Vector Models and Trigram Phrase Matching algorithm. Crosschecking keywords of articles registered in Lattes Database and Medical Subject Headings (MeSH) and Health Sciences Descriptors (DeCS) terms, as well as comparisons between the results of queries using the original keywords and adding them to query expansion terms. The results show that the methodology used in this study can qualitatively increase the set of recovered profiles, contributing to the improvement of CNPq Information Systems.
|
8 |
Indexação automática por atribuição de artigos científicos da área de ciência da informaçãoBANDIM, Marcio Aercio Silva 20 February 2017 (has links)
Submitted by Fernanda Rodrigues de Lima (fernanda.rlima@ufpe.br) on 2018-07-25T20:45:05Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Marcio Aercio Silva Bandim.pdf: 2955859 bytes, checksum: f785e2c570d629491a68df048840c67b (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-07-30T18:30:33Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Marcio Aercio Silva Bandim.pdf: 2955859 bytes, checksum: f785e2c570d629491a68df048840c67b (MD5) / Made available in DSpace on 2018-07-30T18:30:33Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Marcio Aercio Silva Bandim.pdf: 2955859 bytes, checksum: f785e2c570d629491a68df048840c67b (MD5)
Previous issue date: 2017-02-20 / Investiga o processo de indexação automática por atribuiçãona representaçãode documentos no contexto da construção de base de dados científicana área de Ciência da Informação, visando a associação entre palavras-chaves e o conhecimento registrado em artigos científicos. O problema de pesquisa deste trabalho está configurado na análise do processo e da qualidade resultante na representação do assunto mediante a indexação automática por atribuição de artigos científicos na área da Ciência da Informação. Realiza levantamento das linguagens documentárias e tipo de indexação automática utilizadas em bases de dados científicas. Investiga o uso do Tesauro Brasileiro em Ciência da Informação (TBCI) conjuntamente com o Sistema de Indexação Semi-Automática (SISA), na indexação automática por atribuição de publicações científicas da área de Ciência da Informação.Utiliza como metodologia a pesquisa exploratória, com base em revisão da literatura brasileira em Ciência da Informação sobre indexação automática por atribuição e em estudo de caso via experimento. Utiliza o corpus composto por 60 artigos científicos referenciados na tese de doutorado de Souza (2005) para comparar as palavras-chave destes artigos com os termos atribuídos pelo sistema SISA usando o vocabulário controlado Tesauro TBCI.Na etapa pragmática desta pesquisafoi realizada a indexação automática por atribuição do corpus formado por estes 60 artigos científicos, bem como, análise e avaliação intrínseca qualitativa, via índices de consistência e, avaliação extrínseca quantitativa, via índices de precisão, revocação e medida F, dos termos propostos para indexação.Ao se avaliar os índices de consistência, adotando-se o critério de consistência relaxada, foi constatada uma média de 15 % nos índices de consistência, com uma variação de um mínimo de 0% a um máximo de 42 %.Quanto aos índices de revocação, precisão e medida F analisados neste experimento foram obtidos os seguintes resultados: Precisão média de 20 %; Revocação média de 42 % e Medida F média de 25 %. Os resultados da pesquisa permitem concluirsobre a importância do emprego do vocabulário controlado em um sistema indexação automática por atribuição uma vez que o Tesauro tem forte influência nos resultados da indexação automática. Também é possível afirmar que neste tipo de indexação feita pelo sistema SISA a habilitação do arquivo de termos gerais TCITG tem forte influência nos índices de qualidade os quais foram analisados pelos valores médios obtidos pelos indicadores de qualidade ou índices de consistência. Foi constatado ainda, que o uso de palavras-chave como termos de indexação precisa ser melhor estudado e pesquisado no sentido de se criar instrumentos que propiciem aos autores dos artigos científicos melhor definição conceitual destes termos e maior controle terminológico. / This work investigates the process of automatic indexing by attribution in the representation of documents within the context of scientific database construction in the area of Information Science, aiming to associate keywords to the knowledge recorded in scientific papers. This work‟s research problem is the analysis of the process and the resulting quality in the representation of the subject through automatic indexing by attribution of scientific papers in the area of Information Science. It appraises documentary language and type of automatic indexing used in scientific databases. Investigates the use of the Brazilian Thesaurus of Information Science (TBCI) along with the Semi-Automatic Indexing System (SISA) in automatic indexing by attribution of scientific publications in the area of Information Science. Its methodology is exploratory research, based on the revision of Brazilian Information Science literature on automatic indexing by attribution and a case study through an experiment. Utilizes the corpus made up of 60 scientific papers referenced in Souza‟s doctorate thesis to compare the keywords used in those papers with the terms attributed by SISA using the TBCI controlled vocabulary. In the pragmatic stage of this research, automatic indexing by attribution of the 60-paper corpus was used, as well as intrinsic qualitative analysis and evaluation, through consistency indices, and extrinsic quantitative evaluation, through precision, recall and F-measure indices of the terms proposed for indexing. Evaluation of the consistency indices, adopting the relaxed consistency criteria, showed an average of 15% in the consistency indices, with a variation going from a minimum of 0% to a maximum of 42%. As to recall, precision and F-measure indices analyzed in this experiment, the following results were obtained: average precision of 20%; average recall of 42%; and average F-measure of 25%. The research results allow us to conclude the importance of the use of controlled vocabulary in an automatic indexing by attribution system since the thesaurus has a strong influence in the results of automatic indexing. It is also possible to assert that in this type of indexing by the SISA system, the habilitation of the general terms archive has a strong influence in the quality indices, which were analyzed through the average values obtained by quality indicators as consistency indices. It was also evidenced that the use of keywords as indexing terms needs to be further studied and researched in order to create tools that provide the authors of scientific papers with a better conceptual definition of these terms and better terminology control.
|
9 |
Utilização de ontologias para busca em um sistema colaborativo de imagens arquitetônicas / On the use of ontologies for search in a collaborative system for architectural imagesMarisol Solis Yucra 27 October 2016 (has links)
A recuperação de informação é ainda um assunto essencial a melhorar nos diferentes tipos de sistemas web. Um tipo de sistema web que é muito utilizado na atualidade, é o sistema colaborativo. Estes sistemas permitem que os usuários estejam mais envolvidos, seja contribuindo com a inserção de textos, imagens ou dados, assim como utilizando etiquetas (tags) para identificar aos elementos existentes no sistema e que serão compartilhados com outros usuários. Nesta dissertação utilizamos um sistema colaborativo de compartilhamento de imagens arquitetônicas, onde os usuários podem inserir títulos e tags livremente para descrever uma imagem. Contudo as tags podem ter um significado ambíguo, resultando em imagens recuperadas que não são relevantes, quando são utilizadas técnicas tradicionais, como por exemplo busca booleana ou por palavra-chave. Além disso, os usuários podem utilizar consultas mais complexas utilizando uma linguagem livre, e utilizando as técnicas mencionadas podem recuperar informação não relevante. Assim, esta pesquisa aborda, a construção de uma ontologia no domínio arquitetônico denominada OntoArq, baseada no vocabulário controlado da USP e no tesauro experimental de arquitetura brasileira, a qual possibilitou fortalecer a relação entre as tags e os conceitos estruturados da ontologia, por meio de uso de hierarquias de classes e relações semânticas existentes entre as classes. A ontologia também ajudou a melhorar a recuperação de documentos para consultas complexas que utilizam uma linguagem livre, por meio da adição de termos arquitetônicos relacionados à consulta original dada pelo usuário. E quando a consulta expandida é utilizada em conjunto com o modelo de espaço vetorial existente no sistema de recuperação, auxilia na recuperação de imagens mais relevantes. A avaliação de nossa abordagem foi realizada através de experimentos que utilizaram os dados do sistema Arquigrafia, dois conjuntos de consultas e medidas de avaliação como precisão, cobertura e medida-F. Os conjuntos eram compostos por 11 consultas dada por especialistas da área de arquitetura e 9 consultas aleatórias extraídas do log de busca do Google Analytics do sistema Arquigrafia, tendo um total de 20 consultas. Para nossos experimentos utilizamos as 20 consultas que pertenciam aos dois conjuntos de consultas mencionados, dentre os quais obtivemos resultados positivos para 16 consultas, considerando um valor de precisão, cobertura e medida-F maior do que 50%, com nossa abordagem. Em comparação a outra abordagem, que usa a técnica de busca boolena, obteve-se 1 consulta com resultado positivo, também considerando precisão, cobertura e medida-F maior do que 50%. Assim, podemos concluir que nossa abordagem obteve melhores resultados. Além disso, pelos resultados obtidos, consideramos que nossa abordagem, ao utilizar uma ontologia, pode ser um inicio de como empregar as ontologias como ferramenta de apoio para dar um maior significado semântico às tags que existem num sistema colaborativo e como as ontologias permitem a adição de termos na consulta, sendo estes termos relacionados a uma área do conhecimento, que para nosso caso, a área da arquitetura. Desta maneira podemos recuperar os documentos associados às imagens, os quais serão mais relevantes para consulta feita pelo usuário. / Information retrieval is an essential issue in different web system that needs to be improved. In recent years, collaborative systems have gained popularity. In this thesis, we use a collaborative system of architectural image sharing, that users can add titles and tags freely to describe an image. However, the tags may have an ambiguous meaning, resulting in recovering images that are not relevant when traditional technics are used, such as Boolean and keyword search. In addition, users usually use natural language in their queries and with the mentioned techniques it is less posible to retrieve relevant information. Our research approach is to construct an ontology for architectural domain, based on the controlled vocabulary of USP and the experimental thesaurus architecture information. The ontology allowed to enhance the relationship between tags and structured concepts of ontology, improving the information retrieval through the expanded terms. And when the expanded query is used in conjunction with the vector space model in the recovery system, it helps retrieve more relevant images. The evaluation of our approach was carried out through experiments that used data of Arquigrafia system, two sets of queries were created and metrics like precision, coverage and measure-F were used. The sets consisted of 11 queries given by architecture experts and 9 random queries extracted from Google Analytics logs of the Arquigrafia system, taking a total of 20 queries. In our experiments we used the 20 queries from the two sets, among which we obtained positive results for 16 queries, considering precision, coverage and F-measure values greater than 50%, applying our approach. In comparison to another approach, which uses the Boolean search technique, we obtained 1 query with positive result, also considering the same metrics with values greater than 50%. Thus, we can conclude that our approach has achieved better results. In addition, from the results obtained, we consider that our approach using an ontology can be a beginning of how to use ontologies as a support tool to give a greater semantic meaning to tags that exist in a collaborative system, and how Ontologies allow the addition of semantic terms in queries, like terms related to a knowledge area, in our case the area of architecture. In this way we can retrieve documents associated with images, which will be more relevant to the user\'s query.
|
10 |
GESTÃO DO PATRIMÔNIO DOCUMENTAL: ELABORAÇÃO DO VOCABULÁRIO CONTROLADO PARA ORGANIZAR E ACESSAR INFORMAÇÕES ARQUIVÍSTICAS / DOCUMENTARY HERITAGE MANAGEMENT: CONTROLLED VOCABULARY PREPARATION TO ORGANIZE AND ACCESS ARCHIVAL INFORMATIONIlha, Rita Medianeira 13 May 2013 (has links)
The study of the vocabulary used to name the Federal University of Santa Maria (UFSM) functions and activities is the one presented in this research aiming at controlling the vocabulary and, to build a controlled vocabulary as a means of standardization to improve the searching and access of documents. This is an applied research with a qualitative approach that seeks to develop the knowledge making it possible to understand and transform the reality regarding the presented topic. The work was structured considering the documents classification plan that already existed, which were used to survey the terms used to name classes, subclasses and document types. The survey made it possible to identify and analyze the terminological differences and, to apply the vocabulary control to both micro and macro vocabulary control procedures. The result was the development of a Controlled Vocabulary, disposed in alphabetical order, containing the adopted and not adopted terms, serving as a remitting. The purpose is to qualify the UFSM Archival System with regard to documents search and access. / O estudo do vocabulário utilizado para denominar as funções e atividades da Universidade Federal de Santa Maria é o que apresenta esta pesquisa, visando o controle do vocabulário e a construção do Vocabulário Controlado, como forma de padronização, para aprimorar a busca e o acesso aos documentos. Trata-se de uma pesquisa aplicada, de abordagem qualitativa que busca a elaboração de conhecimento que possibilite a compreensão e transformação da realidade em relação ao tema apresentado. O trabalho foi estruturado levando em conta os planos de classificação de documentos já elaborados, que serviram para realizar o levantamento dos termos usados para denominar as classes, subclasses e tipos documentais. O levantamento possibilitou identificar e analisar as divergências terminológicas e, com isso, aplicar o controle do vocabulário, no que se refere aos procedimentos micro e macro. O resultado foi a elaboração do Vocabulário Controlado, disposto através de lista alfabética, que dispõe tanto dos termos adotados como dos termos não adotados, servindo como remissiva. O propósito é qualificar o Sistema de Arquivos da UFSM no que se refere à busca e ao acesso aos documentos.
|
Page generated in 0.0508 seconds