1 |
Processos de construção automática de tesauroGranada, Roger Leitzke January 2011 (has links)
Made available in DSpace on 2013-08-07T18:42:28Z (GMT). No. of bitstreams: 1
000437178-Texto+Completo-0.pdf: 938995 bytes, checksum: 7f4e4a024eb9af218b4ff88670a9ca88 (MD5)
Previous issue date: 2011 / The advances in technology have made the amount of information available in digital format increase rapidly. This increase reflects on the importance of efficient systems to Information Retrieval (IR), getting the right information when it's requested by users. Thesauri can be associated with IR systems, allowing the system to query not only by the key term, but also by related terms, obtaining related documents that were not retrieved. The manual construction, long and costly process that gave rise to the first thesaurus, shall be performed automatically, using different methods and processes available today. With this motivation, this dissertation proposes to study three cases of automatic thesauri construction. One method uses statistical techniques to identify the best related terms. Another method uses syntactic knowledge, being necessary to extract, besides the grammatical categories of each term, the relations that a verb have with its subject or object. The latter method makes use of syntactic knowledge and semantic knowledge of the terms, identifying non apparent relations. For this, this latter method uses an adaptation of the Latent Semantic Analysis technique. We developed three methods for automatic thesaurus construction using documents from the field of data privacy. The results were applied to an IR system, allowing the evaluation by domain experts. In conclusion, we observed that, in certain cases, it's better to apply techniques that do not use semantic knowledge of the terms, obtaining better results with methods that use only the syntactic knowledge of them. / Com o progresso da tecnologia, a quantidade de informação disponível em formato digital tem aumentado rapidamente. Esse aumento se reflete na crescente importância de sistemas de Recuperação de Informações (RI) eficientes, obtendo as informações corretas quando requisitadas pelos usuários. Tesauros podem ser associados a sistemas de RI, permitindo que o sistema realize consultas não apenas pelo termo-chave, mas também por termos relacionados, obtendo documentos relacionados, que antes não eram recuperados. A criação manual, processo longo e oneroso que dava origem aos primeiros tesauros, passa a ser realizada automaticamente, através de diferentes métodos e processos disponíveis atualmente. Com esta motivação, este trabalho propõe estudar três processos de construção automática de tesauros. Um método utiliza técnicas estatísticas para a identificação dos melhores termos relacionados. Outro método utiliza conhecimento sintático, sendo necessário extrair, além das categorias gramaticais de cada termo, as relações que um verbo tem com seu sujeito ou objeto. O último método faz a utilização de conhecimento sintático e de conhecimento semântico dos termos, identificando relações que não são aparentes. Para isso, esse último método utiliza uma adaptação da técnica de Análise Semântica Latente. Foram desenvolvidos estes três métodos de geração tesauros a partir de documentos do domínio de privacidade de dados. Os resultados foram aplicados a um sistema de RI, permitindo a avaliação por especialistas do domínio. Como conclusão, observamos que, em determinados casos, é melhor a aplicação de técnicas que não utilizem conhecimento semântico dos termos, obtendo melhores resultados com métodos que utilizam apenas o conhecimento sintático dos mesmos.
|
2 |
Avaliação do processo de indexação de assuntos em repositórios institucionais pela abordagem da recuperação da informação /Tartarotti, Roberta Cristina Dal'Evedove January 2019 (has links)
Orientador: Mariângela Spotti Lopes Fujita / Resumo: Na contemporaneidade, os repositórios institucionais possibilitam a reunião, armazenamento, tratamento, preservação e visibilidade dos recursos informacionais produzidos no âmbito acadêmico. Considerando-se que o campo da Organização do Conhecimento possui os fundamentos teórico-práticos necessários no que tange aos problemas de representação e recuperação em sistemas de recuperação da informação, a proposição da tese foi investigar/avaliar o processo de indexação de assuntos em repositórios institucionais no contexto de bibliotecas universitárias e sua influência na recuperação da informação pelos usuários, visando o aprimoramento do tratamento/da representação temática da informação documental e da recuperação por assuntos. O objetivo geral da pesquisa foi contribuir para a implementação/melhorias de diretrizes de indexação de assuntos em repositórios institucionais no contexto de bibliotecas universitárias, possibilitando a adequada representação e recuperação por assuntos nestes sistemas de recuperação da informação. Para tanto, foram delineados os seguintes objetivos específicos: a) realizar estudo teórico sobre os repositórios institucionais como sistemas de recuperação da informação e do processo de indexação de assuntos em perspectiva dicotômica: do tratamento/da representação e da recuperação por assuntos no contexto de bibliotecas universitárias; b) investigar o tratamento/a representação temática da informação documental em repositórios institucionais no contexto d... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: In present times, the institutional repositories enable the gathering, storage, treatment, preservation and visibility of information resources produced in the academic field. Considering that the Knowledge Organization field has the necessary theoretical-practical foundations regarding the issues of representation and retrieval in information retrieval systems, the proposition of the thesis was to investigate/evaluate the subject indexing process in institutional repositories in the context of academic libraries and its influence on information retrieval by users, aiming at improving the treatment/thematic representation of documentary information and subject retrieval. The general objective of the research was to contribute to the implementation / improvement of subject index guidelines in institutional repositories in the context of academic libraries, enabling the adequate representation and subject retrieval in information retrieval systems. To this end, the following specific objectives were outlined: a) conducting a theoretical study on institutional repositories as information retrieval systems and the subject index process within in a dichotomous perspective: of the treatment/of the representation and of the subject retrieval in the context of academic libraries; b) investigating the treatment/the thematic representation of documentary information in institutional repositories in the context of academic libraries, by means of the application of organizational diagnos... (Complete abstract click electronic access below) / Resumen: En los tiempos contemporáneos, los repositorios institucionales permiten la recolección, almacenamiento, tratamiento, preservación y visibilidad de los recursos informacionales producidos en el campo académico. Considerando que el campo de la Organización del Conocimiento presenta los fundamentos teórico-prácticos necesarios en cuanto a los problemas de representación y recuperación en los sistemas de recuperación de información, la propuesta de la tesis fue investigar/evaluar el proceso de indización por materias en repositorios institucionales y su influencia en la recuperación de información por los usuarios, pretendiendo el perfeccionamiento del tratamiento temático de la información documental y de la recuperación por materias en estos sistemas de recuperación tanto en el contexto de bibliotecas universitarias como en el ámbito académico. El objetivo general de la investigación fue contribuir a la implementación/mejoras de directrices de indización por materias en repositorios institucionales en el contexto de bibliotecas universitarias, posibilitando la adecuada representación y recuperación por materias en estos sistemas de recuperación de información. Para ello, fueron delineados los seguientes objetivos específicos: a) realizar un estudio teórico sobre el proceso de indización por materias desde la perspectiva de la Organización del Conocimiento en perspectiva dicotómica: del tratamiento/de la representación y de la recuperación por materias en el contexto de bibliot... (Resumen completo clicar acceso eletrônico abajo) / Doutor
|
Page generated in 0.0175 seconds