Return to search

Ontologias no processo de indexação automática de documentos textuais / Ontologies in automatic indexing proccess of textual documents

Submitted by EDER ANTONIO PANSANI JUNIOR null (epansani@gmail.com) on 2016-06-03T12:24:33Z
No. of bitstreams: 1
Dissertação_ME_Eder_Pansani-v15(Final).pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5) / Approved for entry into archive by Ana Paula Grisoto (grisotoana@reitoria.unesp.br) on 2016-06-06T18:47:42Z (GMT) No. of bitstreams: 1
pansanijunior_ea_me_mar.pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5) / Made available in DSpace on 2016-06-06T18:47:42Z (GMT). No. of bitstreams: 1
pansanijunior_ea_me_mar.pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5)
Previous issue date: 2016-05-06 / Apesar dos avanços tecnológicos das últimas décadas, a busca por informações relevantes ainda é uma tarefa árdua. A recuperação de informação envolve, por um lado, um acervo documental que deve ser representado por expressões linguísticas que resumem seu conteúdo temático. Por outro lado, pessoas tentam descrever linguisticamente as suas necessidades de informação a fim de obterem documentos relevantes para satisfazer tais necessidades. Um sistema de recuperação de informação é, portanto, um elemento mediador entre um acervo documental e seus requisitantes. Um dos aspectos que interferem diretamente na sua eficiência é a forma como os documentos são representados. Sendo assim, pesquisas sobre indexação automática tomam importância, principalmente em ambiente de grande produção e disseminação de documentos, como é o caso da Web. A utilização de vocabulários controlados como elementos de normalização terminológica é um recurso utilizado para melhorar os resultados do processo de indexação. Este trabalho tem por objetivo propor, avaliar e desenvolver um método de utilização de ontologias no processo de indexação automática de documentos textuais, fazendo uso da estrutura lógica e conceitual das ontologias de domínio e implementado um método que permite aos sistemas de indexação automática a realização de inferências automáticas, favorecendo uma representação dos documentos mais semântica e abrangente. Conclui-se com o estudo que a utilização das ontologias como vocabulários controlados em sistemas de indexação automática pode oferecer resultados promissores, permitindo a descoberta automática de termos e a resolução de alguns problemas ligados à linguagem que permeia todo o processo de recuperação de informação. / Despite the technological advances of recent decades, the search for relevant information is still an arduous task. The information retrieval involves, on the one hand, a documentary collection that must be represented by linguistic expressions which summarize its thematic content. On the other hand, people try describing linguistically their information needs in order to obtain relevant documents to satisfy those needs. An information retrieval system is therefore a mediating element between a documentary collection and its requesters. One of the aspects that directly interferes in their efficiency is how documents are represented. Therefore, researches on automatic indexing take importance, particularly, in an environment of large production and dissemination of documents, as it’s the case of the Web. The use of controlled vocabularies as terminology standardization elements is a feature used to improve the results of the indexing process. This study aims to propose, evaluate and develop a method for using ontologies in the automatic indexing process of textual documents, making use of logical and conceptual structure of domain ontologies and implementing a method that enables automatic indexing systems, an execution of automatic inferences, favoring a semantic and comprehensive documents representation. The study conclusion is that the use of ontologies as controlled vocabularies in automatic indexing systems can offer promising results, allowing the automatic discovery of terms and the resolution of some language related problems that permeates the whole process of information retrieval.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unesp.br:11449/138961
Date06 May 2016
CreatorsPansani Junior, Eder Antonio [UNESP]
ContributorsUniversidade Estadual Paulista (UNESP), Ferneda, Edberto [UNESP]
PublisherUniversidade Estadual Paulista (UNESP)
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UNESP, instname:Universidade Estadual Paulista, instacron:UNESP
Rightsinfo:eu-repo/semantics/openAccess
Relation600, 600

Page generated in 0.0024 seconds