Global ETD Search

Return to search

Modelo e método semântico para organização e recuperação de documentos

A crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida.
Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação.
Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo.
Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário.
O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura.
Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância.

http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2873

Arquitetura de software

Web semântica

Ontologias (inteligência artificial)

Tratamento da informação

Recuperação da informação

Documentos eletrônicos

Engenharia de software

Computação

Identifer	oai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2873
Date	12 December 2013
Creators	Andréia Dal Ponte Novelli
Contributors	José Maria Parente de Oliveira
Publisher	Instituto Tecnológico de Aeronáutica
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Format	application/pdf
Source	reponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0018 seconds

Modelo e método semântico para organização e recuperação de documentos

Description

Links & Downloads

Tags

Additional Fields