Return to search

Modelo e método semântico para organização e recuperação de documentos

A crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida.
Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação.
Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo.
Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário.
O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura.
Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância.

Identiferoai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2873
Date12 December 2013
CreatorsAndréia Dal Ponte Novelli
ContributorsJosé Maria Parente de Oliveira
PublisherInstituto Tecnológico de Aeronáutica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0018 seconds