Return to search

Automatic Web Resource Compilation Using Data Mining

Análise de Dados e Sistemas de Apoio à Decisão / Master in Data Analysis and Decision Support Systems / Nesta dissertação propomos uma metodologia que automatize a recolha de recursos na
Web e facilite a sua exploração. Um recurso é uma colecção de documentos referentes a
um tópico específico definido pelo utilizador. A intervenção do utilizador é explicitamente requerida numa fase inicial, quando este especifica as suas necessidades de informação e fornece alguns documentos exemplificativos. Após esta fase inicial, de definição e especificação das necessidades de informação, a metodologia mantém-se alinhada corn a contínua evolução das preferências do utilizador que são permanentemente monitorizadas e seguidas sem que seja necessáio requerer explicitamente a sua intervenção. Para tal, a metodologia analisa as preferencias do utilizador a partir das suas acções - guardar, imprimir, visualizar, alterar a categoria de documentos - que são automaticamente registadas durante cada sessão. Desta forma o utilizador fornece informação valiosa ao sistema sem qualquer esforço adicional. A metodologia prevê um nível de apresentação, desenhado com o objectivo de permitir a exploração e análise de colecções volumosas de documentos, através do qual o utilizador explora os seus recursos.
0 s recursos são compilados através de um processo de meta-search, onde as pesquisas
são programadas por um agente que analisa o compromisso entre a actualidade do
recurso e a percentagem de documentos duplicados nas respostas do processo de recolha. As pesquisas são programadas de forma a manter a actualidade do recurso, reduzindo, simultaneamente, o número de pesquisas efectuadas.
A metodologia propõe também os mecanismos necessários para avaliar e controlar de
forma automática a qualidade global do sistema. Esta qualidade é definida num espaço
tridimensional cujas dimensões quantificam o desempenho no que se refere ao nível de
Automação, Eficácia e Eficiência. Cada uma destas dimensões agrega um conjunto de
medidas relevantes para a qualidade global do sistema: o nivel de Automação é
calculado a partir da carga de trabalho que é explicitamente requerida ao utilizador; a
Eficiência é calculada a partir das medidas de precison e accuracy; a Eficiência é calculada com base nas medidas de recall, freshness e novelty. 0 sistema mede e regista permanentemente o valor dos seus parâmetros de qualidade globais, que são usados para activar procedimentos correctivos ou preventivos de forma a corrigir ou antecipar uma degradação da qualidade global do sistema.
A classificação de páginas Web assume-se como uma tarefa critica na nossa metodologia. Para avaliar da adequação de técnicas de aprendizagem semi-supervisionada foram desenhadas e
realizadas algumas experiências. A realização destas experiências foi suportada por um protótipo que implementa parte da metodologia proposta e que foi implementado no decurso deste trabalho. Em particular este protótipo foi
utilizado para compilar dois recursos distintos e para estudar a taxa de erro e a robustez da tarefa de classificação semi-automática.

Identiferoai:union.ndltd.org:up.pt/oai:repositorio-aberto.up.pt:10216/10767
Date05 July 2005
CreatorsEscudeiro, Nuno Filipe Fonseca Vasconcelos
PublisherFaculdade de Economia da Universidade do Porto, FEP
Source SetsUniversidade do Porto
LanguagePortuguese
Detected LanguagePortuguese
TypeDissertação
Formatapplication/pdf, application/pdf
RightsopenAccess

Page generated in 0.0027 seconds