Return to search

Diseño y desarrollo de un módulo de clasificación de páginas Web en base a las características de su contenido utilizando técnicas de minería de datos

Ingeniero Civil Industrial / Este trabajo de título tiene por objetivo principal diseñar y desarrollar un módulo de clasificación de páginas web en base a las características de su contenido utilizando técnicas de minería de datos, lo que se traduce en la utilización de contenido HTML, análisis de texto visible de la página web y la incorporación de una variable que refleja la seguridad web según SSL como variables predictivas para la clasificación de páginas web.
El trabajo se realiza enmarcado en el proyecto AKORI del Web Intelligence Centre de la Facultad de Ciencias Matemáticas de la Universidad de Chile, el cual pretende desarrollar una plataforma computacional para mejorar el diseño y contenido de sitios web mediante el estudio de variables fisiológicas y la aplicación de minería de datos. La plataforma consiste en la implementación de un modelo que sea capaz de predecir mapas tanto de fijación ocular como de dilatación pupilar de manera rápida y precisa.
En esta etapa del proyecto AKORI es necesario mejorar el desempeño de las predicciones descritas, las cuales son realizadas en sitios web reales, de diseño y contenido muy variado. Además el comportamiento que se desea predecir es sobre usuarios de los que se desconoce su motivación para la navegación, lo cual a su vez altera tanto el comportamiento ocular como sus patrones de navegación.
Dado lo anterior se propone como hipótesis de investigación: Es posible clasificar páginas web en base a las características de su contenido para solucionar dos problemas fundamentales, por un lado la clasificación agrupa páginas web maximizando la varianza de páginas web entre clases y minimizando la varianza intra clase, lo cual debiese mejorar considerablemente el desempeño del modelo, puesto que predecir dentro de una clase en la cual los ejemplos tienen mayor similitud disminuye el rango de error, disminuyendo, a su vez el error estándar en la predicción. Por otro lado entrega información sobre la motivación del usuario en la web si se conoce el servicio que ofrece la página web, lo que si bien no es información completa para describir el comportamiento del usuario, puede ser una importante variable de apoyo.
Para el desarrollo del modelo se utiliza un juego de datos de 138 páginas web, escogidas según tráfico de usuarios Chilenos y luego se implementan cinco algoritmos de minería de datos para clasificar entre siete clases de páginas web. El algoritmo Naive Bayes obtiene el mejor desempeño, logrando un accuracy de 78.67%, lo que permite validar la hipótesis de investigación.
Finalmente se concluye que se cumplen todos los resultados esperados y la hipótesis de investigación con resultados satisfactorios considerando la investigación actual.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/143126
Date January 2016
CreatorsFalloux Costa, Gonzalo Alejandro
ContributorsVelásquez Silva, Juan, Vildoso Castillo, Felipe, Ruiz Moreno, Rocío, Calisto Leiva, Ignacio
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsAttribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0032 seconds