Global ETD Search

Return to search

Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Web scraping o extracción de datos Web es el proceso de recolección de
información de uno o más sitios Web de manera automatizada, emulando la
interacción entre un usuario y un servidor, dicho proceso se basa en el análisis
de estructuras HTML y no requiere la autorización de los propietarios.
El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un
programa informático que extrae contenido Web, dicha intrusión genera un
incremento considerable en el uso de recursos, considerando la permanente
ejecución de instrucciones para obtener tanto contenido como sea posible.
Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos
de extracción de contenido masivo, en el presente trabajo se planteó un patrón
de diseño de software tomando como referencia el patrón Template View de
Martin Fowler, al cual se agregó una capa de aleatorización que permita
generar estructuras HTML no predecibles.
Mediante la aplicación de una herramienta de extracción de contenido a un sitio
Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el
patrón de diseño propuesto, se logró verificar una reducción considerable de la
cantidad de datos extraídos. / Tesis

http://tesis.pucp.edu.pe/repositorio/handle/123456789/7513

Patrones de software

Sitios Web--Medidas de segurdidad

Identifer	oai:union.ndltd.org:PUCP/oai:tesis.pucp.edu.pe:123456789/7513
Date	26 November 2016
Creators	Castañeda Rojas, Edson Bryan
Contributors	Melgar Sasieta, Héctor Andrés
Publisher	Pontificia Universidad Católica del Perú
Source Sets	Pontificia Universidad Católica del Perú
Language	Spanish
Detected Language	Spanish
Type	info:eu-repo/semantics/masterThesis
Format	application/pdf, application/pdf
Source	Pontificia Universidad Católica del Perú, Repositorio de Tesis - PUCP
Rights	info:eu-repo/semantics/openAccess, Atribución-NoComercial-SinDerivadas 2.5 Perú, http://creativecommons.org/licenses/by-nc-nd/2.5/pe/

Page generated in 0.0023 seconds

Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Description

Links & Downloads

Tags

Additional Fields