Web scraping o extracción de datos Web es el proceso de recolección de
información de uno o más sitios Web de manera automatizada, emulando la
interacción entre un usuario y un servidor, dicho proceso se basa en el análisis
de estructuras HTML y no requiere la autorización de los propietarios.
El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un
programa informático que extrae contenido Web, dicha intrusión genera un
incremento considerable en el uso de recursos, considerando la permanente
ejecución de instrucciones para obtener tanto contenido como sea posible.
Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos
de extracción de contenido masivo, en el presente trabajo se planteó un patrón
de diseño de software tomando como referencia el patrón Template View de
Martin Fowler, al cual se agregó una capa de aleatorización que permita
generar estructuras HTML no predecibles.
Mediante la aplicación de una herramienta de extracción de contenido a un sitio
Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el
patrón de diseño propuesto, se logró verificar una reducción considerable de la
cantidad de datos extraídos. / Tesis
Identifer | oai:union.ndltd.org:PUCP/oai:tesis.pucp.edu.pe:123456789/7513 |
Date | 26 November 2016 |
Creators | Castañeda Rojas, Edson Bryan |
Contributors | Melgar Sasieta, Héctor Andrés |
Publisher | Pontificia Universidad Católica del Perú |
Source Sets | Pontificia Universidad Católica del Perú |
Language | Spanish |
Detected Language | Spanish |
Type | info:eu-repo/semantics/masterThesis |
Format | application/pdf, application/pdf |
Source | Pontificia Universidad Católica del Perú, Repositorio de Tesis - PUCP |
Rights | info:eu-repo/semantics/openAccess, Atribución-NoComercial-SinDerivadas 2.5 Perú, http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
Page generated in 0.0029 seconds