Spelling suggestions: "subject:"webcrawler"" "subject:"webbcrawler""
1 |
Detection and Monitoring of Improvised Explosive Device Education Networks Through the World Wide Web.Stinson, Robert T. III 06 1900 (has links)
As the information age comes to fruition, terrorist networks have moved mainstream by promoting their
causes via the World Wide Web. In addition to their standard rhetoric, these organizations provide anyone with an
Internet connection the ability to access dangerous information involving the creation and implementation of
Improvised Explosive Devices (IEDs). Unfortunately for governments combating terrorism, IED education networks
can be very difficult to find and even harder to monitor. Regular commercial search engines are not up to this task, as
they have been optimized to catalog information quickly and efficiently for user ease of access while promoting retail
commerce at the same time. This thesis presents a performance analysis of a new search engine algorithm designed to
help find IED education networks using the Nutch open-source search engine architecture. It reveals which web
pages are more important via references from other web pages regardless of domain. In addition, this thesis discusses
potential evaluation and monitoring techniques to be used in conjunction with the proposed algorithm.
|
2 |
Entwurf eines konfigurierbaren Web-Crawler-Frameworks zur weiteren Verwendung fur Single-Hosted Media RetrievalZemlin, Toralf 02 October 2008 (has links) (PDF)
Diese Arbeit beschreibt ein Webcrawler-Framework für die Professur Medieninformatik der Technischen Universität Chemnitz und dessen
Kernimplementierung. Der Crawler traversiert den WWW-Graph. Jedes Dokument durchläuft dabei verschiedene Module
des Frameworks. Ein Schedulingmodul entscheidet über die Reihenfolge der Traversierung. Schwerpunkt dieser Entwicklung
ist die Erweiterungsmöglichkeit für unterschiedliche Variationen des Datensammlers. Es wird gezeigt, welche Informationen
ein Dokument für wesentliche Entscheidungen begleiten müssen. Hierzu zählen Wiedererkennung von Dokumenten,
Schedulingkriterien und URL-Indexpflege. Der Framework ist konfigurierbar. Das heißt, im Kern bezieht sich die Funktion
auf Crawling. Zusätzlich sind Schnittstellen für Filter- und Speicherkomponenten vorgesehen.
Der Crawler verfügt über eine Administrationsschnittstelle, mit Hilfe derer er gesteuert werden kann. Weiterhin sind Status und Statistiken
über Ereignisse und Fortschritte vorgesehen. Außerdem werden Testkriterien aufgezeigt und Probleme diskutiert.
|
3 |
Entwurf eines konfigurierbaren Web-Crawler-Frameworks zur weiteren Verwendung fur Single-Hosted Media RetrievalZemlin, Toralf 18 July 2008 (has links)
Diese Arbeit beschreibt ein Webcrawler-Framework für die Professur Medieninformatik der Technischen Universität Chemnitz und dessen
Kernimplementierung. Der Crawler traversiert den WWW-Graph. Jedes Dokument durchläuft dabei verschiedene Module
des Frameworks. Ein Schedulingmodul entscheidet über die Reihenfolge der Traversierung. Schwerpunkt dieser Entwicklung
ist die Erweiterungsmöglichkeit für unterschiedliche Variationen des Datensammlers. Es wird gezeigt, welche Informationen
ein Dokument für wesentliche Entscheidungen begleiten müssen. Hierzu zählen Wiedererkennung von Dokumenten,
Schedulingkriterien und URL-Indexpflege. Der Framework ist konfigurierbar. Das heißt, im Kern bezieht sich die Funktion
auf Crawling. Zusätzlich sind Schnittstellen für Filter- und Speicherkomponenten vorgesehen.
Der Crawler verfügt über eine Administrationsschnittstelle, mit Hilfe derer er gesteuert werden kann. Weiterhin sind Status und Statistiken
über Ereignisse und Fortschritte vorgesehen. Außerdem werden Testkriterien aufgezeigt und Probleme diskutiert.
|
4 |
Análise da rede de produtos comprados em conjunto no comércio eletrônico / Analysis of the network of products bought together in electronic commerceSantos, Rafael Joseph Pagliuca dos 22 May 2019 (has links)
Este trabalho aborda as áreas de teoria dos grafos, sistemas de recomendação, e comércio eletrônico, que já foram tema de diversas publicações ao longo das últimas décadas. Entretanto, o estudo da importância da utilização de medidas de centralidade de redes como atributos preditivos de modelos de aprendizado de máquina é um assunto que ainda não foi explorado pela literatura. Neste trabalho, além de relatarmos resultados que sugerem que essas medidas de centralidade podem aumentar a precisão dos modelos preditivos, também apresentamos os principais conceitos teóricos de redes complexas, como tipos de redes, caracterização, métricas de distância, além de propriedades de redes reais. Também apresentamos as ferramentas e metodologia utilizadas para o desenvolvimento de um webcrawler próprio, software necessário para a construção da rede de produtos comprados em conjunto no comércio eletrônico. Modelos de aprendizado de máquina foram treinados utilizando a base de produtos obtida pelo webcrawler, possibilitando a obtenção de modelos preditivos de estimativa de preços de produtos, e de previsão de probabilidade de ligação entre produtos da rede. A performance dos modelos preditivos obtidos são apresentadas. / This work approaches areas such as graph theory, recommendation systems, and electronic commerce, which have been chosen as topics for several publications over the last decades. Although, studying the importance of using network centrality measures as predictive features within machine learning models is a topic which was not yet explored on literature. In this work, besides reporting results which suggest that those centrality measures can increase the precision of predictive models, we also present the main theoretical concepts of complex networks, such as network types, characterization, distance metrics, besides some properties of real networks. We also present the tools and methodology used on the development of our own webcrawler, a software required for the generation of the network of products bought together in the electronic commerce. Machine learning models were trained using the product database obtained using the webcrawler, allowing the achievement of predictive models for product price estimation, and also link prediction between products of the network. The performance of the predictive models are also presented.
|
Page generated in 0.037 seconds