Spelling suggestions: "subject:"eeb"" "subject:"beb""
461 |
Searching or surfing : how do students who use the Web locate information resources?Cothey, Viv January 2002 (has links)
This investigation is a large scale study of the real world Web information seeking activity of 1,050 full-time undergraduates studying at a UK higher education institution. The study takes the form of a transaction log analysis of a Web log which records over a two year period all the 1,990,488 URLs requested by the students during 46,558 daily sessions. The analysis focuses on how individual students seek Web information. This is made possible by each user being (anonymously) identified throughout the Web log. Both longitudinal and non-longitudinal or repeat study analyses are undertaken. The analyses make use of a novel session-conformance metric which measures the similarity/dissimilarity of the collection of Website requests made during each session. Over time student-users become more individually distinctive in respect of their 'Web territories' or the collections of Websites which they visit and revisit during each session. Student-users become more territorial in that they increasingly locate their Web information resources from within their own Web territories. 'Searching' occurs in only half of all sessions and student-users undertake less 'searching' as their Web territories become more strongly developed. These findings are interpreted using the notion of a personal Web information infrastructure which is based on Marchionini's idea of a personal information infrastructure (Marchionini, 1995). A student-user's personal Web information infrastructure is represented by his (or her) territory. As student-users become more proficient at locating Web information resources to satisfy their individual information needs so they build or strengthen their personal Web information infrastructures.
|
462 |
Sistema adaptativo para web sites baseado no comportamento da formigaTeles, Wesley Martins January 2003 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2003. / Submitted by Jaqueline Ferreira de Souza (jaquefs.braz@gmail.com) on 2013-02-26T13:53:27Z
No. of bitstreams: 1
2003_WesleyMartinsTeles.pdf: 1298223 bytes, checksum: 3c7064129e637d7e7ff91f77be5e2cda (MD5) / Approved for entry into archive by Jaqueline Ferreira de Souza(jaquefs.braz@gmail.com) on 2013-02-26T13:54:04Z (GMT) No. of bitstreams: 1
2003_WesleyMartinsTeles.pdf: 1298223 bytes, checksum: 3c7064129e637d7e7ff91f77be5e2cda (MD5) / Made available in DSpace on 2013-02-26T13:54:04Z (GMT). No. of bitstreams: 1
2003_WesleyMartinsTeles.pdf: 1298223 bytes, checksum: 3c7064129e637d7e7ff91f77be5e2cda (MD5) / O comportamento da formiga pode ser usado como metáfora para melhorar a performance de sistemas tipo Web. Com a tecnologia atual de navegação na Internet, as condições em que o usuário navega procurando suas páginas alvo são muito parecidas com o procedimento das formigas para encontrar alimento. Mas, de forma distinta ao procedimento das formigas, os usuários da Internet não possuem feromônio para que eles possam cooperar entre si no processo de navegação. Com base nestas observações e pela inexistência de um trabalho que tenha como objetivo orientar o usuário da web dando ênfase a otimização de rotas foi desenvolvido um estudo com o objetivo de preencher esta lacuna aplicando o comportamento da formiga na Web que denominamos AntWeb. Este estudo foi dividido em duas partes: O AntWeb para avaliação de websites e o AntWeb adaptativo. Em relação ao AntWeb para avaliação de websites foi desenvolvida uma metodologia de avaliação que foi implementada em um software que tinha como entrada a estrutura de um website e como saída uma medida de performance da estrutura. Em relação ao AntWeb adaptativo, foram desenvolvidos dois modelos heurísticos para guiar o usuário da Web em um contexto de hipermídia adaptativa que chamamos de modelo 1 e modelo 2. O modelo 1 foi implementado e testado no website do Departamento de Ciências da Computação da UnB. Com o modelo 2 foram feitas simulações que mostraram de forma otimista que o modelo 2 pode auxiliar o usuário da Web. O objetivo deste trabalho é relatar as pesquisas feitas com o AntWeb. _______________________________________________________________________________________ ABSTRACT / The ant behavior can be used as a metaphor to improve web systems performance. The present Internet browse tools embody user that can be assumed as ants foraging process. But different from the ants, Internet users don’t have pheromone for a cooperative help. Based in this observation and because of lack of research work that has as objective to guide web user through optimized routes this research was developed. In this research we present AntWeb. This research was divided in two different application of AntWeb: The AntWeb for evaluation of websites and the adaptive AntWeb. In relation to the AntWeb for evaluation of websites, an evaluation methodology was developed and implemented. In this case the input is the structure of a website and as output a measure of performance of the structure is computed. In relation to the adaptive AntWeb, two heuristic models had been developed to guide the web user in a context of adaptive hypermedia that we named model 1 and model 2. Model 1 was implemented and tested in UnB Department of Computer Sciences website. With model 2 simulations had been done to show of the optimized form that AntWeb could assist web users. The main objective of these simulations is to test the research work developed with the AntWeb.
|
463 |
Um framework baseado em plug-ins para raciocínio em ontologias PR-OWL 2Matsumoto, Shou 01 July 2011 (has links)
Dissertação (Mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2011. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2011-11-17T14:31:59Z
No. of bitstreams: 1
2011_ShouMatsumoto.pdf: 22111141 bytes, checksum: 36de6db4496d8a64ae98a33939f967ce (MD5) / Approved for entry into archive by Marília Freitas(marilia@bce.unb.br) on 2012-01-03T15:28:34Z (GMT) No. of bitstreams: 1
2011_ShouMatsumoto.pdf: 22111141 bytes, checksum: 36de6db4496d8a64ae98a33939f967ce (MD5) / Made available in DSpace on 2012-01-03T15:28:34Z (GMT). No. of bitstreams: 1
2011_ShouMatsumoto.pdf: 22111141 bytes, checksum: 36de6db4496d8a64ae98a33939f967ce (MD5) / O volume crescente de informações disponibilizadas na Internet dificulta a localização da informação desejada, visto que os mecanismos de busca usuais são fortemente baseados em aspectos sintáticos. A Web Semântica e a OWL (Web Ontology Language) são tecnologias promissoras para o desenvolvimento de aplicações que permitam realizar buscas complexas na Internet. No entanto, ambas, como atualmente proposto, não consideram a incerteza, a qual é inerente à problemas do mundo real. Uma linha de pesquisa atual bastante ativa é a busca por propostas que ofereçam princípios sólidos e consistentes para raciocínio plausível na Web. Nesse contexto, Probabilistic Web Ontology Language (PR-OWL) (31, 34) emergiu como uma candidata para representação de ontologias probabilísticas na Web. PR-OWL é baseada no formalismo
de MEBN (Multi-Entity Bayesian Network) (67) que é uma linguagem probabilística de primeira ordem. Apesar de sua alta expressividade, PR-OWL falha ao integrar consistentemente o conhecimento probabilístico com conhecimento determinístico oriundo de OWL,
dificultando o reuso de informações “não probabilísticas”. Visando solucionar tal problema, PR-OWL 2, uma versão de PR-OWL que permite mapear propriedades OWL com variáveis
aleatórias, foi proposta na Universidade George Mason (19). Esta dissertação propõe a primeira implementação mundial da especificação PR-OWL 2. Essa implementação foi feita no framework UnBBayes (17, 22, 79, 81, 100), composta de interface gráfica, API e máquina de inferência, todas elas programadas em Java. Para facilitar o desenvolvimento de aplicações, o UnBBayes foi refatorado, migrando para a arquitetura de plug-ins, com o objetivo de se tornar
uma linha de produtos de software com variabilidade resolvida em tempo de execução. Portanto, este trabalho contribui também para a área de Engenharia de Software como um exemplo de linha de produtos de software dinâmico no domínio de Inteligência Artificial. ______________________________________________________________________________ ABSTRACT / The growing volume of information available on the Internet makes it difficult to locate
desired information, because search engines rely basically on syntactic aspects. The Semantic Web and OWL (Web Ontology Language) are promising technologies for developing applications which perform complex searches on the Internet. However, such technologies, as currently proposed, do not consider the uncertainty inherent to real world problems. A very active and up-to-date field of research is to look for proposals that offer principled, consistent, and plausible reasoning on the Web. In such context, Probabilistic Ontology Web Language
(PR-OWL) (31, 34) has emerged as a candidate for representing probabilistic ontologies on the Web. PR-OWL is based on MEBN (Multi-Entity Bayesian Network) formalism (67), which is a first-order probabilistic language. Despite its expressiveness, PR-OWL fails to consistently integrate the probabilistic knowledge with deterministic knowledge coming from OWL, making the reuse of “non-probabilistic” information on probabilistic ontologies very difficult. In
order to solve such problem, PR-OWL 2, a new version of PR-OWL which allows us to create a
mapping from random variables to OWL properties, was proposed at George Mason University (19). This work is intended to offer the first world-wide implementation of PR-OWL 2. This implementation was built on UnBBayes framework (17, 22, 79, 81, 100), offering a GUI, API, and a reasoner, all developed in Java. Additionally, in order to facilitate the development of new applications, the UnBBayes framework was refactored to use a plug-in design, in order to become a Software Product Line with runtime variability. Therefore, this work also contributes to the area of Software Engineering as an example of a Dynamic Software Product Line in the field of Artificial Intelligence.
|
464 |
Construction de corpus généraux et spécialisés à partir du Web (Ad hoc and general-purpose corpus construction from web sources) / Ad hoc and general-purpose corpus construction from web sourcesBarbaresi, Adrien 19 June 2015 (has links)
Le premier chapitre s'ouvre par un description du contexte interdisciplinaire. Ensuite, le concept de corpus est présenté en tenant compte de l'état de l'art. Le besoin de disposer de preuves certes de nature linguistique mais embrassant différentes disciplines est illustré par plusieurs scénarios de recherche. Plusieurs étapes clés de la construction de corpus sont retracées, des corpus précédant l'ère digitale à la fin des années 1950 aux corpus web des années 2000 et 2010. Les continuités et changements entre la tradition en linguistique et les corpus tirés du web sont exposés. Le second chapitre rassemble des considérations méthodologiques. L'état de l'art concernant l'estimation de la qualité de textes est décrit. Ensuite, les méthodes utilisées par les études de lisibilité ainsi que par la classification automatique de textes sont résumées. Des dénominateurs communs sont isolés. Enfin, la visualisation de textes démontre l'intérêt de l'analyse de corpus pour les humanités numériques. Les raisons de trouver un équilibre entre analyse quantitative et linguistique de corpus sont abordées.Le troisième chapitre résume l'apport de la thèse en ce qui concerne la recherche sur les corpus tirés d'internet. La question de la collection des données est examinée avec une attention particulière, tout spécialement le cas des URLs sources. La notion de prétraitement des corpus web est introduite, ses étapes majeures sont brossées. L'impact des prétraitements sur le résultat est évalué. La question de la simplicité et de la reproducibilité de la construction de corpus est mise en avant.La quatrième partie décrit l'apport de la thèse du point de vue de la construction de corpus proprement dite, à travers la question des sources et le problèmes des documents invalides ou indésirables. Une approche utilisant un éclaireur léger pour préparer le parcours du web est présentée. Ensuite, les travaux concernant la sélection de documents juste avant l'inclusion dans un corpus sont résumés : il est possible d'utiliser les apports des études de lisibilité ainsi que des techniques d'apprentissage artificiel au cours de la construction du corpus. Un ensemble de caractéristiques textuelles testées sur des échantillons annotés évalue l'efficacité du procédé. Enfin, les travaux sur la visualisation de corpus sont abordés : extraction de caractéristiques à l'échelle d'un corpus afin de donner des indications sur sa composition et sa qualité. / At the beginning of the first chapter the interdisciplinary setting between linguistics, corpus linguistics, and computational linguistics is introduced. Then, the notion of corpus is put into focus. Existing corpus and text definitions are discussed. Several milestones of corpus design are presented, from pre-digital corpora at the end of the 1950s to web corpora in the 2000s and 2010s. The continuities and changes between the linguistic tradition and web native corpora are exposed.In the second chapter, methodological insights on automated text scrutiny in computer science, computational linguistics and natural language processing are presented. The state of the art on text quality assessment and web text filtering exemplifies current interdisciplinary research trends on web texts. Readability studies and automated text classification are used as a paragon of methods to find salient features in order to grasp text characteristics. Text visualization exemplifies corpus processing in the digital humanities framework. As a conclusion, guiding principles for research practice are listed, and reasons are given to find a balance between quantitative analysis and corpus linguistics, in an environment which is spanned by technological innovation and artificial intelligence techniques.Third, current research on web corpora is summarized. I distinguish two main approaches to web document retrieval: restricted retrieval and web crawling. The notion of web corpus preprocessing is introduced and salient steps are discussed. The impact of the preprocessing phase on research results is assessed. I explain why the importance of preprocessing should not be underestimated and why it is an important task for linguists to learn new skills in order to confront the whole data gathering and preprocessing phase.I present my work on web corpus construction in the fourth chapter. My analyses concern two main aspects, first the question of corpus sources (or prequalification), and secondly the problem of including valid, desirable documents in a corpus (or document qualification). Last, I present work on corpus visualization consisting of extracting certain corpus characteristics in order to give indications on corpus contents and quality.
|
465 |
Utilização de web semântica para seleção de informações de web services no registro UDDI uma abordagem com qualidade de serviço / The use of semantic web for selection of web services information in the UDDI registration an approach with quality serviceLuis Hideo Vasconcelos Nakamura 15 February 2012 (has links)
Este projeto de mestrado aborda a utilização de recursos daWeb Semântica na seleção de informações sobre Web Services no registro UDDI (Universal Description, Discovery, and Integration). Esse registro possui a limitação de apenas armazenar informações funcionais de Web Services. As informações não funcionais que incluem as informações de qualidade de serviço (QoS - Quality of Service) não são contempladas e dessa forma dificulta a escolha do melhor serviço pelos clientes. Neste projeto, a representação da base de conhecimento com informações sobre os provedores, clientes, acordos, serviços e a qualidade dos serviços prestados foi feita por meio de uma ontologia. Essa ontologia é utilizada pelo módulo UDOnt-Q (Universal Discovery with Ontology and QoS) que foi projetado para servir de plataforma para algoritmos de busca e composição de serviços com qualidade. Embora a utilização de semântica possa ser empregada para a composição e automatização de serviços, o foco deste trabalho é a garantia de qualidade de serviço em Web Services. Os algoritmos desenvolvidos empregam recursos da Web Semântica para classificar e selecionar os Web Services adequados de acordo com as informações de qualidade que estão armazenados na ontologia. O módulo e os algoritmos foram submetidos a avaliações de desempenho que revelaram problemas de desempenho com relação a abordagem adotada durante o processo de inferência da ontologia. Tal processo é utilizado para a classificação das informações dos elementos presentes na ontologia. Contudo, uma vez que as informações foram inferidas, o processo de busca e seleção de serviços comprovou a viabilidade de utilização do módulo e de um dos seus algoritmos de seleção / This master project addresses the use of Semantic Web resources in the selection of information about Web Services in UDDI registry (Universal Description, Discovery, and Integration). This registry has the limitation of only storing functional information of Web Services. The nonfunctional information that includes the quality of service information (QoS - Quality of Service) is not covered and thus it is complicate to choose the best service for customers. In this project, the representation of the knowledge base with information about the providers, customers, agreements, services and quality of services has been made through an ontology. This ontology is used by the module UDOnt-Q (Universal Discovery with Ontology and QoS) that was designed to serve as a platform for search algorithms and composition of services with quality. Although the use of semantics can be adopted for the composition and automation of services, the focus of this work is to guarantee quality of service in Web Services. The developed algorithms employ SemanticWeb resources to classify and select the appropriate Web Services according to the quality information that is stored in the ontology. The module and the algorithms have been subjected to performance evaluations that revealed performance problems in relation to the approach taken during the ontology inference process. This process is used for classification of information of the elements present in the ontology. However, since the information was inferred, the process of search and selection services proved the viability of using the module and one of its selection algorithms
|
466 |
Portal de conhecimento sobre critérios, estratégias, técnicas e ferramentas de teste de aplicações web / Knowledge portal about testing web application criteria, procedures, techniques and toolsMarcella Letícia de Souza Costa 26 February 2008 (has links)
O advento da tecnologia da Internet, juntamente com a World Wide Web, popularizaram e permitiram uma grande expansão e demanda por aplicações web. Por executarem em um ambiete heterogêneo e complexo, as aplicações web apresentam várias características que as diferenciam dos sistemas tradicionais. As particularidades dessas aplicações tornam o fator qualidade essencial para o sucesso dessas aplicações. Alguns requisitos de qualidade, como usabilidade, confiabilidade, interoperabilidade e segurança devem, então, ser validados. Para assegurar a qualidade desejada, são necessárias executar as atividades de Verificação, Validação e Teste (VV&T). Dentre elas, as mais utilizadas são as atividades de teste. Os critérios, estratégias e ferramentas de teste precisam ser identificados e avaliados para se estabelecer uma relação entre os custos e benefícios entre elas, a fim de guiar a escolha de cada uma durante os testes de aplicações web. A realização de estudos experimentais para realizar essa análise beneficia tanto a academia, nas atividades de ensino e pesquisa, como a indústria, nas atividades de seleção e aplicação de critérios, estratégias e ferramentas de teste de aplicações web. Para que os resultados obtidos estejam acessíveis, é proposto o desenvolvimento de um portal de conhecimento que disponibilize de maneira sistemática o conhecimento obtido sobre critérios, estratégias e ferramentas de teste de aplicações web. Esse portal tem como objetivo oferecer às organizações um ambiente compartilhado de conhecimento, a fim de proporcionar a existência de um ciclo de criação, troca, retenção e reuso do conhecimento / The development of internet technology, along with the World Wide Web, made popular and allowed a demand boom and expansion of web applications. Web applications present some characteristics that differentiate them from the traditional systems, since they execute in a heterogeneous and complex environment. The particularities of these applications demand quality as an essential factor for success. Is this way, quality requirements, like usability, reliability, interoperability and security must be validated. To assure the desired quality, it\'s necessary to execute the activities of Verification, Validation and Test (VV&T), where the most used are the testing activities. The testing criteria, strategies and tools need to be identified and evaluated to establish a relation between the costs and benefits, in order to guide the choice of each one during the tests of web applications. The carrying out of experimental studies benefits the academy, in the activities of education and research, and the industry, in the activities of selection and application of criteria, strategies and tools of testing web applications. Moreover, these results need to be accessible to make available information to the interest people. This work presents the development of a knowledge portal, to facilitate knowledge sharing in a systematic way, with information of test criteria, strategies and tools for validating web applications. This portal intends to offer to the organizations and academic institutions a shared environment of web application test knowledge, in order to constitute a knowledge creation, change, retention and reuse cycle
|
467 |
Preenchimento automático de formulários na web oculta / Automatically filling in hiddenweb formsKantorski, Gustavo Zanini January 2014 (has links)
Muitas informações disponíveis na Web estão armazenadas em bancos de dados on-line e são acessíveis somente após um usuário enviar uma consulta por meio de uma interface de busca. Essas informações estão localizadas em uma parte da Web conhecida como Web Oculta ou Web Profunda e, geralmente, são inacessíveis por máquinas de busca tradicionais. Uma vez que a forma de acessar os dados na Web Oculta se dá por intermédio de submissões de consultas, muitos trabalhos têm focado em como preencher automaticamente campos de formulários. Esta tese apresenta uma metodologia para o preenchimento de formulários na Web Oculta. Além disso, descreve uma categorização das técnicas de preenchimento de formulários existentes no estado da arte de coleta na Web Oculta, produzindo uma análise comparativa entre elas. A solução proposta descreve um método automático para seleção de valores para campos de formulários combinando heurísticas e técnicas de aprendizagem de máquina. Experimentos foram realizados em formulários reais da Web, de vários domínios, e os resultados indicam que a abordagem proposta apresenta desempenho comparável aos obtidos pelas técnicas do estado da arte, sendo inclusive significativamente diferente com base em avaliação estatística. / A large portion of the information on the Web is stored inside online databases. Such information is accessible only after the users submit a query through a search interface. TheWeb portion in which that information is located is called HiddenWeb or DeepWeb, and generally this part is inaccessible by traditional search engines crawlers. Since the only way to access the Hidden Web pages is through the query submissions, many works have focused on how to fill in form fields automatically, aiming at enhancing the amount of distinct information hidden behind Web forms. This thesis presents an automatic solution to value selection for fields in Web forms. The solution combines heuristics and machine learning techniques for improving the selection of values. Furthermore, this proposal also describes a categorization of form filling techniques and a comparative analysis between works in the state of the art. Experiments were conducted on real Web sites and the results indicated that our approach significantly outperforms a baseline method in terms of coverage without additional computational cost.
|
468 |
WebTestManager : ferramenta de apoio ao processo de teste de aplicações web / Webtestmaneger : tool for support process web applicationSilva, Delcio Nonato Araujo da January 2003 (has links)
Este trabalho apresenta uma ferramenta para o gerenciamento do processo de teste de aplicações baseadas na Web, priorizando as fases de planejamento e execução através da integração com os resultados de ferramentas automatizadas. Nos últimos anos a World Wide Web apresentou um crescimento extraordinário com novas aplicações em diversas áreas, como por exemplo, comércio eletrônico, serviços governamentais, educação, entretenimento, entre outras, necessitando assim um maior controle de qualidade das aplicações baseadas na Web. A Engenharia para Web é uma nova disciplina cujo objetivo é a utilização de processos, abordagens sistemáticas, princípios de gerenciamento e de engenharia com a finalidade de projetar, implementar, testar e manter sistemas e aplicações baseados na Web com alta qualidade. A qualidade e a confiabilidade das aplicações Web devem ser controladas como em todo produto de software. Porém, algumas características particulares mostram que as aplicações Web devem exigir uma maior preocupação, em função da heterogeneidade de plataformas de hardware e de software, e do grande número de usuários. O teste de aplicações web deve abranger diversas áreas como validação de códigos, navegação, desempenho, usabilidade, segurança, compatibilidade, funcionalidade, interoperabilidade, confiabilidade e integridade dos dados. A ferramenta proposta neste trabalho, chamada de WebTestManager, realiza o planejamento do processo de teste voltado para aplicações Web, na qual casos de testes são introduzidos de acordo com os requisitos de cada área de teste. Esta ferramenta permite o armazenamento de informações de teste e seus resultados, possibilitando uma avaliação através de métricas de teste. Como estudo de caso, a ferramenta é exemplificada no planejamento do teste de uma aplicação de bancária desenvolvida para a Web e de uma aplicação de reserva e compra de passagens aéreas. / This work presents a tool for the managing the testing process of Web based applications, which prioritizes the planning and execution phases with the integration of testing results from automated tools. In the last years, the World Wide Web has presented an extraordinary growth related to new applications on several areas, such as electronic trade, government services, education, and entertainment among others, needing though a larger quality control of applications based on that plataform. Web Engineering is a new discipline whose objective is the use of processes, systematic approaches, administration and engineering principles with the purpose of designing, implementing, testing and maintaining high quality systems based on the Web. The quality and reliability of Web applications should be controlled on every software product. However, some inherent characteristics show that the Web applications all demand a larger concern because of the heterogeneity of both hardware and software platforms, and the great number of users. The testing of Web applications all include several approaches such as validation of code, navigation, usability, safety, compatibility, functionality, interoperability, and integrity of data. The tool proposed in this work, called WebTestManager, accomplishes the planning of the testing process for Web applications. Through it, test cases can be introduced in agreement with requirements for each testing type. This tool shall allow the storage of testing information and its results, intented, for metric evaluation of the performed test. That information can be obtained through the execution of automated tools for each testing type. As case studies, the tool is exemplified through a test planning for both a bank application and a flight ticket reservation application on the Web.
|
469 |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada / A supervised learning approach for noise discovery in web pages found in the hidden webLutz, João Adolfo Froede January 2013 (has links)
Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas. / One of the problems of data extraction from web pages is the identification of noise in pages. This task aims at identifying non-informative elements in pages, such as headers, menus, or advertisement. The presence of noise may hinder the performance of search engines and web mining tasks. In this paper we tackle the problem of discovering noise in web pages found in the hidden web, i.e., that part of the web that is only accessible by filling web forms. In hidden web processing, data extraction is usually preceeded by a form filling step, in which the query forms that give access to the hidden web pages are automatically or semi-automatically filled. During form filling relevant data about the queried domain are collected, as field names and field values. Our proposal combines this type of data with syntactic information about the nodes that compose the page. We show empirically that this combination achieves better results than an approach that is based solely on syntactic information. Keywords:
|
470 |
Um modelo de arquitetura para sistemas gerenciadores de dados na WebOLIVEIRA, Lairson Emanuel Rodrigues de Alencar 03 March 2017 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-21T22:07:46Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Lairson Emanuel Rodrigues de Alencar Oliveira.pdf: 5129050 bytes, checksum: 566fd5b3e1493b6e1691d7e9ff17cfaa (MD5) / Made available in DSpace on 2018-06-21T22:07:46Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Lairson Emanuel Rodrigues de Alencar Oliveira.pdf: 5129050 bytes, checksum: 566fd5b3e1493b6e1691d7e9ff17cfaa (MD5)
Previous issue date: 2017-03-03 / FACEPE / A grande quantidade de dados disponível na Web, juntamente com a facilidade de acesso e representação desses dados, criam novos desafios tanto para quem deseja publicar e compartilhar dados na Web quanto para os que desejam usar tais dados. De modo geral, não existe um conhecimento prévio entre os interesses de quem publica os dados, os produtores, e os interesses de quem consome os dados, os consumidores. Nesse contexto, recentemente foi proposta, pelo W3C, uma recomendação para Dados na Web, que busca um entendimento comum entre os produtores e os consumidores e discursa sobre diferentes aspectos relacionados ao compartilhamento de dados na Web, como formatos de dados, acesso, identificadores e metadados. Ao longo dos anos, várias soluções foram desenvolvidas objetivando a publicação e o compartilhamento desses dados na Web. No entanto, as soluções de publicação de dados atuais, que são responsáveis por prover catálogos de dados e manter a interface de comunicação entre os produtores e consumidores, não implementam boa parte das orientações propostas pelo W3C como boas práticas. Dado que existe uma carência de soluções que possibilitem o gerenciamento adequado dos dados compartilhados na Web, esta dissertação tem como principal objetivo propor um modelo de arquitetura para um Sistema de Gerenciamento de Dados na Web (SGDW). Pretende-se identificar os principais requisitos que um sistema desse tipo deve atender para prover soluções para as limitações encontradas. Além disso, é proposta uma coleção de serviços que visam facilitar a definição, criação, manutenção, manipulação e compartilhamento dos conjuntos de dados na Web entre diversos usuários e aplicações. / The large amount of data available on the Web along with the ease access and representation of these data create new challenges for those who wish to share data on the Web. In general, there is no prior knowledge between the interests of who share the data, called data producers, and the interests of who use, called data consumers. In this context, W3C proposed a recommendation, called Data on the Web Best Practices (DWBP), that aims a common understanding between data producers and data consumers. The DWBP deals with several aspects related to sharing data on the Web, such as data format, data access, data identifiers and metadata. Besides, over the years, a broad of solutions have been developed for the purpose of publishing and sharing data on the Web. However, current data publishing solutions, which are responsible for providing data catalogs and maintaining the communication interface between data producers and data consumers, do not implement much of the guidelines proposed by the DWBP. Given the lack of solutions that allow the management of shared data on the Web, this work has as main objective to propose an architectural model for a Data on the Web Management System (DWMS). We also identify the main requirements that a DWMS must meet to overcome the limitations of existing solutions. In addition, we developed a proof of concept and we propose a collection of services that aim to facilitate the definition, creation, maintenance, manipulation and sharing of datasets on the Web among users and applications.
|
Page generated in 0.0681 seconds