Global ETD Search

1	Detecção de Canvas Fingerprinting em páginas Web baseada em Modelo Vetorial Elleres, Pablo Augusto da Paz, 92-99351-3031 31 March 2017 (has links) Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-08-25T15:51:34Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Pablo Elleres.pdf: 5489693 bytes, checksum: b9a04e1146c232be81cf39a48ae1634d (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-08-25T15:52:08Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Pablo Elleres.pdf: 5489693 bytes, checksum: b9a04e1146c232be81cf39a48ae1634d (MD5) / Made available in DSpace on 2017-08-25T15:52:08Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Pablo Elleres.pdf: 5489693 bytes, checksum: b9a04e1146c232be81cf39a48ae1634d (MD5) Previous issue date: 2017-03-31 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Fingerprinting is a technique applied in order to identify or re-identify a User/ device via a set of attributes such as the size of the device’s screen, IP address identification, the versions of the software installed as well as through other existing features in the process Web communication. The technique is known in Nomenclature website fingerprinting and it has been used as a mechanism for marketing/product sales, however, its development aims to serve as a measure security of user authentication. The question is As it is considered a potencial threat to Web privacy, since personal and sensitive data can be captured and used for malicious purposes in various types of attacks and fraud. The point is that it may and should be considered a potential threat to the privacy of users on the Web, since personal and sensitive data can be captured and used for malicious purposes. Currently a technique that uses image rendering, called Canvas fingerprinting, has also been used for the same purposes as the previous one. This work presents a method that uses information retrieval techniques (via vectorial method) to perform the detection of Canvas Fingerprinting scripts in Web pages. The method consists in calculating the similarity between a base with 100 queries from a Canvas Fingerprinting database and a set of web pages labeled as benign and malignant. The result found showed high levels of similarities with a canvas base (97 %), a base of phishing pages (87 %) and a base with DMOZ directory pages (87 %). / Fingerprinting é a técnica aplicada com vistas a identificar ou reidentificar um usuário/dispositivo por intermédio de um conjunto de atributos como: o tamanho da tela do dispositivo, a identificação do endereço IP, as versões dos softwares instalados, assim como por meio de outras características existentes no processo de comunicação daWeb. A técnica é conhecida pela nomenclatura deWebsite fingerprinting e tem sido utilizada como mecanismo de marketing/vendas de produtos, mas pode muito bem ser empregada como medida de segurança na autenticação de usuários. A questão é que ela pode e deve ser considerada uma ameaça potencial a privacidade dos usuários na Web, já que dados pessoais e sigilosos podem ser capturados e empregados para fins maliciosos. Atualmente uma técnica que utiliza renderização de imagens, denominada Canvas fingerprinting, também tem sido utilizada para burlar a privacidade dos usuários de websites. Este trabalho apresenta um método que emprega técnicas de recuperação da informação (via método vetorial), para realizar a detecção de scripts Canvas Fingerpriting em páginas Web. O método consiste em realizar o cálculo da similaridade entre uma base com 100 consultas reconhecidamente ligadas à Canvas Fingerpriting e bases de dados com páginas tidas como benignas e malignas. O resultado encontrado mostrou que níveis altos de similaridades com uma base de Canvas (97%), uma base de páginas phishing (87%) e uma base com páginas do diretório DMOZ (87%). Website Fingerprinting Canvas Fingerprinting Recuperação da Informação Método Vetorial
2	Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos. / Creation of thematic vectors of domains for the polysemic disambiguation of terms. BISPO, Magna Celi Tavares. 01 August 2018 (has links) Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-01T17:34:31Z No. of bitstreams: 1 MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) / Made available in DSpace on 2018-08-01T17:34:31Z (GMT). No. of bitstreams: 1 MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) Previous issue date: 2012-11-30 / A ambiguidade de termos é um dos fatores que dificulta o processo de indexação de documentos e recuperação de informação desejada por um usuário. O presente trabalho se baseia na hipótese de que parte deste problema pode ser minimizado sabendo-se de antemão o domínio do documento que contém termos ambíguos. Para determinar este domínio foram construídos vocabulários temáticos por meio da extração de termos de documentos de domínios de conhecimento pré-determinados, com o uso de regras sintáticas. A Wikipédia foi usada como base de consulta, por ser uma enciclopédia digital contendo as categorias definidas semelhantes à Classificação Decimal Universal (CDU), e cada categoria com uma vasta quantidade de documentos específicos, sendo essa característica fundamental para formação de um vocabulário específico do domínio de um conhecimento. A escolha das categorias foi baseada na CDU, composta de 10 domínios e seus respectivos subdomínios. Os vocabulários obtidos, denominados de Vetores Temáticos de Domínio (VTD), serviram de base para a classificação de novos documentos. Para validação dos VTD's, foram realizados três tipos de experimentos diferentes, o primeiro foi classificar novos documentos utilizando o método vetorial, tendo o VTD como base de consulta. O segundo experimento foi uma classificação utilizando outro classificador, o Intellexer Categorizer, e o terceiro experimento, criou-se um vetor de termos através do Weka, o qual foi submetido a servir de base de consulta para classificar novos documentos, utilizando o modelo vetorial. Os resultados foram satisfatórios, pois mostrou que o VTD obteve uma melhor classificação em relação aos outros métodos, dos 14 novos documentos, classificou 10 corretamente e 4 errados, apresentando uma acurácia de 80%, contra a acurácia de 57% do Intellexer Categorizer e de 50% da classificação utilizando o vetor de termos criado pelo Weka. / Terms ambiguity is one of the factors that hinders the document indexation and information retrieval processes desired by a user. This work is based on the hypothesis that part of this problem can be minimized by knowing beforehand the field of the document that contains ambiguous terms. To determine this domain, typical vocabularies were created through the extraction of terms from documents of predetermined knowledge domains, with the use of syntactical rules. Wikipedia was used as a consultation base because it is a digital encyclopedia that contains the categories defined similar to the Universal Decimal Classification (UDC), each category containing a vast amount of specific documents, being this feature essential for the formation of a domain-specific vocabulary. The choice of the categories was based on the UDC, composed of 10 domains and their respective subdomains. The vocabularies obtained, denominated as Thematic Domain Vectors (TDV), served as the basis for the classification of new documents. For the validation of the TDVs, three different types of experiments were performed: the first was to classify new documents using the vectorial method, with the TDV as a basis of consultation. The second experiment was a classification using another classifier, the Intellexer Categorizer. For the third experiment was created a vector of terms through Weka, which was submitted to serve as a a consultation base to classify new documents using the vectorial model. The results were satisfactory, because they showed that the TDV obtained a better classification relative to other methods. Of the 14 new documents, properly it rated 10 and 4 incorrectly, with an accuracy of 80%, against 57% accuracy of the Intellexer Categorizer program and 50% of the classification using the Weka created vector of terms. Ciência da Computação. Ciência da Informação. Vetores temáticos de domínios Desambiguação polissêmica de termos Indexação de documentos Ambiguidade de termos - indexação Vocabulários temáticos Recuperação da informação Classificação Decimal Universal - CDU Vocabulário controlado Intellexer Categorizer Processamento da linguagem natural Postagger Thematic vocabulaires Document indexing Information retrieval

Search results

Detecção de Canvas Fingerprinting em páginas Web baseada em Modelo Vetorial

Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos. / Creation of thematic vectors of domains for the polysemic disambiguation of terms.