Spelling suggestions: "subject:"pam (mensagens eletrônica)"" "subject:"pam (mensagens eletrônicos)""
1 |
Contribuições ao combate de web spamming / Contributions to the battle against web spammingSilva, Renato Moraes, 1988- 22 August 2018 (has links)
Orientadores: Akebo Yamakami, Tiago Agostinho de Almeida / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-22T13:22:48Z (GMT). No. of bitstreams: 1
Silva_RenatoMoraes_M.pdf: 4136928 bytes, checksum: 218846058592353cb167c8c2d61e1bfd (MD5)
Previous issue date: 2013 / Resumo: Com o crescente aumento do volume de informações disponíveis na Web, as ferramentas de busca tornam-se cada vez mais importantes para os usuários da Internet. Consequentemente, com o objetivo de se tornar mais visíveis, os sites concorrem entre si para ganhar melhores posições nos resultados das buscas feitas por esses usuários. Porém, muitos ganham maior visibilidade através de estratégias que enganam as ferramentas de busca. Esses sites, conhecidos como Web spam, causam prejuízos pessoais e econômicos aos usuários. Diante desse cenário, este trabalho apresenta uma análise do desempenho de diversos métodos de aprendizado de máquina aplicados na detecção automática de Web hosts que propagam Web spam. Os experimentos foram realizados usando duas bases de dados reais, públicas e de grande porte, das quais foram extraídos três diferentes conjuntos de vetores de atributos: baseados no conteúdo das páginas Web, baseados nos links das páginas Web e formados pela transformação dos atributos baseados nos links. Também foi analisada a viabilidade da redução de dimensionalidade do espaço dos atributos. Outra contribuição desse trabalho é a proposta de uma abordagem de classificação de Web spam, em que as predições obtidas com cada tipo de vetor de atributos são combinadas e uma decisão final é obtida usando-se voto majoritário simples. Os resultados obtidos indicam que os métodos de bagging de árvores de decisão, redes neurais perceptron de múltiplas camadas, floresta aleatória e boosting adaptativo de árvores de decisão são promissores na tarefa de detecção de Web spam. Além disso, verificou-se que os métodos de aprendizado tem melhor desempenho quando os vetores de atributos baseados no conteúdo e os vetores formados pela transformação dos atributos baseados nos links são combinados. Por fim, a combinação das predições obtidas com cada tipo de vetor de atributos gera bons resultados e por isso, essa é uma abordagem recomendada para o combate de Web spamming / Abstract: Due to the increasing volume of information available on the Web, search engines become increasingly important to Internet users. Consequently, with the purpose of becoming more visible, the Web sites compete to achieve better positions in the results of the searches made by such users. However, many of them achieve a good visibility through strategies that try to circumvent the search engines. This kind of Web sites are known as Web spam and they are responsible for personal injury and economic losses to users. Given this scenario, this work presents a performance analysis of established machine learning techniques employed to automatically detect Web hosts that disseminate Web spam. The experiments were performed with two real, public and large datasets, from which were extracted three different sets of features vectors: contentbased ones, link-based ones and features vectors generated by the transformation of the link-based features. We also analyzed the viability of the dimensionality reduction of the feature space. Another contribution of this work is the proposal of a Web spam classification approach which combines the predictions achieved by each type of features vector and using a simple majority voting. The results indicate that bagging of decision trees, multilayer perceptron neural networks, random forest and adaptive boosting of decision trees are promising in the task of spam hosts classification. Furthermore, we have conclude that the learning techniques perform better when we have combined the content-based features vectors and the features vectors generated by the transformation of the link-based features. Finally, the combination of the predictions achieved with each type of features vector has achieved superior results and therefore it is a recommended approach to automatically detect Web spam / Mestrado / Automação / Mestre em Engenharia Elétrica
|
2 |
Teoria da ressonância adaptativa através da linguagem Java para detecção e classificação de e-mails indesejados /Santos Junior, Carlos Roberto dos. January 2013 (has links)
Orientador: Anna Diva Plasencia Lotufo / Coorientador: Maria do Carmo Gomes da Silveira / Banca: Mara Lúcia Martins Lopes / Banca: Benedito Isaias de Lima Lopes / Resumo: O problema de mensagens não solicitadas pelos usuários em meios de comunicação eletrônica, apesar de ter surgido antes mesmo da popularização da Internet, ainda é um assunto preocupante. Desperdício de largura de banda, perda de tempo, de produtividade e de dados, ou atraso na leitura de e-mails legítimos, são alguns dos problemas que as mensagens não solicitadas, ou Spams, podem causar. Diversas técnicas de filtragem automática de e-mails são apresentadas na literatura, porém muitas destas não oferecem a possibilidade de adaptação, já que o problema em sistemas reais tem como um de seus principais aspectos ser dinâmico, ou seja, mudar constantemente de características com intuito de evadir as técnicas de filtragem. Neste trabalho é desenvolvido um filtro anti-spam utilizando uma técnica de préprocessamento disponível na literatura, no qual os e-mails são submetidos à extração e seleção de características; e uma Rede Neural Artificial baseada na Teoria da Ressonância Adaptativa, para detecção e classificação de Spams. Tais redes neurais possuem grande capacidade de generalização e adaptabilidade, características importantes para um bom desempenho de filtros anti-spam. O modelo proposto neste trabalho é testado a fim de se validar a eficiência do filtro. / Abstract: The problem in receiving non desired messages in electronic communication systems is a very hard task; even it has begun before the popularization of Internet. The problems that these kinds of messages can cause are among others: waste of time, waste of band width, productivity and data or delay in reading the real e-mails. Several e-mail automatic filtering techniques are presented in the literature, however many of them without capacity of adaptation, while the problem in real systems must be dynamical, i.e. avoid filtering techniques. This work develops a SPAM filtering using a pre processing technique available in the literature, where the e-mails are submitted to extract and select the characteristics; and a neural network based on the resonance adaptive theory to detect and classify the SPAMS. These neural networks have capacity in generalization and adaptation, important characteristics of good performance of SPAM filters. The proposed model is submitted to several tests to validate the efficiency of the filter. / Mestre
|
3 |
Teoria da ressonância adaptativa através da linguagem Java para detecção e classificação de e-mails indesejadosSantos Junior, Carlos Roberto dos [UNESP] 28 February 2013 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:22:34Z (GMT). No. of bitstreams: 0
Previous issue date: 2013-02-28Bitstream added on 2014-06-13T19:28:06Z : No. of bitstreams: 1
santosjunior_cr_me_ilha.pdf: 674616 bytes, checksum: 0eb6d5afdb466f77cd53efea2c4e4db7 (MD5) / O problema de mensagens não solicitadas pelos usuários em meios de comunicação eletrônica, apesar de ter surgido antes mesmo da popularização da Internet, ainda é um assunto preocupante. Desperdício de largura de banda, perda de tempo, de produtividade e de dados, ou atraso na leitura de e-mails legítimos, são alguns dos problemas que as mensagens não solicitadas, ou Spams, podem causar. Diversas técnicas de filtragem automática de e-mails são apresentadas na literatura, porém muitas destas não oferecem a possibilidade de adaptação, já que o problema em sistemas reais tem como um de seus principais aspectos ser dinâmico, ou seja, mudar constantemente de características com intuito de evadir as técnicas de filtragem. Neste trabalho é desenvolvido um filtro anti-spam utilizando uma técnica de préprocessamento disponível na literatura, no qual os e-mails são submetidos à extração e seleção de características; e uma Rede Neural Artificial baseada na Teoria da Ressonância Adaptativa, para detecção e classificação de Spams. Tais redes neurais possuem grande capacidade de generalização e adaptabilidade, características importantes para um bom desempenho de filtros anti-spam. O modelo proposto neste trabalho é testado a fim de se validar a eficiência do filtro. / The problem in receiving non desired messages in electronic communication systems is a very hard task; even it has begun before the popularization of Internet. The problems that these kinds of messages can cause are among others: waste of time, waste of band width, productivity and data or delay in reading the real e-mails. Several e-mail automatic filtering techniques are presented in the literature, however many of them without capacity of adaptation, while the problem in real systems must be dynamical, i.e. avoid filtering techniques. This work develops a SPAM filtering using a pre processing technique available in the literature, where the e-mails are submitted to extract and select the characteristics; and a neural network based on the resonance adaptive theory to detect and classify the SPAMS. These neural networks have capacity in generalization and adaptation, important characteristics of good performance of SPAM filters. The proposed model is submitted to several tests to validate the efficiency of the filter.
|
4 |
SPAM = do surgimento à extinção / SPAM : from the rise to the extinctionAlmeida, Tiago Agostinho de 09 October 2010 (has links)
Orientador: Akedo Yamakami / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-16T13:44:58Z (GMT). No. of bitstreams: 1
Almeida_TiagoAgostinhode_D.pdf: 1582584 bytes, checksum: 8a444adaf46219a5200a75deb26be781 (MD5)
Previous issue date: 2010 / Resumo: Nos últimos anos, spams têm se tornado um importante problema com enorme impacto na sociedade. A filtragem automática de tais mensagens impõem um desafio especial em categorização de textos, no qual a característica mais marcante é que os filtros enfrentam um adversário ativo, que constantemente procura evadir as técnicas de filtragem. Esta tese apresenta um estudo abrangente sobre o problema do spamming. Dentre as contribuições oferecidas, destacam-se: o levantamento histórico e estatístico do fenômeno do spamming e as suas consequências, o estudo sobre a legalidade do spam e os recursos jurídicos adotados por alguns países, a análise de medidas de desempenho utilizadas na avaliação dos filtros de spams, o estudo dos métodos mais empregados para realizar a filtragem de spams, a proposta de melhorias dos filtros Bayesianos através da adoção de técnicas de redução de dimensionalidade e, principalmente, a proposta de um novo método de classificação baseado no princípio da descrição mais simples auxiliado por fatores de confidência. Vários experimentos são apresentados e os resultados indicam que a técnica proposta 'e superior aos melhores filtros anti-spams presentes tanto comercialmente quanto na literatura. / Abstract: Spam has become an increasingly important problem with a big economic impact in society. Spam filtering poses a special problem in text categorization, in which the defining characteristic is that filters face an active adversary, which constantly attempts to evade filtering. In this thesis, we present a comprehensive study of the spamming problem. Among many offered contributions we present: the statistical and historical survey of spamming and its consequences, a study regarding the legality of spams and the main juridic methods adopted by some countries, the study and proposal of new performance measures used for the evaluation of the spam classifiers, the proposals for improving the accuracy of Naive Bayes filters by using dimensionality reduction techniques and a novel approach to spam filtering based on the minimum description length principle and confidence factors. Furthermore, we have conducted an empirical experiments which indicate that the proposed classifier outperforms the state-of-the-art spam filters. / Doutorado / Automação / Doutor em Engenharia Elétrica
|
5 |
TubeSpam: Filtragem Automática de Comentários Indesejados Postados no YouTube / TubeSpam: automatic undesired comments filtering on YouTubeAlberto, Túlio Casagrande 03 February 2017 (has links)
Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:06:58Z
No. of bitstreams: 1
ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:07:11Z (GMT) No. of bitstreams: 1
ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:07:27Z (GMT) No. of bitstreams: 1
ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) / Made available in DSpace on 2017-10-03T19:07:37Z (GMT). No. of bitstreams: 1
ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5)
Previous issue date: 2017-02-03 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / YouTube has become an important video sharing platform. Several users regularly produce video content and make this task their main livelihood. However, such success is also drawing the attention of malicious users propagating undesired comments and videos, looking for self-promotion or disseminating malicious links which may have malwares and viruses. Since YouTube offers limited tools for blocking spam, the volume of such messages is shockingly increasing and harming users and channels owners. In addition to the problem being naturally online, comment spam filtering on YouTube is different than the traditional email spam filtering, since the messages are very short and often rife with spelling errors, slangs, symbols and abbreviations. This manuscript presents a performance evaluation of traditional online classification methods, aided by lexical normalization and semantic indexing techniques when applied to automatic filter YouTube comment spam. It was also evaluated the performance of MDLText, a promising text classification method based on the minimum description length principle. The statistical analysis of the results indicates that MDLText, Passive-Aggressive, Naïve Bayes, MDL and Online Gradient Descent obtained statistically equivalent performances. The results also indicate that the lexical normalization and semantic indexing techniques are effective to be applied to the problem. Based on the results, it is proposed and designed TubeSpam, an online tool to automatic filter undesired comments posted on YouTube. / O YouTube tem se tornado uma importante plataforma de compartilhamento de vídeos. Muitos usuários produzem regularmente conteúdo em vídeo e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso também vem despertando a atenção de usuários mal-intencionados, que propagam comentários e vídeos indesejados para se autopromoverem ou para disseminar links maliciosos que podem conter vírus e malwares. Visto que o YouTube atualmente oferece recursos limitados para bloquear spam, o volume dessas mensagens está impactando muitos usuários e proprietários de canais. Além da característica inerentemente online do problema, filtrar spam nos comentários do YouTube é uma tarefa que difere-se da tradicional filtragem de spam em emails, pois as mensagens costumam ser muito mais curtas e repletas de erros de digitação, gírias, símbolos e abreviações que podem dificultar a tarefa de classificação. Assim, nesta dissertação é apresentada a avaliação de desempenho obtido por métodos tradicionais de classificação online auxiliados por técnicas de normalização léxica e indexação semântica, quando aplicados na filtragem automática de comentários indesejados postados no YouTube. Foi avaliado também o desempenho do MDLText, um promissor método de classificação de texto baseado no princípio da descrição mais simples. A análise estatística dos resultados indica que os métodos MDLText, Passivo-Agressivo, Naïve Bayes, MDL e Gradiente Descendente Online obtiveram desempenhos equivalentes. Além disso, os resultados também indicam que o uso de técnicas de normalização léxica e indexação semântica são eficazes para atenuar os problemas de representação de texto e, consequentemente, aumentar o poder de predição dos métodos de classificação. Baseado nos resultados dos experimentos, foi proposto e desenvolvido o TubeSpam, uma ferramenta online para filtrar automaticamente comentários indesejados postados no YouTube.
|
6 |
Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /Fernandes, Dheny. January 2016 (has links)
Orientador: João Paulo Papa / Coorientador: Kelton Augusto Pontara da Costa / Banca: Aparecido Nilceu Marana / Banca: Jurandy Gomes Almeida Jr. / Resumo: O advento da Internet trouxe amplos benefícios nas áreas de comunicação, entretenimento, compras, relações sociais, entre outras. Entretanto, várias ameaças começaram a surgir nesse cenário, levando pesquisadores a criar ferramentas para lidar com elas. Spam, malwares, conteúdos maliciosos, pishing, fraudes e falsas URLs são exemplos de ameaças. Em contrapartida, sistemas antivírus, firewalls e sistemas de detecção e prevenção de intrusão são exemplos de ferramentas de combate às tais ameaças. Principalmente a partir de 2010, encabeçado pelo malware Stuxnet, as ameaças tornaram-se muito mais complexas e persistentes, fazendo com que as ferramentas até então utilizadas se tornassem obsoletas. O motivo é que tais ferramentas, baseadas em assinaturas e anomalias, não conseguem acompanhar tanto a velocidade de desenvolvimento das ameaças quanto sua complexidade. Desde então, pesquisadores têm voltado suas atenções a métodos mais eficazes para se combater ciberameaças. Nesse contexto, algoritmos de aprendizagem de máquina estão sendo explorados na busca por soluções que analisem em tempo real ameaças provenientes da internet. Assim sendo, este trabalho tem como objetivo analisar o desempenho dos classificadores baseados em Floresta de Caminhos Ótimos, do inglês Optimum-path Forest (OPF), comparando-os com os demais classificadores do estado-da-arte. Para tanto, serão analisados dois métodos de extração de características: um baseado em tokens e o outro baseado em Ngrams, sendo N igual a 3. De maneira geral, o OPF mais se destacou no não bloqueio de mensagens legítimas e no tempo de treinamento. Em algumas bases a quantidade de spam corretamente classificada também foi alta. A versão do OPF que utiliza grafo completo foi melhor, apesar de que em alguns casos a versão com grafo knn se sobressaiu. Devido às exigências atuais em questões de segurança, o OPF, pelo seu rápido tempo de treinamento,... / Abstract: The advent of Internet has brought widespread benefits in the areas of communication, entertainment, shopping, social relations, among others. However, several threats began to emerge in this scenario, leading researchers to create tools to deal with them. Spam, malware, malicious content, phishing, fraud and false URLs are some examples of these threats. In contrast, anti-virus systems, firewalls and intrusion detection and prevention systems are examples of tools to combat such threats. Especially since 2010, headed by the Stuxnet malware, threats have become more complex and persistent, making the tools previously used became obsolete. The reason is that such tools based on signatures and anomalies can not follow both the speed of development of the threats and their complexity. Since then, researchers have turned their attention to more effective methods to combat cyber threats. In this context, machine learning algorithms are being exploited in the search for solutions to analyze real-time threats from the internet. Therefore, this study aims to analyze the performance of classifiers based on Optimum-path Forest, OPF, comparing them with the other state-of-the-art classifiers. To do so, two features extraction methods will be analyzed: one based on tokens and other based on Ngrams, considering N equal 3. Overall, OPF stood out in not blocking legitimate messages and training time. In some bases the amount of spam classified correctly was high as well. The version that uses complete graph was better, although in some cases the version that makes use of knn graph outperformed it. Due to the current demands on security issues, OPF, considering its fast training time, can be improved in its effectiveness aiming at a real application. In relation to feature extraction methods, 3gram was better, improving OPF's results / Mestre
|
7 |
Filtragem automática de opiniões falsas: comparação compreensiva dos métodos baseados em conteúdo / Automatic filtering of false opinions: comprehensive comparison of content-based methodsCardoso, Emerson Freitas 04 August 2017 (has links)
Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T17:30:32Z
No. of bitstreams: 1
CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T17:30:45Z (GMT) No. of bitstreams: 1
CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T17:32:37Z (GMT) No. of bitstreams: 1
CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) / Made available in DSpace on 2017-10-09T17:32:49Z (GMT). No. of bitstreams: 1
CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5)
Previous issue date: 2017-08-04 / Não recebi financiamento / Before buying a product or choosing for a trip destination, people often seek other people’s opinions to obtain a vision of the quality of what they want to acquire. Given that, opinions always had great influence on the purchase decision. Following the enhancements of the Internet and a huge increase in the volume of data traffic, social networks were created to help users post and view all kinds of information, and this caused people to also search for opinions on the Web. Sites like TripAdvisor and Yelp make it easier to share online reviews, since they help users to post their opinions from anywhere via smartphones and enable product manufacturers to gain relevant feedback quickly in a centralized way. As a result, most people nowadays trust personal recommendations as much as online reviews. However, competition between service providers and product manufacturers have also increased in social media, leading to the first cases of spam reviews: deceptive opinions published by hired people that try to promote or defame products or businesses. These reviews are carefully written in order to look like authentic ones, making it difficult to be detected by humans or automatic methods. Thus, they are used, in a misleading way, in attempt to control the general opinion, causing financial harm to business owners and users. Several approaches have been proposed for spam review detection and most of them use techniques involving machine learning and natural language processing. However, despite all progress made, there are still relevant questions that remain open, which require a criterious analysis in order to be properly answered. For instance, there is no consensus whether the performance of traditional classification methods can be affected by incremental learning or changes in reviews’ features over time; also, there is no consensus whether there is statistical difference between performances of content-based classification methods. In this scenario, this work offers a comprehensive comparison between traditional machine learning methods applied in spam review detection. This comparison is made in multiple setups, employing different types of learning and data sets. The experiments performed along with statistical analysis of the results corroborate offering appropriate answers to the existing questions. In addition, all results obtained can be used as baseline for future comparisons. / Antes de comprar um produto ou escolher um destino de viagem, muitas pessoas costumam buscar por opiniões alheias para obter uma visão da qualidade daquilo que se deseja adquirir. Assim, as opiniões sempre exerceram grande influência na decisão de compra. Com o avanço da Internet e aumento no volume de informações trafegadas, surgiram redes sociais que possibilitam compartilhar e visualizar informações de todo o tipo, fazendo com que pessoas passassem a buscar também por opiniões na Web. Atualmente, sites especializados, como TripAdvisor e Yelp, oferecem um sistema de compartilhamento de opiniões online (reviews) de maneira fácil, pois possibilitam que usuários publiquem suas opiniões de qualquer lugar através de smartphones, assim como também permitem que fabricantes de produtos e prestadores de serviços obtenham feedbacks relevantes de maneira centralizada e rápida. Em virtude disso, estudos indicam que atualmente a maioria dos usuários confia tanto em recomendações pessoais quanto em reviews online. No entanto, a competição entre prestadores de serviços e fabricantes de produtos também aumentou nas redes sociais, o que levou aos primeiros casos de spam reviews: opiniões enganosas publicadas por pessoas contratadas que tentam promover ou difamar produtos ou serviços. Esses reviews são escritos cuidadosamente para parecerem autênticos, o que dificulta sua detecção por humanos ou por métodos automáticos. Assim, eles são usados para tentar, de maneira enganosa, controlar a opinião geral, podendo causar prejuízos para empresas e usuários. Diversas abordagens para a detecção de spam reviews vêm sendo propostas, sendo que a grande maioria emprega técnicas de aprendizado de máquina e processamento de linguagem natural. No entanto, apesar dos avanços já realizados, ainda há questionamentos relevantes que permanecem em aberto e demandam uma análise criteriosa para serem respondidos. Por exemplo, não há um consenso se o desempenho de métodos tradicionais de classificação pode ser afetado em cenários que demandam aprendizado incremental ou por mudanças nas características dos reviews devido ao fator cronológico, assim como também não há um consenso se existe diferença estatística entre os desempenhos dos métodos baseados no conteúdo das mensagens. Neste cenário, esta dissertação oferece uma análise e comparação compreensiva dos métodos tradicionais de aprendizado de máquina, aplicados na detecção de spam reviews. A comparação é realizada em múltiplos cenários, empregando-se diferentes tipos de aprendizado e bases de dados. Os experimentos realizados, juntamente com análise estatística dos resultados, corroboram a oferecer respostas adequadas para os questionamentos existentes. Além disso, os resultados obtidos podem ser usados como baseline para comparações futuras.
|
Page generated in 0.1008 seconds