• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 102
  • 9
  • 5
  • 4
  • Tagged with
  • 121
  • 121
  • 63
  • 61
  • 27
  • 24
  • 24
  • 23
  • 22
  • 20
  • 19
  • 18
  • 17
  • 17
  • 15
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas

de Santana Pereira, Cristiano 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T15:51:05Z (GMT). No. of bitstreams: 1 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / Seleção de protótipos é uma técnica de aprendizagem de máquina cujo objetivo é a escolha ou produção de instâncias de dados que consigam a melhor representação para os dados do problema realçando as fronteiras de decisão e mantendo a separação entre as classes. A idéia é reduzir a quantidade de dados e ainda assim obter um conjunto de protótipos que minimize o erro de classificação. As estratégias baseadas em protótipos têm sido bastante utilizadas em aplicações reais nos mais diversos domínios obtendo bons resultados. A proposta deste trabalho foi investigar técnicas de seleção de protótipos baseadas em auto-geração e mistura de gaussianas comparando com algumas técnicas clássicas. Como resultado deste estudo, um modelo híbrido combinando estas duas estratégias foi proposto. Este modelo híbrido supera algumas dificuldades destas técnicas quando analisadas isoladamente, pois eles combinam a vantagem da ausência de parâmetros da auto-geração com a maior capacidade de ajuste nas fronteiras de decisão da mistura de gaussianas. O novo modelo foi avaliado com diversos problemas considerados benchmarks da área de aprendizagem de máquina apresentando desempenho superior na maioria deles quando comparado com as técnicas de auto-geração e mistura de gaussianas analisadas. A segunda parte deste trabalho apresenta um estudo da aplicação da nova estratégia híbrida ao problema específico de segmentação de caracteres. Curvas ROC foram utilizadas para avaliar o desempenho e mais uma vez o modelo híbrido se mostrou superior
52

Descoberta automática de conhecimento em interpretações musicais: o caso do acompanhamento rítmico ao violão

Trajano de Lima Neto, Ernesto January 2007 (has links)
Made available in DSpace on 2014-06-12T15:54:49Z (GMT). No. of bitstreams: 2 arquivo8459_1.pdf: 2232808 bytes, checksum: 252640b0a75adf3bdd9927d8fce6a27b (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2007 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Qualquer musico, com um mInimo de experiência, sabe que tocar uma musica da forma exata como ela esta grafada resulta em algo mecânico e artiFIcial. De fato, a representação simbólica da musica ou notação serve apenas como um guia para o musico, que a modifica de acordo com suas intenções musicais, com um conjunto de regras, aprendidas durante o decorrer de sua vida musical e, em sua grande maioria, não explícitas, e de acordo com uma análise, ainda que superFIcial e intuitiva, da obra a ser interpretada. A forma como a musica e variada pelo músico da-se o nome de interpretação. Diversas pesquisas estudam variados aspectos deste fenômeno. Resultados mostram que, apesar de tratar-se de uma forma de arte, existem aspectos em comum nos diferentes interpretes e em diferentes interpretações. Estas pesquisas concentram-se, todavia, na Musica Classica composta para piano, o que exclui partes signiFIcativas do repertorio musical, em especial, a Musica Popular Brasileira, em estilos como a Bossa Nova e o Samba, e em outros instrumentos como, por exemplo, o violão. Por outro lado, na Computação Musical, diversos pesquisadores têm desenvolvido metodos para a analise automatica de interpretações. Dentre eles, alguns utilizam a Aprendizagem de Maquina e a Mineração de Dados, mas ainda restringem-se a analise da Musica Classica composta para piano. A despeito dessas pesquisas, existe um grande numero de questões sobre a interpretação que permanecem sem resposta. No presente trabalho, explorou-se um subconjunto particular dessas questões, a saber: questões que tratam de como o acompanhamento rItmico ao violão na Bossa Nova e construído pelos interpretes. Neste novo escopo, o trabalho de descoberta automatica de conhecimento musical partiu de um elemento estrutural unificador, o padrão rítmico, e estabeleceu um conjunto de processos computacionais e algoritmos para a extração automatica que forneceram elementos para uma melhor compreensão do fenômeno. Resultaram da pesquisa as seguintes contribuições: um algoritmo para a derivação do dedilhado da mão direita do violonista; uma representação textual desse dedilhado, assim como um processo para a redução da dimensionalidade dessa representação; adaptações de algoritmos de extração de padrões; alem de um conjunto de dados tratados e de ferramentas de analise automatica
53

Tag suggestion using multiple sources of knowledge

MEDEIROS, Ícaro Rafael da Silva 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T15:56:06Z (GMT). No. of bitstreams: 2 arquivo2739_1.pdf: 2586871 bytes, checksum: 3a0e10a22b131714039f0e8ffe875d80 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2010 / Nos sistemas de tagging social usuários atribuem tags (palavras-chave) a recursos (páginas Web, fotos, publicações, etc), criando uma estrutura conhecida como folksonomia, que possibilita uma melhora na navegação, organização e recuperação de informação. Atualmente, esses sistemas são muito populares na Web, portanto, melhorar sua qualidade e automatizar o processo de atribuição de tags é uma tarefa importante. Neste trabalho é proposto um sistema que automaticamente atribui tags a páginas, baseando-se em múltiplas fontes de conhecimento como o conteúdo textual, estrutura de hiperlinks e bases de conhecimento. A partir dessas fontes, vários atributos são extraídos para construir um classificador que decide que termos devem ser sugeridos como tag. Experimentos usando um dataset com tags e páginas extraídas do Delicious, um importante sistema de tagging social, mostram que nossos métodos obtém bons resultados de precisão e cobertura, quando comparado com tags sugeridas por usuários. Além disso, uma comparação com trabalhos relacionados mostra que nosso sistema tem uma qualidade de sugestão comparável a abordagens estado da arte na área. Finalmente, uma avaliação com usuários foi feita para simular um ambiente real, o que também produziu bons resultados
54

Indução de programas lógicos orientados a objetos

ANDRADE, Erivan Alves de January 2003 (has links)
Made available in DSpace on 2014-06-12T15:58:45Z (GMT). No. of bitstreams: 2 arquivo4690_1.pdf: 1106541 bytes, checksum: e0ee713e84c20db1b16b0bd3c706218a (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2003 / Em muitas de suas aplicações práticas tais como Processamento de Linguagem Natural(PLN), CASE, sistemas especialistas em domínios complexos, ontologias de Web semântica e Descoberta de conhecimento em banco de dados(KDD) - Programação em Lógica Indutiva(PLI) não é usada para substituir, mas para complementar aquisição de conhecimento manual. Usar uma linguagem de representação de conhecimento comum para ambos, conhecimento manualmente codificado e conhecimento induzido por PLI, é a idéia chave da sua integração simples. Como a aquisição de conhecimento manual está crescentemente sendo feita utilizando linguagens híbridas que integram objetos com regras ou relações, surgem as questões da viabilidade e praticidade de usar tais linguagens para indução. Nesta dissertação é apresentado Cigolf, um sistema de PLI que usa a linguagem lógica orientada a objeto Flora para representação de conhecimento. Cigolf recebe como entrada uma base de conhecimento prévio, um conjunto de exemplos, e uma especificação de viés de aprendizagem, tudo representado em Flora. Ele traduz esta entrada numa especificação de entrada para um sistema de PLI chamado Aleph. Ele então utiliza uma versão de Aleph para Prolog tabelado na indução de novo conhecimento e traduz este conhecimento aprendido para Flora. São descritas as questões surgidas por este processo de tradução bidirecional e a solução que foi adotada. É mostrada também a comparação de desempenho de Cigolf e Aleph em alguns problemas benchmarks de PLI para avaliar o overhead associado com o uso de uma linguagem de representação lógica orientada a objeto para tarefas de aprendizagem em vez de uma linguagem puramente lógica
55

Clusterização baseada em algoritmos fuzzy

Lopes Cavalcanti Junior, Nicomedes January 2006 (has links)
Made available in DSpace on 2014-06-12T15:59:42Z (GMT). No. of bitstreams: 1 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2006 / Análise de cluster é uma técnica aplicada a diversas áreas como mineração de dados, reconhecimento de padrões, processamento de imagens. Algoritmos de clusterização têm por objetivo particionar um conjunto de dados em clusters de tal forma que indivíduos dentro de um mesmo cluster tenham um alto grau de similaridade, enquanto indivíduos pertencentes a diferentes clusters tenham alto grau de dissimilaridade. Uma importante divisão dos algoritmos de clusterização é entre algoritmos hard e fuzzy. Algoritmos hard associam um indivíduo a somente um cluster. Ao contrário, algoritmos fuzzy associam um indivíduo a todos os clusters através da variação do grau de pertinência do indivíduo em cada cluster. A vantagem de um algoritmo clusterização fuzzy é que este pode representar melhor incerteza e este fato é importante, por exemplo, para mostrar que um indivíduo não é um típico indivíduo de nenhuma das classes, mas tem similaridade em maior ou menor grau com mais de uma classe. Uma forma intuitiva de medir similaridade entre indivíduos é usar medidas de distância tais como a distância euclidiana. Existem muitas medidas de distância disponíveis na literatura. Muitos dos algoritmos de clusterização populares geralmente buscam minimizar um critério baseados numa medida de distância. Através de um processo iterativo estes algoritmos calculam parâmetros de modo a diminuir o valor do critério iteração a iteração até um estado de convergência ser atingido. O problema com muitas das distâncias encontradas na literatura é que elas são estáticas. Para o caso de algoritmos de clusterização iterativos, parece razoável ter distâncias que mudem ou atualizem seus valores de acordo com o que for ocorrendo com os dados e as estruturas de dado do algoritmo. Esta dissertação apresenta duas distâncias adaptativas aplicadas ao algoritmo fuzzy c-means pelo Prof. Francisco de Carvalho. Este algoritmo foi escolhido pelo fato de ser amplamente utilizado. Para avaliar as proposições de distância, experimentos foram feitos utilizando-se conjunto de dados de referência e conjuntos de dados artificiais (para ter resultados mais precisos experimentos do tipo Monte Carlo foram realizados neste caso). Até o momento, comparações das versões do fuzzy c-means, obtidas através da utilização de distâncias adaptativas, com algoritmos similares da literatura permitem concluir que em geral as novas versões têm melhor performance que outros disponíveis na literatura
56

Um framework para transformação automática de documentos e extração de informações baseado em XML

Roberto Bechert Schmitz, Lucas January 2007 (has links)
Made available in DSpace on 2014-06-12T16:00:03Z (GMT). No. of bitstreams: 2 arquivo5835_1.pdf: 1345974 bytes, checksum: a8195e26dbc8a8b67dc9b1d0a6816814 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2007 / Uma grande quantidade de informações, sobre diversos assuntos, se encontra disponível na Web. Essa quantidade cresce ano a ano e, aliados às informações, estão os formatos com que elas estão representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.). Certos formatos dependem de tecnologias e/ou plataformas específicas, dificultando assim o acesso às informações contidas no documento. Tendo em vista esse problema, surge a necessidade de se ter formas para a conversão entre formatos específicos. Muitas ferramentas são oferecidas nesse sentido, porém geralmente oferecem poucas possibilidades de conversão, um ou dois formatos em média. Outro problema gerado pela grande quantidade de informações disponíveis na Web é a questão da filtragem do que realmente é interessante ao usuário que efetua uma busca sobre determinado assunto. Os atuais buscadores trazem como resultados documentos completos com diversas informações além das necessárias ao usuário. A análise do que é ou não interessante fica a cargo do próprio usuário, tornando-se um trabalho manual. A extração automática de informações nos documentos dispostos na Web se torna difícil, pois nem todos os documentos apresentam seus conteúdos de forma estruturada, mas sim, muitos deles apresentam conteúdos semi-estruturados ou ainda, não-estruturados. Na tentativa de amenizar alguns desses problemas foi proposta a construção de um Framework para conversão entre formatos de documentos e extração de informações dos mesmos. Esse Framework é constituído de dois módulos que utilizam o formato XML como intermediador na conversão requerida. Esses módulos são: (1) o de conversão de formatos de entrada específicos para XML, que também é responsável pela extração de informação dos documentos; e (2) o de conversão de XML para formatos de saída específicos. Com a utilização do XML, os documentos convertidos tornam-se estruturados, facilitando assim o processo automático de extração de informações. Esta dissertação abrange o primeiro módulo descrito acima e parte de resultados alcançados por outro trabalho previamente realizado, onde foram construídas funcionalidades para os formatos de entrada PDF, PS, DOC, RTF e HTML. As contribuições propostas a partir deste trabalho são: adição do formato TEX (LaTeX) como mais uma possibilidade de entrada; e reorganizar a arquitetura do Framework previamente desenvolvido, para que este seja acessado como um serviço Web, utilizando os conceitos de Web Services
57

Um framework para extração de informações: uma abordagem baseada em XML

Medeiros Cabral, Davi January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:08Z (GMT). No. of bitstreams: 2 arquivo7169_1.pdf: 1406961 bytes, checksum: c55f5388badc5c0c67457d0f7e47902c (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2005 / Com o crescimento da Internet, muitas informações vêm se tornando rapidamente disponíveis, a cada ano, devido à facilidade do processo de publicação digital. Porém, a existência de diferentes formatos de representação (HTML, PS, RTF, etc.) e de conteúdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de documentos uma tarefa altamente complexa. Os atuais tratamentos de busca são pouco eficientes, deixando a obtenção das informações contidas no documento a cargo da atividade humana. Dentro dessa conjuntura, destacam-se os sistemas de Extração de Informação para obtenção de informações encontradas em documentos-texto, visando à realização de um processamento posterior. Porém, tais sistemas ainda são muito difíceis de ser desenvolvidos, exigindo conhecimentos de especialistas em Inteligência Artificial e no domínio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas de sistemas, cada vez mais, genéricos para os mais variados domínios de textos simples e HTML. Contudo, para diferentes fontes de entrada e saída e formatos de documentos utilizados, pouco ou nenhum cuidado vem sendo dado em relação à flexibilidade e extensibilidade desses sistemas. Esta dissertação propõe um framework, baseado em XML, para o desenvolvimento de sistemas de extração capazes de lidar com diferentes formatos de entrada e saída. Esses formatos representam as funcionalidades específicas, implementadas para cada uma de suas instâncias, enquanto as funcionalidades reutilizadas no domínio do problema são definidas pelo algoritmo de extração empregado. Dentre as diversas técnicas de extração de informações e aprendizagem de máquinas existentes, foi usada uma abordagem semi-automática baseada no algoritmo de indução definido no STALKER. Experimentos efetuados sobre artigos científicos mostram que o framework proposto é aplicável aos formatos de entrada PDF, PS, DOC, RTF e HTML; obtendo-se resultados satisfatórios quando comparados aos de sistemas já consolidados
58

Detecção de embarcações por imagens nos rios da Amazônia

Yvano, Michel Marialva 29 July 2016 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-02-01T19:59:11Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Michel Yvano.pdf: 3449620 bytes, checksum: ec303773b1da8f969478f8d1706a25d3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-02-01T19:59:36Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Michel Yvano.pdf: 3449620 bytes, checksum: ec303773b1da8f969478f8d1706a25d3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-02-01T19:59:51Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Michel Yvano.pdf: 3449620 bytes, checksum: ec303773b1da8f969478f8d1706a25d3 (MD5) / Made available in DSpace on 2017-02-01T19:59:51Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Michel Yvano.pdf: 3449620 bytes, checksum: ec303773b1da8f969478f8d1706a25d3 (MD5) Previous issue date: 2016-07-29 / Agência de Fomento não informada / Fluvial monitoring is an intensive and necessary task used as a support to avoid possible threats such as piracy and environmental aggression. Usually, this task is performed manually by a human operator, who analyzes video monitors for long duration, which leads the task to be long, tedious and prone to errors. In the Amazon rainforest, fluvial monitoring is even more challenging due to the large territory of the region and due to the fact that the largest river basin in the world is in this region. Remote sensing, usually based on aerial images obtained by satellite or unmanned/manned aerial vehicles is one possibility to deal with this problem. In this context, we propose in this work a computational method focused on detecting the movement of vessels in a typical scene of the Amazon rivers. This new method is necessary since current solutions are not suited to the deal with the Amazon scenario due to several reasons, for instance, the diversity of the background of the Amazon region. In addition, several methods available in the literature were designed in the context of open sea scenarios, where there are usually only vessels and water in the scenes. In this work, digital image processing techniques are employed to detect moving objects in the scene, while machine learning algorithms are used to indicate the probability about the class of the observed object, i.e. whether or not the detected object is a boat. This double detection process is intended to reduce false alerts provided by the proposed method. The experiments conducted in this work show that the proposed method achieved 79% of accuracy and 91% precision rate when all images are considered, as well as a 71% precision rate when only scenes with vessels are analyzed. These results indicate the effectiveness of the proposed method when compared to other strategies. / O monitoramento fluvial é um trabalho intensivo e necessário a fim de evitar possíveis ameaças como pirataria e agressão ambiental. Normalmente, essa tarefa é realizada manualmente por um operador humano que analisa monitores de vídeo por longos períodos de tempo, fator que torna a tarefa longa, maçante e sujeita a erros. Na Amazônia, o monitoramento fluvial é ainda mais desafiador devido à grande extensão territorial da região e ao fato desta possuir a maior bacia hidrográfica do planeta. Dentre as possibilidades de tratar este problema existe a utilização de sensoriamento remoto, em geral utilizando imagens aéreas obtidas por satélites ou veículos aéreos, tripulados ou não. Diante desse contexto, esta dissertação propõe um método computacional capaz de detectar a movimentação de embarcações em um ambiente típico dos rios da Amazônia, pois os métodos existentes na literatura não se adequam ao cenário amazônico devido a inúmeros fatores, como por exemplo, a diversidade de composição de fundo da região. Além disso, métodos propostos na literatura foram desenvolvidos para ambientes com mar aberto, onde normalmente há apenas embarcações e água em cena. Neste trabalho, são usadas técnicas de processamento digital de imagens para a detecção do objeto em movimento e técnicas de aprendizagem de máquina para determinar a probabilidade do objeto observado ser um barco ou não. Essa dupla detecção reduz os falsos alertas emitidos pelo método proposto. Os experimentos realizados mostram que o método obteve 79% de acurácia e 91% de precisão, considerando todas as imagens, e precisão de 71% em cenas com embarcações, mostrando-se eficiente ao ser comparado com outras estratégias.
59

Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros

Silva, Davi Guimarães da 03 August 2016 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:02Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:21Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:39Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Made available in DSpace on 2017-03-07T10:02:39Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) Previous issue date: 2016-08-03 / The amount of information available through digital media has increased considerably in recent decades. This fact causes concern among managers of large data repositories. Dealing with this growth and protect the data effectively is an even greater challenge. In many repositories, one of the main problems is the existence of replicated data. This can impact the quality of data and the ability to provide services able to meet the demands of its customers. However, the removal of replicated records is a task that requires a lot of time and processing effort. Nowadays, one of the techniques that has been effectively applied in the task of identify records that are replicated is the Genetic Programming (GP). One of the main requirements of this technique is the use examples (usually created manually) in its training step. Another GP major requirement is its processing time. This happens because during the training step each record is compared to all other existing ones in the data repository. Thus, the time required to perform all these comparisons during the GP training step can be very costly, even for small repositories. For those reasons, this dissertation proposes a novel approach based in a strategy the combines a clustering technique with a sliding window, aiming at minimize the number of comparisons required in the PG training stage. Experiments using synthetic and real datasets show that it is possible to reduce the time cost of GP training step up to 70%, without a significant reduction in the quality of generated solutions / O volume de informação em formato digital tem aumentado consideravelmente nas últimas décadas, e isso tem causado preocupação entre os administradores de grandes repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção de registros replicados é uma tarefa que exige muito tempo e poder de processamento computacional. Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo de remoção de registros replicados é a Programação Genética (PG). Uma das principais características dessa técnica é que ela exige exemplos para a realização da etapa de treinamento. Outra característica importante é que a PG exige um alto custo computacional para ser aplicada, além do esforço para gerar os exemplos do treino. No problema de deduplicação um dos maiores custos durante a etapa de treino é causado pela necessidade de comparar cada um dos registros com todos os outros registros existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações durante o treino é muito grande. A partir desse problema, esta dissertação propõe uma abordagem baseada na combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento em até 70%, sem uma redução significativa na qualidade das soluções geradas.
60

Uma investigação do uso de características na tetecção de URLs

Bezerra, Maria Azevedo 11 September 2015 (has links)
Submitted by Geyciane Santos (geyciane_thamires@hotmail.com) on 2015-12-02T21:31:19Z No. of bitstreams: 1 Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-12-03T19:17:32Z (GMT) No. of bitstreams: 1 Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-12-03T19:24:08Z (GMT) No. of bitstreams: 1 Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) / Made available in DSpace on 2015-12-03T19:24:08Z (GMT). No. of bitstreams: 1 Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) Previous issue date: 2015-09-11 / Não Informada / Malicious URLs have become a channel for criminal activities on the Internet, such as spam and phishing. Current solutions for validation and verification of malicious URLs are considered or are believed to be accurate, with well-adjusted results. However, is it really possible or feasible to obtain 100% of accuracy in these solutions? This work describes a simple and direct investigation of features, bases and URL formats, aiming to show that the results of validation and verification URLs are highly dependent on certain aspects/factors. The idea is to extract URL features (lexical, DNS and others) for obtain the maximum information from the URLs and employ machine learning algorithms to question their influence throughout the process. In order to prove this idea, were created four hypotheses that showed that it is possible to disagree with the results of several studies from the literature. / URLs maliciosas tornaram-se um canal para atividades criminosas na Internet, como spam e phishing. As atuais soluções para validação e verificação de URLs maliciosas se consideram ou são consideradas precisas, com resultados bem ajustados. Contudo, será que realmente é possível ou factível se obter percentuais beirando 100% de precisão nessas soluções? Neste sentido, esta dissertação descreve uma simples e direta investigação de características, bases e formatos de URLs, visando mostrar que os resultados de validação e verificação de URLs são bastante dependentes de certos aspectos/fatores. A ideia é extrair características (léxicas, DNS e outras) que permitam obter o máximo de informação das URLs e empregar algoritmos de aprendizagem de máquina para questionar a influência dessas características em todo o processo. Como forma de provar essa ideia, foram elaboramos quatro hipóteses, que ao final no trabalho, mostraram que é possível discordar do resultado de vários trabalhos já existentes na literatura.

Page generated in 0.0989 seconds