Spelling suggestions: "subject:"aprendizagem dde máquina."" "subject:"aprendizagem dee máquina.""
51 |
Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianasde Santana Pereira, Cristiano 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T15:51:05Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2008 / Seleção de protótipos é uma técnica de aprendizagem de máquina cujo objetivo é a escolha ou produção de instâncias de dados que consigam a melhor representação para os dados do problema realçando as fronteiras de decisão e mantendo a separação entre as classes. A idéia é reduzir a quantidade de dados e ainda assim obter um conjunto de protótipos que minimize o erro de classificação. As estratégias baseadas em protótipos têm sido bastante utilizadas em aplicações reais nos mais diversos domínios obtendo bons resultados. A proposta deste trabalho foi investigar técnicas de seleção de protótipos baseadas em auto-geração e mistura de gaussianas comparando com algumas técnicas clássicas. Como resultado deste estudo, um modelo híbrido combinando estas duas estratégias foi proposto. Este modelo híbrido supera algumas dificuldades destas técnicas quando analisadas isoladamente, pois eles combinam a vantagem da ausência de parâmetros da auto-geração com a maior capacidade de ajuste nas fronteiras de decisão da mistura de gaussianas. O novo modelo foi avaliado com diversos problemas considerados benchmarks da área de aprendizagem de máquina apresentando desempenho superior na maioria deles quando comparado com as técnicas de auto-geração e mistura de gaussianas analisadas. A segunda parte deste trabalho apresenta um estudo da aplicação da nova estratégia híbrida ao problema específico de segmentação de caracteres. Curvas ROC foram utilizadas para avaliar o desempenho e mais uma vez o modelo híbrido se mostrou superior
|
52 |
Descoberta automática de conhecimento em interpretações musicais: o caso do acompanhamento rítmico ao violãoTrajano de Lima Neto, Ernesto January 2007 (has links)
Made available in DSpace on 2014-06-12T15:54:49Z (GMT). No. of bitstreams: 2
arquivo8459_1.pdf: 2232808 bytes, checksum: 252640b0a75adf3bdd9927d8fce6a27b (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2007 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Qualquer musico, com um mInimo de experiência, sabe que tocar uma musica da forma
exata como ela esta grafada resulta em algo mecânico e artiFIcial. De fato, a representação
simbólica da musica ou notação serve apenas como um guia para o musico, que a modifica
de acordo com suas intenções musicais, com um conjunto de regras, aprendidas durante
o decorrer de sua vida musical e, em sua grande maioria, não explícitas, e de acordo com
uma análise, ainda que superFIcial e intuitiva, da obra a ser interpretada. A forma como
a musica e variada pelo músico da-se o nome de interpretação.
Diversas pesquisas estudam variados aspectos deste fenômeno. Resultados mostram
que, apesar de tratar-se de uma forma de arte, existem aspectos em comum nos diferentes
interpretes e em diferentes interpretações. Estas pesquisas concentram-se, todavia, na
Musica Classica composta para piano, o que exclui partes signiFIcativas do repertorio
musical, em especial, a Musica Popular Brasileira, em estilos como a Bossa Nova e o
Samba, e em outros instrumentos como, por exemplo, o violão. Por outro lado, na
Computação Musical, diversos pesquisadores têm desenvolvido metodos para a analise
automatica de interpretações. Dentre eles, alguns utilizam a Aprendizagem de Maquina
e a Mineração de Dados, mas ainda restringem-se a analise da Musica Classica composta
para piano.
A despeito dessas pesquisas, existe um grande numero de questões sobre a interpretação que permanecem sem resposta. No presente trabalho, explorou-se um subconjunto
particular dessas questões, a saber: questões que tratam de como o acompanhamento
rItmico ao violão na Bossa Nova e construído pelos interpretes. Neste novo
escopo, o trabalho de descoberta automatica de conhecimento musical partiu de um elemento
estrutural unificador, o padrão rítmico, e estabeleceu um conjunto de processos
computacionais e algoritmos para a extração automatica que forneceram elementos para
uma melhor compreensão do fenômeno.
Resultaram da pesquisa as seguintes contribuições: um algoritmo para a derivação do
dedilhado da mão direita do violonista; uma representação textual desse dedilhado, assim
como um processo para a redução da dimensionalidade dessa representação; adaptações
de algoritmos de extração de padrões; alem de um conjunto de dados tratados e de
ferramentas de analise automatica
|
53 |
Tag suggestion using multiple sources of knowledgeMEDEIROS, Ícaro Rafael da Silva 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T15:56:06Z (GMT). No. of bitstreams: 2
arquivo2739_1.pdf: 2586871 bytes, checksum: 3a0e10a22b131714039f0e8ffe875d80 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / Nos sistemas de tagging social usuários atribuem tags (palavras-chave) a recursos (páginas
Web, fotos, publicações, etc), criando uma estrutura conhecida como folksonomia,
que possibilita uma melhora na navegação, organização e recuperação de informação.
Atualmente, esses sistemas são muito populares na Web, portanto, melhorar sua qualidade
e automatizar o processo de atribuição de tags é uma tarefa importante. Neste trabalho
é proposto um sistema que automaticamente atribui tags a páginas, baseando-se em
múltiplas fontes de conhecimento como o conteúdo textual, estrutura de hiperlinks
e bases de conhecimento. A partir dessas fontes, vários atributos são extraídos para
construir um classificador que decide que termos devem ser sugeridos como tag.
Experimentos usando um dataset com tags e páginas extraídas do Delicious, um
importante sistema de tagging social, mostram que nossos métodos obtém bons resultados
de precisão e cobertura, quando comparado com tags sugeridas por usuários. Além disso,
uma comparação com trabalhos relacionados mostra que nosso sistema tem uma qualidade
de sugestão comparável a abordagens estado da arte na área. Finalmente, uma avaliação
com usuários foi feita para simular um ambiente real, o que também produziu bons
resultados
|
54 |
Indução de programas lógicos orientados a objetosANDRADE, Erivan Alves de January 2003 (has links)
Made available in DSpace on 2014-06-12T15:58:45Z (GMT). No. of bitstreams: 2
arquivo4690_1.pdf: 1106541 bytes, checksum: e0ee713e84c20db1b16b0bd3c706218a (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2003 / Em muitas de suas aplicações práticas tais como Processamento de Linguagem
Natural(PLN), CASE, sistemas especialistas em domínios complexos, ontologias de Web
semântica e Descoberta de conhecimento em banco de dados(KDD) - Programação em
Lógica Indutiva(PLI) não é usada para substituir, mas para complementar aquisição de
conhecimento manual. Usar uma linguagem de representação de conhecimento comum para
ambos, conhecimento manualmente codificado e conhecimento induzido por PLI, é a idéia
chave da sua integração simples. Como a aquisição de conhecimento manual está
crescentemente sendo feita utilizando linguagens híbridas que integram objetos com regras ou
relações, surgem as questões da viabilidade e praticidade de usar tais linguagens para indução.
Nesta dissertação é apresentado Cigolf, um sistema de PLI que usa a linguagem lógica
orientada a objeto Flora para representação de conhecimento. Cigolf recebe como entrada
uma base de conhecimento prévio, um conjunto de exemplos, e uma especificação de viés de
aprendizagem, tudo representado em Flora. Ele traduz esta entrada numa especificação de
entrada para um sistema de PLI chamado Aleph. Ele então utiliza uma versão de Aleph para
Prolog tabelado na indução de novo conhecimento e traduz este conhecimento aprendido para
Flora. São descritas as questões surgidas por este processo de tradução bidirecional e a
solução que foi adotada. É mostrada também a comparação de desempenho de Cigolf e Aleph
em alguns problemas benchmarks de PLI para avaliar o overhead associado com o uso de
uma linguagem de representação lógica orientada a objeto para tarefas de aprendizagem em
vez de uma linguagem puramente lógica
|
55 |
Clusterização baseada em algoritmos fuzzyLopes Cavalcanti Junior, Nicomedes January 2006 (has links)
Made available in DSpace on 2014-06-12T15:59:42Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2006 / Análise de cluster é uma técnica aplicada a diversas áreas como mineração de dados, reconhecimento
de padrões, processamento de imagens. Algoritmos de clusterização têm por objetivo
particionar um conjunto de dados em clusters de tal forma que indivíduos dentro de um mesmo
cluster tenham um alto grau de similaridade, enquanto indivíduos pertencentes a diferentes
clusters tenham alto grau de dissimilaridade.
Uma importante divisão dos algoritmos de clusterização é entre algoritmos hard e fuzzy.
Algoritmos hard associam um indivíduo a somente um cluster. Ao contrário, algoritmos fuzzy
associam um indivíduo a todos os clusters através da variação do grau de pertinência do indivíduo
em cada cluster. A vantagem de um algoritmo clusterização fuzzy é que este pode
representar melhor incerteza e este fato é importante, por exemplo, para mostrar que um indivíduo
não é um típico indivíduo de nenhuma das classes, mas tem similaridade em maior ou
menor grau com mais de uma classe.
Uma forma intuitiva de medir similaridade entre indivíduos é usar medidas de distância tais
como a distância euclidiana. Existem muitas medidas de distância disponíveis na literatura.
Muitos dos algoritmos de clusterização populares geralmente buscam minimizar um critério
baseados numa medida de distância. Através de um processo iterativo estes algoritmos calculam
parâmetros de modo a diminuir o valor do critério iteração a iteração até um estado de
convergência ser atingido.
O problema com muitas das distâncias encontradas na literatura é que elas são estáticas.
Para o caso de algoritmos de clusterização iterativos, parece razoável ter distâncias que mudem
ou atualizem seus valores de acordo com o que for ocorrendo com os dados e as estruturas de
dado do algoritmo.
Esta dissertação apresenta duas distâncias adaptativas aplicadas ao algoritmo fuzzy c-means
pelo Prof. Francisco de Carvalho. Este algoritmo foi escolhido pelo fato de ser amplamente
utilizado. Para avaliar as proposições de distância, experimentos foram feitos utilizando-se conjunto
de dados de referência e conjuntos de dados artificiais (para ter resultados mais precisos
experimentos do tipo Monte Carlo foram realizados neste caso). Até o momento, comparações
das versões do fuzzy c-means, obtidas através da utilização de distâncias adaptativas, com algoritmos
similares da literatura permitem concluir que em geral as novas versões têm melhor
performance que outros disponíveis na literatura
|
56 |
Um framework para transformação automática de documentos e extração de informações baseado em XMLRoberto Bechert Schmitz, Lucas January 2007 (has links)
Made available in DSpace on 2014-06-12T16:00:03Z (GMT). No. of bitstreams: 2
arquivo5835_1.pdf: 1345974 bytes, checksum: a8195e26dbc8a8b67dc9b1d0a6816814 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2007 / Uma grande quantidade de informações, sobre diversos assuntos, se encontra disponível
na Web. Essa quantidade cresce ano a ano e, aliados às informações, estão os formatos
com que elas estão representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.).
Certos formatos dependem de tecnologias e/ou plataformas específicas, dificultando
assim o acesso às informações contidas no documento. Tendo em vista esse problema,
surge a necessidade de se ter formas para a conversão entre formatos específicos.
Muitas ferramentas são oferecidas nesse sentido, porém geralmente oferecem poucas
possibilidades de conversão, um ou dois formatos em média.
Outro problema gerado pela grande quantidade de informações disponíveis na
Web é a questão da filtragem do que realmente é interessante ao usuário que efetua uma
busca sobre determinado assunto. Os atuais buscadores trazem como resultados
documentos completos com diversas informações além das necessárias ao usuário. A
análise do que é ou não interessante fica a cargo do próprio usuário, tornando-se um
trabalho manual. A extração automática de informações nos documentos dispostos na
Web se torna difícil, pois nem todos os documentos apresentam seus conteúdos de
forma estruturada, mas sim, muitos deles apresentam conteúdos semi-estruturados ou
ainda, não-estruturados.
Na tentativa de amenizar alguns desses problemas foi proposta a construção de
um Framework para conversão entre formatos de documentos e extração de
informações dos mesmos. Esse Framework é constituído de dois módulos que utilizam
o formato XML como intermediador na conversão requerida. Esses módulos são: (1) o
de conversão de formatos de entrada específicos para XML, que também é responsável
pela extração de informação dos documentos; e (2) o de conversão de XML para
formatos de saída específicos. Com a utilização do XML, os documentos convertidos
tornam-se estruturados, facilitando assim o processo automático de extração de
informações.
Esta dissertação abrange o primeiro módulo descrito acima e parte de resultados
alcançados por outro trabalho previamente realizado, onde foram construídas
funcionalidades para os formatos de entrada PDF, PS, DOC, RTF e HTML. As
contribuições propostas a partir deste trabalho são: adição do formato TEX (LaTeX)
como mais uma possibilidade de entrada; e reorganizar a arquitetura do Framework
previamente desenvolvido, para que este seja acessado como um serviço Web,
utilizando os conceitos de Web Services
|
57 |
Um framework para extração de informações: uma abordagem baseada em XMLMedeiros Cabral, Davi January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:08Z (GMT). No. of bitstreams: 2
arquivo7169_1.pdf: 1406961 bytes, checksum: c55f5388badc5c0c67457d0f7e47902c (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / Com o crescimento da Internet, muitas informações vêm se tornando rapidamente
disponíveis, a cada ano, devido à facilidade do processo de publicação digital. Porém, a
existência de diferentes formatos de representação (HTML, PS, RTF, etc.) e de
conteúdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de
documentos uma tarefa altamente complexa. Os atuais tratamentos de busca são pouco
eficientes, deixando a obtenção das informações contidas no documento a cargo da
atividade humana.
Dentro dessa conjuntura, destacam-se os sistemas de Extração de Informação para
obtenção de informações encontradas em documentos-texto, visando à realização de um
processamento posterior. Porém, tais sistemas ainda são muito difíceis de ser
desenvolvidos, exigindo conhecimentos de especialistas em Inteligência Artificial e no
domínio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas
de sistemas, cada vez mais, genéricos para os mais variados domínios de textos simples
e HTML. Contudo, para diferentes fontes de entrada e saída e formatos de documentos
utilizados, pouco ou nenhum cuidado vem sendo dado em relação à flexibilidade e
extensibilidade desses sistemas.
Esta dissertação propõe um framework, baseado em XML, para o
desenvolvimento de sistemas de extração capazes de lidar com diferentes formatos de
entrada e saída. Esses formatos representam as funcionalidades específicas,
implementadas para cada uma de suas instâncias, enquanto as funcionalidades
reutilizadas no domínio do problema são definidas pelo algoritmo de extração
empregado. Dentre as diversas técnicas de extração de informações e aprendizagem de
máquinas existentes, foi usada uma abordagem semi-automática baseada no algoritmo
de indução definido no STALKER. Experimentos efetuados sobre artigos científicos
mostram que o framework proposto é aplicável aos formatos de entrada PDF, PS, DOC,
RTF e HTML; obtendo-se resultados satisfatórios quando comparados aos de sistemas
já consolidados
|
58 |
Detecção de embarcações por imagens nos rios da AmazôniaYvano, Michel Marialva 29 July 2016 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-02-01T19:59:11Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Michel Yvano.pdf: 3449620 bytes, checksum: ec303773b1da8f969478f8d1706a25d3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-02-01T19:59:36Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Michel Yvano.pdf: 3449620 bytes, checksum: ec303773b1da8f969478f8d1706a25d3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-02-01T19:59:51Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Michel Yvano.pdf: 3449620 bytes, checksum: ec303773b1da8f969478f8d1706a25d3 (MD5) / Made available in DSpace on 2017-02-01T19:59:51Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Michel Yvano.pdf: 3449620 bytes, checksum: ec303773b1da8f969478f8d1706a25d3 (MD5)
Previous issue date: 2016-07-29 / Agência de Fomento não informada / Fluvial monitoring is an intensive and necessary task used as a support to
avoid possible threats such as piracy and environmental aggression. Usually, this
task is performed manually by a human operator, who analyzes video monitors
for long duration, which leads the task to be long, tedious and prone to errors. In
the Amazon rainforest, fluvial monitoring is even more challenging due to the
large territory of the region and due to the fact that the largest river basin in the
world is in this region. Remote sensing, usually based on aerial images obtained
by satellite or unmanned/manned aerial vehicles is one possibility to deal with
this problem. In this context, we propose in this work a computational method
focused on detecting the movement of vessels in a typical scene of the Amazon
rivers. This new method is necessary since current solutions are not suited to the
deal with the Amazon scenario due to several reasons, for instance, the diversity
of the background of the Amazon region. In addition, several methods available
in the literature were designed in the context of open sea scenarios, where there
are usually only vessels and water in the scenes. In this work, digital image
processing techniques are employed to detect moving objects in the scene, while
machine learning algorithms are used to indicate the probability about the class
of the observed object, i.e. whether or not the detected object is a boat. This
double detection process is intended to reduce false alerts provided by the
proposed method. The experiments conducted in this work show that the
proposed method achieved 79% of accuracy and 91% precision rate when all
images are considered, as well as a 71% precision rate when only scenes with
vessels are analyzed. These results indicate the effectiveness of the proposed
method when compared to other strategies. / O monitoramento fluvial é um trabalho intensivo e necessário a fim de
evitar possíveis ameaças como pirataria e agressão ambiental. Normalmente,
essa tarefa é realizada manualmente por um operador humano que analisa
monitores de vídeo por longos períodos de tempo, fator que torna a tarefa longa,
maçante e sujeita a erros. Na Amazônia, o monitoramento fluvial é ainda mais
desafiador devido à grande extensão territorial da região e ao fato desta possuir
a maior bacia hidrográfica do planeta. Dentre as possibilidades de tratar este
problema existe a utilização de sensoriamento remoto, em geral utilizando
imagens aéreas obtidas por satélites ou veículos aéreos, tripulados ou não.
Diante desse contexto, esta dissertação propõe um método computacional
capaz de detectar a movimentação de embarcações em um ambiente típico dos
rios da Amazônia, pois os métodos existentes na literatura não se adequam ao
cenário amazônico devido a inúmeros fatores, como por exemplo, a diversidade
de composição de fundo da região. Além disso, métodos propostos na literatura
foram desenvolvidos para ambientes com mar aberto, onde normalmente há
apenas embarcações e água em cena. Neste trabalho, são usadas técnicas de
processamento digital de imagens para a detecção do objeto em movimento e
técnicas de aprendizagem de máquina para determinar a probabilidade do objeto
observado ser um barco ou não. Essa dupla detecção reduz os falsos alertas
emitidos pelo método proposto. Os experimentos realizados mostram que o
método obteve 79% de acurácia e 91% de precisão, considerando todas as
imagens, e precisão de 71% em cenas com embarcações, mostrando-se
eficiente ao ser comparado com outras estratégias.
|
59 |
Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registrosSilva, Davi Guimarães da 03 August 2016 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:02Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:21Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:39Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Made available in DSpace on 2017-03-07T10:02:39Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5)
Previous issue date: 2016-08-03 / The amount of information available through digital media has increased considerably
in recent decades. This fact causes concern among managers of large data repositories.
Dealing with this growth and protect the data effectively is an even greater challenge.
In many repositories, one of the main problems is the existence of replicated data.
This can impact the quality of data and the ability to provide services able to meet the
demands of its customers. However, the removal of replicated records is a task that
requires a lot of time and processing effort.
Nowadays, one of the techniques that has been effectively applied in the task of
identify records that are replicated is the Genetic Programming (GP). One of the main
requirements of this technique is the use examples (usually created manually) in its
training step. Another GP major requirement is its processing time. This happens
because during the training step each record is compared to all other existing ones in
the data repository. Thus, the time required to perform all these comparisons during
the GP training step can be very costly, even for small repositories.
For those reasons, this dissertation proposes a novel approach based in a strategy
the combines a clustering technique with a sliding window, aiming at minimize the
number of comparisons required in the PG training stage. Experiments using synthetic
and real datasets show that it is possible to reduce the time cost of GP training step
up to 70%, without a significant reduction in the quality of generated solutions / O volume de informação em formato digital tem aumentado consideravelmente nas
últimas décadas, e isso tem causado preocupação entre os administradores de grandes
repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma
eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a
existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade
de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção
de registros replicados é uma tarefa que exige muito tempo e poder de processamento
computacional.
Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo
de remoção de registros replicados é a Programação Genética (PG). Uma das
principais características dessa técnica é que ela exige exemplos para a realização da
etapa de treinamento. Outra característica importante é que a PG exige um alto custo
computacional para ser aplicada, além do esforço para gerar os exemplos do treino.
No problema de deduplicação um dos maiores custos durante a etapa de treino é causado
pela necessidade de comparar cada um dos registros com todos os outros registros
existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações
durante o treino é muito grande.
A partir desse problema, esta dissertação propõe uma abordagem baseada na
combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a
quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando
dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento
em até 70%, sem uma redução significativa na qualidade das soluções geradas.
|
60 |
Uma investigação do uso de características na tetecção de URLsBezerra, Maria Azevedo 11 September 2015 (has links)
Submitted by Geyciane Santos (geyciane_thamires@hotmail.com) on 2015-12-02T21:31:19Z
No. of bitstreams: 1
Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-12-03T19:17:32Z (GMT) No. of bitstreams: 1
Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-12-03T19:24:08Z (GMT) No. of bitstreams: 1
Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) / Made available in DSpace on 2015-12-03T19:24:08Z (GMT). No. of bitstreams: 1
Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5)
Previous issue date: 2015-09-11 / Não Informada / Malicious URLs have become a channel for criminal activities on the Internet, such as spam and phishing. Current solutions for validation and verification of malicious URLs are considered or are believed to be accurate, with well-adjusted results. However, is it really possible or feasible to obtain 100% of accuracy in these solutions? This work describes a simple and direct investigation of features, bases and URL formats, aiming to show that the results of validation and verification URLs are highly dependent on certain aspects/factors. The idea is to extract URL features (lexical, DNS and others) for obtain the maximum information from the URLs and employ machine learning algorithms to question their influence throughout the process. In order to prove this idea, were created
four hypotheses that showed that it is possible to disagree with the results of several studies from the literature. / URLs maliciosas tornaram-se um canal para atividades criminosas na Internet, como spam e phishing. As atuais soluções para validação e verificação de URLs maliciosas se consideram ou são consideradas precisas, com resultados bem ajustados. Contudo, será que realmente é possível ou factível se obter percentuais beirando 100% de precisão nessas soluções? Neste sentido, esta dissertação descreve uma simples e direta investigação de características, bases e formatos de URLs, visando mostrar que os resultados de validação e verificação de URLs são bastante dependentes de certos aspectos/fatores. A ideia é extrair características (léxicas, DNS e outras) que permitam obter o máximo de informação das URLs
e empregar algoritmos de aprendizagem de máquina para questionar a influência dessas características em todo o processo. Como forma de provar essa ideia, foram elaboramos quatro hipóteses, que ao final no trabalho, mostraram que é possível discordar do resultado de vários trabalhos já existentes na literatura.
|
Page generated in 0.0786 seconds