Spelling suggestions: "subject:"aprendizagem dde máquina"" "subject:"aprendizagem dee máquina""
1 |
Extração automática de conhecimento por múltiplos indutores.Baranauskas, José Augusto 09 August 2001 (has links)
Nesta tese são investigados três problemas básicos em aprendizado supervisionado: seleção de atributos, composição de atributos e combinação de classificadores simbólicos. A seleção de atributos é uma atividade de pré-processamento de dados que seleciona um subconjunto de atributos do conjunto original de exemplos. Existem, basicamente, três abordagens que são empregadas para a seleção de atributos: embutida, filtro e wrapper; as duas últimas pesquisadas neste trabalho. Os experimentos realizados, utilizando diversos indutores e conjuntos de exemplos, para avaliar as abordagens filtro e wrapper nos permitem concluir que o uso de filtros deve ser considerado antes de se cogitar a utilização de wrappers, no caso de existirem muitos atributos para descrever os exemplos. Sob a perspectiva de compreensibilidade do conhecimento induzido, a análise sobre o impacto da seleção de atributos em um classificador simbólico mostrou um aumento do número de regras e do número de condições por regra. A composição de atributos, também conhecida como indução construtiva, é outra atividade de pré-processamento de dados. Dentre as várias abordagens de composição de atributos (guiada por dados, por hipótese, por conhecimento e multi-estratégia), nesta tese é proposta uma metodologia para composição de atributos guiada pelo conhecimento. Os resultados dos experimentos realizados utilizando a metodologia proposta mostram que, mesmo com o auxílio do usuário/especialista, é difícil construir atributos derivados que sejam realmente relevantes para aprender o conceito embutido nos conjuntos de exemplos analisados de repositórios (naturais), os quais, muitas vezes, já foram pré-processados. Esse fato foi confirmado, por um trabalho posterior, com dados do mundo real, no qual a metodologia proposta mostrou seu potencial. A combinação de classificadores, simbólicos ou não, é uma atividade de mineração de dados. Na realidade, uma das preocupações do Aprendizado de Máquina simbólico é que os classificadores induzidos devem ser fáceis de serem compreendidos pelos seres humanos. Para isso, deve-se escolher o indutor com bias mais adequado para cada tipo de situação, já que pesquisas mostraram que não existe o 'melhor' indutor para todos os domínios. Aliada a essa escolha, é possível fazer uso de vários classificadores, combinando-os num único classificador final, formando um ensemble. Os ensembles possuem a tendência de melhorar o desempenho na classificação de exemplos não vistos durante o processo de aprendizado. Entretanto, o emprego de ensembles dificulta a compreensão humana sobre o comportamento do classificador final, já que ele deixa de ser simbólico, mesmo assumindo que cada classificador individual que o compõe seja simbólico. Na realidade, a combinação de classificadores simbólicos - provenientes de diferentes indutores - em um classificador final também simbólico é um tópico novo de pesquisa, ainda com poucos resultados divulgados. Com o objetivo de preencher essa lacuna, é proposto e desenvolvido neste trabalho o sistema Xruler. Para isso, inicialmente foi definido o formato padrão de regras PBM, o qual fornece uma perspectiva unificada sob a qual todo classificador simbólico pode ser convertido e analisado. Dentre outros componentes, o sistema Xruler possui um algoritmo de cobertura que pode ser aplicado ao conjunto de regras induzidas por diversos indutores para se obter um classificador simbólico final. Nos experimentos realizados com o sistema Xruler os resultados obtidos mostraram aumento da precisão e redução do número de regras. Sob o aspecto sintático das regras, isso pode ser considerado um avanço no sentido de uma maior compreensibilidade por seres humanos do conjunto final de regras.
|
2 |
Extração automática de conhecimento por múltiplos indutores.José Augusto Baranauskas 09 August 2001 (has links)
Nesta tese são investigados três problemas básicos em aprendizado supervisionado: seleção de atributos, composição de atributos e combinação de classificadores simbólicos. A seleção de atributos é uma atividade de pré-processamento de dados que seleciona um subconjunto de atributos do conjunto original de exemplos. Existem, basicamente, três abordagens que são empregadas para a seleção de atributos: embutida, filtro e wrapper; as duas últimas pesquisadas neste trabalho. Os experimentos realizados, utilizando diversos indutores e conjuntos de exemplos, para avaliar as abordagens filtro e wrapper nos permitem concluir que o uso de filtros deve ser considerado antes de se cogitar a utilização de wrappers, no caso de existirem muitos atributos para descrever os exemplos. Sob a perspectiva de compreensibilidade do conhecimento induzido, a análise sobre o impacto da seleção de atributos em um classificador simbólico mostrou um aumento do número de regras e do número de condições por regra. A composição de atributos, também conhecida como indução construtiva, é outra atividade de pré-processamento de dados. Dentre as várias abordagens de composição de atributos (guiada por dados, por hipótese, por conhecimento e multi-estratégia), nesta tese é proposta uma metodologia para composição de atributos guiada pelo conhecimento. Os resultados dos experimentos realizados utilizando a metodologia proposta mostram que, mesmo com o auxílio do usuário/especialista, é difícil construir atributos derivados que sejam realmente relevantes para aprender o conceito embutido nos conjuntos de exemplos analisados de repositórios (naturais), os quais, muitas vezes, já foram pré-processados. Esse fato foi confirmado, por um trabalho posterior, com dados do mundo real, no qual a metodologia proposta mostrou seu potencial. A combinação de classificadores, simbólicos ou não, é uma atividade de mineração de dados. Na realidade, uma das preocupações do Aprendizado de Máquina simbólico é que os classificadores induzidos devem ser fáceis de serem compreendidos pelos seres humanos. Para isso, deve-se escolher o indutor com bias mais adequado para cada tipo de situação, já que pesquisas mostraram que não existe o 'melhor' indutor para todos os domínios. Aliada a essa escolha, é possível fazer uso de vários classificadores, combinando-os num único classificador final, formando um ensemble. Os ensembles possuem a tendência de melhorar o desempenho na classificação de exemplos não vistos durante o processo de aprendizado. Entretanto, o emprego de ensembles dificulta a compreensão humana sobre o comportamento do classificador final, já que ele deixa de ser simbólico, mesmo assumindo que cada classificador individual que o compõe seja simbólico. Na realidade, a combinação de classificadores simbólicos - provenientes de diferentes indutores - em um classificador final também simbólico é um tópico novo de pesquisa, ainda com poucos resultados divulgados. Com o objetivo de preencher essa lacuna, é proposto e desenvolvido neste trabalho o sistema Xruler. Para isso, inicialmente foi definido o formato padrão de regras PBM, o qual fornece uma perspectiva unificada sob a qual todo classificador simbólico pode ser convertido e analisado. Dentre outros componentes, o sistema Xruler possui um algoritmo de cobertura que pode ser aplicado ao conjunto de regras induzidas por diversos indutores para se obter um classificador simbólico final. Nos experimentos realizados com o sistema Xruler os resultados obtidos mostraram aumento da precisão e redução do número de regras. Sob o aspecto sintático das regras, isso pode ser considerado um avanço no sentido de uma maior compreensibilidade por seres humanos do conjunto final de regras.
|
3 |
Algoritmo AdaBoost robusto ao ruído : aplicação à detecção de faces em imagens de baixa resolução / Noise robust AdaBoost algorithm : applying to face detection in low resolution imagesFernandez Merjildo, Diego Alonso, 1982- 12 June 2013 (has links)
Orientador: Lee Luan Ling / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-24T05:09:39Z (GMT). No. of bitstreams: 1
FernandezMerjildo_DiegoAlonso_M.pdf: 6281716 bytes, checksum: 6e22526557511699a8961e5b44949c78 (MD5)
Previous issue date: 2013 / Resumo: O presente trabalho propõe um algoritmo AdaBoost modificado, que minimiza o efeito do overfitting no treinamento produzido por amostras ruidosas. Para este fim, a atualização da distribuição de pesos é feita baseado na fragmentação do erro de treinamento, o qual permite atualizar efetivamente as amostras classificadas incorretamente para cada nível de taxa de erro. Subsequentemente, o algoritmo desenvolvido é aplicado no processo de detecção de faces, utilizando os Padrões Binários Locais Multi-Escala em Blocos (Multiscale Block Local Binary Patterns (MB-LBP)) como padrões característicos para formação de uma cascata de classificadores. Os resultados experimentais mostram que o algoritmo proposto é simples e eficiente, evidenciando vantagens sobre os algoritmos AdaBoost clássicos, em termos de maior capacidade de generalização, prevenção de overfitting e maiores taxas de acerto em imagens de baixa resolução / Abstract: This work aims a modification to the AdaBoost algorithm applied to face detection. Initially, we present the approaches used in face detection, highlighting the success of methods based on appearance. Then, we focus on the AdaBoost algorithm, its performance and the improvements realized by author as published literature. Despite the indisputable success of Boosting algorithms, it is affected by the high sensitivity to noisy samples. In order to avoid overfitting of noisy samples, we consider that the error rate is divided into fragmentary errors. We introduce a factor based on misclassified samples, to update the weight distribution in the training procedure. Furthermore, the algorithm developed is applied to face detection procedure, for which it is used Block Multiscale Local Binary Patterns (MB-LBP) in feature extraction as well as a cascade of classifiers. The experimental results show that the proposal to include a factor based on the frequency of misclassified samples, is simple and efficient, showing advantages over classical AdaBoost algorithms, which include ability to generalize, preventing overfitting and higher hit rates in images of low resolution / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica
|
4 |
Combinação de kernels para predição de interações em redes biológicasNASCIMENTO, André Câmara Alves do 09 November 2015 (has links)
Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-04-22T19:31:30Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
TESE André Câmara Alves do Nascimentos.pdf: 4823168 bytes, checksum: 2c30ae331ec29f390824052ea069109b (MD5) / Made available in DSpace on 2016-04-22T19:31:30Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
TESE André Câmara Alves do Nascimentos.pdf: 4823168 bytes, checksum: 2c30ae331ec29f390824052ea069109b (MD5)
Previous issue date: 2015-11-09 / CAPES / Redes droga-proteína têm recebido bastante atenção nos últimos anos, dada sua relevância
para a inovação farmacêutica e produção de novos fármacos. Muitas abordagens in silico distintas
para predição de interações droga-proteína têm sido propostas, muitas das quais baseadas em
uma classe particular de métodos de aprendizagem de máquina chamada de métodos de kernel.
Estes algoritmos de classificação de padrões são capazes de incorporar conhecimento prévio na
forma de funções de similaridade, i.e., um kernel, e têm tido sucesso em diversos problemas
de aprendizagem supervisionada. A seleção da função de kernel adequada e seus respectivos
parâmetros pode ter grande influência no desempenho do classificador construído. Recentemente,
a aprendizagem de múltiplos kernels (Multiple Kernel Learning - MKL) tem sido introduzida para
solucionar este problema, permitindo a utilização de múltiplos kernels, ao invés de considerar
apenas um kernel para uma dada tarefa. A principal motivação para tal abordagem é similar a
considerada na combinação de múltiplos classificadores: ao invés de restringir-se a um único
kernel, é preferível utilizar um conjunto de kernels distintos, e deixar que um algoritmo selecione
os melhores, ou sua respectiva combinação. Abordagens MKL também podem ser vistas
como uma estratégia de integração de dados. Apesar dos avanços técnicos nos últimos anos,
as abordagens propostas anteriormente não são capazes de lidar com os grandes espaços de
interação entre drogas e proteínas e integrar múltiplas fontes de informação simultaneamente.
Neste trabalho, é proposto um método de aprendizagem de múltiplos kernels para a combinação
não esparsa de kernels na predição de interações em redes droga-proteína. O método proposto
permite a integração de múltiplas fontes heterogêneas de informação para a identificação de novas
interações, e também pode ser aplicado em redes de tamanhos arbitrários. Além disso, o método
proposto pode também selecionar automaticamente os kernels mais relevantes, retornando pesos
que indiquem a sua importância na predição de interações droga-proteína na rede em questão.
A análise empírica em quatro bases de dados, utilizando vinte kernels distintos indicou que
o método proposto obteve desempenho comparável ou superior a todos os métodos avaliados.
Ademais, os pesos associados aos kernels analisados refletiram a qualidade preditiva obtida por
cada kernel em experimentos exaustivos para cada par de kernels, um indicativo do sucesso
do método em identificar automaticamente fontes de informação biológica relevantes. Nossas
análises demonstraram que a estratégia de integração de dados é capaz de melhorar a qualidade
das interações preditas, e pode acelerar a identificação de novas interações, bem como identificar
informações relevantes para a tarefa. / Drug-target networks are receiving a lot of attention in late years, given its relevance
for pharmaceutical innovation and drug lead discovery. Many different in silico approaches for
the identification of new drug-target interactions have been proposed, many of them based on a
particular class of machine learning algorithms called kernel methods. These pattern classification
algorithms are able to incorporate previous knowledge in the form of similarity functions, i.e.,
a kernel, and it has been successful in a wide range of supervised learning problems. The
selection of the right kernel function and its respective parameters can have a large influence
on the performance of the classifier. Recently, Multiple Kernel Learning algorithms have been
introduced to address this problem, enabling one to use multiple kernels instead of a single one
for a given task. The main motivation for such approach is similar to the one considered in
ensemble methods: instead of being restricted to only one kernel, it is preferrable to use a set
of distinct kernels, and let the algorithm choose the best ones, or its combination. The MKL
approach can also be seen as a data integration strategy. Despite technical advances in the latest
years, previous approaches are not able to cope with large drug-target interaction spaces and
integrate multiple sources of biological information simultaneously. In this work, we propose a
new multiple kernel learning algorithm for the non-sparse combination of kernels in bipartite link
prediction on drug-target networks. This method allows the integration of multiple heterogeneous
information sources for the identification of new interactions, and can also work with networks
of arbitrary size. Moreover, our method can also automatically select the more relevant kernels,
returning weights indicating their importance in the drug-target prediction at hand. Empirical
analysis on four data sets, using twenty distinct kernels indicates that our method has higher or
comparable predictive performance than all evaluated methods. Moreover, the predicted weights
reflect the predictive quality of each kernel on exhaustive pairwise experiments, which indicates
the success of the method to automatically indicate relevant biological information sources. Our
analysis show that the proposed data integration strategy is able to improve the quality of the
predicted interactions, and can speed up the identification of new drug-target interactions as well
as identify relevant information for the task
|
5 |
"Aprendizado de máquina semi-supervisionado: proposta de um algoritmo para rotular exemplos a partir de poucos exemplos rotulados"Sanches, Marcelo Kaminski 11 August 2003 (has links)
A fim de se utilizar algoritmos de Aprendizado de Máquina para tarefas de classificação, é admitida a existência de um conjunto de exemplos rotulados, conhecido como conjunto de treinamento, o qual é utilizado para o treinamento do classificador. Entretanto, em casos reais, esse conjunto de treinamento pode não conter um número de exemplos suficientemente grande para se induzir um bom classificador. Recentemente, a comunidade científica tem mostrado um grande interesse em uma variação dessa abordagem de aprendizado supervisionado. Essa nova abordagem, conhecida como aprendizado semi-supervisionado, assume que, juntamente com o conjunto de treinamento, há um segundo conjunto, de exemplos não rotulados, também disponível durante o treinamento. Uma das metas do aprendizado semi-supervisionado é o treinamento de classificadores quando uma grande quantidade de exemplos não rotulados está disponível juntamente com um pequeno conjunto de exemplos rotulados. A motivação para o aprendizado semi-supervisionado deve-se ao fato que, em muitas aplicações do mundo real, conjuntos de exemplos não rotulados são facilmente encontrados ou muito baratos para serem coletados, quando comparados aos conjuntos de exemplos rotulados. Um outro fator é que exemplos não rotulados podem ser coletados de forma automática enquanto os rotulados necessitam de especialistas ou outros custosos recursos de classificação. Os exemplos não rotulados podem ser utilizados de diversas maneiras. Neste trabalho é explorado um mecanismo no qual os exemplos não rotulados podem ser utilizados para melhorar tarefas de classificação e é proposto um algoritmo semi-supervisionado, denominado k-meanski, o qual viabiliza o uso de exemplos não rotulados em aprendizado supervisionado. A técnica utilizada pelo algoritmo proposto está baseada em duas premissas. A primeira delas é que os exemplos tendem a se agrupar naturalmente em clusters, ao invés de se distribuirem uniformemente no espaço de descrição dos exemplos. Além disso, cada exemplo do conjunto inicial de exemplos rotulados deve estar localizado perto do centro de um dos clusters existentes no espaço de descrição de exemplos. A segunda premissa diz que a maioria dos exemplos nos clusters pertencem a uma classe específica. Obviamente, a validade dessas premissas é dependente do conjunto de dados utilizado. O algoritmo k-meanski funciona bem nos casos em que os dados estão em conformidade com ambas as premissas. Entretanto, caso elas sejam violadas, a performance do algoritmo não será boa. São mostrados experimentos utilizando conjuntos de dados do mundo real, escolhendo-se aleatoriamente exemplos desses conjuntos para atuarem como exemplos rotulados.
|
6 |
"Utilização de aprendizado de máquina para a adaptação de estruturas em hipermídia adaptativa"Aragão, Alfredo Lanari de 16 February 2004 (has links)
Sistemas Hipermídia são programas capazes de armazenar e recuperar informações não-lineares, estabelecendo uma estrutura complexa e flexível representada por nós interligados. À medida em que aumenta o espaço de navegação, tal como acontece na World Wide Web (WWW ou Web), a possibilidade de desorientação do usuário no espaço de navegação torna-se maior. Assim, a Hipermídia Adaptativa investiga métodos e técnicas para a adaptação automática de conteúdos e/ou ligações para características, interesses ou objetivos individuais. Trabalhos recentes em Hipermídia Adaptativa sugerem o uso de técnicas de Aprendizado de Máquina e Modelagem de Usuários. Este trabalho investiga o uso de técnicas de Aprendizado de Máquina para a adaptação de estruturas (ligações) em um ambiente Hipermídia, em especial a World Wide Web. Para tanto, avalia-se o desempenho de diferentes algoritmos de Aprendizado de Máquina para a adaptção de ligações em ambiente WWW. Os resultados experimentais obtidos sugerem o potencial do emprego de técnicas de Aprendizado de Máquina.
|
7 |
"Utilização de aprendizado de máquina para a adaptação de estruturas em hipermídia adaptativa"Alfredo Lanari de Aragão 16 February 2004 (has links)
Sistemas Hipermídia são programas capazes de armazenar e recuperar informações não-lineares, estabelecendo uma estrutura complexa e flexível representada por nós interligados. À medida em que aumenta o espaço de navegação, tal como acontece na World Wide Web (WWW ou Web), a possibilidade de desorientação do usuário no espaço de navegação torna-se maior. Assim, a Hipermídia Adaptativa investiga métodos e técnicas para a adaptação automática de conteúdos e/ou ligações para características, interesses ou objetivos individuais. Trabalhos recentes em Hipermídia Adaptativa sugerem o uso de técnicas de Aprendizado de Máquina e Modelagem de Usuários. Este trabalho investiga o uso de técnicas de Aprendizado de Máquina para a adaptação de estruturas (ligações) em um ambiente Hipermídia, em especial a World Wide Web. Para tanto, avalia-se o desempenho de diferentes algoritmos de Aprendizado de Máquina para a adaptção de ligações em ambiente WWW. Os resultados experimentais obtidos sugerem o potencial do emprego de técnicas de Aprendizado de Máquina.
|
8 |
"Aprendizado de máquina semi-supervisionado: proposta de um algoritmo para rotular exemplos a partir de poucos exemplos rotulados"Marcelo Kaminski Sanches 11 August 2003 (has links)
A fim de se utilizar algoritmos de Aprendizado de Máquina para tarefas de classificação, é admitida a existência de um conjunto de exemplos rotulados, conhecido como conjunto de treinamento, o qual é utilizado para o treinamento do classificador. Entretanto, em casos reais, esse conjunto de treinamento pode não conter um número de exemplos suficientemente grande para se induzir um bom classificador. Recentemente, a comunidade científica tem mostrado um grande interesse em uma variação dessa abordagem de aprendizado supervisionado. Essa nova abordagem, conhecida como aprendizado semi-supervisionado, assume que, juntamente com o conjunto de treinamento, há um segundo conjunto, de exemplos não rotulados, também disponível durante o treinamento. Uma das metas do aprendizado semi-supervisionado é o treinamento de classificadores quando uma grande quantidade de exemplos não rotulados está disponível juntamente com um pequeno conjunto de exemplos rotulados. A motivação para o aprendizado semi-supervisionado deve-se ao fato que, em muitas aplicações do mundo real, conjuntos de exemplos não rotulados são facilmente encontrados ou muito baratos para serem coletados, quando comparados aos conjuntos de exemplos rotulados. Um outro fator é que exemplos não rotulados podem ser coletados de forma automática enquanto os rotulados necessitam de especialistas ou outros custosos recursos de classificação. Os exemplos não rotulados podem ser utilizados de diversas maneiras. Neste trabalho é explorado um mecanismo no qual os exemplos não rotulados podem ser utilizados para melhorar tarefas de classificação e é proposto um algoritmo semi-supervisionado, denominado k-meanski, o qual viabiliza o uso de exemplos não rotulados em aprendizado supervisionado. A técnica utilizada pelo algoritmo proposto está baseada em duas premissas. A primeira delas é que os exemplos tendem a se agrupar naturalmente em clusters, ao invés de se distribuirem uniformemente no espaço de descrição dos exemplos. Além disso, cada exemplo do conjunto inicial de exemplos rotulados deve estar localizado perto do centro de um dos clusters existentes no espaço de descrição de exemplos. A segunda premissa diz que a maioria dos exemplos nos clusters pertencem a uma classe específica. Obviamente, a validade dessas premissas é dependente do conjunto de dados utilizado. O algoritmo k-meanski funciona bem nos casos em que os dados estão em conformidade com ambas as premissas. Entretanto, caso elas sejam violadas, a performance do algoritmo não será boa. São mostrados experimentos utilizando conjuntos de dados do mundo real, escolhendo-se aleatoriamente exemplos desses conjuntos para atuarem como exemplos rotulados.
|
9 |
Low false positive learning with support vector machines = Máquina de vetores de suporte com restrição de falsos positivos / Máquina de vetores de suporte com restrição de falsos positivosMoraes, Daniel Bastos, 1987- 24 August 2018 (has links)
Orientadores: Anderson de Rezende Rocha, Jacques Wainer / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-24T22:07:46Z (GMT). No. of bitstreams: 1
Moraes_DanielBastos_M.pdf: 2454286 bytes, checksum: e130cab62fb4ac89706094d28e14ebb8 (MD5)
Previous issue date: 2014 / Resumo: A maioria dos sistemas de aprendizado de máquina para classificação binaria é treinado usando algoritmos que maximizam a acurácia e assume que falsos positivos e falsos negativos sao igualmente ruins. Entretanto, em muitas aplicações, estes dois tipos de erro podem ter custos bem diferentes. Por exemplo, em aplicações de triagem médica, determinar erroneamente que um paciente é saudavel e muito mais sério que determinar erroneamente que ele tem uma certa condição médica. Neste trabalho, nós abordamos o problema de controlar a taxa de falsos positivos em Máquinas de Vetores de Suporte (SVMs), uma vez que sua formulação tradicional não provê garantias desse tipo. Para resolver esse problema, definimos uma area sensível no espaço de características onde a probabilidade de falsos positivos é mais alta e usamos um segundo classificador (k-vizinhos mais próximos) nesta área para melhor filtrar os erros e melhorar o processo de tomada de decisão. Nós comparamos a solução proposta com outros métodos do estado da arte para classificação com baixa taxa de falsos positivos usando 33 conjuntos de dados comuns na literatura. A solução proposta mostra melhor performance na grande maioria dos casos usando a métrica padrão de Neyman-Pearson / Abstract: Most machine learning systems for binary classification are trained using algorithms that maximize the accuracy and assume that false positives and false negatives are equally bad. However, in many applications, these two types of errors may have very different costs. For instance, in medical screening applications, falsely determining that a patient is healthy is much more serious than falsely determining that she has a certain medical condition. In this work, we consider the problem of controlling the false positive rate on Support Vector Machines, since its traditional formulation does not offer such assurance. To solve this problem, we define a feature space sensitive area, where the probability of having false positives is higher, and use a second classifier (k-Nearest Neighbors) in this area to better filter errors and improve the decision-making process. We compare the proposed solution to other state-of-the-art methods for low false positive classification using 33 standard datasets in the literature. The solution we propose shows better performance in the vast majority of the cases using the standard Neyman-Pearson measure / Mestrado / Ciência da Computação / Mestre em Ciência da Computação
|
10 |
Software based fingerprint liveness detection = Detecção de vivacidade de impressões digitais baseada em software / Detecção de vivacidade de impressões digitais baseada em softwareNogueira, Rodrigo Frassetto, 1986- 26 August 2018 (has links)
Orientador: Roberto de Alencar Lotufo / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-26T03:01:45Z (GMT). No. of bitstreams: 1
Nogueira_RodrigoFrassetto_M.pdf: 3122263 bytes, checksum: e6333eb55b8b4830e318721882159cd1 (MD5)
Previous issue date: 2014 / Resumo: Com o uso crescente de sistemas de autenticação por biometria nos últimos anos, a detecção de impressões digitais falsas tem se tornado cada vez mais importante. Neste trabalho, nós implementamos e comparamos várias técnicas baseadas em software para detecção de vivacidade de impressões digitais. Utilizamos como extratores de características as redes convolucionais, que foram usadas pela primeira vez nesta área, e Local Binary Patterns (LBP). As técnicas foram usadas em conjunto com redução de dimensionalidade através da Análise de Componentes Principais (PCA) e um classificador Support Vector Machine (SVM). O aumento artificial de dados foi usado de forma bem sucedida para melhorar o desempenho do classificador. Testamos uma variedade de operações de pré-processamento, tais como filtragem em frequência, equalização de contraste e filtragem da região de interesse. Graças aos computadores de alto desempenho disponíveis como serviços em nuvem, foi possível realizar uma busca extensa e automática para encontrar a melhor combinação de operações de pré-processamento, arquiteturas e hiper-parâmetros. Os experimentos foram realizados nos conjuntos de dados usados nas competições Liveness Detection nos anos de 2009, 2011 e 2013, que juntos somam quase 50.000 imagens de impressões digitais falsas e verdadeiras. Nosso melhor método atinge uma taxa média de amostras classificadas corretamente de 95,2%, o que representa uma melhora de 59% na taxa de erro quando comparado com os melhores resultados publicados anteriormente / Abstract: With the growing use of biometric authentication systems in the past years, spoof fingerprint detection has become increasingly important. In this work, we implemented and compared various techniques for software-based fingerprint liveness detection. We use as feature extractors Convolutional Networks with random weights, which are applied for the first time for this task, and Local Binary Patterns. The techniques were used in conjunction with dimensionality reduction through Principal Component Analysis (PCA) and a Support Vector Machine (SVM) classifier. Dataset Augmentation was successfully used to increase classifier¿s performance. We tested a variety of preprocessing operations such as frequency filtering, contrast equalization, and region of interest filtering. An automatic and extensive search for the best combination of preprocessing operations, architectures and hyper-parameters was made, thanks to the fast computers available as cloud services. The experiments were made on the datasets used in The Liveness Detection Competition of years 2009, 2011 and 2013 that comprise almost 50,000 real and fake fingerprints¿ images. Our best method achieves an overall rate of 95.2% of correctly classified samples - an improvement of 59% in test error when compared with the best previously published results / Mestrado / Energia Eletrica / Mestre em Engenharia Elétrica
|
Page generated in 0.1217 seconds