• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 332
  • 27
  • 9
  • 2
  • Tagged with
  • 381
  • 381
  • 348
  • 342
  • 69
  • 57
  • 55
  • 53
  • 52
  • 46
  • 46
  • 45
  • 44
  • 42
  • 42
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae / Data warehouse enriched with machine learning methods for the Geminiviridae family

Silva, José Cleydson Ferreira da 25 July 2016 (has links)
Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-10T10:52:35Z No. of bitstreams: 1 texto completo.pdf: 3471654 bytes, checksum: 82ea26892b0d158adb1ef3c47fefcab1 (MD5) / Made available in DSpace on 2017-02-10T10:52:35Z (GMT). No. of bitstreams: 1 texto completo.pdf: 3471654 bytes, checksum: 82ea26892b0d158adb1ef3c47fefcab1 (MD5) Previous issue date: 2016-07-25 / Geminivírus infectam uma ampla faixa de plantas monocotiledôneas e dicotiledô- neas e causam expressivas perdas econômicas. A família Geminividae é uma das mais importantes famílias de vírus de plantas. Atualmente está composta por sete gêneros, é reconhecida pelo tipo de inseto vetor, hospedeiro, organização genômica e reconstrução filogenética. A amplificação por ciclo rolante permitiu que milhares de sequências completas e parciais fossem depositadas em bases de dados públi- cas. Entretanto, tais bases de dados são limitadas em ferramentas avançadas que permitam responder perguntas sofisticadas. Ao contrário de outros importantes patógenos virais, nenhum banco de dados para geminivírus que integre todas as informações relevantes foi ainda sugerido. Neste trabalho, um Data Warehouse (DW) designado geminivirus.com é proposto. Um DW amplamente enriquecido por abordagens de aprendizado de máquina que vise garantir confiabilidade e qua- lidade das sequências genômicas e seus metadados associados. As metodologias de extração, transformação dessas sequências e seus metadados foram implemen- tadas em um processo ETL (Extract, Transform and Load) específico para dados de geminivírus. Além disso, neste processo, o uso de algoritmos de aprendizado de máquina como Multilayer Perceptron (MLP), Máquina de Vetores de Suporte (SVM) e Random Forest são utilizados como classificadores taxonômicos in silico para classificar as sequências completas. Ademais, modelos de aprendizado de máquina foram propostos para classificação de genes. Os modelos para ambos os fins superam 98% de acurácia e precisão, utilizando apenas atributos extraídos da sequência genômica completa, sequência CDS (Coding DNA Sequence) e sequên- cia de aminoácidos. Também técnicas de Processamento de Linguagem Natural baseadas em teoria dos grafos foram propostas para extração de informação e co- nhecimento em resumos de artigos. Essa metodologia apresentou grande potencial para responder perguntas específicas. Explorando o grafo de texto buscando por palavras chaves que representam os mecanismos evolutivos, verificou-se que o tema recombinação é os mais estudado se comparado à mutação, migração, seleção na- tural e deriva genética. Tornando-se assim, uma técnica propicia para gerar novas hipóteses. Ao utilizar tal técnica, observou-se que ferramentas de predição de genes não foram mencionadas. Dessa oportunidade, sugerimos um método para predição e classificação de genes designado Fangorn Forest (F2). Além disso, como parte desse método sugerimos um algoritmo para predição de genes designado Millau Bridge (MB). Esse algoritmo testa todas as possíveis ORFs que uma sequência genômica completa pode codificar por meio de codons de iniciação e terminação. Além disso, identifica sítios de excisão de splicing. geminivrus.com tornou-se uma base de dados robusta capaz de proporcionar dados com boa qualidade, ferramen- tas avançadas enriquecidas por métodos de aprendizado de máquina que auxiliam pesquisadores em suas atividades de pesquisa e tomada de decisão. / Geminiviruses infect a wide range of monocot and dicot plants and cause sig- nificant economic losses. The Geminividae family is one of the most important plant virus families. Currently, it consists of seven genera and is recognized by the type of insect vector, host range, genome organization and phylogenetic re- construction. The rolling cycle amplification allowed thousands of complete and partial sequences to be made available in public databases. However, such databa- ses have limitations concerning advanced tools to answer sophisticated questions. Unlike other major viral pathogens, no database for geminiviruses that integrates all relevant information was suggested yet. In this work, a Data Warehouse (DW) designated geminivirus.org is proposed. It is a DW widely enriched by machine learning (ML) approaches designed to ensure reliability and quality of the genomic sequences and their associated metadata. The methods for extraction and trans- formation of these sequences and their metadata have been implemented using the ETL process (Extract, Transform and Load), specifically for geminivirus data. In addition, ML algorithms such as Multilayer Perceptron (MLP), Support Vector Machine (SVM), and Random Forest classifier are used as in silico taxonomic clas- sifiers to classify complete sequences. Furthermore, ML models are proposed for gene classification. All models exceed 98% accuracy and precision using only ex- tracted attributes of the complete genome sequence, Coding DNA Sequence (CDS) and protein sequence. Additionally, Natural Language Processing based on graph theory techniques have been proposed for extracting information and knowledge articles. This methodology presented great potential to answer specific questi- ons. While exploring the word graph by searching for keywords that represent evolutionary mechanisms, it was found that the subject of recombination is the most studied compared to the mutation, migration, natural selection and, genetic drift. The resulting method is demonstrated, thus, to be an interesting techni- que to generate new hypotheses. By using this technique, it was observed that gene prediction tools have not been mentioned. In this opportunity, we suggest a powerful method for prediction and classification of genes called Fangorn Forest (F2). Also as part of this method, we suggest a greedy algorithm for predicting genes designated Millau bridge (MB). This algorithm tests all possible ORFs that a complete genomic sequence can encode inspecting initiation and termination co- dons. Furthermore, it identifies splicing sites. geminivirus.org became a robust database capable of providing data with good quality, advanced tools enriched by machine learning methods that help researchers in their research activities and decision making.
22

Avaliação de features de localização para autenticação transparente e contínua: processo e estudo de caso / Evaluation of location features for transparent and continuous authentication: process and case study

Correia, Márcio André Souto January 2016 (has links)
CORREIA, Márcio André Souto. Avaliação de features de localização para autenticação transparente e contínua: processo e estudo de caso. 2016. 101 f. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2016. / Submitted by Jonatas Martins (jonatasmartins@lia.ufc.br) on 2017-11-14T17:15:39Z No. of bitstreams: 1 2016_dis_mascorreia.pdf: 1250224 bytes, checksum: e116420857bde4386e80cb11b4be2bf7 (MD5) / Approved for entry into archive by Jairo Viana (jairo@ufc.br) on 2017-11-14T20:41:42Z (GMT) No. of bitstreams: 1 2016_dis_mascorreia.pdf: 1250224 bytes, checksum: e116420857bde4386e80cb11b4be2bf7 (MD5) / Made available in DSpace on 2017-11-14T20:41:42Z (GMT). No. of bitstreams: 1 2016_dis_mascorreia.pdf: 1250224 bytes, checksum: e116420857bde4386e80cb11b4be2bf7 (MD5) Previous issue date: 2016 / Given today’s growing number of devices around users, and, at the same time, their faster and frequent interactions with these devices, new security mechanisms have emerged aiming at reducing the time spent by users with authentication as well as raising the security level related to identity verification. In this sense, there are several proposals in the literature with transparent and continuous authentication mechanisms that combine biometric data retrieved from actions that users already do while using mobile devices (e.g. location, screen touch, keystroke, gait, voice, among others). In the literature review performed in this work were found nine proposals that use outdoor location and merge other kinds of biometric features as input to their proposed authentication mechanism. These proposals have in common not only the use of outdoor location but they also fail to evaluate properly each biometric features set individually. Therefore, this work provides a new process for evaluation of biometric features by adapting guidelines of machine learning to perform experiments based on a statistical methodology. This is important to know how the mechanism works, which allows the identification and reuse of features extraction techniques that provide the best performance. Moreover, this process is also used in this work to evaluate and compare the outdoor location features identified in literature. For this evaluation, experiments were conducted with three classification algorithms (C4.5, SVM, and Naive Bayes) available in the WEKA machine learning environment and four datasets, two of which are public (Geolife and MIT Reality). Besides that, twelve measures were collected, being nine efficacy and three efficiency measures. In the analysis of the experimental results, significant variations were found in accuracy, CPU time, and memory regarding all evaluated scenarios. With these results, this work provides evidence of the viability of the proposed process and guides the choice of outdoor location features and learning algorithms that provide better performance for constructing transparent and continuous authentication mechanisms. / Com um número cada vez maior de dispositivos ao redor dos usuários e, ao mesmo tempo, aplicações que demandam interações mais rápidas e frequentes com esses equipamentos, novos mecanismos buscam reduzir o tempo gasto pelos usuários com autenticação e aumentar o nível de segurança relacionado com a verificação de identidade. Nesse sentido, existem várias propostas na literatura com mecanismos de autenticação transparente e contínua que combinam dados biométricos obtidos a partir de ações que os usuários já realizam enquanto usam os dispositivos móveis (e.g. localização, toque na tela, digitação, marcha, voz, entre outras). Na revisão da literatura realizada neste trabalho, foram encontradas nove propostas que usam a localização outdoor do usuário combinada com outros tipos de features biométricas como entrada para o mecanismo de autenticação proposto. Essas propostas têm em comum não só o uso da localização outdoor, mas também o fato de não conseguirem avaliar de maneira adequada cada conjunto de features individualmente. Sendo assim, este trabalho tem como objetivo propor um processo de avaliação de features biométricas, adaptando diretrizes de aprendizado de máquina, para realização de experimentos com base em uma metodologia estatística. Esse processo de avaliação é importante para a completa compreensão do funcionamento do mecanismo proposto, o que permite a identificação e o reuso das técnicas de extração de features que oferecem melhor desempenho. Além disso, um estudo de caso usando o processo é realizado para a avaliação e a comparação das features de localização outdoor identificadas na literatura. Nessa avaliação foram realizados experimentos com três algoritmos de classificação (C4.5, SVM e Naive Bayes) disponíveis no ambiente de aprendizado de máquina WEKA e quatro conjuntos de dados, sendo dois deles públicos (Geolife e MIT Reality). Foram também coletadas doze medidas, sendo nove delas de eficácia e três de eficiência. A análise dos resultados dos experimentos mostrou variações significativas na acurácia, uso de CPU e memória, considerando todos os cenários avaliados. Com esses resultados, este trabalho fornece evidências sobre a viabilidade do processo proposto, produzindo resultados para guiar a escolha de features de localização outdoor e algoritmos de aprendizado que oferecem melhor desempenho para a construção de mecanismos de autenticação transparente e contínua.
23

Um modelo de classificação supervisionada com rotulagem automática para reconhecimento de áudio de web rádios.

Rezende, Diego Dutra de January 2014 (has links)
Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. / Submitted by Oliveira Flávia (flavia@sisbin.ufop.br) on 2015-03-10T17:50:54Z No. of bitstreams: 2 license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5) DISSERTAÇÃO_ModeloClassificaçãoSupervisionada.pdf: 2193541 bytes, checksum: e03fe7bbcc1450dd9db781c1efc78fd9 (MD5) / Rejected by Gracilene Carvalho (gracilene@sisbin.ufop.br), reason: a pedido on 2015-03-10T18:18:41Z (GMT) / Submitted by Oliveira Flávia (flavia@sisbin.ufop.br) on 2015-03-10T18:49:31Z No. of bitstreams: 2 license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5) DISSERTAÇÃO_ModeloClassificaçãoSupervisionada.pdf: 2193541 bytes, checksum: e03fe7bbcc1450dd9db781c1efc78fd9 (MD5) / Approved for entry into archive by Gracilene Carvalho (gracilene@sisbin.ufop.br) on 2015-03-12T16:47:27Z (GMT) No. of bitstreams: 2 license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5) DISSERTAÇÃO_ModeloClassificaçãoSupervisionada.pdf: 2193541 bytes, checksum: e03fe7bbcc1450dd9db781c1efc78fd9 (MD5) / Made available in DSpace on 2015-03-12T16:47:27Z (GMT). No. of bitstreams: 2 license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5) DISSERTAÇÃO_ModeloClassificaçãoSupervisionada.pdf: 2193541 bytes, checksum: e03fe7bbcc1450dd9db781c1efc78fd9 (MD5) Previous issue date: 2014 / Com o aumento da capacidade de processamento dos computadores nos últimos anos, uma área específica da computação tem despertado a atenção tanto da academia quanto da indústria: a área de Recuperação de Informação em Música (do inglês, Music Information Retrieval _ MIR). Em especial, sistemas que reconhecem automaticamente áudio sendo tocado, seja em um sinal que vem da Web, seja gravando o áudio em dispositivos móveis, tem ganhado especial importância. Em tempos passados, havia ciência para se reconhecer áudio com precisão aceitável, como na faixa de 90%, mas os métodos não eram eficientes ao ponto de serem aplicados em escala, por exemplo, para a aplicação de reconhecimento de áudio em Web rádios, considerando-se um volume de milhares de rádios monitoradas em tempo real e índices da ordem de milhões de músicas. Hoje em dia os métodos não se desenvolveram tanto, mas o poder computacional disponível comercialmente é muito maior, permitindo então o desenvolvimento de uma gama de inovações tecnológicas na área. Nesta dissertação é apresentado um novo modelo de reconhecimento de áudio, capaz de usar o aprendizado supervisionado de máquina a partir de dados rotulados automaticamente para agregar diferentes métodos de reconhecimento de áudio, visando aumentar a precisão do reconhecimento, sem perder em eficiência. A rotulagem automática, cujo resultado é usado na etapa de treino, é possível porque as Web rádios são transmitidas usando protocolos e parâmetros conhecidos, de forma que é possível gerar dados sintéticos para treino e depois aplicar o modelo aprendido sobre as rádios reais. Neste trabalho mostra-se que, se os parâmetros das rádios são bem definidos, a combinação de métodos de reconhecimento utilizando o modelo proposto pode reduzir a perda (ou erro) do método de reconhecimento heurístico em até 55%, chegando a ter revocação média muito próxima de 100%. Isto considerando como baseline um método heurístico que está em execução em um sistema comercial que audita a ocorrência de propagandas em rádios que transmitem pela Web.
24

Um método para classificação de imagens de madeira usando Local Binary Patterns

Oliveira, Alex Paulo Alves de 12 March 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-09T14:14:32Z No. of bitstreams: 2 Dissertaçao Alex Paulo de Oliveira.pdf: 6283561 bytes, checksum: 7d672717c9f608cac1e52bfbcc49112f (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T14:14:32Z (GMT). No. of bitstreams: 2 Dissertaçao Alex Paulo de Oliveira.pdf: 6283561 bytes, checksum: 7d672717c9f608cac1e52bfbcc49112f (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-03-12 / O tráfico ilegal de madeiras é um problema no Brasil, percebido com mais frequência nas alfândegas da Amazônia. O objetivo desse trabalho é o desenvolvimento de um método para classificação de imagens de madeira. As imagens, usadas nessa pesquisa, foram fornecidas pela Embrapa e pelo VRI (UFPR). Para o classificador criado, cada imagem é representada pelo histograma resultante da aplicação do operador LBP (Local Binary Patterns). A classificação desenvolvida tem como base o aprendizado baseado em instâncias, utilizando o algoritmo K-NN (K-Nearest Neighbor). O aumento na quantidade de amostras, disponíveis para um mesmo teste, foi suficiente para tornar mais evidentes as diferenças de performance entre as diversos cenários elaborados. Foram consideradas duas abordagens de Cross-Validation: O K-Fold Cross-Validation e o Leave-One-Out Cross-Validation. Quase sempre, quando o Leave-One-Out Cross-Validation foi adotado, os resultados apresentam uma acurácia melhor em relação à outra abordagem. Neste trabalho, também foram realizados alguns testes para mensurar a robustez em relação ao ruído, e, ficou constatado que o ruído pode influenciar os resultados da classificação. A normalização influenciou os resultados obtidos pelo classificador, entretanto, dentre as variáveis consideradas, essa foi a menos influente. Foi possível perceber que a métrica adotada, para mensurar distâncias, influencia elementos importantes: o índice de acertos e a velocidade de resposta (processamento computacional exigido). O Kullback Leibler Divergence foi a métrica que apresentou melhores resultados. O classificador construído neste trabalho se mostrou igualmente eficiente para bases com imagens homogênias (com mesma dimensão e formato) e heterogênias;
25

Geração dinâmica de comitês de classificadores através da ordenação de competências e estabelecimento de critério de corte

MORAIS, Paulo Fagner Tenório Barros de 28 February 2013 (has links)
Submitted by Luiz Felipe Barbosa (luiz.fbabreu2@ufpe.br) on 2015-03-12T12:37:10Z No. of bitstreams: 2 Dissertacao Paulo Fagner de Morais.pdf: 811388 bytes, checksum: dbb1ec75e600e9e236c5cf37a52faedf (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T12:53:03Z (GMT) No. of bitstreams: 2 Dissertacao Paulo Fagner de Morais.pdf: 811388 bytes, checksum: dbb1ec75e600e9e236c5cf37a52faedf (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T12:53:03Z (GMT). No. of bitstreams: 2 Dissertacao Paulo Fagner de Morais.pdf: 811388 bytes, checksum: dbb1ec75e600e9e236c5cf37a52faedf (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-02-28 / Sistemas de Múltiplos Classificadores se tornaram uma alternativa quando se busca elevar o desempenho de um sistema de classificação. A ideia se baseia na combinação de diferentes classificadores, os quais devem ter visões complementares sobre um mesmo problema. Este trabalho apresenta uma metodologia para a geração dinâmica de comitês de classificadores, estratégia baseada na premissa de que nem todo classificador é um especialista em todo o espaço de características, de forma que a cada padrão a ser classificado, na fase de operação, é atribuído um comitê específico para esta tarefa. O sistema proposto neste trabalho opera em duas etapas. Na primeira, um conjunto inicial de classificadores é gerado utilizando uma metodologia consagrada na literatura, como por exemplo o algoritmo Bagging. Na segunda etapa, durante a fase de operação do sistema, para cada padrão a ser classificado, uma nota é atribuída a cada classificador do conjunto inicialmente gerado, os quais são ordenados em ordem decrescente de nota. Esta nota, chamada de valor de competência, representa o grau de aptidão que cada classificador possui para realizar classificações na região do espaço de características onde se localizam os padrões a serem classificados e é calculada com base no desempenho local dos classificadores sobre um conjunto de validação composto por dados não vistos durante o treinamento do conjunto inicial de classificadores. Neste cálculo é utilizada uma medida do desempenho de classificação de todo conjunto original de classificadores sobre cada padrão de validação, visando à estimação de valores de competências mais precisos. Em seguida, é aplicado um método proposto para a escolha da fração ideal do comitê ordenado a ser utilizada na classificação do padrão de teste atual. Este método define o tamanho do comitê dinamicamente. Foram realizados experimentos comparativos, sobre problemas de classificação binária, a partir dos quais a eficiência do método proposto é evidenciada. Experimentos mais específicos demonstraram que os métodos propostos para a extração dos valores de competência, bem como a definição dinâmica do tamanho do comitê, geram ambos, individualmente, contribuição positiva para os resultados do método.
26

Investigações sobre métodos de classificação para uso em termografia de mama

VASCONCELOS, Jessica Hipolito de 10 March 2017 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-07-03T19:42:57Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Jéssica Hipólito de Vasconcelo.pdf: 2439062 bytes, checksum: 8b28b9f7e55ad3390f9f9a170c2acd83 (MD5) / Made available in DSpace on 2018-07-03T19:42:57Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Jéssica Hipólito de Vasconcelo.pdf: 2439062 bytes, checksum: 8b28b9f7e55ad3390f9f9a170c2acd83 (MD5) Previous issue date: 2017-03-10 / CNPQ / Estudos recentes mostram que a termografia vem se mostrando bastante promissora como ferramenta auxiliar na tarefa de detectar o câncer de mama precocemente, o que é fator fundamental para aumentar as chances de cura do paciente. Tumores pequenos podem ser detectados pelos termogramas por causa da elevada atividade metabólica das células cancerígenas, o que leva a um aumento de temperatura no local e que é captado pela termografia. As referidas variações na temperatura assim como as alterações vasculares podem estar entre os primeiros sinais de anormalidade na mama. A técnica é um procedimento de diagnóstico não invasivo, indolor, com ausência de qualquer tipo de contato com o corpo do paciente, além de não emitir qualquer tipo de radiação, sendo então um procedimento confortável e seguro. A termografia é realizada utilizando câmeras de infravermelho sensíveis e um software que permite a interpretação de imagens de alta resolução. O presente trabalho tem como objetivo analisar métodos de classificação de imagem digital por infravermelho (IR) de mama e avaliar os resultados obtidos com o objetivo de investigar a viabilidade do uso de imagens IR para a detecção do câncer de mama. Inicialmente, a imagem termográfica é obtida e processada. Em seguida, procede-se à extração de características, que se baseia nas faixas de temperatura obtidas a partir do termograma, determinando-se assim os dados de entrada para o processo de classificação. Foram avaliados sete classificadores e utilizados 233 termogramas de pacientes do Ambulatório de Mastologia do Hospital das Clínicas da Universidade Federal de Pernambuco. Obtiveram-se como resultado, 93,42% de acurácia, 94,73% de sensibilidade e 92,10% de especificidade para a Classe Câncer em uma análise binária (Câncer x Não-Câncer) e para uma análise multiclasse (Maligno, Benigno, Cisto e Normal), 63,46% de acurácia, 80,77% de sensibilidade e 86,54% de especificidade para a Classe Maligno. / Recent studies have stated that the thermography technique has shown to be very promising as an auxiliary tool in the task of early detection of breast cancer, which is a fundamental factor to increase the chances of cure of the patient. Small tumors can be detected by thermograms because of the high metabolic activity of cancer cells, which leads to an increase in temperature on the spot and is captured in thermography. Such variations in temperature as well as vascular changes may be among the first signs of abnormality in the breast. The technique is a non-invasive, painless diagnostic procedure without any type of contact with the patient's body, besides not emitting any type of radiation, and is therefore a comfortable and safe procedure. Thermography is performed using sensitive infrared cameras and software that allows the interpretation of high resolution images. The present work aims to analyze methods of digital image classification of breast infrared images (IR) and to evaluate the results obtained with the purpose of investigating the feasibility of the use of IR images for the detection of breast cancer. Initially, the thermographic images were obtained and processed. Then, the next step is the feature extraction and it is based on the several temperature ranges obtained from the thermogram, determining the input data for the classification process. Seven classifiers were evaluated and used 233 thermograms of patients from the Mastology Outpatient Clinic of the Hospital das Clínicas of the Federal University of Pernambuco. Finally, 93.42% of accuracy, 94.73% of sensitivity and 92.10% of specificity were obtained for the Cancer Class in a binary analysis (Cancer versus Non-cancer) for a multiclass analysis (Malignant, Benign, Cyst and Normal), the obtained results for the Malignant Class were 63.46% of accuracy, 80.77% of sensitivity and 86.54% of specificity.
27

"Combinação de classificadores simbólicos para melhorar o poder preditivo e descritivo de Ensembles" / Combination of symbolic classifiers to improve predictive and descriptive power of ensembles

Flávia Cristina Bernardini 17 May 2002 (has links)
A qualidade das hipóteses induzidas pelos atuais sistemas de Aprendizado de Máquina depende principalmente da quantidade e da qualidade dos atributos e exemplos utilizados no treinamento. Freqüentemente, resultados experimentais obtidos sobre grandes bases de dados, que possuem muitos atributos irrelevantes, resultam em hipóteses de baixa precisão. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma quantidade muito grande de exemplos. Assim, uma das áreas de pesquisa mais ativas em aprendizado de máquina tem girado em torno de técnicas que sejam capazes de ampliar a capacidade dos algoritmos de aprendizado para processar muitos exemplos de treinamento, atributos e classes. Para que conceitos sejam aprendidos a partir de grandes bases de dados utilizando Aprendizado de Máquina, pode-se utilizar duas abordagens. A primeira realiza uma seleção de exemplos e atributos mais relevantes, e a segunda ´e a abordagem de ensembles. Um ensemble ´e um conjunto de classificadores cujas decisões individuais são combinadas de alguma forma para classificar um novo caso. Ainda que ensembles classifiquem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de n˜ao oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. O objetivo deste trabalho é propor uma forma de combinação de classificadores simbólicos, ou seja, classificadores induzidos por algoritmos de AM simbólicos, nos quais o conhecimento é descrito na forma de regras if-then ou equivalentes, para se trabalhar com grandes bases de dados. A nossa proposta é a seguinte: dada uma grande base de dados, divide-se esta base aleatoriamente em pequenas bases de tal forma que é viável fornecer essas bases de tamanho menor a um ou vários algoritmos de AM simbólicos. Logo após, as regras que constituem os classificadores induzidos por esses algoritmos são combinadas em um único classificador. Para analisar a viabilidade do objetivo proposto, foi implementado um sistema na linguagem de programação lógica Prolog, com a finalidade de (a) avaliar regras de conhecimento induzidas por algoritmos de Aprendizado de Máquina simbólico e (b) avaliar diversas formas de combinar classificadores simbólicos bem como explicar a classificação de novos exemplos realizada por um ensemble de classificares simbólicos. A finalidade (a) é implementada pelo Módulo de Análise de Regras e a finalidade (b) pelo Módulo de Combinação e Explicação. Esses módulos constituem os módulos principais do RuleSystem. Neste trabalho, são descritos os métodos de construção de ensembles e de combinação de classificadores encontrados na literatura, o projeto e a documentação do RuleSystem, a metodologia desenvolvida para documentar o sistema RuleSystem, a implementação do Módulo de Combinação e Explicação, objeto de estudo deste trabalho, e duas aplicações do Módulo de Combinação e Explicação. A primeira aplicação utilizou uma base de dados artificiais, a qual nos permitiu observar necessidades de modificações no Módulo de Combinação e Explicação. A segunda aplicação utilizou uma base de dados reais. / The hypothesis quality induced by current machine learning algorithms depends mainly on the quantity and quality of features and examples used in the training phase. Frequently, hypothesis with low precision are obtained in experiments using large databases with a large number of irrelevant features. Thus, one active research area in machine learning is to investigate techniques able to extend the capacity of machine learning algorithms to process a large number of examples, features and classes. To learn concepts from large databases using machine learning algorithms, two approaches can be used. The first approach is based on a selection of relevant features and examples, and the second one is the ensemble approach. An ensemble is a set of classifiers whose individual decisions are combined in some way to classify a new case. Although ensembles classify new examples better than each individual classifier, they behave like black-boxes, since they do not offer any explanation to the user about their classification. The purpose of this work is to consider a form of symbolic classifiers combination to work with large databases. Given a large database, it is equally divided randomly in small databases. These small databases are supplied to one or more symbolic machine learning algorithms. After that, the rules from the resulting classifiers are combined into one classifier. To analise the viability of this proposal, was implemented a system in logic programming language Prolog, called RuleSystem. This system has two purposes; the first one, implemented by the Rule Analises Module, is to evaluate rules induced by symbolic machine learning algorithms; the second one, implemented by the Combination and Explanation Module, is to evaluate several forms of combining symbolic classifiers as well as to explain ensembled classification of new examples. Both principal modules constitute the Rule System. This work describes ensemble construction methods and combination of classifiers methods found in the literature; the project and documentation of RuleSystem; the methodology developed to document the RuleSystem; and the implementation of the Combination and Explanation Module. Two different case studies using the Combination and Explanation Module are described. The first case study uses an artificial database. Through the use of this artificial database, it was possible to improve several of the heuristics used by the the Combination and Explanation Module. A real database was used in the second case study.
28

Veiculação de publicidade em redes sociais utilizando perfis de usuários

Silva, Guilherme Monteiro da, 92-98227-6177 31 July 2014 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-04-12T13:26:59Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação_Guilherme M. Silva.pdf: 2022880 bytes, checksum: 02b5c0f84d9fec6a322a5ff2384d11b9 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-04-12T13:27:22Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação_Guilherme M. Silva.pdf: 2022880 bytes, checksum: 02b5c0f84d9fec6a322a5ff2384d11b9 (MD5) / Made available in DSpace on 2018-04-12T13:27:22Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação_Guilherme M. Silva.pdf: 2022880 bytes, checksum: 02b5c0f84d9fec6a322a5ff2384d11b9 (MD5) Previous issue date: 2014-07-31 / Social Networks are among the most used services on the Web. Every day, millions of users insert personal information on websites such as Orkut and Facebook. Such information is of great importance, because the user is talking about himself, representing an explicit personal data. In this dissertation, we propose a model for advertising in social networks, using information contained in the profiles of its users. For this model, we proposed a two step approach: first, an approach for identifying entities using Wikipedia articles as source to filter and expand the information contained in the profiles; and then use machine learning to reshape the ranking of recommended advertisements. / As Redes Sociais estão entre os serviços mais utilizados na Web. Diariamente, milhões de usuários inserem informações pessoais em sites como Orkut e Facebook. Esse tipo de informação tem uma grande importância, pois o usuário está falando de si mesmo, representando um dado pessoal explícito. Nesta dissertação, é proposto um modelo de veiculação de publicidade em Redes Sociais, utilizando as informações contidas nos perfis de seus usuários. Para tal modelo, propusemos uma abordagem em dois passos: primeiro, uma abordagem de identificação de entidades utilizando os artigos da Wikipedia como fonte para filtrar e expandir a informação contida nos perfis; e então, utilizamos aprendizado de máquina para reformular o ranking das propagandas recomendadas.
29

Super-resolução de imagens baseada em aprendizado utilizando descritores de características / Images super-resolution based learning using feature descriptors

Rezio, Ana Carolina Correia, 1986- 19 August 2018 (has links)
Orientador: Hélio Pedrini / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-19T11:40:39Z (GMT). No. of bitstreams: 1 Rezio_AnaCarolinaCorreia_M.pdf: 2407538 bytes, checksum: cbf48e9214024f2478edcaa47e002852 (MD5) Previous issue date: 2011 / Resumo: Atualmente, há uma crescente demanda por imagens de alta resolução em diversos domínios de conhecimento, como sensoriamento remoto, medicina, automação industrial, microscopia, entre outros. Imagens de alta resolução fornecem detalhes que são importantes para as tarefas de análise e visualização dos dados presentes nas imagens. Entretanto, devido ainda ao custo elevado dos sensores de alta precisão e às limitações existentes para redução do tamanho dos pixels das imagens encontradas no próprio sensor, as imagens de alta resolução têm sido adquiridas a partir de métodos de super-resolução. Este trabalho propõe um método para super-resolver uma imagem ou uma sequência de imagens a partir da compensação residual aprendida pelas características extraídas na imagem residual e no conjunto de treinamento. Resultados experimentais mostram que, na maioria casos, o método proposto provê menores erros quando comparado com outras abordagens do estado da arte. Medidas quantitativas e qualitativas são utilizadas na comparação dos resultados obtidos com as técnicas de super-resolução consideradas nos experimentos / Abstract: There is currently a growing demand for high-resolution images in several domains of knowledge, such as remote sensing, medicine, industrial automation, microscopy, among others. High resolution images provide details that are important to tasks of analysis and visualization of data present in the images. However, due to the cost of high precision sensors and the limitations that exist for reducing the size of the image pixels in the sensor itself, high-resolution images have been acquired from super-resolution methods This work proposes a method for super-resolving an image or a sequence of images from the compensation residual learned by the features extracted in the residual image and the training set. The results are compared with some methods available in the literature. Quantitative and qualitative measures are used to compare the results obtained with the super-resolution techniques considered in the experiments / Mestrado / Ciência da Computação / Mestre em Ciência da Computação
30

Análise do conhecimento extraído de classificadores simbólicos utilizando medidas de avaliação e de interessabilidade.

Alan Keller Gomes 02 May 2002 (has links)
Com o avanço da tecnologia, grandes volumes de dados estão sendo coletados e acumulados numa velocidade espantosa. Data Mining constitui um campo de pesquisa recente em Inteligência Artificial, cujo objetivo é extrair conhecimento de grandes bases de dados. Um dos tópicos tratados em Data Mining para extrair conhecimento é o uso de algoritmos de Aprendizado de Máquina em grandes volumes de dados. Alguns algoritmos de Aprendizado de Máquina são capazes de criar generalizações, ou descrever conceitos, a partir de um conjunto de dados previamente rotulados. Esses algoritmos são conhecidos como indutores e são capazes de induzir uma hipótese (ou classificador). Um classificador pode estar descrito sob uma forma simbólica explícita, e assim, apresentar uma explicação do conceito aprendido de forma inteligível ao ser humano. Uma dessas formas de representação simbólica explícita são as regras de conhecimento. Especialmente em Data Mining, o volume de regras de conhecimento que descrevem um classificador simbólico pode ser muito grande. Isso dificulta muito a análise de regras individuais ou de um grupo de regras por parte do usuário desse conhecimento. No intuito de propor uma solução para essa dificuldade, a análise automática de regras, utilizando medidas de avaliação e de interessabilidade, destaca-se como uma das fontes de resultados positivos da aplicação do Aprendizado de Máquina na área de Data Mining. Neste trabalho é apresentado o RuleSystem, um sistema computacional protótipo que implementa funcionalidades voltadas para Aprendizado de Máquina e Data Mining. Uma dessas funcionalidades, implementadas no RuleSystem, refere-se à análise automática de regras. O Módulo de Análise de regras, proposto neste trabalho, implementa diversas medidas de avaliação e de interessabilidade de regras, permitindo assim realizar uma análise tanto quantitativa quanto qualitativa das regras que constituem a(s) hipótese(s) induzida(s) por algoritmos de Aprendizado de Maquina simbólico.

Page generated in 0.0922 seconds