Global ETD Search

1	Seleção dinâmica de classificadores baseada em filtragem e em distância adaptativa ALMEIDA, Henrique Alexandre de Menezes Sabino 15 August 2014 (has links) Submitted by Luiz Felipe Barbosa (luiz.fbabreu2@ufpe.br) on 2015-03-09T14:50:57Z No. of bitstreams: 2 DISSERTAÇÃO Henrique Alexandre de Menezes Sabino.pdf: 6700092 bytes, checksum: 8c6bc8de7d1a8e7ec2a85b2753260399 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T14:50:57Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Henrique Alexandre de Menezes Sabino.pdf: 6700092 bytes, checksum: 8c6bc8de7d1a8e7ec2a85b2753260399 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-08-15 / Em aprendizagem de máquina, uma das dificuldades mais recorrentes é a escolha do classificador que melhor resolve um determinado problema. Devido a isso, muitos estudos mostraram que problemas de classificação têm maiores taxas de acerto quando classificadores são combinados ao invés de apenas um classificador individual. A Seleção Dinâmica é uma estratégia para a combinação de múltiplos classificadores que usa a região de competência, no qual acredita-se que um subconjunto de classificadores seja mais competente para classificar um dado padrão de consulta. A abordagem tradicional de seleção dinâmica é composta por três fases: Superprodução, Região de Competência e Seleção Dinâmica. Vários métodos têm sidos propostos na fase de Superprodução, responsável pela geração de classificadores, e na fase de Seleção Dinâmica, responsável pela heurística de seleção, porém pouco foi estudado sobre a fase de Região de Competência. A fase de Região de Competência é responsável pela seleção dos padrões vizinhos do padrão de consulta, e é a principal informação para a seleção dos classificadores através da heurística de seleção. Devido à importância da região de competência, este trabalho propõe uma abordagem para seleção dinâmica que visa melhorar a definição da região de competência, tendo como hipótese que uma melhor definição dessa região resulta em um melhor desempenho de seleção dinâmica. Isso é realizado através de duas técnicas: filtragem de instâncias e distância adaptativa. Essas técnicas têm como finalidade a redução de padrões indesejáveis, e portanto são responsáveis por melhorar a qualidade da região de competência. Os experimentos foram realizados em 17 bases de dados utilizando 6 métodos diferentes de seleção dinâmica de classificadores. Os resultados mostraram que a abordagem proposta melhorou a taxa de acerto da seleção dinâmica, em relação a abordagem tradicional, em 10 bases com diferenças estatisticamente significativas, e em 5 dos 6 métodos de seleção dinâmica. No trabalho, também foi analisada a influência dos componentes do sistema de seleção dinâmica, e as descrições das bases de dados que influenciam a diferença dos resultados entre a abordagem proposta e a abordagem tradicional. Os resultados dessas análises mostraram que o método de seleção dinâmica e o classificador base são os componentes do sistema de seleção dinâmica que melhor determinam a taxa de acerto, e que o número de dimensões e o número de classes são os fatores que mais contribuem para a diferença de resultados entre as abordagens, proposta e tradicional. Combinação de Classificadores Região de Competência Seleção Dinâmica de Classificadores
2	Deteção de manchas de óleo em imagens SAR através da combinação de características e de classificadores / Detection of oil spill in SAR images through combination of features and classifiers Ramalho, Geraldo Luis Bezerra 14 December 2007 (has links) RAMALHO, G. L. B. Deteção de manchas de óleo em imagens SAR através da combinação de características e de classificadores. 2007. 100 f. Dissertação (Mestrado em Engenharia de Teleinformática) – Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2007. / Submitted by Marlene Sousa (mmarlene@ufc.br) on 2016-04-04T14:47:08Z No. of bitstreams: 1 2007_dis_glbramalho.pdf: 6245692 bytes, checksum: c40029d4e31b6cafe7ad3943452a4997 (MD5) / Approved for entry into archive by Marlene Sousa(mmarlene@ufc.br) on 2016-04-06T17:47:42Z (GMT) No. of bitstreams: 1 2007_dis_glbramalho.pdf: 6245692 bytes, checksum: c40029d4e31b6cafe7ad3943452a4997 (MD5) / Made available in DSpace on 2016-04-06T17:47:42Z (GMT). No. of bitstreams: 1 2007_dis_glbramalho.pdf: 6245692 bytes, checksum: c40029d4e31b6cafe7ad3943452a4997 (MD5) Previous issue date: 2007-12-14 / Mapping ocean oil pollution by using Synthetic Aperture Radar (SAR) images is an important area of interest for environmental surveillance. One can make use of the SAR images to extract features by using different methods in order to predict if a specific region contains an oil spill or not using Artificial Neural Networks (ANN). A major problem in this approach is the number of false alarms due to misclassification. Oil spills are rare events and the number of available images containing spills is atistically small which is a limitation for the classifier performance. This work proposes the use of multiple feature sets and classifier combining methods to minimize the number of false alarms and thus, reduce the operational costs of automatic oil spill detection systems. The SAR images used in this work are not limited to a specific imaging system and different feature sets based on geometry and texture of the spills were tested. The generalization performances of classifier combination methods as boosting and bagging were compared with those resulting from single classifiers as Multilayer Perceptron (MLP) and Support Vector Machines (SVM). The experimental results suggest that oil spill characterization can be significantly improved using boosting even when few image samples are available and the feature sets have high dimensionality. / O mapeamento da poluição de óleo no mar utilizando imagens de Radar de Abertura Sintética (SAR, do inglês Synthetic Aperture Radar) é uma importante área de interesse na área da vigilância ambiental. Pode-se utilizar imagens SAR para extrair características através de diferentes métodos com o objetivo de predizer através de Redes Neurais Artificiais (RNAs) se uma região específica contém ou não uma mancha de óleo. O principal problema dessa abordagem é a ocorrência de excessivos alarmes falsos decorrentes de erros de classificação. Manchas de óleo são eventos raros e a pequena disponibilidade de imagens contendo manchas é um fator limitante do desempenho dos classificadores. Este trabalho propõe a utilização de múltiplos conjuntos de características e métodos de combinação de classificadores para minimizar o número de alarmes falsos a fim de possibilitar a redução de custos operacionais de sistemas automáticos de deteção de manchas de óleo. As imagens SAR utilizadas neste trabalho não estão limitadas a um único sistema de imageamento e diferentes conjuntos de características baseados na geometria e textura das manchas foram testados. Os desempenhos de generalização de métodos de combinação de classificadores, como boosting e bagging, foram comparados com aqueles obtidos com classificadores individuais, como Perceptron Multi-Camadas (MLP, do inglês Multi-Layer Perceptron) e Máquina de Vetor de Suporte (SVM, do inglês Support Vector Machine). Os resultados experimentais sugerem que a caracterização das manchas de óleo pode ser significativamente melhorada através do uso do boosting,mesmo quando poucas imagens amostrais estão disponíveis. Teleinformática Redes neurais Comitê de classificadores
3	Nominais nus, tópico e foco Mariano, Ruan de Souza January 2013 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Linguística, Florianópolis, 2013. / Made available in DSpace on 2013-07-16T21:11:29Z (GMT). No. of bitstreams: 1 317398.pdf: 1921761 bytes, checksum: b2f3c6a65042c125bc59e69f96f369ea (MD5) / O presente trabalho se insere numa perspectiva de interface entre semântica, prosódia e psicolinguística e busca investigar a restrição (se este for mesmo o caso) a nominais nus, isto é, nomes desprovidos de determinantes, em posição de sujeito de sentenças episódicas do português brasileiro (PB). Realizamos, para tanto, três experimentos psicolinguísticos com o intuito de testar nossas hipóteses, quais sejam: a) se nominais nus sujeitos de sentenças episódicas são gramaticais no PB, embora possam ser contextualmente marcados; b) se a prosódia para tópico contribui para a felicidade de sentenças com nominais nus sujeitos de sentenças episódicas. Os resultados apontaram para a confirmação de que os nominais nus são gramaticais na posição de sujeito de sentenças episódicas do PB, mas não deram subsídios para sustentarmos que a prosódia contribui para restituir a felicidade de sentenças contextualmente infelizes. Sentenças episódicas com nominais nus sujeitos parecem ser gramaticais e não necessitarem de suporte prosódico, contrariando as expectativas de todos os teóricos da área.<br> Linguística Classificadores (Linguistica) Semântica Psicolinguistica
4	Sistemas inteligentes híbridos para classificação de texto Pereira Rodrigues, Joseane 31 January 2009 (has links) Made available in DSpace on 2014-06-12T16:00:02Z (GMT). No. of bitstreams: 2 arquivo5821_1.pdf: 891518 bytes, checksum: 9560f5e12af9c2656653e6d7b10b47ed (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / Fundação de Amparo a Pesquisa do Estado da Bahia / Grande parte da informação contida em repositórios digitais, como a Web e as Bibliotecas Digitais, está representada em formato de documentos de texto. Sistemas de Recuperação de Informação têm sido usados para prover acesso a documentos relevantes armazenados nesses repositórios. No entanto, esses sistemas ainda apresentam limitações a serem superadas. Muitos dos problemas desses sistemas têm sido tratados usando técnicas de classificação de texto oriundas da Inteligência Artificial (em especial os algoritmos de Aprendizado de Máquina). Cada técnica apresenta vantagens e limitações, considerando os conjuntos de textos em que são aplicadas. Este trabalho investigou técnicas de combinação de classificadores de texto, em especial, técnicas baseadas em Boosting. Essas técnicas tentam superar as limitações dos classificadores sendo combinados, mantendo suas vantagens individuais, e assim apresentando um melhor desempenho nas tarefas em que são aplicados. Trabalhos anteriores apontam problemas em aberto em relação ao uso de métodos de combinação para classificadores de texto. Assim, esperamos neste projeto avançar o estado da arte sobre o tema. No trabalho realizado, implementamos uma variação de Boosting proposta na literatura que usa informações de vizinhança, chamada LocalBoost. Essa variação tem alcançado bons resultados comparativos em dados benchmark. Propomos ainda uma variação do LocalBoost para tratamento de dados desbalanceados, que foi avaliada em experimentos tanto com bases de classificação de texto como para bases de dados não-textuais. Os resultados dos experimentos revelaram a viabilidade do uso da variação proposta Classificação de texto Combinação de classificadores de texto
5	Otimização de algoritmo de agrupamento de dados para a classificação supervisionada de padrões SILVA, Evandro José da Rocha e 25 February 2014 (has links) Submitted by Luiz Felipe Barbosa (luiz.fbabreu2@ufpe.br) on 2015-03-09T12:49:55Z No. of bitstreams: 2 DISSERTAÇÃO Evandro José da Rocha e Silva.pdf: 1864754 bytes, checksum: 7f438607b1d1280050c14f8d4b2df203 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T12:49:55Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Evandro José da Rocha e Silva.pdf: 1864754 bytes, checksum: 7f438607b1d1280050c14f8d4b2df203 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-02-25 / O reconhecimento de padrões é uma atividade frequente do ser humano. Entretanto muitas vezes não somos capazes de lidar com o volume de informações disponíveis. Para isso podemos recorrer às técnicas de Aprendizagem de Máquina, cujos algoritmos permitem a um computador aprender e classificar padrões de forma segura e veloz. Dentre os algoritmos que podem ser utilizados, existem aqueles que fazem parte dos sistemas de múltiplos classificadores. Nesses sistemas, vários classificadores trabalham em conjunto para a classificação dos padrões. O trabalho em conjunto pode ser realizado através da abordagem de seleção de classificadores. Neste trabalho foi desenvolvida uma metodologia para a construção de sistemas de múltiplos classificadores. Inicialmente o método usa os dados de treinamento para encontrar um mapa do agrupamento dos dados. Com isso, os dados de validação e teste pertencentes a cada grupo são encontrados. Então os classificadores são criados e treinados para cada grupo de dados. Através da abordagem de seleção de classificadores, o melhor classificador para cada agrupamento é encontrado. Os classificadores selecionados são usados para classificar os padrões não vistos que pertencem aos seus respectivos grupos. Foram implementadas duas versões do método proposto. A primeira, chamada BMGGAVS, conseguiu um bom desempenho, superando, na maioria das vezes, todos os outros métodos utilizados na comparação. A segunda versão do método, chamada BMG2GA, possui uma maior automatização. O BMG2GA não conseguiu resultados tão bons quanto os do BMGGAVS. Entretanto, em algumas situações, o BMG2GA conseguiu resultados próximos ou até melhores que os resultados de alguns dos métodos usados para comparação. Por causa desses últimos resultados, uma série de diretrizes são apresentadas para trabalhos futuros. Reconhecimento de Padrões Aprendizagem de Máquina Comitês de Classificadores (CC) Seleção de Classificadores (SC) Blockmodeling BM-GGA
6	Uma proposta para a atualização da base de dados em engenhos de busca utilizando classificadores BARBOSA, Luciano de Andrade January 2003 (has links) Made available in DSpace on 2014-06-12T15:58:49Z (GMT). No. of bitstreams: 2 arquivo4714_1.pdf: 577288 bytes, checksum: 0df7b311129c3ab32b304b72880b28db (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2003 / Os Sistemas de Recuperação de Informação (SRI) têm por tarefa básica processar uma consulta feita por um usuário, e, a partir dela, recuperar um conjunto de documentos armazenados em uma coleção de dados, que são relevantes às necessidades de informação deste usuário. As bibliotecas estão entre as primeiras instituições a adotarem um SRI para facilitar o acesso às suas informações, através do uso de consultas bibliográficas. Uma das características deste tipo de sistema em bibliotecas é a manipulação controlada dos dados, ou seja, há um controle, por exemplo, de quem são os autores dos documentos existentes, em que momento estes documentos foram inseridos, modificados ou retirados da coleção. Ao contrário dos dados utilizados por um sistema para consultas bibliográficas, a Web é uma coleção não controlada de documentos, ou seja, a todo instante, estão sendo inseridos e modificados documentos por diferentes pessoas, em locais distintos. Além dessa alta dinamicidade, a Web possui um número muito grande de documentos, que vem aumentando exponencialmente. No entanto, para que um SRI possa disponibilizar informações sobre o conteúdo da Web de forma eficiente, é preciso que ele saiba lidar com esses problemas apresentados. Para isso surgiu um novo tipo de SRI, os engenhos de busca. Eles têm como um de seus grandes desafios manter as informações de sua base de dados atualizadas, principalmente, porque eles são executados sobre recursos limitados (banda passante, memória e processamento). Neste sentido, este trabalho propõe uma solução para o problema da atualização da base de dados de um engenho de busca, focando na utilização racional dos recursos utilizados por ele para a realização desta tarefa. Esta solução baseia-se no uso de uma política não-uniforme, na qual elementos mais dinâmicos são atualizados mais freqüentemente do que os menos dinâmicos. Para a utilização desta política, são utilizadas técnicas de Aprendizagem de Máquina e estatística para identificar os grupos de páginas de dinamicidade semelhantes. Um protótipo contendo esta solução é desenvolvido a fim de validar seu desempenho em um ambiente real e um estudo de caso é apresentado visando mostrar a maior eficiência desta solução em relação a uma abordagem tradicional de atualização Desperdício de recursos Classificadores Engenho de busca Base de índices
7	Utilização de morfismo como classificador para verificação de assinaturas off-line Mélo, Lucindo Albuquerque de 31 January 2011 (has links) Made available in DSpace on 2014-06-12T16:01:22Z (GMT). No. of bitstreams: 2 arquivo8454_1.pdf: 1957122 bytes, checksum: 699aaa50fd31e084b62a826525a3173c (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2011 / Esta dissertação oferece contribuições para o problema de verificação de assinaturas Off-line através da criação de um classificador baseado em morfismo utilizando uma técnica de triangulação de pontos apta a gerar imagens intermediarias entre duas ou mais assinaturas. Esta técnica permite verificar a distância entre as assinaturas de uma determinada classe, objetivando discriminálas como falsas ou genuínas. Neste trabalho cinco cenários foram avaliados, em todos foram utilizadas assinaturas genuínas, falsificações simuladas e aleatórias. Do primeiro ao quarto cenários examinam-se quanto à quantidade fixa de pontos por experimento, sendo o número de pontos 10, 40, 70 e 100 respectivamente. O quinto cenário é avaliado utilizando uma quantidade variável de pontos por experimento, onde foi obtido o melhor resultado, alcançando uma taxa de erro global de 0,18. Analisou-se também o impacto que o número de assinaturas usadas como referência influencia no desempenho do sistema. Utilizou-se uma base de assinaturas para teste composta por 10 autores Interpolação Verificação Off-line de assinatura Morfismo e classificadores
8	Uma arquitetura para combinação de classificadores otimizada por métodos de poda com aplicação em credit scoring Silva Filho, Luiz Vieira e 17 February 2014 (has links) Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-09T19:29:39Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DISSERTAÇÃO Luíz Vieira e Silva Filho.pdf: 2176053 bytes, checksum: 4882a96e67804421bca22e07debc49da (MD5) / Made available in DSpace on 2015-03-09T19:29:39Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DISSERTAÇÃO Luíz Vieira e Silva Filho.pdf: 2176053 bytes, checksum: 4882a96e67804421bca22e07debc49da (MD5) Previous issue date: 2014-02-17 / Sistemas de Múltiplos Classificadores (Multiple Classifiers Systems - MCS) se baseiam na ideia de que combinar a opinião de vários especialistas pode produzir melhores resultados do que quando se usa apenas um especialista. Diversas técnicas de MCS foram desenvolvidas, apresentando pontos fortes e fracos, a depender do contexto em que são aplicadas. Este trabalho propõe uma arquitetura para MCS que visa potencializar a complementaridade entre essas técnicas, possuindo dois objetivos principais: i) a combinação de métodos de amostragem tradicionais, visando a geração de classificadores de melhor desempenho que componham um pool de classificadores; ii) a aplicação de um algoritmo de poda para remover do pool aqueles classificadores incompetentes para lidar com o problema em questão, considerando os critérios de seleção adotados. A arquitetura proposta foi avaliada em uma aplicação de credit-scoring. Os métodos de amostragem usados foram o Bagging e o Random Subspace com classificadores-base sendo árvores-de-decisão, construídas com base no algoritmo CART. Para o processamento da poda foi usado o algoritmo Orientation Ordering, e para combinação das saídas dos classificadores do ensemble adotou-se o método Majority Vote. Os experimentos realizados mostraram que a arquitetura proposta alcançou taxas de acerto similares ou superiores às atingidas pelos métodos apresentados na literatura. Esses resultados ainda foram obtidos com ensembles cujos tamanhos eram da ordemde 20% dos pools originais gerados na fase de treinamento. MCS Combinação de classificadores Ensembles Comitês Poda de ensembles Árvores-de-decisão Credit scoring Ordenação de classificadores
9	As construções verbais paratáticas : gramaticalização em italiano / Bomtorin, Patricia. January 2015 (has links) Orientador: Angélica Terezinha Carmo Rodrigues / Banca: Cristina Martins Fargetti / Banca: Cristina dos Santos Carvalho / Resumo: Esta pesquisa visa a estudar, na língua italiana, a ocorrência de um tipo particular de construção, a saber, as construções verbais paratáticas (CVPs, daqui em diante). As construções focalizadas nesta pesquisa formam-se a partir de dois ou mais verbos flexionados, conectados ou não pela conjunção e, como por exemplo: se ne va e piange ("vai-se chora"), prendo e me ne vado ("pego e vou-me embora"). Nossa investigação inicial consistiu na documentação destas construções a partir de corpora do italiano. Todavia, considerando que o estudo das CVPs é incipiente no italiano, sua descrição e análise ainda carecem de um estudo exaustivo, que vise à análise de sua estrutura e função. Desse modo, nosso objetivo é aprofundar o trabalho iniciado em nível de iniciação científica, com foco nas seguintes questões: estatuto categorial das CVPs como um tipo de predicação complexa não previsível no âmbito da gramática do italiano contemporâneo (a saber, serialização verbal); e gramaticalização, tendo em vista os processos de mudança envolvidos na emergência dessa construção. Nossa hipótese é a de que as CVPs sejam consideradas como construções de foco. Adotamos os pressupostos teóricos da gramática funcional, visto que esta pesquisa tem por objetivo estudar a língua em uso. Dentro do funcionalismo, cabe estudar outros pontos caros a este trabalho, como: a estrutura informacional, a categorização, a gradiência da predicação complexa, a auxiliaridade e a serialização verbal. A metodologia empregada aqui consta da análise dos dados coletados a partir dos corpora CORIS e LABLITA (do projeto C-ORAL-ROM), além de buscas na web a partir do site google, sendo que foi efetuada uma pesquisa quantitativa sobre estes dados com uso do programa GOLDVARB. A análise efetuada a partir destes corpora focou na estrutura das CVPs; na sua função, haja vista que propomos sua interpretação como construções... / Abstract: This work aims to study, in Italian, the occurrence of a particular type of construction, which are the paratactic verbal constructions (PVCs, henceforth). The constructions focused in this research are formed by two or more verbs inflected, connected or not by the conjunction and, as in: se ne va e piange ("go and cry"), prendo e me ne vado ("I take and go away"). Our initial investigation consisted in the documentation of these constructions through corpora from Italian. However, considering that the study of the PVCs are incipient in Italian, its description and analysis still need an exhaustive study, which aims the analysis of its structure and function. Therefore, our objective is to deepen the work begun in scientific initiation level, focusing in the following questions: categorial status of the PVCs as a type of complex predicate not predictable in the ambit of the contemporary Italian grammar (as verbal serialization); and grammaticalization, due to the processes of change involved in the emergence of this construction. Our hypothesis is that the PVCs are considered as focus constructions. We adopt the theoretical presuppositions of the funcional grammar, since this research has as an objective to study the language in use. In the funcionalism, there are some other issues relevant to this work, as: the informational structure, the categorization, the gradience of the complex predicates, the auxiliar constructions, and the verbal serialization. The methodology employed here is constituted by the analysis of the collected data through the corpora CORIS and LABLITA (from the C-ORAL-ROM project), besides a search on the web through Google, and a quantitative research was carried out about these data using the GOLDVARB programme. The analysis made through these corpora focalized in the structure of PVCs; in their function, since we propose their interpretation as focus constructions; in their categorization, due to the fact ... / Mestre Lingua italiana. Lingua italiana - Gramática. Classificadores (Linguistica) Italian language
10	"Combinação de classificadores simbólicos para melhorar o poder preditivo e descritivo de Ensembles" / Combination of symbolic classifiers to improve predictive and descriptive power of ensembles Bernardini, Flávia Cristina 17 May 2002 (has links) A qualidade das hipóteses induzidas pelos atuais sistemas de Aprendizado de Máquina depende principalmente da quantidade e da qualidade dos atributos e exemplos utilizados no treinamento. Freqüentemente, resultados experimentais obtidos sobre grandes bases de dados, que possuem muitos atributos irrelevantes, resultam em hipóteses de baixa precisão. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma quantidade muito grande de exemplos. Assim, uma das áreas de pesquisa mais ativas em aprendizado de máquina tem girado em torno de técnicas que sejam capazes de ampliar a capacidade dos algoritmos de aprendizado para processar muitos exemplos de treinamento, atributos e classes. Para que conceitos sejam aprendidos a partir de grandes bases de dados utilizando Aprendizado de Máquina, pode-se utilizar duas abordagens. A primeira realiza uma seleção de exemplos e atributos mais relevantes, e a segunda ´e a abordagem de ensembles. Um ensemble ´e um conjunto de classificadores cujas decisões individuais são combinadas de alguma forma para classificar um novo caso. Ainda que ensembles classifiquem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de nao oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. O objetivo deste trabalho é propor uma forma de combinação de classificadores simbólicos, ou seja, classificadores induzidos por algoritmos de AM simbólicos, nos quais o conhecimento é descrito na forma de regras if-then ou equivalentes, para se trabalhar com grandes bases de dados. A nossa proposta é a seguinte: dada uma grande base de dados, divide-se esta base aleatoriamente em pequenas bases de tal forma que é viável fornecer essas bases de tamanho menor a um ou vários algoritmos de AM simbólicos. Logo após, as regras que constituem os classificadores induzidos por esses algoritmos são combinadas em um único classificador. Para analisar a viabilidade do objetivo proposto, foi implementado um sistema na linguagem de programação lógica Prolog, com a finalidade de (a) avaliar regras de conhecimento induzidas por algoritmos de Aprendizado de Máquina simbólico e (b) avaliar diversas formas de combinar classificadores simbólicos bem como explicar a classificação de novos exemplos realizada por um ensemble de classificares simbólicos. A finalidade (a) é implementada pelo Módulo de Análise de Regras e a finalidade (b) pelo Módulo de Combinação e Explicação. Esses módulos constituem os módulos principais do RuleSystem. Neste trabalho, são descritos os métodos de construção de ensembles e de combinação de classificadores encontrados na literatura, o projeto e a documentação do RuleSystem, a metodologia desenvolvida para documentar o sistema RuleSystem, a implementação do Módulo de Combinação e Explicação, objeto de estudo deste trabalho, e duas aplicações do Módulo de Combinação e Explicação. A primeira aplicação utilizou uma base de dados artificiais, a qual nos permitiu observar necessidades de modificações no Módulo de Combinação e Explicação. A segunda aplicação utilizou uma base de dados reais. / The hypothesis quality induced by current machine learning algorithms depends mainly on the quantity and quality of features and examples used in the training phase. Frequently, hypothesis with low precision are obtained in experiments using large databases with a large number of irrelevant features. Thus, one active research area in machine learning is to investigate techniques able to extend the capacity of machine learning algorithms to process a large number of examples, features and classes. To learn concepts from large databases using machine learning algorithms, two approaches can be used. The first approach is based on a selection of relevant features and examples, and the second one is the ensemble approach. An ensemble is a set of classifiers whose individual decisions are combined in some way to classify a new case. Although ensembles classify new examples better than each individual classifier, they behave like black-boxes, since they do not offer any explanation to the user about their classification. The purpose of this work is to consider a form of symbolic classifiers combination to work with large databases. Given a large database, it is equally divided randomly in small databases. These small databases are supplied to one or more symbolic machine learning algorithms. After that, the rules from the resulting classifiers are combined into one classifier. To analise the viability of this proposal, was implemented a system in logic programming language Prolog, called RuleSystem. This system has two purposes; the first one, implemented by the Rule Analises Module, is to evaluate rules induced by symbolic machine learning algorithms; the second one, implemented by the Combination and Explanation Module, is to evaluate several forms of combining symbolic classifiers as well as to explain ensembled classification of new examples. Both principal modules constitute the Rule System. This work describes ensemble construction methods and combination of classifiers methods found in the literature; the project and documentation of RuleSystem; the methodology developed to document the RuleSystem; and the implementation of the Combination and Explanation Module. Two different case studies using the Combination and Explanation Module are described. The first case study uses an artificial database. Through the use of this artificial database, it was possible to improve several of the heuristics used by the the Combination and Explanation Module. A real database was used in the second case study. aprendizado de máquina simbólico combinação de classificadores combination of classifiers symbolic machine learning

Search results