Global ETD Search

101	Avaliação automática da qualidade de escrita de resumos científicos em inglês / Automatic evaluation of the quality of English abstracts Luiz Carlos Genoves Junior 01 June 2007 (has links) Problemas com a escrita podem afetar o desempenho de profissionais de maneira marcante, principalmente no caso de cientistas e acadêmicos que precisam escrever com proficiência e desembaraço não somente na língua materna, mas principalmente em inglês. Durante os últimos anos, ferramentas de suporte à escrita, algumas com enfoque em textos científicos, como o AMADEUS e o SciPo foram desenvolvidas e têm auxiliado pesquisadores na divulgação de suas pesquisas. Entretanto, a criação dessas ferramentas é baseada em córpus, sendo muito custosa, pois implica em selecionar textos bem escritos, além de segmentá-los de acordo com sua estrutura esquemática. Nesse mestrado estudamos, avaliamos e implementamos métodos de detecção automática da estrutura esquemática e de avaliação automática da qualidade de escrita de resumos científicos em inglês. Investigamos o uso de tais métodos para possibilitar o desenvolvimento de dois tipos de ferramentas: de detecção de bons resumos e de crítica. Nossa abordagem é baseada em córpus e em aprendizado de máquina supervisionado. Desenvolvemos um detector automático da estrutura esquemática, que chamamos de AZEA, com taxa de acerto de 80,4% eKappa de 0,73, superiores ao estado da arte (acerto de 73%, Kappa de 0,65). Experimentamos várias combinações de algoritmos, atributos e diferentes seções de um artigo científicos. Utilizamos o AZEA na implementação de duas dimensões de uma rubrica para o gênero científico, composta de 7 dimensões, e construímos e disponibilizamos uma ferramenta de crítica da estrutura de um resumo. Um detector de erros de uso de artigo também foi desenvolvido, com precisão é de 83,7% (Kappa de 0,63) para a tarefa de decidir entre omitir ou não um artigo, com enfoque no feedback ao usuário e como parte da implementação da dimensão de erros gramaticais da rubrica. Na tarefa de detectar bons resumos, utilizamos métodos usados com sucesso na avaliação automática da qualidade de escrita de redações com as implementações da rubrica e realizamos experimentos iniciais, ainda com resultados fracos, próximos à baseline. Embora não tenhamos construído um bom avaliador automático da qualidade de escrita, acreditamos que este trabalho indica direções para atingir esta meta, e forneça algumas das ferramentas necessárias / Poor writing may have serious implications for a professional\'s career. This is even more serious in the case of scientists and academics whose job requires fluency and proficiency in their mother tongue as well as in English. This is why a number of writing tools have been developed in order to assist researchers to promote their work. Here, we are particularly interested in tools, such as AMADEUS and SciPo, which focus on scientific writing. AMADEUS and SciPo are corpus-based tools and hence they rely on corpus compilation which is by no means an easy task. In addition to the dificult task of selecting well-written texts, it also requires segmenting these texts according to their schematic structure. The present dissertation aims to investigate, evaluate and implement some methods to automatically detect the schematic structure of English abstracts and to automatically evaluate their quality. These methods have been examined with a view to enabling the development of two types of tools, namely: detection of well-written abstracts and a critique tool. For automatically detecting schematic structures, we have developed a tool, named AZEA, which adopts a corpus-based, supervised machine learning approach. AZEA reaches 80.4% accuracy and Kappa of 0.73, which is above the highest rates reported in the literature so far (73% accuracy and Kappa of 0.65). We have tested a number of different combinations of algorithms, features and different paper sections. AZEA has been used to implement two out of seven dimensions of a rubric for analyzing scientific papers. A critique tool for evaluating the structure of abstracts has also been developed and made available. In addition, our work also includes the development of a classifier for identifying errors related to English article usage. This classifier reaches 83.7% accuracy (Kappa de 0.63) in the task of deciding whether or not a given English noun phrase requires an article. If implemented in the dimension of grammatical errors of the above mentioned rubric, it can be used to give users feedback on their errors. As regards the task of detecting well-written abstracts, we have resorted to methods which have been successfully adopted to evaluate quality of essays and some preliminary tests have been carried out. However, our results are not yet satisfactory since they are not much above the baseline. Despite this drawback, we believe this study proves relevant since in addition to offering some of the necessary tools, it provides some fundamental guidelines towards the automatic evaluation of the quality of texts Aprendizado de máquina Lingüística computacional PLN Computacional linguistics Machine learning NLP
102	ArtesÃos da pele: aprendendo a ser tatuador Diego de Jesus Vieira Ferreira 23 November 2012 (has links) CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / Nas ultimas dÃcadas, tÃm-se observado que a prÃtica da tatuagem adquiriu novas formas de usos e valores sociais, perdendo muito da sua aura de marginalidade, disseminando-se com poucas restriÃÃes de classe, gÃnero ou idade. Antes restrita a meios marginais, foi recentemente convertida em objeto de consumo, amplamente publicizada, alargando sua parcela de consumidores, exigindo novos procedimentos sanitÃrios e transformando o oficio de tatuador em uma ocupaÃÃo lucrativa. A partir da observaÃÃo de campo em trÃs estÃdios de tatuagem na cidade de Fortaleza, abordo o fenÃmeno focando nas trajetÃrias de seis tatuadores. Os procedimentos metodolÃgicos adotados foram entrevistas semi-dirigidas com os tatuadores, conversas informais com clientes e a observaÃÃo participante nos estÃdios. Os dados colhidos sugerem que os tatuadores, majoritariamente oriundos de classes populares, encontram na prÃtica da tatuagem um modo de ascender socialmente, evitando as profissÃes normalmente reservadas a indivÃduos de baixa escolaridade e oriundos de famÃlias humildes, surgindo como uma opÃÃo viÃvel em contraponto ao desemprego ou ocupaÃÃes desprestigiadas. Busco discutir como os meios de inserÃÃo, aprendizagem e sucesso no universo da tattoo refletem o tradicionalismo desse circuito bastante restrito, onde os neÃfitos devem ser iniciados nos saberes da prÃtica atravÃs da tutela de mestres reticentes em cultivar uma geraÃÃo mais jovem, dada a possibilidade de estarem formando possÃveis concorrentes. Indago ainda sobre a percepÃÃo que os profissionais tÃm sobre o prÃprio ofÃcio onde, apesar de reclamarem para si ideais de rebeldia e inconformismo, muitas vezes atuam de forma contrÃria aos valores que defendem, tanto nas formas de transmissÃo das tÃcnicas, quanto na sua adesÃo Ã lÃgica de mercado. / In recent decades, it has been observed that the practice of tattooing has acquired new forms and uses of social values, losing much of its aura of marginality, spreading with few restrictions of class, gender or age. Before means restricted to marginal, has recently become an object of consumption, widely announced, expanding its share of consumers demanding new sanitary procedures and transforming the office of tattooist in a lucrative occupation. From the field observations in three tattoo parlors in the city of Fortaleza, aboard the phenomenon by focusing on trajectories of six tattoo artists. The methodological procedures were semi-directed interviews with tattoo artists, informal conversations with customers and participant observation in the studios. The data collected suggest that tattoo artists mostly from the lower classes, are in the practice of tattooing a way to rise socially, avoiding occupations usually reserved for individuals with low education and come from humble families, emerging as a viable option as opposed to unemployment occupations or discredited. Busco discuss how the insertion means, learning and success in the world of tattoo reflects the traditionalism of this circuit very limited, where the neophytes should be initiated into the practice knowledge through the guidance of masters reluctant to cultivate a younger generation, given the possibility of are forming possible competitors. I inquired further about the perception that professionals have about the office itself where, although you claim to ideals of rebellion and nonconformity, often act in a manner contrary to the values they defend, both in the forms of transmission techniques, and in their adherence to market logic. Tatuadores TrajetÃrias Aprendizado Tattooists Trajectories Learning SOCIOLOGIA DA EDUCACAO
103	Programa de gerenciamento de resíduos químicos do CENA/USP: avaliação, ações de aperfeiçoamento e de extensão / Chemical waste management program of CENA/USP: assessment, improvement and extension actions Juliana Graciela Giovannini de Oliveira 26 February 2010 (has links) A geração de resíduos químicos em indústrias ocorre em quantidades expressivas, portanto o lançamento desses efluentes vem sendo monitorado por órgão de fiscalização ambiental com maior intensidade, de maneira a evitar contaminações no ambiente. Nas Universidades, o volume da geração é muito pequeno, porém a diversidade de resíduos é muito grande, o que dificulta o tratamento dos mesmos. Ainda assim é crescente o número de universidades preocupadas em estabelecer programas de gerenciamento dos seus resíduos. Essas iniciativas surgem por cuidado com o meio ambiente e pela preocupação em dar bons exemplos aos profissionais por elas formados. Porém outra ação não menos importante, mas complementar ao tratamento e gerenciamento de resíduo é a avaliação constante desses procedimentos em rotina. O Programa de Gerenciamento de Resíduos Químicos (PGRQ) implementado no CENA/USP a partir de 2001, é permanente e carece de inovações e aperfeiçoamento, também porque a cada ano novos projetos passam a ser executados, resultando na geração de resíduos que até então não eram motivo de preocupação. No entanto, iniciativas de tratamento de resíduos químicos no Laboratório de Isótopos Estáveis da Instituição tiveram início em 1999. Neste contexto, objetivou-se com esta dissertação: 1 quantificar e qualificar as condições dos efluentes laboratoriais e o comportamento da população responsável pela geração de resíduos do CENA/USP, após 10 anos de implantação do Programa de Gerenciamento de Resíduos Químicos (PGRQ); 2 solucionar problemas do PGRQ ainda não equacionados para o tratamento de alguns resíduos, desenvolvendo métodos de tratamento para cromo, para acetonitrila e propor adequações aos problemas levantados a partir da avaliação do programa; 3 estender os conhecimentos químicos utilizados em rotina no PGRQ, de maneira prática e didática a alunos do ensino médio-público de Piracicaba-SP, tais como: identificação de substâncias químicas, segurança em química, reciclagem e reaproveitamento. De modo geral a comunidade que faz uso rotineiro de produtos químicos com conseqüente geração de resíduos, se mostrou informada e em prol aos princípios do programa, mas alertou à necessidade de ampliar, ainda mais, a divulgação das ações do programa. No entanto, duas não conformidades foram encontradas no lançamento dos efluentes, as quais foram devidamente solucionadas. Foram estabelecidos métodos para precipitação química e inertização de cromo e tratamento por degradação alcalina da acetonitrila. Os trabalhos de extensão contribuíram tanto para o ensino de química aos alunos do primeiro ano do ensino médio de uma Escola Estadual de Piracicaba-SP, quanto para equipe envolvida no projeto, a qual foi composta em sua maioria por alunos de pósgraduação que puderam vivenciar essas atividades / The generation of chemical waste in industry is very high, therefore the effluent discharge has been monitored by environmental inspections with greater intensity, to avoid environment contamination. The volume of waste generation is very small in universities, but the diversity is too large, what makes the treatment more difficult. Nevertheless, there are a growing number of universities concerned to establish management programs for their wastes. These initiatives include environmental care, concerning to give a good example for their graduated professionals and a continuous quality control program. The Chemical Waste Management Program (CWMP) implemented at CENA/USP from 2001, is permanent and requires constant innovation and improvement, as each year new projects are being implemented, resulting in the generation of wastes that werent cause for concern. However, chemical wastes treatment initiatives in the Isótopos Estáveis Laboratory started in 1999. In this context, this dissertation aimed to: 1 - quantify and qualify the laboratory waste conditions and the behavior of the population responsible for the waste generation at CENA/USP, 10 years after the CWMP implementation; 2 solve CWMPs problems that are not still resolved for the treatment of some wastes, developing treatment methods for chrome, acetonitrile and to propose adjustments to the problems from the program evaluation; 3 - extend the chemicals knowledge used in the CWMP routine, in a practical and didactic way to a State High School students from Piracicaba-SP, such as: chemicals identification, chemistry safety, recycling and reuse. In general, the waste generators were well-informed and willing to promote the program principles, but showed the need for greater disclosure of program actions. However, two non-conformities were found in the effluent discharge, in which were taken the appropriate actions. Methods for chemical precipitation, chromium inertization and treatment through acetonitrile alkaline degradation were established. The extension works contributed to teach chemistry to first-year students of a State High School in Piracicaba-SP and for the staff involved in the project, which was composed mostly of post-graduation students who tried this experience as well Aprendizado Ensino médio Química Chemistry High school Learning
104	Discretização e geração de gráficos de dados em aprendizado de máquina / Attribute discretization and graphics generation in machine learning Richardson Floriani Voltolini 17 November 2006 (has links) A elevada quantidade e variedade de informações adquirida e armazenada em meio eletrônico e a incapacidade humana de analizá-las, têm motivado o desenvolvimento da área de Mineracão de Dados - MD - que busca, de maneira semi-automática, extrair conhecimento novo e útil de grandes bases de dados. Uma das fases do processo de MD é o pré-processamento dessas bases de dados. O pré-processamento de dados tem como alguns de seus principais objetivos possibilitar que o usuário do processo obtenha maior compreensão dos dados utilizados, bem como tornar os dados mais adequados para as próximas fases do processo de MD. Uma técnica que busca auxiliar no primeiro objetivo citado é a geracão de gráficos de dados, a qual consiste na representação gráfica dos registros (exemplos) de uma base de dados. Existem diversos métodos de geracão de gráficos, cada qual com suas características e objetivos. Ainda na fase de pré-processamento, de modo a tornar os dados brutos mais adequados para as demais fases do processo de MD, diversas técnicas podem ser aplicadas, promovendo transformações nesses dados. Uma delas é a discretização de dados, que transforma um atributo contínuo da base de dados em um atributo discreto. Neste trabalho são abordados alguns métodos de geração de gráficos e de discretização de dados freqüentemente utilizados pela comunidade. Com relação aos métodos de geração de gráficos, foi projetado e implementado o sistema DISCOVERGRAPHICS que provê interfaces para a geração de gráficos de dados. As diferentes interfaces criadas permitem a utilização do sistema por usuários avançados, leigos e por outros sistemas computacionais. Com relação ao segundo assunto abordado neste trabalho, discretização de dados, foram considerados diversos métodos de discretização supervisionados e não-supervisionados, freqüentemente utilizados pela comunidade, e foi proposto um novo método não-supervisionado denominado K-MeansR. Esses métodos foram comparados entre sí por meio da realização de experimentos e analise estatística dos resultados, considerando-se diversas medidas para realizar a avaliação. Os resultados obtidos indicam que o método proposto supera vários dos métodos de discretização considerados / The great quantity and variety of information acquired and stored electronically and the lack of human capacity to analyze it, have motivated the development of Data Mining - DM - a process that attempts to extract new and useful knowledge from databases. One of the steps of the DM process is data preprocessing. The main goals of the data preprocessing step are to enable the user to have a better understanding of the data being used and to transform the data so it is appropriate for the next step of the DM process related to pattern extraction. A technique concerning the first goal consists of the graphic representation of records (examples) of databases. There are various methods to generate these graphic representations, each one with its own characteristics and objectives. Furthermore, still in the preprocessing step, and in order to transform the raw data into a more suitable form for the next step of the DM process, various data discretization technique methods which transform continuous database attribute values into discrete ones can be applied. This work presents some frequently used methods of graph generation and data discretization. Related to the graph generation methods, we have developed a system called DISCOVERGRAPHICS, which offers different interfaces for graph generation. These interfaces allow both advanced and beginner users, as well as other systems, to access the DISCOVERGRAPHICS system facilities. Regarding the second subject of this work, data discretization, we considered various supervised and unsupervised methods and proposed a new unsupervised data discretization method called K-MeansR. Using different evaluation measures and databases, all these methods were experimentally compared to each other and statistical tests were run to analyze the experimental results. These results showed that the proposed method performed better than many of the other data discretization methods considered in this work Aprendizado de máquina Discretização Geração de gráficos Discretization Graphics generation Machine learning
105	ML4JIT- um arcabouço para pesquisa com aprendizado de máquina em compiladores JIT. / ML4JIT - a framework for research on machine learning in JIT compilers. Alexandre dos Santos Mignon 27 June 2017 (has links) Determinar o melhor conjunto de otimizações para serem aplicadas a um programa tem sido o foco de pesquisas em otimização de compilação por décadas. Em geral, o conjunto de otimizações é definido manualmente pelos desenvolvedores do compilador e aplicado a todos os programas. Técnicas de aprendizado de máquina supervisionado têm sido usadas para o desenvolvimento de heurísticas de otimização de código. Elas pretendem determinar o melhor conjunto de otimizações com o mínimo de interferência humana. Este trabalho apresenta o ML4JIT, um arcabouço para pesquisa com aprendizado de máquina em compiladores JIT para a linguagem Java. O arcabouço permite que sejam realizadas pesquisas para encontrar uma melhor sintonia das otimizações específica para cada método de um programa. Experimentos foram realizados para a validação do arcabouço com o objetivo de verificar se com seu uso houve uma redução no tempo de compilação dos métodos e também no tempo de execução do programa. / Determining the best set of optimizations to be applied in a program has been the focus of research on compile optimization for decades. In general, the set of optimization is manually defined by compiler developers and apply to all programs. Supervised machine learning techniques have been used for the development of code optimization heuristics. They intend to determine the best set of optimization with minimal human intervention. This work presents the ML4JIT, a framework for research with machine learning in JIT compilers for Java language. The framework allows research to be performed to better tune the optimizations specific to each method of a program. Experiments were performed for the validation of the framework with the objective of verifying if its use had a reduction in the compilation time of the methods and also in the execution time of the program. Aprendizado computacional Montadores e compiladores Code optimization JIT compilers Machine learning
106	Interface cérebro-computador para classificação de banco de imagens de acervos museológicos/ Bechelli, R. P. January 2018 (has links) (PDF) Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2018 Eletroencefalografia Aprendizado do computador Interface cérebro-computador Recuperação de imagens
107	Sistema de raciocínio baseado em casos qualitativos:um estudo no domínio do futebol de robôs humanoides/ Homem, Thiago Pedro Donadon January 2018 (has links) Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2017 Raciocínio qualitativo Aprendizado por reforço Raciocínio baseado em casos
108	Otimização Meta-heurística para regularização de modelos de aprendizado em profundidade / Rosa, Gustavo Henrique de. January 2018 (has links) Orientador: João Paulo Papa / Banca: André Carlos Ponce de Leon Ferreira de Carvalho / Banca: Aparecido Nilceu Marana / Resumo: Arquiteturas de aprendizado em profundidade têm sido amplamente estudadas nos últimos anos, principalmente pelo seu alto poder discriminativo em muitos problemas considerados essenciais na área de visão computacional. Entretanto, um problema destes modelos diz res- peito ao grande número de parâmetros a serem ajustados, que podem chegar a milhares. Um outro ponto crítico está relacionado à necessidade de grandes bases de dados para treinar essas técnicas de aprendizado em profundidade, bem como a sua alta propensão ao chamado super-ajuste dos dados. Recentemente, a simplista ideia de desconectar neurônios ou conexões de uma rede, técnicas denominadas de Dropout e Dropconnect, respectivamente, tem se demonstrado muito eficazes e primordiais ao processo de aprendizado, embora ainda necessitem de uma escolha adequada de parâmetros. O presente projeto pretende identificar possíveis soluções para o problema mencionado por meio de técnicas de otimização meta-heurística, objetivando encontrar o número adequado do limiar de desligamento dos neurônios e conexões. Diferentes abordagens de aprendizado em profundidade, tais como, Máquinas de Boltzmann Restritas, Máquinas de Boltzmann em Profundidade, Redes de Crença em Profundidade, Redes Neurais Convolucionais; e diferentes meta-heurísticas, tais como, Algoritmo do Morcego, Algoritmo do Vagalume, Busca do Cuckoo, Otimização por Enxame de Partículas, foram utilizadas a fim de tentar solucionar este problema. Os resultados apresentados... / Abstract: Deep learning architectures have been extensively studied in the last years, mainly due to their discriminative power in many crucial problems in computer vision. However, one problem related to these models concerns with their number of parameters, which can easily reach thousands of hundreds. Another drawback is related to the need for large datasets for train- ing purposes, as well as their high probability of overfitting, mainly because of their complex architecture. Recently, a naïve idea of disconnecting neurones or connections from a network, known as Dropout or Dropconnect, respectively, has shown to be a promising solution to this problem. Nevertheless, it still requires an adequate parameter setting. This project aims to iden- tify possible solutions to the depicted problem by means of meta-heuristic optimization, trying to find the most suitable drop rate. Several machine learning approaches, such as, Restricted Boltzmann Machines, Deep Boltzmann Machines, Deep Belief Networks, Convolutional Neural Networks and several meta-heuristic techniques, such as, Particle Swarm Optimization, Bat Algorithm, Firefly Algorithm, Cuckoo Search, were employed in the context. The presented results show a possible trend in using meta-heuristic optimization to find suitable parameters in a wide range of applications, helping the learning process and improving the network's architecture / Mestre Computação gráfica. Ciência da computação. Aprendizado do computador. Computer graphics
109	Computação inteligente no estudo de variantes de hemoglobina / Intelligent computation applied to the study of hemoglobin variants Sousa, Thaís Helena Samed e 29 October 2004 (has links) A evolução in vitro é um método laboratorial criado para a evolução de moléculas, principalmente de proteínas. Por meio de mutações, o método busca novas propriedades de moléculas, objetivando criar novas proteínas e, com isso, intensificar o estudo e a cura de doenças, pelo desenvolvimento de novos fármacos. O grande desafio na evolução in vitro é criar o maior número possível de moléculas de proteínas que atinjam propriedades desejadas, uma vez que apenas uma fração infinitesimal das diversidades geradas utilizando-se seqüências de DNA é aproveitada. Para se obter moléculas com funcionalidade adequada por meio dessa técnica, é requerido muito tempo e aporte financeiro. Com o objetivo de avaliar computacionalmente a funcionalidade de proteínas variantes a partir das seqüências de aminoácidos buscando reduzir o custo e o tempo desprendido em laboratório, este trabalho propõe o uso de técnicas de computação inteligentes (evolução in silicio), baseadas em aprendizado de máquina e computação evolutiva. Para o emprego de técnicas de AM, bancos de dados com elevado número de informações são fundamentais. Neste sentido, escolheu-se investigar as moléculas mutantes de hemoglobina, uma vez que a quantidade de informações disponíveis sobre a mesma é bastante extensa na literatura. Os resultados obtidos mostram que é possível desenvolver algoritmos eficientes para determinar a funcionalidade de variantes de hemoglobina. Com esses resultados, busca-se contribuir no desenvolvimento de técnicas de evolução dirigida com suporte computacional / In vitro evolution is a laboratorial method developed to molecule evolution mainly proteins. By producing mutations, this method looks for new molecule properties, aiming achieve new proteins for the development of drugs for diseases. The great challenge of in vitro evolution is the development of the highest possible number of molecules that reaches desired properties. This objective is a great challenge to be transposed, since only one infinitesimal fraction of generated proteins using DNA sequencies is usefull to obtain molecules with the desired function. Besides high financial support and time are required to apply this technique. With the objective of evaluating computacionaly and functionality of proteins mutants starting from aminoacids sequences looking for to reduce the cost and the time loosened at laboratory, this work proposes the use of intelligent computation techniques based on learning of it conspires and evolutionary computation. On the other hand, when machine learning techniques are used, it is fundamental to access data mining with high number of information. In order to reduce these difficulties, this work proposes a machine learning (ML) based on approach to evaluate computationaly hemoglobin variants. ML techniques require, in general, large data base. In order to supply this requirement, hemoglobin variants were used because there is a large number of hemoglobin variants available in the literature. The obtained results shown that is possible to develop efficient algorithms to determine hemoglobin variant function. These results can contribute for development of molecule evolution techniques aprendizado de máquina hemoglobin hemoglobina machine learning mutant sequences seqüências mutantes
110	"Combinação de classificadores simbólicos para melhorar o poder preditivo e descritivo de Ensembles" / Combination of symbolic classifiers to improve predictive and descriptive power of ensembles Bernardini, Flávia Cristina 17 May 2002 (has links) A qualidade das hipóteses induzidas pelos atuais sistemas de Aprendizado de Máquina depende principalmente da quantidade e da qualidade dos atributos e exemplos utilizados no treinamento. Freqüentemente, resultados experimentais obtidos sobre grandes bases de dados, que possuem muitos atributos irrelevantes, resultam em hipóteses de baixa precisão. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma quantidade muito grande de exemplos. Assim, uma das áreas de pesquisa mais ativas em aprendizado de máquina tem girado em torno de técnicas que sejam capazes de ampliar a capacidade dos algoritmos de aprendizado para processar muitos exemplos de treinamento, atributos e classes. Para que conceitos sejam aprendidos a partir de grandes bases de dados utilizando Aprendizado de Máquina, pode-se utilizar duas abordagens. A primeira realiza uma seleção de exemplos e atributos mais relevantes, e a segunda ´e a abordagem de ensembles. Um ensemble ´e um conjunto de classificadores cujas decisões individuais são combinadas de alguma forma para classificar um novo caso. Ainda que ensembles classifiquem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de nao oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. O objetivo deste trabalho é propor uma forma de combinação de classificadores simbólicos, ou seja, classificadores induzidos por algoritmos de AM simbólicos, nos quais o conhecimento é descrito na forma de regras if-then ou equivalentes, para se trabalhar com grandes bases de dados. A nossa proposta é a seguinte: dada uma grande base de dados, divide-se esta base aleatoriamente em pequenas bases de tal forma que é viável fornecer essas bases de tamanho menor a um ou vários algoritmos de AM simbólicos. Logo após, as regras que constituem os classificadores induzidos por esses algoritmos são combinadas em um único classificador. Para analisar a viabilidade do objetivo proposto, foi implementado um sistema na linguagem de programação lógica Prolog, com a finalidade de (a) avaliar regras de conhecimento induzidas por algoritmos de Aprendizado de Máquina simbólico e (b) avaliar diversas formas de combinar classificadores simbólicos bem como explicar a classificação de novos exemplos realizada por um ensemble de classificares simbólicos. A finalidade (a) é implementada pelo Módulo de Análise de Regras e a finalidade (b) pelo Módulo de Combinação e Explicação. Esses módulos constituem os módulos principais do RuleSystem. Neste trabalho, são descritos os métodos de construção de ensembles e de combinação de classificadores encontrados na literatura, o projeto e a documentação do RuleSystem, a metodologia desenvolvida para documentar o sistema RuleSystem, a implementação do Módulo de Combinação e Explicação, objeto de estudo deste trabalho, e duas aplicações do Módulo de Combinação e Explicação. A primeira aplicação utilizou uma base de dados artificiais, a qual nos permitiu observar necessidades de modificações no Módulo de Combinação e Explicação. A segunda aplicação utilizou uma base de dados reais. / The hypothesis quality induced by current machine learning algorithms depends mainly on the quantity and quality of features and examples used in the training phase. Frequently, hypothesis with low precision are obtained in experiments using large databases with a large number of irrelevant features. Thus, one active research area in machine learning is to investigate techniques able to extend the capacity of machine learning algorithms to process a large number of examples, features and classes. To learn concepts from large databases using machine learning algorithms, two approaches can be used. The first approach is based on a selection of relevant features and examples, and the second one is the ensemble approach. An ensemble is a set of classifiers whose individual decisions are combined in some way to classify a new case. Although ensembles classify new examples better than each individual classifier, they behave like black-boxes, since they do not offer any explanation to the user about their classification. The purpose of this work is to consider a form of symbolic classifiers combination to work with large databases. Given a large database, it is equally divided randomly in small databases. These small databases are supplied to one or more symbolic machine learning algorithms. After that, the rules from the resulting classifiers are combined into one classifier. To analise the viability of this proposal, was implemented a system in logic programming language Prolog, called RuleSystem. This system has two purposes; the first one, implemented by the Rule Analises Module, is to evaluate rules induced by symbolic machine learning algorithms; the second one, implemented by the Combination and Explanation Module, is to evaluate several forms of combining symbolic classifiers as well as to explain ensembled classification of new examples. Both principal modules constitute the Rule System. This work describes ensemble construction methods and combination of classifiers methods found in the literature; the project and documentation of RuleSystem; the methodology developed to document the RuleSystem; and the implementation of the Combination and Explanation Module. Two different case studies using the Combination and Explanation Module are described. The first case study uses an artificial database. Through the use of this artificial database, it was possible to improve several of the heuristics used by the the Combination and Explanation Module. A real database was used in the second case study. aprendizado de máquina simbólico combinação de classificadores combination of classifiers symbolic machine learning

Search results