Global ETD Search

241	[en] DEVELOPMENT OF A METHODOLOGY FOR TEXT MINING / [pt] DESENVOLVIMENTO DE UMA METODOLOGIA PARA MINERAÇÃO DE TEXTOS JOAO RIBEIRO CARRILHO JUNIOR 20 May 2008 (has links) [pt] A seguinte dissertação tem como objetivo explorar a Mineração de Textos através de um estudo amplo e completo do que atualmente é considerado estado da arte. Esta nova área, considerada por muitos como uma evolução natural da Mineração de Dados, é bastante interdisciplinar e vem obtendo importantes colaborações de estudiosos e pesquisadores de diversas naturezas, como Lingüística, Computação, Estatística e Inteligência Artificial. Entretanto, muito se discute sobre como deve ser um processo completo de investigação textual, de forma a tirar máximo proveito das técnicas adotadas nas mais variadas abordagens. Desta forma, através de um encadeamento sistemático de procedimentos, pode-se chegar a uma conclusão do que seria a metodologia ideal para a Mineração de Textos, conforme já se chegou para a de Dados. O presente trabalho explora um modelo de processo, do início ao fim, que sugere as seguintes etapas: coleta de dados, pré-processamento textual, indexação, mineração e análise. Este sequenciamento é uma tendência encontrada em trabalhos recentes, sendo minuciosamente discutido nos capítulos desta dissertação. Finalmente, a fim de se obter enriquecimento prático, foi desenvolvido um sistema de Mineração de Textos que possibilitou a apresentação de resultados reais, obtidos a partir da aplicação de algoritmos em documentos de natureza geral. / [en] The following essay is intended to explore the area of Text Mining, through an extensive and comprehensive study of what is currently considered state of the art. This new area, considered by many as a natural evolution of the Data Mining, is quite interdisciplinary. Several scholars and researchers from fields like linguistics and computing, for instance, have contributed for its development. Nevertheless, much has been discussed on how complete dossier of textual investigation must be carried out, in order to take maximum advantage of the techniques adopted in various approaches. Thus, through a systematic sequence of procedures, one can come to a conclusion of what would be the ideal method for the Mining of documents, as one has come about Data. This work explores a model of process which suggests the following steps: collecting data, textual preprocessing, indexing, mining and analysis. This sequence is a tendency followed in some recent works and it is thoroughly discussed in the chapters to come. Finally, in order to obtain a practical enrichment, one developed a system of Mining of documents with which became possible the presentation of results, obtained from the application of algorithms in documents of a general nature. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] MINERACAO DE TEXTOS [en] TEXTS MINING
242	Algoritmos evolutivos para modelos de mistura de gaussianas em problemas com e sem restrições / Evolutionary algorithms for gausian mixture models with and without constraints Covões, Thiago Ferreira 09 December 2014 (has links) Nesta tese, são estudados algoritmos para agrupamento de dados, com particular ênfase em Agrupamento de Dados com Restrições, no qual, além dos objetos a serem agrupados, são fornecidos pelo usuário algumas informações sobre o agrupamento desejado. Como fundamentação para o agrupamento, são considerados os modelos de mistura finitos, em especial, com componentes gaussianos, usualmente chamados de modelos de mistura de gaussianas. Dentre os principais problemas que os algoritmos desenvolvidos nesta tese de doutorado buscam tratar destacam-se: (i) estimar parâmetros de modelo de mistura de gaussianas; (ii) como incorporar, de forma eficiente, restrições no processo de aprendizado de forma que tanto os dados quanto as restrições possam ser adicionadas de forma online; (iii) estimar, via restrições derivadas de conceitos pré-determinados sobre os objetos (usualmente chamados de classes), o número de grupos destes conceitos. Como ferramenta para auxiliar no desenvolvimento de soluções para tais problemas, foram utilizados algoritmos evolutivos que operam com mais de uma solução simultaneamente, além de utilizarem informações de soluções anteriores para guiar o processo de busca. Especificamente, foi desenvolvido um algoritmo evolutivo baseado na divisão e união de componentes para a estimação dos parâmetros de um modelo de mistura de gaussianas. Este algoritmo foi comparado com o algoritmo do mesmo gênero considerado estado-da-arte na literatura, apresentando resultados competitivos e necessitando de menos parâmetros e um menor custo computacional. Nesta tese, foram desenvolvidos dois algoritmos que incorporam as restrições no processo de agrupamento de forma online. Ambos os algoritmos são baseados em algoritmos bem-conhecidos na literatura e apresentaram, em comparações empíricas, resultados melhores que seus antecessores. Finalmente, foram propostos dois algoritmos para se estimar o número de grupos por classe. Ambos os algoritmos foram comparados com algoritmos reconhecidos na literatura de agrupamento de dados com restrições, e apresentaram resultados competitivos ou melhores que estes. A estimação bem sucedida do número de grupos por classe pode auxiliar em diversas tarefas de mineração de dados, desde a sumarização dos dados até a decomposição de problemas de classificação em sub-problemas potencialmente mais simples. / In the last decade, researchers have been giving considerable attention to the field of Constrained Clustering. Algorithms in this field assume that along with the objects to be clustered, the user also provides some constraints about which kind of clustering (s)he prefers. In this thesis, two scenarios are studied: clustering with and without constraints. The developments are based on finite mixture models, namely, models with Gaussian components, which are usually called Gaussian Mixture Models (GMMs). In this context the main problems addressed are: (i) parameter estimation of GMMs; (ii) efficiently integrating constraints in the learning process allowing both constraints and the data to be added in the modeling in an online fashion; (iii) estimating, by using constraints derived from pre-determined concepts (usually named classes), the number of clusters per concept. Evolutionary algorithms were adopted to develop solutions for such problems. These algorithms analyze more than one solution simultaneously and use information provided by previous solutions to guide the search process. Specifically, an evolutionary algorithm based on procedures that perform splitting and merging of components to estimate the parameters of a GMM was developed. This algorithm was compared to an algorithm considered as the state-of-the-art in the literature, obtaining competitive results while requiring less parameters and being more computationally efficient. Besides the aforementioned contributions, two algorithms for online constrained clustering were developed. Both algorithms are based on well known algorithms from the literature and get better results than their predecessors. Finally, two algorithms to estimate the number of clusters per class were also developed. Both algorithms were compared to well established algorithms from the literature of constrained clustering, and obtained equal or better results than the ones obtained by the contenders. The successful estimation of the number of clusters per class is helpful to a variety of data mining tasks, such as data summarization and problem decomposition of challenging classification problems. Agrupamento de dados Algoritmos evolutivos Aprendizado de máquina Evolutionary algorithms Machine learning Semi-supervised clustering
243	A utilização de algoritmos de aprendizado de máquina em problemas de classificação / The use of machine learning algorithms in classification problems Batista, Maria Rita Sifuentes 26 October 2018 (has links) Os últimos anos foram marcados por um avanço expressivo da tecnologia, principalmente na área de computação. Estes avanços, quando somados à diversidade de produtos oferecidos por empresas de diferentes segmentos, e aos esforços destas em capturar e armazenar dados de seus clientes e de suas operações, ajudam a explicar a quantidade de informações que atualmente é produzida. As organizações, em geral, têm se mostrado eficientes em capturar, organizar e armazenar grandes quantidades de dados, mas nem todas os utilizam adequadamente, no sentido de transformá-los em conhecimentos úteis para suas atividades. Algoritmos de aprendizado de máquina são uma ferramenta computacional poderosa para aquisição de conhecimento a partir da experiência. A utilização desses algoritmos permite avanços e descobertas que conferem vantagem competitiva às empresas. A tarefa de aprendizado de máquina mais comum é o aprendizado supervisionado, cujo objetivo é aprender um modelo preditivo a partir de um conjunto de dados. Esse modelo deve ser capaz de generalizar o conhecimento adquirido para dados desconhecidos. Isso permite que o modelo tenha uma boa capacidade preditiva. Uma aplicação importante e bastante utilizada do aprendizado supervisionado são os problemas de classificação, comumente encontrados na indústria financeira. Um dos desafios dessa indústria é prever a capacidade de pagamento de seus clientes, classificando-os como bons ou maus pagadores. Neste trabalho, cinco algoritmos de aprendizado de máquina supervisionado foram investigados e aplicados à um problema real de classificação: regressão logística, classificadores bayesianos, k-vizinhos mais próximos, random forests e redes neurais. Como o desempenho desses algoritmos é afetado pelas variáveis utilizadas, técnicas de seleção de variáveis foram aplicadas ao conjunto de dados original. O uso dessas técnicas permite reduzir o tempo computacional, removendo informações redundantes e irrelevantes. Medidas de desempenho para classificação binária foram utilizadas para avaliar o desempenho preditivo dos modelos gerados pelos cinco algoritmos e compará-los. Como é cada vez mais importante ter modelos facilmente interpretáveis, foram também avaliadas a interpretabilidade e a complexidade dos modelos gerados. / The last few years were remarkable by relevant advances in technology, mainly related to computers. These advances, when added to the diversity of products offered by companies from different segments and their efforts in capturing and storing data from their customers and operations, helps to explain the amount of information that is currently being produced. Overall, the organizations have been efficient in capturing, organizing, and storing large amounts of data, but not all of them uses it adequately to make them useful knowledge for their activities. Learning algorithms are a powerful machine toll to acquire knowledge based on experience. The use of these algorithms allows advances and discoveries that brings a competitive advantage to the companies. The most common machine learning task is supervised learning, whose objective is to learn a predictive model from a set of data. This model should be able to generalize the acquired knowledge to a set of unknown data. This allows the model to have a good predictive capability. An important and widely used application of supervised learning are the classification problems, commonly seen in the financial industry. One of the challenges of this industry is to predict the payment capacity of its customers, rating them as good or bad payers. In this study, five supervised machine learning algorithms, logistic regression, Bayesian classifiers, k-neighbors, random forests and neural networks were investigated and applied to a real classification problem. Since the performance of these algorithms are affected by the variables used, variable selection techniques were applied to the original data set. The use of these techniques allows a computational reduction time by removing redundant and irrelevant information. Performance measures for binary classification were used to evaluate the predictive performance of the models generated by the five algorithms and to compare them. Since it is increasing the importance to have easily interpretable models, the interpretability and complexity of the models generated were also evaluated. Algorithm Algoritmo Aprendizado de máquina Classificação Classification Machine learning Prediction Previsão Variables Variáveis
244	O lugar onde as dunas falam / The place where dunes can talk Souza, Sandra Carezzato de 19 April 2018 (has links) Diante da realidade desmotivadora das relações e estruturas de funcionamento na escola pública de São Paulo, muitos profissionais da educação sucumbem ao desânimo e à ausência de significado das suas práticas, prejudicando seu desempenho ou adoecendo de tal maneira a ponto de, em alguns casos, terem que abandonar por completo a prática pedagógica. As ações preventivas ou de combate ao chamado "mal-estar docente" têm se mostrado pouco eficazes por serem construídas sobre moldes às vezes desconectados dos princípios, necessidades ou qualidades individuais do professorado. Essa situação alarmante tem contribuído para uma crescente desvalorização da figura do professor. Com base em uma bibliografia que investiga questões relevantes para a compreensão das condições externas e internas do indivíduo educador, este trabalho realizou a observação de um grupo de docentes que encontrou mecanismos individuais para a sustentação de uma disponibilidade viva diante das imposições típicas do universo educacional. Entre as ações empreendidas por eles está o ato de reservar para si mesmos espaços cotidianos coerentes com aspectos internos de potência pessoal, o que lhes possibilita a manutenção de um estado de aprendizado permanente e de ação criadora por meio da presença íntegra. Para dialogar com estas pessoas e suas paisagens utilizei, como ponto de partida, meus próprios recursos de ordenação interna e criação, inspirados basicamente por tecidos coloridos, narrativas de vida e de tradição oral e reflexões em contato com as dunas da praia do Araçá, em Ilha Comprida. Esta pesquisa foi realizada com o objetivo de revelar um retrato pouco conhecido dos professores e, a partir do registro da presença e das soluções encontradas por um grupo, estimular a renovação do olhar dos profissionais da educação sobre si mesmos e o seu trabalho. / In face of the depressive reality on São Paulo's public school relations and operating structures, many education professionals succumb to the discouragement and absence meaning of their practices, causing damages to their performance, or getting so ill that, in some cases, they must to completely abandon pedagogical practices. Preventive actions to combat so-called "teacher's malaise" have been ineffective because of it's building on disconnected molds from the teaching staff principles, needs or individual qualities. This alarming situation has contributed to a growing teacher's figure devaluation. Based on a bibliography that investigates relevant questions to understanding educator's external and internal conditions, this work has done an observation of a group that found individual mechanisms to support a living availability before the typical educational universe's impositions. Amongst their actions is to reserve for themselves coherent to internal aspects of personal power daily spaces, which enables them to maintain a permanent learning and creative action state through integrity presence. In order to dialogue with these people and their landscapes, I used, as a starting point, my own internal ordering and creation resources, basically inspired on colored tissues, life and oral traditional narratives and reflections in contact with the Araçá's beach dunes, in Ilha Comprida. This research was carried out with the objective of revealing a little known educator's picture, by recording a group presence and their found solutions, to stimulate the renewal viwe of school teachers about themselves and their work. Aprendizado Body Corpo Creation Criação Docência Espaço Experience Experiência Landscape Learning Paisagem Presença Presence Space Teaching
245	Investigação de combinações de técnicas de detecção de ruído para dados de expressão gênica / Investigation of ensembles of noise detection techniques for gene expression data. Libralon, Giampaolo Luiz 09 November 2007 (has links) Ruído pode ser definido como um exemplo em um conjunto de dados que aparentemente é inconsistente com o restante dos dados existentes, pois não segue o mesmo padrão dos demais. Ruídos em conjuntos de dados podem reduzir o desempenho das técnicas de Aprendizado de Máquina (AM) empregadas e aumentar o tempo de construção da hipótese induzida, assim como sua complexidade. Dados são geralmente coletados por meio de medições realizadas em um domínio de interesse. Nesse sentido, nenhum conjunto de dados é perfeito. Erros de medições, dados incompletos, errados, corrompidos ou distorcidos, falhas humanas ou dos equipamentos utilizados, dentre muitos outros fatores, contribuem para a contaminação dos dados, e isso é particularmente verdadeiro para dados com elevada dimensionalidade. Sendo assim, a detecção de ruídos é uma tarefa crítica, principalmente em ambientes que exigem segurança e confiabilidade, uma vez que a presença desses pode indicar situações que degradam o desempenho do sistema ou a segurança e confiabilidade das informações. Algoritmos para a detecção e remoção de ruídos podem aumentar a confiabilidade de conjuntos de dados ruidosos. Nesse âmbito, esse trabalho investiga técnicas de detecção de ruído baseadas em distância, em que a remoção de ruídos é feita em uma etapa de pré-processamento, aplicadas a problemas de classificação de dados de Expressão Gênica, caracterizados pela presença de ruídos, elevada dimensionalidade e complexidade. O objetivo é melhorar o desempenho das técnicas de AM empregadas para solucioná-los. Por fim, combinações de técnicas de detecção de ruído são implementadas de modo a analisar a possibilidade de melhorar, ainda mais, o desempenho obtido. / Noise can be defined as an example which seems to be inconsistent with the remaining ones in a data set. The presence of noise in data sets can decrease the performance of Machine Learning (ML) techniques in the problem analysis and also increase the time taken to build the induced hypothesis and its complexity. Data are collected from measurements made which represent a given domain of interest. In this sense, no data set is perfect. Measurement errors, incomplete, corrupted, wrong or distorted examples, equipment problems or human fails, besides many other related factors, help contaminating the data, and this is particularly true for data sets with high dimensionality. For this reason, noise detection is a critical task, specially in domains which demand security and trustworthiness, since the presence of noise can lead to situations which degrade the system performance or the security and trustworthiness of the involved information. Algorithms to detect and remove noise may increase trustworthiness of noisy data sets. Based on that, this work evaluates distance-based noise detection techniques, in which noise removal is done by a pre-processing phase, in gene expression classification problems, characterized by the presence of noise, high dimensionality and complexity. The objective is to improve the performance of ML techniques used to solve these problems. Next, ensembles of noise detection techniques are developed in order to analyze the possibility to further improve the performance obtained. Aprendizado de Máquina Combinação de Classificadores. Ensembles. Expressão Gênica Gene Expression Problems Machine Learning Noise Ruído
246	A wikification prediction model based on the combination of latent, dyadic and monadic features / Um modelo de previsão para Wikification baseado na combinação de atributos latentes, diádicos e monádicos Ferreira, Raoni Simões 25 April 2016 (has links) Most of the reference information, nowadays, is found in repositories of documents semantically linked, created in a collaborative fashion and freely available in the web. Among the many problems faced by content providers in these repositories, one of the most important is Wikification, that is, the placement of links in the articles. These links have to support user navigation and should provide a deeper semantic interpretation of the content. Wikification is a hard task since the continuous growth of such repositories makes it increasingly demanding for editors. As consequence, they have their focus shifted from content creation, which should be their main objective. This has motivated the design of automatic Wikification tools which, traditionally, address two distinct problems: (a) how to identify which words (or phrases) in an article should be selected as anchors and (b) how to determine to which article the link, associated with the anchor, should point. Most of the methods in literature that address these problems are based on machine learning approaches which attempt to capture, through statistical features, characteristics of the concepts and its associations. Although these strategies handle the repository as a graph of concepts, normally they take limited advantage of the topological structure of this graph, as they describe it by means of human-engineered link statistical features. Despite the effectiveness of these machine learning methods, better models should take full advantage of the information topology if they describe it by means of data-oriented approaches such as matrix factorization. This indeed has been successfully done in other domains, such as movie recommendation. In this work, we fill this gap, proposing a wikification prediction model that combines the strengths of traditional predictors based on statistical features with a latent component which models the concept graph topology by means of matrix factorization. By comparing our model with a state-of-the-art wikification method, using a sample of Wikipedia articles, we obtained a gain up to 13% in F1 metric. We also provide a comprehensive analysis of the model performance showing the importance of the latent predictor component and the attributes derived from the associations between the concepts. The study still includes the analysis of the impact of ambiguous concepts, which allows us to conclude the model is resilient to ambiguity, even though does not include any explicitly disambiguation phase. We finally study the impact of selecting training samples from specific content quality classes, an information that is available in some respositories, such as Wikipedia. We empirically shown that the quality of the training samples impact on precision and overlinking, when comparing training performed using random quality samples versus high quality samples. / Atualmente, informações de referência são disponibilizadas através de repositórios de documentos semanticamente ligados, criados de forma colaborativa e com acesso livre na Web. Entre os muitos problemas enfrentados pelos provedores de conteúdo desses repositórios, destaca-se a Wikification, isto é, a inclusão de links nos artigos desses repositórios. Esses links possibilitam a navegação pelos artigos e permitem ao usuário um aprofundamento semântico do conteúdo. A Wikification é uma tarefa complexa, uma vez que o crescimento contínuo de tais repositórios resulta em um esforço cada vez maior dos editores. Como consequência, eles têm seu foco desviado da criação de conteúdo, que deveria ser o seu principal objetivo. Isso tem motivado o desenvolvimento de ferramentas de Wikification automática que, tradicionalmente, abordam dois problemas distintos: (a) como identificar que palavras (ou frases) em um artigo deveriam ser selecionados como texto de âncora e (b) como determinar para que artigos o link, associado ao texto de âncora, deveria apontar. A maioria dos métodos na literatura que abordam esses problemas usam aprendizado de máquina. Eles tentam capturar, através de atributos estatísticos, características dos conceitos e seus links. Embora essas estratégias tratam o repositório como um grafo de conceitos, normalmente elas pouco exploram a estrutura topológica do grafo, uma vez que se limitam a descrevê-lo por meio de atributos estatísticos dos links, projetados por especialistas humanos. Embora tais métodos sejam eficazes, novos modelos poderiam tirar mais proveito da topologia se a descrevessem por meio de abordagens orientados a dados, tais como a fatoração matricial. De fato, essa abordagem tem sido aplicada com sucesso em outros domínios como recomendação de filmes. Neste trabalho, propomos um modelo de previsão para Wikification que combina a força dos previsores tradicionais baseados em atributos estatísticos, projetados por seres humanos, com um componente de previsão latente, que modela a topologia do grafo de conceitos usando fatoração matricial. Ao comparar nosso modelo com o estado-da-arte em Wikification, usando uma amostra de artigos Wikipédia, observamos um ganho de até 13% em F1. Além disso, fornecemos uma análise detalhada do desempenho do modelo enfatizando a importância do componente de previsão latente e dos atributos derivados dos links entre os conceitos. Também analisamos o impacto de conceitos ambíguos, o que permite concluir que nosso modelo se porta bem mesmo diante de ambiguidade, apesar de não tratar explicitamente este problema. Ainda realizamos um estudo sobre o impacto da seleção das amostras de treino conforme a qualidade dos seus conteúdos, uma informação disponível em alguns repositórios, tais como a Wikipédia. Nós observamos que o treino com documentos de alta qualidade melhora a precisão do método, minimizando o uso de links desnecessários. Aprendizado de máquina Fatoração matricial Link prediction Machine learning Matrix factorization Previsão de links Wikificação Wikification Wikipedia Wikipédia
247	Dynamic CPU frequency scaling using machine learning for NFV applications. / Escalamento dinâmico de frequência da CPU usando aprendizado de máquina em aplicações NFV. Zorello, Ligia Maria Moreira 10 October 2018 (has links) Growth in the Information and Communication Technology sector is increasing the need to improve the quality of service and energy efficiency, as this industry has already surpassed 12% of global energy consumption in 2017. Data centers correspond to a large part of this consumption, accounting for about 15% of energy expenditure on the Information and Communication Technology domain; moreover, the subsystem that generates the most costs for data center operators is that of servers and storage. Many solutions have been proposed to reduce server consumption, such as the use of dynamic voltage and frequency scaling, a technology that enables the adaptation of energy consumption to the workload by modifying the operating voltage and frequency, although they are not optimized for network traffic. In this thesis, a control method was developed using a prediction engine based on the analysis of the ongoing traffic. Machine learning algorithms based on Neural Networks and Support Vector Machines have been used, and it was verified that it is possible to reduce power consumption by up to 12% on servers with Intel Sandy Bridge processor and up to 21 % in servers with Intel Haswell processor when compared to the maximum frequency, which is currently the most used solution in the industry. / O crescimento do setor de Tecnologia da Informação e Comunicação está aumentando a necessidade de melhorar a qualidade de serviço e a eficiência energética, pois o setor já ultrapassou a marca de 12% do consumo energético global em 2017. Data centers correspondem a grande parte desse consumo, representando cerca de 15% dos gastos com energia do setor Tecnologia Informação e Comunicação; além disso, o subsistema que gera mais custos para operadores de data centers é o de servidores e armazenamento. Muitas soluções foram propostas a fim de reduzir o consumo de energia com servidores, como o uso de escalonamento dinâmico de tensão e frequência, uma tecnologia que permite adaptar o consumo de energia à carga de trabalho, embora atualmente não sejam otimizadas para o processamento do tráfego de rede. Nessa dissertação, foi desenvolvido um método de controle usando um mecanismo de previsão baseado na análise do tráfego que chega aos servidores. Os algoritmos de aprendizado de máquina baseados em Redes Neurais e em Máquinas de Vetores de Suporte foram utilizados, e foi verificado que é possível reduzir o consumo de energia em até 12% em servidores com processador Intel Sandy Bridge e em até 21% em servidores com processador Intel Haswell quando comparado com a frequência máxima, que é atualmente a solução mais utilizada na indústria. Aprendizado computacional DVFS Eficiência energética Energy efficiency Machine learning NFV Redes de computadores
248	Evolutionary ensembles for imbalanced learning / Comitês evolucionários para aprendizado desbalanceado Fernandes, Everlandio Rebouças Queiroz 13 August 2018 (has links) In many real classification problems, the data set used for model induction is significantly imbalanced. This occurs when the number of examples of some classes is much lower than the other classes. Imbalanced datasets can compromise the performance of most classical classification algorithms. The classification models induced by such datasets usually present a strong bias towards the majority classes, tending to classify new instances as belonging to these classes. A commonly adopted strategy for dealing with this problem is to train the classifier on a balanced sample from the original dataset. However, this procedure can discard examples that could be important for a better class discrimination, reducing classifier efficiency. On the other hand, in recent years several studies have shown that in different scenarios the strategy of combining several classifiers into structures known as ensembles has proved to be quite effective. This strategy has led to a stable predictive accuracy and, in particular, to a greater generalization ability than the classifiers that make up the ensemble. This generalization power of classifier ensembles has been the focus of research in the imbalanced learning field in order to reduce the bias toward the majority classes, despite the complexity involved in generating efficient ensembles. Optimization meta-heuristics, such as evolutionary algorithms, have many applications for ensemble learning, although they are little used for this purpose. For example, evolutionary algorithms maintain a set of possible solutions and diversify these solutions, which helps to escape out of the local optimal. In this context, this thesis investigates and develops approaches to deal with imbalanced datasets, using ensemble of classifiers induced by samples taken from the original dataset. More specifically, this theses propose three solutions based on evolutionary ensemble learning and a fourth proposal that uses a pruning mechanism based on dominance ranking, a common concept in multiobjective evolutionary algorithms. Experiments showed the potential of the developed solutions. / Em muitos problemas reais de classificação, o conjunto de dados usado para a indução do modelo é significativamente desbalanceado. Isso ocorre quando a quantidade de exemplos de algumas classes é muito inferior às das outras classes. Conjuntos de dados desbalanceados podem comprometer o desempenho da maioria dos algoritmos clássicos de classificação. Os modelos de classificação induzidos por tais conjuntos de dados geralmente apresentam um forte viés para as classes majoritárias, tendendo classificar novas instâncias como pertencentes a essas classes. Uma estratégia comumente adotada para lidar com esse problema, é treinar o classificador sobre uma amostra balanceada do conjunto de dados original. Entretanto, esse procedimento pode descartar exemplos que poderiam ser importantes para uma melhor discriminação das classes, diminuindo a eficiência do classificador. Por outro lado, nos últimos anos, vários estudos têm mostrado que em diferentes cenários a estratégia de combinar vários classificadores em estruturas conhecidas como comitês tem se mostrado bastante eficaz. Tal estratégia tem levado a uma acurácia preditiva estável e principalmente a apresentar maior habilidade de generalização que os classificadores que compõe o comitê. Esse poder de generalização dos comitês de classificadores tem sido foco de pesquisas no campo de aprendizado desbalanceado, com o objetivo de diminuir o viés em direção as classes majoritárias, apesar da complexidade que envolve gerar comitês de classificadores eficientes. Meta-heurísticas de otimização, como os algoritmos evolutivos, têm muitas aplicações para o aprendizado de comitês, apesar de serem pouco usadas para este fim. Por exemplo, algoritmos evolutivos mantêm um conjunto de soluções possíveis e diversificam essas soluções, o que auxilia na fuga dos ótimos locais. Nesse contexto, esta tese investiga e desenvolve abordagens para lidar com conjuntos de dados desbalanceados, utilizando comitês de classificadores induzidos a partir de amostras do conjunto de dados original por meio de metaheurísticas. Mais especificamente, são propostas três soluções baseadas em aprendizado evolucionário de comitês e uma quarta proposta que utiliza um mecanismo de poda baseado em ranking de dominância, conceito comum em algoritmos evolutivos multiobjetivos. Experimentos realizados mostraram o potencial das soluções desenvolvidas. Algoritmos evolutivos Aprendizado desbalanceado Classificação de dados Comitê de classificadores Data classification Ensemble of classifiers Evolutionary algorithms Imbalanced learning
249	Exercício físico, neurogênese e memória / Exercise, neurogenesis and memory Teixeira, Lívia Clemente Motta 18 December 2013 (has links) A neurogênese hipocampal é modulada por muitos fatores que incluem envelhecimento, estresse, enriquecimento ambiental, atividade física e aprendizado. Atividade física voluntária (espontânea) estimula a proliferação celular no giro denteado e facilita a aquisição e/ou retenção de tarefas dependentes do hipocampo, incluindo o Labirinto Aquático de Morris. Embora seja bem estabelecido que o exercício físico regular melhore o desempenho em tarefas de memória e aprendizado, não está claro qual a duração desses benefícios após o final da atividade física. Neste estudo investigamos a relação temporal entre os efeitos benéficos da atividade física associado ao aprendizado de tarefa dependente da função hipocampal, e sua relação com a neurogênese, levando em consideração também o tempo decorrido desde o término da atividade física. Grupos independentes de ratos tiveram acesso a roda de atividade ao longo de 7 dias (Grupo EXE) ou roda bloqueada (Grupo Ñ-EXE) e receberam injeções de BrdU nos últimos 3 dias de exposição roda. Após um INTERVALO de 1, 3 ou 6 semanas após o final da exposição a roda de atividade após o final da exposição a roda de atividade, os animais foram testados no labirinto aquático de Morris, sendo uma parte deles expostos a tarefa de memória operacional espacial, dependente da função hipocampal (H), e outra parte a uma tarefa de busca por uma plataforma visível, independente da função hipocampal (ÑH). Em ambos os casos, o intervalo entre as tentativas (ITI) foi de 10 minutos durante as sessões 1-6 e (virtualmente) zero minutos durante as sessões 7-10. Concluída a tarefa os cérebros foram processados para imuno-histoquímica. Foram feitas imunoistoquímicas para a detecção de Ki-67 (proliferação celular), BrdU, NeuN (para identificar neurónios maduros), e DCX (para identificar imaturo neurônios). Nossos dados suportam a ideia que atividade física voluntária induz um aumento na proliferação celular e na diferenciação neuronal (neurogênese) no giro denteado. A introdução de um período de intervalo entre o final do exercício e a execução da tarefa comportamental causa uma redução significativa na sobrevivência dos novos neurônios, como observado com 1 semana de intervalo em comparação com os animais testados com 6 semanas de intervalo. Em contraste, entretanto, o presente resultado não confirma que esse aumento da neurogênese é acompanhado por melhora na memória espacial, como avaliado por meio da versão que envolve memória operacional no labirinto aquático de Morris. O aprendizado da tarefa do labirinto aquático de Morris, na versão de memória operacional que é dependente do hipocampo, leva a um aumento da sobrevivência dos novos neurônios que foram produzidos no período de exercício, ao passo que o aprendizado da versão independente da tarefa leva a uma redução do número absoluto de novos neurônios / Hippocampal adult neurogenesis is modulated by many factors including age, stress, environmental enrichment, physical exercise and learning. Spontaneous exercise in a running wheel stimulates cell proliferation in the adult dentate gyrus and facilitates acquisition and/or retention of hippocampal-dependent tasks including the Morris water maze. While it is well established that regular physical exercise improves cognitive performance, it is unclear for how long these benefits last after its interruption. In this study, we investigate the temporal relation between exercise-induced benefits associated with learning of a hippocampal-dependent task, this relationship with neurogenesis, considering the time after exercise has ended. Independent groups of rats were given free access to either unlocked (EXE Group) or locked (No-EXE Group) running wheels for 7 days, having received daily injections of BrdU for the last 3 days. The animals were then transferred to standard home cages. After a time period of either 1, 3 or 6 weeks, the animals were tested in the Morris water maze, one of them being exposed to the spatial working memory task dependent on hippocampal function (H) and partly to a task search for a visible platform, independent of hippocampal function (NH). In both cases, the interval between trials (ITI) was 10 minutes during sessions and 1-6 and (virtually) zero minute during the sessions 7-10. After the task brains were processed for immunohistochemistry. Cell proliferation and net neurogenesis were assessed in hippocampal sections using antibodies against BrdU, NeuN (to identify mature neurons), and DCX (to identify immature neurons). Data of the present study confirm that exposure of rats to 7 days of spontaneous wheel running increases cell proliferation and neurogenesis. In contrast, however, the present results did not confirm that this neurogenesis is accompanied by a significant improvement in spatial learning, as evaluated using the working memory version of the Morris’ water maze task. The introduction of a delay period between the end of exercise and cognitive training on the Morris water maze reduces cell survival; the number of new neurons was higher in the EXE1 week delay group as compared to the EXE6 week delay. We showed that learning the Morris water maze in the working memory task dependent on hippocampal function (H) increases the new neurons survival, in contrast, learning hippocampal-independent version of the task decreases number of new neurons Aprendizado espacial Atividade física Memória espacial Neurogênese Neurogenesis Physical activity Spatial learning Spatial memory
250	Learning acyclic probabilistic logic programs from data. / Aprendizado de programas lógico-probabilísticos acíclicos. Faria, Francisco Henrique Otte Vieira de 12 December 2017 (has links) To learn a probabilistic logic program is to find a set of probabilistic rules that best fits some data, in order to explain how attributes relate to one another and to predict the occurrence of new instantiations of these attributes. In this work, we focus on acyclic programs, because in this case the meaning of the program is quite transparent and easy to grasp. We propose that the learning process for a probabilistic acyclic logic program should be guided by a scoring function imported from the literature on Bayesian network learning. We suggest novel techniques that lead to orders of magnitude improvements in the current state-of-art represented by the ProbLog package. In addition, we present novel techniques for learning the structure of acyclic probabilistic logic programs. / O aprendizado de um programa lógico probabilístico consiste em encontrar um conjunto de regras lógico-probabilísticas que melhor se adequem aos dados, a fim de explicar de que forma estão relacionados os atributos observados e predizer a ocorrência de novas instanciações destes atributos. Neste trabalho focamos em programas acíclicos, cujo significado é bastante claro e fácil de interpretar. Propõe-se que o processo de aprendizado de programas lógicos probabilísticos acíclicos deve ser guiado por funções de avaliação importadas da literatura de aprendizado de redes Bayesianas. Neste trabalho s~ao sugeridas novas técnicas para aprendizado de parâmetros que contribuem para uma melhora significativa na eficiência computacional do estado da arte representado pelo pacote ProbLog. Além disto, apresentamos novas técnicas para aprendizado da estrutura de programas lógicos probabilísticos acíclicos. Aprendizado computacional Explainable AI Machine learning Probabilistic logic programming Programação lógica

Search results