Global ETD Search

721	Abordagem simbólica de aprendizado de máquina na recuperação automática de artigos científicos a partir de web / Symbolic approach of machine learning in the scientific article automatic recovery from the web Christiane Regina Soares Brasil 07 April 2006 (has links) Atualmente, devido ao incessante aumento dos documentos científicos disponíveis na rede mundial de computadores, as ferrametas de busca tornaram-se um importante auxílio para recuperação de informação a partir da Internet em todas as áreas de conhecimento para pesquisadores e usuários. Entretanto, as atuais ferramentas de busca disponíveis selecionam uma enorme lista de páginas, cabendo ao usuário a tarefa final de escolher aquelas que realmente são relevantes a sua pesquisa. Assim, é importante o desenvolvimento de técnicas e ferramentas que não apenas retornem uma lista de possíveis documentos relacionados com a consulta apresentada pelo usuário, mas que organizem essa informação de acordo com o conteúdo de tais documentos, e apresentem o resultado da busca em uma representação gráfica que auxilie a exploração e o entendimento geral dos documentos recuperados. Neste contexto, foi proposto o projeto de uma Ferramenta Inteligente de Apoio à Pesquisa (FIP), do qual este trabalho é parte. O objetivo deste trabalho é analisar estratégias de recuperação automática de artigos científicos sobre uma determinada área de pesquisa a partir da Web, que poderá ser adotada pelo módulo de recuperação da FIP. Neste trabalho são considerados artigos escritos em inglês, no formato PDF, abrangendo as áreas da Ciência da Computação. Corpora de treino e teste foram usados para avaliação das abordagens simbólicas de Aprendizado de Máquina na indução de regras que poderão ser inseridas em um crawler inteligente para recuperação automática de artigos dessas áreas. Diversos experimentos foram executados para definir parâmetros de pré-processamento apropriados ao domínio, bem como para definir a melhor estratégia de aplicação das regras induzidas e do melhor algoritmo simbólico de indução. / Today, due to the increase of scientific documents available on the World Wide Web, search tools have become an important aid for information retrieval from the Internet in all fields of knowledge for researchers and users. However, the search tools currently available, in general, select a huge list of pages leaving the user with the final task of choosing those pages that actually fit its research. It is important to develop techniques and tools that return a list of documents related to the query made by the user in accordance with the content of such documents, and then present the result in a meaningful graphical representation with the aim to improve the exploration and understanding of the retrieved articles. In this context, a project of an Intelligent Tool for Research Supporting (FIP) was proposed. This MSc work is part of this project. The objective of this work is to analyze strategies of automatic scientific article retrieval on a specific field from the Web. Such strategy must fit the requirements of the retrieval module of the FIP. In this work articles written in English, in PDF format, covering the fields of Computer Science were considered. Corpora of training and testing were used to evaluate the symbolic approaches of Machine Learning in the induction of rules. These rules could be imbedded in an intelligent crawler for automatic retrieving of the articles in the chosen fields. Several experiments have been carried out in order to define parameters as attribute weights, cut-off point, stopwords in the corpora domain, a better strategy to apply the rules for the categorization of the articles and a better symbolic algorithm to induce the rules Aprendizado de máquina Mineração de texto Mineração na web Recuperação de informação Information retrieval Machine learning Text mining Web mining
722	Algoritmo genético com regressão: busca direcionada através de aprendizado de máquina Fonseca, Tales Lima 31 August 2017 (has links) Submitted by Geandra Rodrigues (geandrar@gmail.com) on 2018-01-09T11:49:25Z No. of bitstreams: 1 taleslimafonseca.pdf: 6292275 bytes, checksum: 0e7e3e7f61b734dce43a0db483431c0f (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2018-01-23T11:18:02Z (GMT) No. of bitstreams: 1 taleslimafonseca.pdf: 6292275 bytes, checksum: 0e7e3e7f61b734dce43a0db483431c0f (MD5) / Made available in DSpace on 2018-01-23T11:18:02Z (GMT). No. of bitstreams: 1 taleslimafonseca.pdf: 6292275 bytes, checksum: 0e7e3e7f61b734dce43a0db483431c0f (MD5) Previous issue date: 2017-08-31 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Problemas de otimização são comuns em diversas áreas. Nas engenharias, em muitas situações, os problemas de otimização eram modelados desconsiderando certas características do fenômeno estudado com a finalidade de simplificar as simulações durante o processo de busca. Contudo, com o passar do tempo, a evolução das máquinas possibilitou a modelagem de problemas de otimização com mais informações, aproximando os modelos da forma mais fidedigna possível. No entanto, uma parcela significativa desses problemas demanda um alto custo computacional para realizar as avaliações das soluções candidatas, tornando muitos deles de difícil análise e simulação. Dessa forma, o objetivo deste trabalho é a utilização de métodos de aprendizado de máquina acoplado a um algoritmo de otimização com intuito de direcionar o processo de busca de um algoritmo genético, inserindo possíveis soluções na população do algoritmo genético a cada geração com o intuito de reduzir o alto custo computacional de se encontrar as soluções ótimas. Além disso, é realizado um estudo comparativo para verificar quais métodos de aprendizado de máquina obtêm bons resultados na técnica proposta. Os experimentos são realizados em problemas de otimização com um alto custo computacional comumente encontrados na literatura. / Optimization problems are common in many areas. In engineering, in many situations optimization problems were modeled disregarding certain characteristics of the studied phenomenon in order to simplify the simulations during the search process. However, over time, the evolution of the machines allowed the modeling of optimization problems with more information, approaching the models in the most reliable way possible. In this way, a significant portion of these problems requires a high computational cost to perform the evaluations of candidate solutions, making many of them difficult to analyze and simulate. Thus, the objective of this work is the use of machine learning methods coupled with an optimization algorithm with the purpose of directing the search process of a genetic algorithm, inserting new good quality solution into the population at each generation with the intention of reducing the high computational cost of finding the optimal solutions. In addition, a comparative study is carried out to verify which machine learning methods obtain good results in the proposed technique. The experiments are performed on optimization problems with a high computational cost commonly found in the literature. CNPQ::CIENCIAS EXATAS E DA TERRA Otimização Algoritmos genéticos Aprendizado de máquina Metamodelo Optimization Genetic algorithm Machine learning Surrogate models
723	Imitação de expressões faciais para aprendizado de emoções em robótica social / Imitation of facial expressions for emotion learning in social robotics Valéria de Carvalho Santos 12 July 2012 (has links) Robôs sociáveis devem ser capazes de interagir, se comunicar, compreender e se relacionar com os seres humanos de uma maneira natural. Embora diversos robôs sociáveis tenham sido desenvolvidos com sucesso, ainda existem muitas limitações a serem superadas. São necessários importantes avanços no desenvolvimento de mecanismos que possibilitem interações mais realísticas, bem como regulem o relacionamento entre robôs e humanos. Um forma de tornar mais realísticas as interações é através de expressões faciais de emoção. Nesse contexto, este trabalho fornece capacidade de imitação de expressão facial de emoções a uma cabeça robótica virtual, com o objetivo de permitir interações mais realísticas e duradouras com o ser humano. Para isso, é incorporado à mesma aprendizado por imitação, no qual a cabeça robótica imita expressões faciais apresentadas por um usuário durante a interação social. O aprendizado por imitação foi realizado atráves de redes neurais artificiais. As expressões faciais consideradas neste trabalho são: neutra, alegria, raiva, surpresa e tristeza. Os resultados experimentais são apresentados, os quais mostram o bom desempenho do sistema de imitação proposto / Sociable robots must be able to interact, communicate, understand and relate to humans in a natural way. Although many social robots have been developed successfully, there are still many limitations to overcome. Important advances are needed in the development of mechanisms that allow more realistic interactions and that regulate the relationship between robots and humans. One way to make more realistic interactions is through facial expressions of emotion. In this context, this project provides ability for imitation of facial expressions of emotion to a virtual robotic head, in order to allow more realistic and lasting interactions with humans. For such, learning by imitation is used, in which the robotic head mimics facial expressions made by a user during social interaction. The imitation learning was performed by artificial neural networks. Facial expressions considered in this work are: neutral, happiness, anger, surprise and sadness. Experimental results are presented which show the good performance of the proposed system imitation Aprendizado por imitação Emoção artificial Redes neurais artificiais Robótica social Artificial emotion Artificial neural networks Learning by imitation Social robotic
724	Mensagens e práticas alimentares aprendidas com um instrumento imagético para orientação alimentar e nutricional / Messages and food practices learned with a pictorial instrument of food and nutrition education Flávia Gonçalves Micali 04 December 2017 (has links) Imagens associadas a informações escritas ou verbais podem aumentar a atenção, compreensão, lembrança e favorecer a adesão às informações. Diante do consumo elevado de alimentos ultraprocessados ricos em gordura e açúcar que contribuem para a obesidade são necessários instrumentos de educação alimentar e nutricional que favoreçam o aprendizado sobre o conteúdo energético e nutricional dos alimentos, de modo que o comensal possa fazer melhores escolhas alimentares. O objetivo do estudo foi compreender como as imagens influenciam no aprendizado de orientações nutricionais e nas práticas alimentares. Trata-se de um estudo experimental, de natureza quantitativa e qualitativa, realizado com 64 mulheres, 33 participaram de oficinas de educação alimentar e nutricional com imagens (grupo imagem: Gi), e 31 mulheres participantes de oficinas de educação alimentar e nutricional sem imagens (grupo sem imagem: Gsi), subdivididas em dois subgrupos, de mulheres eutróficas e obesas. As oficinas consistiram de encontros em grupo onde foram passadas verbalmente informações alimentares e nutricionais, com ou sem o apoio da visualização de fotos sobre quatro temas que compõe um instrumento imagético para orientação alimentar e nutricional, que são: Vida doce, cuidando do açúcar - aborda o conteúdo de açúcar em doces e bebidas; Comida gostosa e com pouca gordura - trata sobre o teor de gordura em alimentos; Comer bem fazendo as melhores escolhas - sobre substituições alimentares; e Cuido de mim com comida saudável - para estimular o consumo de frutas, verduras e legumes. Cada grupo participou de dois dias de oficinas sendo abordados dois temas do instrumento imagético por oficina. A avaliação das mensagens aprendidas nas oficinas foi feita individualmente por meio de questionário semiestruturado, aplicado logo após as oficinas (T0) e depois de 30 (T30) e 60 dias (T60) da 2a oficina. No T60 também foi aplicado individualmente às participantes um questionário de avaliação das práticas alimentares e realizados grupos focais. Foram realizadas 24 oficinas, com a participação de 4 a 8 pessoas por oficina, e 5 grupos focais. O Gi apresentou memorização 21% maior que o Gsi (IC 95%: 0,93 a 2,4; p<0,01) no tempo T0, não havendo diferença entre os grupos nos demais tempos. O intervalo de 30 dias (T0-T30) determinou diminuição do percentual de lembrança das mensagens tanto no Gi (1,97; IC: 1,44 - 2,49; p<0,01) quanto no Gsi (0,86; IC 95%: 0,32 - 1,40; p<0,01). A avaliação qualitativa empregada apontou que ambos os grupos aprenderam as mensagens, entretanto as imagens permitiram uma lembrança mais apurada das mensagens, atribuído ao impacto e à concretização das orientações por meio das imagens e recursos semióticos, e despertaram sentidos e sensações associadas ao gosto dos alimentos retratados nas fotos. As fotos exploraram representações e metáforas que causaram impacto e remeteram a sensações no indivíduo, relacionadas ao gosto dos alimentos, as quais podem implicar desafios ao comensal diante de suas escolhas alimentares. As oficinas contribuíram para o aprendizado e isso se traduziu, em ambos os grupos, na conscientização e por vezes na aplicação dos conhecimentos nas práticas alimentares. / Images closely linked to written or spoken text can markedly increase attention, comprehension, recall and favors adherence to information. Faced with the high consumption of ultra-processed foods rich in fat and sugar that contribute for obesity, food and nutritional education tools are necessary to promote learning about the energy and nutritional content of food, so that people could make better food choices. The aim of the study was to understand how images influence the learning of nutritional education and food practices. It´s an experimental study, quantitative and qualitative nature, carried out with 64 women, 33 participated of food and nutrition education workshops with images (group image: Gi), and 31 attending food and nutritional education workshops without images (Group without image: Gsi), subdivided into two subgroups, of normal weight and obese women. The workshops consisted of group meetings where food and nutrition information was verbally accessed, with or without the support of photo visualization about four themes that composes the pictorial instrument of food and nutrition education, which are: \"Sweet life, being aware of sugar\" - about sugar content in sweets and beverages; \"Tasty food with little fat\" - about fat content in food; \"Eating well by making the best choices\" - about food replacements; and \"I take care of myself by eating healthy food\" - to stimulate consumption of fruits and vegetables. Each group participated in two days of workshops and two themes of the pictorial instrument were addressed in each workshop. The evaluation of the messages learned in the workshops was individually done with a semi-structured questionnaire, that have been applied immediately after the workshops (T0) and after 30 (T30) and 60 days (T60) of the 2nd workshop. In T60, it was also individually applied to the participants one questionnaire to evaluate feeding practices and focus groups were done. Twenty-four workshops, with participation of 4 to 8 women in each, and 5 focus groups have been done. The Gi had 21% greater memory than Gsi (95% CI: 0.93 to 2.4, p <0.01) at T0, with no difference between groups in the other times. The 30-day interval (T0-T30) resulted in a decrease in recall percentage of the messages in both Gi (1, 97: CI: 1.44-2.49, p <0.01) and Gsi (0.86, 95% CI: 0.32-1.40, p <0.01). The qualitative evaluation has shown that both groups learned the messages, however the images allowed for a better recall of the messages, attributed to the impact and the application of the orientations through semiotic images and resources, and awoke senses and sensations associated with the taste of food portrayed in the photos. The photos explored representations and metaphors that caused impact and referred to sensations in the individual, related to the taste of food, which can imply challenges to the person in front of their food choices. The workshops contributed to the learning and this translated, in both groups, in the awareness and sometimes in the application of the knowledge in the alimentary practices. Aprendizado Educação alimentar e nutricional Imagem Instrumento imagético Práticas alimentares Food and nutrition education Food practices Image Imaging instrument Learning
725	Performance prediction of application executed on GPUs using a simple analytical model and machine learning techniques / Predição de desempenho de aplicações executadas em GPUs usando um modelo analítico simples e técnicas de aprendizado de máquina Marcos Tulio Amarís González 25 June 2018 (has links) The parallel and distributed platforms of High Performance Computing available today have became more and more heterogeneous (CPUs, GPUs, FPGAs, etc). Graphics Processing Units (GPU) are specialized co-processor to accelerate and improve the performance of parallel vector operations. GPUs have a high degree of parallelism and can execute thousands or millions of threads concurrently and hide the latency of the scheduler. GPUs have a deep hierarchical memory of different types as well as different configurations of these memories. Performance prediction of applications executed on these devices is a great challenge and is essential for the efficient use of resources in machines with these co-processors. There are different approaches for these predictions, such as analytical modeling and machine learning techniques. In this thesis, we present an analysis and characterization of the performance of applications executed on GPUs. We propose a simple and intuitive BSP-based model for predicting the CUDA application execution times on different GPUs. The model is based on the number of computations and memory accesses of the GPU, with additional information on cache usage obtained from profiling. We also compare three different Machine Learning (ML) approaches: Linear Regression, Support Vector Machines and Random Forests with BSP-based analytical model. This comparison is made in two contexts, first, data input or features for ML techniques were the same than analytical model, and, second, using a process of feature extraction, using correlation analysis and hierarchical clustering. We show that GPU applications that scale regularly can be predicted with simple analytical models, and an adjusting parameter. This parameter can be used to predict these applications in other GPUs. We also demonstrate that ML approaches provide reasonable predictions for different cases and ML techniques required no detailed knowledge of application code, hardware characteristics or explicit modeling. Consequently, whenever a large data set with information about similar applications are available or it can be created, ML techniques can be useful for deploying automated on-line performance prediction for scheduling applications on heterogeneous architectures with GPUs. / As plataformas paralelas e distribuídas de computação de alto desempenho disponíveis hoje se tornaram mais e mais heterogêneas (CPUs, GPUs, FPGAs, etc). As Unidades de processamento gráfico são co-processadores especializados para acelerar operações vetoriais em paralelo. As GPUs têm um alto grau de paralelismo e conseguem executar milhares ou milhões de threads concorrentemente e ocultar a latência do escalonador. Elas têm uma profunda hierarquia de memória de diferentes tipos e também uma profunda configuração da memória hierárquica. A predição de desempenho de aplicações executadas nesses dispositivos é um grande desafio e é essencial para o uso eficiente dos recursos computacionais de máquinas com esses co-processadores. Existem diferentes abordagens para fazer essa predição, como técnicas de modelagem analítica e aprendizado de máquina. Nesta tese, nós apresentamos uma análise e caracterização do desempenho de aplicações executadas em Unidades de Processamento Gráfico de propósito geral. Nós propomos um modelo simples e intuitivo fundamentado no modelo BSP para predizer a execução de funções kernels de CUDA sobre diferentes GPUs. O modelo está baseado no número de computações e acessos à memória da GPU, com informação adicional do uso das memórias cachês obtidas do processo de profiling. Nós também comparamos três diferentes enfoques de aprendizado de máquina (ML): Regressão Linear, Máquinas de Vetores de Suporte e Florestas Aleatórias com o nosso modelo analítico proposto. Esta comparação é feita em dois diferentes contextos, primeiro, dados de entrada ou features para as técnicas de aprendizado de máquinas eram as mesmas que no modelo analítico, e, segundo, usando um processo de extração de features, usando análise de correlação e clustering hierarquizado. Nós mostramos que aplicações executadas em GPUs que escalam regularmente podem ser preditas com modelos analíticos simples e um parâmetro de ajuste. Esse parâmetro pode ser usado para predizer essas aplicações em outras GPUs. Nós também demonstramos que abordagens de ML proveem predições aceitáveis para diferentes casos e essas abordagens não exigem um conhecimento detalhado do código da aplicação, características de hardware ou modelagens explícita. Consequentemente, sempre e quando um banco de dados com informação de \\textit esteja disponível ou possa ser gerado, técnicas de ML podem ser úteis para aplicar uma predição automatizada de desempenho para escalonadores de aplicações em arquiteturas heterogêneas contendo GPUs. CUDA Máquinas de aprendizado Modelo BSP Predição de desempenho Unidades de processamento gráfico BSP model CUDA GPU architectures Machine learning Performance prediction
726	Modelos composicionais: análise e aplicação em previsões no mercado de ações Souza, Diego Falcão de, (92) 98128-4110 10 July 2017 (has links) Submitted by Márcia Silva (marcialbuquerq@yahoo.com.br) on 2017-11-21T15:13:35Z No. of bitstreams: 1 Dissertação_DFS_v26_final.pdf: 1805000 bytes, checksum: 4d76d6be8271bc5cada9495ca570805d (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-11-21T15:37:01Z (GMT) No. of bitstreams: 1 Dissertação_DFS_v26_final.pdf: 1805000 bytes, checksum: 4d76d6be8271bc5cada9495ca570805d (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-11-21T15:39:27Z (GMT) No. of bitstreams: 1 Dissertação_DFS_v26_final.pdf: 1805000 bytes, checksum: 4d76d6be8271bc5cada9495ca570805d (MD5) / Made available in DSpace on 2017-11-21T15:39:27Z (GMT). No. of bitstreams: 1 Dissertação_DFS_v26_final.pdf: 1805000 bytes, checksum: 4d76d6be8271bc5cada9495ca570805d (MD5) Previous issue date: 2017-07-10 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / Among several textual representation techniques in the literature, the distributed representation of words is standing out recently in many tasks of Natural Language Processing through its representations based on dense vectors of 𝑑 dimensions that can capture syntactic and semantic information of the words. Therefore, it’s expected that similar words regarding to syntactic and sematic are closer of each other in the vector space. However, while this representation is becoming effective to isolated words, there isn’t a consensus in the literature regarding to the best way to represent more complex structures, such as phrases and sentences. The trend of recent years is the use of compositional models that represents these complex structures through the composition of the representations of its constituent structures using some combination function. However, it’s known that the obtained results by this technique depends directly of the domain in which they are applied. In this work, we analyzed several compositional models applied to the domain of stock price prediction in order to identify which of these models better represent the financial news title for various machine learning methods to predict the index polarity of the S & P 500 stock exchange. / Dentre as várias técnicas de representação textual existentes na literatura, a representação distribuída de palavras (word embedding) vem se destacando ultimamente em várias tarefas de processamento de linguagem natural através de suas representações baseadas em vetores densos de 𝑑 dimensões que são capazes de capturar informações semânticas e sintáticas das palavras. Desta forma, espera-se que as palavras com semelhanças sintáticas e semânticas estejam mais próximas umas das outras no espaço vetorial. No entanto, enquanto essa representação tem se mostrado eficaz para palavras isoladas, não há um consenso na literatura em relação à melhor forma de representar estruturas mais complexas, como frases e orações. A tendência dos últimos anos é a utilização dos modelos composicionais que representam essas estruturas complexas através da composição das representações de suas estruturas constituintes utilizando alguma função de combinação. Entretanto, sabe-se que os resultados obtidos pelos modelos composicionais dependem diretamente do domínio em que são aplicados. Nesse trabalho, nós analisamos diversos modelos de composição aplicados ao domínio de previsão de preços no mercado de ações com o objetivo de identificar qual desses modelos melhor representa os títulos de notícias financeiras para diversos métodos de aprendizado de máquina com o intuito de prever a polaridade do índice da bolsa de valore S & P 500. Representação distribuída de palavras Word embedding Modelos composicionais Aprendizado de máquina
727	Deteção de Spam baseada na evolução das características com presença de Concept Drift Henke, Márcia 30 March 2015 (has links) Submitted by Geyciane Santos (geyciane_thamires@hotmail.com) on 2015-11-12T20:17:58Z No. of bitstreams: 1 Tese - Márcia Henke.pdf: 2984974 bytes, checksum: a103355c1a7895956d40d4fa9422347a (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-11-16T18:36:36Z (GMT) No. of bitstreams: 1 Tese - Márcia Henke.pdf: 2984974 bytes, checksum: a103355c1a7895956d40d4fa9422347a (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-11-16T18:43:03Z (GMT) No. of bitstreams: 1 Tese - Márcia Henke.pdf: 2984974 bytes, checksum: a103355c1a7895956d40d4fa9422347a (MD5) / Made available in DSpace on 2015-11-16T18:43:03Z (GMT). No. of bitstreams: 1 Tese - Márcia Henke.pdf: 2984974 bytes, checksum: a103355c1a7895956d40d4fa9422347a (MD5) Previous issue date: 2015-03-30 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Electronic messages (emails) are still considered the most significant tools in business and personal applications due to their low cost and easy access. However, e-mails have become a major problem owing to the high amount of junk mail, named spam, which fill the e-mail boxes of users. Among the many problems caused by spam messages, we may highlight the fact that it is currently the main vector for the spread of malicious activities such as viruses, worms, trojans, phishing, botnets, among others. Such activities allow the attacker to have illegal access to penetrating data, trade secrets or to invade the privacy of the sufferers to get some advantage. Several approaches have been proposed to prevent sending unsolicited e-mail messages, such as filters implemented in e-mail servers, spam message classification mechanisms for users to define when particular issue or author is a source of spread of spam and even filters implemented in network electronics. In general, e-mail filter approaches are based on analysis of message content to determine whether or not a message is spam. A major problem with this approach is spam detection in the presence of concept drift. The literature defines concept drift as changes occurring in the concept of data over time, as the change in the features that describe an attack or occurrence of new features. Numerous Intrusion Detection Systems (IDS) use machine learning techniques to monitor the classification error rate in order to detect change. However, when detection occurs, some damage has been caused to the system, a fact that requires updating the classification process and the system operator intervention. To overcome the problems mentioned above, this work proposes a new changing detection method, named Method oriented to the Analysis of the Development of Attacks Characteristics (MECA). The proposed method consists of three steps: 1) classification model training; 2) concept drift detection; and 3) transfer learning. The first step generates classification models as it is commonly conducted in machine learning. The second step introduces two new strategies to avoid concept drift: HFS (Historical-based Features Selection) that analyzes the evolution of the features based on over time historical; and SFS (Similarity-based Features Selection) that analyzes the evolution of the features from the level of similarity obtained between the features vectors of the source and target domains. Finally, the third step focuses on the following questions: what, how and when to transfer acquired knowledge. The answer to the first question is provided by the concept drift detection strategies that identify the new features and store them to be transferred. To answer the second question, the feature representation transfer approach is employed. Finally, the transfer of new knowledge is executed as soon as changes that compromise the classification task performance are identified. The proposed method was developed and validated using two public databases, being one of the datasets built along this thesis. The results of the experiments shown that it is possible to infer a threshold to detect changes in order to ensure the classification model is updated through knowledge transfer. In addition, MECA architecture is able to perform the classification task, as well as the concept drift detection, as two parallel and independent tasks. Finally, MECA uses SVM machine learning algorithm (Support Vector Machines), which is less adherent to the training samples. The results obtained with MECA showed that it is possible to detect changes through feature evolution monitoring before a significant degradation in classification models is achieved. / As mensagens eletrônicas (e-mails) ainda são consideradas as ferramentas de maior prestígio no meio empresarial e pessoal, pois apresentam baixo custo e facilidade de acesso. Por outro lado, os e-mails tornaram-se um grande problema devido à elevada quantidade de mensagens não desejadas, denominadas spam, que lotam as caixas de emails dos usuários. Dentre os diversos problemas causados pelas mensagens spam, destaca-se o fato de ser atualmente o principal vetor de propagação de atividades maliciosas como vírus, worms, cavalos de Tróia, phishing, botnets, dentre outros. Tais atividades permitem ao atacante acesso indevido a dados sigilosos, segredos de negócios ou mesmo invadir a privacidade das vítimas para obter alguma vantagem. Diversas abordagens, comerciais e acadêmicas, têm sido propostas para impedir o envio de mensagens de e-mails indesejados como filtros implementados nos servidores de e-mail, mecanismos de classificação de mensagens de spam para que os usuários definam quando determinado assunto ou autor é fonte de propagação de spam e até mesmo filtros implementados em componentes eletrônicos de rede. Em geral, as abordagens de filtros de e-mail são baseadas na análise do conteúdo das mensagens para determinar se tal mensagem é ou não um spam. Um dos maiores problemas com essa abordagem é a deteção de spam na presença de concept drift. A literatura conceitua concept drift como mudanças que ocorrem no conceito dos dados ao longo do tempo como a alteração das características que descrevem um ataque ou ocorrência de novas características. Muitos Sistemas de Deteção de Intrusão (IDS) usam técnicas de aprendizagem de máquina para monitorar a taxa de erro de classificação no intuito de detetar mudança. Entretanto, quando a deteção ocorre, algum dano já foi causado ao sistema, fato que requer atualização do processo de classificação e a intervenção do operador do sistema. Com o objetivo de minimizar os problemas mencionados acima, esta tese propõe um método de deteção de mudança, denominado Método orientado à Análise da Evolução das Características de Ataques (MECA). O método proposto é composto por três etapas: 1) treino do modelo de classificação; 2) deteção de mudança; e 3) transferência do aprendizado. A primeira etapa emprega modelos de classificação comumente adotados em qualquer método que utiliza aprendizagem de máquina. A segunda etapa apresenta duas novas estratégias para contornar concept drift: HFS (Historical-based Features Selection) que analisa a evolução das características com base no histórico ao longo do tempo; e SFS (Similarity based Features Selection) que observa a evolução das características a partir do nível de similaridade obtido entre os vetores de características dos domínios fonte e alvo. Por fim, a terceira etapa concentra seu objetivo nas seguintes questões: o que, como e quando transferir conhecimento adquirido. A resposta à primeira questão é fornecida pelas estratégias de deteção de mudança, que identificam as novas características e as armazenam para que sejam transferidas. Para responder a segunda questão, a abordagem de transferência de representação de características é adotada. Finalmente, a transferência do novo conhecimento é realizada tão logo mudanças que comprometam o desempenho da tarefa de classificação sejam identificadas. O método MECA foi desenvolvido e validado usando duas bases de dados públicas, sendo que uma das bases foi construída ao longo desta tese. Os resultados dos experimentos indicaram que é possível inferir um limiar para detetar mudanças a fim de garantir o modelo de classificação sempre atualizado por meio da transferência de conhecimento. Além disso, um diferencial apresentado no método MECA é a possibilidade de executar a tarefa de classificação em paralelo com a deteção de mudança, sendo as duas tarefas independentes. Por fim, o MECA utiliza o algoritmo de aprendizagem de máquina SVM (Support Vector Machines), que é menos aderente às amostras de treinamento. Os resultados obtidos com o MECA mostraram que é possível detetar mudanças por meio da evolução das características antes de ocorrer uma degradação significativa no modelo de classificação utilizado. Aprendizagem de máquina Deteção de spam Transferência de aprendizado Concept drift Machine learning Intrusion detection Transfer learning
728	Detecção e classificação de revisões de produtos em ambientes ruidosos Maciel Junior, Onilton de Oliveira 28 March 2013 (has links) Submitted by Lúcia Brandão (lucia.elaine@live.com) on 2015-12-11T18:38:02Z No. of bitstreams: 1 Dissertação - Onilton de Oliveira Maciel Junior.pdf: 1323945 bytes, checksum: 1dbe56bb277d786c9dda5294abe9e8dc (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2016-01-20T18:33:35Z (GMT) No. of bitstreams: 1 Dissertação - Onilton de Oliveira Maciel Junior.pdf: 1323945 bytes, checksum: 1dbe56bb277d786c9dda5294abe9e8dc (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2016-01-20T18:39:45Z (GMT) No. of bitstreams: 1 Dissertação - Onilton de Oliveira Maciel Junior.pdf: 1323945 bytes, checksum: 1dbe56bb277d786c9dda5294abe9e8dc (MD5) / Made available in DSpace on 2016-01-20T18:39:45Z (GMT). No. of bitstreams: 1 Dissertação - Onilton de Oliveira Maciel Junior.pdf: 1323945 bytes, checksum: 1dbe56bb277d786c9dda5294abe9e8dc (MD5) Previous issue date: 2013-03-28 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / Eletronic commerce, which has retailers of the most variable sizes, is one of the most proﬁtable segments of the web. Every day, a large number of users buys products through those websites, in a process that, not rarely, begins with a search for product information. The product reviews available at online stores are tools thathelpthisprocessbyprovidingotherusersimpressionsaboutaproduct,without demanding any eﬀort from the user for him to get more information. This tool, however, have some limitations, among them, the amount of reviews available and the diﬃculty to obtain them. Therefore, in this work, we present a method that, using a external database of documents, can be utilized to ﬁnd and show reviews in the pages of the corresponding product. Our experiments show that our proposal is a practicable alternative to improve the user experience in eletronic commerce websites. / O comercio eletrônico exercido por varejistas dos mais diversos tamanhos através de suas lojas virtuais é um dos mais lucrativos segmentos da web. Diariamente, um grande número de usuários realiza a compra de produtos através desses sites, em um processo que, não raramente, inicia-se por uma pesquisa sobre diversas informações do produto. As revisões de produto existentes nas lojas virtuais são uma ferramenta que visa auxiliar esse processo ao prover opiniões de outros usuários a respeito de um produto, sem demandar esforço do usuário para obter tais informações. Essa ferramenta, no entanto, possui algumas limitações, entre elas, a quantidade de revisões disponíveis e a dificuldade em obte-las. Por esse motivo, neste trabalho, apresentamos um método que, utilizando uma base externa de documentos candidatos, pode ser utilizado para encontrar e exibir revisões nas páginas dos produtos correspondentes. Nossos experimentos demonstram que nossa proposta é um alternativa viável para melhorar a experiência dos usuários em sites de comércio eletrônico Ambientes ruidosos Aprendizado de máquina Product detection Machine learning Product review
729	Aprendendo funções de previsão de notas em métodos de filtragem colaborativa baseada em usuário Gonçalves, Ludimila Carvalho 27 March 2013 (has links) Made available in DSpace on 2015-04-11T14:02:56Z (GMT). No. of bitstreams: 1 Ludimila.pdf: 1270701 bytes, checksum: 300c827c33013fc4aaa7278441f4a620 (MD5) Previous issue date: 2013-03-27 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / The large offer of contents nowadays makes it hard to find relevant information. Recommender systems (RS) have been developed to tackle with such information overloading. Such systems are tools that recommend, from a large number of alternatives, the ones that the users will probably be interested in. The main RS applications are based on two approaches, content based filtering and collaborative filtering. Among them, collaborative filtering is the most used one since, in general, it employs a more effective strategy to capture user preferences: to determine groups of users with similar likes and dislikes. The recommendation problem, as viewed by collaborative filtering, can be viewed as the problem of predicting the preference of the user, normally represented as a rating. Traditional systems predict such ratings by means of manually-crafted regression equations obtained by combining different evidences such as: users reputation and its strictness level. As with any other heuristic strategy, there is no guarantee that the used equations are the best for a particular dataset in the sense of minimizing the prediction error. Thus, in this work, we intend to determine if it would be better to learn regression equations instead of using heuristically built ones. Such learned equations should be obtained by using a machine learning regression task to find the most effective combination of evidence on minimizing error. According to our experiments, a simple regression method is able to significantly outperform the best traditional equations using only evidence explored by those equations. Further, features like ratings that neighbors give to item (as all or individually) and user, item and neighbors average ratings have the best performance. Finally, we obtained gain of until 7% over the baseline with trust feature and gain of 6% over baseline without it. / A grande oferta de conteúdos na sociedade contemporânea torna difícil a tarefa de busca por informações que interessem aos usuários. Uma forma de lidar com tal sobrecarga de informações é prover ferramentas que recomendem para os usuários, dentre as informações alternativas, aquelas que devem ser de seu interesse. Tais ferramentas são os Sistemas de Recomendação (SR). As principais aplicações em SR se baseiam em duas técnicas, filtragem baseada em conteúdo e filtragem colaborativa. Dentre as duas, a filtragem colaborativa é a mais utilizada uma vez que, em geral, a estratégia que emprega, determinar grupos de usuários com interesses similares, é mais efetiva para capturar preferências. O problema de recomendação, como abordado em filtragem colaborativa, pode ser visto como um problema de previsão da preferência do usuário, normalmente representada por uma nota. Sistemas tradicionais prevêem esta nota através de uma equação de regressão obtida heuristicamente, envolvendo diversas evidências como nível de rigor do usuário e sua reputação. Como em qualquer estratégia heurística, não há nenhuma garantia que as equações usadas para a previsão sejam mais adequadas para um conjunto particular de dados, no sentido de minimizar o erro de previsão. Assim, neste trabalho, buscamos determinar se, em lugar de usar fórmulas heurísticas, não seria mais eficaz determinar automaticamente, por meio de uma técnica de aprendizagem de máquina, a melhor combinação das evidências disponíveis de forma a reduzir o erro de previsão. Nossos experimentos indicam que usando apenas evidências empregadas em métodos tradicionais, um método de regressão, como o proposto, pode alcançar resultados significativamente melhores que métodos tradicionais. Além disso, evidências como as notas que vizinhos atribuem ao item (como um todo ou individualmente) e as notas médias do usuário, do item e dos vizinhos possuíram melhor desempenho. Por fim, obtivemos ganhos de até 7% sobre o baseline com característica de confiança e de 6% sobre baseline sem uso de confiança. Sistemas de recomendação Aprendizado de máquina Previsão de notas Recommender systems Regression Machine learning Ratings prediction
730	MANIAC: uma metodologia para o monitoramento automatizado das condições dos pavimentos utilizando VANTs / MANIAC: a methodology for automated monitoring of the condition of pavements using UAVs Luiz Henrique Castelo Branco 07 November 2016 (has links) Sistemas de Transportes Inteligentes (STIs) englobam um conjuntos de tecnologias (Sensoriamento Remoto, Tecnologia da Informação, Eletrônica, Sistemas de Comunicação de Dados entre outros) que visam oferecer serviços e gerenciamento de tráfego avançado para meios de transporte rodoviário, aéreo e outros. A obtenção de informações a respeito das características e das condições do pavimento das estradas constitui uma parte importante dentro do sensoriamento nesses STIs. Investigar novas técnicas, metodologias e meios de automatizar a obtenção dessas informações é parte deste trabalho. Uma vez que existem diferentes tipos de defeitos em vias pavimentadas, esta tese apresenta a proposta de uma metodologia que permite a obtenção, de forma automática, das condições dos pavimentos asfálticos. A obtenção dos dados foi realizada por meio do Sensoriamento Remoto com uso de Veículos Aéreos Não Tripulados. A utilização de técnicas de Aprendizado de Máquina na detecção automática possibilitou alcançar uma acurácia de 99% na detecção de pavimentos asfálticos flexíveis e 92% na identificação de defeitos em alguns experimentos. Como resultado obteve-se o diagnóstico automático, não só das condições da via, mas de diferentes tipos de defeitos presentes em pavimentos. / Intelligent Transport Systems (ITS) is a set of integrated technologies (Remote Sensing, Information Technology, Electronics, Data Communication Systems among others) that aims to provide services and advanced traffic management for road, air, rail and others transportation systems. Obtaining information about characteristics and road pavement conditions is an important part within the sensing these ITS. Investigating new techniques, methods and means to optimize and automate obtaining these information are part of this work, since there are different types of defects on paved roads. Thus, this thesis proposes a methodology that allows automatically obtain information about the condition of the pavement. Data collection was performed with remote sensing technology using Unmanned Aerial Vehicles. Automatic detection was possible through the use of Machine Learning techniques with 99% of accuracy in pavements and 92% in distress identification. As a result we obtained the self-diagnosis, not just the pavement, but different types of distress present in the pavement. Aprendizado de máquina Pavimento flexível asfáltico Veículo aéreo não tripulado Flexible pavement Machine learning UAVs Unmanned aerial vehicles

Search results