Global ETD Search

21	[en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS / [pt] PROBLEMAS QUE LEVAM A GERAÇÃO DE DÍVIDA TÉCNICA DE CÓDIGO EM SISTEMAS DE APRENDIZADO DE MÁQUINA RODRIGO GALDINO XIMENES 10 September 2024 (has links) [pt] [Contexto] A dívida técnica (DT) em sistemas de aprendizado de máquina (AM), assim como sua contraparte em engenharia de software (ES), tem o potencial de levar a retrabalhos futuros, representando riscos para produtividade, qualidade e moral da equipe. No entanto, compreender melhor os problemas relacionados ao código que levam à DT em sistemas de AM ainda é um campo em aberto. [Objetivo] Este artigo tem como objetivo identificar e discutir a relevância de problemas que levam a DT no código de AM ao longo do ciclo de vida do AM. [Método] O estudo compilou inicialmente uma lista de problemas potenciais que podem levar à DT no código de AM, analisando as fases do ciclo de vida do AM e suas tarefas típicas. Posteriormente, a lista de problemas foi refinada através da avaliação da prevalência e relevância dos problemas que levam à DT no código de AM por meio de feedback coletado de profissionais da indústria em duas sessões de grupos focais. [Resultados] O estudo compilou uma lista inicial de 34 problemas que potencialmente contribuem para DT em código-fonte de sistemas de AM. Através de duas sessões de grupos focais com nove participantes, esta lista foi refinada para 30 problemas que levam à DT relacionada ao código de AM, sendo 24 considerados altamente relevantes. A fase de pré-processamento de dados foi a mais crítica, com 14 problemas considerados altamente relevantes em potencialmente levar a uma DT grave no código de AM. Cinco problemas foram considerados altamente relevantes na fase de criação e treinamento do modelo e quatro na fase de coleta de dados. A lista final de problemas está disponível para a comunidade. [Conclusão] A lista pode ajudar a aumentar a conscientização sobre os problemas a serem tratados ao longo do ciclo de vida do AM para minimizar a acumulação de DT, ajudando a melhorar a manutenibilidade de sistemas de AM. / [en] [Context] Technical debt (TD) in machine learning (ML) systems, much like its counterpart in software engineering (SE), holds the potential to lead to future rework, posing risks to productivity, quality, and team morale. However, better understanding code-related issues leading to TD in ML systems is still a green field. [Objective] This dissertation aims to identify and discuss the relevance of code-related issues leading to TD in ML code throughout the ML life cycle. [Method] Initially, the study generated a list of potential factors that may contribute to accruing TD in ML code. This compilation was achieved by looking at the phases of the ML life cycle along with their usual tasks. Subsequently, the identified issues were refined by evaluating their prevalence and relevance in causing TD in ML code. This refinement process involved soliciting feedback from industry professionals during two focus group sessions. [Results] The study compiled a list of 34 potential issues contributing to TD in the source code of ML systems. Through two focus group sessions with nine participants, this list was refined into 30 issues leading to ML code-related TD, with 24 considered highly relevant. The data pre-processing phase was the most critical, with 14 issues considered highly relevant in potentially leading to severe ML code TD. Five issues were considered highly relevant in the model creation and training phase and four in the data collection phase. The final list of issues is available to the community. [Conclusion] The list can help to raise awareness on issues to be addressed throughout the ML life cycle to minimize accruing TD, helping to improve the maintainability of ML systems. [pt] GRUPO FOCAL [pt] DUVIDA TECNICA [pt] APRENDIZADO DE MAQUINA [en] FOCUS GROUP [en] TECHNICAL DOUBT [en] MACHINE LEARNING
22	[pt] INVESTIGANDO O IMPACTO DA APLICAÇÃO DE PRINCÍPIOS DE PROJETO SOLID NA COMPREENSÃO DE CÓDIGO DE MACHINE LEARNING / [en] INVESTIGATING THE IMPACT OF SOLID DESIGN PRINCIPLES ON MACHINE LEARNING CODE UNDERSTANDING RAPHAEL OLIVEIRA CABRAL 23 May 2024 (has links) [pt] A aplicação de princípios de design tem sido reconhecida há muito tempo como benéfica para a compreensão e manutenção em projetos de software tradicionais. Esses benefícios podem ser válidos de forma semelhante para projetos de aprendizado de máquina (ML), que envolvem experimentação iterativa com dados, modelos e algoritmos. No entanto, os componentes de ML são frequentemente desenvolvidos por cientistas de dados com diversas formações educacionais, resultando potencialmente em código que não segue as práticas recomendadas de desenvolvimento de software. Para compreender melhor esse fenômeno, investigamos o impacto dos princípios de design SOLID na compreensão do código de ML. Para tanto, conduzimos um experimento controlado com três trials independentes (replicações exatas), envolvendo no total 100 cientistas de dados. Reestruturamos o código de ML real da indústria que não usava princípios SOLID. Dentro de cada ensaio, um grupo foi apresentado ao código de ML original, enquanto o outro foi apresentado ao código de ML incorporando princípios SOLID. Os participantes de ambos os grupos foram convidados a analisar o código e preencher um questionário que incluía perguntas abertas e fechadas sobre a sua compreensão. Os resultados do estudo fornecem evidências estatisticamente significativas de que a adoção dos princípios de design SOLID pode melhorar a compreensão do código no âmbito dos projetos de ML. Propomos que os princípios de design de engenharia de software devem ser difundidos na comunidade de ciência dedados e considerados para melhorar a capacidade de manutenção do código de ML. / [en] Applying design principles has long been acknowledged as beneficial for understanding and maintainability in traditional software projects. These benefits may similarly hold for machine learning (ML) projects, which involve iterative experimentation with data, models, and algorithms. However, ML components are often developed by data scientists with diverse educational backgrounds, potentially resulting in code that doesn t adhere to software development best practices. In order to better understand this phenomenon, we investigated the impact of the SOLID design principles on ML code understanding. To this end, we conducted a controlled experiment with three independent trials (exact replications), overall involving 100 data scientists. We restructured ML code from a real industrial setting that did not use SOLID principles. Within each trial, one group was presented with the original ML code, while the other one was presented with ML code incorporating SOLID principles. Participants of both groups were asked to analyze the code and fill out a questionnaire that included both open-ended and closed-ended questions on their understanding. The study results provide statistically significant evidence that the adoption of the SOLID design principles can improve code understanding within the realm of ML projects. We put forward that software engineering design principles should be spread within the data science community and considered for enhancing the maintainability of ML code. [pt] SOLID [pt] COMPREENSAO DE CODIGO [pt] APRENDIZADO DE MAQUINA [en] SOLID [en] CODE UNDERSTANDING [en] MACHINE LEARNING
23	[pt] IMPLANTAÇÃO E MONITORAMENTO DE MODELOS DE SISTEMAS DE APRENDIZADO DE MÁQUINA: STATUS QUO E PROBLEMAS / [en] ML-ENABLED SYSTEMS MODEL DEPLOYMENT AND MONITORING: STATUS QUO AND PROBLEMS EDUARDO ZIMELEWICZ 23 September 2024 (has links) [pt] [Contexto] Sistemas que incorporam modelos de aprendizado de máquina(ML), muitas vezes chamados de sistemas de software habilitados para ML, tornaram-se comuns. No entanto, as evidências empíricas sobre como os sistemas habilitados para ML são projetados na prática ainda são limitadas; isto é especialmente verdadeiro para atividades relacionadas à disseminação do modelo de ML. [Objetivo] Investigamos práticas industriais contemporâneas e problemas relacionados à disseminação de modelos de ML, com foco nas fases de implantação do modelo e no monitoramento dentro do ciclo de vida de ML. [Método] Realizamos uma pesquisa on-line baseada em questionário internacional para coletar informações de profissionais sobre como os sistemas habilitados para ML são projetados. Reunimos 188 respostas completas de 25 países. Analisamos o status quo e os problemas relatados nas fases de implantação e monitoramento do modelo. Realizamos análises estatísticas sobre práticas contemporâneas utilizando bootstrapping com intervalos de confiança e análises qualitativas sobre os problemas relatados envolvendo procedimentos de codificação aberta e axial. [Resultados] Os profissionais consideram as fases de implantação e monitoramento do modelo relevantes, mas também difíceis. No que diz respeito à implantação de modelos, os modelos são normalmente implantados como serviços separados, com adoção limitada dos princípios de MLOps. Os problemas relatados incluem dificuldades no projeto da arquitetura da infraestrutura para implantação de produção e integração de aplicativos legados. No que diz respeito ao monitoramento de modelos, muitos dos modelos em produção não são monitorados. Os principais aspectos monitorados são insumos, produtos e decisões. Os problemas relatados envolvem a ausência de práticas de monitoramento, a necessidade de criar ferramentas de monitoramento personalizadas e desafios na seleção de métricas adequadas. [Conclusão] Nossos resultados já ajudam a fornecer uma melhor compreensão das práticas e problemas adotados na prática que apoiam a pesquisa em implantação de ML e monitoramento de maneira orientada a problemas. / [en] [Context] Systems that incorporate Machine Learning (ML) models, often referred to as ML-enabled systems, have become commonplace. However, empirical evidence on how ML-enabled systems are engineered in practice is still limited; this is especially true for activities surrounding ML model dissemination. [Goal] We investigate contemporary industrial practices and problems related to ML model dissemination, focusing on the model deployment and the monitoring ML life cycle phases. [Method] We conducted an international survey to gather practitioner insights on how ML-enabled systems are engineered. We gathered a total of 188 complete responses from 25 countries. We analyze the status quo and problems reported for the model deployment and monitoring phases. We analyzed contemporary practices using bootstrapping with confidence intervals and conducted qualitative analyses on the reported problems applying open and axial coding procedures. [Results] Practitioners perceive the model deployment and monitoring phases as relevant and difficult. With respect to model deployment, models are typically deployed as separate services, with limited adoption of MLOps principles. Reported problems include difficulties in designing the architecture of the infrastructure for production deployment and legacy application integration. Concerning model monitoring, many models in production are not monitored. The main monitored aspects are inputs, outputs, and decisions. Reported problems involve the absence of monitoring practices, the need to create custom monitoring tools, and the selection of suitable metrics. [Conclusion] Our results help provide a better understanding of the adopted practices and problems in practice and support guiding ML deployment and monitoring research in a problem-driven manner. [pt] APRENDIZADO DE MAQUINA [pt] SURVEY [pt] MONITORAMENTO [pt] IMPLANTACAO [en] MACHINE LEARNING [en] SURVEY [en] MONITORING [en] DEPLOYMENT
24	[en] COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE / [pt] RESOLUÇÃO DE CO-REFERÊNCIA PARA A LÍNGUA INGLESA ADRIEL GARCIA HERNANDEZ 28 July 2017 (has links) [pt] Um dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um. / [en] One of the problems found in natural language processing systems, is the difficulty to identify textual elements referring to the same entity, this task is called coreference. Solving this problem is an integral part of discourse comprehension since it allows language users to connect the pieces of speech information concerning to the same entity. Consequently, coreference resolution is a key task in natural language processing.Despite the large efforts of existing research, the current performance of coreference resolution systems has not reached a satisfactory level yet. In this work, we describe a structure learning system for unrestricted coreferencere solution that explores two techniques: latent coreference trees and automatic entropy-guided feature induction. The latent tree modeling makes the learning problem computationally feasible,since it incorporates are levant hidden structure. Additionally,using an automatic feature induction method, we can efciently build enhanced non-linear models using linear model learning algorithms, namely, the structure dandsparse perceptron algorithm. We evaluate the system on the CoNLL-2012 Shared Task closed track data set, for the English portion. The proposed system obtains a 62.24 per cent value on the competition s official score. This result is be low the 65.73 per cent, the state-of-the-art performance for this task. Nevertheless, our solution significantly reduces the time to obtain the clusters of adocument, since, our system takes 0.35 seconds per document in the testing set, while in the state-of-the-art, it takes 5 seconds for each one. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [en] SUPERVISED MACHINE LEARNING [pt] MODELO LINEAR ESPARSO [en] SPARSE LINEAR MODEL [pt] INDUCAO DE ATRIBUTO [en] FEATURE INDUCTION [pt] RESOLUCAO DE CORREFENENCIA [en] COREFERENCE RESOLUTION
25	[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOS IAN MONTEIRO NUNES 18 February 2016 (has links) [pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] MINERACAO DE TEXTOS [en] TEXTS MINING [pt] DEDUPLICACAO
26	[en] DETERMINISTIC ACOUSTIC SEISMIC INVERSION USING ARTIFICIAL NEURAL NETWORKS / [pt] INVERSÃO SÍSMICA ACÚSTICA DETERMINÍSTICA UTILIZANDO REDES NEURAIS ARTIFICIAIS MARCELO GOMES DE SOUZA 02 August 2018 (has links) [pt] A inversão sísmica é o processo de transformar dados de Sísmica de Reflexão em valores quantitativos de propriedades petroelásticas das rochas. Esses valores, por sua vez, podem ser correlacionados com outras propriedades ajudando os geocientistas a fazer uma melhor interpretação que resulta numa boa caracterização de um reservatório de petróleo. Existem vários algoritmos tradicionais para Inversão Sísmica. Neste trabalho revisitamos a Inversão Colorida (Impedância Relativa), a Inversão Recursiva, a Inversão Limitada em Banda e a Inversão Baseada em Modelos. Todos esses quatro algoritmos são baseados em processamento digital de sinais e otimização. O presente trabalho busca reproduzir os resultados desses algoritmos através de uma metodologia simples e eficiente baseada em Redes Neurais e na pseudo-impedância. Este trabalho apresenta uma implementação dos algoritmos propostos na metodologia e testa sua validade num dado sísmico público que tem uma inversão feita pelos métodos tradicionais. / [en] Seismic inversion is the process of transforming Reflection Seismic data into quantitative values of petroleum rock properties. These values, in turn, can be correlated with other properties helping geoscientists to make a better interpretation that results in a good characterization of an oil reservoir.There are several traditional algorithms for Seismic Inversion. In this work we revise Color Inversion (Relative Impedance), Recursive Inversion, Bandwidth Inversion and Model-Based Inversion. All four of these algorithms are based on digital signal processing and optimization. The present work seeks to reproduce the results of these algorithms through a simple and efficient methodology based on Neural Networks and pseudo-impedance. This work presents an implementation of the algorithms proposed in the methodology and tests its validity in a public seismic data that has an inversion made by the traditional methods. [pt] REDES NEURAIS [en] NEURAL NETWORKS [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] INVERSAO SISMICA [en] SEISMIC INVERSION [pt] CARACTERIZACAO DE RESERVATORIOS [en] RESERVOIR CHARACTERIZATION
27	[en] A MULTI-AGENT APPROACH TO DATA MINING PROCESSES: APPLICATIONS TO HEALTH CARE / [pt] UMA ABORDAGEM MULTIAGENTE PARA PROCESSOS DE MINERAÇÃO DE DADOS: APLICAÇÕES NA ÁREA DA SAÚDE REINIER MOREJON NOVALES 02 August 2018 (has links) [pt] A mineração de dados é um tema em alta que atrai pesquisadores de diferentes áreas, como bancos de dados, aprendizado de máquina e sistemas multiagentes. Como consequência do crescimento do volume de dados, há uma necessidade crescente de obter conhecimento desses grandes conjuntos de dados que são muito difíceis de manipular e processar com os métodos tradicionais. Os agentes de software podem desempenhar um papel significativo ao executar processos de mineração de dados de maneira mais eficiente. Por exemplo, eles podem trabalhar para realizar seleção, extração, pré-processamento e integração de dados, bem como mineração paralela, distribuída ou de múltiplas fontes. Este trabalho propõe uma abordagem (na forma de um framework) que usa agentes de software para gerenciar processos de mineração de dados. Para testar sua aplicabilidade, utilizamos vários conjuntos de dados relacionados ao domínio de saúde, representando alguns cenários de uso (hipotireoidismo, diabetes e arritmia). / [en] Data mining is a hot topic that attracts researchers from different areas, such as databases, machine learning, and multi-agent systems. As a consequence of the growth of data volume, there is a growing need to obtain knowledge from these large data sets that are very difficult to handle and process with traditional methods. Software agents can play a significant role performing data mining processes in ways that are more efficient. For instance, they can work to perform selection, extraction, preprocessing and integration of data as well as parallel, distributed, or multisource mining. This work proposes an approach (in the form of a framework) that uses software agents to manage data mining processes. In order to test its applicability, we use several data sets related to health care domain representing some usage scenarios (hypothyroidism, diabetes and arrhythmia). [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] MINERACAO DE DADOS [en] DATA MINING [pt] SISTEMAS MULTI-AGENTES [en] MULTI-AGENT SYSTEMS
28	[en] INSTITUTIONAL OWNERSHIP AS A PREDICTOR OF FUTURE SECURITY RETURNS / [pt] USO DE DADOS DAS CARTEIRAS DE INVESTIDORES INSTITUCIONAIS NA PREDIÇÃO DE RETORNOS DE AÇÕES RAPHAEL ALEXANDER ROTTGEN 29 February 2016 (has links) [pt] Texto Dados sobre as carteiras de investidores institucionais em ações agora estão disponíveis em vários países e portanto podem ser usados em modelos para prever os futuros retornos de ações. Recentemente, vários produtos comerciais de investimento foram lançados que explicitamente usam tal tipo de dados na construção da carteira de investimentos. O intuito deste estudo é aplicar algoritmos de aprendizado de máquina em cima de dados das carteiras de ações de investidores institucionais nos Estados Unidos, a fim de avaliar se tais dados podem ser usados para prever futuros retornos de ações. Nosso trabalho mostra que um modelo usando um support vector machine conseguiu separar ações em três classes de futuro retorno com acurácia acima da esperada se um modelo aleatório fosse usado. / [en] Data on institutional ownership of securities is nowadays publicly available in a number of jurisdictions and can thus be used in models for the prediction of security returns. A number of recently launched investment products explicitly use such institutional ownership data in security selection. The purpose of the current study is to apply statistical learning algorithms to institutional ownership data from the United States, in order to evaluate the predictive validity of features based on such institutional ownership data with regard to future security returns. Our analysis identified that a support vector machine managed to classify securities, with regard to their four-quarter forward returns, into three bins with significantly higher accuracy than pure chance would predict. Even higher accuracy was achieved when predicting realized, i.e. past, fourquarter returns. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] INVESTIDORES INSTITUCIONAIS [en] INSTITUCIONAL INVESTORS [pt] BIG DATA [en] BIG DATA [pt] MODELOS DE FATORES PARA ACOES
29	[en] OPTIMIZED FINANCIAL TRADE EXECUTION A EMPIRICAL STUDY / [pt] EXECUÇÃO OTIMIZADA DE TRANSAÇÕES FINANCEIRAS: UM ESTUDO EMPÍRICO DIEGO CEDRIM GOMES REGO 01 April 2009 (has links) [pt] Apresentamos um estudo empírico comparativo para o problema de Execução Otimizada de Transações nos mercados financeiros modernos. Construímos um simulador dos mercados financeiros, e então, baseado nessa ferramenta, comparamos o desempenho de algumas estratégias propostas na literatura. Os melhores resultados foram obtidos por estratégias que usam técnicas de aprendizado de máquina. / [en] We present a comparative empirical study for the Optimized Trade Execution problem in moderns financial markets. We build a financial market simulator and then, based on this tool, we compare the performance of many strategies available in the literature. The best results were achieved by strategies that make use of machine learning techniques. [pt] APRENDIZADO POR REFORCO [en] REINFORCEMENT LEARNING [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] OTIMIZACAO [en] OPTIMIZATION [pt] MERCADOS FINANCEIROS [en] FINANCIAL MARKETS
30	[en] COLLABORATIVE FILTERING APPLIED TO TARGETED ADVERTISING / [pt] FILTRAGEM COLABORATIVA APLICADA A PUBLICIDADE DIRECIONADA ROBERTO PEREIRA CAVALCANTE 27 October 2008 (has links) [pt] O surgimento da World Wide Web representou uma nova oportunidade de publicidade, disponível para qualquer empresa: A possibilidade de exposição global para uma grande audiência a um custo extremamente pequeno. Como conseqüência disso, surgiu toda uma nova indústria oferecendo serviços relacionados à publicidade de busca, na qual uma empresa anunciante paga por uma posição de destaque em listas de anúncios. A fim de manter a credibilidade e a participação de mercado do serviço que os veicula - por exemplo, uma máquina de busca - os anúncios devem ser exibidos apenas para os usuários que se interessem por eles, no que se chama de Publicidade Direcionada. Em virtude disso, surge a necessidade de se utilizar um sistema de recomendação que seja capaz de escolher que anúncios exibir para quais usuários. Nos sistemas de recomendação baseados em filtragem colaborativa, as preferências de outros usuários são utilizadas como atributos para um sistema de aprendizado, pois estas podem ser bastante detalhadas, gerando recomendações não só para os itens mais populares como também para nichos de itens. Neste trabalho, é desenvolvido um sistema de recomendação de anúncios que aplica Filtragem Colaborativa baseada em fatoração de matrizes ao problema de predição do Click- Through Rate, uma métrica em Publicidade Direcionada que expressa a relevância de um anúncio para os usuários que buscam por uma determinada palavra- chave. A fim de validar o método proposto de predição do Click-Through Rate, realizamos vários experimentos em um conjunto de dados sintéticos. Adicionalmente, o trabalho contribui para o projeto do LearnAds, um framework de recomendação de anúncios baseado em Aprendizado de Máquina. / [en] The emergence of the World Wide Web represented a new advertising opportunity available to any company: The possibility of global exposure to a large audience at a very small cost. As a result, a whole new industry has emerged by offering services related to search advertising, in which an advertiser pays for a prominent position in lists of ads. In order to maintain the credibility and market share of the service that conveys them - for example, a search engine - such ads must be displayed only to users who are interested in them, on what is called Targeted Advertising. Therefore, those services need to use a recommendation system that can choose which ads show to which users. Recommendation systems based on collaborative filtering use the preferences of other users as features to a learning system, since such preferences can be quite detailed, generating recommendations not only for the most popular items but also to item niches. In this work, we develop an ads recommendation system that applies Collaborative Filtering based on matrix factorization to the problem of predicting the Click-Through Rate, a Targeted Advertising metric that expresses the relevance of a particular ad for the users searching for a specific keyword. In order to validate the proposed method of Click-Through Rate prediction, we carry out several experiments on a synthetic data set. Additionally, the work contributes to the design of LearnAds, a framework for ads recommendation systems based on Machine Learning. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] FILTRAGEM COLABORATIVA [en] COLLABORATIVE FILTERING [pt] PUBLICIDADE DIRECIONADA [en] TARGETED ADVERTISING [pt] WORLD WIDE WEB

Search results