• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1020
  • 175
  • 34
  • 24
  • 24
  • 24
  • 19
  • 14
  • 5
  • 4
  • 4
  • 4
  • 1
  • Tagged with
  • 1241
  • 1002
  • 588
  • 413
  • 200
  • 177
  • 174
  • 151
  • 144
  • 135
  • 129
  • 123
  • 120
  • 118
  • 116
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
231

[pt] AVALIAÇÃO DE DANOS ESTRUTURAIS BASEADA EM ONDAS GUIADAS ULTRASSÔNICAS E APRENDIZADO DE MÁQUINA / [en] GUIDED WAVES-BASED STRUCTURAL DAMAGE EVALUATION WITH MACHINE LEARNING

MATEUS GHEORGHE DE CASTRO RIBEIRO 25 February 2021 (has links)
[pt] Recentemente, ondas guiadas por ultrassom têm mostrado grande potencial para ensaios não destrutivos e monitoramento de integridade estrutural (SHM) em um cenário de avaliação de danos. As medições obtidas por meio de ondas elásticas são particularmente úteis devido a sua capacidade de se propagarem em diferentes materiais, como meios sólidos e fluidos e, também, a capacidade de abrangerem áreas amplas. Ao possuir suficientes medições oriundas de ondas guiadas, técnicas avançadas baseadas em dados, como aprendizado de máquina, podem ser aplicadas ao problema, tornando o procedimento de avaliação de danos ainda mais poderoso e robusto. Com base nessas circunstâncias, o presente trabalho trata da aplicação de modelos de aprendizado de máquina para fornecer inferências de avaliação de falhas baseadas em informações de ondas guiadas por ultrassom. Dois principais estudos de caso são abordados. Primeiramente, uma placa de polímero reforçado com fibra de carbono (PRFC) é avaliada, utilizando dados da literatura de sinais de onda guiada do tipo Lamb na detecção de defeitos pontuais. Os resultados demonstraram que uma abordagem que utiliza um sinal de referência foi capaz de obter excelentes acurácias ao usar a extração de características baseadas em técnicas de identificação de sistemas. Em um segundo momento, defeitos semelhantes à corrosão em uma placa de alumínio são classificados de acordo com sua gravidade. A metodologia é auxiliada por um esquema de separação de modos em sinais de ondas guiadas do tipo SH pré-adquiridos. Os resultados obtidos mostraram que a adoção da separação de modos pode, de fato, melhorar os resultados do aprendizado de máquina. / [en] Recently ultrasonic guided waves have shown great potential for nondestructive testing and structural health monitoring (SHM) in a damage evaluation scenario. Measurements utilizing elastic waves are particularly useful due to their capability to propagate in different materials such as solid and fluid bounded media, and, also, the ability to cover broad areas. When enough guided waves measurements are available and advanced data-driven techniques such as machine learning can be applied to the problem, the damage evaluation procedure becomes then even more powerful and robust. Based on these circumstances, the present work deals with the application of machine learning models to provide fault evaluation inferences based on ultrasonic guided waves information. Two main case studies are tackled in the mentioned subject. Firstly, a carbon fiber reinforced polymer (CFRP) plate is assessed using open data of Lamb guided wave signals in the detection of dot type defects. Results demonstrated that a baseline dependent approach can obtain excellent results when using system identification feature extraction. Secondly, corrosion-like defects in an aluminium plate are classified according to their severity. The methodology is assisted by a mode separation scheme of SH guided waves signals of pre-acquired data. Results have shown that the adoption of mode separation can in fact improve the machine learning results.
232

[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENT

FREDERICO SHU 06 January 2022 (has links)
[pt] A análise de documentos financeiros não estruturados é uma atividade essencial para a supervisão do mercado de capitais realizada pela Comissão de Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço humano despendido no processo de triagem de documentos são vitais para a CVM lidar com a escassez de recursos humanos e a expansão do mercado de valores mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos algoritmos de aprendizado de máquina e técnicas de processamento de texto, a partir de sua aplicação em duas tarefas de processamento de linguagem natural – classificação de documentos e extração de informações – desempenhadas em ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos clássicos proporcionaram melhor desempenho que as redes neurais profundas, o qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A arquitetura BERT foi capaz de extrair informações sobre aumento de capital e incorporação societária de documentos financeiros. Os resultados satisfatórios obtidos em ambas as tarefas motivam a implementação futura em regime de produção dos modelos estudados, sob a forma de um sistema de apoio à decisão. Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o escopo deste trabalho com documentos financeiros entregues por companhias abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital markets supervision performed by Comissão de Valores Mobiliários (Brazilian SEC or CVM). Systems capable of reducing human effort involved in the task of screening documents and outlining relevant information, for further manual review, are important tools for CVM to deal with the shortage of human resources and expansion of the Brazilian securities market. In this regard, this dissertation presents and discusses the application of several machine learning algorithms and text processing techniques to perform two natural language processing tasks— document classification and information extraction—in a real market supervision environment. In the classification exercise, classic algorithms achieved a better performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network architecture was able to extract information from financial documents on capital increase and mergers. The successful results obtained in both tasks encourage future implementation of the studied models in the form of a decision support system. Another contribution of this work is the CVMCorpus, a corpus built to produce datasets for the tasks, with financial documents released between 2009 and 2019 by Brazilian companies, which opens possibilities of future linguistic and finance research.
233

[pt] APRIMORANDO A SÍNTESE DE IMAGENS A PARTIR DE TEXTO UTILIZANDO TRANSFERÊNCIA DE APRENDIZADO U2C / [en] IMPROVING TEXT-TO-IMAGE SYNTHESIS WITH U2C - TRANSFER LEARNING

VINICIUS GOMES PEREIRA 06 February 2024 (has links)
[pt] As Redes Generativas Adversariais (GANs) são modelos não supervisionados capazes de aprender a partir de um número indefinidamente grande de imagens. Entretanto, modelos que geram imagens a partir de linguagem dependem de dados rotulados de alta qualidade, que são escassos. A transferência de aprendizado é uma técnica conhecida que alivia a necessidade de dados rotulados, embora transformar um modelo gerativo incondicional em um modelo condicionado a texto não seja uma tarefa trivial. Este trabalho propõe uma abordagem de ajuste simples, porém eficaz, chamada U2C transfer. Esta abordagem é capaz de aproveitar modelos pré-treinados não condicionados enquanto aprende a respeitar as condições textuais fornecidas. Avaliamos a eficiência do U2C transfer ao ajustar o StyleGAN2 em duas das fontes de dados mais utilizadas para a geração images a partir de texto, resultando na arquitetura Text-Conditioned StyleGAN2 (TC-StyleGAN2). Nossos modelos alcançaram rapidamente o estado da arte nas bases de dados CUB-200 e Oxford-102, com valores de FID de 7.49 e 9.47, respectivamente. Esses valores representam ganhos relativos de 7 por cento e 68 por cento, respectivamente, em comparação com trabalhos anteriores. Demonstramos que nosso método é capaz de aprender detalhes refinados a partir de consultas de texto, produzindo imagens fotorrealistas e detalhadas. Além disso, mostramos que os modelos organizam o espaço intermediário de maneira semanticamente significativa. Nossas descobertas revelam que as imagens sintetizadas usando nossa técnica proposta não são apenas críveis, mas também exibem forte alinhamento com suas descrições textuais correspondentes. De fato, os escores de alinhamento textual alcançados por nosso método são impressionantemente e comparáveis aos das imagens reais. / [en] Generative Adversarial Networks (GANs) are unsupervised models that can learn from an indefinitely large amount of images. On the other hand, models that generate images from language queries depend on high-quality labeled data that is scarce. Transfer learning is a known technique that alleviates the need for labeled data, though it is not trivial to turn an unconditional generative model into a text-conditioned one. This work proposes a simple, yet effective fine-tuning approach, called Unconditional-to-Conditional Transfer Learning (U2C transfer). It can leverage well-established pre-trained models while learning to respect the given textual condition conditions. We evaluate U2C transfer efficiency by fine-tuning StyleGAN2 in two of the most widely used text-to-image data sources, generating the Text-Conditioned StyleGAN2 (TC-StyleGAN2). Our models quickly achieved state-of-the-art results in the CUB-200 and Oxford-102 datasets, with FID values of 7.49 and 9.47, respectively. These values represent relative gains of 7 percent and 68 percent compared to prior work. We show that our method is capable of learning fine-grained details from text queries while producing photorealistic and detailed images. Our findings highlight that the images created using our proposed technique are credible and display a robust alignment with their corresponding textual descriptions.
234

[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO / [en] DEEP LEARNING APPLIED TO TEXT CHUNKING

MIGUEL MENDES DE BRITO 15 May 2019 (has links)
[pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87. / [en] Natural Language Processing is a research field that explores how computers can understand and manipulate natural language texts. Sequence tagging is amongst the most well-known tasks in NLP. Text Chunking is one of the problems that can be approached as a sequence tagging problem. Thus, we classify which words belong to a chunk, where each chunk represents a disjoint group of syntactically correlated words. This type of chunking has important applications in more complex tasks of natural language processing, such as dependency parsing, machine translation, semantic role labeling, clause identification and much more. The goal of this work is to present a deep neural network archtecture for the Portuguese text chunking problem. The corpus used in the experiments is the Bosque, from the Floresta Sintá(c)tica project. Based on recent work in the field, our approach surpass the state-of-the-art for Portuguese by achieving a F(beta)=1 of 90.51, which corresponds to an increase of 2.56 in comparison with the previous work. In addition, in order to attest the chunker effectiveness we use the tags obtained by our system as feature for the depedency parsing task. These features improved the accuracy of the parser by 0.87.
235

[en] ON THE INTERACTION BETWEEN SOFTWARE ENGINEERS AND DATA SCIENTISTS WHEN BUILDING MACHINE LEARNING-ENABLED SYSTEMS / [pt] SOBRE A INTERAÇÃO ENTRE ENGENHEIROS DE SOFTWARE E CIENTISTAS DE DADOS CONSTRUINDO SISTEMAS HABILITADOS POR APRENDIZADO DE MÁQUINA

GABRIEL DE ANDRADE BUSQUIM 18 June 2024 (has links)
[pt] Nos últimos anos, componentes de aprendizado de máquina têm sido cada vez mais integrados aos sistemas principais de organizações. A construção desses sistemas apresenta diversos desafios, tanto do ponto de vista teórico quanto prático. Um dos principais desafios é a interação eficaz entre atores com diferentes formações que precisam trabalhar em conjunto, como engenheiros de software e cientistas de dados. Este trabalho apresenta três estudos distintos que investigam as dinâmicas de colaboração entre esses dois atores em projetos de aprendizado de máquina. Primeiramente, realizamos um estudo de caso exploratório com quatro profissionais com experiência em engenharia de software e ciência de dados de um grande projeto de sistema habilitado por aprendizado de máquina. Em nosso segundo estudo, realizamos entrevistas complementares com membros de duas equipes que trabalham em sistemas habilitados por aprendizado de máquina para obter mais percepções sobre como cientistas de dados e engenheiros de software compartilham responsabilidades e se comunicam. Por fim, nosso terceiro estudo consiste em um grupo focal onde validamos a relevância dessa colaboração durante várias tarefas relacionadas à sistemas habilitados por aprendizado de máquina e avaliamos recomendações que podem melhorar a interação entre os atores. Nossos estudos revelaram vários desafios que podem dificultar a colaboração entre engenheiros de software e cientistas de dados, incluindo diferenças de conhecimento técnico, definições pouco claras das funções de cada um, e a falta de documentos que apoiem a especificação do sistema habilitado por aprendizado de máquina. Possíveis soluções para enfrentar esses desafios incluem incentivar a comunicação na equipe, definir claramente responsabilidades, e produzir uma documentação concisa do sistema. Nossa pesquisa contribui para a compreensão da complexa dinâmica entre engenheiros de software e cientistas de dados em projetos de aprendizado de máquina e fornece recomendações para melhorar a colaboração e a comunicação nesse contexto. Incentivamos novos estudos que investiguem essa interação em outros projetos. / [en] In recent years, Machine Learning (ML) components have been increasingly integrated into the core systems of organizations. Engineering such systems presents various challenges from both a theoretical and practical perspective. One of the key challenges is the effective interaction between actors with different backgrounds who need to work closely together, such as software engineers and data scientists. This work presents three studies investigating the current interaction and collaboration dynamics between these two roles in ML projects. Our first study depicts an exploratory case study with four practitioners with experience in software engineering and data science of a large ML-enabled system project. In our second study, we performed complementary interviews with members of two teams working on ML-enabled systems to acquire more insights into how data scientists and software engineers share responsibilities and communicate. Finally, our third study consists of a focus group where we validated the relevance of this collaboration during multiple tasks related to ML-enabled systems and assessed recommendations that can foster the interaction between the actors. Our studies revealed several challenges that can hinder collaboration between software engineers and data scientists, including differences in technical expertise, unclear definitions of each role s duties, and the lack of documents that support the specification of the ML-enabled system. Potential solutions to address these challenges include encouraging team communication, clearly defining responsibilities, and producing concise system documentation. Our research contributes to understanding the complex dynamics between software engineers and data scientists in ML projects and provides insights for improving collaboration and communication in this context. We encourage future studies investigating this interaction in other projects.
236

[en] PROBABILISTIC LATENT SEMANTIC ANALYSIS APPLIED TO RECOMMENDER SYSTEMS / [pt] ANÁLISE PROBABILÍSTICA DE SEMÂNTICA LATENTE APLICADA A SISTEMAS DE RECOMENDAÇÃO

DIOGO SILVEIRA MENDONCA 03 March 2009 (has links)
[pt] Os sistemas de recomendação são um tema de pesquisa constante devido a sua grande quantidade de aplicações práticas. Estes sistemas podem ser abordados de diversas maneiras, sendo uma das mais utilizadas a filtragem colaborativa, em que para recomendar um item a um usuário são utilizados dados de comportamento de outros usuários. Porém, nem sempre os algoritmos de filtragem colaborativa atingem níveis de precisão necessários para serem utilizados em aplicações reais. Desta forma este trabalho tem como objetivo avaliar o desempenho da análise probabilística de semântica latente (PLSA) aplicado a sistemas de recomendação. Este modelo identifica grupos de usuários com comportamento semelhante através de atributos latentes, permitindo que o comportamento dos grupos seja utilizado na recomendação. Para verificar a eficácia do método, apresentamos experimentos com o PLSA utilizando os problemas de recomendação de anúncios na web e a recomendação de filmes. Evidenciamos uma melhoria de 18,7% na precisão da recomendação de anúncios na web e 3,7% de melhoria no erro quadrático sobre a Média das Médias para o corpus do Netflix. Além dos experimentos, o algoritmo foi implementado de forma flexível e reutilizável, permitindo adaptação a outros problemas com esforço reduzido. Tal implementação também foi incorporada como um módulo do LearnAds, um framework de recomendação de anúncios na web. / [en] Recommender systems are a constant research topic because of their large number of practical applications. There are many approaches to address these problems, one of the most widely used being collaborative filtering, in which in order to recommend an item to a user, data of other users` behaviors are employed. However, collaborative filtering algorithms do not always reach levels of precision required for the use in real applications. Within this context, the present work aims to evaluate the performance of the probabilistic latent semantic analysis (PLSA) applied to recommender systems. This model identifies groups of users with similar behaviors through latent attributes, allowing the use of these behaviors in the recommendation. To check the effectiveness of the method, there were presented experiments with problems of both web ad recommending and film recommending. An improvement of 18,7% were found in the accuracy of the recommendation of ads on the web and we also found 3.7% of improvement in Root Mean Square Error over the Means of Means baseline system for the Netflix corpus. Apart from the aforementioned experiments, the algorithm was implemented in a flexible and reusable way, allowing its adaptation to other problems with reduced effort. This implementation has also been incorporated as a module of LearnAds, a framework for the recommendation of ads on the web.
237

[en] QUANTUM-INSPIRED LINEAR GENETIC PROGRAMMING / [pt] PROGRAMAÇÃO GENÉTICA LINEAR COM INSPIRAÇÃO QUÂNTICA

DOUGLAS MOTA DIAS 26 May 2011 (has links)
[pt] A superioridade de desempenho dos algoritmos quânticos, em alguns problemas específicos, reside no uso direto de fenômenos da mecânica quântica para realizar operações com dados em computadores quânticos. Esta característica fez surgir uma nova abordagem, denominada Computação com Inspiração Quântica, cujo objetivo é criar algoritmos clássicos (executados em computadores clássicos) que tirem proveito de princípios da mecânica quântica para melhorar seu desempenho. Neste sentido, alguns algoritmos evolutivos com inspiração quântica tem sido propostos e aplicados com sucesso em problemas de otimização combinatória e numérica, apresentando desempenho superior àquele dos algoritmos evolutivos convencionais, quanto à melhoria da qualidade das soluções e à redução do número de avaliações necessárias para alcançá-las. Até o presente momento, no entanto, este novo paradigma de inspiração quântica ainda não havia sido aplicado à Programação Genética (PG), uma classe de algoritmos evolutivos que visa à síntese automática de programas de computador. Esta tese propõe, desenvolve e testa um novo modelo de algoritmo evolutivo com inspiração quântica, denominado Programação Genética Linear com Inspiração Quântica (PGLIQ), para a evolução de programas em código de máquina. A Programação Genética Linear é assim denominada porque cada um dos seus indivíduos é representado por uma lista de instruções (estruturas lineares), as quais são executadas sequencialmente. As contribuições deste trabalho são o estudo e a formulação inédita do uso do paradigma da inspiração quântica na síntese evolutiva de programas de computador. Uma das motivações para a opção pela evolução de programas em código de máquina é que esta é a abordagem de PG que, por oferecer a maior velocidade de execução, viabiliza experimentos em larga escala. O modelo proposto é inspirado em sistemas quânticos multiníveis e utiliza o qudit como unidade básica de informação quântica, o qual representa a superposição dos estados de um sistema deste tipo. O funcionamento do modelo se baseia em indivíduos quânticos, que representam a superposição de todos os programas do espaço de busca, cuja observação gera indivíduos clássicos e os programas (soluções). Nos testes são utilizados problemas de regressão simbólica e de classificação binária para se avaliar o desempenho da PGLIQ e compará-lo com o do modelo AIMGP (Automatic Induction of Machine Code by Genetic Programming), considerado atualmente o modelo de PG mais eficiente na evolução de código de máquina, conforme citado em inúmeras referências bibliográficas na área. Os resultados mostram que a Programação Genética Linear com Inspiração Quântica (PGLIQ) apresenta desempenho geral superior nestas classes de problemas, ao encontrar melhores soluções (menores erros) a partir de um número menor de avaliações, com a vantagem adicional de utilizar um número menor de parâmetros e operadores que o modelo de referência. Nos testes comparativos, o modelo mostra desempenho médio superior ao do modelo de referência para todos os estudos de caso, obtendo erros de 3 a 31% menores nos problemas de regressão simbólica, e de 36 a 39% nos problemas de classificação binária. Esta pesquisa conclui que o paradigma da inspiração quântica pode ser uma abordagem competitiva para se evoluir programas eficientemente, encorajando o aprimoramento e a extensão do modelo aqui apresentado, assim como a criação de outros modelos de programação genética com inspiração quântica. / [en] The superior performance of quantum algorithms in some specific problems lies in the direct use of quantum mechanics phenomena to perform operations with data on quantum computers. This feature has originated a new approach, named Quantum-Inspired Computing, whose goal is to create classic algorithms (running on classical computers) that take advantage of quantum mechanics principles to improve their performance. In this sense, some quantum-inspired evolutionary algorithms have been proposed and successfully applied in combinatorial and numerical optimization problems, presenting a superior performance to that of conventional evolutionary algorithms, by improving the quality of solutions and reducing the number of evaluations needed to achieve them. To date, however, this new paradigm of quantum inspiration had not yet been applied to Genetic Programming (GP), a class of evolutionary algorithms that aims the automatic synthesis of computer programs. This thesis proposes, develops and tests a novel model of quantum-inspired evolutionary algorithm named Quantum-Inspired Linear Genetic Programming (QILGP) for the evolution of machine code programs. Linear Genetic Programming is so named because each of its individuals is represented by a list of instructions (linear structures), which are sequentially executed. The contributions of this work are the study and formulation of the novel use of quantum inspiration paradigm on evolutionary synthesis of computer programs. One of the motivations for choosing by the evolution of machine code programs is because this is the GP approach that, by offering the highest speed of execution, makes feasible large-scale experiments. The proposed model is inspired on multi-level quantum systems and uses the qudit as the basic unit of quantum information, which represents the superposition of states of such a system. The model’s operation is based on quantum individuals, which represent a superposition of all programs of the search space, whose observation leads to classical individuals and programs (solutions). The tests use symbolic regression and binary classification problems to evaluate the performance of QILGP and compare it with the AIMGP model (Automatic Induction of Machine Code by Genetic Programming), which is currently considered the most efficient GP model to evolve machine code, as cited in numerous references in this field. The results show that Quantum-Inspired Linear Genetic Programming (QILGP) presents superior overall performance in these classes of problems, by achieving better solutions (smallest error) from a smaller number of evaluations, with the additional advantage of using a smaller number of parameters and operators that the reference model. In comparative tests, the model shows average performance higher than that of the reference model for all case studies, achieving errors 3-31% lower in the problems of symbolic regression, and 36-39% in the binary classification problems. This research concludes that the quantum inspiration paradigm can be a competitive approach to efficiently evolve programs, encouraging the improvement and extension of the model presented here, as well as the creation of other models of quantum-inspired genetic programming.
238

Improved quantification under dataset shift / Quantificação em problemas com mudança de domínio

Vaz, Afonso Fernandes 17 May 2018 (has links)
Several machine learning applications use classifiers as a way of quantifying the prevalence of positive class labels in a target dataset, a task named quantification. For instance, a naive way of determining what proportion of positive reviews about given product in the Facebook with no labeled reviews is to (i) train a classifier based on Google Shopping reviews to predict whether a user likes a product given its review, and then (ii) apply this classifier to Facebook posts about that product. Unfortunately, it is well known that such a two-step approach, named Classify and Count, fails because of data set shift, and thus several improvements have been recently proposed under an assumption named prior shift. However, these methods only explore the relationship between the covariates and the response via classifiers and none of them take advantage of the fact that one often has access to a few labeled samples in the target set. Moreover, the literature lacks in approaches that can handle a target population that varies with another covariate; for instance: How to accurately estimate how the proportion of new posts or new webpages in favor of a political candidate varies in time? We propose novel methods that fill these important gaps and compare them using both real and artificial datasets. Finally, we provide a theoretical analysis of the methods. / Muitas aplicações de aprendizado de máquina usam classificadores para determinar a prevalência da classe positiva em um conjunto de dados de interesse, uma tarefa denominada quantificação. Por exemplo, uma maneira ingênua de determinar qual a proporção de postagens positivas sobre um determinado protuto no Facebook sem ter resenhas rotuladas é (i) treinar um classificador baseado em resenhas do Google Shopping para prever se um usuário gosta de um produto qualquer, e então (ii) aplicar esse classificador às postagens do Facebook relacionados ao produtos de interesse. Infelizmente, é sabido que essa técnica de dois passos, denominada classificar e contar, falha por não levar em conta a mudança de domínio. Assim, várias melhorias vêm sendo feitas recentemente sob uma suposição denominada prior shift. Entretanto, estes métodos exploram a relação entre as covariáveis apenas via classificadores e nenhum deles aproveitam o fato de que, em algumas situações, podemos rotular algumas amostras do conjunto de dados de interesse. Além disso, a literatura carece de abordagens que possam lidar com uma população-alvo que varia com outra covariável; por exemplo: Como estimar precisamente como a proporção de novas postagens ou páginas web a favor de um candidato político varia com o tempo? Nós propomos novos métodos que preenchem essas lacunas importantes e os comparamos utilizando conjuntos de dados reais e similados. Finalmente, nós fornecemos uma análise teórica dos métodos propostos.
239

[en] MATRIX FACTORIZATION MODELS FOR VIDEO RECOMMENDATION / [pt] MODELOS DE FATORAÇÃO MATRICIAL PARA RECOMENDAÇÃO DE VÍDEOS

BRUNO DE FIGUEIREDO MELO E SOUZA 14 March 2012 (has links)
[pt] A recomendação de itens a partir do feedback implícito dos usuários consiste em identificar padrões no interesse dos usuários por estes itens a partir de ações dos usuários, tais como cliques, interações ou o consumo de conteúdos específicos. Isso, de forma a prover sugestões personalizadas que se adéquem ao gosto destes usuários. Nesta dissertação, avaliamos a performance de alguns modelos de fatoração matricial otimizados para a tarefa de recomendação a partir de dados implícitos no consumo das ofertas de vídeos da Globo.com. Propusemos tratar estes dados de consumo como indicativos de intenção de um usuário em assistir um vídeo. Além disso, avaliamos como os vieses únicos dos usuários e vídeos, e sua variação temporal impactam o resultado das recomendações. Também sugerimos a utilização de um modelo de fatoração incremental otimizado para este problema, que escala linearmente com o tamanho da entrada, isto é, com os dados de visualizações e quantidade de variáveis latentes. Na tarefa de prever a intenção dos usuários em consumir um conteúdo novo, nosso melhor modelo de fatoração apresenta um RMSE de 0,0524 usando o viés de usuários e vídeos, assim como sua variação temporal. / [en] Item recommendation from implicit feedback datasets consists of passively tracking different sorts of user behavior, such as purchase history, watching habits and browsing activities in order to improve customer experience through providing personalized recommendations that fits into users taste. In this work we evaluate the performance of different matrix factorization models tailored for the recommendation task for the implicit feedback dataset extracted from Globo.com s video site s access logs. We propose treating the data as indication of a positive preference from a user regarding the video watched. Besides that we evaluated the impact of effects associated with either users or items, known as biases or intercepts, independent of any interactions and its time changing behavior throughout the life span of the data in the result of recommendations. We also suggest a scalable and incremental procedure, which scales linearly with the input data size. In trying to predict the intention of the users for consuming new videos our best factorization models achieves a RMSE of 0,0524 using user s and video s bias as well as its temporal dynamics.
240

Mapeamento da probabilidade de incêndio e de cicatrizes de dano como suporte ao manejo florestal / Fire risk and fire scars mapping as support for forest management

Prata, Gabriel Atticciati 31 May 2019 (has links)
O histórico de incêndios florestais pode ajudar o gestor na localização de áreas de maior risco e, consequentemente, alocar de maneira mais eficaz os recursos de produção. Este trabalho mostra como o histórico de incêndios em florestas de eucalipto pode ser usado para gerar dois modelos preditivos, um de probabilidade de incêndio em nível de talhão e outro de cicatrizes que identificam áreas com cobertura florestal danificada por incêndio. O ajuste do modelo preditivo de probabilidade anual de incêndio teve como variáveis preditivas, uma combinação de variáveis biométricas (volume comercial com casca), climáticas (face de exposição do terreno, precipitação anual, precipitação total anualizada, temperatura média anual e média de umidade relativa do ar), sociais (distância para área urbana, para estradas e para assentamento rural, população municipal, densidade demográfica, e população da zona rural) e de dados processados de levantamentos a laser aerotransportados (ALS): volume estimado por métricas ALS; índice de área foliar para altura total das árvores (LAI), para frações de altura de 1 a 5 metros (LAI_1_5m) e 1 a 10 metros (LAI_1_10m), e estimativa de sub-bosque (proporção entre LAI_1_5m e LAI). Foram utilizadas como técnicas de ajuste, a regressão logística (LOGIT) e o algoritmo Random Forest (RF), que se mostrou superior após o processo de validação-cruzada (tipo \"k-fold\", com k=10). Dados ALS não se mostraram significativos, e o método RF com as variáveis volume comercial com casca, precipitação total anualizada, distância para áreas urbanas e para assentamentos e população da zona rural foi o de melhor eficácia. Esse resultado se expressou nas medidas de especificidade (classificação correta de áreas com registro de incêndio) e performance (classificação correta de áreas preditas como incendiadas). O melhor resultado revela especificidade e performance de 77%. Dentre as variáveis preditoras, a de maior importância foi a precipitação total anualizada. O modelo preditivo de cicatrizes de áreas com cobertura danificada teve sua classificação baseada em três classes: Incêndio, Colheita/Terra Nua e Plantação. O ajuste utilizou como variáveis preditivas 16 métricas multiespectrais, derivadas do sensor RapidEye, e 29 métricas ALS. A resolução espacial das predições é de 5m. Os algoritmos Support Vector Machine (SVM) e Random Forest foram usados como técnicas de classificação, que após a validação-cruzada (\"k-fold\" com k=10), identificou o RF como superior. Neste caso, a inclusão das métricas ALS ao cenário em que se usam apenas dados multiespectrais, aumentaram a sensibilidade para aspectos estruturais da vegetação, verificado para as classes \"Incêndio\" e \"Plantação\" e melhorou a acurácia das predições de 94%, para 97%, e o índice kappa de 90% para 95%. Por importância de capacidade preditiva de cicatrizes de dano, destacam-se as variáveis banda vermelho e NDVI para o RapidEye e, as variáveis relacionadas à cobertura e densidade do dossel, para os dados ALS. Os modelos gerados são úteis para gestores florestais, pois permitem melhor planejamento das operações de combate a incêndio, podendo, inclusive, reduzir custos na operação devido a melhor eficiência logística. / Historical forest fire data can help managers to locate risk areas and, consequently, allocate more efficiently production resources. This work shows how historical fire data from eucalyptus plantations can be used to generate two predictive models, one for fire probability at stand level and another of scars generated from areas with forest cover damaged by fire. The adjustment of the predictive model for fire probability used, as predictive variables, a combination of biometric (volume), climatic (aspect, annual precipitation, annualized total precipitation, annual mean temperature and mean relative air humidity), social (distance to urban area, to roads and to rural settlement, municipal population, demographic density, and rural population), and LiDAR variables: predicted volume by ALS metrics, leaf area index for tree\'s total height (LAI), and for fractions of 1 to 5 meters heigth (LAI_1_5m) and 1 to 10 meters (LAI_1_10m), and a shrub estimation (fraction between LAI_1_5_m and LAI). Logistic regression (LOGIT) and Random Forest (RF) algorithms were compared and RF achieved better accuracy after the 10-fold cross-validation. Adding LiDAR data resulted non significance, and the best adjustment for RF method used wood volume, annualized total precipitation, distance to urban areas, distance to settlements and rural population. The model predictive performance was evaluated by computing the specificity (correct classification of areas with fire registry) and performance (correct classification of areas predicted as burned). The best model yelds specificity and performance of 77%. Among the predictive variables, the one that presented the greatest importance was the annualized total precipitation. The predictive fire scars model had its classification based on three classes: Fire, Harvest / BareLand and Plantation. The adjustment used as predictive variables, 16 multispectral metrics, derived from the RapidEye sensor, and 29 ALS metrics. The spatial resolution of the predictions is 5m. The algorithms Support Vector Machine (SVM) and Random Forest were used as classification techniques, and, after the 10-fold cross-validation RF reached the best tune. In this case, combining ALS metrics to the scenario that used only multispectral data, the sensitivity increased for vegetation structure, verified for the \"Fire\" and \"Plantation\" classes, and improved the prediction accuracy from 94% to 97%, and the kappa index from 90% to 95%. Red band and NDVI were the dominant factors from RapidEye to predict fire scars pixels, and variables related to canopy cover and canopy density were the most important variables from the ALS data. The generated models are useful for forest managers, as they allow better planning of fire-fighting operations, and may even reduce operating costs due to better logistics efficiency.

Page generated in 0.0679 seconds