Global ETD Search

21	[pt] ENGENHARIA DE REQUISITOS PARA SISTEMAS INTEGRADOS COM COMPONENTES DE APRENDIZADO DE MÁQUINA: STATUS QUO E PROBLEMA / [en] REQUIREMENTS ENGINEERING FOR ML-ENABLED SYSTEMS: STATUS QUO AND PROBLEMS ANTONIO PEDRO SANTOS ALVES 06 February 2024 (has links) [pt] Sistemas que usam Aprendizado de Máquina, doravante Machine Learning (ML), tornaram-se comuns para empresas que deseajam melhorar seus produtos, serviços e processos. A literatura sugere que a Engenharia de Requisitos (ER) pode ajudar a explicar muitos problemas relacionados à engenharia de sistemas inteligentes envolvendo componentes de ML (ML-Enabled Systems). Contudo, o cenário atual de evidências empíricas sobre como ER é aplicado na prática no contexto desses sistemas é amplamente dominado por estudos de casos isolados com pouca generalização. Nós conduzimos um survey internacional para coletar informações de profissionais sobre o status quo e problemas de ER para ML-Enabled Systems. Coletamos 188 respostas completas de 25 países. Realizamos uma análise quantitativa sobre as práticas atuais utilizando bootstrapping com intervalos de confiança; e análises qualitativas sobre os problemas reportados através de procedimentos de codificação open e axial. Encontramos diferenças significativas nas práticas de ER no contexto de projetos de ML, algumas já reportadas na literatura e outras totalmente novas. Por exemplo, (i) atividades relacionadas à ER são predominantemente conduzidas por líderes de projeto e cientistas de dados, (ii) o formato de documentação predominante é baseado em Notebooks interativos, (iii) os principais requisitos não-funcionais incluem qualidade dos dados, confiança e explicabilidade no modelo, e (iv) os principais desafios consistem em gerenciar a expectativa dos clientes e alinhar requisitos com os dados disponíveis. As análises qualitativas revelaram que os praticantes enfrentam problemas relacionados ao baixo entendimento sobre o domínio do negócio, requisitos pouco claros e baixo engajamento do cliente. Estes resultados ajudam a melhorar o entendimento sobre práticas adotadas e problemas existentes em cenários reais. Destacamos a necessidade para adaptar ainda mais e disseminar práticas de ER relacionadas à engenharia de ML-Enabled Systems. / [en] Systems that use Machine Learning (ML) have become commonplace for companies that want to improve their products, services, and processes. Literature suggests that Requirements Engineering (RE) can help to address many problems when engineering ML-Enabled Systems. However, the state of empirical evidence on how RE is applied in practice in the context of MLenabled systems is mainly dominated by isolated case studies with limited generalizability. We conducted an international survey to gather practitioner insights into the status quo and problems of RE in ML-enabled systems. We gathered 188 complete responses from 25 countries. We conducted quantitative statistical analyses on contemporary practices using bootstrapping with confidence intervals and qualitative analyses on the reported problems involving open and axial coding procedures. We found significant differences in RE practices within ML projects, some of them have been reported on literature and some are totally new. For instance, (i) RE-related activities are mostly conducted by project leaders and data scientists, (ii) the prevalent requirements documentation format concerns interactive Notebooks, (iii) the main focus of non-functional requirements includes data quality, model reliability, and model explainability, and (iv) main challenges include managing customer expectations and aligning requirements with data. The qualitative analyses revealed that practitioners face problems related to lack of business domain understanding, unclear requirements, and low customer engagement. These results help to provide a better understanding of the adopted practices and which problems exist in practical environments. We put forward the need to adapt further and disseminate RE-related practices for engineering ML-enabled systems. [pt] APRENDIZADO DE MAQUINA [pt] SURVEY [pt] ENGENHARIA DE REQUISITOS [en] MACHINE LEARNING [en] SURVEY [en] REQUIREMENTS ENGINEERING
22	[pt] IDENTIFICANDO PREOCUPAÇÕES AO ESPECIFICAR SISTEMAS COM COMPONENTES DE APRENDIZADO DE MÁQUINA: UMA ABORDAGEM BASEADA EM PERSPECTIVA / [en] IDENTIFYING CONCERNS WHEN SPECIFYING MACHINE LEARNING-ENABLED SYSTEMS: A PERSPECTIVE-BASED APPROACH HUGO RICARDO GUARIN VILLAMIZAR 05 February 2024 (has links) [pt] A engenharia de sistemas habilitados em Machine Learning (ML) bem-sucedidos apresenta vários desafios, tanto do lado teórico quanto prático. Entre esses desafios estão como abordar eficazmente às expectativas irrealistas das capacidades de ML por parte de clientes, gestores e até mesmo outros membros da equipe de desenvolvimento, e como ligar o valor do negócio às atividades de engenharia e ciência de dados compostas por equipes interdisciplinares. Nesta tese, estudamos o estado da prática e da literatura da engenharia de requisitos para ML para propor PerSpecML, uma abordagem baseada em perspectiva para especificar sistemas habilitados para ML que ajuda os profissionais a identificar quais atributos, incluindo componentes de ML e não-ML, são importantes para contribuir para a qualidade geral do sistema. A abordagem envolve a análise de 60 preocupações relacionadas a 28 tarefas que os profissionais normalmente enfrentam em projetos de ML, agrupando-as em cinco perspectivas: objetivos do sistema, experiência do usuário, infraestrutura, modelo e dados. Juntas, essas perspectivas servem para mediar a comunicação entre gestores de projeto, especialistas de domínio, designers, engenheiros de software/ML e cientistas de dados. A criação da PerSpecML envolveu uma série de validações realizadas em diferentes contextos: (i) na academia, (ii) com representantes da indústria e (iii) em dois estudos de casos industriais reais. Como resultado das diversas validações e melhorias contínuas, PerSpecML se destaca como uma abordagem promissora, preparada para impactar positivamente a especificação de sistemas habilitados para ML, ajudando particularmente a revelar componentes-chave que, de outra forma, teriam sido perdidos sem o uso da PerSpecML. / [en] Engineering successful machine learning (ML)-enabled systems poses various challenges from both a theoretical and a practical side. Among those challenges are how to effectively address unrealistic expectations of ML capabilities from customers, managers and even other team members, and how to connect business value to engineering and data science activities composed by interdisciplinary teams. In this thesis, we studied the state of the practice and literature of requirements engineering (RE) for ML to propose PerSpecML, a perspective-based approach for specifying ML-enabled systems that helps practitioners identify which attributes, including ML and non-ML components, are important to contribute to the overall system s quality. The approach involves analyzing 60 concerns related to 28 tasks that practitioners typically face in ML projects, grouping them into five perspectives: system objectives, user experience, infrastructure, model, and data. Together, these perspectives serve to mediate the communication between business owners, domain experts, designers, software and ML engineers, and data scientists. The conception of PerSpecML involved a series of validations conducted in different contexts: (i) in academia, (ii) with industry representatives, and (iii) in two real industrial case studies. As a result of the diverse validations and continuous improvements, PerSpecML stands as a promising approach, poised to positively impact the specification of ML-enabled systems, particularly helping to reveal key components that would have been otherwise missed without using PerSpecML. [pt] APRENDIZADO DE MAQUINA [pt] ENGENHARIA DE REQUISITOS [pt] ESTUDO DE CASO [en] MACHINE LEARNING [en] REQUIREMENTS ENGINEERING [en] CASE STUDY
23	[en] A THEORY BASED, DATA DRIVEN SELECTION FOR THE REGULARIZATION PARAMETER FOR LASSO / [pt] SELECIONANDO O PARÂMETRO DE REGULARIZAÇÃO PARA O LASSO: BASEADO NA TEORIA E NOS DADOS DANIEL MARTINS COUTINHO 25 March 2021 (has links) [pt] O presente trabalho apresenta uma nova forma de selecionar o parâmetro de regularização do LASSO e do adaLASSO. Ela é baseada na teoria e incorpora a estimativa da variância do ruído. Nós mostramos propriedades teóricas e simulações Monte Carlo que o nosso procedimento é capaz de lidar com mais variáveis no conjunto ativo do que outras opções populares para a escolha do parâmetro de regularização. / [en] We provide a new way to select the regularization parameter for the LASSO and adaLASSO. It is based on the theory and incorporates an estimate of the variance of the noise. We show theoretical properties of the procedure and Monte Carlo simulations showing that it is able to handle more variables in the active set than other popular options for the regularization parameter. [pt] LASSO [pt] APRENDIZADO DE MAQUINA [pt] PARAMETRO DE REGULARIZACAO [pt] ADALASSO [en] LASSO [en] MACHINE LEARNING [en] REGULARIZATION PARAMETER [en] ADALASSO
24	[en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS / [pt] PROBLEMAS QUE LEVAM A GERAÇÃO DE DÍVIDA TÉCNICA DE CÓDIGO EM SISTEMAS DE APRENDIZADO DE MÁQUINA RODRIGO GALDINO XIMENES 10 September 2024 (has links) [pt] [Contexto] A dívida técnica (DT) em sistemas de aprendizado de máquina (AM), assim como sua contraparte em engenharia de software (ES), tem o potencial de levar a retrabalhos futuros, representando riscos para produtividade, qualidade e moral da equipe. No entanto, compreender melhor os problemas relacionados ao código que levam à DT em sistemas de AM ainda é um campo em aberto. [Objetivo] Este artigo tem como objetivo identificar e discutir a relevância de problemas que levam a DT no código de AM ao longo do ciclo de vida do AM. [Método] O estudo compilou inicialmente uma lista de problemas potenciais que podem levar à DT no código de AM, analisando as fases do ciclo de vida do AM e suas tarefas típicas. Posteriormente, a lista de problemas foi refinada através da avaliação da prevalência e relevância dos problemas que levam à DT no código de AM por meio de feedback coletado de profissionais da indústria em duas sessões de grupos focais. [Resultados] O estudo compilou uma lista inicial de 34 problemas que potencialmente contribuem para DT em código-fonte de sistemas de AM. Através de duas sessões de grupos focais com nove participantes, esta lista foi refinada para 30 problemas que levam à DT relacionada ao código de AM, sendo 24 considerados altamente relevantes. A fase de pré-processamento de dados foi a mais crítica, com 14 problemas considerados altamente relevantes em potencialmente levar a uma DT grave no código de AM. Cinco problemas foram considerados altamente relevantes na fase de criação e treinamento do modelo e quatro na fase de coleta de dados. A lista final de problemas está disponível para a comunidade. [Conclusão] A lista pode ajudar a aumentar a conscientização sobre os problemas a serem tratados ao longo do ciclo de vida do AM para minimizar a acumulação de DT, ajudando a melhorar a manutenibilidade de sistemas de AM. / [en] [Context] Technical debt (TD) in machine learning (ML) systems, much like its counterpart in software engineering (SE), holds the potential to lead to future rework, posing risks to productivity, quality, and team morale. However, better understanding code-related issues leading to TD in ML systems is still a green field. [Objective] This dissertation aims to identify and discuss the relevance of code-related issues leading to TD in ML code throughout the ML life cycle. [Method] Initially, the study generated a list of potential factors that may contribute to accruing TD in ML code. This compilation was achieved by looking at the phases of the ML life cycle along with their usual tasks. Subsequently, the identified issues were refined by evaluating their prevalence and relevance in causing TD in ML code. This refinement process involved soliciting feedback from industry professionals during two focus group sessions. [Results] The study compiled a list of 34 potential issues contributing to TD in the source code of ML systems. Through two focus group sessions with nine participants, this list was refined into 30 issues leading to ML code-related TD, with 24 considered highly relevant. The data pre-processing phase was the most critical, with 14 issues considered highly relevant in potentially leading to severe ML code TD. Five issues were considered highly relevant in the model creation and training phase and four in the data collection phase. The final list of issues is available to the community. [Conclusion] The list can help to raise awareness on issues to be addressed throughout the ML life cycle to minimize accruing TD, helping to improve the maintainability of ML systems. [pt] GRUPO FOCAL [pt] DUVIDA TECNICA [pt] APRENDIZADO DE MAQUINA [en] FOCUS GROUP [en] TECHNICAL DOUBT [en] MACHINE LEARNING
25	[pt] INVESTIGANDO O IMPACTO DA APLICAÇÃO DE PRINCÍPIOS DE PROJETO SOLID NA COMPREENSÃO DE CÓDIGO DE MACHINE LEARNING / [en] INVESTIGATING THE IMPACT OF SOLID DESIGN PRINCIPLES ON MACHINE LEARNING CODE UNDERSTANDING RAPHAEL OLIVEIRA CABRAL 23 May 2024 (has links) [pt] A aplicação de princípios de design tem sido reconhecida há muito tempo como benéfica para a compreensão e manutenção em projetos de software tradicionais. Esses benefícios podem ser válidos de forma semelhante para projetos de aprendizado de máquina (ML), que envolvem experimentação iterativa com dados, modelos e algoritmos. No entanto, os componentes de ML são frequentemente desenvolvidos por cientistas de dados com diversas formações educacionais, resultando potencialmente em código que não segue as práticas recomendadas de desenvolvimento de software. Para compreender melhor esse fenômeno, investigamos o impacto dos princípios de design SOLID na compreensão do código de ML. Para tanto, conduzimos um experimento controlado com três trials independentes (replicações exatas), envolvendo no total 100 cientistas de dados. Reestruturamos o código de ML real da indústria que não usava princípios SOLID. Dentro de cada ensaio, um grupo foi apresentado ao código de ML original, enquanto o outro foi apresentado ao código de ML incorporando princípios SOLID. Os participantes de ambos os grupos foram convidados a analisar o código e preencher um questionário que incluía perguntas abertas e fechadas sobre a sua compreensão. Os resultados do estudo fornecem evidências estatisticamente significativas de que a adoção dos princípios de design SOLID pode melhorar a compreensão do código no âmbito dos projetos de ML. Propomos que os princípios de design de engenharia de software devem ser difundidos na comunidade de ciência dedados e considerados para melhorar a capacidade de manutenção do código de ML. / [en] Applying design principles has long been acknowledged as beneficial for understanding and maintainability in traditional software projects. These benefits may similarly hold for machine learning (ML) projects, which involve iterative experimentation with data, models, and algorithms. However, ML components are often developed by data scientists with diverse educational backgrounds, potentially resulting in code that doesn t adhere to software development best practices. In order to better understand this phenomenon, we investigated the impact of the SOLID design principles on ML code understanding. To this end, we conducted a controlled experiment with three independent trials (exact replications), overall involving 100 data scientists. We restructured ML code from a real industrial setting that did not use SOLID principles. Within each trial, one group was presented with the original ML code, while the other one was presented with ML code incorporating SOLID principles. Participants of both groups were asked to analyze the code and fill out a questionnaire that included both open-ended and closed-ended questions on their understanding. The study results provide statistically significant evidence that the adoption of the SOLID design principles can improve code understanding within the realm of ML projects. We put forward that software engineering design principles should be spread within the data science community and considered for enhancing the maintainability of ML code. [pt] SOLID [pt] COMPREENSAO DE CODIGO [pt] APRENDIZADO DE MAQUINA [en] SOLID [en] CODE UNDERSTANDING [en] MACHINE LEARNING
26	[pt] IMPLANTAÇÃO E MONITORAMENTO DE MODELOS DE SISTEMAS DE APRENDIZADO DE MÁQUINA: STATUS QUO E PROBLEMAS / [en] ML-ENABLED SYSTEMS MODEL DEPLOYMENT AND MONITORING: STATUS QUO AND PROBLEMS EDUARDO ZIMELEWICZ 23 September 2024 (has links) [pt] [Contexto] Sistemas que incorporam modelos de aprendizado de máquina(ML), muitas vezes chamados de sistemas de software habilitados para ML, tornaram-se comuns. No entanto, as evidências empíricas sobre como os sistemas habilitados para ML são projetados na prática ainda são limitadas; isto é especialmente verdadeiro para atividades relacionadas à disseminação do modelo de ML. [Objetivo] Investigamos práticas industriais contemporâneas e problemas relacionados à disseminação de modelos de ML, com foco nas fases de implantação do modelo e no monitoramento dentro do ciclo de vida de ML. [Método] Realizamos uma pesquisa on-line baseada em questionário internacional para coletar informações de profissionais sobre como os sistemas habilitados para ML são projetados. Reunimos 188 respostas completas de 25 países. Analisamos o status quo e os problemas relatados nas fases de implantação e monitoramento do modelo. Realizamos análises estatísticas sobre práticas contemporâneas utilizando bootstrapping com intervalos de confiança e análises qualitativas sobre os problemas relatados envolvendo procedimentos de codificação aberta e axial. [Resultados] Os profissionais consideram as fases de implantação e monitoramento do modelo relevantes, mas também difíceis. No que diz respeito à implantação de modelos, os modelos são normalmente implantados como serviços separados, com adoção limitada dos princípios de MLOps. Os problemas relatados incluem dificuldades no projeto da arquitetura da infraestrutura para implantação de produção e integração de aplicativos legados. No que diz respeito ao monitoramento de modelos, muitos dos modelos em produção não são monitorados. Os principais aspectos monitorados são insumos, produtos e decisões. Os problemas relatados envolvem a ausência de práticas de monitoramento, a necessidade de criar ferramentas de monitoramento personalizadas e desafios na seleção de métricas adequadas. [Conclusão] Nossos resultados já ajudam a fornecer uma melhor compreensão das práticas e problemas adotados na prática que apoiam a pesquisa em implantação de ML e monitoramento de maneira orientada a problemas. / [en] [Context] Systems that incorporate Machine Learning (ML) models, often referred to as ML-enabled systems, have become commonplace. However, empirical evidence on how ML-enabled systems are engineered in practice is still limited; this is especially true for activities surrounding ML model dissemination. [Goal] We investigate contemporary industrial practices and problems related to ML model dissemination, focusing on the model deployment and the monitoring ML life cycle phases. [Method] We conducted an international survey to gather practitioner insights on how ML-enabled systems are engineered. We gathered a total of 188 complete responses from 25 countries. We analyze the status quo and problems reported for the model deployment and monitoring phases. We analyzed contemporary practices using bootstrapping with confidence intervals and conducted qualitative analyses on the reported problems applying open and axial coding procedures. [Results] Practitioners perceive the model deployment and monitoring phases as relevant and difficult. With respect to model deployment, models are typically deployed as separate services, with limited adoption of MLOps principles. Reported problems include difficulties in designing the architecture of the infrastructure for production deployment and legacy application integration. Concerning model monitoring, many models in production are not monitored. The main monitored aspects are inputs, outputs, and decisions. Reported problems involve the absence of monitoring practices, the need to create custom monitoring tools, and the selection of suitable metrics. [Conclusion] Our results help provide a better understanding of the adopted practices and problems in practice and support guiding ML deployment and monitoring research in a problem-driven manner. [pt] APRENDIZADO DE MAQUINA [pt] SURVEY [pt] MONITORAMENTO [pt] IMPLANTACAO [en] MACHINE LEARNING [en] SURVEY [en] MONITORING [en] DEPLOYMENT
27	[en] COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE / [pt] RESOLUÇÃO DE CO-REFERÊNCIA PARA A LÍNGUA INGLESA ADRIEL GARCIA HERNANDEZ 28 July 2017 (has links) [pt] Um dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um. / [en] One of the problems found in natural language processing systems, is the difficulty to identify textual elements referring to the same entity, this task is called coreference. Solving this problem is an integral part of discourse comprehension since it allows language users to connect the pieces of speech information concerning to the same entity. Consequently, coreference resolution is a key task in natural language processing.Despite the large efforts of existing research, the current performance of coreference resolution systems has not reached a satisfactory level yet. In this work, we describe a structure learning system for unrestricted coreferencere solution that explores two techniques: latent coreference trees and automatic entropy-guided feature induction. The latent tree modeling makes the learning problem computationally feasible,since it incorporates are levant hidden structure. Additionally,using an automatic feature induction method, we can efciently build enhanced non-linear models using linear model learning algorithms, namely, the structure dandsparse perceptron algorithm. We evaluate the system on the CoNLL-2012 Shared Task closed track data set, for the English portion. The proposed system obtains a 62.24 per cent value on the competition s official score. This result is be low the 65.73 per cent, the state-of-the-art performance for this task. Nevertheless, our solution significantly reduces the time to obtain the clusters of adocument, since, our system takes 0.35 seconds per document in the testing set, while in the state-of-the-art, it takes 5 seconds for each one. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [en] SUPERVISED MACHINE LEARNING [pt] MODELO LINEAR ESPARSO [en] SPARSE LINEAR MODEL [pt] INDUCAO DE ATRIBUTO [en] FEATURE INDUCTION [pt] RESOLUCAO DE CORREFENENCIA [en] COREFERENCE RESOLUTION
28	[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOS IAN MONTEIRO NUNES 18 February 2016 (has links) [pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] MINERACAO DE TEXTOS [en] TEXTS MINING [pt] DEDUPLICACAO
29	Uma adaptação do método Binary Relevance utilizando árvores de decisão para problemas de classificação multirrótulo aplicado à genômica funcional / An Adaptation of Binary Relevance for Multi-Label Classification applied to Functional Genomics Tanaka, Erica Akemi 30 August 2013 (has links) Muitos problemas de classificação descritos na literatura de aprendizado de máquina e mineração de dados dizem respeito à classificação em que cada exemplo pertence a um único rótulo. Porém, vários problemas de classificação, principalmente no campo de Bioinformática são associados a mais de um rótulo; esses problemas são conhecidos como problemas de classificação multirrótulo. O princípio básico da classificação multirrótulo é similar ao da classificação tradicional (que possui um único rótulo), sendo diferenciada no número de rótulos a serem preditos, na qual há dois ou mais rótulos. Na área da Bioinformática muitos problemas são compostos por uma grande quantidade de rótulos em que cada exemplo pode estar associado. Porém, algoritmos de classificação tradicionais são incapazes de lidar com um conjunto de exemplos mutirrótulo, uma vez que esses algoritmos foram projetados para predizer um único rótulo. Uma solução mais simples é utilizar o método conhecido como método Binary Relevance. Porém, estudos mostraram que tal abordagem não constitui uma boa solução para o problema da classificação multirrótulo, pois cada classe é tratada individualmente, ignorando as possíveis relações entre elas. Dessa maneira, o objetivo dessa pesquisa foi propor uma nova adaptação do método Binary Relevance que leva em consideração relações entre os rótulos para tentar minimizar sua desvantagem, além de também considerar a capacidade de interpretabilidade do modelo gerado, não só o desempenho. Os resultados experimentais mostraram que esse novo método é capaz de gerar árvores que relacionam os rótulos correlacionados e também possui um desempenho comparável ao de outros métodos, obtendo bons resultados usando a medida-F. / Many classification problems described in the literature on Machine Learning and Data Mining relate to the classification in which each example belongs to a single class. However, many classification problems, especially in the field of Bioinformatics, are associated with more than one class; these problems are known as multi-label classification problems. The basic principle of multi-label classification is similar to the traditional classification (single label), and distinguished by the number of classes to be predicted, in this case, in which there are two or more labels. In Bioinformatics many problems are composed of a large number of labels that can be associated with each example. However, traditional classification algorithms are unable to cope with a set of multi-label examples, since these algorithms are designed to predict a single label. A simpler solution is to use the method known as Binary Relevance. However, studies have shown that this approach is not a good solution to the problem of multi-label classification because each class is treated individually, ignoring possible relations between them. Thus, the objective of this research was to propose a new adaptation of Binary Relevance method that took into account relations between labels trying to minimize its disadvantage, and also consider the ability of interpretability of the model generated, not just its performance. The experimental results show that this new method is capable of generating trees that relate labels and also has a performance comparable to other methods, obtaining good results using F-measure. Aprendizado de Maquina Árvores de Decisão Classificação Multirrótulo Decision Tree Funcional Genomic Genômica FUncional Machine Learning Multi-Label Classification
30	[en] DETERMINISTIC ACOUSTIC SEISMIC INVERSION USING ARTIFICIAL NEURAL NETWORKS / [pt] INVERSÃO SÍSMICA ACÚSTICA DETERMINÍSTICA UTILIZANDO REDES NEURAIS ARTIFICIAIS MARCELO GOMES DE SOUZA 02 August 2018 (has links) [pt] A inversão sísmica é o processo de transformar dados de Sísmica de Reflexão em valores quantitativos de propriedades petroelásticas das rochas. Esses valores, por sua vez, podem ser correlacionados com outras propriedades ajudando os geocientistas a fazer uma melhor interpretação que resulta numa boa caracterização de um reservatório de petróleo. Existem vários algoritmos tradicionais para Inversão Sísmica. Neste trabalho revisitamos a Inversão Colorida (Impedância Relativa), a Inversão Recursiva, a Inversão Limitada em Banda e a Inversão Baseada em Modelos. Todos esses quatro algoritmos são baseados em processamento digital de sinais e otimização. O presente trabalho busca reproduzir os resultados desses algoritmos através de uma metodologia simples e eficiente baseada em Redes Neurais e na pseudo-impedância. Este trabalho apresenta uma implementação dos algoritmos propostos na metodologia e testa sua validade num dado sísmico público que tem uma inversão feita pelos métodos tradicionais. / [en] Seismic inversion is the process of transforming Reflection Seismic data into quantitative values of petroleum rock properties. These values, in turn, can be correlated with other properties helping geoscientists to make a better interpretation that results in a good characterization of an oil reservoir.There are several traditional algorithms for Seismic Inversion. In this work we revise Color Inversion (Relative Impedance), Recursive Inversion, Bandwidth Inversion and Model-Based Inversion. All four of these algorithms are based on digital signal processing and optimization. The present work seeks to reproduce the results of these algorithms through a simple and efficient methodology based on Neural Networks and pseudo-impedance. This work presents an implementation of the algorithms proposed in the methodology and tests its validity in a public seismic data that has an inversion made by the traditional methods. [pt] REDES NEURAIS [en] NEURAL NETWORKS [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] INVERSAO SISMICA [en] SEISMIC INVERSION [pt] CARACTERIZACAO DE RESERVATORIOS [en] RESERVOIR CHARACTERIZATION

Search results