• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 53
  • 53
  • Tagged with
  • 106
  • 106
  • 105
  • 105
  • 102
  • 18
  • 18
  • 18
  • 18
  • 17
  • 17
  • 17
  • 12
  • 10
  • 10
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

[pt] ENGENHARIA DE REQUISITOS PARA SISTEMAS INTEGRADOS COM COMPONENTES DE APRENDIZADO DE MÁQUINA: STATUS QUO E PROBLEMA / [en] REQUIREMENTS ENGINEERING FOR ML-ENABLED SYSTEMS: STATUS QUO AND PROBLEMS

ANTONIO PEDRO SANTOS ALVES 06 February 2024 (has links)
[pt] Sistemas que usam Aprendizado de Máquina, doravante Machine Learning (ML), tornaram-se comuns para empresas que deseajam melhorar seus produtos, serviços e processos. A literatura sugere que a Engenharia de Requisitos (ER) pode ajudar a explicar muitos problemas relacionados à engenharia de sistemas inteligentes envolvendo componentes de ML (ML-Enabled Systems). Contudo, o cenário atual de evidências empíricas sobre como ER é aplicado na prática no contexto desses sistemas é amplamente dominado por estudos de casos isolados com pouca generalização. Nós conduzimos um survey internacional para coletar informações de profissionais sobre o status quo e problemas de ER para ML-Enabled Systems. Coletamos 188 respostas completas de 25 países. Realizamos uma análise quantitativa sobre as práticas atuais utilizando bootstrapping com intervalos de confiança; e análises qualitativas sobre os problemas reportados através de procedimentos de codificação open e axial. Encontramos diferenças significativas nas práticas de ER no contexto de projetos de ML, algumas já reportadas na literatura e outras totalmente novas. Por exemplo, (i) atividades relacionadas à ER são predominantemente conduzidas por líderes de projeto e cientistas de dados, (ii) o formato de documentação predominante é baseado em Notebooks interativos, (iii) os principais requisitos não-funcionais incluem qualidade dos dados, confiança e explicabilidade no modelo, e (iv) os principais desafios consistem em gerenciar a expectativa dos clientes e alinhar requisitos com os dados disponíveis. As análises qualitativas revelaram que os praticantes enfrentam problemas relacionados ao baixo entendimento sobre o domínio do negócio, requisitos pouco claros e baixo engajamento do cliente. Estes resultados ajudam a melhorar o entendimento sobre práticas adotadas e problemas existentes em cenários reais. Destacamos a necessidade para adaptar ainda mais e disseminar práticas de ER relacionadas à engenharia de ML-Enabled Systems. / [en] Systems that use Machine Learning (ML) have become commonplace for companies that want to improve their products, services, and processes. Literature suggests that Requirements Engineering (RE) can help to address many problems when engineering ML-Enabled Systems. However, the state of empirical evidence on how RE is applied in practice in the context of MLenabled systems is mainly dominated by isolated case studies with limited generalizability. We conducted an international survey to gather practitioner insights into the status quo and problems of RE in ML-enabled systems. We gathered 188 complete responses from 25 countries. We conducted quantitative statistical analyses on contemporary practices using bootstrapping with confidence intervals and qualitative analyses on the reported problems involving open and axial coding procedures. We found significant differences in RE practices within ML projects, some of them have been reported on literature and some are totally new. For instance, (i) RE-related activities are mostly conducted by project leaders and data scientists, (ii) the prevalent requirements documentation format concerns interactive Notebooks, (iii) the main focus of non-functional requirements includes data quality, model reliability, and model explainability, and (iv) main challenges include managing customer expectations and aligning requirements with data. The qualitative analyses revealed that practitioners face problems related to lack of business domain understanding, unclear requirements, and low customer engagement. These results help to provide a better understanding of the adopted practices and which problems exist in practical environments. We put forward the need to adapt further and disseminate RE-related practices for engineering ML-enabled systems.
22

[pt] IDENTIFICANDO PREOCUPAÇÕES AO ESPECIFICAR SISTEMAS COM COMPONENTES DE APRENDIZADO DE MÁQUINA: UMA ABORDAGEM BASEADA EM PERSPECTIVA / [en] IDENTIFYING CONCERNS WHEN SPECIFYING MACHINE LEARNING-ENABLED SYSTEMS: A PERSPECTIVE-BASED APPROACH

HUGO RICARDO GUARIN VILLAMIZAR 05 February 2024 (has links)
[pt] A engenharia de sistemas habilitados em Machine Learning (ML) bem-sucedidos apresenta vários desafios, tanto do lado teórico quanto prático. Entre esses desafios estão como abordar eficazmente às expectativas irrealistas das capacidades de ML por parte de clientes, gestores e até mesmo outros membros da equipe de desenvolvimento, e como ligar o valor do negócio às atividades de engenharia e ciência de dados compostas por equipes interdisciplinares. Nesta tese, estudamos o estado da prática e da literatura da engenharia de requisitos para ML para propor PerSpecML, uma abordagem baseada em perspectiva para especificar sistemas habilitados para ML que ajuda os profissionais a identificar quais atributos, incluindo componentes de ML e não-ML, são importantes para contribuir para a qualidade geral do sistema. A abordagem envolve a análise de 60 preocupações relacionadas a 28 tarefas que os profissionais normalmente enfrentam em projetos de ML, agrupando-as em cinco perspectivas: objetivos do sistema, experiência do usuário, infraestrutura, modelo e dados. Juntas, essas perspectivas servem para mediar a comunicação entre gestores de projeto, especialistas de domínio, designers, engenheiros de software/ML e cientistas de dados. A criação da PerSpecML envolveu uma série de validações realizadas em diferentes contextos: (i) na academia, (ii) com representantes da indústria e (iii) em dois estudos de casos industriais reais. Como resultado das diversas validações e melhorias contínuas, PerSpecML se destaca como uma abordagem promissora, preparada para impactar positivamente a especificação de sistemas habilitados para ML, ajudando particularmente a revelar componentes-chave que, de outra forma, teriam sido perdidos sem o uso da PerSpecML. / [en] Engineering successful machine learning (ML)-enabled systems poses various challenges from both a theoretical and a practical side. Among those challenges are how to effectively address unrealistic expectations of ML capabilities from customers, managers and even other team members, and how to connect business value to engineering and data science activities composed by interdisciplinary teams. In this thesis, we studied the state of the practice and literature of requirements engineering (RE) for ML to propose PerSpecML, a perspective-based approach for specifying ML-enabled systems that helps practitioners identify which attributes, including ML and non-ML components, are important to contribute to the overall system s quality. The approach involves analyzing 60 concerns related to 28 tasks that practitioners typically face in ML projects, grouping them into five perspectives: system objectives, user experience, infrastructure, model, and data. Together, these perspectives serve to mediate the communication between business owners, domain experts, designers, software and ML engineers, and data scientists. The conception of PerSpecML involved a series of validations conducted in different contexts: (i) in academia, (ii) with industry representatives, and (iii) in two real industrial case studies. As a result of the diverse validations and continuous improvements, PerSpecML stands as a promising approach, poised to positively impact the specification of ML-enabled systems, particularly helping to reveal key components that would have been otherwise missed without using PerSpecML.
23

[en] COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE / [pt] RESOLUÇÃO DE CO-REFERÊNCIA PARA A LÍNGUA INGLESA

ADRIEL GARCIA HERNANDEZ 28 July 2017 (has links)
[pt] Um dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um. / [en] One of the problems found in natural language processing systems, is the difficulty to identify textual elements referring to the same entity, this task is called coreference. Solving this problem is an integral part of discourse comprehension since it allows language users to connect the pieces of speech information concerning to the same entity. Consequently, coreference resolution is a key task in natural language processing.Despite the large efforts of existing research, the current performance of coreference resolution systems has not reached a satisfactory level yet. In this work, we describe a structure learning system for unrestricted coreferencere solution that explores two techniques: latent coreference trees and automatic entropy-guided feature induction. The latent tree modeling makes the learning problem computationally feasible,since it incorporates are levant hidden structure. Additionally,using an automatic feature induction method, we can efciently build enhanced non-linear models using linear model learning algorithms, namely, the structure dandsparse perceptron algorithm. We evaluate the system on the CoNLL-2012 Shared Task closed track data set, for the English portion. The proposed system obtains a 62.24 per cent value on the competition s official score. This result is be low the 65.73 per cent, the state-of-the-art performance for this task. Nevertheless, our solution significantly reduces the time to obtain the clusters of adocument, since, our system takes 0.35 seconds per document in the testing set, while in the state-of-the-art, it takes 5 seconds for each one.
24

[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOS

IAN MONTEIRO NUNES 18 February 2016 (has links)
[pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model.
25

Uma adaptação do método Binary Relevance utilizando árvores de decisão para problemas de classificação multirrótulo aplicado à genômica funcional / An Adaptation of Binary Relevance for Multi-Label Classification applied to Functional Genomics

Tanaka, Erica Akemi 30 August 2013 (has links)
Muitos problemas de classificação descritos na literatura de aprendizado de máquina e mineração de dados dizem respeito à classificação em que cada exemplo pertence a um único rótulo. Porém, vários problemas de classificação, principalmente no campo de Bioinformática são associados a mais de um rótulo; esses problemas são conhecidos como problemas de classificação multirrótulo. O princípio básico da classificação multirrótulo é similar ao da classificação tradicional (que possui um único rótulo), sendo diferenciada no número de rótulos a serem preditos, na qual há dois ou mais rótulos. Na área da Bioinformática muitos problemas são compostos por uma grande quantidade de rótulos em que cada exemplo pode estar associado. Porém, algoritmos de classificação tradicionais são incapazes de lidar com um conjunto de exemplos mutirrótulo, uma vez que esses algoritmos foram projetados para predizer um único rótulo. Uma solução mais simples é utilizar o método conhecido como método Binary Relevance. Porém, estudos mostraram que tal abordagem não constitui uma boa solução para o problema da classificação multirrótulo, pois cada classe é tratada individualmente, ignorando as possíveis relações entre elas. Dessa maneira, o objetivo dessa pesquisa foi propor uma nova adaptação do método Binary Relevance que leva em consideração relações entre os rótulos para tentar minimizar sua desvantagem, além de também considerar a capacidade de interpretabilidade do modelo gerado, não só o desempenho. Os resultados experimentais mostraram que esse novo método é capaz de gerar árvores que relacionam os rótulos correlacionados e também possui um desempenho comparável ao de outros métodos, obtendo bons resultados usando a medida-F. / Many classification problems described in the literature on Machine Learning and Data Mining relate to the classification in which each example belongs to a single class. However, many classification problems, especially in the field of Bioinformatics, are associated with more than one class; these problems are known as multi-label classification problems. The basic principle of multi-label classification is similar to the traditional classification (single label), and distinguished by the number of classes to be predicted, in this case, in which there are two or more labels. In Bioinformatics many problems are composed of a large number of labels that can be associated with each example. However, traditional classification algorithms are unable to cope with a set of multi-label examples, since these algorithms are designed to predict a single label. A simpler solution is to use the method known as Binary Relevance. However, studies have shown that this approach is not a good solution to the problem of multi-label classification because each class is treated individually, ignoring possible relations between them. Thus, the objective of this research was to propose a new adaptation of Binary Relevance method that took into account relations between labels trying to minimize its disadvantage, and also consider the ability of interpretability of the model generated, not just its performance. The experimental results show that this new method is capable of generating trees that relate labels and also has a performance comparable to other methods, obtaining good results using F-measure.
26

[en] DETERMINISTIC ACOUSTIC SEISMIC INVERSION USING ARTIFICIAL NEURAL NETWORKS / [pt] INVERSÃO SÍSMICA ACÚSTICA DETERMINÍSTICA UTILIZANDO REDES NEURAIS ARTIFICIAIS

MARCELO GOMES DE SOUZA 02 August 2018 (has links)
[pt] A inversão sísmica é o processo de transformar dados de Sísmica de Reflexão em valores quantitativos de propriedades petroelásticas das rochas. Esses valores, por sua vez, podem ser correlacionados com outras propriedades ajudando os geocientistas a fazer uma melhor interpretação que resulta numa boa caracterização de um reservatório de petróleo. Existem vários algoritmos tradicionais para Inversão Sísmica. Neste trabalho revisitamos a Inversão Colorida (Impedância Relativa), a Inversão Recursiva, a Inversão Limitada em Banda e a Inversão Baseada em Modelos. Todos esses quatro algoritmos são baseados em processamento digital de sinais e otimização. O presente trabalho busca reproduzir os resultados desses algoritmos através de uma metodologia simples e eficiente baseada em Redes Neurais e na pseudo-impedância. Este trabalho apresenta uma implementação dos algoritmos propostos na metodologia e testa sua validade num dado sísmico público que tem uma inversão feita pelos métodos tradicionais. / [en] Seismic inversion is the process of transforming Reflection Seismic data into quantitative values of petroleum rock properties. These values, in turn, can be correlated with other properties helping geoscientists to make a better interpretation that results in a good characterization of an oil reservoir.There are several traditional algorithms for Seismic Inversion. In this work we revise Color Inversion (Relative Impedance), Recursive Inversion, Bandwidth Inversion and Model-Based Inversion. All four of these algorithms are based on digital signal processing and optimization. The present work seeks to reproduce the results of these algorithms through a simple and efficient methodology based on Neural Networks and pseudo-impedance. This work presents an implementation of the algorithms proposed in the methodology and tests its validity in a public seismic data that has an inversion made by the traditional methods.
27

[en] A MULTI-AGENT APPROACH TO DATA MINING PROCESSES: APPLICATIONS TO HEALTH CARE / [pt] UMA ABORDAGEM MULTIAGENTE PARA PROCESSOS DE MINERAÇÃO DE DADOS: APLICAÇÕES NA ÁREA DA SAÚDE

REINIER MOREJON NOVALES 02 August 2018 (has links)
[pt] A mineração de dados é um tema em alta que atrai pesquisadores de diferentes áreas, como bancos de dados, aprendizado de máquina e sistemas multiagentes. Como consequência do crescimento do volume de dados, há uma necessidade crescente de obter conhecimento desses grandes conjuntos de dados que são muito difíceis de manipular e processar com os métodos tradicionais. Os agentes de software podem desempenhar um papel significativo ao executar processos de mineração de dados de maneira mais eficiente. Por exemplo, eles podem trabalhar para realizar seleção, extração, pré-processamento e integração de dados, bem como mineração paralela, distribuída ou de múltiplas fontes. Este trabalho propõe uma abordagem (na forma de um framework) que usa agentes de software para gerenciar processos de mineração de dados. Para testar sua aplicabilidade, utilizamos vários conjuntos de dados relacionados ao domínio de saúde, representando alguns cenários de uso (hipotireoidismo, diabetes e arritmia). / [en] Data mining is a hot topic that attracts researchers from different areas, such as databases, machine learning, and multi-agent systems. As a consequence of the growth of data volume, there is a growing need to obtain knowledge from these large data sets that are very difficult to handle and process with traditional methods. Software agents can play a significant role performing data mining processes in ways that are more efficient. For instance, they can work to perform selection, extraction, preprocessing and integration of data as well as parallel, distributed, or multisource mining. This work proposes an approach (in the form of a framework) that uses software agents to manage data mining processes. In order to test its applicability, we use several data sets related to health care domain representing some usage scenarios (hypothyroidism, diabetes and arrhythmia).
28

[en] INSTITUTIONAL OWNERSHIP AS A PREDICTOR OF FUTURE SECURITY RETURNS / [pt] USO DE DADOS DAS CARTEIRAS DE INVESTIDORES INSTITUCIONAIS NA PREDIÇÃO DE RETORNOS DE AÇÕES

RAPHAEL ALEXANDER ROTTGEN 29 February 2016 (has links)
[pt] Texto Dados sobre as carteiras de investidores institucionais em ações agora estão disponíveis em vários países e portanto podem ser usados em modelos para prever os futuros retornos de ações. Recentemente, vários produtos comerciais de investimento foram lançados que explicitamente usam tal tipo de dados na construção da carteira de investimentos. O intuito deste estudo é aplicar algoritmos de aprendizado de máquina em cima de dados das carteiras de ações de investidores institucionais nos Estados Unidos, a fim de avaliar se tais dados podem ser usados para prever futuros retornos de ações. Nosso trabalho mostra que um modelo usando um support vector machine conseguiu separar ações em três classes de futuro retorno com acurácia acima da esperada se um modelo aleatório fosse usado. / [en] Data on institutional ownership of securities is nowadays publicly available in a number of jurisdictions and can thus be used in models for the prediction of security returns. A number of recently launched investment products explicitly use such institutional ownership data in security selection. The purpose of the current study is to apply statistical learning algorithms to institutional ownership data from the United States, in order to evaluate the predictive validity of features based on such institutional ownership data with regard to future security returns. Our analysis identified that a support vector machine managed to classify securities, with regard to their four-quarter forward returns, into three bins with significantly higher accuracy than pure chance would predict. Even higher accuracy was achieved when predicting realized, i.e. past, fourquarter returns.
29

[en] OPTIMIZED FINANCIAL TRADE EXECUTION A EMPIRICAL STUDY / [pt] EXECUÇÃO OTIMIZADA DE TRANSAÇÕES FINANCEIRAS: UM ESTUDO EMPÍRICO

DIEGO CEDRIM GOMES REGO 01 April 2009 (has links)
[pt] Apresentamos um estudo empírico comparativo para o problema de Execução Otimizada de Transações nos mercados financeiros modernos. Construímos um simulador dos mercados financeiros, e então, baseado nessa ferramenta, comparamos o desempenho de algumas estratégias propostas na literatura. Os melhores resultados foram obtidos por estratégias que usam técnicas de aprendizado de máquina. / [en] We present a comparative empirical study for the Optimized Trade Execution problem in moderns financial markets. We build a financial market simulator and then, based on this tool, we compare the performance of many strategies available in the literature. The best results were achieved by strategies that make use of machine learning techniques.
30

Uma adaptação do método Binary Relevance utilizando árvores de decisão para problemas de classificação multirrótulo aplicado à genômica funcional / An Adaptation of Binary Relevance for Multi-Label Classification applied to Functional Genomics

Erica Akemi Tanaka 30 August 2013 (has links)
Muitos problemas de classificação descritos na literatura de aprendizado de máquina e mineração de dados dizem respeito à classificação em que cada exemplo pertence a um único rótulo. Porém, vários problemas de classificação, principalmente no campo de Bioinformática são associados a mais de um rótulo; esses problemas são conhecidos como problemas de classificação multirrótulo. O princípio básico da classificação multirrótulo é similar ao da classificação tradicional (que possui um único rótulo), sendo diferenciada no número de rótulos a serem preditos, na qual há dois ou mais rótulos. Na área da Bioinformática muitos problemas são compostos por uma grande quantidade de rótulos em que cada exemplo pode estar associado. Porém, algoritmos de classificação tradicionais são incapazes de lidar com um conjunto de exemplos mutirrótulo, uma vez que esses algoritmos foram projetados para predizer um único rótulo. Uma solução mais simples é utilizar o método conhecido como método Binary Relevance. Porém, estudos mostraram que tal abordagem não constitui uma boa solução para o problema da classificação multirrótulo, pois cada classe é tratada individualmente, ignorando as possíveis relações entre elas. Dessa maneira, o objetivo dessa pesquisa foi propor uma nova adaptação do método Binary Relevance que leva em consideração relações entre os rótulos para tentar minimizar sua desvantagem, além de também considerar a capacidade de interpretabilidade do modelo gerado, não só o desempenho. Os resultados experimentais mostraram que esse novo método é capaz de gerar árvores que relacionam os rótulos correlacionados e também possui um desempenho comparável ao de outros métodos, obtendo bons resultados usando a medida-F. / Many classification problems described in the literature on Machine Learning and Data Mining relate to the classification in which each example belongs to a single class. However, many classification problems, especially in the field of Bioinformatics, are associated with more than one class; these problems are known as multi-label classification problems. The basic principle of multi-label classification is similar to the traditional classification (single label), and distinguished by the number of classes to be predicted, in this case, in which there are two or more labels. In Bioinformatics many problems are composed of a large number of labels that can be associated with each example. However, traditional classification algorithms are unable to cope with a set of multi-label examples, since these algorithms are designed to predict a single label. A simpler solution is to use the method known as Binary Relevance. However, studies have shown that this approach is not a good solution to the problem of multi-label classification because each class is treated individually, ignoring possible relations between them. Thus, the objective of this research was to propose a new adaptation of Binary Relevance method that took into account relations between labels trying to minimize its disadvantage, and also consider the ability of interpretability of the model generated, not just its performance. The experimental results show that this new method is capable of generating trees that relate labels and also has a performance comparable to other methods, obtaining good results using F-measure.

Page generated in 0.074 seconds