21 |
[en] ISSUES THAT LEAD TO CODE TECHNICAL DEBT IN MACHINE LEARNING SYSTEMS / [pt] PROBLEMAS QUE LEVAM A GERAÇÃO DE DÍVIDA TÉCNICA DE CÓDIGO EM SISTEMAS DE APRENDIZADO DE MÁQUINARODRIGO GALDINO XIMENES 10 September 2024 (has links)
[pt] [Contexto] A dívida técnica (DT) em sistemas de aprendizado de máquina (AM), assim como sua contraparte em engenharia de software (ES), tem
o potencial de levar a retrabalhos futuros, representando riscos para produtividade, qualidade e moral da equipe. No entanto, compreender melhor os
problemas relacionados ao código que levam à DT em sistemas de AM ainda
é um campo em aberto. [Objetivo] Este artigo tem como objetivo identificar e
discutir a relevância de problemas que levam a DT no código de AM ao longo
do ciclo de vida do AM. [Método] O estudo compilou inicialmente uma lista
de problemas potenciais que podem levar à DT no código de AM, analisando
as fases do ciclo de vida do AM e suas tarefas típicas. Posteriormente, a lista
de problemas foi refinada através da avaliação da prevalência e relevância dos
problemas que levam à DT no código de AM por meio de feedback coletado
de profissionais da indústria em duas sessões de grupos focais. [Resultados] O
estudo compilou uma lista inicial de 34 problemas que potencialmente contribuem para DT em código-fonte de sistemas de AM. Através de duas sessões
de grupos focais com nove participantes, esta lista foi refinada para 30 problemas que levam à DT relacionada ao código de AM, sendo 24 considerados
altamente relevantes. A fase de pré-processamento de dados foi a mais crítica,
com 14 problemas considerados altamente relevantes em potencialmente levar
a uma DT grave no código de AM. Cinco problemas foram considerados altamente relevantes na fase de criação e treinamento do modelo e quatro na fase
de coleta de dados. A lista final de problemas está disponível para a comunidade. [Conclusão] A lista pode ajudar a aumentar a conscientização sobre os
problemas a serem tratados ao longo do ciclo de vida do AM para minimizar
a acumulação de DT, ajudando a melhorar a manutenibilidade de sistemas de
AM. / [en] [Context] Technical debt (TD) in machine learning (ML) systems, much
like its counterpart in software engineering (SE), holds the potential to lead to
future rework, posing risks to productivity, quality, and team morale. However,
better understanding code-related issues leading to TD in ML systems is still
a green field. [Objective] This dissertation aims to identify and discuss the
relevance of code-related issues leading to TD in ML code throughout the ML
life cycle. [Method] Initially, the study generated a list of potential factors that
may contribute to accruing TD in ML code. This compilation was achieved
by looking at the phases of the ML life cycle along with their usual tasks.
Subsequently, the identified issues were refined by evaluating their prevalence
and relevance in causing TD in ML code. This refinement process involved
soliciting feedback from industry professionals during two focus group sessions.
[Results] The study compiled a list of 34 potential issues contributing to TD
in the source code of ML systems. Through two focus group sessions with nine
participants, this list was refined into 30 issues leading to ML code-related
TD, with 24 considered highly relevant. The data pre-processing phase was the
most critical, with 14 issues considered highly relevant in potentially leading to
severe ML code TD. Five issues were considered highly relevant in the model
creation and training phase and four in the data collection phase. The final list
of issues is available to the community. [Conclusion] The list can help to raise
awareness on issues to be addressed throughout the ML life cycle to minimize
accruing TD, helping to improve the maintainability of ML systems.
|
22 |
[pt] INVESTIGANDO O IMPACTO DA APLICAÇÃO DE PRINCÍPIOS DE PROJETO SOLID NA COMPREENSÃO DE CÓDIGO DE MACHINE LEARNING / [en] INVESTIGATING THE IMPACT OF SOLID DESIGN PRINCIPLES ON MACHINE LEARNING CODE UNDERSTANDINGRAPHAEL OLIVEIRA CABRAL 23 May 2024 (has links)
[pt] A aplicação de princípios de design tem sido reconhecida há muito tempo como benéfica para a compreensão e manutenção em projetos de software tradicionais. Esses benefícios podem ser válidos de forma semelhante para projetos de aprendizado de máquina (ML), que envolvem experimentação iterativa com dados, modelos e algoritmos. No entanto, os componentes de ML são frequentemente desenvolvidos por cientistas de dados com diversas formações educacionais, resultando potencialmente em código que não segue as práticas recomendadas de desenvolvimento de software. Para compreender melhor esse fenômeno, investigamos o impacto dos princípios de design SOLID na compreensão do código de ML. Para tanto, conduzimos um experimento controlado com três trials independentes (replicações exatas), envolvendo no total 100 cientistas de dados. Reestruturamos o código de ML real da indústria que não usava princípios SOLID. Dentro de cada ensaio, um grupo foi apresentado ao código de ML original, enquanto o outro foi apresentado ao código de ML incorporando princípios SOLID. Os participantes de ambos os grupos foram convidados a analisar o código e preencher um questionário que incluía perguntas abertas e fechadas sobre a sua compreensão. Os resultados do estudo fornecem evidências estatisticamente significativas de que a adoção dos princípios de design SOLID pode melhorar a compreensão do código no âmbito dos projetos de ML. Propomos que os princípios de design de engenharia de software devem ser difundidos na comunidade de ciência dedados e considerados para melhorar a capacidade de manutenção do código de ML. / [en] Applying design principles has long been acknowledged as beneficial
for understanding and maintainability in traditional software projects. These
benefits may similarly hold for machine learning (ML) projects, which involve
iterative experimentation with data, models, and algorithms. However, ML
components are often developed by data scientists with diverse educational
backgrounds, potentially resulting in code that doesn t adhere to software
development best practices. In order to better understand this phenomenon,
we investigated the impact of the SOLID design principles on ML code
understanding. To this end, we conducted a controlled experiment with three
independent trials (exact replications), overall involving 100 data scientists.
We restructured ML code from a real industrial setting that did not use
SOLID principles. Within each trial, one group was presented with the original
ML code, while the other one was presented with ML code incorporating
SOLID principles. Participants of both groups were asked to analyze the
code and fill out a questionnaire that included both open-ended and closed-ended questions on their understanding. The study results provide statistically
significant evidence that the adoption of the SOLID design principles can
improve code understanding within the realm of ML projects. We put forward
that software engineering design principles should be spread within the data
science community and considered for enhancing the maintainability of ML
code.
|
23 |
[pt] IMPLANTAÇÃO E MONITORAMENTO DE MODELOS DE SISTEMAS DE APRENDIZADO DE MÁQUINA: STATUS QUO E PROBLEMAS / [en] ML-ENABLED SYSTEMS MODEL DEPLOYMENT AND MONITORING: STATUS QUO AND PROBLEMSEDUARDO ZIMELEWICZ 23 September 2024 (has links)
[pt] [Contexto] Sistemas que incorporam modelos de aprendizado de máquina(ML), muitas vezes chamados de sistemas de software habilitados para ML, tornaram-se comuns. No entanto, as evidências empíricas sobre como os sistemas habilitados para ML são projetados na prática ainda são limitadas; isto é especialmente verdadeiro para atividades relacionadas à disseminação do modelo de ML. [Objetivo] Investigamos práticas industriais contemporâneas e problemas relacionados à disseminação de modelos de ML, com foco nas fases de implantação do modelo e no monitoramento dentro do ciclo de vida de ML. [Método] Realizamos uma pesquisa on-line baseada em questionário internacional para coletar informações de profissionais sobre como os sistemas habilitados para ML são projetados. Reunimos 188 respostas completas de 25 países. Analisamos o status quo e os problemas relatados nas fases de implantação e monitoramento do modelo. Realizamos análises estatísticas sobre práticas contemporâneas utilizando bootstrapping com intervalos de confiança e análises qualitativas sobre os problemas relatados envolvendo procedimentos de codificação aberta e axial. [Resultados] Os profissionais consideram as fases de implantação e monitoramento do modelo relevantes, mas também difíceis. No que diz respeito à implantação de modelos, os modelos são normalmente implantados como serviços separados, com adoção limitada dos princípios de MLOps. Os problemas relatados incluem dificuldades no projeto da arquitetura da infraestrutura para implantação de produção e integração de aplicativos legados. No que diz respeito ao monitoramento de modelos, muitos dos modelos em produção não são monitorados. Os principais aspectos monitorados são insumos, produtos e decisões. Os problemas relatados envolvem a ausência de práticas de monitoramento, a necessidade de criar ferramentas de monitoramento personalizadas e desafios na seleção de métricas adequadas. [Conclusão] Nossos resultados já ajudam a fornecer uma melhor compreensão das práticas e problemas adotados na prática que apoiam a pesquisa em implantação de ML e monitoramento de maneira orientada a problemas. / [en] [Context] Systems that incorporate Machine Learning (ML) models, often referred to as ML-enabled systems, have become commonplace. However,
empirical evidence on how ML-enabled systems are engineered in practice is
still limited; this is especially true for activities surrounding ML model dissemination. [Goal] We investigate contemporary industrial practices and problems
related to ML model dissemination, focusing on the model deployment and
the monitoring ML life cycle phases. [Method] We conducted an international
survey to gather practitioner insights on how ML-enabled systems are engineered. We gathered a total of 188 complete responses from 25 countries. We
analyze the status quo and problems reported for the model deployment and
monitoring phases. We analyzed contemporary practices using bootstrapping
with confidence intervals and conducted qualitative analyses on the reported
problems applying open and axial coding procedures. [Results] Practitioners
perceive the model deployment and monitoring phases as relevant and difficult. With respect to model deployment, models are typically deployed as
separate services, with limited adoption of MLOps principles. Reported problems include difficulties in designing the architecture of the infrastructure for
production deployment and legacy application integration. Concerning model
monitoring, many models in production are not monitored. The main monitored aspects are inputs, outputs, and decisions. Reported problems involve the
absence of monitoring practices, the need to create custom monitoring tools,
and the selection of suitable metrics. [Conclusion] Our results help provide a
better understanding of the adopted practices and problems in practice and
support guiding ML deployment and monitoring research in a problem-driven
manner.
|
24 |
[en] COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE / [pt] RESOLUÇÃO DE CO-REFERÊNCIA PARA A LÍNGUA INGLESAADRIEL GARCIA HERNANDEZ 28 July 2017 (has links)
[pt] Um dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um. / [en] One of the problems found in natural language processing systems, is the difficulty to identify textual elements referring to the same entity, this task is called coreference. Solving this problem is an integral part of discourse comprehension since it allows language users to connect the pieces of speech information concerning to the same entity. Consequently, coreference resolution is a key task in natural language processing.Despite the large efforts of existing research, the current performance of coreference resolution systems has not reached a satisfactory level yet. In this work, we describe a structure learning system for unrestricted coreferencere solution that explores two techniques: latent coreference trees and automatic entropy-guided feature induction. The latent tree modeling makes the learning problem computationally feasible,since it incorporates are levant hidden structure. Additionally,using an automatic feature induction method, we can efciently build enhanced non-linear models using linear model learning algorithms, namely, the structure dandsparse perceptron algorithm. We evaluate the system on the CoNLL-2012 Shared Task closed track data set, for the English portion. The proposed system obtains a 62.24 per cent value on the competition s official score. This result is be low the 65.73 per cent, the state-of-the-art performance for this task. Nevertheless, our solution significantly reduces the time to obtain the clusters of adocument, since, our system takes 0.35 seconds per document in the testing set, while in the state-of-the-art, it takes 5 seconds for each one.
|
25 |
[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOSIAN MONTEIRO NUNES 18 February 2016 (has links)
[pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model.
|
26 |
[en] DETERMINISTIC ACOUSTIC SEISMIC INVERSION USING ARTIFICIAL NEURAL NETWORKS / [pt] INVERSÃO SÍSMICA ACÚSTICA DETERMINÍSTICA UTILIZANDO REDES NEURAIS ARTIFICIAISMARCELO GOMES DE SOUZA 02 August 2018 (has links)
[pt] A inversão sísmica é o processo de transformar dados de Sísmica de Reflexão em valores quantitativos de propriedades petroelásticas das rochas. Esses valores, por sua vez, podem ser correlacionados com outras
propriedades ajudando os geocientistas a fazer uma melhor interpretação que resulta numa boa caracterização de um reservatório de petróleo. Existem vários algoritmos tradicionais para Inversão Sísmica. Neste trabalho revisitamos a Inversão Colorida (Impedância Relativa), a Inversão Recursiva, a Inversão Limitada em Banda e a Inversão Baseada em Modelos. Todos esses quatro algoritmos são baseados em processamento digital de sinais e otimização. O presente trabalho busca reproduzir os resultados desses algoritmos através de uma metodologia simples e eficiente baseada em Redes Neurais e na pseudo-impedância. Este trabalho apresenta uma implementação dos algoritmos propostos na metodologia e testa sua validade num dado sísmico público que tem uma inversão feita pelos métodos tradicionais. / [en] Seismic inversion is the process of transforming Reflection Seismic data into quantitative values of petroleum rock properties. These values, in turn, can be correlated with other properties helping geoscientists to make a better interpretation that results in a good characterization of an oil reservoir.There are several traditional algorithms for Seismic Inversion. In this work we revise Color Inversion (Relative Impedance), Recursive Inversion, Bandwidth Inversion and Model-Based Inversion. All four of these algorithms are based on digital signal processing and optimization. The present work seeks to reproduce the results of these algorithms through a simple and efficient methodology based on Neural Networks and pseudo-impedance. This work presents an implementation of the algorithms proposed in the methodology and tests its validity in a public seismic data that has an inversion made by the traditional methods.
|
27 |
[en] A MULTI-AGENT APPROACH TO DATA MINING PROCESSES: APPLICATIONS TO HEALTH CARE / [pt] UMA ABORDAGEM MULTIAGENTE PARA PROCESSOS DE MINERAÇÃO DE DADOS: APLICAÇÕES NA ÁREA DA SAÚDEREINIER MOREJON NOVALES 02 August 2018 (has links)
[pt] A mineração de dados é um tema em alta que atrai pesquisadores de diferentes áreas, como bancos de dados, aprendizado de máquina e sistemas multiagentes. Como consequência do crescimento do volume de dados, há uma necessidade crescente de obter conhecimento desses grandes conjuntos de dados que são muito difíceis de manipular e processar com os métodos tradicionais. Os agentes de software podem desempenhar um papel significativo ao executar processos de mineração de dados de maneira mais eficiente. Por exemplo, eles podem trabalhar para realizar seleção, extração, pré-processamento e integração de dados, bem como mineração paralela, distribuída ou de múltiplas fontes. Este trabalho propõe uma abordagem (na forma de um framework) que usa agentes de software para gerenciar processos de mineração de dados. Para testar sua aplicabilidade, utilizamos vários conjuntos de dados relacionados ao domínio de saúde, representando alguns cenários de uso (hipotireoidismo, diabetes e arritmia). / [en] Data mining is a hot topic that attracts researchers from different areas, such as databases, machine learning, and multi-agent systems. As a consequence of the growth of data volume, there is a growing need to obtain knowledge from these large data sets that are very difficult to handle and process with traditional methods. Software agents can play a significant role performing data mining processes in ways that are more efficient. For instance, they can work to perform selection, extraction, preprocessing and integration of data as well as parallel, distributed, or multisource mining. This work proposes an approach (in the form of a framework) that uses software agents to manage data mining processes. In order to test its applicability, we use several data sets related to health care domain representing some usage scenarios (hypothyroidism, diabetes and arrhythmia).
|
28 |
[en] INSTITUTIONAL OWNERSHIP AS A PREDICTOR OF FUTURE SECURITY RETURNS / [pt] USO DE DADOS DAS CARTEIRAS DE INVESTIDORES INSTITUCIONAIS NA PREDIÇÃO DE RETORNOS DE AÇÕESRAPHAEL ALEXANDER ROTTGEN 29 February 2016 (has links)
[pt] Texto Dados sobre as carteiras de investidores institucionais em
ações agora estão disponíveis em vários países e portanto podem ser
usados em modelos para prever os futuros retornos de ações.
Recentemente, vários produtos comerciais de investimento foram
lançados que explicitamente usam tal tipo de dados na construção da
carteira de investimentos. O intuito deste estudo é aplicar algoritmos de
aprendizado de máquina em cima de dados das carteiras de ações de
investidores institucionais nos Estados Unidos, a fim de avaliar se tais
dados podem ser usados para prever futuros retornos de ações. Nosso
trabalho mostra que um modelo usando um support vector machine
conseguiu separar ações em três classes de futuro retorno com acurácia
acima da esperada se um modelo aleatório fosse usado. / [en] Data on institutional ownership of securities is nowadays publicly
available in a number of jurisdictions and can thus be used in models for
the prediction of security returns. A number of recently launched
investment products explicitly use such institutional ownership data in
security selection. The purpose of the current study is to apply statistical
learning algorithms to institutional ownership data from the United States,
in order to evaluate the predictive validity of features based on such
institutional ownership data with regard to future security returns. Our
analysis identified that a support vector machine managed to classify
securities, with regard to their four-quarter forward returns, into three bins
with significantly higher accuracy than pure chance would predict. Even
higher accuracy was achieved when predicting realized, i.e. past, fourquarter
returns.
|
29 |
[en] OPTIMIZED FINANCIAL TRADE EXECUTION A EMPIRICAL STUDY / [pt] EXECUÇÃO OTIMIZADA DE TRANSAÇÕES FINANCEIRAS: UM ESTUDO EMPÍRICODIEGO CEDRIM GOMES REGO 01 April 2009 (has links)
[pt] Apresentamos um estudo empírico comparativo para o problema de Execução Otimizada de Transações nos mercados financeiros modernos. Construímos um simulador dos mercados financeiros, e então, baseado nessa ferramenta, comparamos o desempenho de algumas estratégias propostas na literatura. Os melhores resultados foram obtidos por estratégias que usam técnicas de aprendizado de máquina. / [en] We present a comparative empirical study for the Optimized
Trade Execution
problem in moderns financial markets. We build a financial
market
simulator and then, based on this tool, we compare the
performance of
many strategies available in the literature. The best
results were achieved
by strategies that make use of machine learning techniques.
|
30 |
[en] COLLABORATIVE FILTERING APPLIED TO TARGETED ADVERTISING / [pt] FILTRAGEM COLABORATIVA APLICADA A PUBLICIDADE DIRECIONADAROBERTO PEREIRA CAVALCANTE 27 October 2008 (has links)
[pt] O surgimento da World Wide Web representou uma nova
oportunidade de
publicidade, disponível para qualquer empresa:
A possibilidade de exposição
global para uma grande audiência a um custo extremamente
pequeno. Como
conseqüência disso, surgiu toda uma nova indústria
oferecendo serviços
relacionados à publicidade de busca, na qual uma empresa
anunciante paga por
uma posição de destaque em listas de anúncios. A fim de
manter a credibilidade e
a participação de mercado do serviço que os veicula - por
exemplo, uma máquina
de busca - os anúncios devem ser exibidos apenas para os
usuários que se
interessem por eles, no que se chama de Publicidade
Direcionada. Em virtude
disso, surge a necessidade de se utilizar um sistema de
recomendação que seja
capaz de escolher que anúncios exibir para quais usuários.
Nos sistemas de
recomendação baseados em filtragem colaborativa, as
preferências de outros
usuários são utilizadas como atributos para um sistema de
aprendizado, pois estas
podem ser bastante detalhadas, gerando recomendações não só
para os itens mais
populares como também para nichos de itens. Neste trabalho,
é desenvolvido um
sistema de recomendação de anúncios que aplica Filtragem
Colaborativa baseada
em fatoração de matrizes ao problema de predição do Click-
Through Rate, uma
métrica em Publicidade Direcionada que expressa a
relevância de um anúncio
para os usuários que buscam por uma determinada palavra-
chave. A fim de
validar o método proposto de predição do Click-Through
Rate, realizamos vários
experimentos em um conjunto de dados sintéticos.
Adicionalmente, o trabalho
contribui para o projeto do LearnAds, um framework de
recomendação de
anúncios baseado em Aprendizado de Máquina. / [en] The emergence of the World Wide Web represented a new
advertising
opportunity available to any company: The possibility of
global exposure to a large
audience at a very small cost. As a result, a whole new
industry has emerged by
offering services related to search advertising, in which
an advertiser pays for a
prominent position in lists of ads. In order to maintain
the credibility and market
share of the service that conveys them - for example, a
search engine - such ads
must be displayed only to users who are interested in them,
on what is called
Targeted Advertising. Therefore, those services need to use
a recommendation
system that can choose which ads show to which users.
Recommendation systems
based on collaborative filtering use the preferences of
other users as features to a
learning system, since such preferences can be quite
detailed, generating
recommendations not only for the most popular items but
also to item niches. In
this work, we develop an ads recommendation system that
applies Collaborative
Filtering based on matrix factorization to the problem of
predicting the
Click-Through Rate, a Targeted Advertising metric that
expresses the relevance of
a particular ad for the users searching for a specific
keyword. In order to validate
the proposed method of Click-Through Rate prediction, we
carry out several
experiments on a synthetic data set. Additionally, the work
contributes to the
design of LearnAds, a framework for ads recommendation
systems based on
Machine Learning.
|
Page generated in 0.0477 seconds