1 |
[en] ON THE SIMULTANEOUS MINIMIZATION OF WORST TESTING COST AND EXPECTED TESTING COST WITH DECISION TREES / [pt] MINIMIZAÇÃO SIMULTÂNEA DO PIOR CUSTO E DO CUSTO MÉDIO EM ÁRVORES DE DECISÃOALINE MEDEIROS SAETTLER 25 January 2017 (has links)
[pt] O problema de minimizar o custo de avaliar uma função discreta lendo sequencialmente as suas variáveis é um problema que surge em diversas aplicações, entre elas sistemas de diagnóstico automático e aprendizado ativo. Neste problema, cada variável da função está associada a um custo, que se deve pagar para checar o seu valor. Além disso, pode existir uma distribuição de probabilidades associadas aos pontos onde a função está definida. A maioria dos trabalhos nesta área se concentra ou na minimização do custo máximo ou na minimização do custo esperado gasto para avaliar a função. Nesta dissertação, mostramos como obter uma Ômicron logaritmo de N aproximação em relação à minimização do pior custo (a melhor aproximação possível assumindo que P é diferente de NP). Nós também mostramos um procedimento polinomial para avaliar uma função otimizando simultaneamente o pior custo e o custo esperado. / [en] The problem of minimizing the cost of evaluating a discrete function by sequentially reading its variables is a problem that arises in several applications, among them automatic diagnosis design and active learning. In this problem, each variable of the function is associated with a cost, that we have to pay in order to check its value. In addition, there may exist a probability distribution associated with the points where the function is defined. Most of the work in the area has focussed either on the minimization of the maximum cost or on the minimization of the expected cost spent to evaluate the function. In this dissertation, we show how to obtain an Ômicron logarithm of N approximation with respect to the worst case minimization (the best possible approximation under the assumption that P is different from NP). We also show a polynomial time procedure for evaluate a function that simultaneously optimizes both the worst and the expected costs.
|
2 |
[en] A DECISION TREE LEARNER FOR COST-SENSITIVE BINARY CLASSIFICATION / [pt] UMA ÁRVORE DE DECISÃO PARA CLASSIFICAÇÃO BINÁRIA SENSÍVEL AO CUSTODANIEL DOS SANTOS MARQUES 30 November 2016 (has links)
[pt] Problemas de classificação foram amplamente estudados na literatura de aprendizado de máquina, gerando aplicações em diversas áreas. No entanto, em diversos cenários, custos por erro de classificação podem variar bastante, o que motiva o estudo de técnicas de classificação sensível ao custo. Nesse trabalho, discutimos o uso de árvores de decisão para o problema mais geral de Aprendizado Sensível ao Custo do Exemplo (ASCE), onde os custos dos erros de classificação variam com o exemplo. Uma das grandes vantagens das árvores de decisão é que são fáceis de interpretar, o que é uma propriedade altamente desejável em diversas aplicações. Propomos um novo método de seleção de atributos para construir árvores de decisão para o problema ASCE e discutimos como este pode ser implementado de forma eficiente. Por fim, comparamos o nosso método com dois outros algoritmos de árvore de decisão propostos recentemente na literatura, em 3 bases de dados públicas. / [en] Classification problems have been widely studied in the machine learning literature, generating applications in several areas. However, in a number of scenarios, misclassification costs can vary substantially, which motivates the study of Cost-Sensitive Learning techniques. In the present work, we discuss the use of decision trees on the more general Example-Dependent Cost-Sensitive Problem (EDCSP), where misclassification costs vary with each example. One of the main advantages of decision trees is that they are easy to interpret, which is a highly desirable property in a number of applications. We propose a new attribute selection method for constructing decision trees for the EDCSP and discuss how it can be efficiently implemented. Finally, we compare our new method with two other decision tree algorithms recently proposed in the literature, in 3 publicly available datasets.
|
3 |
[en] A FRAMEWORK FOR GENERATING BINARY SPLITS IN DECISION TREES / [pt] UM FRAMEWORK PARA GERAÇÃO DE SPLITS BINÁRIOS EM ÁRVORES DE DECISÃOFELIPE DE ALBUQUERQUE MELLO PEREIRA 05 December 2018 (has links)
[pt] Nesta dissertação é apresentado um framework para desenvolver critérios de split para lidar com atributos nominais multi-valorados em árvores de decisão. Critérios gerados por este framework podem ser implementados para rodar em tempo polinomial no número de classes e valores, com garantia teórica de produzir um split próximo do ótimo. Apresenta-se também um estudo experimental, utilizando datasets reais, onde o tempo de execução e acurácia de métodos oriundos do framework são avaliados. / [en] In this dissertation we propose a framework for designing splitting criteria for handling multi-valued nominal attributes for decision trees. Criteria derived from our framework can be implemented to run in polynomial time in the number of classes and values, with theoretical guarantee of producing a split that is close to the optimal one. We also present an experimental study, using real datasets, where the running time and accuracy of the methods obtained from the framework are evaluated.
|
4 |
[en] HUMAN POSTURE RECOGNITION PRESERVING PRIVACY: A CASE STUDY USING A LOW RESOLUTION ARRAY THERMAL SENSOR / [pt] RECONHECIMENTO DE POSTURAS HUMANAS PRESERVANDO A PRIVACIDADE: UM ESTUDO DE CASO USANDO UM SENSOR TÉRMICO DE BAIXA RESOLUÇÃOBRUNO SILVA PONTES 27 April 2017 (has links)
[pt] O reconhecimento de posturas é um dos desafios para o sensoriamento humano, que auxilia no acompanhamento de pessoas em ambientes de moradia assistidos. Estes ambientes, por sua vez, auxiliam médicos no diagnóstico de saúde de seus pacientes, principalmente através do reconhecimento de atividades
do dia a dia em tempo real, que é visto na área médica como uma das melhores formas de antecipar situações críticas de saúde. Além disso, o envelhecimento da população mundial, escassez de recursos em hospitais para atender todas as pessoas e aumento dos custos de assistência médica impulsionam o desenvolvimento de sistemas para apoiar os ambientes de moradia assistidos. Preservar a privacidade nestes ambientes monitorados por sensores é um fator crítico para a aceitação do usuário, por isso há uma demanda em soluções que não requerem imagens. Este trabalho evidencia o uso de um sensor térmico de baixa resolução no sensoriamento humano, mostrando que é viável detectar a presença e reconhecer posturas humanas, usando somente os dados deste sensor. / [en] Postures recognition is one of the human sensing challenges, that helps ambient assisted livings in people accompanying. On the other hand, these ambients assist doctors in the diagnosis of their patients health, mainly through activities of daily livings real time recognition, which is seen in the medical field as one of the best ways to anticipate critical health situations. In addition, the world s population aging, lack of hospital resources to meet all people and increased health care costs drive the development of systems to support ambient assisted livings. Preserving privacy in these ambients monitored by sensors is a critical factor for user acceptance, so there is a demand for solutions that does not requires images. This work demonstrates the use of a low resolution thermal array sensor in human sensing, showing that it is feasible to detect the presence and to recognize human postures, using only the data of this sensor.
|
5 |
[en] DECISION DIAGRAMS FOR CLASSIFICATION: NEW CONSTRUCTIVE APPROACHES / [pt] DIAGRAMAS DE DECISÃO PARA CLASSIFICAÇÃO: NOVAS ABORDAGENS CONSTRUTIVASPEDRO SARMENTO BARBOSA MARTINS 16 October 2023 (has links)
[pt] Diagramas de decisão são uma generalização de árvores de decisão, já
propostos como um modelo de aprendizado de máquina para classificação supervisionada mas não largamente adotados. A razão é a dificuldade em treinar
o modelo, já que o requerimento de decidir splits (partições) e merges (uniões
de nós) em conjunto pode levar a problemas difíceis de otimização combinatória. Um diagrama de decisão tem importantes vantagens sobre árvores de
decisão, pois melhor expressa conceitos binários disjuntos, evitando o problema
de duplicação de subárvores e, portanto, apresentando menos fragmentação em
nós internos. Por esse motivo, desenvolver algoritmos efetivos de construção é
um esforço importante. Nesse contexto, o algoritmo Optimal Decision Diagram
(ODD) foi recentemente proposto, formulando a construção do diagrama com
programação inteira mista (MILP na sigla em inglês), com um warm start proveniente de uma heurística construtiva gulosa. Experimentos mostraram que
essa heurística poderia ser aperfeiçoada, a fim de encontrar soluções próximas
do ótimo de maneira mais efetiva, e por sua vez prover um warm start melhor.
Nesse estudo, reportamos aperfeiçoamentos para essa heurística construtiva,
sendo eles a randomização das decisões de split, a poda de fluxos puros (ou
seja, fluxos de exemplos pertencentes a uma única classe), e aplicando uma
poda bottom-up (de baixo para cima), que considera a complexidade do modelo além da sua acurácia. Todos os aperfeiçoamentos propostos têm efeitos
positivos na acurácia e generalização, assim como no valor objetivo do algoritmo ODD. A poda bottom-up, em especial, tem impacto significativo no valor
objetivo, e portanto na capacidade da formulação MILP de encontrar soluções
ótimas. Ademais, provemos experimentos sobre a expressividade de diagramas
de decisão em comparação a árvores no contexto de pequenas funções booleanas em Forma Normal Disjuntiva (DNF na sigla em inglês), assim como uma
aplicação web para a exploração visual dos métodos construtivos propostos. / [en] Decision diagrams are a generalization of decision trees. They have
been repeatedly proposed as a supervised classification model for machine
learning but have not been widely adopted. The reason appears to be the
difficulty of training the model, as the requirement of deciding splits and
merging nodes can lead to difficult combinatorial optimization problems.
A decision diagram has marked advantages over decision trees because it
better models disjoint binary concepts, avoiding the replication of subtrees
and thus has less sample fragmentation in internal nodes. Because of this,
devising an effective construction algorithm is important. In this context, the
Optimal Decision Diagram (ODD) algorithm was recently proposed, which
formulates the problem of building a diagram as a mixed-integer linear program
(MILP), with a warm start provided by a greedy constructive heuristic. Initial
experiments have shown that this heuristic can be improved upon, in order
to find close-to-optimal solutions more effectively and in turn provide the
MILP with a better warm start. In this study, we report improvements to this
constructive heuristic, by randomizing the split decisions, pruning pure flows
(i.e. flows with samples from a single class), and applying bottom-up pruning,
which considers the complexity of the model in addition to its accuracy. All
proposed improvements have positive effects on accuracy and generalization,
as well as the objective value of the ODD algorithm. The bottom-up pruning
strategy, in particular, has a substantial impact on the objective value, and
thus on the ability of the MILP solver to find optimal solutions. In addition, we
provide experiments on the expressiveness of decision diagrams when compared
to trees in the context of small boolean functions in Disjoint Normal Form
(DNF), as well as a web application for the visual exploration of the proposed
constructive approaches.
|
6 |
[en] RELATIONSHIP MARKETING: CROSS-SELLING ON MOBILE TELECOM / [pt] MARKETING DE RELACIONAMENTO: CROSS-SELLING NA TELEFONIA MÓVELMANOELA BRANDAO DE OLIVEIRA 20 April 2015 (has links)
[pt] Com rápido crescimento nos últimos anos, o mercado de telecomunicações está ficando cada vez mais saturado. Como a comunicação tradicional por meio de serviços de voz já é amplamente utilizada, as operadoras têm enfrentado dificuldades em atrair novos usuários. Neste cenário, as operadoras têm direcionado cada vez mais esforços nas ações de cross-selling para rentabilizar sua base de clientes, oferecendo e estimulando o uso de novos serviços. Nesta pesquisa, serão utilizados dados existentes no banco de dados de uma operadora de telefonia móvel do mercado brasileiro para testar um modelo que facilita a identificação dos clientes mais propensos à contratação de novos serviços. Os dados foram tratados por meio de técnicas de mineração de dados e árvore de decisão. Os resultados sugerem que, com base na modelagem proposta, ações de cross-selling podem ser otimizadas com o aumento da taxa de retorno e, conseqüentemente, redução no custo das abordagens e menos desgaste da base de clientes com contatos irrelevantes. / [en] Due to its fast growth in recent years, the wireless market is becoming increasingly saturated. Since traditional communication through voice services is already widely used by most individuals, wireless carriers are facing difficulties in finding and attracting new users for such services. Given this scenario, enterprises are turning their attention to cross-selling campaigns to monetize their client base, offering and stimulating the use of new services. In this research, an existent data set from a Brazilian mobile telecom carrier was used to test a model that could facilitate the identification of current customers more likely to be interested in acquiring new services. The data were analyzed and modeled via data mining and decision tree. The results suggest that, if the proposed model is used, cross-selling campaigns could be optimized, achieving an increased rate of return, reduction in the cost of contacts and less wear of the client base with irrelevant offers.
|
7 |
[en] CONTRACTING STRATEGIES IN ENERGY AUCTIONS FOR DISTRIBUTION COMPANIES UNDER DEMAND UNCERTAINTY / [pt] ESTRATÉGIA DE CONTRATAÇÃO DAS DISTRIBUIDORAS EM LEILÕES DE ENERGIA SOB INCERTEZA NA DEMANDAANDRE RESENDE GUIMARAES 16 October 2006 (has links)
[pt] O objetivo desta dissertação de mestrado é analisar o novo
marco regulatório do
setor elétrico brasileiro e seus impactos para as empresas
distribuidoras de energia.
Para isto, foi desenvolvida uma ferramenta computacional
para elaborar estratégias de
atuação das distribuidoras nos leilões de compra de
energia instituídos pela nova
regulamentação. Desta forma, é possível simular o processo
de contratação das
distribuidoras no âmbito do ACR e, com os resultados,
realizar análises do impacto
das novas regras na alocação dos riscos as distribuidoras.
O problema consiste, em um
ambiente de incerteza da demanda e dado um conjunto de
instrumentos de risco,
determinar a estratégia de contratação das distribuidoras,
fornecendo o montante de
energia a ser comprado em cada leilão anteriormente
descrito e resultado da melhor
compra dados os contratos candidatos. A metodologia de
solução é otimização
estocástica multi-estágio, levando em consideração,
principalmente, os diversos
horizontes de contratação e preços da energia, visando
minimizar uma ponderação
entre tarifa para consumidor e custos para distribuidora. / [en] The objective of this work is to analyze the new
regulatory framework of the
Brazilian electric sector. In this sense, it was developed
a computational tool in order
to elaborate strategies for the distribution companies
(DISCOs) in the energy auctions
instituted by the new regulation. The computational tool
was used to simulate the
contracts acquisition process by the DISCOs and the
results were analyzed to measure
impact of new rules and risks allocation for the
distribution companies. The problem
consists, considering the demand uncertainty and the
available risk management
instruments, in determining the contracting strategy of
the DISCOs, i.e., the amount
of energy to be bought in each auction that results from
the best purchase given the
candidate contracts. The solution methodology is based on
a multi-stage stochastic
optimization algorithm, minimizing the tariff for consumer
and costs for DISCO,
taking into account different prices and horizons of the
energy contracts.
|
8 |
[en] HOURLY LOAD FORECASTING A NEW APPROACH THROUGH DECISION TREE / [pt] PREVISÃO DE CARGA HORÁRIA UMA NOVA ABORDAGEM POR ÁRVORE DE DECISÃOANA PAULA BARBOSA SOBRAL 08 July 2003 (has links)
[pt] A importância da previsão de carga a curto prazo (até uma
semana à frente) em crescido recentemente. Com os processos
de privatização e implantação de ompetição no setor
elétrico brasileiro, a previsão de tarifas de energia vai se
tornar extremamente importante. As previsões das cargas
elétricas são fundamentais para alimentar as ferramentas
analíticas utilizadas na sinalização das tarifas. Em
conseqüência destas mudanças estruturais no setor, a
variabilidade e a não-estacionaridade das cargas elétricas
tendem a aumentar devido à dinâmica dos preços da energia.
Em função das mudanças estruturais do setor elétrico,
previsores mais autônomos são necessários para o novo
cenário que se aproxima.
As ferramentas disponíveis no mercado internacional para
previsão de carga elétrica requerem uma quantidade
significativa de informações on-line, principalmente no que
se refere a dados meteorológicos. Como a realidade
brasileira ainda não permite o acesso a essas informações
será proposto um previsor de carga para o curto-prazo,
considerando restrições na aquisição dos dados de
temperatura.
Logo, tem-se como proposta um modelo de previsão de carga
horária de curto prazo (um dia a frente) empregando dados
de carga elétrica e dados meteorológicos (temperatura)
através de modelos de árvore de decisão. Decidiu-se
pelo modelo de árvore de decisão, pois este modelo além de
apresentar uma grande facilidade de interpretação dos
resultados, apresenta pouquíssima ênfase em sua utilização
na área de previsão de carga elétrica. / [en] The importance of load forecasting for the short term (up
to one-week ahead) has been steadily growing in the last
years. Load forecasts are the basis for the forecasting of
energy prices, and the privatisation, and the introduction
of competitiveness in the Brazilian electricity sector,
have turned price forecasting into an extremely important
task.
As a consequence of structural changes in the electricity
sector, the variability and the non-stationarity of the
electrical loads have tended to increase, because of the
dynamics of the energy prices. As a consequence of these
structural changes, new forecasting methods are needed to
meet the new scenarios.
The tools that are available for load forecasting in the
international market require a large amount of online
information, specially information about weather data.
Since this information is not yet readily available in
Brazil, this thesis proposes a short-term load forecaster
that takes into consideration the restrictions in the
acquisition of temperature data.
A short-term (one-day ahead) forecaster of hourly loads is
proposed that combines load data and weather data
(temperature), by means of decision tree models. Decision
trees were chosen because those models, despite being easy
to interpret, have been very rarely used for load
forecasting.
|
9 |
[en] THE USE OF DECISION TREES, NEURAL NETWORKS AND KNN SYSTEMS TO AUTOMATICALLY IDENTIFY BOX & JENKINS NON-SEASONAL AND SEASONAL STRUCTURES / [pt] UMA APLICAÇÃO DE ÁRVORES DE DECISÃO, REDES NEURAIS E KNN PARA A IDENTIFICAÇÃO DE MODELOS ARMA NÃO-SAZONAIS E SAZONAISLUIZA MARIA OLIVEIRA DA SILVA 19 December 2005 (has links)
[pt] A metodologia Box & Jenkins tem sido mais utilizada para
fazer
previsões do que outros métodos até então. Alguns
analistas têm relutado,
entretanto, em usar esta metodologia, em parte porque a
identificação da
estrutura adequada é uma tarefa complexa. O reconhecimento
tanto dos padrões
de comportamento das funções de autocorrelação quanto da
autocorrelação
parcial (teórica/estimada) dependem da série temporal
através da qual é possível
extraí-las. Uma vez obtidos os resultados, pode-se inferir
qual o tipo de
estrutura Box & Jenkins adequada para a série. A proposta
do trabalho é
desenvolver três novas metodologias de identificação
automática das estruturas
Box & Jenkins ARMA simples e/ou sazonais, identificar os
filtros sazonal e
linear da série de uma forma menos complexa. A primeira
metodologia utiliza
árvores de decisão, a segunda, redes neurais e a terceira,
K-Nearest Neighbor
(KNN). A estas metodologias serão utilizadas as estruturas
Box & Jenkins
sazonais de períodos 3, 4, 6 e 12 e não sazonais. Os
resultados são aplicados a
séries simuladas, bem como a séries reais. Como
comparação, utilizou-se o
método automático de identificação proposto no software
FPW-XE. / [en] The Box & Jenkins is the most popular forecasting
technique. However,
some researchers have not embraced it because the
identification of its structure is
highly complex. The process of proper characterizing the
properties of both
autocorrelation functions and partial correlation
(theoretical or estimated) depends
on the time series from which they are being obtained.
Given the results in
question, it is possible to infer the proper Box & Jenkins
structure for the time
series being studied. For the reasons above, the goal of
this dissertation is to
develop three new methodologies to identifying, in an
automatic fashion, the Box
& Jenkins structure of an ARMA series. The methodologies
identify, in a simpler
manner, both the seasonal and linear filters of the
series. The first methodology
applies the decision tree. The second applies the neural
networks. The third
applies the K-Nearest Neighbor (KNN). In each of them the
Box & Jenkins
seasonal structures of 3, 4, 6 and 12 periods were used,
as well as the nonseasonal
structure. The results are applied to simulated and actual
series. For
comparison purposes, the automatic identification
procedure of the software
FPW-XE is also used.
|
10 |
[en] DEALING WITH DECISION POINTS IN PROCESS MINING / [pt] TRATANDO PONTOS DE DECISÃO EM MINERAÇÃO DE PROCESSOSDANIEL DUQUE GUIMARAES SARAIVA 26 April 2019 (has links)
[pt] Devido ao grande aumento da competitividade e da, cada vez maior, demanda por eficiência, muitas empresas perceberam que é necessário repensar e melhorar seus processos. Para atingir este objetivo, elas têm cada vez mais buscado técnicas computacionais que sejam capazes de extrair novas informações e conhecimentos de suas grandes bases de dados. Os processos das empresas, normalmente, possuem momentos em que uma decisão deve ser tomada. É razoável esperar que casos similares tenham decisões parecidas sendo tomadas ao longo do processo. O objetivo desta dissertação é criar um minerador de decisão que seja capaz the automatizar a tomada de decisão dentro de um processo. A primeira parte do trabalho consiste na identificação dos pontos de decisão em uma rede de Petri. Em seguida, transformamos a tomada de decisão em um problema de classificação no qual cada possibilidade da decisão se torna uma classe. Para fazer a automatização, é utilizada uma árvore de decisão treinada com os atributos dos dados que estão presentes nos logs dos eventos. Um estudo de caso real é utilizado para validar que o minerador de decisão é confiável para processos reais. / [en] Due to the increasing competitiveness and demand for higher performance, many companies realized that it is necessary to rethink and enhance their business processes. In order to achieve this goal, companies have been turning to computational techniques that are capable of extracting new information and insights from their, ever-increasing, datasets. Business processes, normally, have many places where a decision has to be made. It is reasonable to expect that similar inputs have the same decisions made to them during the process. The goal of this dissertation is to create a decision miner that automates the decision-making inside a process. First, we will identify decision points in a Petri net model. Then, we will transform the decision-making problem into a classification one, where each of the possible decisions becomes a class. In order to automate the decision-making, a decision tree is trained using data attributes from the event logs. A real world case study is used to validate that the decision miner is reliable when using real world data.
|
Page generated in 0.0313 seconds