1 |
[en] ON THE SIMULTANEOUS MINIMIZATION OF WORST TESTING COST AND EXPECTED TESTING COST WITH DECISION TREES / [pt] MINIMIZAÇÃO SIMULTÂNEA DO PIOR CUSTO E DO CUSTO MÉDIO EM ÁRVORES DE DECISÃOALINE MEDEIROS SAETTLER 25 January 2017 (has links)
[pt] O problema de minimizar o custo de avaliar uma função discreta lendo sequencialmente as suas variáveis é um problema que surge em diversas aplicações, entre elas sistemas de diagnóstico automático e aprendizado ativo. Neste problema, cada variável da função está associada a um custo, que se deve pagar para checar o seu valor. Além disso, pode existir uma distribuição de probabilidades associadas aos pontos onde a função está definida. A maioria dos trabalhos nesta área se concentra ou na minimização do custo máximo ou na minimização do custo esperado gasto para avaliar a função. Nesta dissertação, mostramos como obter uma Ômicron logaritmo de N aproximação em relação à minimização do pior custo (a melhor aproximação possível assumindo que P é diferente de NP). Nós também mostramos um procedimento polinomial para avaliar uma função otimizando simultaneamente o pior custo e o custo esperado. / [en] The problem of minimizing the cost of evaluating a discrete function by sequentially reading its variables is a problem that arises in several applications, among them automatic diagnosis design and active learning. In this problem, each variable of the function is associated with a cost, that we have to pay in order to check its value. In addition, there may exist a probability distribution associated with the points where the function is defined. Most of the work in the area has focussed either on the minimization of the maximum cost or on the minimization of the expected cost spent to evaluate the function. In this dissertation, we show how to obtain an Ômicron logarithm of N approximation with respect to the worst case minimization (the best possible approximation under the assumption that P is different from NP). We also show a polynomial time procedure for evaluate a function that simultaneously optimizes both the worst and the expected costs.
|
2 |
[en] A DECISION TREE LEARNER FOR COST-SENSITIVE BINARY CLASSIFICATION / [pt] UMA ÁRVORE DE DECISÃO PARA CLASSIFICAÇÃO BINÁRIA SENSÍVEL AO CUSTODANIEL DOS SANTOS MARQUES 30 November 2016 (has links)
[pt] Problemas de classificação foram amplamente estudados na literatura de aprendizado de máquina, gerando aplicações em diversas áreas. No entanto, em diversos cenários, custos por erro de classificação podem variar bastante, o que motiva o estudo de técnicas de classificação sensível ao custo. Nesse trabalho, discutimos o uso de árvores de decisão para o problema mais geral de Aprendizado Sensível ao Custo do Exemplo (ASCE), onde os custos dos erros de classificação variam com o exemplo. Uma das grandes vantagens das árvores de decisão é que são fáceis de interpretar, o que é uma propriedade altamente desejável em diversas aplicações. Propomos um novo método de seleção de atributos para construir árvores de decisão para o problema ASCE e discutimos como este pode ser implementado de forma eficiente. Por fim, comparamos o nosso método com dois outros algoritmos de árvore de decisão propostos recentemente na literatura, em 3 bases de dados públicas. / [en] Classification problems have been widely studied in the machine learning literature, generating applications in several areas. However, in a number of scenarios, misclassification costs can vary substantially, which motivates the study of Cost-Sensitive Learning techniques. In the present work, we discuss the use of decision trees on the more general Example-Dependent Cost-Sensitive Problem (EDCSP), where misclassification costs vary with each example. One of the main advantages of decision trees is that they are easy to interpret, which is a highly desirable property in a number of applications. We propose a new attribute selection method for constructing decision trees for the EDCSP and discuss how it can be efficiently implemented. Finally, we compare our new method with two other decision tree algorithms recently proposed in the literature, in 3 publicly available datasets.
|
3 |
[pt] ALGORITMOS DE APROXIMAÇÃO PARA ÁRVORES DE DECISÃO / [en] APPROXIMATION ALGORITHMS FOR DECISION TREESALINE MEDEIROS SAETTLER 13 December 2021 (has links)
[pt] A construção de árvores de decisão é um problema central em diversas áreas da ciência da computação, por exemplo, teoria de banco de dados e aprendizado computacional. Este problema pode ser visto como o problema de avaliar uma função discreta, onde para verificar o valor de cada variável da função temos que pagar um custo, e os pontos onde a função está definida estão associados a uma distribuição de probabilidade. O objetivo do problema é avaliar a função minimizando o custo gasto (no pior caso ou no caso médio). Nesta tese, apresentamos quatro contribuições relacionadas a esse problema. A
primeira é um algoritmo que alcança uma aproximação de O(log(n)) em relação a tanto o custo esperado quanto ao pior custo. A segunda é um método que combina duas árvores, uma com pior custo W e outra com custo esperado E, e produz uma árvore com pior custo de no máximo (1+p)W e custo esperado no
máximo (1/(1-e-p))E, onde p é um parâmetro dado. Nós também provamos que esta é uma caracterização justa do melhor trade-off alcançável, mostrando que existe um número infinito de instâncias para as quais não podemos obter uma árvore de decisão com tanto o pior custo menor que (1 + p)OPTW(I)
quanto o custo esperado menor que (1/(1 - e - p))OPTE(I), onde OPTW(I) (resp. OPTE(I)) denota o pior custo da árvore de decisão que minimiza o pior custo (resp. custo esperado) para uma instância I do problema. A terceira contribuição é um algoritmo de aproximação de O(log(n)) para a minimização
do pior custo para uma variante do problema onde o custo de ler uma variável depende do seu valor. Nossa última contribuição é um algoritmo randomized rounding que, dada uma instância do problema (com um inteiro adicional (k > 0) e um parâmetro 0 < e < 1/2, produz uma árvore de decisão oblivious
com custo no máximo (3/(1 - 2e))ln(n)OPT(I) e que produz no máximo (k/e) erros, onde OPT(I) denota o custo da árvore de decisão oblivious com o menor custo entre todas as árvores oblivious para a instância I que produzem no máximo k erros de classificação. / [en] Decision tree construction is a central problem in several areas of computer science, for example, data base theory and computational learning. This problem can be viewed as the problem of evaluating a discrete function, where to check the value of each variable of the function we have to pay a cost, and the points where the function is defined are associated with a probability distribution. The goal of the problem is to evaluate the function minimizing the cost spent (in the worst case or in expectation). In this Thesis, we present four contributions related to this problem. The first one is an algorithm that achieves an O(log(n)) approximation with respect to both the expected and the worst costs. The second one is a procedure that combines two trees, one with worst costW and another with expected cost E, and produces a tree with worst cost at most (1+p)W and expected cost at most (1/(1-e-p))E, where p is a given parameter. We also prove that this is a sharp characterization of the best possible trade-off attainable, showing that there are infinitely many instances for which we cannot obtain a decision tree with both worst cost smaller than
(1+p)OPTW(I) and expected cost smaller than (1/(1-e-p))OPTE(I), where OPTW(I) (resp. OPTE(I)) denotes the cost of the decision tree that minimizes the worst cost (resp. expected cost) for an instance I of the problem. The third contribution is an O(log(n)) approximation algorithm for the minimization
of the worst cost for a variant of the problem where the cost of reading a variable depends on its value. Our final contribution is a randomized rounding algorithm that, given an instance of the problem (with an additional integer k > 0) and a parameter 0 < e < 1/2, builds an oblivious decision tree with
cost at most (3/(1 - 2e))ln(n)OPT(I) and produces at most (k/e) errors, where OPT(I) denotes the cost of the oblivious decision tree with minimum cost among all oblivious decision trees for instance I that make at most k classification errors.
|
4 |
[en] A FRAMEWORK FOR GENERATING BINARY SPLITS IN DECISION TREES / [pt] UM FRAMEWORK PARA GERAÇÃO DE SPLITS BINÁRIOS EM ÁRVORES DE DECISÃOFELIPE DE ALBUQUERQUE MELLO PEREIRA 05 December 2018 (has links)
[pt] Nesta dissertação é apresentado um framework para desenvolver critérios de split para lidar com atributos nominais multi-valorados em árvores de decisão. Critérios gerados por este framework podem ser implementados para rodar em tempo polinomial no número de classes e valores, com garantia teórica de produzir um split próximo do ótimo. Apresenta-se também um estudo experimental, utilizando datasets reais, onde o tempo de execução e acurácia de métodos oriundos do framework são avaliados. / [en] In this dissertation we propose a framework for designing splitting criteria for handling multi-valued nominal attributes for decision trees. Criteria derived from our framework can be implemented to run in polynomial time in the number of classes and values, with theoretical guarantee of producing a split that is close to the optimal one. We also present an experimental study, using real datasets, where the running time and accuracy of the methods obtained from the framework are evaluated.
|
5 |
[en] HUMAN POSTURE RECOGNITION PRESERVING PRIVACY: A CASE STUDY USING A LOW RESOLUTION ARRAY THERMAL SENSOR / [pt] RECONHECIMENTO DE POSTURAS HUMANAS PRESERVANDO A PRIVACIDADE: UM ESTUDO DE CASO USANDO UM SENSOR TÉRMICO DE BAIXA RESOLUÇÃOBRUNO SILVA PONTES 27 April 2017 (has links)
[pt] O reconhecimento de posturas é um dos desafios para o sensoriamento humano, que auxilia no acompanhamento de pessoas em ambientes de moradia assistidos. Estes ambientes, por sua vez, auxiliam médicos no diagnóstico de saúde de seus pacientes, principalmente através do reconhecimento de atividades
do dia a dia em tempo real, que é visto na área médica como uma das melhores formas de antecipar situações críticas de saúde. Além disso, o envelhecimento da população mundial, escassez de recursos em hospitais para atender todas as pessoas e aumento dos custos de assistência médica impulsionam o desenvolvimento de sistemas para apoiar os ambientes de moradia assistidos. Preservar a privacidade nestes ambientes monitorados por sensores é um fator crítico para a aceitação do usuário, por isso há uma demanda em soluções que não requerem imagens. Este trabalho evidencia o uso de um sensor térmico de baixa resolução no sensoriamento humano, mostrando que é viável detectar a presença e reconhecer posturas humanas, usando somente os dados deste sensor. / [en] Postures recognition is one of the human sensing challenges, that helps ambient assisted livings in people accompanying. On the other hand, these ambients assist doctors in the diagnosis of their patients health, mainly through activities of daily livings real time recognition, which is seen in the medical field as one of the best ways to anticipate critical health situations. In addition, the world s population aging, lack of hospital resources to meet all people and increased health care costs drive the development of systems to support ambient assisted livings. Preserving privacy in these ambients monitored by sensors is a critical factor for user acceptance, so there is a demand for solutions that does not requires images. This work demonstrates the use of a low resolution thermal array sensor in human sensing, showing that it is feasible to detect the presence and to recognize human postures, using only the data of this sensor.
|
6 |
[en] DECISION DIAGRAMS FOR CLASSIFICATION: NEW CONSTRUCTIVE APPROACHES / [pt] DIAGRAMAS DE DECISÃO PARA CLASSIFICAÇÃO: NOVAS ABORDAGENS CONSTRUTIVASPEDRO SARMENTO BARBOSA MARTINS 16 October 2023 (has links)
[pt] Diagramas de decisão são uma generalização de árvores de decisão, já
propostos como um modelo de aprendizado de máquina para classificação supervisionada mas não largamente adotados. A razão é a dificuldade em treinar
o modelo, já que o requerimento de decidir splits (partições) e merges (uniões
de nós) em conjunto pode levar a problemas difíceis de otimização combinatória. Um diagrama de decisão tem importantes vantagens sobre árvores de
decisão, pois melhor expressa conceitos binários disjuntos, evitando o problema
de duplicação de subárvores e, portanto, apresentando menos fragmentação em
nós internos. Por esse motivo, desenvolver algoritmos efetivos de construção é
um esforço importante. Nesse contexto, o algoritmo Optimal Decision Diagram
(ODD) foi recentemente proposto, formulando a construção do diagrama com
programação inteira mista (MILP na sigla em inglês), com um warm start proveniente de uma heurística construtiva gulosa. Experimentos mostraram que
essa heurística poderia ser aperfeiçoada, a fim de encontrar soluções próximas
do ótimo de maneira mais efetiva, e por sua vez prover um warm start melhor.
Nesse estudo, reportamos aperfeiçoamentos para essa heurística construtiva,
sendo eles a randomização das decisões de split, a poda de fluxos puros (ou
seja, fluxos de exemplos pertencentes a uma única classe), e aplicando uma
poda bottom-up (de baixo para cima), que considera a complexidade do modelo além da sua acurácia. Todos os aperfeiçoamentos propostos têm efeitos
positivos na acurácia e generalização, assim como no valor objetivo do algoritmo ODD. A poda bottom-up, em especial, tem impacto significativo no valor
objetivo, e portanto na capacidade da formulação MILP de encontrar soluções
ótimas. Ademais, provemos experimentos sobre a expressividade de diagramas
de decisão em comparação a árvores no contexto de pequenas funções booleanas em Forma Normal Disjuntiva (DNF na sigla em inglês), assim como uma
aplicação web para a exploração visual dos métodos construtivos propostos. / [en] Decision diagrams are a generalization of decision trees. They have
been repeatedly proposed as a supervised classification model for machine
learning but have not been widely adopted. The reason appears to be the
difficulty of training the model, as the requirement of deciding splits and
merging nodes can lead to difficult combinatorial optimization problems.
A decision diagram has marked advantages over decision trees because it
better models disjoint binary concepts, avoiding the replication of subtrees
and thus has less sample fragmentation in internal nodes. Because of this,
devising an effective construction algorithm is important. In this context, the
Optimal Decision Diagram (ODD) algorithm was recently proposed, which
formulates the problem of building a diagram as a mixed-integer linear program
(MILP), with a warm start provided by a greedy constructive heuristic. Initial
experiments have shown that this heuristic can be improved upon, in order
to find close-to-optimal solutions more effectively and in turn provide the
MILP with a better warm start. In this study, we report improvements to this
constructive heuristic, by randomizing the split decisions, pruning pure flows
(i.e. flows with samples from a single class), and applying bottom-up pruning,
which considers the complexity of the model in addition to its accuracy. All
proposed improvements have positive effects on accuracy and generalization,
as well as the objective value of the ODD algorithm. The bottom-up pruning
strategy, in particular, has a substantial impact on the objective value, and
thus on the ability of the MILP solver to find optimal solutions. In addition, we
provide experiments on the expressiveness of decision diagrams when compared
to trees in the context of small boolean functions in Disjoint Normal Form
(DNF), as well as a web application for the visual exploration of the proposed
constructive approaches.
|
7 |
[en] RELATIONSHIP MARKETING: CROSS-SELLING ON MOBILE TELECOM / [pt] MARKETING DE RELACIONAMENTO: CROSS-SELLING NA TELEFONIA MÓVELMANOELA BRANDAO DE OLIVEIRA 20 April 2015 (has links)
[pt] Com rápido crescimento nos últimos anos, o mercado de telecomunicações está ficando cada vez mais saturado. Como a comunicação tradicional por meio de serviços de voz já é amplamente utilizada, as operadoras têm enfrentado dificuldades em atrair novos usuários. Neste cenário, as operadoras têm direcionado cada vez mais esforços nas ações de cross-selling para rentabilizar sua base de clientes, oferecendo e estimulando o uso de novos serviços. Nesta pesquisa, serão utilizados dados existentes no banco de dados de uma operadora de telefonia móvel do mercado brasileiro para testar um modelo que facilita a identificação dos clientes mais propensos à contratação de novos serviços. Os dados foram tratados por meio de técnicas de mineração de dados e árvore de decisão. Os resultados sugerem que, com base na modelagem proposta, ações de cross-selling podem ser otimizadas com o aumento da taxa de retorno e, conseqüentemente, redução no custo das abordagens e menos desgaste da base de clientes com contatos irrelevantes. / [en] Due to its fast growth in recent years, the wireless market is becoming increasingly saturated. Since traditional communication through voice services is already widely used by most individuals, wireless carriers are facing difficulties in finding and attracting new users for such services. Given this scenario, enterprises are turning their attention to cross-selling campaigns to monetize their client base, offering and stimulating the use of new services. In this research, an existent data set from a Brazilian mobile telecom carrier was used to test a model that could facilitate the identification of current customers more likely to be interested in acquiring new services. The data were analyzed and modeled via data mining and decision tree. The results suggest that, if the proposed model is used, cross-selling campaigns could be optimized, achieving an increased rate of return, reduction in the cost of contacts and less wear of the client base with irrelevant offers.
|
8 |
[en] CONTRACTING STRATEGIES IN ENERGY AUCTIONS FOR DISTRIBUTION COMPANIES UNDER DEMAND UNCERTAINTY / [pt] ESTRATÉGIA DE CONTRATAÇÃO DAS DISTRIBUIDORAS EM LEILÕES DE ENERGIA SOB INCERTEZA NA DEMANDAANDRE RESENDE GUIMARAES 16 October 2006 (has links)
[pt] O objetivo desta dissertação de mestrado é analisar o novo
marco regulatório do
setor elétrico brasileiro e seus impactos para as empresas
distribuidoras de energia.
Para isto, foi desenvolvida uma ferramenta computacional
para elaborar estratégias de
atuação das distribuidoras nos leilões de compra de
energia instituídos pela nova
regulamentação. Desta forma, é possível simular o processo
de contratação das
distribuidoras no âmbito do ACR e, com os resultados,
realizar análises do impacto
das novas regras na alocação dos riscos as distribuidoras.
O problema consiste, em um
ambiente de incerteza da demanda e dado um conjunto de
instrumentos de risco,
determinar a estratégia de contratação das distribuidoras,
fornecendo o montante de
energia a ser comprado em cada leilão anteriormente
descrito e resultado da melhor
compra dados os contratos candidatos. A metodologia de
solução é otimização
estocástica multi-estágio, levando em consideração,
principalmente, os diversos
horizontes de contratação e preços da energia, visando
minimizar uma ponderação
entre tarifa para consumidor e custos para distribuidora. / [en] The objective of this work is to analyze the new
regulatory framework of the
Brazilian electric sector. In this sense, it was developed
a computational tool in order
to elaborate strategies for the distribution companies
(DISCOs) in the energy auctions
instituted by the new regulation. The computational tool
was used to simulate the
contracts acquisition process by the DISCOs and the
results were analyzed to measure
impact of new rules and risks allocation for the
distribution companies. The problem
consists, considering the demand uncertainty and the
available risk management
instruments, in determining the contracting strategy of
the DISCOs, i.e., the amount
of energy to be bought in each auction that results from
the best purchase given the
candidate contracts. The solution methodology is based on
a multi-stage stochastic
optimization algorithm, minimizing the tariff for consumer
and costs for DISCO,
taking into account different prices and horizons of the
energy contracts.
|
9 |
[en] HOURLY LOAD FORECASTING A NEW APPROACH THROUGH DECISION TREE / [pt] PREVISÃO DE CARGA HORÁRIA UMA NOVA ABORDAGEM POR ÁRVORE DE DECISÃOANA PAULA BARBOSA SOBRAL 08 July 2003 (has links)
[pt] A importância da previsão de carga a curto prazo (até uma
semana à frente) em crescido recentemente. Com os processos
de privatização e implantação de ompetição no setor
elétrico brasileiro, a previsão de tarifas de energia vai se
tornar extremamente importante. As previsões das cargas
elétricas são fundamentais para alimentar as ferramentas
analíticas utilizadas na sinalização das tarifas. Em
conseqüência destas mudanças estruturais no setor, a
variabilidade e a não-estacionaridade das cargas elétricas
tendem a aumentar devido à dinâmica dos preços da energia.
Em função das mudanças estruturais do setor elétrico,
previsores mais autônomos são necessários para o novo
cenário que se aproxima.
As ferramentas disponíveis no mercado internacional para
previsão de carga elétrica requerem uma quantidade
significativa de informações on-line, principalmente no que
se refere a dados meteorológicos. Como a realidade
brasileira ainda não permite o acesso a essas informações
será proposto um previsor de carga para o curto-prazo,
considerando restrições na aquisição dos dados de
temperatura.
Logo, tem-se como proposta um modelo de previsão de carga
horária de curto prazo (um dia a frente) empregando dados
de carga elétrica e dados meteorológicos (temperatura)
através de modelos de árvore de decisão. Decidiu-se
pelo modelo de árvore de decisão, pois este modelo além de
apresentar uma grande facilidade de interpretação dos
resultados, apresenta pouquíssima ênfase em sua utilização
na área de previsão de carga elétrica. / [en] The importance of load forecasting for the short term (up
to one-week ahead) has been steadily growing in the last
years. Load forecasts are the basis for the forecasting of
energy prices, and the privatisation, and the introduction
of competitiveness in the Brazilian electricity sector,
have turned price forecasting into an extremely important
task.
As a consequence of structural changes in the electricity
sector, the variability and the non-stationarity of the
electrical loads have tended to increase, because of the
dynamics of the energy prices. As a consequence of these
structural changes, new forecasting methods are needed to
meet the new scenarios.
The tools that are available for load forecasting in the
international market require a large amount of online
information, specially information about weather data.
Since this information is not yet readily available in
Brazil, this thesis proposes a short-term load forecaster
that takes into consideration the restrictions in the
acquisition of temperature data.
A short-term (one-day ahead) forecaster of hourly loads is
proposed that combines load data and weather data
(temperature), by means of decision tree models. Decision
trees were chosen because those models, despite being easy
to interpret, have been very rarely used for load
forecasting.
|
10 |
[en] THE USE OF DECISION TREES, NEURAL NETWORKS AND KNN SYSTEMS TO AUTOMATICALLY IDENTIFY BOX & JENKINS NON-SEASONAL AND SEASONAL STRUCTURES / [pt] UMA APLICAÇÃO DE ÁRVORES DE DECISÃO, REDES NEURAIS E KNN PARA A IDENTIFICAÇÃO DE MODELOS ARMA NÃO-SAZONAIS E SAZONAISLUIZA MARIA OLIVEIRA DA SILVA 19 December 2005 (has links)
[pt] A metodologia Box & Jenkins tem sido mais utilizada para
fazer
previsões do que outros métodos até então. Alguns
analistas têm relutado,
entretanto, em usar esta metodologia, em parte porque a
identificação da
estrutura adequada é uma tarefa complexa. O reconhecimento
tanto dos padrões
de comportamento das funções de autocorrelação quanto da
autocorrelação
parcial (teórica/estimada) dependem da série temporal
através da qual é possível
extraí-las. Uma vez obtidos os resultados, pode-se inferir
qual o tipo de
estrutura Box & Jenkins adequada para a série. A proposta
do trabalho é
desenvolver três novas metodologias de identificação
automática das estruturas
Box & Jenkins ARMA simples e/ou sazonais, identificar os
filtros sazonal e
linear da série de uma forma menos complexa. A primeira
metodologia utiliza
árvores de decisão, a segunda, redes neurais e a terceira,
K-Nearest Neighbor
(KNN). A estas metodologias serão utilizadas as estruturas
Box & Jenkins
sazonais de períodos 3, 4, 6 e 12 e não sazonais. Os
resultados são aplicados a
séries simuladas, bem como a séries reais. Como
comparação, utilizou-se o
método automático de identificação proposto no software
FPW-XE. / [en] The Box & Jenkins is the most popular forecasting
technique. However,
some researchers have not embraced it because the
identification of its structure is
highly complex. The process of proper characterizing the
properties of both
autocorrelation functions and partial correlation
(theoretical or estimated) depends
on the time series from which they are being obtained.
Given the results in
question, it is possible to infer the proper Box & Jenkins
structure for the time
series being studied. For the reasons above, the goal of
this dissertation is to
develop three new methodologies to identifying, in an
automatic fashion, the Box
& Jenkins structure of an ARMA series. The methodologies
identify, in a simpler
manner, both the seasonal and linear filters of the
series. The first methodology
applies the decision tree. The second applies the neural
networks. The third
applies the K-Nearest Neighbor (KNN). In each of them the
Box & Jenkins
seasonal structures of 3, 4, 6 and 12 periods were used,
as well as the nonseasonal
structure. The results are applied to simulated and actual
series. For
comparison purposes, the automatic identification
procedure of the software
FPW-XE is also used.
|
Page generated in 0.0546 seconds