Spelling suggestions: "subject:"bayesiana"" "subject:"bayesian""
81 |
Uma metodologia para avaliação da confiabilidade humana em atividades de substituição de cadeias de isoladores em linhas de transmissãoMENÊZES, Regilda da Costa e Silva January 2005 (has links)
Made available in DSpace on 2014-06-12T17:42:24Z (GMT). No. of bitstreams: 2
arquivo7448_1.pdf: 1841405 bytes, checksum: 67bd6c1d263317c4e54b44bfbc8d21e6 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / A análise de confiabilidade humana (ACH) estuda a execução das ações humanas em um
determinado sistema, considerando suas limitações e os fatores que influenciam no seu
desempenho. A literatura apresenta os métodos de ACH de primeira e segunda geração, onde a
maioria foi desenvolvido para indústria nuclear. Esses métodos apresentam algumas
deficiências. Dentre elas, destacam-se suposições irreais de independência e simples
representação binária de eventos. Estas são conseqüências da utilização de ferramentas como
análise de árvore de eventos e de falhas. Diante disso, apresentam uma grande dificuldade na
modelagem das ações humanas, bem como na quantificação dos modelos causais.
Portanto, percebe-se que modelar as causalidades existentes nas ações humanas tornou-se
um grande desafio para ACH ao longo dos anos. Diante deste contexto, este trabalho mostra
que modelar ações humanas por redes Bayesianas proporciona uma maior flexibilidade às
variáveis componentes de um determinado sistema, pois além de permitir uma representação
mais realista da natureza dinâmica da interface homem-sistema e homem-homem em eventos
normais ou anormais de um processo, também representa a relação de dependência entre os
eventos e entre os fatores de desempenho.
Neste trabalho, utiliza-se redes Bayesianas para avaliação da confiabilidade humana em
atividades de substituição de cadeias de isoladores em linhas de transmissão. Ele apresenta
claramente a modelagem das ações humanas, bem como a utilização de métodos para
construção de rede, com destaque para os mecanismos de quantificação de redes Bayesianas
|
82 |
Caracterización y detección de contribuyentes que presentan facturas falsas al SII mediante técnicas de data minigCastellon González, Pamela Andrea January 2012 (has links)
Magíster en Gestión de Operaciones / Ingeniero Civil Industrial / El presente trabajo de título tiene por objetivo identificar patrones de comportamiento de los contribuyentes declarantes de IVA, que transan facturas falsas para evadir impuestos. Para ello se utiliza el proceso KDD, el cual considera una serie de pasos y técnicas que permiten extraer conocimiento oculto a partir de un gran volumen de datos, para encontrar relaciones o patrones asociados a un cierto fenómeno.
La utilización y venta de facturas falsas tiene un impacto significativo en la recaudación que percibe el Estado, generando además efectos negativos que ponen en riesgo la competitividad de las empresas. Históricamente, la evasión por este concepto ha representado entre un 20% a un 30% de la evasión en el IVA, alcanzando la cifra de $450 millones de pesos durante la crisis económica de 2009. Adicionalmente, la detección, investigación, sanción y cobro de los impuestos adeudados, provoca un importante costo administrativo, debido a la cantidad de facturas transadas en el año y al tiempo requerido para su detección. En ese contexto, resulta necesario contar con procedimientos sistematizados y efectivos que gestionen la información disponible para detectar potenciales defraudadores de impuestos, focalizando los recursos en aquellos contribuyentes de mayor riesgo tributario.
Para la construcción del vector de características se utiliza la información de casos registrados con facturas falsas en el año 2006, considerando información del pago de impuestos en tal período, características particulares, comportamiento histórico en diferentes etapas de su ciclo de vida e indicadores del comportamiento de sus relacionados, entre otros. En una primera instancia, se aplican técnicas de SOM y Gas Neuronal, para analizar el potencial de contribuyentes que tienen un buen o mal comportamiento tributario e identificar sus características más relevantes. Posteriormente, se utilizan Árboles de Decisión, Redes Neuronales y Redes Bayesianas, para identificar aquellas variables que están relacionadas con un comportamiento de fraude y/o no fraude y detectar patrones de conducta, estableciendo en qué medida se pueden predecir estos casos con la información disponible.
El resultado indica que las variables que más discriminan entre fraude y no fraude en las micro y pequeñas empresas son el porcentaje de créditos generado por facturas, el resultado de las fiscalizaciones previas, la cantidad de facturas emitidas en el año y su relación con las facturas timbradas en los últimos dos años, el monto de IVA total declarado, la relación entre remanentes y créditos, los delitos e irregularidades históricas asociadas a facturas, y la participación en otras empresas. En las medianas y grandes empresas, en tanto, las variables más relevantes son la cantidad de remanente acumulado, el porcentaje de crédito asociado a facturas, el total de créditos, la relación entre gastos rechazados y activos, el capital efectivo, la cantidad de irregularidades previas asociadas a facturas, la cantidad de fiscalizaciones históricas, y el número de representantes legales.
En relación a los modelos predictivos, el mejor resultado se obtuvo con la red neuronal, donde el porcentaje de casos con fraude correctamente asignado fue de un 92% para las micro y pequeñas empresas, y de 89% para las empresas medianas y grandes. De acuerdo a esto y al potencial universo de usuarios de facturas falsas (120.768 empresas), se estima que con los modelos obtenidos se puede generar un potencial de recaudación de $101.446 millones de pesos al año, lo que permitiría reducir la evasión por concepto de IVA de manera significativa.
Finalmente, se concluye que es posible caracterizar y predecir contribuyentes que evaden impuestos a través de facturas falsas utilizando técnicas de Data Mining, y que los factores que inciden en la probabilidad que un contribuyente utilice facturas falsas dependen del tamaño o segmento del contribuyente, relación que hasta el momento se establecía sólo de manera intuitiva.
Se recomienda, para trabajos futuros, generar nuevas variables de comportamiento históricas relacionadas con fiscalizaciones y cobertura, explorar otros métodos para el preprocesamiento y selección de las variables, con los que eventualmente podrían obtenerse resultados diferentes. Igualmente, sería interesante explorar técnicas de validación cruzada y aplicar otras técnicas de data mining para mejorar la predicción de casos de fraude.
|
83 |
A data-driven solution for root cause analysis in cloud computing environments. / Uma solução guiada por dados de análise de causa raiz em ambiente de computação em nuvem.Rosangela de Fátima Pereira 05 December 2016 (has links)
The failure analysis and resolution in cloud-computing environments are a a highly important issue, being their primary motivation the mitigation of the impact of such failures on applications hosted in these environments. Although there are advances in the case of immediate detection of failures, there is a lack of research in root cause analysis of failures in cloud computing. In this process, failures are tracked to analyze their causal factor. This practice allows cloud operators to act on a more effective process in preventing failures, resulting in the number of recurring failures reduction. Although this practice is commonly performed through human intervention, based on the expertise of professionals, the complexity of cloud-computing environments, coupled with the large volume of data generated from log records generated in these environments and the wide interdependence between system components, has turned manual analysis impractical. Therefore, scalable solutions are needed to automate the root cause analysis process in cloud computing environments, allowing the analysis of large data sets with satisfactory performance. Based on these requirements, this thesis presents a data-driven solution for root cause analysis in cloud-computing environments. The proposed solution includes the required functionalities for the collection, processing and analysis of data, as well as a method based on Bayesian Networks for the automatic identification of root causes. The validation of the proposal is accomplished through a proof of concept using OpenStack, a framework for cloud-computing infrastructure, and Hadoop, a framework for distributed processing of large data volumes. The tests presented satisfactory performance, and the developed model correctly classified the root causes with low rate of false positives. / A análise e reparação de falhas em ambientes de computação em nuvem é uma questão amplamente pesquisada, tendo como principal motivação minimizar o impacto que tais falhas podem causar nas aplicações hospedadas nesses ambientes. Embora exista um avanço na área de detecção imediata de falhas, ainda há percalços para realizar a análise de sua causa raiz. Nesse processo, as falhas são rastreadas a fim de analisar o seu fator causal ou seus fatores causais. Essa prática permite que operadores da nuvem possam atuar de modo mais efetivo na prevenção de falhas, reduzindo-se o número de falhas recorrentes. Embora essa prática seja comumente realizada por meio de intervenção humana, com base no expertise dos profissionais, a complexidade dos ambientes de computação em nuvem, somada ao grande volume de dados oriundos de registros de log gerados nesses ambientes e à ampla inter-dependência entre os componentes do sistema tem tornado a análise manual inviável. Por esse motivo, torna-se necessário soluções que permitam automatizar o processo de análise de causa raiz de uma falha ou conjunto de falhas em ambientes de computação em nuvem, e que sejam escaláveis, viabilizando a análise de grande volume de dados com desempenho satisfatório. Com base em tais necessidades, essa dissertação apresenta uma solução guiada por dados para análise de causa raiz em ambientes de computação em nuvem. A solução proposta contempla as funcionalidades necessárias para a aquisição, processamento e análise de dados no diagnóstico de falhas, bem como um método baseado em Redes Bayesianas para a identificação automática de causas raiz de falhas. A validação da proposta é realizada por meio de uma prova de conceito utilizando o OpenStack, um arcabouço para infraestrutura de computação em nuvem, e o Hadoop, um arcabouço para processamento distribuído de grande volume de dados. Os testes apresentaram desempenhos satisfatórios da arquitetura proposta, e o modelo desenvolvido classificou corretamente com baixo número de falsos positivos.
|
84 |
Modelos alternativos de respuesta graduada con aplicaciones en la calidad de serviciosTarazona Vargas, Enver Gerald 20 July 2015 (has links)
Los modelos politómicos de la Teoría de Respuesta al Ítem (TRIP) tienen como finalidad explicar la interacción existente entre los sujetos evaluados y los atributos de un test en aquellas situaciones en las cuales los atributos que lo componen tienen varias categorías de respuesta. Dentro de los distintos tipos de modelos TRIP, el Modelo de Respuesta Graduada General (GRM) propuesto originalmente por Samejima (1969, 2010), es un conjunto de modelos diseñados para aplicarse en aquellas situaciones en las cuales las categorías de respuesta son ordinales.
En este trabajo se presenta una formulación general para los GRM, su clasificación y
principales propiedades desde el punto de vista bayesiano. De manera específica, se muestra el Modelo de Respuesta Graduada Logístico de dos parámetros (2PL-GRM) como un caso particular de los GRM simétricos y el Modelo de Respuesta Graduada Logístico de Exponente Positivo (LPE-GRM) como un modelo asimétrico derivado de incorporar un parámetro de penalización que controla la curvatura de las Funciones de Respuesta a las Etapas de los Ítems (FREI). La estimación de ambos modelos fue realizada usando la inferencia bayesiana con Métodos Montecarlo vía Cadenas de Markov (MCMC) e implementada en R y WinBUGS.
Se realizó un estudio de simulación con el _n de estudiar la precisión en la recuperación de parámetros para el Modelo 2PL-GRM obteniéndose resultados apropiados para las medidas
de ajuste consideradas.
Los modelos 2PL-GRM y LPE-GRM estudiados fueron aplicados al estudio de un cuestionario acerca de la satisfacción de clientes y comparados con el tradicional análisis clásico de los test. La muestra del estudio está formada por 5354 clientes de una empresa de telecomunicaciones que se comunicaron con el Call Center de atención al cliente por algún motivo (consulta, reclamo, pedido, etc.). A través del análisis de dimensionalidad de la escala se encontró que el cuestionario evalúa dos dimensiones de la satisfacción con la atención al cliente: la Accesibilidad (4 ítems) y el Desempeño del asesor (7 ítems). Los resultados indican, considerando diferentes criterios, que en ambas dimensiones el modelo LPE-GRM es mejor.
Adicionalmente, ambos modelos ofrecen mejor información que el tradicional análisis clásico.
Se sugiere realizar diferentes estudios de simulación para evaluar distintas condiciones para la inferencia del modelo LPE-GRM puesto que para las mismas condiciones de estimación MCMC se observa que puede ser más demorado debido a que presenta mayor autocorrelación que el modelo 2PL-GRM.
|
85 |
Análisis de las relaciones entre cursos del Departamento de Ingeniería Industrial en base a técnicas de data miningAraos Moya, Andrés Arturo January 2014 (has links)
Ingeniero Civil Industrial / La mejora continua de los procesos de educación superior es entendida como uno de los objetivos de las instituciones que la imparten. Es bajo este contexto que existen los llamados Modelos Curriculares, que pretenden modelar las interacciones que existen entre los procesos educativos y administrativos, actores del sistema y variables clave, que son finalmente las que determinan qué tan eficiente y bueno será el aprendizaje del alumno.
La Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile no es la excepción, por lo que ha ido avanzando en lograr una mejora continua de sus programas. Estos utilizan como referente el llamado Modelo Basado en Competencias, que plantea una mirada donde los estudiantes deben ir aprendiendo progresivamente habilidades y conocimientos previamente definidos en el perfil del profesional que se esté formando. En este Trabajo de Título se estudiará el caso particular de la carrera de Ingeniería Civil Industrial.
Es bajo este contexto que se plantea como principal objetivo el análisis de las relaciones que existen entre los distintos cursos del departamento. Esto busca diagnosticar la eficacia con la que fue diseñada la Malla Curricular del departamento, que supone el camino lógico para la obtención de las competencias previamente definidas que debe tener un profesional egresado de ingeniero civil industrial de la Universidad de Chile.
Para esto se propone la utilización de técnicas de Data Mining, específicamente la de Redes Bayesianas. Se espera de este trabajo un análisis de las relaciones observables de los cursos, tanto gráficamente como de las probabilidades condicionales, para así relacionar los cursos y los resultados académicos. Por otro lado, también se espera poder identificar las principales variables que influyen en el rendimiento académico del alumno.
Los resultados muestran que existen relaciones entre varios cursos y que además muchas de ellas coinciden con las propuestas por la Malla Curricular. Por otro lado, se plantea que la distribución del tiempo en el semestre por parte del alumno y la motivación pueden ser variables determinantes, además de las habilidades y conocimientos que entregan los cursos. Por otro lado se plantea que el modelo debe ser mejorado o cambiado a uno que soporte la inclusión de una mayor cantidad de variables, puesto que este se ve limitado por la cantidad de datos y por la complejidad del problema.
|
86 |
Redes Bayesianas aplicada à predição de vendas em uma grande rede de fast-food brasileira / Bayesian Networks applied to the prediction of sales in a large Brazilian fast food chainSilva, Robson Fernandes da 18 February 2019 (has links)
O segmento de fast-food tornou-se um mercado muito concorrido e com empresas bem conhecidas, tais como: Subway, McDonalds, Burguer King, Bobs e Habibs. Técnicas de inteligência artificial e ciência de dados podem oferecer inúmeros benefícios para este mercado, como por exemplo, permitir o desenvolvimento de modelos computacionais para tomada de decisões. No contexto de finanças onde envolvam a comercialização de determinados produtos, é muito comum deparar-se com cenários que envolvam incerteza, principalmente quando se deseja realizar projeções financeiras, avaliar riscos e estimativas. O objetivo deste trabalho consiste em desenvolver modelos probabilísticos baseados em Redes Bayesianas (RB) para realizar predições em vendas e análise de causalidade entre variáveis que influenciam no processo de comercialização de determinados grupos de produtos no seguimento de fast-food. Nesta análise foram avaliadas Redes Bayesianas com aprendizado de estrutura baseado em restrições, através do algoritmo Grow Shrink (GS), e Redes Bayesianas com aprendizado de estrutura baseado em pontuação, através do algoritmo Hill-Climbing (HC), posteriormente foram comparadas com um modelo de série temporal baseado em Generalized Additive Model (GAM). Os dados para análise foram adquiridos de uma rede de fast-food brasileira que possui cerca de 1100 lojas associadas, destas, foram utilizadas lojas que pertencem ao estado de São Paulo, assim como avaliado variáveis de grupos de vendas no período de 2010 à 2017. Os resultados foram avaliados através da métrica Mean Absolute Percentage Error (MAPE), que considera valores reais alimentados em modelos e valores ajustados a partir do modelo e calcula a diferença absoluta entre os dois como porcentagem do valor real, com base neste cálculo é possível obter a acurácia de cada modelo. A Rede Bayesiana (RB) com aprendizagem de estrutura baseada em pontuação, utilizando o algoritmo Hill Climbing (HC), foi escolhida como o melhor modelo, pois apresentou relações causais mais coerentes entre os vértices que influenciam o processo de venda, bem como combinações de vértices que resultam em combos de produtos, além disso, resultou em 97.60% de acurácia na previsão de vendas das lojas do estado de São Paulo (SP) na amostra de teste avaliada, com base na métrica Mean Absolute Percentage Error (MAPE). / The fast-food segment has become a busy market with well-known companies such as: Subway, McDonalds, Burger King, Bobs and Habibs. Artificial intelligence and data science techniques can offer innumerable benefits to this market, such as allowing the development of computational models for decision making. In the context of finances involving the marketing of certain products, it is very common to come across scenarios where uncertainty is involved, especially when financial projections are desired, to evaluate risks and estimation. The objective of this work is to develop probabilistic models based on Bayesian Networks (BN) to make sales predictions and causality analysis among variables that influence the commercialization process of certain product groups in the fast-food segment. In this analysis we evaluated Bayesian networks with learning of structure based on constraints, through the algorithm Grow Shrink (GS), and Bayesian Networks with learning of structure based on score, through the algorithm Hill-Climbing (HC), later were compared with a model time series based on Generalized Additive Model (GAM). The data for analysis were acquired from a Brazilian fast-food chain with approximately 1100 associated stores, of which stores were used that belong to the state of São Paulo, as well as evaluated variables of sales groups in the period from 2010 to 2017. The results were evaluated by using the Mean Absolute Percentage Error (MAPE), which considers real values fed in models and values adjusted from the model and calculates the absolute difference between the two as a percentage of the real value, based on this calculation it is possible to obtain the accuracy of each model. The Bayesian Network (BN) with scoring based structure learning, using the Hill Climbing (HC) algorithm, was chosen as the best model because it presented more coherent causal relationships between vertices that influence the sales process, as well as combinations of vertices that result in product combos, in addition, achieved a 97.60% accuracy in the sales forecast of stores in the state of Sao Paulo (SP) in the test sample evaluated, based on the Mean Absolute Percentage Error (MAPE) metric.
|
87 |
Redes probabilísticas: aprendendo estruturas e atualizando probabilidades / Probabilistic networks: learning structures and updating probabilitiesFaria, Rodrigo Candido 28 May 2014 (has links)
Redes probabilísticas são modelos muito versáteis, com aplicabilidade crescente em diversas áreas. Esses modelos são capazes de estruturar e mensurar a interação entre variáveis, permitindo que sejam realizados vários tipos de análises, desde diagnósticos de causas para algum fenômeno até previsões sobre algum evento, além de permitirem a construção de modelos de tomadas de decisões automatizadas. Neste trabalho são apresentadas as etapas para a construção dessas redes e alguns métodos usados para tal, dando maior ênfase para as chamadas redes bayesianas, uma subclasse de modelos de redes probabilísticas. A modelagem de uma rede bayesiana pode ser dividida em três etapas: seleção de variáveis, construção da estrutura da rede e estimação de probabilidades. A etapa de seleção de variáveis é usualmente feita com base nos conhecimentos subjetivos sobre o assunto estudado. A construção da estrutura pode ser realizada manualmente, levando em conta relações de causalidade entre as variáveis selecionadas, ou semi-automaticamente, através do uso de algoritmos. A última etapa, de estimação de probabilidades, pode ser feita seguindo duas abordagens principais: uma frequentista, em que os parâmetros são considerados fixos, e outra bayesiana, na qual os parâmetros são tratados como variáveis aleatórias. Além da teoria contida no trabalho, mostrando as relações entre a teoria de grafos e a construção probabilística das redes, também são apresentadas algumas aplicações desses modelos, dando destaque a problemas nas áreas de marketing e finanças. / Probabilistic networks are very versatile models, with growing applicability in many areas. These models are capable of structuring and measuring the interaction among variables, making possible various types of analyses, such as diagnoses of causes for a phenomenon and predictions about some event, besides allowing the construction of automated decision-making models. This work presents the necessary steps to construct those networks and methods used to doing so, emphasizing the so called Bayesian networks, a subclass of probabilistic networks. The Bayesian network modeling is divided in three steps: variables selection, structure learning and estimation of probabilities. The variables selection step is usually based on subjective knowledge about the studied topic. The structure learning can be performed manually, taking into account the causal relations among variables, or semi-automatically, through the use of algorithms. The last step, of probabilities estimation, can be treated following two main approaches: by the frequentist approach, where parameters are considered fixed, and by the Bayesian approach, in which parameters are treated as random variables. Besides the theory contained in this work, showing the relations between graph theory and the construction of probabilistic networks, applications of these models are presented, highlighting problems in marketing and finance.
|
88 |
Classificação do risco de infestação de regiões por plantas daninhas utilizando lógica Fuzzy e redes Bayesianas / Classification of the risk of infestation per regions of a crop by weeds using Fuzzy and Bayesian networksBressan, Glaucia Maria 16 July 2007 (has links)
O presente trabalho tem como objetivo principal a classificação do risco de infestação por regiões de culturas vegetais por plantas daninhas. Os riscos por regiões são obtidos por um sistema de classificação fuzzy, usando métodos de Krigagem e análise de imagens. A infestação é descrita por atributos da cobertura foliar, densidade de sementes, extensão dos agrupamentos de sementes e competitividade, obtidos a partir das amostras de densidades de sementes e de plantas daninhas, da cobertura foliar e da biomassa de plantas daninhas. O atributo da cobertura foliar indica a porcentagem de ocupação das plantas emergentes e é obtido a partir de um mapa de cobertura foliar, construído usando Krigagem. O atributo da densidade de sementes caracteriza a localização das sementes que podem germinar e é obtido a partir de um mapa da distribuição da produção de sementes das plantas daninhas, também construído usando Krigagem. O atributo da extensão dos agrupamentos de sementes reflete a influência das sementes vizinhas em uma certa localização e também é obtido a partir do mapa de distribuição da produção de sementes. O atributo da competitividade entre plantas daninhas e cultura é obtido a partir de um sistema neurofuzzy, utilizando amostras de densidade e de biomassa das plantas daninhas. Para reunir os riscos de infestação semelhantes, os valores de risco inferidos por região pelo sistema fuzzy são agrupados considerando valores e localizações próximas utilizando o método k-médias com coeficiente de variação. Uma abordagem probabilística com redes de classificação Bayesianas é também empregada para a obtenção de um conjunto de regras linguísticas para classificar a competitividade e o risco de infestação, por motivo de comparação. Resultados para o risco de infestação são obtidos para uma área experimental em uma cultura de milho indicando a existência de riscos diferenciados que são explicados pela perda de rendimento da cultura. / The goal of this work is the classification of the risk of infestation per regions of a crop by weeds. The risks per regions are obtained by a fuzzy classification system, using kriging and image analysis. The infestation is described by attributes of the weed coverage, weed seed density, weed seed patches and competitiveness, obtained from weed seeds and weed densities, weed coverage and biomass. The attribute of the weed coverage indicates the percentage of infested surface of the emergent weeds which is obtained from a weed coverage map built with kriging. The attribute of the weed seed density is obtained from a weed seed production map also built with kriging which characterizes the locations of seeds which can germinate. The attribute of the weed seed patches is also obtained by the weed seed production map which reflects how the seeds contribute to weed proliferation in the surroundings. The attribute of the competitiveness among weeds and crop is obtained from a neurofuzzy system, using the weeds density and biomass of the plants. In order to aggregate the similar risks of infestation, the values of risks per region inferred by the fuzzy system are clustered according to similar values and locations using the k-means method with a variation coefficient. A probabilistic approach with Bayesian networks classifiers is also considered to obtain a set of linguistic rules to classify the competitiveness and the risk of infestation, for comparison purposes. Results for the risk of infestation are obtained for an experimental area in a corn crop which indicate the existence of different risks, explained by the yield loss of the crop.
|
89 |
Aplicação de análises multivariadas em meta-raciocínio bayesiano: uma abordagem para sistemas especialistas de tempo-real.Carlos Eduardo Bognar 20 October 2008 (has links)
Redes Bayesianas (RB) oferecem um método prático para o tratamento de incertezas em sistemas especialistas probabilísticos. Considerando que os problemas de atualização de crença e revisão crença em redes multiplamente conectadas são NP-Difíceis, alguns pesquisadores aplicaram processos de meta-raciocínio às inferências, para selecionar algoritmos para as tarefas. Quando possível, os métodos exatos devem ser adotados. Caso contrário, os algoritmos aproximados podem ser selecionados. Como a qualidade das inferências aproximadas varia a cada instância, os dados de entrada contêm características que afetam os desempenhos dos algoritmos. O problema de meta-raciocínio investigado está relacionado com a escolha do algoritmo para uma determinada instância de inferência, considerando restrições temporais. Para realizar meta-raciocínio, essa Tese propõe um método de caracterização da RB e associação conjunta dessas características, aplicando análises multivariadas. Os modelos são utilizados para a predição da probabilidade de que um algoritmo exato possa ser adotado em uma instância específica ou para a escolha do algoritmo aproximado com a melhor qualidade dos resultados. Análises experimentais comparam algumas abordagens alternativas, tais como análise de regressão simples, curvas de utilidade e técnicas de aprendizagem de máquina, mostrando resultados superiores quando análises multivariadas são aplicadas no processo de meta-raciocínio.
|
90 |
INTERESSABILIDADE DE MODELOS DE REGRESSÃO EM MINERAÇÃO DE DADOS AGRÍCOLASEstevam Junior, Valter Luís 26 February 2015 (has links)
Made available in DSpace on 2017-07-21T14:19:22Z (GMT). No. of bitstreams: 1
Valter Luis.pdf: 3516533 bytes, checksum: d498d5c67dd1b9a837a128c20cabef67 (MD5)
Previous issue date: 2015-02-26 / The interestingness area of data mining process aiming to reduce the amount of models to be analyzed for experts in the interpretation step of the knowledge discovery in databases. In this work, a method for analysis the interestingness of regression models was developed. This method combine probabilistic multivariate models with Pearson correlation test and Wilcoxon signed-rank test resulting in a new interestingness measure, named Impact. The developed method was applied over regression models found during a data mining process for estimating agricultural gypsum requirements. The results showed that the probabilistic multivariate filter was able to filter the best models according to a utility-based approach, in this case, for practical application on agriculture. Six models were considered interesting, with Impact score > 0.5, and only one was miscategorized. On the other hand, the combined statistical test filters were able to filter six models two of them were miscategorized. The attributes identified as most relevant to estimate gypsum rate were: time, Ca and its concentration on effective cation exchange capacity (CaCTCe), mainly in superficial layers. / A interessabilidade de regras é uma área da mineração de dados que tem por objetivo reduzir a quantidade de modelos a serem analisados por especialistas na etapa de interpretação do conhecimento descoberto em bases de dados. Embora existam várias medidas de interesse de regras voltadas para as tarefas de associação e classificação, observa-se uma falta de métodos consolidados para análise de interessabilidade de modelos de regressão. Neste trabalho foi desenvolvido um método para analisar a interessabilidade de modelos de regressão, o qual combina um filtro baseado em modelos probabilísticos multivariados com filtros baseados em testes estatísticos de correlação de Pearson e de postos de sinais de Wilcoxon, resultando em uma nova medida de interessabilidade denominada Impacto. O método desenvolvido foi aplicado sobre modelos de regressão encontrados no processo de mineração de dados para estimativa de gesso agrícola. Estes dados resultam de três experimentos sob Sistema Plantio Direto realizados na Região dos Campos Gerais, PR, nos quais foram medidos, em diferentes épocas, os teores dos nutrientes do solo após a aplicação de doses de gesso. Os resultados mostraram que o filtro probabilístico multivariado foi capaz de filtrar os melhores modelos segundo uma visão de utilidade, ou seja, de potencial de aplicação agronômica. Foram selecionados seis modelos com score de Impacto > 0,5, ou seja, considerados interessantes, e destes apenas um foi considerado incorretamente classificado. Por outro lado, os filtros baseados em testes estatísticos foram capazes de filtrar seis modelos sendo que dois deles podem ser considerados incorretamente classificados. Os atributos identificados como mais relevantes para o problema do gesso agrícola foram a época, o teor de Ca e a concentração de Ca em relação à capacidade de troca catiônica efetiva (CTCe), especialmente em camadas superficiais do solo.
|
Page generated in 0.0834 seconds