101 |
Modelo de regressão para dados com censura intervalar e dados de sobrevivência grupados / Regression model for interval-censored data and grouped survival dataElizabeth Mie Hashimoto 04 February 2009 (has links)
Neste trabalho foi proposto um modelo de regressão para dados com censura intervalar utilizando a distribuição Weibull-exponenciada, que possui como característica principal a função de taxa de falha que assume diferentes formas (unimodal, forma de banheira, crescente e decrescente). O atrativo desse modelo de regressão é a sua utilização para discriminar modelos, uma vez que o mesmo possui como casos particulares os modelos de regressão Exponencial, Weibull, Exponencial-exponenciada, entre outros. Também foi estudado um modelo de regressão para dados de sobrevivência grupados na qual a abordagem é fundamentada em modelos de tempo discreto e em tabelas de vida. A estrutura de regressão representada por uma probabilidade é modelada adotando-se diferentes funções de ligação, tais como, logito, complemento log-log, log-log e probito. Em ambas as pesquisas, métodos de validação dos modelos estatísticos propostos são descritos e fundamentados na análise de sensibilidade. Para detectar observações influentes nos modelos propostos, foram utilizadas medidas de diagnóstico baseadas na deleção de casos, denominadas de influência global e medidas baseadas em pequenas perturbações nos dados ou no modelo proposto, denominada de influência local. Para verificar a qualidade de ajuste do modelo e detectar pontos discrepantes foi realizada uma análise de resíduos nos modelos propostos. Os resultados desenvolvidos foram aplicados a dois conjuntos de dados reais. / In this study, a regression model for interval-censored data were developed, using the Exponentiated- Weibull distribution, that has as main characteristic the hazard function which assumes different forms (unimodal, bathtub shape, increase, decrease). A good feature of that regression model is their use to discriminate models, that have as particular cases, the models of regression: Exponential, Weibull, Exponential-exponentiated, amongst others. Also a regression model were studied for grouped survival data in which the approach is based in models of discrete time and in life tables, the regression structure represented by a probability is modeled through the use of different link function, logit, complementary log-log, log-log or probit. In both studies, validation methods for the statistical models studied are described and based on the sensitivity analysis. To find influential observations in the studied models, diagnostic measures were used based on case deletion, denominated as global influence and measures based on small perturbations on the data or in the studied model, denominated as local influence. To verify the goodness of fitting of the model and to detect outliers it was performed residual analysis for the proposed models. The developed results were applied to two real data sets.
|
102 |
Data Reduction Methods for Deep ImagesWahlberg, David January 2017 (has links)
Deep images for use in visual effects work during deep compositing tend to be very large. Quite often the files are larger than needed for their final purpose, which opens up an opportunity for optimizations. This research project is about finding methods for identifying redundant and excessive data use in deep images, and then approximate this data by resampling it and representing it using less data. Focus was on maintaining the final visual quality while optimizing the files so the methods can be used in a sharp production environment. While not being very successful processing geometric data, the results when optimizing volumetric data were very succesfull and over the expectations.
|
103 |
Réseaux et signal : des outils de traitement du signal pour l'analyse des réseaux / Networks and signal : signal processing tools for network analysisTremblay, Nicolas 09 October 2014 (has links)
Cette thèse propose de nouveaux outils adaptés à l'analyse des réseaux : sociaux, de transport, de neurones, de protéines, de télécommunications... Ces réseaux, avec l'essor de certaines technologies électroniques, informatiques et mobiles, sont de plus en plus mesurables et mesurés ; la demande d'outils d'analyse assez génériques pour s'appliquer à ces réseaux de natures différentes, assez puissants pour gérer leur grande taille et assez pertinents pour en extraire l'information utile, augmente en conséquence. Pour répondre à cette demande, une grande communauté de chercheurs de différents horizons scientifiques concentre ses efforts sur l'analyse des graphes, des outils mathématiques modélisant la structure relationnelle des objets d'un réseau. Parmi les directions de recherche envisagées, le traitement du signal sur graphe apporte un éclairage prometteur sur la question : le signal n'est plus défini comme en traitement du signal classique sur une topologie régulière à n dimensions, mais sur une topologie particulière définie par le graphe. Appliquer ces idées nouvelles aux problématiques concrètes d'analyse d'un réseau, c'est ouvrir la voie à une analyse solidement fondée sur la théorie du signal. C'est précisément autour de cette frontière entre traitement du signal et science des réseaux que s'articule cette thèse, comme l'illustrent ses deux principales contributions. D'abord, une version multiéchelle de détection de communautés dans un réseau est introduite, basée sur la définition récente des ondelettes sur graphe. Puis, inspirée du concept classique de bootstrap, une méthode de rééchantillonnage de graphes est proposée à des fins d'estimation statistique. / This thesis describes new tools specifically designed for the analysis of networks such as social, transportation, neuronal, protein, communication networks... These networks, along with the rapid expansion of electronic, IT and mobile technologies are increasingly monitored and measured. Adapted tools of analysis are therefore very much in demand, which need to be universal, powerful, and precise enough to be able to extract useful information from very different possibly large networks. To this end, a large community of researchers from various disciplines have concentrated their efforts on the analysis of graphs, well define mathematical tools modeling the interconnected structure of networks. Among all the considered directions of research, graph signal processing brings a new and promising vision : a signal is no longer defined on a regular n-dimensional topology, but on a particular topology defined by the graph. To apply these new ideas on the practical problems of network analysis paves the way to an analysis firmly rooted in signal processing theory. It is precisely this frontier between signal processing and network science that we explore throughout this thesis, as shown by two of its major contributions. Firstly, a multiscale version of community detection in networks is proposed, based on the recent definition of graph wavelets. Then, a network-adapted bootstrap method is introduced, that enables statistical estimation based on carefully designed graph resampling schemes.
|
104 |
Contributions to robust methods in nonparametric frontier modelsBruffaerts, Christopher 10 September 2014 (has links)
Les modèles de frontières sont actuellement très utilisés par beaucoup d’économistes, gestionnaires ou toute personne dite « decision-maker ». Dans ces modèles de frontières, le but du chercheur consiste à attribuer à des unités de production (des firmes, des hôpitaux ou des universités par exemple) une mesure de leur efficacité en terme de production. Ces unités (dénotées DMU-Decision-Making Units) utilisent-elles à bon escient leurs « inputs » et « outputs »? Font-elles usage de tout leur potentiel dans le processus de production? <p>L’ensemble de production est l’ensemble contenant toutes les combinaisons d’inputs et d’outputs qui sont physiquement réalisables dans une économie. De cet ensemble contenant p inputs et q outputs, la notion d’efficacité d ‘une unité de production peut être définie. Celle-ci se définie comme une distance séparant le DMU de la frontière de l’ensemble de production. A partir d’un échantillon de DMUs, le but est de reconstruire cette frontière de production afin de pouvoir y évaluer l’efficacité des DMUs. A cette fin, le chercheur utilise très souvent des méthodes dites « classiques » telles que le « Data Envelopment Analysis » (DEA).<p><p>De nos jours, le statisticien bénéficie de plus en plus de données, ce qui veut également dire qu’il n’a pas l’opportunité de faire attention aux données qui font partie de sa base de données. Il se peut en effet que certaines valeurs aberrantes s’immiscent dans les jeux de données sans que nous y fassions particulièrement attention. En particulier, les modèles de frontières sont extrêmement sensibles aux valeurs aberrantes et peuvent fortement influencer l’inférence qui s’en suit. Pour éviter que certaines données n’entravent une analyse correcte, des méthodes robustes sont utilisées.<p><p>Allier le côté robuste au problème d’évaluation d’efficacité est l’objectif général de cette thèse. Le premier chapitre plante le décor en présentant la littérature existante dans ce domaine. Les quatre chapitres suivants sont organisés sous forme d’articles scientifiques. <p>Le chapitre 2 étudie les propriétés de robustesse d’un estimateur d’efficacité particulier. Cet estimateur mesure la distance entre le DMU analysé et la frontière de production le long d’un chemin hyperbolique passant par l’unité. Ce type de distance très spécifique s’avère très utile pour définir l’efficacité de type directionnel. <p>Le chapitre 3 est l’extension du premier article au cas de l’efficacité directionnelle. Ce type de distance généralise toutes les distances de type linéaires pour évaluer l’efficacité d’un DMU. En plus d’étudier les propriétés de robustesse de l’estimateur d’efficacité de type directionnel, une méthode de détection de valeurs aberrantes est présentée. Celle-ci s’avère très utile afin d’identifier les unités de production influençantes dans cet espace multidimensionnel (dimension p+q). <p>Le chapitre 4 présente les méthodes d’inférence pour les efficacités dans les modèles nonparamétriques de frontière. En particulier, les méthodes de rééchantillonnage comme le bootstrap ou le subsampling s’avère être très utiles. Dans un premier temps, cet article montre comment améliorer l’inférence sur les efficacités grâce au subsampling et prouve qu’il n’est pas suffisant d’utiliser un estimateur d’efficacité robuste dans les méthodes de rééchantillonnage pour avoir une inférence qui soit fiable. C’est pourquoi, dans un second temps, cet article propose une méthode robuste de rééchantillonnage qui est adaptée au problème d’évaluation d’efficacité. <p>Finalement, le dernier chapitre est une application empirique. Plus précisément, cette analyse s’intéresse à l ‘efficacité des universités américaines publiques et privées au niveau de leur recherche. Des méthodes classiques et robustes sont utilisées afin de montrer comment tous les outils étudiés précédemment peuvent s’appliquer en pratique. En particulier, cette étude permet d’étudier l’impact sur l’efficacité des institutions américaines de certaines variables telles que l’enseignement, l’internationalisation ou la collaboration avec le monde de l’industrie.<p> / Doctorat en sciences, Orientation statistique / info:eu-repo/semantics/nonPublished
|
105 |
Dimensionamento amostral para análise de trilha em caracteres de milho / Sample size for path analysis in traits of maizeToebe, Marcos 16 May 2014 (has links)
Conselho Nacional de Desenvolvimento Científico e Tecnológico / The objective of this study was to determine the sample size necessary to estimate the average, the coefficient of variation, the Pearson linear correlation coefficient and the direct effects of explanatory variables on grain yield in maize. In 361, 373 and 416 plants, respectively, of the simple, triple and double hybrids of the 2008/09 crop and, in 1,777, 1,693 and 1,720 plants, respectively, of the simple, triple and double hybrids of the 2009/10 crop, were measured eleven explanatory variables: plant height at harvest (AP), ear height (AIE), ear weight (PE), number of grain rows per ear (NF), ear length (CE), ear diameter (DE), cob weight (PS), cob diameter (DS), weight of hundred grains (MCG), number of grains per ear (NGR), grain length (CGR) and the main variable, grain yield (PROD). For each hybrid and crop, descriptives statistics for each variable were calculated and the correlation coefficients and direct effects of explanatory variables on PROD were estimated, in nine scenarios of traditional and ridge path analysis. Then, the sample size necessary to estimate the average, the coefficients of variation and of correlation and the direct effects of each explanatory variable on PROD were determined, for each type of hybrid, crop, scenario and type of path analysis, by resampling with replacement. The sample size necessary to estimate the mean and the coefficients of variation and of correlation ranges among hybrids, crops and variables or pairs of variables. The sample size necessary to estimate the direct effects ranges among hybrids, crops, scenarios, types of path analysis and explanatory variables. Independently of hybrid, crop and variable, 375 plants are enough to estimate the mean and the coefficient of variation with amplitude of the confidence interval of 95% (AIC95%) maximum of 10% and for the estimation of the correlation coefficients with a AIC95% maximum of 0.25. For the estimation of direct effects, with AIC95% maximum of 0.25, are required from 10 to 530 plants, depending of the type of hybrid, crop, scenario, type of path analysis and explanatory variable. The measurement of 120 plants is sufficient to estimate the average with AIC95% maximum of 20%, for the estimation of the coefficient of variation with AIC95% maximum of 15% and for the estimation of correlation coefficients with AIC95% maximum of 0.45, independently of the hybrid, crop and variable. The measurement of 120 plants is also sufficient for the estimation of the direct effects of AIE, CE and DE on PROD in the ninth scenario, with AIC95% maximum of 0.25, and in the ninth scenario, CE and DE have greater direct effects on PROD, independent of the type of hybrid, the crop and the type of path analysis. / O objetivo deste trabalho foi determinar o tamanho de amostra necessário para a estimação da média, do coeficiente de variação, do coeficiente de correlação linear de Pearson e dos efeitos diretos de variáveis explicativas sobre a produtividade de grãos em milho. Em 361, 373 e 416 plantas, respectivamente, dos híbridos simples, triplo e duplo da safra 2008/09 e, em 1.777, 1.693 e 1.720 plantas, respectivamente, dos híbridos simples, triplo e duplo da safra 2009/10, foram mensuradas onze variáveis explicativas: altura de planta na colheita (AP), altura de inserção de espiga (AIE), peso de espiga (PE), número de fileiras de grãos por espiga (NF), comprimento de espiga (CE), diâmetro de espiga (DE), peso de sabugo (PS), diâmetro de sabugo (DS), massa de cem grãos (MCG), número de grãos por espiga (NGR), comprimento de grãos (CGR) e, a variável principal produtividade de grãos (PROD). A seguir, em cada híbrido e safra, foram calculadas estatísticas descritivas para cada variável e estimados os coeficientes de correlação e os efeitos diretos de variáveis explicativas sobre a PROD, para nove cenários de análises de trilha tradicional e em crista. Após, determinou-se o tamanho de amostra necessário para a estimação da média, dos coeficientes de variação e de correlação e dos efeitos diretos de cada variável explicativa sobre a PROD, em cada tipo de híbrido, safra, cenário e tipo de análise de trilha, por meio de reamostragem com reposição. O tamanho de amostra necessário para a estimação da média e dos coeficientes de variação e de correlação varia entre híbridos, safras e variáveis ou pares de variáveis. O tamanho de amostra necessário para a estimação dos efeitos diretos varia entre híbridos, safras, cenários, tipos de análises de trilha e variáveis explicativas. Independentemente do híbrido, da safra e da variável, 375 plantas são suficientes para a estimação da média e do coeficiente de variação com amplitude do intervalo de confiança de 95% (AIC95%) máxima de 10% e, para a estimação de coeficientes de correlação com AIC95% máxima de 0,25. Para a estimação de efeitos diretos com AIC95% máxima de 0,25, são necessárias de 10 a 530 plantas, dependendo do tipo de híbrido, da safra, do cenário, do tipo de análise de trilha e da variável explicativa. A mensuração de 120 plantas é suficiente para a estimação da média com AIC95% máxima de 20%, para a estimação do coeficiente de variação com AIC95% máxima de 15% e, para a estimação de coeficientes de correlação com AIC95% máxima de 0,45, independentemente do híbrido, da safra e da variável. A mensuração de 120 plantas também é suficiente para a estimação dos efeitos diretos de AIE, CE e DE sobre PROD no nono cenário, com AIC95% máxima de 0,25, sendo que nesse cenário, CE e DE possuem maiores efeitos diretos sobre PROD, independentemente do tipo de híbrido, da safra e do tipo de análise de trilha.
|
106 |
Impacts des dépôts d'azote atmosphérique sur la végétation des prairies acides du domaine atlantique français : approche comparative et expérimentale / The impacts of atmospheric nitrogen deposition on the vegetation of acid grasslands along the French Atlantic domain : Comparative and experimental approachGaudnik, Cassandre 06 December 2011 (has links)
Afin d’appréhender l’impact des dépôts d’azote atmosphérique sur les écosystèmes,nous nous sommes intéressés à un écosystème d’intérêt patrimonial : les prairies acides duViolion caninae. Au sein de ces prairies, les objectifs étaient de (i) quantifier les variationsfloristiques temporelles et spatiales le long du domaine atlantique français et de déterminer siles variables de dépôts d’azote et du climat expliquaient ces patrons, (ii) comprendre lesprocessus mis en jeu lors de l’enrichissement en azote au niveau de la végétation et du sol, et(iii) examiner les moyens potentiels de conservation et de restauration.L’étude temporelle et spatiale des prairies acides a permis de mettre en évidence deschangements de composition à l’échelle locale du type de communautés mais également àl’échelle nationale du domaine atlantique français. A l’échelle locale et nationale, ceschangements ont pu être reliés à des changements climatiques d’augmentation de latempérature annuelle moyenne et de diminution de la disponibilité en eau du sol. Toutefois àl’échelle locale, les plus forts changements de végétation ont été perçus pour les sites soumiségalement aux plus forts dépôts chroniques d’azote depuis les 25 dernières années. Ceschangements de composition se sont produits au détriment des espèces de petites tailles, tellesque des dicotylédones, alors que les Poacées généralistes se sont maintenues en dominant lecouvert végétal. Ces changements sont visibles dès 10-15 kg N ha-1 an-1, déterminé comme lacharge critique d’azote pour les prairies acides.L’approche expérimentale a permis de souligner les processus mis en jeu dans ceshabitats acides lors d’un apport d’azote. Notamment, l’enrichissement en azote n’entraineraitpas de compétition pour la lumière au sein de la végétation. Ce type de milieu, principalementdéfini par son caractère oligotrophe et sa faible capacité à neutraliser l’acidité du sol,semblerait donc essentiellement affecté par des mécanismes de toxicité de l’ammonium voired’acidification du milieu à long terme.Enfin, les moyens de restauration étudiés ont montré la difficulté de conserver et derestaurer de tels habitats potentiellement affectés par les dépôts d’azote. En effet, l’utilisationde fauches répétées avec exportation de la biomasse a montré son inutilité dans un systèmequi n’est pas influencé par la compétition pour la lumière. De même, l’étude des banques degraines a montré que ce pool d’espèces ne pouvait pas représenter le seul moyen deconservation des espèces caractéristiques. Ces résultats révèlent l’importance de conserver lesprairies acides existantes, principalement dans des sites soumis à de faibles dépôts ambiants. / To assess the impact of atmospheric nitrogen deposition on ecosystems, we werefocused on a patrimonial interest ecosystem: acid grasslands of Violion caninae. Within thesegrasslands, we aimed to (i) characterise temporal and spatial variation in plant speciescomposition along the French Atlantic domain and determine if nitrogen deposition andclimate variables could explain these patterns, (ii) understand processes underlined bynitrogen addition on vegetation and soil, and (iii) examine the potential conservation andrestoration ways.Temporal and spatial approach of acid grasslands brought to light changes in speciescomposition at local scale of community type but also at the national French Atlantic domainscale. At both local and national scale, these changes were linked to climate change withincrease of mean annual temperature and decrease of soil water availability. However at localscale, the most changes in species composition were experienced on sites with climate changeand also the highest chronic nitrogen deposition since the last 25 years. These changes inspecies composition occurred at the expense of short stature species like forbs whereasgrasses species were persistent and dominated vegetation. These changes are visible from 10-15 kg N ha-1 an-1, determined as the critical load for nitrogen in acid grasslands.The experiment allowed to highlight processes underlined in acid grasslands afternitrogen addition. In particular, nitrogen enrichment did not lead to light competition invegetation. These grasslands, mainly defined by poor-nutrient and low capacity to bufferacidity in soil, were essentially affected by ammonium toxicity or even acidification on thelong range.Finally, the study of conservation ways showed the difficulty to conserve and restorethe grasslands affected by nitrogen deposition. Indeed, more frequent cuttings with biomassremoval were useless in a system not influenced by light competition within vegetation. Thestudy of seed banks showed also that conservation ways could not be based just on seed banksto maintain characteristic species. These results highlight the importance to conserve theexisting acid grasslands, mostly in region with low ambient nitrogen deposition.
|
107 |
Contributions aux méthodes de Monte Carlo et leur application au filtrage statistique / Contributions to Monte Carlo methods and their application to statistical filteringLamberti, Roland 22 November 2018 (has links)
Cette thèse s’intéresse au problème de l’inférence bayésienne dans les modèles probabilistes dynamiques. Plus précisément nous nous focalisons sur les méthodes de Monte Carlo pour l’intégration. Nous revisitons tout d’abord le mécanisme d’échantillonnage d’importance avec rééchantillonnage, puis son extension au cadre dynamique connue sous le nom de filtrage particulaire, pour enfin conclure nos travaux par une application à la poursuite multi-cibles.En premier lieu nous partons du problème de l’estimation d’un moment suivant une loi de probabilité, connue à une constante près, par une méthode de Monte Carlo. Tout d’abord,nous proposons un nouvel estimateur apparenté à l’estimateur d’échantillonnage d’importance normalisé mais utilisant deux lois de proposition différentes au lieu d’une seule. Ensuite,nous revisitons le mécanisme d’échantillonnage d’importance avec rééchantillonnage dans son ensemble afin de produire des tirages Monte Carlo indépendants, contrairement au mécanisme usuel, et nous construisons ainsi deux nouveaux estimateurs.Dans un second temps nous nous intéressons à l’aspect dynamique lié au problème d’inférence bayésienne séquentielle. Nous adaptons alors dans ce contexte notre nouvelle technique de rééchantillonnage indépendant développée précédemment dans un cadre statique.Ceci produit le mécanisme de filtrage particulaire avec rééchantillonnage indépendant, que nous interprétons comme cas particulier de filtrage particulaire auxiliaire. En raison du coût supplémentaire en tirages requis par cette technique, nous proposons ensuite une procédure de rééchantillonnage semi-indépendant permettant de le contrôler.En dernier lieu, nous considérons une application de poursuite multi-cibles dans un réseau de capteurs utilisant un nouveau modèle bayésien, et analysons empiriquement les résultats donnés dans cette application par notre nouvel algorithme de filtrage particulaire ainsi qu’un algorithme de Monte Carlo par Chaînes de Markov séquentiel / This thesis deals with integration calculus in the context of Bayesian inference and Bayesian statistical filtering. More precisely, we focus on Monte Carlo integration methods. We first revisit the importance sampling with resampling mechanism, then its extension to the dynamic setting known as particle filtering, and finally conclude our work with a multi-target tracking application. Firstly, we consider the problem of estimating some moment of a probability density, known up to a constant, via Monte Carlo methodology. We start by proposing a new estimator affiliated with the normalized importance sampling estimator but using two proposition densities rather than a single one. We then revisit the importance sampling with resampling mechanism as a whole in order to produce Monte Carlo samples that are independent, contrary to the classical mechanism, which enables us to develop two new estimators. Secondly, we consider the dynamic aspect in the framework of sequential Bayesian inference. We thus adapt to this framework our new independent resampling technique, previously developed in a static setting. This yields the particle filtering with independent resampling mechanism, which we reinterpret as a special case of auxiliary particle filtering. Because of the increased cost required by this technique, we next propose a semi independent resampling procedure which enables to control this additional cost. Lastly, we consider an application of multi-target tracking within a sensor network using a new Bayesian model, and empirically analyze the results from our new particle filtering algorithm as well as a sequential Markov Chain Monte Carlo algorithm
|
108 |
Interpolace signálů pomocí NURBS křivek / Interpolation with NURBS curvesŠkvarenina, Ľubomír January 2014 (has links)
Diploma thesis deals with image interpolation. The aim of this work is to study theoretically and then describe the nature of the various methods of image interpolation and some of them implemented in the program MATLAB. The introductory part of this work theoretically closer to important terms that are closely related to this topic of digital image processing sufficient to understand the principle. In the following of the thesis will be discussed all of today's commonly used method of image interpolation. Will hear all about the method of image interpolation using nearest neightbor interpolation and image help of polynimals such as (bi)linear, (bi)quadratic and (bi)kubic method. Then work theoretically analyzes the theory of individual species curves and splines. More specifically, coming to their most frequently used variants of B-spline curves and ther generalizations called NURBS, with addressing the problem of interpolating these curves. The final chapter consists of the results achieved in the program MATLAB.
|
109 |
Data Engineering and Failure Prediction for Hard Drive S.M.A.R.T. DataRamanayaka Mudiyanselage, Asanga 08 September 2020 (has links)
No description available.
|
110 |
Statistical Modeling of Dynamic Risk in Security Systems / Statistisk modellering av dynamisk risk i säkerhetssystemSingh, Gurpreet January 2020 (has links)
Big data has been used regularly in finance and business to build forecasting models. It is, however, a relatively new concept in the security industry. This study predicts technology related alarm codes that will sound in the coming 7 days at location $L$ by observing the past 7 days. Logistic regression and neural networks are applied to solve this problem. Due to the problem being of a multi-labeled nature logistic regression is applied in combination with binary relevance and classifier chains. The models are trained on data that has been labeled with two separate methods, the first method labels the data by only observing location $L$. The second considers $L$ and $L$'s surroundings. As the problem is multi-labeled the labels are likely to be unbalanced, thus a resampling technique, SMOTE, and random over-sampling is applied to increase the frequency of the minority labels. Recall, precision, and F1-score are calculated to evaluate the models. The results show that the second labeling method performs better for all models and that the classifier chains and binary relevance model performed similarly. Resampling the data with the SMOTE technique increases the macro average F1-scores for the binary relevance and classifier chains models, however, the neural networks performance decreases. The SMOTE resampling technique also performs better than random over-sampling. The neural networks model outperforms the other two models on all methods and achieves the highest F1-score. / Big data har använts regelbundet inom ekonomi för att bygga prognosmodeller, det är dock ett relativt nytt koncept inom säkerhetsbranschen. Denna studie förutsäger vilka larmkoder som kommer att låta under de kommande 7 dagarna på plats $L$ genom att observera de senaste 7 dagarna. Logistisk regression och neurala nätverk används för att lösa detta problem. Eftersom att problemet är av en multi-label natur tillämpas logistisk regression i kombination med binary relevance och classifier chains. Modellerna tränas på data som har annoterats med två separata metoder. Den första metoden annoterar datan genom att endast observera plats $L$ och den andra metoden betraktar $L$ och $L$:s omgivning. Eftersom problemet är multi-labeled kommer annoteringen sannolikt att vara obalanserad och därför används resamplings metoden, SMOTE, och random over-sampling för att öka frekvensen av minority labels. Recall, precision och F1-score mättes för att utvärdera modellerna. Resultaten visar att den andra annoterings metoden presterade bättre för alla modeller och att classifier chains och binary relevance presterade likartat. Binary relevance och classifier chains modellerna som tränades på datan som använts sig av resamplings metoden SMOTE gav ett högre macro average F1-score, dock sjönk prestationen för neurala nätverk. Resamplings metoden SMOTE presterade även bättre än random over-sampling. Neurala nätverksmodellen överträffade de andra två modellerna på alla metoder och uppnådde högsta F1-score.
|
Page generated in 0.0564 seconds