Spelling suggestions: "subject:"détection d'anomalies"" "subject:"étection d'anomalies""
1 |
Extraction de motifs séquentiels dans les flux de donnéesMarascu, Alice 14 September 2009 (has links) (PDF)
Ces dernières années ont vu apparaître de nombreuses applications traitant des données générées en continu et à de grandes vitesses. Ces données sont désormais connues sous le nom de flux de données. Leurs quantités de données potentiellement infinies ainsi que les contraintes qui en dérivent posent de nombreux problèmes de traitement. Parmi ces contraintes, citons par exemple l'impossibilité de bloquer un flux de données, ou encore le besoin de produire des résultats en temps réel. Néanmoins, les multiples domaines d'application de ces traitements (comme les transactions bancaires, l'usage du Web, la surveillance des réseaux, etc) ont suscité beaucoup d'intérêt tant dans les milieux industriels qu'académiques. Ces quantités potentiellement infinies de données interdisent tout espoir de stockage complet ; toutefois, on a besoin de pouvoir interroger l'historique des flux. Cela a conduit au compromis des « résumés » des flux de données et des résultats « approximatifs ». Aujourd'hui, un grand nombre de méthodes propose différents types de résumés des flux de données. Mais le développement incessant de la technologie et des applications afférentes demande un développement au moins équivalent des méthodes d'analyse et de résumé. De plus, l'extraction de motifs séquentiels y est encore peu étudiée: au commencement de cette thèse, il n'existait aucune méthode d'extraction de motifs séquentiels dans les flux de données. Motivés par ce contexte, nous nous sommes intéressés à une méthode qui résume les flux de données d'une manière efficace et fiable et qui permet principalement d'en extraire des motifs séquentiels. Dans cette thèse, nous proposons l'approche CLARA (CLAssification, Résumés et Anomalies). CLARA permet d'obtenir des clusters à partir d'un flux de séquences d'itemsets, de calculer et gérer des résumés de ces clusters et d'y détecter des anomalies. Les différentes contributions détaillées dans ce mémoire concernent: - La classification non supervisée de séquences d'itemsets sous forme de flux. A notre connaissance, cette technique est la première à permettre une telle classification. - Les résumés de flux de données à l'aide de l'extraction de motifs. Les résumés de CLARA sont composés de motifs séquentiels alignés représentant les clusters associés à leur historique dans le flux. L'ensemble de ces motifs permet de résumer le flux de manière fiable à un instant t. La gestion de l'historique de ces motifs est un point essentiel dans l'analyse des flux. CLARA introduit une nouvelle gestion de la granularité temporelle afin d'optimiser cet historique. - La détection d'anomalies. Cette détection, quand elle concerne les flux, doit être rapide et fiable. En particulier, les contraintes liées aux flux interdisent de consulter l'utilisateur final pour ajuster des paramètres (une anomalie détectée trop tard peut avoir de graves conséquences). Avec CLARA, cette détection est automatique et auto-adaptative. Nous proposerons également un cas d'étude sur des données réelles, réalisé en collaboration avec Orange Labs.
|
2 |
Contributions on detection and classification of internet traffic anomaliesFarraposo, Silvia 17 June 2009 (has links) (PDF)
Il est évident aujourd'hui que le trafic Internet est bien plus complexe et irrégulier qu'escompté, ce qui nuit grandement à un fonctionnement efficace des réseaux, ainsi qu'à la garantie de niveaux de performances et de qualité de service (QdS) satisfaisants. En particulier, le comportement du réseau est surtout mis à mal lorsque le trafic contient des anomalies importantes. Différentes raisons peuvent être à la source de ces anomalies, comme les attaques de déni de service (DoS), les foules subites ou les opérations de maintenance ou de gestion des réseaux. De fait, la détection des anomalies dans les réseaux et leurs trafics est devenue un des sujets de recherche les plus chauds du moment. L'objectif de cette thèse a donc été de développer de nouvelles méthodes originales pour détecter, classifier et identifier les anomalies du trafic. La méthode proposée repose notamment sur la recherche de déviations significatives dans les statistiques du trafic par rapport à un trafic normal. La thèse a ainsi conduit à la conception et au développement de l'algorithme NADA : Network Anomaly Detection Algorithm. L'originalité de NADA - et qui garantit son efficacité - repose sur l'analyse du trafic selon 3 axes conjointement : une analyse multi-critères (octets, paquets, flux, ...), multi-échelles et selon plusieurs niveaux d'agrégations. A la suite, la classification repose sur la définition de signatures pour les anomalies de trafic. L'utilisation des 3 axes d'analyse permettent de détecter les anomalies indépendamment des paramètres de trafic affectés (analyse multi-critères), leurs durées (analyse multi-échelles), et leurs intensités (analyse multi-niveaux d'agrégation). Les mécanismes de détection et de classification d'anomalies proposés dans cette thèse peuvent ainsi être utilisés dans différents domaines de l'ingénierie et des opérations réseaux comme la sécurité des réseaux, l'ingénierie du trafic ou des réseaux superposés, pour citer quelques exemples. Une contribu tion importante de la thèse a trait à la méthode de validation et d'évaluation utilisée pour NADA. NADA a ainsi été validé sur une base de trace de trafic contenant des anomalies documentées, puis évalué sur les principales traces de trafic disponibles. Les résultats obtenus sont de très bonne facture, notamment lorsqu'ils sont comparés avec ceux obtenus par d'autres outils de détection d'anomalies. De plus, la qualité des résultats est indépendante du type de trafic analysé et du type d'anomalie. Il a été en particulier montré que NADA était capable de détecter et classifier efficacement les anomalies de faible intensité, qui sont apparues comme des composantes essentielles des attaques DOS. NADA apporte donc une contribution intéressante en matière de sécurité réseau.
|
3 |
Modélisation de données de surveillance épidémiologique de la faune sauvage en vue de la détection de problèmes sanitaires inhabituelsWarns-Petit, Eva 09 February 2011 (has links) (PDF)
Des études récentes ont montré que parmi les infections émergentes chez l'homme, env. 40% étaient des zoonoses liées à la faune sauvage. La surveillance sanitaire de ces animaux devrait contribuer à améliorer la protection de leur santé et aussi celle des animaux domestiques et des hommes. Notre objectif était de développer des outils de détection de problèmes sanitaires inhabituels dans la faune sauvage, en adoptant une approche syndromique, utilisée en santé humaine, avec des profils pathologiques comme indicateurs de santé non spécifiques. Un réseau national de surveillance des causes de mortalité dans la faune sauvage, appelé SAGIR, a fourni les données. Entre 1986 et 2007, plus de 50.000 cas ont été enregistrés, représentant 244 espèces de mammifères terrestres et d'oiseaux, et attribués à 220 différentes causes de mort. Le réseau a d'abord été évalué pour sa capacité à détecter précocement des événements inhabituels. Des classes syndromiques ont ensuite été définies par une typologie statistique des lésions observées sur les cadavres. Les séries temporelles des syndromes ont été analysées en utilisant deux méthodes complémentaires de détection : un algorithme robuste développé par Farrington et un modèle linéaire généralisé avec des termes périodiques. Les tendances séculaires de ces syndromes et des signaux correspondent a des excès de cas ont été identifiés. Les signalements de problèmes de mortalité inhabituelle dans le bulletin du réseau ont été utilisés pour interpréter ces signaux. L'étude analyse la pertinence de l'utilisation de la surveillance syndromique sur ce type de données et donne des éléments pour des améliorations futures.
|
4 |
Développement d'algorithmes d'analyse spectrale en spectrométrie gamma embarquéeMartin-Burtart, Nicolas 06 December 2012 (has links) (PDF)
Jusqu'au début des années 1980, la spectrométrie gamma aéroportée a avant tout été utilisée pour des applications géophysiques et ne concernait que la mesure des concentrations dans les sols des trois radionucléides naturels (K40, U238 et Th232). Durant les quinze dernières années, un grand nombre de dispositifs de mesures a été développé, la plupart après l'accident de Tchernobyl, pour intervenir en cas d'incidents nucléaires ou de surveillance de l'environnement. Les algorithmes développés ont suivi les différentes missions de ces systèmes. La plupart sont dédiés à l'extraction des signaux à moyenne et haute énergie, où les radionucléides naturels (K40, les chaînes U238 et Th232) et les produits de fission (Cs137 et Co60 principalement) sont présents. A plus basse énergie (< 400 keV), ces méthodes peuvent toujours être utilisées mais les particularités du fond de diffusion, très intense, les rendent peu précises. Cette zone énergétique est importante : les SNM émettent à ces énergies. Un algorithme, appelé 2-fenêtres (étendu à 3), a été développé permettant une extraction précise et tenant compte des conditions de vol. La surveillance du trafic de matières radioactives dans le cadre de la sécurité globale a fait son apparition depuis quelques années. Cette utilisation nécessite non plus des méthodes sensibles à un élément particulier mais des critères d'anomalie prenant en compte l'ensemble du spectre enregistré. Il faut être sensible à la fois aux radionucléides médicaux, industriels et nucléaires. Ce travail a permis d'identifier deux familles d'algorithmes permettant de telles utilisations. Enfin, les anomalies détectées doivent être identifiées. La liste des radionucléides nécessitant une surveillance particulière, recommandée par l'AIEA, contient une trentaine d'émetteurs. Un nouvel algorithme d'identification a été entièrement développé, permettant de s'appuyer sur plusieurs raies d'absorption par élément et de lever les conflits d'identification.
|
5 |
Modélisation de données de surveillance épidémiologique de la faune sauvage en vue de la détection de problèmes sanitaires inhabituels / Modelling of epidemiological surveillance data from wildlife for the detection of unusual health eventsPetit, Eva 09 February 2011 (has links)
Des études récentes ont montré que parmi les infections émergentes chez l'homme, env. 40% étaient des zoonoses liées à la faune sauvage. La surveillance sanitaire de ces animaux devrait contribuer à améliorer la protection de leur santé et aussi celle des animaux domestiques et des hommes. Notre objectif était de développer des outils de détection de problèmes sanitaires inhabituels dans la faune sauvage, en adoptant une approche syndromique, utilisée en santé humaine, avec des profils pathologiques comme indicateurs de santé non spécifiques. Un réseau national de surveillance des causes de mortalité dans la faune sauvage, appelé SAGIR, a fourni les données. Entre 1986 et 2007, plus de 50.000 cas ont été enregistrés, représentant 244 espèces de mammifères terrestres et d'oiseaux, et attribués à 220 différentes causes de mort. Le réseau a d'abord été évalué pour sa capacité à détecter précocement des événements inhabituels. Des classes syndromiques ont ensuite été définies par une typologie statistique des lésions observées sur les cadavres. Les séries temporelles des syndromes ont été analysées en utilisant deux méthodes complémentaires de détection : un algorithme robuste développé par Farrington et un modèle linéaire généralisé avec des termes périodiques. Les tendances séculaires de ces syndromes et des signaux correspondent a des excès de cas ont été identifiés. Les signalements de problèmes de mortalité inhabituelle dans le bulletin du réseau ont été utilisés pour interpréter ces signaux. L'étude analyse la pertinence de l'utilisation de la surveillance syndromique sur ce type de données et donne des éléments pour des améliorations futures. / Recent studies have shown that amongst emerging infectious disease events in humans, about 40% were zoonoses linked to wildlife. Disease surveillance of wildlife should help to improve health protection of these animals and also of domestic animals and humans that are exposed to these pathogenic agents. Our aim was to develop tools capable of detecting unusual disease events in free ranging wildlife, by adopting a syndromic approach, as it is used for human health surveillance, with pathological profiles as early unspecific health indicators. We used the information registered by a national network monitoring causes of death in wildlife in France since 1986, called SAGIR. More than 50.000 cases of mortality in wildlife were recorded up to 2007, representing 244 species of terrestrial mammals and birds, and were attributed to 220 different causes of death. The network was first evaluated for its capacity to detect early unusual events. Syndromic classes were then defined by a statistical typology of the lesions observed on the carcasses. Syndrome time series were analyzed, using two complimentary methods of detection, one robust detection algorithm developed by Farrington and another generalized linear model with periodic terms. Historical trends of occurrence of these syndromes and greater-than-expected counts (signals) were identified. Reporting of unusual mortality events in the network bulletin was used to interpret these signals. The study analyses the relevance of the use of syndromic surveillance on this type of data and gives elements for future improvements.
|
6 |
Modélisation de fonds complexes statiques et en mouvement : application à la détection d'événements rares dans les séries d'images / Modeling of static or moving complex backgrounds : application to rare event detection in image sequencesDavy, Axel 22 November 2019 (has links)
{La première partie de cette thèse est dédiée à la modélisation d'images ou de vidéos considérés comme des fonds sur lesquels on s'attache à détecter des anomalies. Notre analyse de la littérature de la détection d'anomalie sur une seule image nous a fait identifier cinq différentes familles d'hypothèses structurelles sur le fond. Nous proposons de nouveaux algorithmes pour les problèmes de détection d'anomalie sur seule image, de détection de petites cibles sur un fond en mouvement, de détection de changements sur des images satellitaires SAR (Synthetic Aperture Radar) et de détection de nuages dans des séquences d'images de satellite optique.Dans une seconde partie, nous étudions deux autres applications de la modélisation de fond. Pour le débruitage vidéo, nous cherchons pour chaque patch de la vidéo, des patchs similaires le long de la séquence vidéo, et fournissons à un réseau de neurones convolutif les pixels centraux de ces patchs. Le modèle de fond est caché dans les poids du réseau de neurones. Cette méthode s'avère être la plus performante des méthodes par réseau de neurones comparées. Nous étudions également la synthèse de texture à partir d'un exemple. Dans ce problème, des échantillons de texture doivent être générés à partir d'un seul exemple servant de référence. Notre étude distingue les familles d'algorithmes en fonction du type de modèle adopté. Dans le cas des méthodes par réseau de neurones, nous proposons une amélioration corrigeant les artefacts de bord.Dans une troisième partie, nous proposons des implémentations temps-réel GPU de l'interpolation B-spline et de plusieurs algorithmes de débruitage d'images et de vidéo: NL-means, BM3D et VBM3D. La rapidité des implémentations proposées permet leur utilisation dans des scénarios temps-réel, et elles sont en cours de transfert vers l'industrie. / The first part of this thesis is dedicated to the modeling of image or video backgrounds, applied to anomaly detection. In the case of anomaly detection on a single image, our analysis leads us to find five different families of structural assumptions on the background. We propose new algorithms for single-image anomaly detection, small target detection on moving background, change detection on satellite SAR (Synthetic Aperture Radar) images and cloud detection on a sequence of satellite optical images.In the second part, we study two further applications of background modeling. To perform video denoising we search, for every video patch, similar patches in the video sequence, and feed their central pixels to a convolutional neural network (CNN). The background model in this case is hidden in the CNN weights. In our experiments, the proposed method is the best performing of the compared CNN-based methods. We also study exemplar-based texture synthesis. In this problem texture samples have to be generated based on only one reference sample. Our survey classifies the families of algorithms for this task according to their model assumptions. In addition, we propose improvements to fix the border behavior issues that we pointed out in several deep learning based methods.In the third part, we propose real-time GPU implementations for B-spline interpolation and for several image and video denoising algorithms: NL-means, BM3D and VBM3D. The speed of the proposed implementations enables their use in real-time scenarios, and they are currently being transitioned to industry.
|
7 |
Monitoring et détection d'anomalie par apprentissage dans les infrastructures virtualisées / Monitoring and detection of learning abnormalities in virtualized infrastructuresSauvanaud, Carla 13 December 2016 (has links)
Le cloud computing est un modèle de délivrance à la demande d’un ensemble de ressources informatiques distantes, partagées et configurables. Ces ressources, détenues par un fournisseur de service cloud, sont mutualisées grâce à la virtualisation de serveurs qu’elles composent et sont mises à disposition d’utilisateurs sous forme de services disponibles à la demande. Ces services peuvent être aussi variés que des applications, des plateformes de développement ou bien des infrastructures. Afin de répondre à leurs engagements de niveau de service auprès des utilisateurs, les fournisseurs de cloud se doivent de prendre en compte des exigences différentes de sûreté de fonctionnement. Assurer ces exigences pour des services différents et pour des utilisateurs aux demandes hétérogènes représente un défi pour les fournisseurs, notamment de part leur engagement de service à la demande. Ce défi est d’autant plus important que les utilisateurs demandent à ce que les services rendus soient au moins aussi sûrs de fonctionnement que ceux d’applications traditionnelles. Nos travaux traitent particulièrement de la détection d’anomalies dans les services cloud de type SaaS et PaaS. Les différents types d’anomalie qu’il est possible de détecter sont les erreurs, les symptômes préliminaires de violations de service et les violations de service. Nous nous sommes fixé quatre critères principaux pour la détection d’anomalies dans ces services : i) elle doit s’adapter aux changements de charge de travail et reconfiguration de services ; ii) elle doit se faire en ligne, iii) de manière automatique, iv) et avec un effort de configuration minimum en utilisant possiblement la même technique quel que soit le type de service. Dans nos travaux, nous avons proposé une stratégie de détection qui repose sur le traitement de compteurs de performance et sur des techniques d’apprentissage automatique. La détection utilise les données de performance système collectées en ligne à partir du système d’exploitation hôte ou bien via les hyperviseurs déployés dans le cloud. Concernant le traitement des ces données, nous avons étudié trois types de technique d’apprentissage : supervisé, non supervisé et hybride. Une nouvelle technique de détection reposant sur un algorithme de clustering est de plus proposée. Elle permet de prendre en compte l’évolution de comportement d’un système aussi dynamique qu’un service cloud. Une plateforme de type cloud a été déployée afin d’évaluer les performances de détection de notre stratégie. Un outil d’injection de faute a également été développé dans le but de cette évaluation ainsi que dans le but de collecter des jeux de données pour l’entraînement des modèles d’apprentissage. L’évaluation a été appliquée à deux cas d’étude : un système de gestion de base de données (MongoDB) et une fonction réseau virtualisée. Les résultats obtenus à partir d’analyses de sensibilité, montrent qu’il est possible d’obtenir de très bonnes performances de détection pour les trois types d’anomalies, tout en donnant les contextes adéquats pour la généralisation de ces résultats. / Nowadays, the development of virtualization technologies as well as the development of the Internet contributed to the rise of the cloud computing model. A cloud computing enables the delivery of configurable computing resources while enabling convenient, on-demand network access to these resources. Resources hosted by a provider can be applications, development platforms or infrastructures. Over the past few years, computing systems are characterized by high development speed, parallelism, and the diversity of task to be handled by applications and services. In order to satisfy their Service Level Agreements (SLA) drawn up with users, cloud providers have to handle stringent dependability demands. Ensuring these demands while delivering various services makes clouds dependability a challenging task, especially because providers need to make their services available on demand. This task is all the more challenging that users expect cloud services to be at least as dependable as traditional computing systems. In this manuscript, we address the problem of anomaly detection in cloud services. A detection strategy for clouds should rely on several principal criteria. In particular it should adapt to workload changes and reconfigurations, and at the same time require short configurations durations and adapt to several types of services. Also, it should be performed online and automatic. Finally, such a strategy needs to tackle the detection of different types of anomalies namely errors, preliminary symptoms of SLA violation and SLA violations. We propose a new detection strategy based on system monitoring data. The data is collected online either from the service, or the underlying hypervisor(s) hosting the service. The strategy makes use of machine learning algorithms to classify anomalous behaviors of the service. Three techniques are used, using respectively algorithms with supervised learning, unsupervised learning or using a technique exploiting both types of learning. A new anomaly detection technique is developed based on online clustering, and allowing to handle possible changes in a service behavior. A cloud platform was deployed so as to evaluate the detection performances of our strategy. Moreover a fault injection tool was developed for the sake of two goals : the collection of service observations with anomalies so as to train detection models, and the evaluation of the strategy in presence of anomalies. The evaluation was applied to two case studies : a database management system and a virtual network function. Sensitivity analyzes show that detection performances of our strategy are high for the three anomaly types. The context for the generalization of the results is also discussed.
|
8 |
Confiance et risque pour engager un échange en milieu hostile / Trust and risk to exchange into hostil environmentLegrand, Véronique 19 June 2013 (has links)
De nos jours, l’échange électronique est le seul média qui offre l’accès à l’information pour tous, partout et tout le temps, mais en même temps il s’est ouvert à de nouvelles formes de vulnérabilités. La régulation des systèmes numériques, en héritage de la régulation cybernétique, maintient les équilibres à l’aide d’une boucle de rétroaction négative. Ainsi, leurs sys-tèmes de défense, désignés sous le terme de zone démilitarisée (DMZ) suivent-ils une régulation cybernétique en émettant ce que l’on appelle des évènements de sécurité. De tels évènements sont issus de sondes de surveillance qui matérialisent la ligne de dé-fense du système régulé. Toutefois, de telles sondes sont des système-experts et ces évènements appris au préalable ne rendent pas toujours compte de la dynamique de l’environnement et plus encore de la psychologie des individus. Plus encore, la multi-plication des systèmes de surveillance a entrainé une production considérable de ces évènements rendant cet ensemble de plus en plus inefficace. Par ailleurs, les systèmes vivants obéissent à une régulation complexe, l’homéostasie, qui les guide dans l’incertain à l’aide de mécanismes de surveillance continue. La force de tels mécanismes repose sur la variété des points de vue qu’ils empruntent ce qui leur permet de conjuguer leurs connaissances préalables à leurs informations de contexte pour comprendre leur environnement et s’adapter. Dans notre thèse, nous proposons d’associer à chaque système communicant, un sys-tème de surveillance continue : Dangerousness Incident Management (DIM) qui rend compte des changements de l’environnement en collectant et analysant toutes les traces laissées par les activités des usagers ou systèmes, légitimes ou non ; de cette manière, un tel système accède à une information étendue et reste sensible à son contexte. Néan-moins, plusieurs difficultés surviennent liées à la compréhension des informations re-cueillies dont le sens est noyé dans une grande masse d’informations, elles sont deve-nues implicites. Notre contribution principale repose sur un mécanisme de fouille de données adapté aux informations implicites. Nous proposons une structure à fort pou-voir d’abstraction fondée sur le principe d’un treillis de concepts. À partir de ce modèle de référence adaptatif, il nous est possible de représenter tous les acteurs d’un échange afin de faire coopérer plusieurs points de vue et plusieurs systèmes, qu’ils soient hu-mains ou machine. Lorsque l’incertitude de ces situations persiste, nous proposons un mécanisme pour guider l’usager dans ses décisions fondé sur le risque et la confiance. Enfin, nous évaluons nos résultats en les comparant aux systèmes de références Com-mon Vulnerabilities and Exposures (CVE) proposés par le National Institute of Stan-dards and Technology (NIST). / Nowadays, the electronic form of exchanges offers a new media able to make easy all information access, ubiquitous access, everywhere and everytime. But, at the same time, such a media - new, opened and complex - introduces unknown threats and breaches. So, how can we start up trust exchanges? From the system theory point of view, the cybernetic regulation maintains the sys-tems equilibrium with negative feedback loops. In this way, the defense line is based on a set of defense components still named Demilitarized Zone (DMZ) in order to block flow, to control anomalies and give out alerts messages if deviances are detected. Nev-ertheless, most of these messages concern only anomalies of machines and very little of human. So, messages do not take into account neither psychological behavior nor the dynamic of the context. Furthermore, messages suffer of the "big data" problem and become confused due to too much velocity, volume and variety. Finally, we can limit this problem to the understanding difficulty during the access to the specific knowledge in connection with the message. For example, the identity theft with the XSS attack is an illustration of this unfriendly environment. On the contrary, the living sciences show that organisms follow a positive regulation by where each one itself adapts according to his complexity. For that, they deploy adapted and continuous environment monitoring process still named "homeostasis". During this cycle, inputs capture information, then outputs adjust in response corre-sponding actions : this is the feedback. The strength of such a mechanism lies on the information meaning and in particular on the clues they include. In fact, some of these information include clues by which organisms can explain situations. For example, the information « attention" alludes to dangerous situation. This faculty comes from ad-vanced knowledge having first explicit relationship with this information: this relation forms what we call the "cognitive loop". To illustrate this phenomenon, the cognitive sciences often evoke "a friend immediately recognized by her friend" despite he is swal-lowed up in the crowd. But, the cognitive loop should not be broken. Like the living beings functioning, our work propose a cognitive model named Diag-nostic And Incident Model (DIM). The main idea lies on the context-aware model in order to adapt itself like "homeostasis". DIM has been founded on the principle of the "cognitive loop" where the inputs are the "logs" of numerics systems. So, in order to make easier the comparison between contextual and known situation, we will design "logs" and advanced knowledge by a common model. DIM proposes a conceptual struc-ture to extract clues from massive and various "logs” issued from environment based on advanced knowledge acquisition. Then, we propose the cognitive structure will be applied to the anomaly detection, incident management and diagnosis process.
|
Page generated in 0.1683 seconds