• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 17
  • 8
  • 2
  • Tagged with
  • 26
  • 26
  • 13
  • 10
  • 9
  • 6
  • 5
  • 5
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Unsupervised network anomaly detection / Détection non-supervisée d'anomalies du trafic réseau

Mazel, Johan 19 December 2011 (has links)
La détection d'anomalies est une tâche critique de l'administration des réseaux. L'apparition continue de nouvelles anomalies et la nature changeante du trafic réseau compliquent de fait la détection d'anomalies. Les méthodes existantes de détection d'anomalies s'appuient sur une connaissance préalable du trafic : soit via des signatures créées à partir d'anomalies connues, soit via un profil de normalité. Ces deux approches sont limitées : la première ne peut détecter les nouvelles anomalies et la seconde requiert une constante mise à jour de son profil de normalité. Ces deux aspects limitent de façon importante l'efficacité des méthodes de détection existantes.Nous présentons une approche non-supervisée qui permet de détecter et caractériser les anomalies réseaux de façon autonome. Notre approche utilise des techniques de partitionnement afin d'identifier les flux anormaux. Nous proposons également plusieurs techniques qui permettent de traiter les anomalies extraites pour faciliter la tâche des opérateurs. Nous évaluons les performances de notre système sur des traces de trafic réel issues de la base de trace MAWI. Les résultats obtenus mettent en évidence la possibilité de mettre en place des systèmes de détection d'anomalies autonomes et fonctionnant sans connaissance préalable / Anomaly detection has become a vital component of any network in today’s Internet. Ranging from non-malicious unexpected events such as flash-crowds and failures, to network attacks such as denials-of-service and network scans, network traffic anomalies can have serious detrimental effects on the performance and integrity of the network. The continuous arising of new anomalies and attacks create a continuous challenge to cope with events that put the network integrity at risk. Moreover, the inner polymorphic nature of traffic caused, among other things, by a highly changing protocol landscape, complicates anomaly detection system's task. In fact, most network anomaly detection systems proposed so far employ knowledge-dependent techniques, using either misuse detection signature-based detection methods or anomaly detection relying on supervised-learning techniques. However, both approaches present major limitations: the former fails to detect and characterize unknown anomalies (letting the network unprotected for long periods) and the latter requires training over labeled normal traffic, which is a difficult and expensive stage that need to be updated on a regular basis to follow network traffic evolution. Such limitations impose a serious bottleneck to the previously presented problem.We introduce an unsupervised approach to detect and characterize network anomalies, without relying on signatures, statistical training, or labeled traffic, which represents a significant step towards the autonomy of networks. Unsupervised detection is accomplished by means of robust data-clustering techniques, combining Sub-Space clustering with Evidence Accumulation or Inter-Clustering Results Association, to blindly identify anomalies in traffic flows. Correlating the results of several unsupervised detections is also performed to improve detection robustness. The correlation results are further used along other anomaly characteristics to build an anomaly hierarchy in terms of dangerousness. Characterization is then achieved by building efficient filtering rules to describe a detected anomaly. The detection and characterization performances and sensitivities to parameters are evaluated over a substantial subset of the MAWI repository which contains real network traffic traces.Our work shows that unsupervised learning techniques allow anomaly detection systems to isolate anomalous traffic without any previous knowledge. We think that this contribution constitutes a great step towards autonomous network anomaly detection.This PhD thesis has been funded through the ECODE project by the European Commission under the Framework Programme 7. The goal of this project is to develop, implement, and validate experimentally a cognitive routing system that meet the challenges experienced by the Internet in terms of manageability and security, availability and accountability, as well as routing system scalability and quality. The concerned use case inside the ECODE project is network anomaly
2

Contributions statistiques à l'analyse de mégadonnées publiques / Statical contributions to the analysis of public big data

Sainct, Benoît 12 June 2018 (has links)
L'objectif de cette thèse est de proposer un ensemble d'outils méthodologiques pour répondre à deux problématiques : la prédiction de masse salariale des collectivités, et l'analyse de leurs données de fiscalité. Pour la première, les travaux s'articulent à nouveau autour de deux thèmes statistiques : la sélection de modèle de série temporelle, et l'analyse de données fonctionnelles. Du fait de la complexité des données et des fortes contraintes de temps de calcul, un rassemblement de l'information a été privilégié. Nous avons utilisé en particulier l'Analyse en Composantes Principales Fonctionnelle et un modèle de mélanges gaussiens pour faire de la classification non-supervisée des profils de rémunération. Ces méthodes ont été appliquées dans deux prototypes d'outils qui représentent l'une des réalisations de cette thèse. Pour la seconde problématique, le travail a été effectué en trois temps : d'abord, des méthodes novatrices de classification d'une variable cible ordinale ont été comparées sur des données publiques déjà analysées dans la littérature, notamment en exploitant des forêts aléatoires, des SVM et du gradient boosting. Ensuite, ces méthodes ont été adaptées à la détection d'anomalies dans un contexte ciblé, ordinal, non supervisé et non paramétrique, et leur efficacité a été principalement comparée sur des jeux de données synthétiques. C'est notre forêt aléatoire ordinale par séparation de classes qui semble présenter le meilleur résultat. Enfin, cette méthode a été appliquée sur des données réelles de bases fiscales, où les soucis de taille et de complexité des données sont plus importants. Destinée aux directions des collectivités territoriales, cette nouvelle approche de l'examen de leur base de données constitue le second aboutissement de ces travaux de thèse. / The aim of this thesis is to provide a set of methodological tools to answer two problems: the prediction of the payroll of local authorities, and the analysis of their tax data. For the first, the work revolves around two statistical themes: the selection of time series model, and the analysis of functional data. Because of the complexity of the data and the heavy computation time constraints, a clustering approach has been favored. In particular, we used Functional Principal Component Analysis and a model of Gaussian mixtures to achieve unsupervised classification. These methods have been applied in two prototypes of tools that represent one of the achievements of this thesis. For the second problem, the work was done in three stages: first, innovative methods for classifying an ordinal target variable were compared on public data, notably by exploiting random forests, SVM and gradient boosting. Then, these methods were adapted to outlier detection in a targeted, ordinal, unsupervised and non-parametric context, and their efficiency was mainly compared on synthetic datasets. It is our ordinal random forest by class separation that seems to have the best result. Finally, this method has been applied to real data of tax bases, where the concerns of size and complexity are more important. Aimed at local authorities directorates, this new approach to examining their database is the second outcome of this work.
3

Analyse et expérimentations des méthodes de création de deepfake dans le domaine géospatial et conception d'une méthode de détection adaptée

Meo, Valentin 20 November 2023 (has links)
Titre de l'écran-titre (visionné le 13 novembre 2023) / Du fait de leur danger, les deepfakes (ou hypertrucage en français) sont devenus un sujet de société. Cependant, aucune étude conséquente n'a été réalisée sur les deepfakes appliqués au domaine géospatial : l'hypertrucage géospatial. Ce travail commence par faire un état de l'art des technologies génératives permettant la modification partielle d'images, aussi appelées techniques d'« inpainting » en anglais. Grâce à celles-ci, il nous a été possible de concevoir des deepfakes d'imagerie aérienne d'une grande qualité. Afin de tester leur robustesse, des techniques de détection de falsification classiques ont été testées. Ces méthodes se sont révélées utiles mais pas suffisantes. Une méthode originale de détection spécialement adaptée aux particularités des images géospatiales a donc finalement été proposée. Les résultats très satisfaisants obtenus avec cette méthode, permettent de montrer que le contrôle de l'information n'est pas la seule solution au problème de la désinformation. Ce travail pourrait ainsi être utilisé par un public large allant des agences de renseignement, journalistes ou citoyens concernés soucieux de détecter les falsifications provenant de différentes entités.
4

Deep learning based semi-supervised video anomaly detection

Baradaran, Mohammad 16 January 2024 (has links)
Thèse ou mémoire avec insertion d'articles / La détection d'anomalies vidéo (DAV) est une tâche cruciale de vision par ordinateur pour diverses applications du monde réel telles que la vidéosurveillance, le contrôle qualité, etc. Avec la rareté des données d'anomalies étiquetées et la nature ouverte des définitions d'anomalies, il y a eu une croissance d'intérêt des chercheurs pour l'exploration de méthodes semi-supervisées de détection d'anomalies vidéo. Ces méthodes utilisent une tâche proxy pour ajuster un modèle sur des échantillons normaux, en tenant compte de leurs caractéristiques d'apparence et de mouvement. Les anomalies sont par conséquent détectées en mesurant l'écart des échantillons de test par rapport au modèle normal formé. Cette thèse est dédiée à l'avancement de ce domaine, englobant quatre composantes distinctes. Dans la partie initiale, nous menons une étude approfondie sur les méthodes DAV semi-supervisées de pointe existantes afin d'examiner leurs points forts et leurs défis. Pour compléter notre examen, nous effectuons également des expériences pour mieux comprendre les capacités et les limites des approches existantes. Les résultats de cette étude servent de source de motivation et mettent en lumière l'orientation de notre recherche. Cette étude est publiée sous la forme d'un article de synthèse (MTAP2023). Lors de l'analyse des méthodes existantes, il devient évident qu'elles ne tiennent pas suffisamment compte de la classe des objets lorsqu'il s'agit de détecter des anomalies d'apparence. Inspirés par ce besoin, nous proposons, dans la deuxième partie, une méthode DAV basée sur l'apprentissage en profondeur et sensible aux classes d'objets. C'est une méthode à deux flux qui modélise et détecte les anomalies de mouvement et d'apparence dans différentes branches. Dans la branche apparence, nous introduisons une approche basée sur la distillation des connaissances qui utilise une méthode de segmentation sémantique pré-entraînée (Mask-RCNN) pour former un réseau étudiant dédié à la segmentation sémantique avec des objets normaux. Par conséquent, en mesurant l'écart entre les sorties des réseaux enseignant et étudiant, nous dérivons un score d'anomalie pour la branche d'apparence. La branche de mouvement, d'autre part, traduit une image brute en sa carte de magnitude de flux optique correspondante, pour modéliser les mouvements normaux et détecter les anomalies associées. L'approche de modélisation de mouvement proposée atténue le risque de généralisation aux anomalies, améliorant ainsi la fiabilité et la précision du processus de détection. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CRV 2022). Dans la troisième partie, nous proposons une méthode de détection d'anomalies vidéo basée sur l'apprentissage multi-tâches visant à tirer parti des avantages de la combinaison de plusieurs tâches proxy complémentaires pour améliorer les performances de détection d'anomalies. Différentes tâches complémentaires sont proposées en tenant compte de leurs capacités et insuffisances à détecter différents cas d'anomalies. De plus, nous proposons une nouvelle tâche proxy de prédiction de carte de segmentation sémantique future pour la détection d'anomalies vidéo qui bénéficie des capacités de prédiction de trames futures et de tâches de segmentation sémantique pour la détection d'anomalies de mouvement et d'apparence. De plus, pour améliorer encore la détection des anomalies de mouvement, nous intégrons la tâche de prédiction de l'amplitude du flux optique à partir d'une trame brute dans une autre branche. Finalement, pour relever les défis rencontrés dans notre méthode précédente, nous proposons plusieurs mécanismes d'attention pour engager des informations contextuelles dans la modélisation de mouvement, conduisant à une amélioration des performances. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CVPRW 2023). Dans la dernière partie, nous relevons un autre défi dans la modélisation du mouvement. Tant dans nos méthodes proposées que dans d'autres méthodes existantes, les modèles de mouvement à long terme n'ont pas été efficacement pris en compte pour la détection d'anomalies vidéo. Pour remédier à cette limitation, nous proposons une nouvelle tâche proxy pour la détection d'anomalies vidéo : la prédiction vidéo future à partir d'une seule image. Cette méthode prend en compte les modèles de mouvement à long terme en plus des modèles à court terme pour la détection d'anomalies vidéo et relève le défi de la généralisation aux mouvements anormaux. Cette étude donne des résultats significatifs. Les résultats démontrent que la formulation de DAV comme une prédiction d'images plus éloignées dans le futur (au lieu de l'image suivante immédiate) entraîne une plus grande disparité entre les normales et les anomalies et donc une amélioration des performances. Les résultats de cette étude sont acceptés sous forme d'article de conférence (ISVC 2023). Nos résultats qualitatifs et quantitatifs ainsi que des études d'ablation sur des ensembles de données de référence tels que les ensembles de données ShanghaiTech, UCSD-Ped1 et UCSD-Ped2 démontrent le succès de chaque contribution de notre thèse dans la réalisation de leurs objectifs respectifs. / Video anomaly detection (VAD) is a crucial computer vision task for various real-world applications such as video surveillance, quality control, etc. With the scarcity of labeled anomaly data and the open-ended nature of anomaly definitions, there has been a growing interest among researchers in exploring semi-supervised methods for video anomaly detection. These methods employ a proxy-task to fit a model on normal samples, taking into account their appearance and motion features. Anomalies are consequently detected by measuring the deviation of test samples from the trained normal model. This thesis is dedicated to advancing this field, encompassing four distinct components. In the initial part, we conduct an in-depth study on existing state-of-the-art semi-supervised VAD methods to examine their strong points and challenges. To supplement our review, we also conduct experiments to gain deeper insights into the capabilities and limitations of existing approaches. The outcomes of this study serve as a source of motivation and highlights the direction of our research. This study is published as a review paper (MTAP2023). Upon analyzing the existing methods, it becomes apparent that they do not adequately consider the object class when it comes to detecting appearance anomalies. Inspired by this need, we propose, in the second part, a two-stream object class-aware deep learning based VAD method that models and detects motion and appearance anomalies in different network branches. In the appearance branch, we introduce a knowledge-distillation-based approach that utilizes a pre-trained semantic segmentation method (Mask-RCNN) to train a student network dedicated to semantic segmentation with normal objects. Consequently, by measuring the disparity between the outputs of the teacher and student networks, we derive an anomaly score for the appearance branch. Motion branch, on the other hand, translates a raw frame to its corresponding optical flow magnitude map, to model normal motions and detect related anomalies. The proposed motion modeling approach, mitigates the risk of generalization to anomalies, thus enhancing the reliability and precision of the detection process. Results of this study is published as a conference paper (CRV 2022). In the third part, we put forth a multi-task learning based video anomaly detection method aimed at leveraging the benefits of combining multiple complementary proxy-tasks to enhance anomaly detection performance. Different complementary tasks are suggested taking into ac count their abilities and shortcomings in detecting different anomaly cases. Moreover, we propose a novel proxy-task of future semantic segmentation map prediction for video anomaly detection which benefits from the abilities of future frame prediction and semantic segmentation tasks for motion and appearance anomaly detection. Additionally, to further enhance the detection of motion anomalies, we incorporate the task of optical flow magnitude prediction from a raw frame in another branch. Finally, to address the challenges encountered in our previous method, we propose multiple attention mechanisms to engage context information in motion modeling, leading to performance improvement. Results of this study is published as a conference paper (CVPRW 2023). As the final part, we tackle another challenge in motion modeling. Both in our proposed methods and other existing methods, long-term motion patterns have not been effectively considered for video anomaly detection. To address this limitation, we put forward a novel proxy-task for video anomaly detection: future video prediction from a single frame. This method considers long-term motion patterns in addition to short-term ones for video anomaly detection and addresses the challenge of generalization to abnormal motion. This study yields significant findings. The results demonstrate that formulating VAD as a prediction of farther frames in the future (instead of the immediate next frame) results in a larger disparity between normals and anomalies and hence in improved performance. Results of this study is accepted as a conference paper (ISVC 2023). Our qualitative and quantitative results along with ablation studies on benchmark datasets such as ShanghaiTech, UCSD-Ped1 and UCSD-Ped2 datasets demonstrate the success of each contribution of our thesis in achieving their respective goals.
5

Détection d’anomalies dans les séries temporelles : application aux masses de données sur les pneumatiques / Outlier detection for time series data : application to tyre data

Benkabou, Seif-Eddine 21 March 2018 (has links)
La détection d'anomalies est une tâche cruciale qui a suscité l'intérêt de plusieurs travaux de recherche dans les communautés d'apprentissage automatique et fouille de données. La complexité de cette tâche dépend de la nature des données, de la disponibilité de leur étiquetage et du cadre applicatif dont elles s'inscrivent. Dans le cadre de cette thèse, nous nous intéressons à cette problématique pour les données complexes et particulièrement pour les séries temporelles uni et multi-variées. Le terme "anomalie" peut désigner une observation qui s'écarte des autres observations au point d'éveiller des soupçons. De façon plus générale, la problématique sous-jacente (aussi appelée détection de nouveautés ou détection des valeurs aberrantes) vise à identifier, dans un ensemble de données, celles qui différent significativement des autres, qui ne se conforment pas à un "comportement attendu" (à définir ou à apprendre automatiquement), et qui indiquent un processus de génération différent. Les motifs "anormaux" ainsi détectés se traduisent souvent par de l'information critique. Nous nous focalisons plus précisément sur deux aspects particuliers de la détection d'anomalies à partir de séries temporelles dans un mode non-supervisé. Le premier est global et consiste à ressortir des séries relativement anormales par rapport une base entière. Le second est dit contextuel et vise à détecter localement, les points anormaux par rapport à la structure de la série étudiée. Pour ce faire, nous proposons des approches d'optimisation à base de clustering pondéré et de déformation temporelle pour la détection globale ; et des mécanismes à base de modélisation matricielle pour la détection contextuelle. Enfin, nous présentons une série d'études empiriques sur des données publiques pour valider les approches proposées et les comparer avec d'autres approches connues dans la littérature. De plus, une validation expérimentale est fournie sur un problème réel, concernant la détection de séries de prix aberrants sur les pneumatiques, pour répondre aux besoins exprimés par le partenaire industriel de cette thèse / Anomaly detection is a crucial task that has attracted the interest of several research studies in machine learning and data mining communities. The complexity of this task depends on the nature of the data, the availability of their labeling and the application framework on which they depend. As part of this thesis, we address this problem for complex data and particularly for uni and multivariate time series. The term "anomaly" can refer to an observation that deviates from other observations so as to arouse suspicion that it was generated by a different generation process. More generally, the underlying problem (also called novelty detection or outlier detection) aims to identify, in a set of data, those which differ significantly from others, which do not conform to an "expected behavior" (which could be defined or learned), and which indicate a different mechanism. The "abnormal" patterns thus detected often result in critical information. We focus specifically on two particular aspects of anomaly detection from time series in an unsupervised fashion. The first is global and consists in detecting abnormal time series compared to an entire database, whereas the second one is called contextual and aims to detect locally, the abnormal points with respect to the global structure of the relevant time series. To this end, we propose an optimization approaches based on weighted clustering and the warping time for global detection ; and matrix-based modeling for the contextual detection. Finally, we present several empirical studies on public data to validate the proposed approaches and compare them with other known approaches in the literature. In addition, an experimental validation is provided on a real problem, concerning the detection of outlier price time series on the tyre data, to meet the needs expressed by, LIZEO, the industrial partner of this thesis
6

Détection non supervisée d'anomalies dans les réseaux de communication

Mazel, Johan 19 December 2011 (has links) (PDF)
La détection d'anomalies est une tâche critique de l'administration des réseaux. L'apparition continue de nouvelles anomalies et la nature changeante du trafic réseau compliquent de fait la détection d'anomalies. Les méthodes existantes de détection d'anomalies s'appuient sur une connaissance préalable du trafic : soit via des signatures créées à partir d'anomalies connues, soit via un profil de normalité. Ces deux approches sont limitées : la première ne peut détecter les nouvelles anomalies et la seconde requiert une constante mise à jour de son profil de normalité. Ces deux aspects limitent de façon importante l'efficacité des méthodes de détection existantes. Nous présentons une approche non-supervisée qui permet de détecter et caractériser les anomalies réseaux de façon autonome. Notre approche utilise des techniques de partitionnement afin d'identifier les flux anormaux. Nous proposons également plusieurs techniques qui permettent de traiter les anomalies extraites pour faciliter la tâche des opérateurs. Nous évaluons les performances de notre système sur des traces de trafic réel issues de la base de trace MAWI. Les résultats obtenus mettent en évidence la possibilité de mettre en place des systèmes de détection d'anomalies autonomes et fonctionnant sans connaissance préalable.
7

Sécurité de la gestion dynamique des ressources basée sur la prise en compte des profils de consommation en ressources des machines virtuelles, dans un cloud IaaS / Resource consumption profile-based attack detection in IaaS clouds

Lazri, Kahina 16 December 2014 (has links)
La virtualisation matérielle telle que mise en oeuvre dans le cloud computing, permet le partage de ressources matérielles entre plusieurs machines virtuelles pouvant appartenir à différents utilisateurs. Ce partage des ressources constitue l’atout majeur de ces infrastructures,qui permet aux fournisseurs d’exploiter plus efficacement les ressources des centres de données, notamment à travers l’allocation dynamique des ressources. Cependant, le partage des ressources introduit de nouvelles contraintes de sécurité. Plusieurs travaux de l’état de l’art ont démontré l’apparition de nouvelles stratégies d’attaques propres aux infrastructures cloud computing, exploitant le partage des ressources. Néanmoins, il a aussi été démontré qu’il est possible de tirer avantage de la position privilégiée de la couche de virtualisation pour offrir une meilleure sécurité que celle assurée dans les plate-formes traditionnelles d’hébergement en silo. Cette thèse poursuit deux axes de recherche complémentaires. Le premier axe traite des nouvelles vulnérabilités liées aux infrastructures cloud computing. Nous avons démontré une attaque que nous appelons attaque par "migrations intempestives de machines virtuelles", dans laquelle un attaquant parvient à amener le système de gestion dynamique de ressources à migrer de façon abusive des machines virtuelles, par simple manipulation des quantités de ressources consommées par des machines virtuelles qui sont sous son contrôle. Nous avons démontré cette attaque sur une plate-forme constituée de cinq serveurs et analysé les conditions nécessaires à son succès ainsi que l’exposition des clusters vis-à-vis de la vulnérabilité qu’elle exploite. Le second axe propose de tirer avantage de la position privilégiée de l’opérateur qui dispose à la fois d’une vue multi-couches plus riche de l’utilisation des ressources et d’une vue plus globale des contextes d’exécution des machines virtuelles, comparativement à la vue limitée de l’utilisateur, pour offrir une meilleure sécurité. Nous avons proposé AMAD (Abusive VM Migration Attack Detection), un système de supervision, chargé de détecter l’occurrence des attaques par migrations intempestives de machines virtuelles et d’identifier de façon automatique celles à l’origine de l’attaque. AMAD est implémenté sur notre plate-forme d’expérimentation et évalué à l’aide de traces de consommation de machines virtuelles collectées sur des clouds réels. Les résultats d’évaluation montrent qu’AMAD opère avec une bonne précision de détection. / Hardware virtualisation is the core technology which enables resource sharing among multiple virtual machines possibly belonging to different tenants within cloud infrastructures. Resources haring is the main feature that enables cost effectiveness of cloud platforms, achieved through dynamic resource management. However, resource sharing brings several new security concerns. Several proofs of concepts have demontrated new attack strategies brought by the resource sharing paradigm, known as cross-virtual machine attacks. Even so, it is also showed that the priviligied position of the virtualisation layer can be leveraged to offer better security protection mecanisms than the ones offered in non virtualized platfoms.This thesis follows two main objectives. The first one is related to the domain of cloud-specific vulnerabilities. We have demonstrated a new attack, called the abusive virtual machine migration attack, in which an attacker can leverage the sharing of resources, through the manipulation of the amounts of resources consumed by virtual machines under his control, to abusively enforce the dynamic resource management system to trigger virtual machine migrations. We have demonstrated this attack on a virtualized platform composed of five physical machines, the necessary conditions for the attack to succeed and the vulnerability exposure of clusters against this kind of attack is also analyzed. The second main contribution of this thesis aims at leveraging the privilged position of the cloud provider who has both a more reliable view of the ressource utilisation and a more complete view of the virtual machine execution contexts compared to the limited view of cloud users, to provide better security. We propose AMAD (Abusive Virtual Machine Migration Attack Detection), a system designed for detecting an abusive use of the dynamic virtual machine migration, in the case of the abusive virtual machine migration attack. AMAD identifies the virtual machines possibly at the origin of the attack by analyzing their resource consumption profiles which show fluctuation and correlation in the usage of resources. We have implemented AMAD on top of our laboratory platform and evaluated it with the help of virtual machine resource consumption traces collected from real cloud. Our evaluation results show that AMAD identifes the attacking virtual machines with high detection accuracy.
8

Détection et agrégation d'anomalies dans les données issues des capteurs placés dans des smartphones / Detection and aggregation of anomalies in data from smartphone sensors

Nguyen, Van Khang 17 December 2019 (has links)
Les réseaux sans fils et mobiles se sont énormément développés au cours de ces dernières années. Loin d'être réservés aux pays industrialisés, ces réseaux nécessitant une infrastructure fixe limitée se sont aussi imposés dans les pays émergents et les pays en voie de développement. En effet, avec un investissement structurel relativement très faible en comparaison de celui nécessaire à l'implantation d'un réseau filaire, ces réseaux permettent aux opérateurs d'offrir une couverture du territoire très large, avec un coût d'accès au réseau (prix du téléphone et des communications) tout à fait acceptable pour les utilisateurs. Aussi, il n'est pas surprenant qu'aujourd'hui, dans la majorité des pays, le nombre de téléphones sans fil soit largement supérieur à celui des téléphones fixes. Ce grand nombre de terminaux disséminé sur l'ensemble de la planète est un réservoir inestimable d'information dont une infime partie seulement est aujourd'hui exploitée. En effet, en combinant la position d'un mobile et sa vitesse de déplacement, il devient possible d'en déduire la qualité des routes ou du trafic routier. Dans un autre registre, en intégrant un thermomètre et/ou un hygromètre dans chaque terminal, ce qui à grande échelle impliquerait un coût unitaire dérisoire, ces terminaux pourraient servir de relai pour une météo locale plus fiable. Dans ce contexte, l'objectif de cette thèse consiste à étudier et analyser les opportunités offertes par l'utilisation des données issues des terminaux mobiles, de proposer des solutions originales pour le traitement de ces grands masses de données, en insistant sur les optimisations (fusion, agrégation, etc.) pouvant être réalisées de manière intermédiaire dans le cadre de leur transport vers les(s) centre(s) de stockage et de traitement, et éventuellement d'identifier les données non disponibles aujourd'hui sur ces terminaux mais qui pourraient avoir un impact fort dans les années à venir. Un prototype présentant un exemple typique d'utilisation permettra de valider les différentes approches. / Mobile and wireless networks have developed enormously over the recent years. Far from being restricted to industrialized countries, these networks which require a limited fixed infrastructure, have also imposed in emerging countries and developing countries. Indeed, with a relatively low structural investment as compared to that required for the implementation of a wired network, these networks enable operators to offer a wide coverage of the territory with a network access cost (price of devices and communications) quite acceptable to users. Also, it is not surprising that today, in most countries, the number of wireless phones is much higher than landlines. This large number of terminals scattered across the planet is an invaluable reservoir of information that only a tiny fraction is exploited today. Indeed, by combining the mobile position and movement speed, it becomes possible to infer the quality of roads or road traffic. On another level, incorporating a thermometer and / or hygrometer in each terminal, which would involve a ridiculous large-scale unit cost, these terminals could serve as a relay for more reliable local weather. In this context, the objective of this thesis is to study and analyze the opportunities offered by the use of data from mobile devices to offer original solutions for the treatment of these big data, emphasizing on optimizations (fusion, aggregation, etc.) that can be performed as an intermediate when transferred to center(s) for storage and processing, and possibly identify data which are not available now on these terminals but could have a strong impact in the coming years. A prototype including a typical sample application will validate the different approaches.
9

Toxicité et sentiment : comment l'étude des sentiments peut aider la détection de toxicité

Brassard-Gourdeau, Éloi 14 December 2019 (has links)
La détection automatique de contenu toxique en ligne est un sujet très important aujourd’hui. Les modérateurs ne peuvent filtrer manuellement tous les messages et les utilisateurs trouvent constamment de nouvelles façons de contourner les filtres automatiques. Dans ce mémoire, j’explore l’impact que peut avoir la détection de sentiment pour améliorer trois points importants de la détection automatique de toxicité : détecter le contenu toxique de façon plus exacte ; rendre les filtres plus difficiles à déjouer et prédire les conversations les plus à risque. Les deux premiers points sont étudiés dans un premier article, où l’intuition principale est qu’il est plus difficile pour un utilisateur malveillant de dissimuler le sentiment d’un message que certains mots-clés à risque. Pour tester cette hypothèse, un outil de détection de sentiment est construit, puis il est utilisé pour mesurer la corrélation entre sentiment et toxicité. Par la suite, les résultats de cet outil sont utilisés comme caractéristiques pour entraîner un modèle de détection de toxicité, et le modèle est testé à la fois dans un contexte classique et un contexte où on simule des altérations aux messages faites par un utilisateur tentant de déjouer un filtre de toxicité. La conclusion de ces tests est que les informations de sentiment aident à la détection de toxicité, particulièrement dans un contexte où les messages sont modifiés. Le troisième point est le sujet d’un second article, qui a comme objectif de valider si les sentiments des premiers messages d’une conversation permettent de prédire si elle va dérailler. Le même outil de détection de sentiments est utilisé, en combinaison avec d’autres caractéristiques trouvées dans de précédents travaux dans le domaine. La conclusion est que les sentiments permettent d’améliorer cette tâche également. / Automatic toxicity detection of online content is a major research field nowadays. Moderators cannot filter manually all the messages that are posted everyday and users constantly find new ways to circumvent classic filters. In this master’s thesis, I explore the benefits of sentiment detection for three majors challenges of automatic toxicity detection: standard toxicity detection, making filters harder to circumvent, and predicting conversations at high risk of becoming toxic. The two first challenges are studied in the first article. Our main intuition is that it is harder for a malicious user to hide the toxic sentiment of their message than to change a few toxic keywords. To test this hypothesis, a sentiment detection tool is built and used to measure the correlation between sentiment and toxicity. Next, the sentiment is used as features to train a toxicity detection model, and the model is tested in both a classic and a subversive context. The conclusion of those tests is that sentiment information helps toxicity detection, especially when using subversion. The third challenge is the subject of our second paper. The objective of that paper is to validate if the sentiments of the first messages of a conversation can help predict if it will derail into toxicity. The same sentiment detection tool is used, in addition to other features developed in previous related works. Our results show that sentiment does help improve that task as well.
10

Improving predictive behavior under distributional shift

Ahmed, Faruk 08 1900 (has links)
L'hypothèse fondamentale guidant la pratique de l'apprentissage automatique est qu’en phase de test, les données sont \emph{indépendantes et identiquement distribuées} à la distribution d'apprentissage. En pratique, les ensembles d'entraînement sont souvent assez petits pour favoriser le recours à des biais trompeurs. De plus, lorsqu'il est déployé dans le monde réel, un modèle est susceptible de rencontrer des données nouvelles ou anormales. Lorsque cela se produit, nous aimerions que nos modèles communiquent une confiance prédictive réduite. De telles situations, résultant de différentes formes de changement de distribution, sont incluses dans ce que l'on appelle actuellement les situations \emph{hors distribution} (OOD). Dans cette thèse par article, nous discutons des aspects de performance OOD relativement à des changement de distribution sémantique et non sémantique -- ceux-ci correspondent à des instances de détection OOD et à des problèmes de généralisation OOD. Dans le premier article, nous évaluons de manière critique le problème de la détection OOD, en se concentrant sur l’analyse comparative et l'évaluation. Tout en soutenant que la détection OOD est trop vague pour être significative, nous suggérons plutôt de détecter les anomalies sémantiques. Nous montrons que les classificateurs entraînés sur des objectifs auxiliaires auto-supervisés peuvent améliorer la sémanticité dans les représentations de caractéristiques, comme l’indiquent notre meilleure détection des anomalies sémantiques ainsi que notre meilleure généralisation. Dans le deuxième article, nous développons davantage notre discussion sur le double objectif de robustesse au changement de distribution non sémantique et de sensibilité au changement sémantique. Adoptant une perspective de compositionnalité, nous décomposons le changement non sémantique en composants systématiques et non systématiques, la généralisation en distribution et la détection d'anomalies sémantiques formant les tâches correspondant à des compositions complémentaires. Nous montrons au moyen d'évaluations empiriques sur des tâches synthétiques qu'il est possible d'améliorer simultanément les performances sur tous ces aspects de robustesse et d'incertitude. Nous proposons également une méthode simple qui améliore les approches existantes sur nos tâches synthétiques. Dans le troisième et dernier article, nous considérons un scénario de boîte noire en ligne dans lequel non seulement la distribution des données d'entrée conditionnées sur les étiquettes change de l’entraînement au test, mais aussi la distribution marginale des étiquettes. Nous montrons que sous de telles contraintes pratiques, de simples estimations probabilistes en ligne du changement d'étiquette peuvent quand même être une piste prometteuse. Nous terminons par une brève discussion sur les pistes possibles. / The fundamental assumption guiding practice in machine learning has been that test-time data is \emph{independent and identically distributed} to the training distribution. In practical use, training sets are often small enough to encourage reliance upon misleading biases. Additionally, when deployed in the real-world, a model is likely to encounter novel or anomalous data. When this happens, we would like our models to communicate reduced predictive confidence. Such situations, arising as a result of different forms of distributional shift, comprise what are currently termed \emph{out-of-distribution} (OOD) settings. In this thesis-by-article, we discuss aspects of OOD performance with regards to semantic and non-semantic distributional shift — these correspond to instances of OOD detection and OOD generalization problems. In the first article, we critically appraise the problem of OOD detection, with regard to benchmarking and evaluation. Arguing that OOD detection is too broad to be meaningful, we suggest detecting semantic anomalies instead. We show that classifiers trained with auxiliary self-supervised objectives can improve semanticity in feature representations, as indicated by improved semantic anomaly detection as well as improved generalization. In the second article, we further develop our discussion of the twin goals of robustness to non-semantic distributional shift and sensitivity to semantic shift. Adopting a perspective of compositionality, we decompose non-semantic shift into systematic and non-systematic components, along with in-distribution generalization and semantic anomaly detection forming the complementary tasks. We show by means of empirical evaluations on synthetic setups that it is possible to improve performance at all these aspects of robustness and uncertainty simultaneously. We also propose a simple method that improves upon existing approaches on our synthetic benchmarks. In the third and final article, we consider an online, black-box scenario in which both the distribution of input data conditioned on labels changes from training to testing, as well as the marginal distribution of labels. We show that under such practical constraints, simple online probabilistic estimates of label-shift can nevertheless be a promising approach. We close with a brief discussion of possible avenues forward.

Page generated in 0.5106 seconds