• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 252
  • 244
  • 44
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 559
  • 559
  • 365
  • 353
  • 109
  • 106
  • 105
  • 105
  • 93
  • 90
  • 90
  • 89
  • 88
  • 71
  • 68
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
111

Classification de courriels au moyen de diverses méthodes d'apprentissage et conception d'un outil de préparation des données textuelles basé sur la programmation modulaire : PDTPM

Ziri, Oussama 01 1900 (has links) (PDF)
Les technologies numériques de l'information et de la communication sont de plus en plus utilisées. Certes, ces technologies offrent des moyens de communication pratiques, mais elles soulèvent des préoccupations concernant la protection de la vie privée et le respect en ligne. Les utilisations malveillantes des courriels ne cessent de croître et la quantité de spams a rendu pratiquement impossible d'analyser les courriels manuellement. Vu ces problématiques, le besoin de techniques automatisées, capables d'analyser des données est devenu primordial. Plusieurs applications se basant sur l'apprentissage automatique se sont établies pour analyser des données textuelles de grand volume. Les techniques du « Text Mining » analysent des données textuelles en utilisant des méthodes d'apprentissage automatique afin d'extraire les principales tendances. Cependant, les techniques de « Text Mining » ne sont capables d'être utilisées que si les données sont déjà préparées et bien structurées. Cette recherche a deux objectifs : 1) Concevoir un outil original de préparation de données qui offre et regroupe des fonctionnalités primordiales dans l'étape de préparation de données textuelles. Nous n'avons pas trouvé ces fonctionnalités dans d'autres outils de préparation de données (Sato, Alceste, WordStat, NLTK) ce qui a créé un besoin de concevoir notre logiciel. Nous l'avons appelé outil de Préparation de Données Textuelles basé sur la Programmation Modulaire, PDTPM. 2) Application des méthodes d'apprentissage automatiques dédiées au « Text Mining » pour classifier un ensemble de courriels et détecter les spams. Pour le premier objectif, après avoir étudié le processus de préparation de données, l'étude propose un outil de Préparation de Données Textuelles. Cette plateforme permet de considérer en entrée un ensemble de données textuelles brutes et de générer en sortie ces données sous une forme bien structurée qui consiste en une matrice de données documents-mots. En ce qui concerne le deuxième objectif de notre recherche, nous explorons des courriels d'une base de données publique, Lingspam, pour les classifier au moyen de méthodes d'apprentissage automatique en spams et courriels légitimes. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : text mining, apprentissage automatique, préparation des données textuelles, détection de spams, filtrage de courriels.
112

Apprentissage de co-similarités pour la classification automatique de données monovues et multivues

Grimal, Clement 11 October 2012 (has links) (PDF)
L'apprentissage automatique consiste à concevoir des programmes informatiques capables d'apprendre à partir de leurs environnement, ou bien à partir de données. Il existe différents types d'apprentissage, selon que l'on cherche à faire apprendre au programme, et également selon le cadre dans lequel il doit apprendre, ce qui constitue différentes tâches. Les mesures de similarité jouent un rôle prépondérant dans la plupart de ces tâches, c'est pourquoi les travaux de cette thèse se concentrent sur leur étude. Plus particulièrement, nous nous intéressons à la classification de données, qui est une tâche d'apprentissage dit non supervisé, dans lequel le programme doit organiser un ensemble d'objets en plusieurs classes distinctes, de façon à regrouper les objets similaires ensemble. Dans de nombreuses applications, ces objets (des documents par exemple) sont décrits à l'aide de leurs liens à d'autres types d'objets (des mots par exemple), qui peuvent eux-même être classifiés. On parle alors de co-classification, et nous étudions et proposons dans cette thèse des améliorations de l'algorithme de calcul de co-similarités XSim. Nous montrons que ces améliorations permettent d'obtenir de meilleurs résultats que les méthodes de l'état de l'art. De plus, il est fréquent que ces objets soient liés à plus d'un autre type d'objets, les données qui décrivent ces multiples relations entre différents types d'objets sont dites multivues. Les méthodes classiques ne sont généralement pas capables de prendre en compte toutes les informations contenues dans ces données. C'est pourquoi nous présentons dans cette thèse l'algorithme de calcul multivue de similarités MVSim, qui peut être vu comme une extension aux données multivues de l'algorithme XSim. Nous montrons que cette méthode obtient de meilleures performances que les méthodes multivues de l'état de l'art, ainsi que les méthodes monovues, validant ainsi l'apport de l'aspect multivue. Finalement, nous proposons également d'utiliser l'algorithme MVSim pour classifier des données classiques monovues de grandes tailles, en les découpant en différents ensembles. Nous montrons que cette approche permet de gagner en temps de calcul ainsi qu'en taille mémoire nécessaire, tout en dégradant relativement peu la classification par rapport à une approche directe sans découpage.
113

Capteurs embarqués non-intrusifs pour le test des circuits RF

Abdallah, Louay 22 October 2012 (has links) (PDF)
Cette thèse vise l'étude de techniques de type BIST pour un front-end RF, considérant des nouveaux types des capteurs intégrés très simples pour l'extraction de signaux. Ces signaux et les stimuli de test associés seront par la suite traités par des algorithmes de l'apprentissage automatique qui devront permettre une prédiction des performances des différents blocs du système. Une évaluation des capteur proposés en tant que métriques de test paramétrique et couverture des fautes catastrophique sera nécessaire pour pouvoir aboutir à des techniques de test à bas coût pour le test de production, permettant une réduction importante du coût de revient des produits.
114

Coping with the Computational and Statistical Bipolar Nature of Machine Learning

Machart, Pierre 21 December 2012 (has links) (PDF)
L'Apprentissage Automatique tire ses racines d'un large champ disciplinaire qui inclut l'Intelligence Artificielle, la Reconnaissance de Formes, les Statistiques ou l'Optimisation. Dès les origines de l'Apprentissage, les questions computationelles et les propriétés en généralisation ont toutes deux été identifiées comme centrales pour la discipline. Tandis que les premières concernent les questions de calculabilité ou de complexité (sur un plan fondamental) ou d'efficacité computationelle (d'un point de vue plus pratique) des systèmes d'apprentissage, les secondes visent a comprendre et caractériser comment les solutions qu'elles fournissent vont se comporter sur de nouvelles données non encore vues. Ces dernières années, l'émergence de jeux de données à grande échelle en Apprentissage Automatique a profondément remanié les principes de la Théorie de l'Apprentissage. En prenant en compte de potentielles contraintes sur le temps d'entraînement, il faut faire face à un compromis plus complexe que ceux qui sont classiquement traités par les Statistiques. Une conséquence directe tient en ce que la mise en place d'algorithmes efficaces (autant en théorie qu'en pratique) capables de tourner sur des jeux de données a grande échelle doivent impérativement prendre en compte les aspects statistiques et computationels de l'Apprentissage de façon conjointe. Cette thèse a pour but de mettre à jour, analyser et exploiter certaines des connections qui existent naturellement entre les aspects statistiques et computationels de l'Apprentissage. Plus précisément, dans une première partie, nous étendons l'analyse en stabilité, qui relie certaines propriétés algorithmiques aux capacités de généralisation des algorithmes d'apprentissage, la matrice de confusion, que nous suggérons comme nouvelle mesure de performance (fine). Dans une seconde partie, nous présentons un nouvelle approche pour apprendre une fonction de régression basée sur les noyaux, où le noyau appris sert directement la tâche de régression, et qui exploite la structure du problème pour offrir une procédure d'optimisation peu coûteuse. Finalement, nous étudions le compromis entre vitesse de convergence et coût computationel lorsque l'on minimise une fonction composite avec des méthodes par gradient-proximal inexact. Dans ce contexte, nous identifions des stratégies d'optimisation qui sont computationellement optimales.
115

Optimisation de la performance des applications de mémoire transactionnelle sur des plates-formes multicoeurs : une approche basée sur l'apprentissage automatique

Bastos castro, Marcio 03 December 2012 (has links) (PDF)
Le concept de processeur multicœurs constitue le facteur dominant pour offrir des hautes performances aux applications parallèles. Afin de développer des applications parallèles capable de tirer profit de ces plate-formes, les développeurs doivent prendre en compte plusieurs aspects, allant de l'architecture aux caractéristiques propres à l'application. Dans ce contexte, la Mémoire Transactionnelle (Transactional Memory - TM) apparaît comme une alternative intéressante à la synchronisation basée sur les verrous pour ces plates-formes. Elle permet aux programmeurs d'écrire du code parallèle encapsulé dans des transactions, offrant des garanties comme l'atomicité et l'isolement. Lors de l'exécution, les opérations sont exécutées spéculativement et les conflits sont résolus par ré-exécution des transactions en conflit. Bien que le modèle de TM ait pour but de simplifier la programmation concurrente, les meilleures performances ne pourront être obtenues que si l'exécutif est capable de s'adapter aux caractéristiques des applications et de la plate-forme. Les contributions de cette thèse concernent l'analyse et l'amélioration des performances des applications basées sur la Mémoire Transactionnelle Logicielle (Software Transactional Memory - STM) pour des plates-formes multicœurs. Dans un premier temps, nous montrons que le modèle de TM et ses performances sont difficiles à analyser. Pour s'attaquer à ce problème, nous proposons un mécanisme de traçage générique et portable qui permet de récupérer des événements spécifiques à la TM afin de mieux analyser les performances des applications. Par exemple, les données tracées peuvent être utilisées pour détecter si l'application présente des points de contention ou si cette contention est répartie sur toute l'exécution. Notre approche peut être utilisée sur différentes applications et systèmes STM sans modifier leurs codes sources. Ensuite, nous abordons l'amélioration des performances des applications sur des plate-formes multicœurs. Nous soulignons que le placement des threads (thread mapping) est très important et peut améliorer considérablement les performances globales obtenues. Pour faire face à la grande diversité des applications, des systèmes STM et des plates-formes, nous proposons une approche basée sur l'Apprentissage Automatique (Machine Learning) pour prédire automatiquement les stratégies de placement de threads appropriées pour les applications de TM. Au cours d'une phase d'apprentissage préliminaire, nous construisons les profiles des applications s'exécutant sur différents systèmes STM pour obtenir un prédicteur. Nous utilisons ensuite ce prédicteur pour placer les threads de façon statique ou dynamique dans un système STM récent. Finalement, nous effectuons une évaluation expérimentale et nous montrons que l'approche statique est suffisamment précise et améliore les performances d'un ensemble d'applications d'un maximum de 18%. En ce qui concerne l'approche dynamique, nous montrons que l'on peut détecter des changements de phase d'exécution des applications composées des diverses charges de travail, en prévoyant une stratégie de placement appropriée pour chaque phase. Sur ces applications, nous avons obtenu des améliorations de performances d'un maximum de 31% par rapport à la meilleure stratégie statique.
116

Classification de bases de données déséquilibrées par des règles de décomposition

D'ambrosio, Roberto 07 March 2014 (has links) (PDF)
Le déséquilibre entre la distribution des a priori est rencontré dans un nombre très large de domaines. Les algorithmes d'apprentissage conventionnels sont moins efficaces dans la prévision d'échantillons appartenant aux classes minoritaires. Notre but est de développer une règle de reconstruction adaptée aux catégories de données biaisées. Nous proposons une nouvelle règle, la Reconstruction Rule par sélection, qui, dans le schéma 'One-per-Class', utilise la fiabilité, des étiquettes et des distributions a priori pour permettre de calculer une décision finale. Les tests démontrent que la performance du système s'améliore en utilisant cette règle plutôt que des règles classiques. Nous étudions également les règles dans l' 'Error Correcting Output Code' (ECOC) décomposition. Inspiré par une règle de reconstitution de données statistiques conçue pour le 'One-per-Class' et 'Pair-Wise Coupling' des approches sur la décomposition, nous avons développé une règle qui s'applique à la régression 'softmax' sur la fiabilité afin d'évaluer la classification finale. Les résultats montrent que ce choix améliore les performances avec respect de la règle statistique existante et des règles de reconstructions classiques. Sur ce thème d'estimation fiable nous remarquons que peu de travaux ont porté sur l'efficacité de l'estimation postérieure dans le cadre de boosting. Suivant ce raisonnement, nous développons une estimation postérieure efficace en boosting Nearest Neighbors. Utilisant Universal Nearest Neighbours classification nous prouvons qu'il existe une sous-catégorie de fonctions, dont la minimisation apporte statistiquement de simples et efficaces estimateurs de Bayes postérieurs.
117

Apprentissage de grammaires catégorielles : transducteurs d'arbres et clustering pour induction de grammaires catégorielles

Sandillon Rezer, Noémie Fleur 09 December 2013 (has links) (PDF)
De nos jours, il n'est pas rare d'utiliser des logiciels capables d'avoir une conversation, d'interagir avec nous (systèmes questions/réponses pour les SAV, gestion d'interface ou simplement Intelligence Artificielle - IA - de discussion). Ceux-ci doivent comprendre le contexte ou réagir par mot-clefs, mais générer ensuite des réponses cohérentes, aussi bien au niveau du sens de la phrase (sémantique) que de la forme (syntaxe). Si les premières IA se contentaient de phrases toutes faites et réagissaient en fonction de mots-clefs, le processus s'est complexifié avec le temps. Pour améliorer celui-ci, il faut comprendre et étudier la construction des phrases. Nous nous focalisons sur la syntaxe et sa modélisation avec des grammaires catégorielles. L'idée est de pouvoir aussi bien générer des squelettes de phrases syntaxiquement correctes que vérifier l'appartenance d'une phrase à un langage, ici le français (il manque l'aspect sémantique). On note que les grammaires AB peuvent, à l'exception de certains phénomènes comme la quantification et l'extraction, servir de base pour la sémantique en extrayant des λ-termes. Nous couvrons aussi bien l'aspect d'extraction de grammaire à partir de corpus arborés que l'analyse de phrases. Pour ce faire, nous présentons deux méthodes d'extraction et une méthode d'analyse de phrases permettant de tester nos grammaires. La première méthode consiste en la création d'un transducteur d'arbres généralisé, qui transforme les arbres syntaxiques en arbres de dérivation d'une grammaire AB. Appliqué sur les corpus français que nous avons à notre disposition, il permet d'avoir une grammaire assez complète de la langue française, ainsi qu'un vaste lexique. Le transducteur, même s'il s'éloigne peu de la définition usuelle d'un transducteur descendant, a pour particularité d'offrir une nouvelle méthode d'écriture des règles de transduction, permettant une définition compacte de celles-ci. Nous transformons actuellement 92,5% des corpus en arbres de dérivation. Pour notre seconde méthode, nous utilisons un algorithme d'unification en guidant celui-ci avec une étape préliminaire de clustering, qui rassemble les mots en fonction de leur contexte dans la phrase. La comparaison avec les arbres extraits du transducteur donne des résultats encourageants avec 91,3% de similarité. Enfin, nous mettons en place une version probabiliste de l'algorithme CYK pour tester l'efficacité de nos grammaires en analyse de phrases. La couverture obtenue est entre 84,6% et 92,6%, en fonction de l'ensemble de phrases pris en entrée. Les probabilités, appliquées aussi bien sur le type des mots lorsque ceux-ci en ont plusieurs que sur les règles, permettent de sélectionner uniquement le "meilleur" arbre de dérivation.Tous nos logiciels sont disponibles au téléchargement sous licence GNU GPL.
118

Meta-learning strategies, implementations, and evaluations for algorithm selection /

Köpf, Christian Rudolf. January 1900 (has links)
Thesis (doctorat)--Universität Ulm, 2005. / Includes bibliographical references (p. 227-248).
119

Behavior based malware classification using online machine learning / Classification des logiciels malveillants basée sur le comportement à l'aide de l'apprentissage automatique en ligne

Pektaş, Abdurrahman 10 December 2015 (has links)
Les malwares, autrement dit programmes malicieux ont grandement évolué ces derniers temps et sont devenus une menace majeure pour les utilisateurs grand public, les entreprises et même le gouvernement. Malgré la présence et l'utilisation intensive de divers outils anti-malwares comme les anti-virus, systèmes de détection d'intrusions, pare-feux etc ; les concepteurs de malwares peuvent significativement contourner ses protections en utilisant les techniques d'offuscation. Afin de limiter ces problèmes, les chercheurs spécialisés dans les malwares ont proposé différentes approches comme l'exploration des données (data mining) ou bien l'apprentissage automatique (machine learning) pour détecter et classifier les échantillons de malwares en fonction de leur propriétés statiques et dynamiques. De plus les méthodes proposées sont efficaces sur un petit ensemble de malwares, le passage à l'échelle de ses méthodes pour des grands ensembles est toujours en recherche et n'a pas été encore résolu.Il est évident aussi que la majorité des malwares sont une variante des précédentes versions. Par conséquent, le volume des nouvelles variantes créées dépasse grandement la capacité d'analyse actuelle. C'est pourquoi développer la classification des malwares est essentiel pour lutter contre cette augmentation pour la communauté informatique spécialisée en sécurité. Le challenge principal dans l'identification des familles de malware est de réussir à trouver un équilibre entre le nombre d'échantillons augmentant et la précision de la classification. Pour surmonter cette limitation, contrairement aux systèmes de classification existants qui appliquent des algorithmes d'apprentissage automatique pour sauvegarder les données ; ce sont des algorithmes hors-lignes ; nous proposons une nouvelle classification de malwares en ligne utilisant des algorithmes d'apprentissage automatique qui peuvent fournir une mise à jour instantanée d'un nouvel échantillon de malwares en suivant son introduction dans le système de classification.Pour atteindre notre objectif, premièrement nous avons développé une version portable, évolutive et transparente d'analyse de malware appelée VirMon pour analyse dynamique de malware visant les OS windows. VirMon collecte le comportement des échantillons analysés au niveau bas du noyau à travers son pilote mini-filtre développé spécifiquement. Deuxièmement, nous avons mis en place un cluster de 5 machines pour notre module d'apprentissage en ligne ( Jubatus);qui permet de traiter une quantité importante de données. Cette configuration permet à chaque machine d'exécuter ses tâches et de délivrer les résultats obtenus au gestionnaire du cluster.Notre outil proposé consiste essentiellement en trois niveaux majeures. Le premier niveau permet l'extraction des comportements des échantillons surveillés et observe leurs interactions avec les ressources de l'OS. Durant cette étape, le fichier exemple est exécuté dans un environnement « sandbox ». Notre outil supporte deux « sandbox »:VirMon et Cuckoo. Durant le second niveau, nous appliquons des fonctionnalités d'extraction aux rapports d'analyses. Le label de chaque échantillon est déterminé Virustotal, un outil regroupant plusieurs anti-virus permettant de scanner en ligne constitués de 46 moteurs de recherches. Enfin au troisième niveau, la base de données de malware est partitionnée en ensemble de test et d'apprentissage. L'ensemble d'apprentissage est utilisé pour obtenir un modèle de classification et l'ensemble de test est utilisé pour l'évaluation.Afin de valider l'efficacité et l'évolutivité de notre méthode, nous l'avons évalué en se basant sur une base de 18 000 fichiers malicieux récents incluant des virus, trojans, backdoors, vers etc, obtenue depuis VirusShare. Nos résultats expérimentaux montrent que permet la classification de malware avec une précision de 92 %. / Recently, malware, short for malicious software has greatly evolved and became a major threat to the home users, enterprises, and even to the governments. Despite the extensive use and availability of various anti-malware tools such as anti-viruses, intrusion detection systems, firewalls etc., malware authors can readily evade these precautions by using obfuscation techniques. To mitigate this problem, malware researchers have proposed various data mining and machine learning approaches for detecting and classifying malware samples according to the their static or dynamic feature set. Although the proposed methods are effective over small sample set, the scalability of these methods for large data-set are in question.Moreover, it is well-known fact that the majority of the malware is the variant of the previously known samples. Consequently, the volume of new variant created far outpaces the current capacity of malware analysis. Thus developing malware classification to cope with increasing number of malware is essential for security community. The key challenge in identifying the family of malware is to achieve a balance between increasing number of samples and classification accuracy. To overcome this limitation, unlike existing classification schemes which apply machine learning algorithm to stored data, i.e., they are off-line, we proposed a new malware classification system employing online machine learning algorithms that can provide instantaneous update about the new malware sample by following its introduction to the classification scheme.To achieve our goal, firstly we developed a portable, scalable and transparent malware analysis system called VirMon for dynamic analysis of malware targeting Windows OS. VirMon collects the behavioral activities of analyzed samples in low kernel level through its developed mini-filter driver. Secondly we set up a cluster of five machines for our online learning framework module (i.e. Jubatus), which allows to handle large scale of data. This configuration allows each analysis machine to perform its tasks and delivers the obtained results to the cluster manager.Essentially, the proposed framework consists of three major stages. The first stage consists in extracting the behavior of the sample file under scrutiny and observing its interactions with the OS resources. At this stage, the sample file is run in a sandboxed environment. Our framework supports two sandbox environments: VirMon and Cuckoo. During the second stage, we apply feature extraction to the analysis report. The label of each sample is determined by using Virustotal, an online multiple anti-virus scanner framework consisting of 46 engines. Then at the final stage, the malware dataset is partitioned into training and testing sets. The training set is used to obtain a classification model and the testing set is used for evaluation purposes .To validate the effectiveness and scalability of our method, we have evaluated our method on 18,000 recent malicious files including viruses, trojans, backdoors, worms, etc., obtained from VirusShare, and our experimental results show that our method performs malware classification with 92% of accuracy.
120

Estimation de l'occupation dans le bâtiment / Estimating occupancy in building

Amayri, Manar 03 October 2017 (has links)
Il a été développé 3 approches pour l'estimation d'occupation (nombre d'occupants et potentiellement leur activité) à base de techniques de machine learning :- une technique d'apprentissage supervisé exploitant différentes typologies de capteurs,- une technique à base de connaissance sans capteurs- et une technique interactive sollicitant lorsque c'est opportun les occupants via des questions. / Building energy management and monitoring systems (EMMS) should not only consider building physics and HVAC systems but also human behavior. These systems may provide information and advice to occupants about the relevance of their behavior regarding the current state of a dwelling and its connected grids. Therefore, advanced EMMS need to estimate the relevance of occupant activities. Additionally, innovative end-user services such as replay past situations, anticipate the future or mirror the current state are under development and require models together with building state estimations including the human part of the state. However, to define the state of a zone, non-measured values should be known in both physical (i.e. heat flows) and human part (i.e. occupancy and activities).The problem is to identify and calculate data processed from sensors, calendars, etc… that could be used in a classification model to estimate the number of occupants and various activities happening in offices/homes. The sensor data must provide a rich context for a classifier to have a broad separation plane and represent the office situation closely. Since the use of video cameras is a problem in many areas, the solution must respect privacy issues and relies largely on non-intrusive sensors.The thesis identifies the most relevant calculation from the sensor data in order to classify the number of people in a zone and their activities in offices/homes at a given time period. The proposed approach is inspired from machine learning and interactive learning to avoid using the camera and build a general estimation method.Three approaches are proposed for occupancy and activities estimation:- supervised learning approach. It starts to determine the common sensors that shall be used to estimate and classify the approximate number of people (within a range) in a room and their activities. Means to estimate occupancy include motion detection, power consumption, CO2 concentration sensors, microphone or door/window positions. It starts by determining the most useful measurements in calculating the information gains. Then, estimation algorithms are proposed: they rely on decision tree learning algorithms because it yields decision rules readable by humans, which correspond to nested if-then-else rules, where thresholds can be adjusted depending on the considered living areas. An office has been used for testing.- knowledge base approach using sensor data and knowledge coming respectively from observation and questionnaire. It relies on hidden Markov model and Bayesian network algorithms to model a human behavior with probabilistic cause-effect relations and states based on knowledge and questionnaire. Different applications have been studied for validation: an office, an apartment and a house.- an interactive learning approach is proposed. It estimates the number of occupants in a room by questioning occupants when relevant, meaning limiting the number of interactions and maximizing the information gains, about the actual occupancy. Occupancy and activities estimation algorithms use information collected from occupants together with common sensors. A real-time application has been done in an office case study.

Page generated in 0.1473 seconds