• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 250
  • 244
  • 44
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 557
  • 557
  • 365
  • 353
  • 109
  • 106
  • 105
  • 105
  • 93
  • 90
  • 90
  • 88
  • 87
  • 71
  • 68
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
81

Apprentissage probabiliste de similarités d'édition

Boyer, Laurent 24 March 2011 (has links) (PDF)
De nombreuses applications informatiques nécessitent l'utilisation de distances. Dans le cadre de données structurées, chaînes ou arbres, nous utilisons majoritairement la distance d'édition. Celle-ci correspond au nombre minimal d'opérations d'édition (insertion, délétion et substitution) nécessaire pour transformer la première donnée en la seconde. Suivant l'application traitée, il est possible de paramétrer la distance d'édition en associant à chaque opération d'édition un poids. Dans le cadre de ce manuscrit, nous proposons une technique d'apprentissage automatique supervisée pour apprendre les poids de la distance décrite précédemment. L'algorithme utilisé, appelé Expectation-Maximisation, maximise la vraisemblance des paramètres du modèle à l'aide d'un échantillon d'apprentissage composé de paires d'exemples considérés comme similaires. La première contribution de ce manuscrit est une extension de précédents travaux sur les chaînes aux arbres sous la forme de transducteur à un unique état. Nous montrons sur une tâche de reconnaissance de caractères manuscrits, l'efficacité de l'apprentissage par rapport à l'utilisation de poids non appris. La seconde est une approche sur les chaînes sous contraintes. Le modèle est représenté par un ensemble fini d'états dans lequel les transitions sont contraintes. Une contrainte est représentée par un ensemble fini de fonctions booléennes définies sur la chaîne d'entrée et une de ses positions. Nous utilisons notre modèle pour aborder une application de recherche de sites de facteur de transcription dans des séquences génomiques
82

Classification de bases de données déséquilibrées par des règles de décomposition / Handling imbalanced datasets by reconstruction rules in decomposition schemes

D'Ambrosio, Roberto 07 March 2014 (has links)
Le déséquilibre entre la distribution des a priori est rencontré dans un nombre très large de domaines. Les algorithmes d’apprentissage conventionnels sont moins efficaces dans la prévision d’échantillons appartenant aux classes minoritaires. Notre but est de développer une règle de reconstruction adaptée aux catégories de données biaisées. Nous proposons une nouvelle règle, la Reconstruction Rule par sélection, qui, dans le schéma ‘One-per-Class’, utilise la fiabilité, des étiquettes et des distributions a priori pour permettre de calculer une décision finale. Les tests démontrent que la performance du système s’améliore en utilisant cette règle plutôt que des règles classiques. Nous étudions également les règles dans l’ ‘Error Correcting Output Code’ (ECOC) décomposition. Inspiré par une règle de reconstitution de données statistiques conçue pour le ‘One-per-Class’ et ‘Pair-Wise Coupling’ des approches sur la décomposition, nous avons développé une règle qui s’applique à la régression ‘softmax’ sur la fiabilité afin d’évaluer la classification finale. Les résultats montrent que ce choix améliore les performances avec respect de la règle statistique existante et des règles de reconstructions classiques. Sur ce thème d’estimation fiable nous remarquons que peu de travaux ont porté sur l’efficacité de l’estimation postérieure dans le cadre de boosting. Suivant ce raisonnement, nous développons une estimation postérieure efficace en boosting Nearest Neighbors. Utilisant Universal Nearest Neighbours classification nous prouvons qu’il existe une sous-catégorie de fonctions, dont la minimisation apporte statistiquement de simples et efficaces estimateurs de Bayes postérieurs. / Disproportion among class priors is encountered in a large number of domains making conventional learning algorithms less effective in predicting samples belonging to the minority classes. We aim at developing a reconstruction rule suited to multiclass skewed data. In performing this task we use the classification reliability that conveys useful information on the goodness of classification acts. In the framework of One-per-Class decomposition scheme we design a novel reconstruction rule, Reconstruction Rule by Selection, which uses classifiers reliabilities, crisp labels and a-priori distributions to compute the final decision. Tests show that system performance improves using this rule rather than using well-established reconstruction rules. We investigate also the rules in the Error Correcting Output Code (ECOC) decomposition framework. Inspired by a statistical reconstruction rule designed for the One-per-Class and Pair-Wise Coupling decomposition approaches, we have developed a rule that applies softmax regression on reliability outputs in order to estimate the final classification. Results show that this choice improves the performances with respect to the existing statistical rule and to well-established reconstruction rules. On the topic of reliability estimation we notice that small attention has been given to efficient posteriors estimation in the boosting framework. On this reason we develop an efficient posteriors estimator by boosting Nearest Neighbors. Using Universal Nearest Neighbours classifier we prove that a sub-class of surrogate losses exists, whose minimization brings simple and statistically efficient estimators for Bayes posteriors.
83

Maintenance automatique du réseau programmable d'accès optique de très haut débit / Autonomic maintenance of high programmable optical access network

Frigui, Nejm Eddine 21 January 2019 (has links)
Les réseaux optiques passifs (PONs, Passive Optical Networks) représentant l’une des solutions les plus performantes du réseau d’accès FTTH ont été largement déployés par les opérateurs grâce à leur capacité d’offrir des services de très haut débit. Cependant, en raison de la dynamicité du trafic des différents clients, ces réseaux doivent s’appuyer sur un mécanisme efficace pour l’allocation de ressources, plus particulièrement dans le sens montant. Ce mécanisme est actuellement limité par la nature statique des paramètres SLA (Service Level Agreement). Ceci peut avoir une influence négative sur la qualité de service ressentie par les utilisateurs. L’objectif de cette thèse est de proposer une nouvelle architecture pour optimiser l’allocation de ressources dans les réseaux PON tout en agissant uniquement sur les paramètres SLA, désignés comme des paramètres gérables par l’opérateur. Des techniques de classification basées sur l’apprentissage automatique et la prédiction sont utilisées pour analyser le comportement des différents utilisateurs et déterminer leurs tendances de trafic. Un ajustement dynamique sur la base du concept autonomique de certains paramètres SLA est ensuite effectué afin de maximiser la satisfaction globale des clients vis-à-vis du réseau. / Passive Optical Network (PON) representing one of the most attractive FTTH access network solutions, have been widely deployed for several years thanks to their ability to offer high speed services. However, due to the dynamicity of users traffic patterns, PONs need to rely on an efficient upstream bandwidth allocation mechanism. This mechanism is currently limited by the static nature of Service Level Agreement (SLA) parameters which can lead to an unoptimized bandwidth allocation in the network. The objective of this thesis is to propose a new management architecture for optimizing the upstream bandwidth allocation in PON while acting only on manageable parameters to allow the involvement of self-decision elements into the network. To achieve this, classification techniques based on machine learning approaches are used to analyze the behavior of PON users and to specify their upstream data transmission tendency. A dynamic adjustment of some SLA parameters is then performed to maximize the overall customers’ satisfaction with the network.
84

Conceptual Approaches for Securing Networks and Systems / Des approches conceptuelles pour sécuriser des réseaux et des systèmes

Becker, Sheila 16 October 2012 (has links)
Les communications pair-à-pair en temps réel ainsi que les applications de transmissions multi-média peuvent améliorer leurs performances en utilisant des services d'estimation de topologie au niveau d'application. Les systèmes aux coordonnées virtuelles représentent un tel service. A l'aide d'un tel système les noeuds d'un réseau pair-à-pair prédisent les latences entre différents noeuds sans nécessiter des mesures étendues. Malheureusement, prédire les latences correctement requis que les noeuds soient honnêtes et coopératifs. La recherche récente propose des techniques pour atténuer des attaques basiques (inflation, déflation, oscillation) où les attaquants conduisent un type d'attaque seulement. Dans ce travail, nous définissons et utilisons un modèle basé sur la théorie des jeux pour identifier la meilleure solution pour défendre le système en supposant que les attaquants utilisent l'attaque la plus pire. Ce modèle nous aide à démontrer l'impact et l'efficacité des attaques et défenses en utilisant un système de coordonnées virtuelles répondu. De même, nous explorons des techniques de l'apprentissage automatique supervisé pour détecter des attaques plus lentes et subtiles, comme l'attaque à l'inflation-lente et l'attaque de dégroupage de réseau qui sont capable de contourner des techniques de défenses existantes. Nous évaluons nos techniques sur le système Vivaldi contre des stratégies d'attaques plus complexes sur des simulations ainsi que des déploiements Internet / Peer-to-peer real-time communication and media streaming applications optimize their performance by using application-level topology estimation services such as virtual coordinate systems. Virtual coordinate systems allow nodes in a peer-to-peer network to accurately predict latency between arbitrary nodes without the need of performing extensive measurements. However, systems that leverage virtual coordinates as supporting building blocks, are prone to attacks conducted by compromised nodes that aim at disrupting, eavesdropping, or mangling with the underlying communications. Recent research proposed techniques to mitigate basic attacks (inflation, deflation, oscillation) considering a single attack strategy model where attackers perform only one type of attack. In this work, we define and use a game theory framework in order to identify the best attack and defense strategies assuming that the attacker is aware of the defense mechanisms. Our approach leverages concepts derived from the Nash equilibrium to model more powerful adversaries. We apply the game theory framework to demonstrate the impact and efficiency of these attack and defense strategies using a well-known virtual coordinate system and real-life Internet data sets. Thereafter, we explore supervised machine learning techniques to mitigate more subtle yet highly effective attacks (frog-boiling, network-partition) that are able to bypass existing defenses. We evaluate our techniques on the Vivaldi system against a more complex attack strategy model, where attackers perform sequences of all known attacks against virtual coordinate systems, using both simulations and Internet deployments
85

Évaluation de la confiance dans la collaboration à large échelle / Trust assessment in large-scale collaborative systems

Dang, Quang Vinh 22 January 2018 (has links)
Les systèmes collaboratifs à large échelle, où un grand nombre d’utilisateurs collaborent pour réaliser une tâche partagée, attirent beaucoup l’attention des milieux industriels et académiques. Bien que la confiance soit un facteur primordial pour le succès d’une telle collaboration, il est difficile pour les utilisateurs finaux d’évaluer manuellement le niveau de confiance envers chaque partenaire. Dans cette thèse, nous étudions le problème de l’évaluation de la confiance et cherchons à concevoir un modèle de confiance informatique dédiés aux systèmes collaboratifs. Nos travaux s’organisent autour des trois questions de recherche suivantes. 1. Quel est l’effet du déploiement d’un modèle de confiance et de la représentation aux utilisateurs des scores obtenus pour chaque partenaire ? Nous avons conçu et organisé une expérience utilisateur basée sur le jeu de confiance qui est un protocole d’échange d’argent en environnement contrôlé dans lequel nous avons introduit des notes de confiance pour les utilisateurs. L’analyse détaillée du comportement des utilisateurs montre que: (i) la présentation d’un score de confiance aux utilisateurs encourage la collaboration entre eux de manière significative, et ce, à un niveau similaire à celui de l’affichage du surnom des participants, et (ii) les utilisateurs se conforment au score de confiance dans leur prise de décision concernant l’échange monétaire. Les résultats suggèrent donc qu’un modèle de confiance peut être déployé dans les systèmes collaboratifs afin d’assister les utilisateurs. 2. Comment calculer le score de confiance entre des utilisateurs qui ont déjà collaboré ? Nous avons conçu un modèle de confiance pour les jeux de confiance répétés qui calcule les scores de confiance des utilisateurs en fonction de leur comportement passé. Nous avons validé notre modèle de confiance en relativement à: (i) des données simulées, (ii) de l’opinion humaine et (iii) des données expérimentales réelles. Nous avons appliqué notre modèle de confiance à Wikipédia en utilisant la qualité des articles de Wikipédia comme mesure de contribution. Nous avons proposé trois algorithmes d’apprentissage automatique pour évaluer la qualité des articles de Wikipédia: l’un est basé sur une forêt d’arbres décisionnels tandis que les deux autres sont basés sur des méthodes d’apprentissage profond. 3. Comment prédire la relation de confiance entre des utilisateurs qui n’ont pas encore interagi ? Etant donné un réseau dans lequel les liens représentent les relations de confiance/défiance entre utilisateurs, nous cherchons à prévoir les relations futures. Nous avons proposé un algorithme qui prend en compte les informations temporelles relatives à l’établissement des liens dans le réseau pour prédire la relation future de confiance/défiance des utilisateurs. L’algorithme proposé surpasse les approches de la littérature pour des jeux de données réels provenant de réseaux sociaux dirigés et signés / Large-scale collaborative systems wherein a large number of users collaborate to perform a shared task attract a lot of attention from both academic and industry. Trust is an important factor for the success of a large-scale collaboration. It is difficult for end-users to manually assess the trust level of each partner in this collaboration. We study the trust assessment problem and aim to design a computational trust model for collaborative systems. We focused on three research questions. 1. What is the effect of deploying a trust model and showing trust scores of partners to users? We designed and organized a user-experiment based on trust game, a well-known money-exchange lab-control protocol, wherein we introduced user trust scores. Our comprehensive analysis on user behavior proved that: (i) showing trust score to users encourages collaboration between them significantly at a similar level with showing nick- name, and (ii) users follow the trust score in decision-making. The results suggest that a trust model can be deployed in collaborative systems to assist users. 2. How to calculate trust score between users that experienced a collaboration? We designed a trust model for repeated trust game that computes user trust scores based on their past behavior. We validated our trust model against: (i) simulated data, (ii) human opinion, and (iii) real-world experimental data. We extended our trust model to Wikipedia based on user contributions to the quality of the edited Wikipedia articles. We proposed three machine learning approaches to assess the quality of Wikipedia articles: the first one based on random forest with manually-designed features while the other two ones based on deep learning methods. 3. How to predict trust relation between users that did not interact in the past? Given a network in which the links represent the trust/distrust relations between users, we aim to predict future relations. We proposed an algorithm that takes into account the established time information of the links in the network to predict future user trust/distrust relationships. Our algorithm outperforms state-of-the-art approaches on real-world signed directed social network datasets
86

Contrôle des performances et conciliation d’erreurs dans les décodeurs d’image / Performance monitoring and errors reconciliation in image decoders

Takam tchendjou, Ghislain 12 December 2018 (has links)
Cette thèse porte sur le développement et l’implémentation des algorithmes de détection et de correction des erreurs dans les images, en vue de contrôler la qualité des images produites en sortie des décodeurs numériques. Pour atteindre les objectifs visés dans cette étude, nous avons commencé par faire l’état de lieu de l’existant. L’examen critique des approches en usage a justifié la construction d’un ensemble de méthodes objectives d’évaluation de la qualité visuelle des images, basées sur des méthodes d’apprentissage automatique. Ces algorithmes prennent en entrées un ensemble de caractéristiques ou de métriques extraites des images. En fonction de ces caractéristiques, et de la disponibilité ou non d’une image de référence, deux sortes de mesures objectives ont été élaborées : la première basée sur des métriques avec référence, et la seconde basée sur des métriques sans référence ; toutes les deux à distorsions non spécifiques. En plus de ces méthodes d’évaluation objective, une méthode d’évaluation et d’amélioration de la qualité des images basée sur la détection et la correction des pixels défectueux dans les images a été mise en œuvre. Les applications ont contribué à affiner aussi bien les méthodes d’évaluation de la qualité visuelle des images que la construction des algorithmes objectifs de détection et de correction des pixels défectueux par rapport aux diverses méthodes actuellement en usage. Une implémentation sur cartes FPGA des techniques développées a été réalisée pour intégrer les modèles présentant les meilleures performances dans de la phase de simulation. / This thesis deals with the development and implementation of error detection and correction algorithms in images, in order to control the quality of produced images at the output of digital decoders. To achieve the objectives of this work, we first study the state-of the-art of the existing approaches. Examination of classically used approaches justified the study of a set of objective methods for evaluating the visual quality of images, based on machine learning methods. These algorithms take as inputs a set of characteristics or metrics extracted from the images. Depending on the characteristics extracted from the images, and the availability or not of a reference image, two kinds of objective evaluation methods have been developed: the first based on full reference metrics, and the second based on no-reference metrics; both of them with non-specific distortions. In addition to these objective evaluation methods, a method of evaluating and improving the quality of the images based on the detection and correction of the defective pixels in the images has been implemented. The proposed results have contributed to refining visual image quality assessment methods as well as the construction of objective algorithms for detecting and correcting defective pixels compared to the various currently used methods. An implementation on an FPGA has been carried out to integrate the models with the best performances during the simulation phase.
87

Perspectives de méta-analyse pour un environnement d'aide à la simulation et prédiction / Meta-analysis perspectives toward assistance in prediction and simulation

Raynaut, William 12 January 2018 (has links)
L'émergence du phénomène Big Data a créé un besoin grandissant en analyse de données, mais, bien souvent, cette analyse est conduite par des experts de différents domaines ayant peu d'expérience en science des données. On s'intéresse donc à ce besoin d'assistance à l'analyse de données, qui commence tout juste à recevoir une certaine attention des communautés scientifiques, donnant naissance au domaine de la méta-analyse. Les premières approches du sujet se révélant souvent similaires et peu abouties, on tente en particulier de permettre de nouvelles approches de méta-analyse pour adresser ce problème d'assistance à l'analyse de données. Pour ce faire, une première étape cruciale est de déterminer ce qu'est une méta-analyse performante, aucun standard n'ayant encore été établi dans ce domaine relativement neuf. On propose ainsi un cadre générique d'évaluation de méta-analyse, permettant de comparer et caractériser finement diverses techniques de méta- analyse. Ensuite, afin d'ouvrir de nouvelles voies, on s'intéresse à un verrou majeur de la méta-analyse : la caractérisation de jeu de données. On propose et évalue alors une caractérisation par dissimilarité faisant usage de toute l'information disponible pour autoriser de nouvelles approches de méta-analyse. L'utilisation de cette caractérisation par dissimilarité permettant de recommander facilement des processus d'analyse de données complets, on décrit enfin les nouvelles approches de méta-analyses rendues possibles, ainsi que les processus afférents d'assistance à l'analyse de données. / The emergence of the big data phenomenon has led to increasing demands in data analysis, which most often are conducted by other domains experts with little experience in data science. We then consider this important demand in intelligent assistance to data analysis, which receives an increasing attention from the scientific community. The first takes on the subject often possessing similar shortcomings, we propose to address it through new processes of meta-analysis. No evaluation standard having yet been set in this relatively new domain, we first propose a meta-analysis evaluation framework that will allow us to test and compare the developed methods. In order to open new approaches of meta-analysis, we then consider one of its recurring issue: dataset characterization. We then propose and evaluate such a characterization, consisting in a dissimilarity between datasets making use of a precise topological description to compare them. This dissimilarity allows a new meta-analysis approach producing recommendations of complete data analysis processes, which we then evaluate on a proof of concept. We thus detail the proposed methods of meta-analysis, and the associated process of assistance to data analysis.
88

Self-Adaptive Bandwidth Control for Balanced QoS and Energy Aware Optimization in Wireless Sensor Network / Contrôle de bande passante auto-adaptatif pour une qualité de service équilibrée et une optimisation énergétique optimisée dans le réseau de capteurs sans fil

Liu, Zongyi 04 July 2017 (has links)
Dans le domaine des réseaux de capteurs multimédias sans fil (WMSN), le flux fortement saturé augmente la probabilité de collision et de congestion dans la transmission de données, ce qui dégrade considérablement la performance de la qualité de service (QoS). La technique de déploiement multicanaux est souvent appliquée à la transmission en parallèle pour garantir la QoS. Cependant, comment faire le compromis entre l'exigence QoS et l'efficacité énergétique est un défi pour WMSN énergie-limité. L'analyse théorique de la couche MAC et de la structure de la couche PHY basée sur la norme IEEE 802.15.4, vise à étudier le modèle analytique cross-layer afin de mieux comprendre la relation entre les paramètres du réseau de capteurs et la performance, ouvrant ainsi la voie à de nouvelles améliorations. Recherche d'optimisation multi-canaux. Trouver un indicateur de performance efficace et concevoir une méthode de collecte ou d'estimation de performance efficace basée sur les métriques correspondantes, qui pourraient être utilisées comme entrée de paramètre du mécanisme d'affectation multicanaux. Le système de contrôle dynamique complet est conçu pour une tâche d'attribution multicanal basée sur des techniques d'intelligence de calcul léger et efficace. Nous présentons un mécanisme d'attribution multicouches à bande passante dynamique à fuzzy (MCDB_FLS). La bande passante proactive disponible dans la couche croisée est estimée comme paramètre pour le contrôle d'admission de déploiement multicanal. Une approche axée sur l'apprentissage par renforcement est proposée pour une prise de décision judicieuse dans la mission d'allocation multicanaux. En outre, le modèle de seuil de bande passante basé sur la logique floue fournit une optimisation dynamique sur le contrôle d'admission du système. Les simulations montrent que le MCDB_FLS fonctionne mieux que la référence sur les mesures de QoS et l'efficacité énergétique, réalise le compromis entre l'efficacité énergétique et l'amélioration de la QoS. Enfin, nous introduisons l'intégration de l'approche incrémentielle d'apprentissage automatique dans le mécanisme d'affectation multicanaux avec la Deep Q Network (DQMC). En outre, l'initialisation du poids par action est implémentée sur la base d'un classificateur d'apprentissage supervisé multi-classes avec une approche par empilement. DQMC améliorer la capacité d'auto-adaptatif et de contrôle intelligent pour apprendre le modèle de l'environnement différent de multi-tâches WMSNs. / In the Wireless Multimedia Sensor Networks (WMSNs) field, highly saturated flow increases the probability of collision and congestion in data transmission which dramatically degrade the performance of Quality of Service (QoS). Multi-channels deployment technique is often applied to parallel transmission for QoS guarantee. However, how to make trade-off between QoS requirement and energy efficiency is a challenges to energy-constrained WMSNs. Theoretical analysis of MAC layer and PHY layer structure based on IEEE 802.15.4 standard, aim to study on the cross-layer analytical model in order to provide stronger understanding on the relationship between sensor network parameters and performance, pave the way for new enhancements in succedent multi-channel optimization research. Find effective performance indicator and design efficient performance collection or estimation approach based on the corresponding metrics, which could be used as the parameter input of multi-channel assignment mechanism. Comprehensive dynamically control system is designed for multi-channel assignment task based on light weight and high efficient computation intelligence techniques. We present a fuzzy-based dynamic bandwidth multi-channel assignment mechanism (MCDB_FLS). Cross-layer proactive available bandwidth is estimated as parameters for multi-channel deployment admission control. Reinforcement learning-based approach is proposed for more wisely decision-making in multi- channel allocation mission. Furthermore, fuzzy logic-based bandwidth threshold model provides dynamic optimization on system admission control. Simulations show the MCDB_FLS performs better than benchmark on the metrics of QoS and energy efficiency, achieves the trade-off between energy efficiency and QoS improvement. Finally, we introduce the integration of incremental machine learning approach into multi-channel assignment mechanism with Deep Q Network reinforcement learning method (DQMC). Besides, fully action weight initialization is implemented based on multi-class supervised learning classifier with stacking ensemble approach. DQMC improve the ability of self-adaptive and smart control to learn pattern from different environment of multi-tasks WMSNs.
89

Information quality in online social media and big data collection : an example of Twitter spam detection / Qualité de l'information dans les médias sociaux en ligne et collection de big data : un exemple de détection de spam sur twitter

Washha, Mahdi 17 July 2018 (has links)
La popularité des médias sociaux en ligne (Online Social Media - OSM) est fortement liée à la qualité du contenu généré par l'utilisateur (User Generated Content - UGC) et la protection de la vie privée des utilisateurs. En se basant sur la définition de la qualité de l'information, comme son aptitude à être exploitée, la facilité d'utilisation des OSM soulève de nombreux problèmes en termes de la qualité de l'information ce qui impacte les performances des applications exploitant ces OSM. Ces problèmes sont causés par des individus mal intentionnés (nommés spammeurs) qui utilisent les OSM pour disséminer des fausses informations et/ou des informations indésirables telles que les contenus commerciaux illégaux. La propagation et la diffusion de telle information, dit spam, entraînent d'énormes problèmes affectant la qualité de services proposés par les OSM. La majorité des OSM (comme Facebook, Twitter, etc.) sont quotidiennement attaquées par un énorme nombre d'utilisateurs mal intentionnés. Cependant, les techniques de filtrage adoptées par les OSM se sont avérées inefficaces dans le traitement de ce type d'information bruitée, nécessitant plusieurs semaines ou voir plusieurs mois pour filtrer l'information spam. En effet, plusieurs défis doivent être surmontées pour réaliser une méthode de filtrage de l'information bruitée . Les défis majeurs sous-jacents à cette problématique peuvent être résumés par : (i) données de masse ; (ii) vie privée et sécurité ; (iii) hétérogénéité des structures dans les réseaux sociaux ; (iv) diversité des formats du UGC ; (v) subjectivité et objectivité. Notre travail s'inscrit dans le cadre de l'amélioration de la qualité des contenus en termes de messages partagés (contenu spam) et de profils des utilisateurs (spammeurs) sur les OSM en abordant en détail les défis susmentionnés. Comme le spam social est le problème le plus récurant qui apparaît sur les OSM, nous proposons deux approches génériques pour détecter et filtrer le contenu spam : i) La première approche consiste à détecter le contenu spam (par exemple, les tweets spam) dans un flux en temps réel. ii) La seconde approche est dédiée au traitement d'un grand volume des données relatives aux profils utilisateurs des spammeurs (par exemple, les comptes Twitter). / The popularity of OSM is mainly conditioned by the integrity and the quality of UGC as well as the protection of users' privacy. Based on the definition of information quality as fitness for use, the high usability and accessibility of OSM have exposed many information quality (IQ) problems which consequently decrease the performance of OSM dependent applications. Such problems are caused by ill-intentioned individuals who misuse OSM services to spread different kinds of noisy information, including fake information, illegal commercial content, drug sales, mal- ware downloads, and phishing links. The propagation and spreading of noisy information cause enormous drawbacks related to resources consumptions, decreasing quality of service of OSM-based applications, and spending human efforts. The majority of popular social networks (e.g., Facebook, Twitter, etc) over the Web 2.0 is daily attacked by an enormous number of ill-intentioned users. However, those popular social networks are ineffective in handling the noisy information, requiring several weeks or months to detect them. Moreover, different challenges stand in front of building a complete OSM-based noisy information filtering methods that can overcome the shortcomings of OSM information filters. These challenges are summarized in: (i) big data; (ii) privacy and security; (iii) structure heterogeneity; (iv) UGC format diversity; (v) subjectivity and objectivity; (vi) and service limitations In this thesis, we focus on increasing the quality of social UGC that are published and publicly accessible in forms of posts and profiles over OSNs through addressing in-depth the stated serious challenges. As the social spam is the most common IQ problem appearing over the OSM, we introduce a design of two generic approaches for detecting and filtering out the spam content. The first approach is for detecting the spam posts (e.g., spam tweets) in a real-time stream, while the other approach is dedicated for handling a big data collection of social profiles (e.g., Twitter accounts).
90

Self Exploration of Sensorimotor Spaces in Robots. / L’auto-exploration des espaces sensorimoteurs chez les robots

Benureau, Fabien 18 May 2015 (has links)
La robotique développementale a entrepris, au courant des quinze dernières années,d’étudier les processus développementaux, similaires à ceux des systèmes biologiques,chez les robots. Le but est de créer des robots qui ont une enfance—qui rampent avant d’essayer de courir, qui jouent avant de travailler—et qui basent leurs décisions sur l’expérience de toute une vie, incarnés dans le monde réel.Dans ce contexte, cette thèse étudie l’exploration sensorimotrice—la découverte pour un robot de son propre corps et de son environnement proche—pendant les premiers stage du développement, lorsque qu’aucune expérience préalable du monde n’est disponible. Plus spécifiquement, cette thèse se penche sur comment générer une diversité d’effets dans un environnement inconnu. Cette approche se distingue par son absence de fonction de récompense ou de fitness définie par un expert, la rendant particulièrement apte à être intégrée sur des robots auto-suffisants.Dans une première partie, l’approche est motivée et le problème de l’exploration est formalisé, avec la définition de mesures quantitatives pour évaluer le comportement des algorithmes et d’un cadre architectural pour la création de ces derniers. Via l’examen détaillé de l’exemple d’un bras robot à multiple degrés de liberté, la thèse explore quelques unes des problématiques fondamentales que l’exploration sensorimotrice pose, comme la haute dimensionnalité et la redondance sensorimotrice. Cela est fait en particulier via la comparaison entre deux stratégies d’exploration: le babillage moteur et le babillage dirigé par les objectifs. Plusieurs algorithmes sont proposés tour à tour et leur comportement est évalué empiriquement, étudiant les interactions qui naissent avec les contraintes développementales, les démonstrations externes et les synergies motrices. De plus, parce que même des algorithmes efficaces peuvent se révéler terriblement inefficaces lorsque leurs capacités d’apprentissage ne sont pas adaptés aux caractéristiques de leur environnement, une architecture est proposée qui peut dynamiquement choisir la stratégie d’exploration la plus adaptée parmi un ensemble de stratégies. Mais même avec de bons algorithmes, l’exploration sensorimotrice reste une entreprise coûteuse—un problème important, étant donné que les robots font face à des contraintes fortes sur la quantité de données qu’ils peuvent extraire de leur environnement;chaque observation prenant un temps non-négligeable à récupérer. [...] À travers cette thèse, les contributions les plus importantes sont les descriptions algorithmiques et les résultats expérimentaux. De manière à permettre la reproduction et la réexamination sans contrainte de tous les résultats, l’ensemble du code est mis à disposition. L’exploration sensorimotrice est un mécanisme fondamental du développement des systèmes biologiques. La séparer délibérément des mécanismes d’apprentissage et l’étudier pour elle-même dans cette thèse permet d’éclairer des problèmes importants que les robots se développant seuls seront amenés à affronter. / Developmental robotics has begun in the last fifteen years to study robots that havea childhood—crawling before trying to run, playing before being useful—and that are basing their decisions upon a lifelong and embodied experience of the real-world. In this context, this thesis studies sensorimotor exploration—the discovery of a robot’s own body and proximal environment—during the early developmental stages, when no prior experience of the world is available. Specifically, we investigate how to generate a diversity of effects in an unknown environment. This approach distinguishes itself by its lack of user-defined reward or fitness function, making it especially suited for integration in self-sufficient platforms. In a first part, we motivate our approach, formalize the exploration problem, define quantitative measures to assess performance, and propose an architectural framework to devise algorithms. through the extensive examination of a multi-joint arm example, we explore some of the fundamental challenges that sensorimotor exploration faces, such as high-dimensionality and sensorimotor redundancy, in particular through a comparison between motor and goal babbling exploration strategies. We propose several algorithms and empirically study their behaviour, investigating the interactions with developmental constraints, external demonstrations and biologicallyinspired motor synergies. Furthermore, because even efficient algorithms can provide disastrous performance when their learning abilities do not align with the environment’s characteristics, we propose an architecture that can dynamically discriminate among a set of exploration strategies. Even with good algorithms, sensorimotor exploration is still an expensive proposition— a problem since robots inherently face constraints on the amount of data they are able to gather; each observation takes a non-negligible time to collect. [...] Throughout this thesis, our core contributions are algorithms description and empirical results. In order to allow unrestricted examination and reproduction of all our results, the entire code is made available. Sensorimotor exploration is a fundamental developmental mechanism of biological systems. By decoupling it from learning and studying it in its own right in this thesis, we engage in an approach that casts light on important problems facing robots developing on their own.

Page generated in 0.091 seconds