Global ETD Search

31	Scalable location-temporal range query processing for structured peer-to-peer networks / Traitement de requêtes spatio-temporelles pour les réseaux pair-à-pair structurés Cortés, Rudyar 06 April 2017 (has links) La recherche et l'indexation de données en fonction d'une date ou d'une zone géographique permettent le partage et la découverte d'informations géolocalisées telles que l'on en trouve sur les réseaux sociaux comme Facebook, Flickr, ou Twitter. Cette réseau social connue sous le nom de Location Based Social Network (LBSN) s'applique à des millions d'utilisateurs qui partagent et envoient des requêtes ciblant des zones spatio-temporelles, permettant d'accéder à des données géolocalisées générées dans une zone géographique et dans un intervalle de temps donné. Un des principaux défis pour de telles applications est de fournir une architecture capable de traiter la multitude d'insertions et de requêtes spatio-temporelles générées par une grande quantité d'utilisateurs. A ces fins, les Tables de Hachage Distribué (DHT) et le paradigme Pair-à-Pair (P2P) sont autant de primitives qui forment la base pour les applications de grande envergure. Cependant, les DHTs sont mal adaptées aux requêtes ciblant des intervalles donnés; en effet, l'utilisation de fonctions de hachage sacrifie la localité des données au profit d'un meilleur équilibrage de la charge. Plusieurs solutions ajoutent le support de requêtes ciblant des ensembles aux DHTs. En revanche ces solutions ont tendance à générer un nombre de messages et une latence élevée pour des requêtes qui ciblent des intervalles. Cette thèse propose deux solutions à large échelle pour l'indexation des données géolocalisées. / Indexing and retrieving data by location and time allows people to share and explore massive geotagged datasets observed on social networks such as Facebook, Flickr, and Twitter. This scenario known as a Location Based Social Network (LBSN) is composed of millions of users, sharing and performing location-temporal range queries in order to retrieve geotagged data generated inside a given geographic area and time interval. A key challenge is to provide a scalable architecture that allow to perform insertions and location-temporal range queries from a high number of users. In order to achieve this, Distributed Hash Tables (DHTs) and the Peer-to-Peer (P2P) computing paradigms provide a powerful building block for implementing large scale applications. However, DHTs are ill-suited for supporting range queries because the use of hash functions destroy data locality for the sake of load balance. Existing solutions that use a DHT as a building block allow to perform range queries. Nonetheless, they do not target location-temporal range queries and they exhibit poor performance in terms of query response time and message traffic. This thesis proposes two scalable solutions for indexing and retrieving geotagged data based on location and time. Scalabilité Indexation spatio-Temporelle Pair à pair Table de hachage distribuée Données géolocalisées Traitement des requêtes Scalability Local-temporal indexing Peer-to-Peer 004
32	Optimization algorithms for video service delivery / Algorithmes d'optimisation de service vidéo Abousabea, Emad Mohamed Abd Elrahman 12 September 2012 (has links) L'objectif de cette thèse est de fournir des algorithmes d'optimisation pour l'accès aux services vidéo qu’ils soient non-gérés (Internet TV) ou gérés (IPTV). Nous étudions des statistiques récentes concernant les services vidéo non-gérés comme YouTube et nous proposons des techniques d'optimisation appropriées qui pourraient améliorer l'accès aux fichiers vidéos et réduire le coût de cet accès. En outre, l’analyse des coûts joue un rôle important dans les décisions qui concernent la mise en cache des fichiers vidéos et celles liées au choix des périodes temporelles d'hébergement de ces fichiers sur les serveurs. En ce qui concerne les services vidéo gérés appelés IPTV, nous avons mené des expériences sur une architecture ouverte IPTV-collaboration entre différents opérateurs. Ce modèle est analysé selon un critère de coût d’investissement et d'exploitation à l'intérieur de la sphère domestique. En outre, nous avons introduit une solution d’optimisation dynamique de l'arbre « minimum spanning tree » (MST) pour le service IPTV multicast. Lors d’un accès nomade, les arbres statiques pourraient être incapables de fournir le service de manière efficace vu que l'utilisation de la bande passante augmente aux côté des points de streaming (racines de la topologie). Finalement, nous étudions des mesures de sécurité fiables en streaming vidéo basées sur la méthodologie de la chaîne de hachage et nous proposons un nouvel algorithme hybride. Nous effectuons des comparaisons entre les différentes manières utilisées dans la réalisation de la fiabilité des chaînes de hachage basées sur les classifications génériques / The aim of this thesis is to provide optimization algorithms for accessing video services either in unmanaged or managed ways. We study recent statistics about unmanaged video services like YouTube and propose suitable optimization techniques that could enhance files accessing and reduce their access costs. Moreover, this cost analysis plays an important role in decision making about video files caching and hosting periods on the servers. Under managed video services called IPTV, we conducted experiments for an open-IPTV collaborative architecture between different operators. This model is analyzed in terms of CAPEX and OPEX costs inside the domestic sphere. Moreover, we introduced a dynamic way for optimizing the Minimum Spanning Tree (MST) for multicast IPTV service. In nomadic access, the static trees could be unable to provide the service in an efficient manner as the utilization of bandwidth increases towards the streaming points (roots of topologies). Finally, we study reliable security measures in video streaming based on hash chain methodology and propose a new algorithm. Then, we conduct comparisons between different ways used in achieving reliability of hash chains based on generic classifications Serveurs de partage de vidéos Optimisation Mise en cache vidéo Fiabilité IPTV Chaînes de hachage Video Sharing Servers Optimization Caching Videos IPTV reliability Hash Chains
33	Lhrs p2p : une nouvelle structure de données distribuée et scalable pour les environnements Pair à Pair / Lhrsp2p : a new scalable and distributed data structure for Peer to Peer environnements Yakouben, Hanafi 14 May 2013 (has links) Nous proposons une nouvelle structure de données distribuée et scalable appelée LHRSP2P conçue pour les environnements pair à pair(P2P).Les données de l'application forment un fichier d’enregistrements identifiés par les clés primaires. Les enregistrements sont dans des cases mémoires sur des pairs, adressées par le hachage distribué (LH). Des éclatements créent dynamiquement de nouvelles cases pour accommoder les insertions. L'accès par clé à un enregistrement comporte un seul renvoi au maximum. Le scan du fichier s’effectue au maximum en deux rounds. Ces résultats sont parmi les meilleurs à l'heure actuelle. Tout fichier LHRSP2P est également protégé contre le Churn. Le calcul de parité protège toute indisponibilité jusqu’à k cases, où k ≥ 1 est un paramètre scalable. Un nouveau type de requêtes, qualifiées de sûres, protège également contre l’accès à toute case périmée. Nous prouvons les propriétés de notre SDDS formellement par une implémentation prototype et des expérimentations. LHRSP2P apparaît utile aux applications Big Data, sur des RamClouds tout particulièrement / We propose a new scalable and distributed data structure termed LHRSP2P designed for Peer-to-Peer environment (P2P). Application data forms a file of records identified by primary keys. Records are in buckets on peers, addressed by distributed linear hashing (LH). Splits create new buckets dynamically, to accommodate inserts. Key access to a record uses at most one hop. Scan of the file proceeds in two rounds at most. These results are among best at present. An LHRSP2P file is also protected against Churn. Parity calculation recovers from every unavailability of up to k≥1, k is a scalable parameter. A new type of queries, qualified as sure, protects also against access to any out-of-date bucket. We prove the properties of our SDDS formally, by a prototype implementation and experiments. LHRSP2P appears useful for Big Data manipulations, over RamClouds especially. Sdds Système pair à pair P2p Hachage linaire distribué Lh* Haute disponibilité Churn Scalable and distributed data structure P2P system Distributed linear hashing (LH*) High availability Churn
34	Supervision des réseaux pair à pair structurés appliquée à la sécurité des contenus / Monitoring of structured P2P networks applied to the security of contents Cholez, Thibault 23 June 2011 (has links) L'objectif de cette thèse est de concevoir et d'appliquer de nouvelles méthodes de supervision capables d'appréhender les problèmes de sécurité affectant les données au sein des réseaux P2P structurés (DHT). Ceux-ci sont de deux types. D'une part les réseaux P2P sont utilisés pour diffuser des contenus illégaux dont l'activité est difficile à superviser. D'autre part, l'indexation des contenus légitimes peut être corrompue (attaque Sybil).Nous proposons tout d'abord une méthode de supervision des contenus basée sur l'insertion de sondes et le contrôle du mécanisme d'indexation du réseau. Celle-ci permet d'attirer l'ensemble des requêtes des pairs pour un contenu donné, puis de vérifier leur intention en générant des appâts très attractifs. Nous décrivons ainsi les faiblesses du réseau permettant la mise en oeuvre de notre méthode en dépit des protections existantes. Nous présentons les fonctionnalités de notre architecture et en évaluons l'efficacité sur le réseau P2P KAD avant de présenter un déploiement réel ayant pour but l'étude des contenus pédophiles.Nous considérons ensuite la sécurité des données indexées dans une DHT. Nous supervisons le réseau KAD et montrons que celui-ci est victime d'une pollution particulièrement néfaste affectant 2/3 des fichiers mais aussi de nombreuses attaques ciblées affectant la sécurité des contenus stockés. Nous proposons un moyen de détecter efficacement cette dernière attaque en analysant la distribution des identifiants des pairs autour d'une référence ainsi qu'une contre-mesure permettant de protéger les pairs à un coût négligeable. Nous terminons par l'évaluation de la protection au sein de réseaux P2P réels. / The purpose of this thesis is to design and implement new monitoring solutions which are able to deal with the security issues affecting data stored in large structured P2P networks (DHT). There are two major types of issues. First, P2P networks are used to spread illegal contents whose activity is difficult to monitor accurately. Second, the indexation of regular contents can be corrupted (Sybil attack).We first designed a new approach to monitor contents based on the insertion of distributed probes in the network to take control of the indexation mechanism. The probes can attract all the related requests for a given content and assess the peers intent to access it by generating very attractive honeypots. We describe the weaknesses of the network allowing our solution to be effective despite recent protection mechanisms. We then present the services offered by our monitoring architecture and we evaluate its efficiency on KAD. We also present a real deployment whose purpose is to study pedophile contents on this network.Then, we focus on data integrity in distributed hash tables. We performed large scale monitoring campaigns on the KAD network. Our observations show that it suffers from a very harmful pollution of its indexation mechanism affecting 2/3 of the shared files and from a large number of localized attacks targeting contents. To mitigate these threats, we propose a new efficient way to detect attacks by analysing the distribution of the peers' ID found around an entry after a DHT lookup and a counter-measure which can protect the peers at a negligible cost. Finally, we evaluate our solution in real P2P networks. Réseaux P2P Table de hachage distribuée KAD Supervision Pots de miel Indexation des contenus Sécurité Attaque Sybil Détection d'attaques Défense Pollution des contenus P2P networks Distributed Hash Table KAD Monitoring Honeypot Content indexation Security Sybil attack Attack detection Defense Content pollution
35	Analyse de nouvelles primitives cryptographiques pour les schémas Diffie-Hellman / Analysis of new cryptographic primitives for Diffie-Hellman schemes Kammerer, Jean-Gabriel 23 May 2013 (has links) L'objet de cette thèse est l'étude de diverses primitives cryptographiques utiles dans des protocoles Diffie-Hellman. Nous étudions tout d'abord les protocoles Diffie-Helmman sur des structures commutatives ou non. Nous en proposons une formulation unifiée et mettons en évidence les différents problèmes difficiles associés dans les deux contextes. La première partie est consacrée à l'étude de pseudo-paramétrisations de courbes algébriques en temps constant déterministe, avec application aux fonctions de hachage vers les courbes. Les propriétés des courbes algébriques en font une structure de choix pour l'instanciation de protocoles reposant sur le problème Diffie-Hellman. En particulier, ces protocoles utilisent des fonctions qui hachent directement un message vers la courbe. Nous proposons de nouvelles fonctions d'encodage vers les courbes elliptiques et pour de larges classes de fonctions hyperelliptiques. Nous montrons ensuite comment l'étude de la géométrie des tangentes aux points d'inflexion des courbes elliptiques permet d'unifier les fonctions proposées tant dans la littérature que dans cette thèse. Dans la troisième partie, nous nous intéressons à une nouvelle instanciation de l'échange Diffie-Hellman. Elle repose sur la difficulté de résoudre un problème de factorisation dans un anneau de polynômes non-commutatifs. Nous montrons comment un problème de décomposition Diffie-Hellman sur un groupe non-commutatif peut se ramener à un simple problème d'algèbre linéaire pourvu que les éléments du groupe admettent une représentation par des matrices. Bien qu'elle ne soit pas applicable directement au cas des polynômes tordus puisqu'ils n'ont pas d'inverse, nous profitons de l'existence d'une notion de divisibilité pour contourner cette difficulté. Finalement, nous montrons qu'il est possible de résoudre le problème Diffie-Hellman sur les polynômes tordus avec complexité polynomiale. / In this thesis, we study several cryptographic primitives of use in Diffie-Hellman like protocols. We first study Diffie-Hellman protocols on commutative or noncommutative structures. We propose an unified wording of such protocols and bring out on which supposedly hard problem both constructions rely on. The first part is devoted to the study of pseudo-parameterization of algebraic curves in deterministic constant time, with application to hash function into curves. Algebraic curves are indeed particularly interesting for Diffie-Hellman like protocols. These protocols often use hash functions which directly hash into the curve. We propose new encoding functions toward elliptic curves and toward large classes of hyperelliptic curves. We then show how the study of the geometry of flex tangent of elliptic curves unifies the encoding functions as proposed in the litterature and in this thesis. In the third part, we are interested in a new instantiation of the Diffie-Hellman key exchange. It relies on the difficulty of factoring in a non-commutative polynomial ring. We show how to reduce a Diffie-Hellman decomposition problem over a noncommutative group to a simple linear algebra problem, provided that group elements can be represented by matrices. Although this is not directly relevant to the skew polynomial ring because they have no inverse, we use the divisibility to circumvent this difficulty. Finally, we show it's possible to solve the Diffie-Hellman problem on skew polynomials with polynomial complexity. Cryptographie Cryptanalyse Polynôme tordu Courbes elliptiques Cubiques Courbes algébriques Courbes hyperelliptiques Hachage Encodage Cryptographic primitives Diffie-Hellman protocols Algebra problem Skew polynomials Polynomial complexity
36	Reconnaissance d'Objets Polyédriques à partir d'une image vidéo pour la téléopération Shaheen, Mudar 18 March 1999 (has links) (PDF) Notre laboratoire travaille sur la conception et le développement de Modules de Contrôle et d'Interface pour la Téléopération (MCIT). Le but de MCIT est de fournir à l'opérateur une aide pour la perception et pour la commande du site téléopéré. L'aide visuelle consiste en la mise à jour et la superposition de la BD3D sur l'image vidéo. Afin d'automatiser cette aide, un système de reconnaissance de polyèdres à partir d'une image de luminance a été développé et intégré à MCIT dans le cadre de cette thèse. Ce système est constitué d'un module de traitement d'images et d'un module d'appariement 2D/3D. Le 1er module est basé sur la modélisation orientée objet. La transformée de Hough, dont une amélioration est apportée, est utilisée pour extraire les segments de droite de l'image. L'organisation perceptive est appliquée pour trouver un modèle 2D de l'image. Le 2nd module est constitué de deux étapes. La 1ère étape concerne la prédiction d'hypothèses, elle utilise 2 méthodes d'appariement : la méthode des graphes qui donne un nombre d'hypothèses très réduit grâce à l'utilisation des invariants topologiques et projectifs mais, elle échoue en présence de défauts du traitement d'images. Dans ce cas, nous appliquons la méthode du hachage géométrique qui donne toujours une solution. Deux méthodes d'extraction de graphes d'aspects applicables aux polyèdres ont été également développées. La première est destinée à l'appariement par graphes, la seconde est utilisée par le hachage géométrique. La 2nde étape concerne la vérification de l'appariement, nous avons mis en oeuvre des méthodes existantes de recalage et avons développé une méthode hybride qui donne une meilleure précision. Le développement de la calibration automatique de la caméra à l'aide d'un robot a permis également d'augmenter la précision et l'autonomie du système. reconnaissance d'objets polyèdres traitement d'images transformée de Hough organisation perceptive calibration automatique graphe d'aspects appariement hachage géométrique recalage
37	On the stability of document analysis algorithms : application to hybrid document hashing technologies / De la stabilité des algorithmes d’analyse de documents : application aux technologies de hachage de documents hybrides Eskenazi, Sébastien 14 December 2016 (has links) Un nombre incalculable de documents est imprimé, numérisé, faxé, photographié chaque jour. Ces documents sont hybrides : ils existent sous forme papier et numérique. De plus les documents numériques peuvent être consultés et modifiés simultanément dans de nombreux endroits. Avec la disponibilité des logiciels d’édition d’image, il est devenu très facile de modifier ou de falsifier un document. Cela crée un besoin croissant pour un système d’authentification capable de traiter ces documents hybrides. Les solutions actuelles reposent sur des processus d’authentification séparés pour les documents papiers et numériques. D’autres solutions reposent sur une vérification visuelle et offrent seulement une sécurité partielle. Dans d’autres cas elles nécessitent que les documents sensibles soient stockés à l’extérieur des locaux de l’entreprise et un accès au réseau au moment de la vérification. Afin de surmonter tous ces problèmes, nous proposons de créer un algorithme de hachage sémantique pour les images de documents. Cet algorithme de hachage devrait fournir une signature compacte pour toutes les informations visuellement significatives contenues dans le document. Ce condensé permettra la création de systèmes de sécurité hybrides pour sécuriser tout le document. Ceci peut être réalisé grâce à des algorithmes d’analyse du document. Cependant ceux-ci ont besoin d’être porté à un niveau de performance sans précédent, en particulier leur fiabilité qui dépend de leur stabilité. Après avoir défini le contexte de l’étude et ce qu’est un algorithme stable, nous nous sommes attachés à produire des algorithmes stables pour la description de la mise en page, la segmentation d’un document, la reconnaissance de caractères et la description des zones graphiques. / An innumerable number of documents is being printed, scanned, faxed, photographed every day. These documents are hybrid : they exist as both hard copies and digital copies. Moreover their digital copies can be viewed and modified simultaneously in many places. With the availability of image modification software, it has become very easy to modify or forge a document. This creates a rising need for an authentication scheme capable of handling these hybrid documents. Current solutions rely on separate authentication schemes for paper and digital documents. Other solutions rely on manual visual verification and offer only partial security or require that sensitive documents be stored outside the company’s premises and a network access at the verification time. In order to overcome all these issues we propose to create a semantic hashing algorithm for document images. This hashing algorithm should provide a compact digest for all the visually significant information contained in the document. This digest will allow current hybrid security systems to secure all the document. This can be achieved thanks to document analysis algorithms. However those need to be brought to an unprecedented level of performance, in particular for their reliability which depends on their stability. After defining the context of this study and what is a stable algorithm, we focused on producing stable algorithms for layout description, document segmentation, character recognition and describing the graphical parts of a document. Stabilité Analyse d’images de document Sécurité Impression et scan Segmentation Hachage perceptuel d’image Superpixels Composantes connexes en couleurs Descripteur de mise en page OCR Stability Document image analysis Security Print and scan Segmentation Perceptual image hashing Superpixels Color connected components Layout descriptor OCR
38	Machine learning techniques for content-based information retrieval / Méthodes d’apprentissage automatique pour la recherche par le contenu de l’information Chafik, Sanaa 22 December 2017 (has links) Avec l’évolution des technologies numériques et la prolifération d'internet, la quantité d’information numérique a considérablement évolué. La recherche par similarité (ou recherche des plus proches voisins) est une problématique que plusieurs communautés de recherche ont tenté de résoudre. Les systèmes de recherche par le contenu de l’information constituent l’une des solutions prometteuses à ce problème. Ces systèmes sont composés essentiellement de trois unités fondamentales, une unité de représentation des données pour l’extraction des primitives, une unité d’indexation multidimensionnelle pour la structuration de l’espace des primitives, et une unité de recherche des plus proches voisins pour la recherche des informations similaires. L’information (image, texte, audio, vidéo) peut être représentée par un vecteur multidimensionnel décrivant le contenu global des données d’entrée. La deuxième unité consiste à structurer l’espace des primitives dans une structure d’index, où la troisième unité -la recherche par similarité- est effective.Dans nos travaux de recherche, nous proposons trois systèmes de recherche par le contenu de plus proches voisins. Les trois approches sont non supervisées, et donc adaptées aux données étiquetées et non étiquetées. Elles sont basées sur le concept du hachage pour une recherche efficace multidimensionnelle des plus proches voisins. Contrairement aux approches de hachage existantes, qui sont binaires, les approches proposées fournissent des structures d’index avec un hachage réel. Bien que les approches de hachage binaires fournissent un bon compromis qualité-temps de calcul, leurs performances en termes de qualité (précision) se dégradent en raison de la perte d’information lors du processus de binarisation. À l'opposé, les approches de hachage réel fournissent une bonne qualité de recherche avec une meilleure approximation de l’espace d’origine, mais induisent en général un surcoût en temps de calcul.Ce dernier problème est abordé dans la troisième contribution. Les approches proposées sont classifiées en deux catégories, superficielle et profonde. Dans la première catégorie, on propose deux techniques de hachage superficiel, intitulées Symmetries of the Cube Locality sensitive hashing (SC-LSH) et Cluster-Based Data Oriented Hashing (CDOH), fondées respectivement sur le hachage aléatoire et l’apprentissage statistique superficiel. SCLSH propose une solution au problème de l’espace mémoire rencontré par la plupart des approches de hachage aléatoire, en considérant un hachage semi-aléatoire réduisant partiellement l’effet aléatoire, et donc l’espace mémoire, de ces dernières, tout en préservant leur efficacité pour la structuration des espaces hétérogènes. La seconde technique, CDOH, propose d’éliminer l’effet aléatoire en combinant des techniques d’apprentissage non-supervisé avec le concept de hachage. CDOH fournit de meilleures performances en temps de calcul, en espace mémoire et en qualité de recherche.La troisième contribution est une approche de hachage basée sur les réseaux de neurones profonds appelée "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). UDN2H propose une indexation individuelle de la sortie de chaque neurone de la couche centrale d’un modèle non supervisé. Ce dernier est un auto-encodeur profond capturant une structure individuelle de haut niveau de chaque neurone de sortie.Nos trois approches, SC-LSH, CDOH et UDN2H, ont été proposées séquentiellement durant cette thèse, avec un niveau croissant, en termes de la complexité des modèles développés, et en termes de la qualité de recherche obtenue sur de grandes bases de données d'information / The amount of media data is growing at high speed with the fast growth of Internet and media resources. Performing an efficient similarity (nearest neighbor) search in such a large collection of data is a very challenging problem that the scientific community has been attempting to tackle. One of the most promising solutions to this fundamental problem is Content-Based Media Retrieval (CBMR) systems. The latter are search systems that perform the retrieval task in large media databases based on the content of the data. CBMR systems consist essentially of three major units, a Data Representation unit for feature representation learning, a Multidimensional Indexing unit for structuring the resulting feature space, and a Nearest Neighbor Search unit to perform efficient search. Media data (i.e. image, text, audio, video, etc.) can be represented by meaningful numeric information (i.e. multidimensional vector), called Feature Description, describing the overall content of the input data. The task of the second unit is to structure the resulting feature descriptor space into an index structure, where the third unit, effective nearest neighbor search, is performed.In this work, we address the problem of nearest neighbor search by proposing three Content-Based Media Retrieval approaches. Our three approaches are unsupervised, and thus can adapt to both labeled and unlabeled real-world datasets. They are based on a hashing indexing scheme to perform effective high dimensional nearest neighbor search. Unlike most recent existing hashing approaches, which favor indexing in Hamming space, our proposed methods provide index structures adapted to a real-space mapping. Although Hamming-based hashing methods achieve good accuracy-speed tradeoff, their accuracy drops owing to information loss during the binarization process. By contrast, real-space hashing approaches provide a more accurate approximation in the mapped real-space as they avoid the hard binary approximations.Our proposed approaches can be classified into shallow and deep approaches. In the former category, we propose two shallow hashing-based approaches namely, "Symmetries of the Cube Locality Sensitive Hashing" (SC-LSH) and "Cluster-based Data Oriented Hashing" (CDOH), based respectively on randomized-hashing and shallow learning-to-hash schemes. The SC-LSH method provides a solution to the space storage problem faced by most randomized-based hashing approaches. It consists of a semi-random scheme reducing partially the randomness effect of randomized hashing approaches, and thus the memory storage problem, while maintaining their efficiency in structuring heterogeneous spaces. The CDOH approach proposes to eliminate the randomness effect by combining machine learning techniques with the hashing concept. The CDOH outperforms the randomized hashing approaches in terms of computation time, memory space and search accuracy.The third approach is a deep learning-based hashing scheme, named "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). The UDN2H approach proposes to index individually the output of each neuron of the top layer of a deep unsupervised model, namely a Deep Autoencoder, with the aim of capturing the high level individual structure of each neuron output.Our three approaches, SC-LSH, CDOH and UDN2H, were proposed sequentially as the thesis was progressing, with an increasing level of complexity in terms of the developed models, and in terms of the effectiveness and the performances obtained on large real-world datasets Indexation multidimensionnelle Apprentissage non supervisé Hachage Recherche des plus proches voisins Apprentissage profond Multidimensionnal indexing Unsupervised learning Hashing Approximate nearest neighbor search Deep learning
39	Équilibrage de charge et répartition de ressources dans les grands systèmes distribués Leconte, Mathieu 18 December 2013 (has links) (PDF) Cette thèse porte principalement sur l'équilibrage de charge dans de grands graphes aléatoires. En informatique, un problème d'équilibrage de charge survient lorsque différentes tâches ont besoin d'accéder à un même ensemble de points de ressources. Il faut alors décider quelles ressources spécifiques seront allouées à quelles tâches. Suivant le contexte, les notions de "tâche" et de "ressource" peuvent avoir différentes interprétations. Afin de prendre des exemples concrets, on se concentrera sur deux applications en particulier: - un système de hachage à choix multiples (plus précisément, le "cuckoo hashing"). L'objectif est ici d'allouer des cellules d'un tableau à des objets, afin de pouvoir ensuite vérifier facilement la présence d'un objet et récupérer les données associées. Les tâches sont liées aux objets à stocker, et les ressources sont les cellules du tableau. - un réseau de distribution de contenu distribué, au sens où les contenus peuvent être stockés sur une multitude de petits serveurs aux capacités individuelles très limitées. Ici, les tâches sont des demandes de téléchargement (ou requêtes) pour un contenu et les ressources sont liées aux serveurs et à la façon dont leurs espaces de stockage sont utilisés. Le problème d'équilibrage de charge consiste à décider quel serveur va servir quelle requête. Les contraintes locales portant sur chaque ressource (en quelle quantité est-elle disponible et pour quelles tâches est-elle convenable?) ainsi que la charge de travail associée avec chaque tâche peuvent être représentées efficacement sur un graphe biparti, avec des contraintes de capacité sur ses sommets et ses arêtes. De plus, en pratique, les systèmes considérés sont souvent de très grande taille (avec parfois des milliers de tâches et de points de ressources différents) et relativement aléatoires (que ce soit par choix ou une conséquence de leur grande taille). Une modélisation à l'aide de grands graphes aléatoires est donc souvent pertinente. L'ensemble des solutions envisageables pour un problème d'équilibrage de charge donné étant vaste, il est primordial de commencer par déterminer des bornes sur les performances que l'on peut espérer. Ainsi, on considérera dans un premier temps une solution optimale du problème (même si elle ne serait pas réalisable avec des contraintes pratiques). Les performances d'une telle solution peuvent être obtenues en étudiant les appariements de taille maximum dans un grand graphe aléatoire, ce que l'on réalisera à l'aide de la méthode de la cavité. Cette méthode vient de l'étude des systèmes désordonnés en physique statistique, et on s'attachera ici à l'appliquer de manière rigoureuse dans le cadre que l'on considère. Dans le contexte du cuckoo hashing, les résultats obtenus permettent de calculer le seuil sur la charge du système (le nombre d'objets à insérer par rapport à la taille du tableau) en-dessous duquel on peut construire une table de hachage correcte avec grande probabilité dans un grand système, et également de traiter de manière similaire de variantes de la méthode de hachage basique qui tentent de diminuer la quantité d'aléa nécessaire au système. Au-delà du problème d'équilibrage de charge, dans le cadre des réseaux de distributions de contenu distribués, un second problème se pose: comment décider quel contenu stocker et en quelle quantité, autrement dit comment répliquer les contenus? On appelle ce second problème un problème d'allocation de ressources. A nouveau, l'étude déjà réalisée permet de quantifier l'efficacité d'une politique de réplication fixée en supposant que la politique d'équilibrage de charge fonctionne de manière optimale. Il reste cependant à optimiser la politique de réplication de contenus utilisée, ce que l'on effectue dans un régime où l'espace de stockage disponible au niveau de chaque serveur est important par rapport à la taille d'un contenu. Finalement, afin de quantifier maintenant les performances minimales atteignables en pratique, on s'intéressera aux mêmes questions lorsque la politique d'équilibrage de charge utilisée est un simple algorithme glouton. Cette étude est réalisée à l'aide d'approximations de champs moyen. On utilisera également les résultats obtenus afin de concevoir des politiques de réplication de contenus adaptatives. [MATH:MATH_PR] Mathematics/Probability [MATH:MATH_CO] Mathematics/Combinatorics appariements couplages graphes aléatoires optimisation combinatoire réseaux de distribution de contenus tables de hachage méthode de la cavité convergence locale faible
40	Le désordre des itérations chaotiques et leur utilité en sécurité informatique Guyeux, Christophe 13 December 2010 (has links) (PDF) Les itérations chaotiques, un outil issu des mathématiques discrètes, sont pour la première fois étudiées pour obtenir de la divergence et du désordre. Après avoir utilisé les mathématiques discrètes pour en déduire des situations de non convergence, ces itérations sont modélisées sous la forme d'un système dynamique et sont étudiées topologiquement dans le cadre de la théorie mathématique du chaos. Nous prouvons que leur adjectif " chaotique " a été bien choisi: ces itérations sont du chaos aux sens de Devaney, Li-Yorke, l'expansivité, l'entropie topologique et l'exposant de Lyapunov, etc. Ces propriétés ayant été établies pour une topologie autre que la topologie de l'ordre, les conséquences de ce choix sont discutées. Nous montrons alors que ces itérations chaotiques peuvent être portées telles quelles sur ordinateur, sans perte de propriétés, et qu'il est possible de contourner le problème de la finitude des ordinateurs pour obtenir des programmes aux comportements prouvés chaotiques selon Devaney, etc. Cette manière de faire est respectée pour générer un algorithme de tatouage numérique et une fonction de hachage chaotiques au sens le plus fort qui soit. A chaque fois, l'intérêt d'être dans le cadre de la théorie mathématique du chaos est justifié, les propriétés à respecter sont choisies suivant les objectifs visés, et l'objet ainsi construit est évalué. Une notion de sécurité pour la stéganographie est introduite, pour combler l'absence d'outil permettant d'estimer la résistance d'un schéma de dissimulation d'information face à certaines catégories d'attaques. Enfin, deux solutions au problème de l'agrégation sécurisée des données dans les réseaux de capteurs sans fil sont proposées. Théorie du Chaos Systèmes Dynamiques Discrets Itérations Chaotiques Sécurité Fonctions de Hachage Stéganalyse Réseaux de Capteurs

Search results