• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 25
  • 23
  • 7
  • Tagged with
  • 58
  • 40
  • 17
  • 9
  • 9
  • 9
  • 8
  • 6
  • 6
  • 6
  • 6
  • 6
  • 5
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Measuring the Privacy Risks and Value of Web Tracking / Analyser les risques sur la vie privée et l'économie du profilage WEB

Olejnik, Lukasz 30 January 2015 (has links)
Les nouvelles technologies introduisent de nouveaux problèmes et risques. Par exemple, les internautes sont constamment tracés et profilés sur l'Internet. Ce profilage permet aux divers sites de personaliser et ainsi d'améliorer le service qu'ils fournissent à chaque internaute. Cependant ce profilage introduit aussi des problèmes d'intimité et de protection de la vie privée. Il est d'ailleurs reconnu que ces données personnelles sont souvent échangées, voire vendues, et qu'il existe une vraie economie des données personnelles. Cet thèse étudie comment ces données personnelles, et en particulier les historique Web - c'est à dire la liste des sites Internet visités par un internaute-, sont collectées, échangées et vendues. Elle propose une analyse de la vie privée des systèmes de vente aux enchères des publicités ciblés. Elle montre comment les différents acteurs de la publicité en ligne collectent et s'echangent les données personnelles, et étudie les risques pour les Internautes. Elle propose également une analyse économique et montre, notamment, que les données sont bradées pour quelques millièmes de dollars. / New medias introduce new problems and risks. There are important security and privacy considerations related to online interactions. Users browsing the Web leave a constant trail of traces referring to their Web actions. A large number of entities take advantage of this data to constantly improve how the Web services function, often offering rich personalization capabilities -- to achieve this, user data is needed. To obtain user data, Web users are being tracked and profiled. Having user data may help enhancing functionality and usability, but it also has the potential of introducing complex privacy problems, related to data collection, storing and processing. The incentives to gather user data are of economical nature: user data is monetized. We start with a description of privacy problems and risks, highlighting their roots in technology changes; users must constantly struggle to adapt to changes. The legal frameworks relating to privacy are about to change: Web companies will have to adopt to new realities. First part of this thesis is devoted to measuring the consequences of private data leaks and tracking. We show how Web browsing history convey insight relating to user interests. We study the risks of Web browsing history leaks. We point out that browsing history is to large extent unique; we perform this basing on a dataset of more than 350k partial history fingerprints. The consequence here is that if browsing histories are personally identifiable information (PII), the upcoming European privacy legal frameworks could potentially result in strict guidelines for their collection, storing and processing. The tracking measurement of third-party resources confirms the popular notion that most of the tracking is carried by US-based companies. This creates interesting information asymmetries, which are of great importance, especially if user data could be simply equated to financial and economical benefits. Second part discusses value of privacy. We study the emerging technology of Real-Time Bidding (RTB), online real-time auctions of ad spaces. We highlight that during the auction phase, bidders in RTB obtain user information such as the visited Web site or user location and they pay for serving ads. In other words, user data flows are strictly related to financial flows. User data is thus monetized. We expose an interesting design characteristic of RTB which allows us to monitor a channel with winning bids -- dynamically established fees bidders pay for displaying their ads. We perform a detailed measurement of RTB and study how this price for user information varies according to such aspects like time of day, user location and type of visited Web site. Using data obtained from real users, we also study the effect of user profiles. Users are indeed treated differently, based on their previously visited Web sites (browsing history). We observed variability in prices of RTB ads, based on those traits. The price for user information in RTB is volatile and typically is in the range of $0.0001-$0.001. This study also had a decidedly important transparency part. We introduced a Web browser extension allowing to discover the price that bidders in RTB pay. This demonstrates how the user awareness could be improved. In part three, we continue the transparency trail. We point out that Web browsers allow every Web site (or third-party resources they include) to record the mouse movements of their visitors. We point out that recent advances in mouse movement analysis points to the notion that mouse movements can potentially be used to recognize and track Web users across the Web; mouse movement analysis can also be used to infer users' demographics data such as age. We highlight the existence of mouse movement analytics -- third-party scripts specializing in mouse movement collections. We also suggest that Web browser vendors should consider including permissions for accessing the API enabling these kind of recordings.
12

Measuring the Privacy Risks and Value of Web Tracking / Analyser les risques sur la vie privée et l'économie du profilage WEB

Olejnik, Lukasz 30 January 2015 (has links)
Les nouvelles technologies introduisent de nouveaux problèmes et risques. Par exemple, les internautes sont constamment tracés et profilés sur l'Internet. Ce profilage permet aux divers sites de personaliser et ainsi d'améliorer le service qu'ils fournissent à chaque internaute. Cependant ce profilage introduit aussi des problèmes d'intimité et de protection de la vie privée. Il est d'ailleurs reconnu que ces données personnelles sont souvent échangées, voire vendues, et qu'il existe une vraie economie des données personnelles. Cet thèse étudie comment ces données personnelles, et en particulier les historique Web - c'est à dire la liste des sites Internet visités par un internaute-, sont collectées, échangées et vendues. Elle propose une analyse de la vie privée des systèmes de vente aux enchères des publicités ciblés. Elle montre comment les différents acteurs de la publicité en ligne collectent et s'echangent les données personnelles, et étudie les risques pour les Internautes. Elle propose également une analyse économique et montre, notamment, que les données sont bradées pour quelques millièmes de dollars. / New medias introduce new problems and risks. There are important security and privacy considerations related to online interactions. Users browsing the Web leave a constant trail of traces referring to their Web actions. A large number of entities take advantage of this data to constantly improve how the Web services function, often offering rich personalization capabilities -- to achieve this, user data is needed. To obtain user data, Web users are being tracked and profiled. Having user data may help enhancing functionality and usability, but it also has the potential of introducing complex privacy problems, related to data collection, storing and processing. The incentives to gather user data are of economical nature: user data is monetized. We start with a description of privacy problems and risks, highlighting their roots in technology changes; users must constantly struggle to adapt to changes. The legal frameworks relating to privacy are about to change: Web companies will have to adopt to new realities. First part of this thesis is devoted to measuring the consequences of private data leaks and tracking. We show how Web browsing history convey insight relating to user interests. We study the risks of Web browsing history leaks. We point out that browsing history is to large extent unique; we perform this basing on a dataset of more than 350k partial history fingerprints. The consequence here is that if browsing histories are personally identifiable information (PII), the upcoming European privacy legal frameworks could potentially result in strict guidelines for their collection, storing and processing. The tracking measurement of third-party resources confirms the popular notion that most of the tracking is carried by US-based companies. This creates interesting information asymmetries, which are of great importance, especially if user data could be simply equated to financial and economical benefits. Second part discusses value of privacy. We study the emerging technology of Real-Time Bidding (RTB), online real-time auctions of ad spaces. We highlight that during the auction phase, bidders in RTB obtain user information such as the visited Web site or user location and they pay for serving ads. In other words, user data flows are strictly related to financial flows. User data is thus monetized. We expose an interesting design characteristic of RTB which allows us to monitor a channel with winning bids -- dynamically established fees bidders pay for displaying their ads. We perform a detailed measurement of RTB and study how this price for user information varies according to such aspects like time of day, user location and type of visited Web site. Using data obtained from real users, we also study the effect of user profiles. Users are indeed treated differently, based on their previously visited Web sites (browsing history). We observed variability in prices of RTB ads, based on those traits. The price for user information in RTB is volatile and typically is in the range of $0.0001-$0.001. This study also had a decidedly important transparency part. We introduced a Web browser extension allowing to discover the price that bidders in RTB pay. This demonstrates how the user awareness could be improved. In part three, we continue the transparency trail. We point out that Web browsers allow every Web site (or third-party resources they include) to record the mouse movements of their visitors. We point out that recent advances in mouse movement analysis points to the notion that mouse movements can potentially be used to recognize and track Web users across the Web; mouse movement analysis can also be used to infer users' demographics data such as age. We highlight the existence of mouse movement analytics -- third-party scripts specializing in mouse movement collections. We also suggest that Web browser vendors should consider including permissions for accessing the API enabling these kind of recordings.
13

Développement de nouvelles méthodes de criblage in silico en chémogénomique / Devoloppement of new in-silico screening methods in chemogenomics

Meslamani, Jamel-Eddine 13 September 2012 (has links)
La chémoinformatique et la bioinformatique sont des disciplines devenues indispensables à la découverte de médicaments. De nos jours, les industries pharmaceutiques consacrent près de 10% de leur budget de recherche et développement, à la recherche de médicaments assisté par ordinateur (Kapetanovic 2008). Cette émergence peut s’expliquer à la fois par le développement des architectures de calculs mais aussi par le faible coup qu’engendrent des analyses in silico par rapport à des tests in-vitro.Les essais biologiques qui ont été menés depuis des décennies afin d’identifier des médicaments potentiels, commencent à former une source très importante de données et plusieurs bases de données commencent à les répertorier. La disponibilité de ce type de données a favorisé le développement d’un nouvel axe de recherche appelé la "chémogénomique" et qui s’intéresse à l’étude et à l’identification des associations possibles entre plusieurs molécules et plusieurs cibles. Ainsi, la chémogénomique permet de déterminer le profil biologique d’une molécule et nous renseigne sur sa capacité à devenir une touche intéressante mais aussi à identifier ses possibles effets indésirables. Des méthodes de chémoinformatique permettent d’utiliser ces sources de données à des fins d’apprentissage et établir des modèles prédictifs qui permettront par la suite de faire des prédictions pour connaitre l’activité d’une molécule.Cette thèse a porté sur le développement et l'utilisation de méthodes de prédictions d’association protéine-ligand. La prédiction d’une association est importante en vue d’un criblage virtuel et peut s’effectuer à l’aide de plusieurs méthodes. Au sein du laboratoire, on s’intéresse plus particulièrement au profilage de bases de données de molécules (chimiothèques) contre une série de cibles afin d’établir leur profil biologique. J’ai donc essayé au cours de ma thèse de mettre au point des modèles prédictifs d’association protéine-ligand pour un grand nombre de cibles, valider des méthodes de criblage virtuel récentes à des fins de profilage mais aussi établir un protocole de profilage automatisé, qui décide du choix de la méthode de criblage la plus adaptée en s’appuyant sur les propriétés physico-chimiques du ligand à profiler et de l’éventuelle cible. / Chemoinformatics and bioinformatics methods are now necessary in every drug discovery program. Pharmaceutical industries dedicate more than 10% of their research and development investment in computer aided drug design (Kapetanovic 2008). The emergence of these tools can be explained by the increasing availability of high performance calculating machines and also by the low cost of in silico analysis compared to in vitro tests.Biological tests that were performed over last decades are now a valuable source of information and a lot of databases are trying to list them. This huge amount of information led to the birth of a new research field called “chemogenomics”. The latter is focusing on the identification of all possible associations between all possible molecules and all possible targets. Thus, using chemogenomics approaches, one can obtain a biological profile of a molecule and even anticipate possible side effects.This thesis was focused on the development of approaches that aim to predict the binding of molecules to targets. In our lab, we focus on profiling molecular databases in order to get their full biological profile. Thus, my main work was related to this context and I tried to develop predictive models to assess the binding of ligands to proteins, to validate some virtual screening methods for profiling purpose, and finally, I developed an automatic hybrid profiling workflow that selects the best fitted virtual screening approach to use according the ligand/target context.
14

Processus d'atterissage des projets d'innovations dans les projets véhicules : application aux innovations dans les domaines "Energie / Environnements" et "Vie à bord" / Integrating innovation projects into vehicle projects : application to innovations in the fields of "Energy / Environment" and "Life on board"

Buet, Gaël 21 November 2014 (has links)
Ce travail de recherche a pour objet d’étude l’intégration des projets d’innovations dans les projets véhicules. Mené sous la forme d’une recherche-action, il est né du constat d’un nombre faible d’innovations présentes au final dans les produits par rapport au nombre d’innovations initialement prévues.Ce sujet est potentiellement intéressant pour tout le secteur automobile et plus généralement toutes les entreprises (notamment industrielles) qui du fait de leur taille ont différencié la préparation des innovations en amont et le développement des produits en aval. Cette distinction nécessite de faire converger le développement d’innovations avec celui des produits qui seront vendus au client. L’objectif principal de ce projet est, en facilitant cette convergence, d’augmenter au final le nombre et la valeur ajoutée des innovations qui seront intégrées dans les produits.Pour traiter ce sujet, un travail de fond a été réalisé comportant le suivi de l’intégration d’innovations dans cinq projets véhicules et l’analyse de vingt études de cas d’atterrissage d’innovations, issus principalement des domaines de « l’Énergie / Environnement » et de la « Vie à Bord ». Le processus d’atterrissage a été instrumenté à l’aide de deux outils, « Synchronizator » et « Profilor ». L’analyse de ces cas a été complétée par 155 entretiens.Ce sujet se situe à l’interface de deux mondes : le monde de l’innovation, sa flexibilité, sa créativité ; le monde du véhicule, ses processus réglés, ses ressources importantes. Les apports conceptuels que nous proposons ont tout autant la vocation de faire progresser les connaissances du monde académique que d’aider les praticiens. Nous proposons dans notre thèse trois concepts principaux.Le premier concept porte sur l’ « Atterrissage » lui-même, que nous présentons en utilisant la métaphore de l’atterrissage d’un avion (projet d’innovation) sur un porte-avions (projet véhicule). Ce concept d’atterrissage ne correspond pas à un moment unique : il s’agit d’un processus complexe partant de la préparation amont jusqu’aux activités de développement en aval et incluant des étapes clés, ainsi que la mise en œuvre des conditions (les « recommandations ») pour faciliter son application.Le deuxième concept, que nous avons dénommé « Intrusivité », consiste à qualifier les innovations par rapport à l’impact (technique, organisationnel, managérial, financier) qu’elles génèrent sur les projets véhicules cibles et à identifier des fenêtres d’atterrissage en fonction de cet impact.Le troisième concept, que nous avons dénommé « Profilage », consiste, pour un projet d’innovation donné à identifier très en amont tous les projets véhicules susceptibles de l’accueillir et, pour un projet véhicule donné de sélectionner très tôt toutes les innovations permettant de renforcer son positionnement produit.L’application de ces concepts dans l’entreprise où nous avons mené notre recherche nous a permis de : proposer un processus d'atterrissage adaptatif en fonction du niveau d’intrusivité des innovations ; évaluer dès le départ les projets d’innovations les plus porteurs pour l’entreprise en termes de valeur et de contribution à son image ; diffuser les innovations dans le plus grand nombre de projets véhicules ; renforcer le pilotage des innovations en aval pour faciliter leur intégration.Ces propositions sont autant des sujets de discussion pour le monde académique que des axes de travail pour les praticiens qui pourraient potentiellement les appliquer dans d’autres grands groupes industriels. / This research studies the integration of innovation projects into vehicle projects. The starting point is the observation of a failure to integrate innovations in the final products, despite the number of innovations originally planned.This research is potentially applicable to the overall automotive industry and, more generally, to large companies (notably industrial ones) that differentiate the preparation of the innovations upstream and the development of products downstream. This distinction leads to organize the convergence of the innovations with the products sold to the customer. The main objective of this project is, by facilitating this convergence, to increase the number and the added value of the innovations which will be integrated into products. This work was prepared by conducting a thorough evaluation of the follow-up of the integration of innovations in five vehicle projects and the analysis of twenty case studies of innovations “touch down”. These stemmed mainly from the fields of "Energy / Environment" and "Life on Board". This “touch down” process was realized through two tools, "Synchronizator" and "Profilor". The analysis of these cases was completed with 155 interviews.This subject lies at the frontier of two worlds: the innovation’s world, its flexibility and its creativity; and the vehicle’s world, its established processes and its huge resources. The concepts that we propose will contribute to improve and inform the academic knowledge, as well as to facilitate the practitioners’work. We propose in our research three main concepts.The first concept, the "touch down process" itself, is presented through the metaphor of the landing of a plane (innovation project) on an aircraft carrier (vehicle project). This “touch down” concept does not correspond to a single moment: it is a complex process starting from the upstream preparation to the downstream development activities and including key stages, as well as the application of the conditions (the "recommendations") to facilitate its implementation.The second concept, called "intrusiveness", consists of qualifying the innovations with regard to the impact (technical, organizational, managerial, financial) that they generate in the targeted vehicle projects. It facilitates the identification of different landing schedules according to this impact.The third concept, called "profiling", consists of identifying, for a given innovation project, all the appropriate vehicle projects as early as possible. Reversely, it also allows, for a given vehicle project, to select all the relevant innovations as early as possible.The implementation of these concepts in the company where we led our research allowed : for the proposal of an adaptive “touch down” process according to the level of intrusiveness of the innovations; for an estimation from the beginning of the innovation projects which are the more interesting for the company in terms of value and contribution to its image; for the spread of innovations in the largest possible number of vehicle projects; and for strengthening the management of the innovation projects downstream to facilitate their integration into the products.These propositions are at once subjects of discussion for the academic world as well as guidelines for practitioners who could potentially implement them in other large industrial groups.
15

Profiling and debugging by efficient tracing of hybrid multi-threaded HPC applications / Profilage et débogage par prise de traces efficaces d'applications hybrides multi-threadées HPC

Besnard, Jean-Baptiste 16 July 2014 (has links)
L’évolution des supercalculateurs est à la source de défis logiciels et architecturaux. Dans la quête de puissance de calcul, l’interdépendance des éléments du processus de simulation devient de plus en plus impactante et requiert de nouvelles approches. Cette thèse se concentre sur le développement logiciel et particulièrement sur l’observation des programmes parallèles s’exécutant sur des milliers de cœurs. Dans ce but, nous décrivons d’abord le processus de développement de manière globale avant de présenter les outils existants et les travaux associés. Dans un second temps, nous détaillons notre contribution qui consiste d’une part en des outils de débogage et profilage par prise de traces, et d’autre part en leur évolution vers un couplage en ligne qui palie les limitations d’entrées–sorties. Notre contribution couvre également la synchronisation des horloges pour la prise de traces avec la présentation d’un algorithme de synchronisation probabiliste dont nous avons quantifié l’erreur. En outre, nous décrivons un outil de caractérisation machine qui couvre l’aspect MPI. Un tel outil met en évidence la présence de bruit aussi bien sur les communications de type point-à-point que de type collective. Enfin, nous proposons et motivons une alternative à la collecte d’événements par prise de traces tout en préservant la granularité des événements et un impact réduit sur les performances, tant sur le volet utilisation CPU que sur les entrées–sorties / Supercomputers’ evolution is at the source of both hardware and software challenges. In the quest for the highest computing power, the interdependence in-between simulation components is becoming more and more impacting, requiring new approaches. This thesis is focused on the software development aspect and particularly on the observation of parallel software when being run on several thousand cores. This observation aims at providing developers with the necessary feedback when running a program on an execution substrate which has not been modeled yet because of its complexity. In this purpose, we firstly introduce the development process from a global point of view, before describing developer tools and related work. In a second time, we present our contribution which consists in a trace based profiling and debugging tool and its evolution towards an on-line coupling method which as we will show is more scalable as it overcomes IOs limitations. Our contribution also covers our time-stamp synchronisation algorithm for tracing purposes which relies on a probabilistic approach with quantified error. We also present a tool allowing machine characterisation from the MPI aspect and demonstrate the presence of machine noise for both point to point and collectives, justifying the use of an empirical approach. In summary, this work proposes and motivates an alternative approach to trace based event collection while preserving event granularity and a reduced overhead
16

Kernel optimization by layout restructuring / Estimation d'efficacité et restructuration automatisées de noyaux de calcul

Haine, Christopher 03 July 2017 (has links)
Bien penser la structuration de données est primordial pour obtenir de hautes performances, alors que les processeurs actuels perdent un temps considérable à attendre la complétion de transactions mémoires. En particulier les localités spatiales et temporelles de données doivent être optimisées.Cependant, les transformations de structures de données ne sont pas proprement explorées par les compilateurs, en raison de la difficulté que pose l'évaluation de performance des transformations potentielles. De plus,l'optimisation des structures de données est chronophage, sujette à erreur etles transformations à considérer sont trop nombreuses pour être implémentées à la main dans l'optique de trouver une version de code efficace.On propose de guider les programmeurs à travers le processus de restructuration de données grace à un retour utilisateur approfondi, tout d'abord en donnant une description multidimensionnelle de la structure de donnée initiale, faite par une analyse de traces mémoire issues du binaire de l'application de l'utilisateur, dans le but de localiser des problèmes de stride au niveau instruction, indépendemment du langage d'entrée. On choisit de focaliser notre étude sur les transformations de structure de données, traduisibles dans un formalisme proche du C pour favoriser la compréhension de l'utilisateur, que l'on applique et évalue sur deux cas d'étude qui sont des applications réelles,à savoir une simulation d'ondes cardiaques et une simulation de chromodynamique quantique sur réseau, avec différents jeux d'entrées. La prédiction de performance de différentes transformations est conforme à 5% près aux versions réécrites à la main. / Careful data layout design is crucial for achieving high performance, as nowadays processors waste a considerable amount of time being stalled by memory transactions, and in particular spacial and temporal locality have to be optimized. However, data layout transformations is an area left largely unexplored by state-of-the-art compilers, due to the difficulty to evaluate the possible performance gains of transformations. Moreover, optimizing data layout is time-consuming, error-prone, and layout transformations are too numerous tobe experimented by hand in hope to discover a high performance version. We propose to guide application programmers through data layout restructuring with an extensive feedback, firstly by providing a comprehensive multidimensional description of the initial layout, built via analysis of memory traces collected from the application binary textit {in fine} aiming at pinpointing problematic strides at the instruction level, independently of theinput language. We choose to focus on layout transformations,translatable to C-formalism to aid user understanding, that we apply and assesson case study composed of two representative multithreaded real-lifeapplications, a cardiac wave simulation and lattice QCD simulation, with different inputs and parameters. The performance prediction of different transformations matches (within 5%) with hand-optimized layout code.
17

Continuous and Efficient Lock Profiling for Java on Multicore Architectures / Profilage continu et efficient de verrous pour Java pour les architectures multicœurs

David, Florian 08 July 2015 (has links)
Aujourd’hui, le traitement de grands jeux de données est généralement parallélisé et effectué sur des machines multi-cœurs. Cependant, les verrous peuvent sérialiser l'exécution de ces coeurs et dégrader la latence et le débit du traitement. Détecter ces problèmes de contention de verrous in-vitro (i.e. pendant le développement du logiciel) est complexe car il est difficile de reproduire un environnement de production, de créer une charge de travail réaliste représentative du contexte d’utilisation du logiciel et de tester toutes les configurations de déploiement possibles où s'exécutera le logiciel. Cette thèse présente Free Lunch, un profiler permettant d'identifier les phases de contention dues aux verrous in-vivo (i.e. en production). Free Lunch intègre une nouvelle métrique appelée Critical Section Pressure (CSP) évaluant avec précision l'impact de la synchronisation sur le progrès des threads. Free Lunch est directement intégré dans la JVM Hotspot pour minimiser le surcoût d'exécution et reporte régulièrement la CSP afin de pouvoir détecter les problèmes transitoires dus aux verrous. Free Lunch est évalué sur 31 benchmarks issus de Dacapo 9.12, SpecJVM08 et SpecJBB2005, ainsi que sur la base de données Cassandra. Nous avons identifié des phases de contention dans 6 applications dont certaines n'étaient pas détectées par les profilers actuels. Grâce à ces informations, nous avons amélioré la performance de Xalan de 15% en modifiant une seule ligne de code et identifié une phase de haute contention dans Cassandra. Free Lunch n’a jamais dégradé les performances de plus de 6% ce qui le rend approprié pour être déployé continuellement dans un environnement de production. / Today, the processing of large dataset is generally parallelised and performed on computers with many cores. However, locks can serialize the execution of these cores and hurt the latency and the processing throughput. Spotting theses lock contention issues in-vitro (i.e. during the development phase) is complex because it is difficult to reproduce a production environment, to create a realistic workload representative of the context of use of the software and to test every possible configuration of deployment where will be executed the software. This thesis introduces Free Lunch, a lock profiler that diagnoses phases of high lock contention due to locks in-vivo (i.e. during the operational phase). Free Lunch is designed around a new metric, the Critical Section Pressure (CSP), which aims to evaluate the impact of lock contention on overall thread progress. Free Lunch is integrated in Hotpost in order to minimize the overhead and regularly reports the CSP during the execution in order to detect temporary issues due to locks. Free Lunch is evaluated over 31 benchmarks from Dacapo 9.12, SpecJVM08 and SpecJBB2005, and over the Cassandra database. We were able to pinpoint the phases of lock contention in 6 applications for which some of these were not detected by existing profilers. With this information, we have improved the performance of Xalan by 15% just by rewriting one line of code and identified a phase of high lock contention in Cassandra during the replay of transactions after a crash of a node. Free Lunch has never degraded performance by more than 6%, which makes it suitable to be deployed continuously in an operational environment.
18

Context-aware worker selection for efficient quality control in crowdsourcing / Sélection des travailleurs attentifs au contexte pour un contrôle efficace de la qualité en externalisation à grande échelle

Awwad, Tarek 13 December 2018 (has links)
Le crowdsourcing est une technique qui permet de recueillir une large quantité de données d'une manière rapide et peu onéreuse. Néanmoins, La disparité comportementale et de performances des "workers" d’une part et la variété en termes de contenu et de présentation des tâches par ailleurs influent considérablement sur la qualité des contributions recueillies. Par conséquent, garder leur légitimité impose aux plateformes de crowdsourcing de se doter de mécanismes permettant l’obtention de réponses fiables et de qualité dans un délai et avec un budget optimisé. Dans cette thèse, nous proposons CAWS (Context AwareWorker Selection), une méthode de contrôle de la qualité des contributions dans le crowdsourcing visant à optimiser le délai de réponse et le coût des campagnes. CAWS se compose de deux phases, une phase d’apprentissage opérant hors-ligne et pendant laquelle les tâches de l’historique sont regroupées de manière homogène sous forme de clusters. Pour chaque cluster, un profil type optimisant la qualité des réponses aux tâches le composant, est inféré ; la seconde phase permet à l’arrivée d’une nouvelle tâche de sélectionner les meilleurs workers connectés pour y répondre. Il s’agit des workers dont le profil présente une forte similarité avec le profil type du cluster de tâches, duquel la tâche nouvellement créée est la plus proche. La seconde contribution de la thèse est de proposer un jeu de données, appelé CrowdED (Crowdsourcing Evaluation Dataset), ayant les propriétés requises pour, d’une part, tester les performances de CAWS et les comparer aux méthodes concurrentes et d’autre part, pour tester et comparer l’impact des différentes méthodes de catégorisation des tâches de l’historique (c-à-d, la méthode de vectorisation et l’algorithme de clustering utilisé) sur la qualité du résultat, tout en utilisant un jeu de tâches unique (obtenu par échantillonnage), respectant les contraintes budgétaires et gardant les propriétés de validité en terme de dimension. En outre, CrowdED rend possible la comparaison de méthodes de contrôle de qualité quelle que soient leurs catégories, du fait du respect d’un cahier des charges lors de sa constitution. Les résultats de l’évaluation de CAWS en utilisant CrowdED comparés aux méthodes concurrentes basées sur la sélection de workers, donnent des résultats meilleurs, surtout en cas de contraintes temporelles et budgétaires fortes. Les expérimentations réalisées avec un historique structuré en catégories donnent des résultats comparables à des jeux de données où les taches sont volontairement regroupées de manière homogène. La dernière contribution de la thèse est un outil appelé CREX (CReate Enrich eXtend) dont le rôle est de permettre la création, l’extension ou l’enrichissement de jeux de données destinés à tester des méthodes de crowdsourcing. Il propose des modules extensibles de vectorisation, de clusterisation et d’échantillonnages et permet une génération automatique d’une campagne de crowdsourcing. / Crowdsourcing has proved its ability to address large scale data collection tasks at a low cost and in a short time. However, due to the dependence on unknown workers, the quality of the crowdsourcing process is questionable and must be controlled. Indeed, maintaining the efficiency of crowdsourcing requires the time and cost overhead related to this quality control to stay low. Current quality control techniques suffer from high time and budget overheads and from their dependency on prior knowledge about individual workers. In this thesis, we address these limitation by proposing the CAWS (Context-Aware Worker Selection) method which operates in two phases: in an offline phase, the correlations between the worker declarative profiles and the task types are learned. Then, in an online phase, the learned profile models are used to select the most reliable online workers for the incoming tasks depending on their types. Using declarative profiles helps eliminate any probing process, which reduces the time and the budget while maintaining the crowdsourcing quality. In order to evaluate CAWS, we introduce an information-rich dataset called CrowdED (Crowdsourcing Evaluation Dataset). The generation of CrowdED relies on a constrained sampling approach that allows to produce a dataset which respects the requester budget and type constraints. Through its generality and richness, CrowdED helps also in plugging the benchmarking gap present in the crowdsourcing community. Using CrowdED, we evaluate the performance of CAWS in terms of the quality, the time and the budget gain. Results shows that automatic grouping is able to achieve a learning quality similar to job-based grouping, and that CAWS is able to outperform the state-of-the-art profile-based worker selection when it comes to quality, especially when strong budget ant time constraints exist. Finally, we propose CREX (CReate Enrich eXtend) which provides the tools to select and sample input tasks and to automatically generate custom crowdsourcing campaign sites in order to extend and enrich CrowdED.
19

Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données / Contextual data quality : Detection and cleaning guided by data semantics

Ben salem, Aïcha 31 March 2015 (has links)
De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur. / Nowadays, complex applications such as knowledge extraction, data mining, e-learning or web applications use heterogeneous and distributed data. The quality of any decision depends on the quality of the used data. The absence of rich, accurate and reliable data can potentially lead an organization to make bad decisions.The subject covered in this thesis aims at assisting the user in its quality ap-proach. The goal is to better extract, mix, interpret and reuse data. For this, the data must be related to its semantic meaning, data types, constraints and comments.The first part deals with the semantic schema recognition of a data source. This enables the extraction of data semantics from all the available information, inculding the data and the metadata. Firstly, it consists of categorizing the data by assigning it to a category and possibly a sub-category, and secondly, of establishing relations between columns and possibly discovering the semantics of the manipulated data source. These links detected between columns offer a better understanding of the source and the alternatives for correcting data. This approach allows automatic detection of a large number of syntactic and semantic anomalies.The second part is the data cleansing using the reports on anomalies returned by the first part. It allows corrections to be made within a column itself (data homogeni-zation), between columns (semantic dependencies), and between lines (eliminating duplicates and similar data). Throughout all this process, recommendations and analyses are provided to the user.
20

Disparités socioéconomiques et culturelles relatives à l’alimentation des adolescents et des jeunes adultes en Belgique: Analyses de l’Enquête nationale belge de consommation alimentaire

Desbouys, Lucille 03 June 2020 (has links) (PDF)
L’alimentation est un facteur de risque et de protection de nombreuses maladies chroniques. Par ailleurs, l’alimentation fait l’objet de disparités sociales pouvant être à l’origine d’inégalités sociales de santé. Enfin, l’adolescence et l’entrée dans l’âge adulte constituent une période critique au regard de l’acquisition des comportements de santé, pendant laquelle l’adoption de comportements alimentaires, favorables ou défavorables à la santé, est susceptible de perdurer à l’âge adulte. Cette thèse propose une revue systématique de la littérature sur le sujet, suivie de deux études dont les objectifs sont de :(i) étudier les associations entre la consommation d’aliments favorables à la santé et celle d’aliments moins favorables à la santé, et les caractéristiques socioéconomiques et culturelles des adolescents et des jeunes adultes résidant en Belgique, en 2014 ;(ii) ainsi que de comparer entre 2004 et 2014, l’alimentation décrite par un score de profilage nutritionnel et selon différents groupes d’aliment et nutriments, globalement et en fonction des caractéristiques socioéconomiques et culturelles, dans les mêmes groupes d’âge. Ces analyses reposent sur les données issues de deux rappels de 24 heures, obtenues lors des enquêtes nationales de consommation alimentaire réalisées par Sciensano en 2004 et en 2014. D’après la revue systématique de la littérature réalisée, les études de qualité suffisante sur les disparités d’alimentation chez les adolescents et, plus particulièrement chez les jeunes adultes, sont relativement peu nombreuses. Elles confirment toutefois l’existence d’un gradient socioéconomique de l’alimentation. Les analyses des données de consommation alimentaire en Belgique montrent des disparités, dans ces classes d’âge, de niveau d’éducation, de pays de naissance, de région de résidence, de catégorie professionnelle et de structure familiale dans la consommation de groupes d’aliments favorables ou moins favorables à la santé, ainsi que de qualité globale de l’alimentation. Nos analyses suggèrent toutefois certaines améliorations de la situation entre 2004 et 2014. Nos conclusions soulignent le besoin de cibler de manière spécifique la population d’adolescents et de jeunes adultes lors de la mise en place d’actions de santé publique à visée nutritionnelle. Des études complémentaires restent nécessaires pour mieux comprendre les mécanismes en jeu à cette période de la vie. Enfin, l’officialisation récente du Nutri-Score en Belgique offre l’opportunité d’en étudier l’impact sur la qualité de l’alimentation dans les prochaines enquêtes nationales de consommation. / Doctorat en Santé Publique / info:eu-repo/semantics/nonPublished

Page generated in 0.0541 seconds