Global ETD Search

11	Measuring the Privacy Risks and Value of Web Tracking / Analyser les risques sur la vie privée et l'économie du profilage WEB Olejnik, Lukasz 30 January 2015 (has links) Les nouvelles technologies introduisent de nouveaux problèmes et risques. Par exemple, les internautes sont constamment tracés et profilés sur l'Internet. Ce profilage permet aux divers sites de personaliser et ainsi d'améliorer le service qu'ils fournissent à chaque internaute. Cependant ce profilage introduit aussi des problèmes d'intimité et de protection de la vie privée. Il est d'ailleurs reconnu que ces données personnelles sont souvent échangées, voire vendues, et qu'il existe une vraie economie des données personnelles. Cet thèse étudie comment ces données personnelles, et en particulier les historique Web - c'est à dire la liste des sites Internet visités par un internaute-, sont collectées, échangées et vendues. Elle propose une analyse de la vie privée des systèmes de vente aux enchères des publicités ciblés. Elle montre comment les différents acteurs de la publicité en ligne collectent et s'echangent les données personnelles, et étudie les risques pour les Internautes. Elle propose également une analyse économique et montre, notamment, que les données sont bradées pour quelques millièmes de dollars. / New medias introduce new problems and risks. There are important security and privacy considerations related to online interactions. Users browsing the Web leave a constant trail of traces referring to their Web actions. A large number of entities take advantage of this data to constantly improve how the Web services function, often offering rich personalization capabilities -- to achieve this, user data is needed. To obtain user data, Web users are being tracked and profiled. Having user data may help enhancing functionality and usability, but it also has the potential of introducing complex privacy problems, related to data collection, storing and processing. The incentives to gather user data are of economical nature: user data is monetized. We start with a description of privacy problems and risks, highlighting their roots in technology changes; users must constantly struggle to adapt to changes. The legal frameworks relating to privacy are about to change: Web companies will have to adopt to new realities. First part of this thesis is devoted to measuring the consequences of private data leaks and tracking. We show how Web browsing history convey insight relating to user interests. We study the risks of Web browsing history leaks. We point out that browsing history is to large extent unique; we perform this basing on a dataset of more than 350k partial history fingerprints. The consequence here is that if browsing histories are personally identifiable information (PII), the upcoming European privacy legal frameworks could potentially result in strict guidelines for their collection, storing and processing. The tracking measurement of third-party resources confirms the popular notion that most of the tracking is carried by US-based companies. This creates interesting information asymmetries, which are of great importance, especially if user data could be simply equated to financial and economical benefits. Second part discusses value of privacy. We study the emerging technology of Real-Time Bidding (RTB), online real-time auctions of ad spaces. We highlight that during the auction phase, bidders in RTB obtain user information such as the visited Web site or user location and they pay for serving ads. In other words, user data flows are strictly related to financial flows. User data is thus monetized. We expose an interesting design characteristic of RTB which allows us to monitor a channel with winning bids -- dynamically established fees bidders pay for displaying their ads. We perform a detailed measurement of RTB and study how this price for user information varies according to such aspects like time of day, user location and type of visited Web site. Using data obtained from real users, we also study the effect of user profiles. Users are indeed treated differently, based on their previously visited Web sites (browsing history). We observed variability in prices of RTB ads, based on those traits. The price for user information in RTB is volatile and typically is in the range of $0.0001-$0.001. This study also had a decidedly important transparency part. We introduced a Web browser extension allowing to discover the price that bidders in RTB pay. This demonstrates how the user awareness could be improved. In part three, we continue the transparency trail. We point out that Web browsers allow every Web site (or third-party resources they include) to record the mouse movements of their visitors. We point out that recent advances in mouse movement analysis points to the notion that mouse movements can potentially be used to recognize and track Web users across the Web; mouse movement analysis can also be used to infer users' demographics data such as age. We highlight the existence of mouse movement analytics -- third-party scripts specializing in mouse movement collections. We also suggest that Web browser vendors should consider including permissions for accessing the API enabling these kind of recordings. Vie privée Localisation Profilage Security Privacy Profiling Reality mining Tracking History leaks 004
12	Measuring the Privacy Risks and Value of Web Tracking / Analyser les risques sur la vie privée et l'économie du profilage WEB Olejnik, Lukasz 30 January 2015 (has links) Les nouvelles technologies introduisent de nouveaux problèmes et risques. Par exemple, les internautes sont constamment tracés et profilés sur l'Internet. Ce profilage permet aux divers sites de personaliser et ainsi d'améliorer le service qu'ils fournissent à chaque internaute. Cependant ce profilage introduit aussi des problèmes d'intimité et de protection de la vie privée. Il est d'ailleurs reconnu que ces données personnelles sont souvent échangées, voire vendues, et qu'il existe une vraie economie des données personnelles. Cet thèse étudie comment ces données personnelles, et en particulier les historique Web - c'est à dire la liste des sites Internet visités par un internaute-, sont collectées, échangées et vendues. Elle propose une analyse de la vie privée des systèmes de vente aux enchères des publicités ciblés. Elle montre comment les différents acteurs de la publicité en ligne collectent et s'echangent les données personnelles, et étudie les risques pour les Internautes. Elle propose également une analyse économique et montre, notamment, que les données sont bradées pour quelques millièmes de dollars. / New medias introduce new problems and risks. There are important security and privacy considerations related to online interactions. Users browsing the Web leave a constant trail of traces referring to their Web actions. A large number of entities take advantage of this data to constantly improve how the Web services function, often offering rich personalization capabilities -- to achieve this, user data is needed. To obtain user data, Web users are being tracked and profiled. Having user data may help enhancing functionality and usability, but it also has the potential of introducing complex privacy problems, related to data collection, storing and processing. The incentives to gather user data are of economical nature: user data is monetized. We start with a description of privacy problems and risks, highlighting their roots in technology changes; users must constantly struggle to adapt to changes. The legal frameworks relating to privacy are about to change: Web companies will have to adopt to new realities. First part of this thesis is devoted to measuring the consequences of private data leaks and tracking. We show how Web browsing history convey insight relating to user interests. We study the risks of Web browsing history leaks. We point out that browsing history is to large extent unique; we perform this basing on a dataset of more than 350k partial history fingerprints. The consequence here is that if browsing histories are personally identifiable information (PII), the upcoming European privacy legal frameworks could potentially result in strict guidelines for their collection, storing and processing. The tracking measurement of third-party resources confirms the popular notion that most of the tracking is carried by US-based companies. This creates interesting information asymmetries, which are of great importance, especially if user data could be simply equated to financial and economical benefits. Second part discusses value of privacy. We study the emerging technology of Real-Time Bidding (RTB), online real-time auctions of ad spaces. We highlight that during the auction phase, bidders in RTB obtain user information such as the visited Web site or user location and they pay for serving ads. In other words, user data flows are strictly related to financial flows. User data is thus monetized. We expose an interesting design characteristic of RTB which allows us to monitor a channel with winning bids -- dynamically established fees bidders pay for displaying their ads. We perform a detailed measurement of RTB and study how this price for user information varies according to such aspects like time of day, user location and type of visited Web site. Using data obtained from real users, we also study the effect of user profiles. Users are indeed treated differently, based on their previously visited Web sites (browsing history). We observed variability in prices of RTB ads, based on those traits. The price for user information in RTB is volatile and typically is in the range of $0.0001-$0.001. This study also had a decidedly important transparency part. We introduced a Web browser extension allowing to discover the price that bidders in RTB pay. This demonstrates how the user awareness could be improved. In part three, we continue the transparency trail. We point out that Web browsers allow every Web site (or third-party resources they include) to record the mouse movements of their visitors. We point out that recent advances in mouse movement analysis points to the notion that mouse movements can potentially be used to recognize and track Web users across the Web; mouse movement analysis can also be used to infer users' demographics data such as age. We highlight the existence of mouse movement analytics -- third-party scripts specializing in mouse movement collections. We also suggest that Web browser vendors should consider including permissions for accessing the API enabling these kind of recordings. Vie privée Localisation Profilage Security Privacy Profiling Reality mining Tracking History leaks 004
13	Développement de nouvelles méthodes de criblage in silico en chémogénomique / Devoloppement of new in-silico screening methods in chemogenomics Meslamani, Jamel-Eddine 13 September 2012 (has links) La chémoinformatique et la bioinformatique sont des disciplines devenues indispensables à la découverte de médicaments. De nos jours, les industries pharmaceutiques consacrent près de 10% de leur budget de recherche et développement, à la recherche de médicaments assisté par ordinateur (Kapetanovic 2008). Cette émergence peut s’expliquer à la fois par le développement des architectures de calculs mais aussi par le faible coup qu’engendrent des analyses in silico par rapport à des tests in-vitro.Les essais biologiques qui ont été menés depuis des décennies afin d’identifier des médicaments potentiels, commencent à former une source très importante de données et plusieurs bases de données commencent à les répertorier. La disponibilité de ce type de données a favorisé le développement d’un nouvel axe de recherche appelé la "chémogénomique" et qui s’intéresse à l’étude et à l’identification des associations possibles entre plusieurs molécules et plusieurs cibles. Ainsi, la chémogénomique permet de déterminer le profil biologique d’une molécule et nous renseigne sur sa capacité à devenir une touche intéressante mais aussi à identifier ses possibles effets indésirables. Des méthodes de chémoinformatique permettent d’utiliser ces sources de données à des fins d’apprentissage et établir des modèles prédictifs qui permettront par la suite de faire des prédictions pour connaitre l’activité d’une molécule.Cette thèse a porté sur le développement et l'utilisation de méthodes de prédictions d’association protéine-ligand. La prédiction d’une association est importante en vue d’un criblage virtuel et peut s’effectuer à l’aide de plusieurs méthodes. Au sein du laboratoire, on s’intéresse plus particulièrement au profilage de bases de données de molécules (chimiothèques) contre une série de cibles afin d’établir leur profil biologique. J’ai donc essayé au cours de ma thèse de mettre au point des modèles prédictifs d’association protéine-ligand pour un grand nombre de cibles, valider des méthodes de criblage virtuel récentes à des fins de profilage mais aussi établir un protocole de profilage automatisé, qui décide du choix de la méthode de criblage la plus adaptée en s’appuyant sur les propriétés physico-chimiques du ligand à profiler et de l’éventuelle cible. / Chemoinformatics and bioinformatics methods are now necessary in every drug discovery program. Pharmaceutical industries dedicate more than 10% of their research and development investment in computer aided drug design (Kapetanovic 2008). The emergence of these tools can be explained by the increasing availability of high performance calculating machines and also by the low cost of in silico analysis compared to in vitro tests.Biological tests that were performed over last decades are now a valuable source of information and a lot of databases are trying to list them. This huge amount of information led to the birth of a new research field called “chemogenomics”. The latter is focusing on the identification of all possible associations between all possible molecules and all possible targets. Thus, using chemogenomics approaches, one can obtain a biological profile of a molecule and even anticipate possible side effects.This thesis was focused on the development of approaches that aim to predict the binding of molecules to targets. In our lab, we focus on profiling molecular databases in order to get their full biological profile. Thus, my main work was related to this context and I tried to develop predictive models to assess the binding of ligands to proteins, to validate some virtual screening methods for profiling purpose, and finally, I developed an automatic hybrid profiling workflow that selects the best fitted virtual screening approach to use according the ligand/target context. Chémoinformatique Criblage virtuel inverse Profilage Chémogénomique Bioactivité Pharmacophores protéine-ligand Docking QSAR Chemoinformatic Docking 547.1 572.8
14	Processus d'atterissage des projets d'innovations dans les projets véhicules : application aux innovations dans les domaines "Energie / Environnements" et "Vie à bord" / Integrating innovation projects into vehicle projects : application to innovations in the fields of "Energy / Environment" and "Life on board" Buet, Gaël 21 November 2014 (has links) Ce travail de recherche a pour objet d’étude l’intégration des projets d’innovations dans les projets véhicules. Mené sous la forme d’une recherche-action, il est né du constat d’un nombre faible d’innovations présentes au final dans les produits par rapport au nombre d’innovations initialement prévues.Ce sujet est potentiellement intéressant pour tout le secteur automobile et plus généralement toutes les entreprises (notamment industrielles) qui du fait de leur taille ont différencié la préparation des innovations en amont et le développement des produits en aval. Cette distinction nécessite de faire converger le développement d’innovations avec celui des produits qui seront vendus au client. L’objectif principal de ce projet est, en facilitant cette convergence, d’augmenter au final le nombre et la valeur ajoutée des innovations qui seront intégrées dans les produits.Pour traiter ce sujet, un travail de fond a été réalisé comportant le suivi de l’intégration d’innovations dans cinq projets véhicules et l’analyse de vingt études de cas d’atterrissage d’innovations, issus principalement des domaines de « l’Énergie / Environnement » et de la « Vie à Bord ». Le processus d’atterrissage a été instrumenté à l’aide de deux outils, « Synchronizator » et « Profilor ». L’analyse de ces cas a été complétée par 155 entretiens.Ce sujet se situe à l’interface de deux mondes : le monde de l’innovation, sa flexibilité, sa créativité ; le monde du véhicule, ses processus réglés, ses ressources importantes. Les apports conceptuels que nous proposons ont tout autant la vocation de faire progresser les connaissances du monde académique que d’aider les praticiens. Nous proposons dans notre thèse trois concepts principaux.Le premier concept porte sur l’ « Atterrissage » lui-même, que nous présentons en utilisant la métaphore de l’atterrissage d’un avion (projet d’innovation) sur un porte-avions (projet véhicule). Ce concept d’atterrissage ne correspond pas à un moment unique : il s’agit d’un processus complexe partant de la préparation amont jusqu’aux activités de développement en aval et incluant des étapes clés, ainsi que la mise en œuvre des conditions (les « recommandations ») pour faciliter son application.Le deuxième concept, que nous avons dénommé « Intrusivité », consiste à qualifier les innovations par rapport à l’impact (technique, organisationnel, managérial, financier) qu’elles génèrent sur les projets véhicules cibles et à identifier des fenêtres d’atterrissage en fonction de cet impact.Le troisième concept, que nous avons dénommé « Profilage », consiste, pour un projet d’innovation donné à identifier très en amont tous les projets véhicules susceptibles de l’accueillir et, pour un projet véhicule donné de sélectionner très tôt toutes les innovations permettant de renforcer son positionnement produit.L’application de ces concepts dans l’entreprise où nous avons mené notre recherche nous a permis de : proposer un processus d'atterrissage adaptatif en fonction du niveau d’intrusivité des innovations ; évaluer dès le départ les projets d’innovations les plus porteurs pour l’entreprise en termes de valeur et de contribution à son image ; diffuser les innovations dans le plus grand nombre de projets véhicules ; renforcer le pilotage des innovations en aval pour faciliter leur intégration.Ces propositions sont autant des sujets de discussion pour le monde académique que des axes de travail pour les praticiens qui pourraient potentiellement les appliquer dans d’autres grands groupes industriels. / This research studies the integration of innovation projects into vehicle projects. The starting point is the observation of a failure to integrate innovations in the final products, despite the number of innovations originally planned.This research is potentially applicable to the overall automotive industry and, more generally, to large companies (notably industrial ones) that differentiate the preparation of the innovations upstream and the development of products downstream. This distinction leads to organize the convergence of the innovations with the products sold to the customer. The main objective of this project is, by facilitating this convergence, to increase the number and the added value of the innovations which will be integrated into products. This work was prepared by conducting a thorough evaluation of the follow-up of the integration of innovations in five vehicle projects and the analysis of twenty case studies of innovations “touch down”. These stemmed mainly from the fields of "Energy / Environment" and "Life on Board". This “touch down” process was realized through two tools, "Synchronizator" and "Profilor". The analysis of these cases was completed with 155 interviews.This subject lies at the frontier of two worlds: the innovation’s world, its flexibility and its creativity; and the vehicle’s world, its established processes and its huge resources. The concepts that we propose will contribute to improve and inform the academic knowledge, as well as to facilitate the practitioners’work. We propose in our research three main concepts.The first concept, the "touch down process" itself, is presented through the metaphor of the landing of a plane (innovation project) on an aircraft carrier (vehicle project). This “touch down” concept does not correspond to a single moment: it is a complex process starting from the upstream preparation to the downstream development activities and including key stages, as well as the application of the conditions (the "recommendations") to facilitate its implementation.The second concept, called "intrusiveness", consists of qualifying the innovations with regard to the impact (technical, organizational, managerial, financial) that they generate in the targeted vehicle projects. It facilitates the identification of different landing schedules according to this impact.The third concept, called "profiling", consists of identifying, for a given innovation project, all the appropriate vehicle projects as early as possible. Reversely, it also allows, for a given vehicle project, to select all the relevant innovations as early as possible.The implementation of these concepts in the company where we led our research allowed : for the proposal of an adaptive “touch down” process according to the level of intrusiveness of the innovations; for an estimation from the beginning of the innovation projects which are the more interesting for the company in terms of value and contribution to its image; for the spread of innovations in the largest possible number of vehicle projects; and for strengthening the management of the innovation projects downstream to facilitate their integration into the products.These propositions are at once subjects of discussion for the academic world as well as guidelines for practitioners who could potentially implement them in other large industrial groups. Projets d'innovation Innovations industrielles Management de l'innovation Projets véhicules Processus d'atterrisage Intrusivité Profilage Technological innovations Intrusiveness Profiling
15	Profiling and debugging by efficient tracing of hybrid multi-threaded HPC applications / Profilage et débogage par prise de traces efficaces d'applications hybrides multi-threadées HPC Besnard, Jean-Baptiste 16 July 2014 (has links) L’évolution des supercalculateurs est à la source de défis logiciels et architecturaux. Dans la quête de puissance de calcul, l’interdépendance des éléments du processus de simulation devient de plus en plus impactante et requiert de nouvelles approches. Cette thèse se concentre sur le développement logiciel et particulièrement sur l’observation des programmes parallèles s’exécutant sur des milliers de cœurs. Dans ce but, nous décrivons d’abord le processus de développement de manière globale avant de présenter les outils existants et les travaux associés. Dans un second temps, nous détaillons notre contribution qui consiste d’une part en des outils de débogage et profilage par prise de traces, et d’autre part en leur évolution vers un couplage en ligne qui palie les limitations d’entrées–sorties. Notre contribution couvre également la synchronisation des horloges pour la prise de traces avec la présentation d’un algorithme de synchronisation probabiliste dont nous avons quantifié l’erreur. En outre, nous décrivons un outil de caractérisation machine qui couvre l’aspect MPI. Un tel outil met en évidence la présence de bruit aussi bien sur les communications de type point-à-point que de type collective. Enfin, nous proposons et motivons une alternative à la collecte d’événements par prise de traces tout en préservant la granularité des événements et un impact réduit sur les performances, tant sur le volet utilisation CPU que sur les entrées–sorties / Supercomputers’ evolution is at the source of both hardware and software challenges. In the quest for the highest computing power, the interdependence in-between simulation components is becoming more and more impacting, requiring new approaches. This thesis is focused on the software development aspect and particularly on the observation of parallel software when being run on several thousand cores. This observation aims at providing developers with the necessary feedback when running a program on an execution substrate which has not been modeled yet because of its complexity. In this purpose, we firstly introduce the development process from a global point of view, before describing developer tools and related work. In a second time, we present our contribution which consists in a trace based profiling and debugging tool and its evolution towards an on-line coupling method which as we will show is more scalable as it overcomes IOs limitations. Our contribution also covers our time-stamp synchronisation algorithm for tracing purposes which relies on a probabilistic approach with quantified error. We also present a tool allowing machine characterisation from the MPI aspect and demonstrate the presence of machine noise for both point to point and collectives, justifying the use of an empirical approach. In summary, this work proposes and motivates an alternative approach to trace based event collection while preserving event granularity and a reduced overhead HPC Optimisation parallèle Supercalculateurs Profilage Débogage Cycle de développement HPC Profiling Debugging
16	Kernel optimization by layout restructuring / Estimation d'efficacité et restructuration automatisées de noyaux de calcul Haine, Christopher 03 July 2017 (has links) Bien penser la structuration de données est primordial pour obtenir de hautes performances, alors que les processeurs actuels perdent un temps considérable à attendre la complétion de transactions mémoires. En particulier les localités spatiales et temporelles de données doivent être optimisées.Cependant, les transformations de structures de données ne sont pas proprement explorées par les compilateurs, en raison de la difficulté que pose l'évaluation de performance des transformations potentielles. De plus,l'optimisation des structures de données est chronophage, sujette à erreur etles transformations à considérer sont trop nombreuses pour être implémentées à la main dans l'optique de trouver une version de code efficace.On propose de guider les programmeurs à travers le processus de restructuration de données grace à un retour utilisateur approfondi, tout d'abord en donnant une description multidimensionnelle de la structure de donnée initiale, faite par une analyse de traces mémoire issues du binaire de l'application de l'utilisateur, dans le but de localiser des problèmes de stride au niveau instruction, indépendemment du langage d'entrée. On choisit de focaliser notre étude sur les transformations de structure de données, traduisibles dans un formalisme proche du C pour favoriser la compréhension de l'utilisateur, que l'on applique et évalue sur deux cas d'étude qui sont des applications réelles,à savoir une simulation d'ondes cardiaques et une simulation de chromodynamique quantique sur réseau, avec différents jeux d'entrées. La prédiction de performance de différentes transformations est conforme à 5% près aux versions réécrites à la main. / Careful data layout design is crucial for achieving high performance, as nowadays processors waste a considerable amount of time being stalled by memory transactions, and in particular spacial and temporal locality have to be optimized. However, data layout transformations is an area left largely unexplored by state-of-the-art compilers, due to the difficulty to evaluate the possible performance gains of transformations. Moreover, optimizing data layout is time-consuming, error-prone, and layout transformations are too numerous tobe experimented by hand in hope to discover a high performance version. We propose to guide application programmers through data layout restructuring with an extensive feedback, firstly by providing a comprehensive multidimensional description of the initial layout, built via analysis of memory traces collected from the application binary textit {in fine} aiming at pinpointing problematic strides at the instruction level, independently of theinput language. We choose to focus on layout transformations,translatable to C-formalism to aid user understanding, that we apply and assesson case study composed of two representative multithreaded real-lifeapplications, a cardiac wave simulation and lattice QCD simulation, with different inputs and parameters. The performance prediction of different transformations matches (within 5%) with hand-optimized layout code. Profilage de performance Restructuration de données Vectorisation Réécriture de binaire Performance profiling Layout restructuring Vectorization Binary rewriting
17	Continuous and Efficient Lock Profiling for Java on Multicore Architectures / Profilage continu et efficient de verrous pour Java pour les architectures multicœurs David, Florian 08 July 2015 (has links) Aujourd’hui, le traitement de grands jeux de données est généralement parallélisé et effectué sur des machines multi-cœurs. Cependant, les verrous peuvent sérialiser l'exécution de ces coeurs et dégrader la latence et le débit du traitement. Détecter ces problèmes de contention de verrous in-vitro (i.e. pendant le développement du logiciel) est complexe car il est difficile de reproduire un environnement de production, de créer une charge de travail réaliste représentative du contexte d’utilisation du logiciel et de tester toutes les configurations de déploiement possibles où s'exécutera le logiciel. Cette thèse présente Free Lunch, un profiler permettant d'identifier les phases de contention dues aux verrous in-vivo (i.e. en production). Free Lunch intègre une nouvelle métrique appelée Critical Section Pressure (CSP) évaluant avec précision l'impact de la synchronisation sur le progrès des threads. Free Lunch est directement intégré dans la JVM Hotspot pour minimiser le surcoût d'exécution et reporte régulièrement la CSP afin de pouvoir détecter les problèmes transitoires dus aux verrous. Free Lunch est évalué sur 31 benchmarks issus de Dacapo 9.12, SpecJVM08 et SpecJBB2005, ainsi que sur la base de données Cassandra. Nous avons identifié des phases de contention dans 6 applications dont certaines n'étaient pas détectées par les profilers actuels. Grâce à ces informations, nous avons amélioré la performance de Xalan de 15% en modifiant une seule ligne de code et identifié une phase de haute contention dans Cassandra. Free Lunch n’a jamais dégradé les performances de plus de 6% ce qui le rend approprié pour être déployé continuellement dans un environnement de production. / Today, the processing of large dataset is generally parallelised and performed on computers with many cores. However, locks can serialize the execution of these cores and hurt the latency and the processing throughput. Spotting theses lock contention issues in-vitro (i.e. during the development phase) is complex because it is difficult to reproduce a production environment, to create a realistic workload representative of the context of use of the software and to test every possible configuration of deployment where will be executed the software. This thesis introduces Free Lunch, a lock profiler that diagnoses phases of high lock contention due to locks in-vivo (i.e. during the operational phase). Free Lunch is designed around a new metric, the Critical Section Pressure (CSP), which aims to evaluate the impact of lock contention on overall thread progress. Free Lunch is integrated in Hotpost in order to minimize the overhead and regularly reports the CSP during the execution in order to detect temporary issues due to locks. Free Lunch is evaluated over 31 benchmarks from Dacapo 9.12, SpecJVM08 and SpecJBB2005, and over the Cassandra database. We were able to pinpoint the phases of lock contention in 6 applications for which some of these were not detected by existing profilers. With this information, we have improved the performance of Xalan by 15% just by rewriting one line of code and identified a phase of high lock contention in Cassandra during the replay of transactions after a crash of a node. Free Lunch has never degraded performance by more than 6%, which makes it suitable to be deployed continuously in an operational environment. Multicœur Profilage Verrou Java Machine virtuelle Java Métrique Multicore Profiling 004
18	Étude sur les incendiaires québécois : analyse des motivations et scènes de crime Collin-Santerre, Justine 13 December 2024 (has links) L’objectif de cette recherche descriptive est de développer une typologie des incendiaires québécois (sériels et non sériels), ainsi qu’une typologie des incendies criminels toutes deux dérivées d’analyses statistiques et ayant une portée autant pratique que scientifique. En collectant des informations sociodémographiques, événementielles et psychologiques, tant sur l’auteur du crime que sur son acte, il fut possible de faire ressortir les principales scènes de crime visées ainsi que les motivations à commettre un crime d’incendie, grâce à l’analyse de classes latentes (ACL). Pour ce faire, des dossiers provenant de différents corps policiers de la province de Québec furent consultés. Au total, 48 dossiers de crimes d’incendie ont été rendus accessibles et furent consultés et codifiés, ce qui a permis de créer une base de données comprenant 245 incendies criminels commis par 59 incendiaires. Pour sélectionner les dossiers, un exemplaire de l’outil de collecte de données était acheminé aux différents corps policiers participant à l’étude. Suivant certaines rencontres et en fonction des besoins de la recherche et des corps de police participants, cet outil fut divisé en trois sections : 1) données sociodémographiques du contrevenant; 2) données de l’événement; 3) informations ayant trait au profil psychologique du contrevenant. Les résultats démontrent que quatre scènes de crime sont principalement visées par les incendiaires; les espaces publics étant davantage ciblés. De plus, les analyses font ressortir six motivations principales des incendiaires québécois. Ces sous-groupes/classes de motivation identifiée furent ensuite combinés avec les scènes de crime identifiées, afin de démontrer les possibles associations entre les scènes de crimes et les motivations des auteurs. On constate aussi que les individus motivés par la fraude et la vengeance incendieront principalement des lieux résidentiels ou des véhicules. Globalement, les analyses permettent de soulever que les profils des crimes d’incendie et des incendiaires sont méconnus au Québec et qu’en comprenant les motivations de ces incendiaires, l’enquête en sera mieux orientée tout en permettant de réduire le bassin de suspects potentiels. Mots-clés : incendie criminel, incendiaire, incendie en série, incendiaire sériel, scène de crime, motivation, analyses de classes latentes; profilage; priorisation des suspects; prévention. / The goal of this study was to explore and develop a statistically derived typology of arsons and arsonists (serial and non-serial) from the Province of Quebec, for practical as much as scientific concerns. By collecting sociodemographic, criminals, and psychological information on the crime and the individual, it was possible to find, through latent class analyses (LCA), the most targeted crime scenes and main motivations to commit an arson. To do so, files from across the Province were selected and coded. In total, 48 files were analyzed, allowing to create a database of 245 arsons committed by 59 arsonists. In order to select those files, a coding sheet was sent to police services across the Province of Quebec. In line with scientific and practical gaps, the coding sheet was divided in three main sections: 1) sociodemographic characteristics; 2) information regarding the arson; 3) arsonists’ psychological profile information. Results show that, among the four main targeted crime scenes, public places were those mostly targeted by Quebecer arsonists. Moreover, analyses show six main motivations to commit arson. The identified crime scene and the identified motivation profiles were then combined, using bivariate analyses, to see how the arsonists’ motivation varied based on the targeted crime scenes. Results show that arsonists with profit or retaliation intentions are susceptible to target residential areas or vehicles. Globally, analyses highlighted that arson and arsonist profiles are still unknown in Quebec and, by knowing the most targeted crime scene and arsonist motivations, it is possible to enhances the investigators’ comprehension in arson cases, as much as guide them in terms of suspects’ prioritisation and identification. Keywords: arson, arsonists, serial arson, serial arsonists, crime scene, motivation, profiling, suspect prioritisation, crime prevention, latent class analysis. HV 13.5 UL 2018 Crimes d'incendie Pyromanes -- Psychologie. Intention criminelle. Profilage criminel. Prédiction du comportement criminel.
19	Context-aware worker selection for efficient quality control in crowdsourcing / Sélection des travailleurs attentifs au contexte pour un contrôle efficace de la qualité en externalisation à grande échelle Awwad, Tarek 13 December 2018 (has links) Le crowdsourcing est une technique qui permet de recueillir une large quantité de données d'une manière rapide et peu onéreuse. Néanmoins, La disparité comportementale et de performances des "workers" d’une part et la variété en termes de contenu et de présentation des tâches par ailleurs influent considérablement sur la qualité des contributions recueillies. Par conséquent, garder leur légitimité impose aux plateformes de crowdsourcing de se doter de mécanismes permettant l’obtention de réponses fiables et de qualité dans un délai et avec un budget optimisé. Dans cette thèse, nous proposons CAWS (Context AwareWorker Selection), une méthode de contrôle de la qualité des contributions dans le crowdsourcing visant à optimiser le délai de réponse et le coût des campagnes. CAWS se compose de deux phases, une phase d’apprentissage opérant hors-ligne et pendant laquelle les tâches de l’historique sont regroupées de manière homogène sous forme de clusters. Pour chaque cluster, un profil type optimisant la qualité des réponses aux tâches le composant, est inféré ; la seconde phase permet à l’arrivée d’une nouvelle tâche de sélectionner les meilleurs workers connectés pour y répondre. Il s’agit des workers dont le profil présente une forte similarité avec le profil type du cluster de tâches, duquel la tâche nouvellement créée est la plus proche. La seconde contribution de la thèse est de proposer un jeu de données, appelé CrowdED (Crowdsourcing Evaluation Dataset), ayant les propriétés requises pour, d’une part, tester les performances de CAWS et les comparer aux méthodes concurrentes et d’autre part, pour tester et comparer l’impact des différentes méthodes de catégorisation des tâches de l’historique (c-à-d, la méthode de vectorisation et l’algorithme de clustering utilisé) sur la qualité du résultat, tout en utilisant un jeu de tâches unique (obtenu par échantillonnage), respectant les contraintes budgétaires et gardant les propriétés de validité en terme de dimension. En outre, CrowdED rend possible la comparaison de méthodes de contrôle de qualité quelle que soient leurs catégories, du fait du respect d’un cahier des charges lors de sa constitution. Les résultats de l’évaluation de CAWS en utilisant CrowdED comparés aux méthodes concurrentes basées sur la sélection de workers, donnent des résultats meilleurs, surtout en cas de contraintes temporelles et budgétaires fortes. Les expérimentations réalisées avec un historique structuré en catégories donnent des résultats comparables à des jeux de données où les taches sont volontairement regroupées de manière homogène. La dernière contribution de la thèse est un outil appelé CREX (CReate Enrich eXtend) dont le rôle est de permettre la création, l’extension ou l’enrichissement de jeux de données destinés à tester des méthodes de crowdsourcing. Il propose des modules extensibles de vectorisation, de clusterisation et d’échantillonnages et permet une génération automatique d’une campagne de crowdsourcing. / Crowdsourcing has proved its ability to address large scale data collection tasks at a low cost and in a short time. However, due to the dependence on unknown workers, the quality of the crowdsourcing process is questionable and must be controlled. Indeed, maintaining the efficiency of crowdsourcing requires the time and cost overhead related to this quality control to stay low. Current quality control techniques suffer from high time and budget overheads and from their dependency on prior knowledge about individual workers. In this thesis, we address these limitation by proposing the CAWS (Context-Aware Worker Selection) method which operates in two phases: in an offline phase, the correlations between the worker declarative profiles and the task types are learned. Then, in an online phase, the learned profile models are used to select the most reliable online workers for the incoming tasks depending on their types. Using declarative profiles helps eliminate any probing process, which reduces the time and the budget while maintaining the crowdsourcing quality. In order to evaluate CAWS, we introduce an information-rich dataset called CrowdED (Crowdsourcing Evaluation Dataset). The generation of CrowdED relies on a constrained sampling approach that allows to produce a dataset which respects the requester budget and type constraints. Through its generality and richness, CrowdED helps also in plugging the benchmarking gap present in the crowdsourcing community. Using CrowdED, we evaluate the performance of CAWS in terms of the quality, the time and the budget gain. Results shows that automatic grouping is able to achieve a learning quality similar to job-based grouping, and that CAWS is able to outperform the state-of-the-art profile-based worker selection when it comes to quality, especially when strong budget ant time constraints exist. Finally, we propose CREX (CReate Enrich eXtend) which provides the tools to select and sample input tasks and to automatically generate custom crowdsourcing campaign sites in order to extend and enrich CrowdED. Informatique Production participative Controle de la qualité Profilage Jeu de données d'évaluation Information Technology Crowdsourcing Quality control Worker profiling Benchmarking dataset 004.607 2
20	Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données / Contextual data quality : Detection and cleaning guided by data semantics Ben salem, Aïcha 31 March 2015 (has links) De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur. / Nowadays, complex applications such as knowledge extraction, data mining, e-learning or web applications use heterogeneous and distributed data. The quality of any decision depends on the quality of the used data. The absence of rich, accurate and reliable data can potentially lead an organization to make bad decisions.The subject covered in this thesis aims at assisting the user in its quality ap-proach. The goal is to better extract, mix, interpret and reuse data. For this, the data must be related to its semantic meaning, data types, constraints and comments.The ﬁrst part deals with the semantic schema recognition of a data source. This enables the extraction of data semantics from all the available information, inculding the data and the metadata. Firstly, it consists of categorizing the data by assigning it to a category and possibly a sub-category, and secondly, of establishing relations between columns and possibly discovering the semantics of the manipulated data source. These links detected between columns oﬀer a better understanding of the source and the alternatives for correcting data. This approach allows automatic detection of a large number of syntactic and semantic anomalies.The second part is the data cleansing using the reports on anomalies returned by the ﬁrst part. It allows corrections to be made within a column itself (data homogeni-zation), between columns (semantic dependencies), and between lines (eliminating duplicates and similar data). Throughout all this process, recommendations and analyses are provided to the user. Qualité de données Sémantique des données Reconnaissance de schéma Profilage sémantique de données Doublons Data quality Data semantics Schema recognition Similar data

Search results