• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 14
  • 10
  • 3
  • 1
  • Tagged with
  • 27
  • 27
  • 14
  • 10
  • 8
  • 8
  • 5
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Simulation générique et contribution à l'optimisation de la robustesse des systèmes de données à large échelle / Generic simulation and contribution to the robustness optimization of large-scale data storage systems

Gougeaud, Sebastien 11 May 2017 (has links)
La capacité des systèmes de stockage de données ne cesse de croître pour atteindre actuellement l’échelle de l’exaoctet, ce qui a un réel impact sur la robustesse des systèmes de stockage. En effet, plus le nombre de disques contenus dans un système est grand, plus il est probable d’y avoir une défaillance. De même, le temps de la reconstruction d’un disque est proportionnel à sa capacité. La simulation permet le test de nouveaux mécanismes dans des conditions quasi réelles et de prédire leur comportements. Open and Generic data Storage system Simulation tool (OGSSim), l’outil que nous proposons, supporte l’hétérogénéité et la taille importante des systèmes actuels. Sa décomposition modulaire permet d’entreprendre chaque technologie de stockage, schéma de placement ou modèle de calcul comme des briques pouvant être combinées entre elles pour paramétrer au mieux la simulation. La robustesse étant un paramètre critique dans ces systèmes, nous utilisons le declustered RAID pour assurer la distribution de la reconstruction des données d’un disque en cas de défaillance. Nous proposons l’algorithme Symmetric Difference of Source Sets (SD2S) qui utilise le décalage des blocs de données pour la création du schéma de placement. Le pas du décalage est issu du calcul de la proximité des ensembles de provenance logique des blocs d’un disque physique. Pour évaluer l’efficacité de SD2S, nous l’avons comparé à la méthode Crush, exemptée des réplicas. Il en résulte que la création du schéma de placement, aussi bien en mode normal qu’en mode défaillant, est plus rapide avec SD2S, et que le coût en espace mémoire est également réduit (nul en mode normal). En cas de double défaillance, SD2S assure la sauvegarde d’une partie, voire de la totalité, des données / Capacity of data storage systems does not cease to increase to currently reach the exabyte scale. This observation gets a real impact on storage system robustness. In fact, the more the number of disks in a system is, the greater the probability of a failure happening is. Also, the time used for a disk reconstruction is proportional to its size. Simulation is an appropriate technique to test new mechanisms in almost real conditions and predict their behavior. We propose a new software we callOpen and Generic data Storage system Simulation tool (OGSSim). It handles the heterogeneity andthe large size of these modern systems. Its modularity permits the undertaking of each storage technology, placement scheme or computation model as bricks which can be added and combined to optimally configure the simulation.Robustness is a critical issue for these systems. We use the declustered RAID to distribute the data reconstruction in case of a failure. We propose the Symmetric Difference of Source Sets (SD2S) algorithmwhich uses data block shifhting to achieve the placement scheme. The shifting offset comes from the computation of the distance between logical source sets of physical disk blocks. To evaluate the SD2S efficiency, we compared it to Crush method without replicas. It results in a faster placement scheme creation in normal and failure modes with SD2S and in a significant reduced memory space cost (null without failure). Furthermore, SD2S ensures the partial, if not total, reconstruction of data in case of multiple failures.
22

Utilisation d’une approche écologique pour l’analyse des résultats d'évaluations standardisées : cas des performances en lecture aux tests PASEC2014-Cameroun

Alioum 09 1900 (has links)
L’objectif de la présente étude est de soutenir l’utilisation d’une approche écologique pour l’analyse des données d’une évaluation standardisée. Nous implémentons cette approche en utilisant une Analyse de Classes Latentes (ACL) avec covariables sur les données du test de lecture du Programme d’Analyse des Systèmes Éducatifs de la CONFEMEN (PASEC) des élèves francophones de 6e année du primaire au Cameroun (N=617) et montrons comment une telle approche peut susciter un regard nouveau sur les résultats de cette évaluation. En effet, les programmes d’Évaluations standardisées à Larges Échelles (ELE) visent à évaluer les apprentissages et les compétences des individus et fournissent des données d’aide à la décision dans beaucoup de pays (Hogan, 2017 ; Loye, 2011 ; Wagemaker, 2014). Dans le cadre de ces ELE, les performances sont estimées uniquement sur la base des réponses que fournissent les candidats et donc de leurs capacités cognitives (Zumbo et al, 2015). Pourtant, de plus en plus de recherches suggèrent de considérer la performance à un test comme un phénomène qui se réalise dans un réseau interconnecté de connaissances, de caractéristiques individuelles et de contextes particuliers (McNamara, 2007 ; McNamara et Roever, 2006 ; Mislevy, 2018 ; Zumbo et al, 2015). L’approche écologique, qui s’inscrit dans cette perspective, s’intéresse aux hypothèses contextuelles, sociales et culturelles lors de l’estimation des performances à un test (McNamara, 2007 ; McNamara et Roever, 2006 ; Zumbo et al, 2015). Nos résultats mettent en évidence des écologies de performances en lecture qui varient en fonction des régions. Dans chacune de ces écologies, les profils de performances en lecture qui s’y dégagent dépendent des caractéristiques des élèves et des caractéristiques des milieux scolaires et extrascolaires dans lesquels ils évoluent. Nous mettons ainsi l’emphase sur le caractère situé des performances à un test permettant une lecture plus équitable des performances des différents candidats. Ce faisant, nous formulons des recommandations qui tiennent compte des réalités contextuelles des candidats contrairement aux recommandations uniformes souvent formulées à la suite des résultats aux ELE. / The purpose of this study is to support the use of an ecological approach for the analysis of standardized data assessment. This study is implimented by Latent Classes Analysis (ACL) with covariables on the test reading data of the « Programme d’Analyse des Systèmes Éducatifs de la CONFEMEN » (PASEC) french-speaking students of 6th grade primary school in Cameroon (N = 617) and shows how this approach can change the way we interpret the results of this study. Indeed, Standardized Large Scale Assessments (ELE) programs aim to appraise the learning and skills of individuals and provide decision support data in many countries (Hogan, 2017 ; Loye, 2011; Wagemaker, 2014). In the context of these ELEs, performance is estimated solely based on the responses provided by the candidates and therefore of their cognitive abilities (Zumbo et al, 2015). Yet a growing body of research suggests viewing test performance as a phenomenon that occurs in an interconnected network of knowledge, individual characteristics, and particular contexts (McNamara, 2007 ; McNamara and Roever, 2006 ; Mislevy, 2018 ; Zumbo et al. , 2015). The ecological approach, which is part of this perspective, is interested in the contextual, social and cultural hypotheses when estimating the performance of a test (McNamara and Roever, 2006 ; McNamara, 2007 ; Zumbo et al, 2015). Our results highlight reading performance ecologies that vary by region. In each of these ecologies, the reading performance profiles that emerge depend on the characteristics of the students and the characteristics of the school and out-of-school environments in which they operate. We therefore put the emphasis on the situated character of the performances on a test allowing a fairer reading of the performances of the different candidates. In doing so, we formulate recommendations that take into account the contextual realities of applicants, unlike the standard recommendations often made following ELE results.
23

Vers une architecture pair-à-pair pour l'informatique dans le nuage / Toward a peer-to-peer architecture for cloud computing

Malvaut-Martiarena, Willy 04 October 2011 (has links)
Avec l'émergence de l'informatique dans les nuages, une nouvelle approche consiste à externaliser des tâches de calcul, de façon à réduire les coûts d'hébergement et à augmenter la flexibilité des systèmes. L'infrastructure actuelle des services permettant cette externalisation repose sur l'utilisation de centres de traitement de données centralisés, qui sont dédiés à l'approvisionnement de ressources de calcul. Dans cette thèse, nous étudions la possibilité de fournir de tels services en utilisant une infrastructure pair-à-pair, c'est-à-dire une infrastructure totalement décentralisée pouvant être déployée sur une fédération de noeuds de calcul hétérogénes et de provenances diverses. Nous nous focalisons sur le problème de l'allocation des noeuds et présentons Salute, un service d'allocation de noeuds, qui organise les noeuds en réseaux virtuels non-structurés et repose sur des mécanismes de prédiction de disponibilité pour assurer, avec une grande probabilité, que les requêtes d'allocation sont satisfaites dans le temps, malgré le dynamisme de l'environnement hôte. Pour ce faire, le service Salute repose sur la collaboration de plusieurs protocoles pair-à-pair appartenant à la catégorie des protocoles épidémiques. Afin de valider nos propositions, nous évaluons Salute en utilisant des traces provenant d'un échantillonnage de plusieurs systèmes pair-à-pair de référence. / With the emergence of Cloud computing, a new trend is to externalize computing tasks in order to decrease costs and increase flexibility. Current Cloud infrastructures rely on the usage of large-scale centralized data centers, for computing resources provisioning. In this thesis, we study the possibility to provide a peer-to-peer based Cloud infrastructure, which is totally decentralized and can be deployed on any computing nodes federation. We focus on the nodes allocation problem and present Salute, a nodes allocation service that organizes nodes in unstructured overlay networks and relies on mechanisms to predict node availability in order to ensure, with high probability, that allocation requests will be satisfied over time, and this despite churn. Salute's implementation relies on the collaboration of several peer-to-peer protocols belonging to the category of epidemic protocols. To convey our claims, we evaluate Salute using real traces.
24

Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique

Chaumartin, François-Régis 25 September 2012 (has links) (PDF)
Créer rapidement un analyseur sémantique dédié à une tâche particulière n'est pas une tâche aisée. En effet, composants d'analyse et ressources linguistiques sont souvent définis avec des formats incompatibles entre eux, ce qui en rend l'assemblage complexe. Nous souhaitons apporter une réponse opérationnelle à ce problème avec la plate-forme de traitement linguistique Antelope, dont cette thèse décrit les principes de conception et de réalisation. En partie basée sur la Théorie Sens-Texte (TST), Antelope permet une analyse syntaxique et sémantique de corpus de volume important ; son objectif est de " rendre calculable " du texte tout-venant : avis de consommateurs, textes encyclopédiques, documents RH, articles de presse... Pour cela, Antelope intègre (i) plusieurs composants prêts à l'emploi, couvrant les principales tâches de TAL, qui interagissent au sein d'un modèle de données linguistiques unifié ; (ii) un lexique sémantique multilingue à large couverture constitué à partir de différentes sources. Un effort d'intégration permet d'offrir une plate-forme robuste et homogène ; l'ensemble constitue une interface syntaxe-sémantique opérationnelle. La thèse présente la plate-forme et la compare à d'autres projets de référence ; elle souligne les bonnes pratiques à prendre en termes d'architecture logicielle pour qu'un tel ensemble complexe reste maintenable ; elle introduit aussi une démarche semi-supervisée d'acquisition de connaissances à large échelle.
25

Modèles d'impact statistiques en agriculture : de la prévision saisonnière à la prévision à long terme, en passant par les estimations annuelles / Impact models in agriculture : from seasonal forecast to long-term estimations, including annual estimates

Mathieu, Jordane 29 March 2018 (has links)
En agriculture, la météo est le principal facteur de variabilité d’une année sur l’autre. Cette thèse vise à construire des modèles statistiques à grande échelle qui estiment l’impact des conditions météorologiques sur les rendements agricoles. Le peu de données agricoles disponibles impose de construire des modèles simples avec peu de prédicteurs, et d’adapter les méthodes de sélection de modèles pour éviter le sur-apprentissage. Une grande attention a été portée sur la validation des modèles statistiques. Des réseaux de neurones et modèles à effets mixtes (montrant l’importance des spécificités locales) ont été comparés. Les estimations du rendement de maïs aux États-Unis en fin d’année ont montré que les informations de températures et de précipitations expliquent en moyenne 28% de la variabilité du rendement. Dans plusieurs états davantage météo-sensibles, ce score passe à près de 70%. Ces résultats sont cohérents avec de récentes études sur le sujet. Les prévisions du rendement au milieu de la saison de croissance du maïs sont possibles à partir de juillet : dès juillet, les informations météorologiques utilisées expliquent en moyenne 25% de la variabilité du rendement final aux États-Unis et près de 60% dans les états plus météo-sensibles comme la Virginie. Les régions du nord et du sud-est des États-Unis sont les moins bien prédites. Le rendements extrêmement faibles ont nécessité une méthode particulière de classification : avec seulement 4 prédicteurs météorologiques, 71% des rendements très faibles sont bien détectés en moyenne. L’impact du changement climatique sur les rendements jusqu’en 2060 a aussi été étudié : le modèle construit nous informe sur la rapidité d’évolution des rendements dans les différents cantons des États-Unis et localisent ceux qui seront le plus impactés. Pour les états les plus touchés (au sud et sur la côte Est), et à pratique agricole constante, le modèle prévoit des rendements près de deux fois plus faibles que ceux habituels, en 2060 sous le scénario RCP 4.5 du GIEC. Les états du nord seraient peu touchés. Les modèles statistiques construits peuvent aider à la gestion sur le cours terme (prévisions saisonnières) ou servent à quantifier la qualité des récoltes avant que ne soient faits les sondages post-récolte comme une aide à la surveillance (estimation en fin d’année). Les estimations pour les 50 prochaines années participent à anticiper les conséquences du changement climatique sur les rendements agricoles, pour définir des stratégies d’adaptation ou d’atténuation. La méthodologie utilisée dans cette thèse se généralise aisément à d’autres cultures et à d’autres régions du monde. / In agriculture, weather is the main factor of variability between two consecutive years. This thesis aims to build large-scale statistical models that estimate the impact of weather conditions on agricultural yields. The scarcity of available agricultural data makes it necessary to construct simple models with few predictors, and to adapt model selection methods to avoid overfitting. Careful validation of statistical models is a major concern of this thesis. Neural networks and mixed effects models are compared, showing the importance of local specificities. Estimates of US corn yield at the end of the year show that temperature and precipitation information account for an average of 28% of yield variability. In several more weather-sensitive states, this score increases to nearly 70%. These results are consistent with recent studies on the subject. Mid-season maize crop yield forecasts are possible from July: as of July, the meteorological information available accounts for an average of 25% of the variability in final yield in the United States and close to 60% in more weather-sensitive states like Virginia. The northern and southeastern regions of the United States are the least well predicted. Predicting years for which extremely low yields are encountered is an important task. We use a specific method of classification, and show that with only 4 weather predictors, 71% of the very low yields are well detected on average. The impact of climate change on yields up to 2060 is also studied: the model we build provides information on the speed of evolution of yields in different counties of the United States. This highlights areas that will be most affected. For the most affected states (south and east coast), and with constant agricultural practice, the model predicts yields nearly divided by two in 2060, under the IPCC RCP 4.5 scenario. The northern states would be less affected. The statistical models we build can help for management on the short-term (seasonal forecasts) or to quantify the quality of the harvests before post-harvest surveys, as an aid to the monitoring (estimate at the end of the year). Estimations for the next 50 years help to anticipate the consequences of climate change on agricultural yields, and to define adaptation or mitigation strategies. The methodology used in this thesis is easily generalized to other cultures and other regions of the world.
26

Calcul haute performance pour la détection de rayon Gamma / High Performance Computing for Detection of Gamma ray

Aubert, Pierre 04 October 2018 (has links)
La nouvelle génération d'expériences de physique produira une quantité de données sans précédent. Cette augmentation du flux de données cause des bouleversements techniques à tous les niveaux, comme le stockage des données, leur analyse, leur dissémination et leur préservation.Le projet CTA sera le plus grand observatoire d'astronomie gamma au sol à partir de 2021. Il produira plusieurs centaines de Péta-octets de données jusqu'en 2030 qui devront être analysées, stockée, compressées, et réanalysées tous les ans.Ce travail montre comment optimiser de telles analyses de physique avec les techniques de l'informatique hautes performances par le biais d'un générateur de format de données efficace, d'optimisation bas niveau de l'utilisation du pipeline CPU et de la vectorisation des algorithmes existants, un algorithme de compression rapide d'entiers et finalement une nouvelle analyse de données basée sur une méthode de comparaison d'image optimisée. / The new generation research experiments will introduce huge data surge to a continuously increasing data production by current experiments. This increasing data rate causes upheavals at many levels, such as data storage, analysis, diffusion and conservation.The CTA project will become the utmost observatory of gamma astronomy on the ground from 2021. It will generate hundreds Peta-Bytes of data by 2030 and will have to be stored, compressed and analyzed each year.This work address the problems of data analysis optimization using high performance computing techniques via an efficient data format generator, very low level programming to optimize the CPU pipeline and vectorization of existing algorithms, introduces a fast compression algorithm for integers and finally exposes a new analysis algorithm based on efficient pictures comparison.
27

Quelques défis posés par l'utilisation de protocoles de Gossip dans l'Internet / Gossiping in the wild -- Tackling practical problems faced by gossip protocols when deployed on the Internet

Pace, Alessio 04 October 2011 (has links)
Les systèmes pair-à-pair (P2P) sont aujourd'hui très populaires. Leur utilisation va de la messagerie instantanée au partage de fichiers, en passant par la sauvegarde et le stockage distribué ou encore le streaming video. Parmi les protocoles P2P, les protocoles basés sur le "gossip" sont une famille de protocoles qui a fait l'objet de nombreux travaux de recherche durant la dernière décennie. Les raisons de l'engouement pour les protocoles basés sur le "gossip" sont qu'ils sont considérés robustes, faciles à mettre en oeuvre et qu'ils ont des propriétés de passage à l'échelle intéressantes. Ce sont donc des candidats intéressants dès lors qu'il s'agit de réaliser des systèmes distribués dynamiques à large échelle. Cette thèse considère deux problématiques rencontrées lorsque l'on déploie des protocoles basé sur le "gossip" dans un environnement réel comme l'Internet. La première problématique est la prise en compte des pare-feux (NAT) dans le cadre des protocoles d'échantillonnage basés sur le "gossip". Ces protocoles font l'hypothèse que, a tout moment, chaque noeud est capable de communiquer avec n'importe quel noeud du réseau. Cette hypothèse est fausse dès lors que certains noeuds utilisent des NAT. Nous présentons Nylon, un protocole d'échantillonnage qui fonctionne malgré la présence de NAT. Nylon introduit un faible surcoût pour gérer les NAT et partage équitablement ce surcoût entre les noeuds possédant un NAT et les autres noeuds. La deuxième problématique que nous étudions est la possibilité de limiter la dissémination de messages de type "spam" dans les protocoles de dissémination basés sur le "gossip". Ces protocoles sont en effet des vecteurs idéaux pour diffuser les messages de type "spam" du fait qu'il n'y a pas d'autorité de contrôle permettant de filtrer les messages basés sur leur contenu. Nous proposons FireSpam, un protocole de dissémination basé sur le "gossip" qui permet de limiter la diffusion des messages de type "spam". FireSpam fonctionne par filtrage décentralisé (chaque noeud participe au filtrage). Par ailleurs, il fonctionne malgré la présence d'une fraction de noeuds malicieux (aussi appelés "Byzantins") et malgré la présence de noeuds dits “rationnels” (aussi appelés "égoïstes"). Ces derniers sont prêts à dévier du protocole s'ils ont un intérêt à le faire. / Peer-to-peer (P2P) systems are very popular today. Their usage goes from instant messaging to file sharing, from distributed backup and storage to even live-video streaming. Among P2P protocols, gossip-based protocols are a family of protocols which have been the object of several research works in the last decade. The reasons behind the interest in gossip-based protocols are that they are considered robust, easy to implement, and that they have interesting scalability properties. They are then appealing candidates for implementing dynamic and large-scale distributed systems. This thesis tackles two problems faced by gossip-based protocols when deployed on a practical scenario as the Internet. The first problem is coping with Network Address Translators (NATs) in the context of gossip-based peer sampling protocols. These protocols make the assumption that, at any moment, each node is able to communicate with any other node of the network. This assumption is false when some nodes use NATs. We present Nylon, a peer sampling protocol which works despite the presence of NATs. Nylon introduces a low overhead to cope with NATs and fairly balances this overhead among nodes using a NAT and those which do not. The second problem that we study is the possibility to limit the dissemination of “spam” messages in gossip-based dissemination protocols. These protocols are in fact ideal vectors to spread spam messages due to the fact that there is no central authority in charge of filtering messages based on their content. We propose FireSpam, a gossip-based dissemination protocol which allows limiting the dissemination of “spam” messages. FireSpam implements a decentralized filtering mechanism (each node participates to the filtering). Moreover, it works despite the presence of a fraction of malicious nodes (also called “Byzantine” nodes) and despite the presence of so called “rational” nodes (also called “selfish” nodes). These latters are willing to deviate from the protocol if they have an interest in doing so.

Page generated in 0.0414 seconds