• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2049
  • 978
  • 292
  • 8
  • 3
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 3291
  • 1475
  • 668
  • 664
  • 573
  • 554
  • 372
  • 319
  • 293
  • 275
  • 275
  • 248
  • 223
  • 214
  • 213
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
281

Modélisation et exécution des applications d'analyse de données multi-dimentionnelles sur architectures distribuées.

Pan, Jie 13 December 2010 (has links) (PDF)
Des quantités de données colossalles sont générées quotidiennement. Traiter de grands volumes de données devient alors un véritable challenge pour les logiciels d'analyse des données multidimensionnelles. De plus, le temps de réponse exigé par les utilisateurs de ces logiciels devient de plus en plus court, voire intéractif. Pour répondre à cette demande, une approche basée sur le calcul parallèle est une solution. Les approches traditionnelles reposent sur des architectures performantes, mais coûteuses, comme les super-calculateurs. D'autres architectures à faible coût sont également disponibles, mais les méthodes développées sur ces architectures sont souvent bien moins efficaces. Dans cette thèse, nous utilisons un modèle de programmation parallèle issu du Cloud Computing, dénommé MapReduce, pour paralléliser le traitement des requêtes d'analyse de données multidimensionnelles afin de bénéficier de mécanismes de bonne scalabilité et de tolérance aux pannes. Dans ce travail, nous repensons les techniques existantes pour optimiser le traitement de requête d'analyse de données multidimensionnelles, y compris les étapes de pré-calcul, d'indexation, et de partitionnement de données. Nous avons aussi résumé le parallélisme de traitement de requêtes. Ensuite, nous avons étudié le modèle MapReduce en détail. Nous commençons par présenter le principe de MapReduce et celles du modèle étendu, MapCombineReduce. En particulier, nous analysons le coût de communication pour la procédure de MapReduce. Après avoir présenté le stockage de données qui fonctionne avec MapReduce, nous présentons les caractéristiques des applications de gestion de données appropriées pour le Cloud Computing et l'utilisation de MapReduce pour les applications d'analyse de données dans les travaux existants. Ensuite, nous nous concentrons sur la parallélisation des Multiple Group-by query, une requête typique utilisée dans l'exploration de données multidimensionnelles. Nous présentons la mise en oeuvre de l'implémentation initiale basée sur MapReduce et une optimisation basée sur MapCombineReduce. Selon les résultats expérimentaux, notre version optimisée montre un meilleur speed-up et une meilleure scalabilité que la version initiale. Nous donnons également une estimation formelle du temps d'exécution pour les deux implémentations. Afin d'optimiser davantage le traitement du Multiple Group-by query, une phase de restructuration de données est proposée pour optimiser les jobs individuels. Nous re-definissons l'organisation du stockage des données, et nous appliquons les techniques suivantes, le partitionnement des données, l'indexation inversée et la compression des données, au cours de la phase de restructuration des données. Nous redéfinissons les calculs effectués dans MapReduce et dans l'ordonnancement des tâches en utilisant cette nouvelle structure de données. En nous basant sur la mesure du temps d'exécution, nous pouvons donner une estimation formelle et ainsi déterminer les facteurs qui impactent les performances, telles que la sélectivité de requête, le nombre de mappers lancés sur un noeud, la distribution des données " hitting ", la taille des résultats intermédiaires, les algorithmes de sérialisation adoptée, l'état du réseau, le fait d'utiliser ou non le combiner, ainsi que les méthodes adoptées pour le partitionnement de données. Nous donnons un modèle d'estimation des temps d'exécution et en particulier l'estimation des valeurs des paramètres différents pour les exécutions utilisant le partitionnement horizontal. Afin de soutenir la valeur-unique-wise-ordonnancement, qui est plus flexible, nous concevons une nouvelle structure de données compressées, qui fonctionne avec un partitionnement vertical. Cette approche permet l'agrégation sur une certaine valeur dans un processus continu.
282

Modélisation de services et de workflows sémantiques à base d'ontologies de services et d'indexations. Application à la modélisation géologique.

Belaid, Nabil 23 May 2011 (has links) (PDF)
Les services informatiques, et particulièrement les services sur le Web, permettent le traitement ou l'échange d'informations. Leur composition ainsi que la construction de workflows à partir de services permettent la réalisation de tâches complexes. Toutefois, seules des informations utiles à leur gestion informatique (stockage, exécution, etc.) sont spécifiées dans les langages de description de services ou de compositions de services tels que WSDL, BPEL ou XPDL. Ces descriptions, essentiellement syntaxiques, ne sont pas suffisamment riches pour permettre une gestion complexe supportant la découverte, l'interopérabilité ou l'adaptativité de services au niveau sémantique. En effet, ces descriptions ne permettent pas de lier explicitement les services informatiques et les compositions qu'elles définissent aux fonctions et aux processus implémentés ainsi qu'aux concepts manipulés. Dans les domaines de l'ingénierie par exemple, l'activité de composition de services informatiques reste traditionnellement à la charge des ingénieurs. L'absence de sémantique explicite rend les services et workflows informatiques difficilement compréhensibles, réutilisables et composables pour les ingénieurs du domaine d'intérêt qui n'ont pas contribué à leur conception et ayant des connaissances techniques et informatiques en général limitées. Ces ingénieurs restent ainsi dépendants des développeurs de logiciels pour l'utilisation ou la composition de services informatiques. Pour apporter une solution aux problèmes évoqués, de récentes approches ont été proposées. Cependant, leurs mécanismes d'enrichissement sémantique ne séparent pas la partie syntaxique, utile au stockage ou à l'exécution, de la partie sémantique, utile à la découverte ou à la composition. En outre, ces mécanismes ne fournissent aucune classification hiérarchique ou relationnelle selon la sémantique des services informatiques. Pour remédier à ces limitations, nous proposons une approche basée sur la définition d'ontologies de services (conceptualisations partagées) et d'indexations sémantiques. Notre proposition s'appuie sur une architecture de persistance centrée autour des bases de données à base ontologique pour stocker et indexer les différents services ainsi que leurs compositions. La mise en oeuvre de notre approche consiste en un prototype logiciel implantant les concepts de service et de workflow sémantiques permettant de stocker, de rechercher, de remplacer, de réutiliser les services et les workflows informatiques existants et d'en construire de nouveaux de manière incrémentale. Ces travaux sont validés en étant appliqués au domaine de la modélisation géologique et de l'ingénierie pétrolière et plus particulièrement à l'interprétation sismique.
283

Résumé de flux de données ditribués

Chiky, Raja 23 January 2009 (has links) (PDF)
Ces dernières années, sont apparues de nombreuses applications, utilisant des données en nombre potentiellement illimité, provenant de façon continue de capteurs distribués afin d'alimenter un serveur central. Les données sont utilisées à des fins de surveillance, de supervision, de déclenchement d'alarmes en temps réel, ou plus généralement à la production de synthèses d'aide à la décision à partir de plusieurs flux. Le volume des données collectées est généralement trop grand pour être entièrement stocké. Les systèmes de gestion de flux de données (SGFD) permettent de gérer facilement, et de façon générique les flux de données : les données sont traitées au fil de l'eau sans les archiver. Toutefois, dans certaines applications, on ne souhaite pas perdre complètement l'ensemble des flux de données afin de pouvoir analyser les données du passé et du présent. Il faut donc prévoir un stockage de l'historique du flux. Nous considérons dans cette thèse, un environnement distribué décrit par une collection de plusieurs capteurs distants qui envoient des flux de données numériques et unidimensionnelles à un serveur central unique. Ce dernier a un espace de stockage limité mais doit calculer des agrégats, comme des sommes ou des moyennes, à partir des données de tout sous-ensemble de capteurs et sur un large horizon temporel. Deux approches sont étudiées pour construire l'historique des flux de données :(1) Echantillonnage spatial en ne considérant qu'un échantillon aléatoire des sources qu'on observe dans le temps ; (2) Echantillonnage temporel en considérant toutes les sources mais en échantillonnant les instants observés de chaque capteur. Nous proposons une méthode générique et optimisée de construction de résumés à partir de flux de données distribués : A partir des flux de données observés à une période de temps t -1, nous déterminons un modèle de collecte de données à appliquer aux capteurs de la période t. Le calcul des agrégats se base sur l'inférence tatistique dans le cas de l'échantillonnage spatial et sur l'interpolation dans le cas de l'échantillonnage temporel. A notre connaissance, il n'existe pas de méthodes d'interpolation qui estiment les erreurs à tout instant et qui prennent en compte le flux de données ou courbe à interpoler et son intégrale. Nous proposons donc deux approches : la première se base sur le passé des courbes pour l'interpolation (approche naive) ; et la seconde utilise à un processus stochastique pour modéliser l'évolution des courbes (approche stochastique).
284

Géostatistique et assimilation séquentielle de données

Wackernagel, Hans 25 May 2004 (has links) (PDF)
La géostatistique spatio-temporelle traditionnelle n'est pas en mesure de décrire adéquatement la dynamique, en général fortement non-linéaire, de processus spatio-temporels multivariables. Pour cela des modèles de transport physico-chimiques sont en général bien mieux adaptés. Cependant, étant donné que ces derniers ne maîtrisent pas totalement la complexité des processus qu'ils cherchent à décrire, soit parce qu'ils sont basés sur des hypothèses simplificatrices, soit parce que l'information servant à établir les conditions initiales et aux limites est imparfaite, il est opportun d'introduire des techniques statistiques servant à les guider pour assimiler un flot de mesures émanant de capteurs automatiques. Des projets récents au Centre de Géostatistique de l'Ecole des Mines de Paris ont permis d'explorer l'application de ces techniques dans le domaine de l'océanographie et en pollution de l'air. Il s'est très vite avéré que la géostatistique offrait des concepts et des approches qui pouvaient contribuer à enrichir les techniques d'Assimilation Séquentielle de Données. La thèse de Laurent Bertino et des publications ultérieures ont permis de développer cette thématique porteuse, dont la présente synthèse établit un compte-rendu.
285

Fusion de données et modélisation de l'environnement

Ranchin, Thierry 07 December 2005 (has links) (PDF)
Les travaux effectués dans le cadre de mes activités de recherche et d'enseignements au sein du Centre Energétique et Procédés de l'Ecole des Mines de Paris concernent la description et la compréhension des problématiques liées à l'environnement dans le cadre du protocole de Kyoto. Dans ce cadre, les satellites d'observation de la Terre sont un formidable outil d'investigation. Ils permettent notamment une perception des phénomènes physiques au travers des structures dans l'espace et leur évolution dans le temps. Mes travaux exploitent les observations et mesures satellitaires (images, profils). Ils s'appuient sur la modélisation des structures observées dans l'environnement et sur la fusion de données. Pour cette dernière, j'ai adopté la définition proposée par le groupe de travail de l'association EARSeL (European Association of Remote Sensing Laboratories) : "la fusion de données constitue un cadre formel dans lequel s'expriment les moyens et techniques permettant l'alliance des données provenant de sources diverses. Elle vise à obtenir des informations de meilleure qualité ; la définition de meilleure qualité dépendant de l'application". Elle vise donc à tirer le meilleur parti possible de l'ensemble des observations et informations disponibles sur notre environnement.
286

Recherche et filtrage d'information multimédia (texte, structure et séquence) dans des collections de documents XML hétérogènes

Popovici, Eugen 10 January 2008 (has links) (PDF)
Les documents numériques sont aujourd'hui des données complexes qui intègrent d'une manière hétérogène des informations textuelles, structurelles, multimédia ainsi que des méta-données. Le langage de balisage générique XML s'est progressivement imposé comme support privilégié non seulement pour l'échange des données mais aussi pour leur stockage. La gestion des documents stockés sous les formats XML nécessite le développement de méthodes et d'outils spécifiques pour l'indexation, la recherche, le filtrage et la fouille des données. En particulier, les fonctions de recherche et de filtrage doivent prendre en compte des requêtes disposant de connaissances incomplètes, imprécises, parfois même erronées sur la structure ou le contenu des documents XML. Ces fonctions doivent par ailleurs maintenir une complexité algorithmique compatible avec la complexité des données et surtout avec leur volume toujours en forte croissance, ceci pour assurer le passage à l'échelle des solutions informatiques. Dans cette thèse, nous étudions des méthodes et développons des outils pour indexer et rechercher des informations multimédia hétérogènes stockées dans des banques de documents XML. Plus précisément, nous abordons la question de la recherche par similarité sur des données composites décrites par des éléments structurels, textuels et séquentiels. En s'appuyant sur la partie structurelle des documents XML, nous avons défini un modèle de représentation, d'indexation et d'interrogation flexible pour des types hétérogènes de données séquentielles. Les principes que nous développons mettent en oeuvre des mécanismes de recherche qui exploitent simultanément les éléments des structures documentaires indexées et les contenus documentaires non structurés. Nous évaluons également l'impact sur la pertinence des résultats retournés par l'introduction de mécanismes d'alignement approximatif des éléments structurels. Nous proposons des algorithmes capables de détecter et de suggérer les « meilleurs points d'entrée » pour accéder directement à l'information recherchée dans un document XML. Finalement, nous étudions l'exploitation d'une architecture matérielle dédiée pour accélérer les traitements les plus coûteux du point de vue de la complexité de notre application de recherche d'information structurée. v
287

Etude du comportement humain grâce à la simulation multi-agents et aux méthodes de fouille de données temporelles

Daviet, Stephane 13 March 2009 (has links) (PDF)
Les outils de simulation ont déjà été éprouvés pour l'étude de nombreux phénomènes, mais simuler le comportement humain reste un défi à la fois pour l'informatique et les sciences humaines. Dans ce contexte, nous avons travaillé sur la simulation des comportements individuels et des interactions sociales dans les groupes d'individus pour observer l'émergence de phénomènes sociaux. À cette fin, nous avons mener un travail inter-disciplinaire mêlant des techniques d'intelligence artificielle, de systèmes multi-agents, de sciences humaines et de fouille de données spatio-temporelles. Cette thèse présente un nouveau modèle d'agent émotionnel : l'agent EFT (Emotion, Feeling, Temperament). Basée sur une architecture BDI, notre modèle intègre le modèle émotionnel OCC et le modèle comportemental PerformanSe. Nous présentons également une implémentation concrète de notre modèle : la simulation de personnes cérébrolésés sur une chaîne de conditionnement. Nous décrivons la modélisation des interactions de notre système grâce à AgentUML. Via des méthodes de fouille de données spatio-temporel, nous extrayons les informations pertinentes à partir des données issues de la simulation.
288

Mesures de qualité des règles d'association : normalisation et caractérisation des bases

Feno, Daniel Rajaonasy 01 December 2007 (has links) (PDF)
Les règles d'association révèlent des régularités non triviales et potentiellement utiles pour l'aide a la décision, dans les bases de données. Leur validité est évaluée par le biais de mesures de qualités dont les plus utilisées sont le support et la confiance. Pour une base de données transactionnelles d'un supermarché, elles sont du type "90% des clients ayant acheté du vin et du fromage ont également acheté du pain, sachant que 75% des clients ont acheté ces articles". Dans ce travail, nous spécifions une classe de mesures de qualité normalisées en ce sens qu'elles reflètent les situations de référence comme l'incompatibilité, la dépendance négative, l'indépendance, la dépendance positive, et l'implication logique entre la prémisse et le conséquent. Nous caractérisons les mesures de qualité normalisables, donnons les formules de normalisation et montrons que la plupart de celles qui sont normalisables ont la même normalisée, à savoir la mesure de qualité Mgk introduite dans Guillaume (2000). De plus, nous caractérisons des bases pour les règles positives et les règles négatives valides au sens de Mgk, et proposons des algorithmes de génération de ces bases
289

Modélisation des ceintures de radiations de Saturne

Lorenzato, Lise 24 September 2012 (has links) (PDF)
Les ceintures de radiations provoquent des dégâts irréversibles sur les satellites les traversant, détériorant ainsi les instruments de mesures embarqués. Les étudier est utile au développement de matériaux adaptés et résistants. Depuis les années 90, l'ONERA-DESP étudie les ceintures de radiations des planètes magnétisées, telle que la Terre ou Jupiter, grâce au modèle Salammbô. Salammbô prend en compte les processus physiques de l'environnement radiatif pour recréer les populations d'électrons peuplant les ceintures. Dans cette étude, il s'agit de développer un modèle des ceintures de radiations internes de Saturne, basé sur les travaux précédents. Avant les années 2000, Pioneer 11 et Voyager 2 ne permettaient pas un développement suffisamment avancé d'un modèle de ceintures de radiations de Saturne. La mission Cassini apporte ensuite quantités d'observations et de données pour mener une étude plus approfondie de ces ceintures. Cette thèse débute par l'analyse de la magnétosphère interne de Saturne : anneaux, satellites, nuage de neutres... L'interaction des particules des ceintures de radiations avec ces différents paramètres se traduit par le calcul de coefficients de diffusion. Ces coefficients sont intégrés à l'équation de transport et permettent de comprendre les mécanismes perturbant la distribution des électrons au sein des ceintures de radiation. Les résultats obtenus sont comparés aux mesures faites par les sondes Pioneer 11, Voyager 2 et Cassini.
290

Partage de données biomédicales : modèles, sémantique et qualité

Choquet, Rémy 16 December 2011 (has links) (PDF)
Le volume de données disponibles dans les systèmes d'information est de plus en plus important et pour autant, nous n'avons jamais autant essayer d'interconnecter cette information pour en extraire de la connaissance sans véritable succès généralisable. L'origine du problème est multiple. Tout d'abord, l'information est représentée dans des structures différentes. Ensuite, les vocabulaires utilisés pour exprimer les données sont hétérogènes. Enfin, la qualité de l'information est souvent trop mauvaise pour utiliser une information et en déduire des connaissances. Ce diagnostic est d'autant plus vrai dans le cadre du partage d'information dans le domaine biomédical où il reste difficile de s'entendre sur des représentations (structures et vocabulaires) pivots d'un domaine de la médecine, et donc où il apparaît difficile de résoudre le problème du partage d'information par l'imposition de standard de codage et de structuration de l'information. Plus récemment, l'introduction de la sémantique dans des processus de partage d'information, nous offre la possibilité de mettre en oeuvre des représentations pivots indépendantes de la structuration ou du nommage d'une donnée. Cette thèse s'inscrit dans cette problématique de partage de données biomédicales dans le cadre de l'évaluation de l'évolution de la résistance des bactéries aux antibiotiques en Europe. L'hypothèse générale de travail que nous proposons est la suivante: comment partager de l'information biomédicale de manière non ambigüe, en temps réel, et à la demande en Europe. Cette hypothèse pose diverses problématiques que nous abordons dans ce mémoire. La problématique de la qualité des données. Celle de la représentation des données à travers leur structure, leur vocabulaire et de leur sémantique. Nous aborderons aussi les problèmes d'alignement de données aux ontologies de domaine et de la fédération de données aidée d'ontologie. Enfin, nous présenterons un système d'interopérabilité sémantique basé sur des règles qui aborde le problème d'alignement sémantique de systèmes hétérogènes appliqué à notre domaine. Nous discuterons finalement de l'apport de la sémantique pour le partage d'information et des limites des outils et méthodes actuels.

Page generated in 0.0247 seconds