Global ETD Search

111	Etude et implantation de l'extraction de requêtes fréquentes dans les bases de données multidimensionnelles. Dieng, Cheikh Tidiane 19 July 2011 (has links) (PDF) Au cours de ces dernières années, le problème de la recherche de requêtes fréquentes dans les bases de données est un problème qui a suscité de nombreuses recherches. En effet, beaucoup de motifs intéressants comme les règles d'association, des dépendances fonction- nelles exactes ou approximatives, des dépendances fonctionnelles conditionnelles exactes ou approximatives peuvent être découverts simplement, contrairement au méthodes clas- siques qui requièrent plusieurs transformations de la base pour extraire de tels motifs. Cependant, le problème de la recherche de requêtes fréquentes dans les bases de données relationnelles est un problème difficile car, d'une part l'espace de recherche est très grand (puisque égal à l'ensemble de toutes les requêtes pouvant être posées sur une base de données), et d'autre part, savoir si deux requêtes sont équivalentes (donc engendrant les calculs de support redondants) est un problème NP-Complet. Dans cette thèse, nous portons notre attention sur les requêtes de type Projection- Selection-Jointure (PSJ), et nous supposons que la base de données est définie selon un schéma étoile. Sous ces hypothèses, nous définissons une relation de pré-ordre (≤) entre les requêtes et nous montrons que : 1. La mesure de support est anti-monotone par rapport à ≤, et 2. En définissant, q ≡ q′ si et seulement si q ≤ q′ et q′ ≤ q, alors toutes les requêtes d'une même classe d'équivalence ont même support. Les principales contributions de cette thèse sont, d'une part d'étudier formellement les propriétés du pré-ordre et de la relation d'équivalence ci-dessus, et d'autre part, de pro- poser un algorithme par niveau de type Apriori pour rechercher l'ensemble des requêtes fréquentes d'une base de données définie sur un schéma étoile. De plus, cet algorithme a été implémenté et les expérimentations que nous avons réalisées montrent que, selon notre approche, le temps de calcul des requêtes fréquentes dans une base de données définie sur un schéma étoile reste acceptable, y compris dans le cas de grandes tables de faits. base de données fouilles de données requêtes motifs algorithme par niveau connaissances
112	Gestion de flux de données pour l'observation de systèmes Petit, Loïc 10 December 2012 (has links) (PDF) La popularisation de la technologie a permis d'implanter des dispositifs et des applications de plus en plus développés à la portée d'utilisateurs non experts. Ces systèmes produisent des flux ainsi que des données persistantes dont les schémas et les dynamiques sont hétérogènes. Cette thèse s'intéresse à pouvoir observer les données de ces systèmes pour aider à les comprendre et à les diagnostiquer. Nous proposons tout d'abord un modèle algébrique Astral capable de traiter sans ambiguïtés sémantiques des données provenant de flux ou relations. Le moteur d'exécution Astronef a été développé sur l'architecture à composants orientés services pour permettre une grande adaptabilité. Il est doté d'un constructeur de requête permettant de choisir un plan d'exécution efficace. Son extension Asteroid permet de s'interfacer avec un SGBD pour gérer des données persistantes de manière intégrée. Nos contributions sont confrontées à la pratique par la mise en œuvre d'un système d'observation du réseau domestique ainsi que par l'étude des performances. Enfin, nous nous sommes intéressés à la mise en place de la personnalisation des résultats dans notre système par l'introduction d'un modèle de préférences top-k. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Flux de données Observation Algèbre Optimisation de requête Équivalence de requêtes Base de données
113	Gestion des données distribuées avec le langage de règles: Webdamlog Antoine, Émilien 05 December 2013 (has links) (PDF) Notre but est de permettre à un utilisateur du Web d'organiser la gestion de ses données distribuées en place, c'est à dire sans l'obliger à centraliser ses données chez un unique hôte. Par conséquent, notre système diffère de Facebook et des autres systèmes centralisés, et propose une alternative permettant aux utilisateurs de lancer leurs propres pairs sur leurs machines gérant localement leurs données personnelles et collaborant éventuellement avec des services Web externes. Dans ma thèse, je présente Webdamlog, un langage dérivé de datalog pour la gestion de données et de connaissances distribuées. Le langage étend datalog de plusieurs manières, principalement avec une nouvelle propriété la délégation, autorisant les pairs à échanger non seulement des faits (les données) mais aussi des règles (la connaissance). J'ai ensuite mené une étude utilisateur pour démontrer l'utilisation du langage. Enfin je décris le moteur d'évaluation de Webdamlog qui étend un moteur d'évaluation de datalog distribué nommé Bud, en ajoutant le support de la délégation et d'autres innovations telles que la possibilité d'avoir des variables pour les noms de pairs et des relations. J'aborde de nouvelles techniques d'optimisation, notamment basées sur la provenance des faits et des règles. Je présente des expérimentations qui démontrent que le coût du support des nouvelles propriétés de Webdamlog reste raisonnable même pour de gros volumes de données. Finalement, je présente l'implémentation d'un pair Webdamlog qui fournit l'environnement pour le moteur. En particulier, certains adaptateurs permettant aux pairs Webdamlog d'échanger des données avec d'autres pairs sur Internet. Pour illustrer l'utilisation de ces pairs, j'ai implémenté une application de partage de photos dans un réseau social en Webdamlog. Distribution Datalog Base de connaissances Pair à pair Gestion de données du Web
114	Gestion de données efficace, continue et fiable par coordination de services Vargas-Solar, Genoveva 22 May 2014 (has links) (PDF) The emergence of new architectures like the cloud open new challenges for data management. It is no longer pertinent to reason with respect a to set of computing, storage and memory resources, instead it is necessary to conceive algorithms and processes considering an unlimited set of resources usable via a "pay as U go model", energy consumption or services reputation and provenance models. Instead of designing processes and algorithms considering as threshold the resources availability, the cloud imposes to take into consideration the economic cost of the processes vs. resources use, results presentation through access subscription, and the parallel exploitation of available resources. Our research contributes to the construction of service based data management systems. The objective is to design data management services guided by SLA contracts. We proposed methodologies, algorithms and tools for querying, deploying and executing service coordinations for programming data management functions. These functions, must respect QoS properties (security, reliability, fault tolerance, dynamic evolution and adaptability) and behaviour properties (e.g., transactional execution) adapted to application requirements. Our work proposes models and mechanisms for adding these properties to new service based data management functions. services bases de données optimisation de requêtes cloud stockage service level agreement big data
115	Médiation et sélection de sources de données pour des organisations virtuelles distribuées à grande échelle Pomares, Alexandra 26 July 2010 (has links) (PDF) La sélection de sources de données est un des processus des plus critiques pour les systèmes de médiation dans des contextes grande échelle. C'est le cas notamment des grandes organisations virtuelles où le grand nombre de sources de données, la distribution, l'hétérogénéité, la fragmentation et la duplication des données rendent difficile l'identification des sources pertinentes à l'évaluation d'une requête. Cette thèse aborde cette problématique et propose OptiSource, une stratégie de sélection de sources de données créée pour des tels contextes. OptiSource est particulièrement performante dans des configurations où un grand nombre de sources sont susceptibles de contribuer à une requête selon leur niveau intentionnel (schéma), mais seulement un petit nombre d'entre elles peuvent effectivement le faire au niveau extensionnel (le contenu). OptiSource propose un processus itératif basé sur la sélection des sources de données dominantes pour chaque condition de la requête. Les sources dominantes sont désignées selon leur contribution attendue. Cette estimation utilise un modèle qui priorise les sources en fonction du rôle qu'elles peuvent jouer dans la requête, et optimise la répartition des sous-requêtes en utilisant un modèle d'optimisation combinatoire. OptiSource fait partie d'un système de médiation créé pour organisations virtuelles qui peut choisir dynamiquement la stratégie de sélection de sources la plus approprié au contexte. Notre domaine d'application privilégié a été le médical. Nous avons validé nos propositions sur divers types de contextes de grande taille. Médiation sélection de sources de données organisations virtuelles sources de données distribuées
116	Méta-analyses des caractéristiques musculaires afin de prédire la tendreté de la viande bovine Chriki, Sghaïer 29 January 2013 (has links) (PDF) Un des enjeux de la filière bovine est la maîtrise et la prédiction de la tendreté de la viande, critère important pour les consommateurs. Inscrite dans le programme européen ProSafeBeef, ma thèse avait pour objectif de mieux prédire la tendreté par méta-analyse à partir des caractéristiques biochimiques du muscle. Pour cela, mon travail de thèse s'est appuyé sur la base de données BIF-Beef regroupant des données individuelles issues de plusieurs programmes de recherche, allant de l'animal à la viande en passant par la carcasse et le muscle. Une première méta-analyse a montré que le muscle Semitendinosus (ST) est de type plus rapide glycolytique que le Longissimus thoracis (LT) chez les mâles entiers et les femelles mais pas chez les mâles castrés. Après avoir identifié par une approche par classe de tendreté les caractéristiques musculaires associées à la tendreté, nous avons montré que ces caractéristiques sont différentes entre muscles et types d'animaux. Dans le muscle LT des taurillons, la surface moyenne des fibres musculaires est la variable qui joue le principal rôle sur la tendreté sensorielle où elle explique 2% de la variabilité des notes de tendreté. Principalement dans le muscle ST, les teneurs en collagène total et insoluble et l'activité enzymatique du métabolisme glycolytique expliquent au plus 6% chacun de la variabilité de la force de cisaillement. Malgré ces faibles parts de variabilité expliquée de la tendreté, ces conclusions validées sur un grand volume de données sont importantes pour préparer de nouveaux projets visant à compléter cette démarche en prenant en compte d'autres caractéristiques telles que des biomarqueurs génomiques. Méta-analyse Base de données Tendreté Caractéristiques musculaires
117	Personnalisation d'analyses décisionnelles sur des données multidimensionnelles Jerbi, Houssem 20 January 2012 (has links) (PDF) Le travail présenté dans cette thèse aborde la problématique de la personnalisation des analyses OLAP au sein des bases de données multidimensionnelles. Une analyse OLAP est modélisée par un graphe dont les noeuds représentent les contextes d'analyse et les arcs traduisent les opérations de l'utilisateur. Le contexte d'analyse regroupe la requête et le résultat. Il est décrit par un arbre spécifique qui est indépendant des structures de visualisation des données et des langages de requête. Par ailleurs, nous proposons un modèle de préférences utilisateur exprimées sur le schéma multidimensionnel et sur les valeurs. Chaque préférence est associée à un contexte d'analyse particulier. En nous basant sur ces modèles, nous proposons un cadre générique comportant deux mécanismes de personnalisation. Le premier mécanisme est la personnalisation de requête. Il permet d'enrichir la requête utilisateur à l'aide des préférences correspondantes afin de générer un résultat qui satisfait au mieux aux besoins de l'usager. Le deuxième mécanisme de personnalisation est la recommandation de requêtes qui permet d'assister l'utilisateur tout au long de son exploration des données OLAP. Trois scénarios de recommandation sont définis : l'assistance à la formulation de requête, la proposition de la prochaine requête et la suggestion de requêtes alternatives. Ces recommandations sont construites progressivement à l'aide des préférences de l'utilisateur. Afin valider nos différentes contributions, nous avons développé un prototype qui intègre les mécanismes de personnalisation et de recommandation de requête proposés. Nous présentons les résultats d'expérimentations montrant la performance et l'efficacité de nos approches. Mots-clés: OLAP, analyse décisionnelle, personnalisation de requête, système de recommandation, préférence utilisateur, contexte d'analyse, appariement d'arbres de contexte. OLAP analyse décisionnelle personnalisation de requête recommandation de requête préférence utilisateur contexte d'analyse
118	Une approche pour l'optimisation des opérations de soudage à l'arc Chapuis, Julien 09 March 2011 (has links) (PDF) Les mécanismes dynamiques et de transport mis en jeu dans le plasma d'arc et le bain de fusion d'une opération de soudage à l'arc sont nombreux et fortement couplés. Ils produisent un milieu dont les grandeurs présentent des variations temporelles rapides et des gradients très marqués qui rendent toute analyse expérimentale complexe dans cet environnement fortement perturbé. Dans ce travail, on s'intéresse aux procédés TIG et MIG. Une plateforme expérimentale a été développée pour permettre la mesure synchronisée de différentes grandeurs physiques associées au soudage (paramètres procédé, températures, efforts de bridages, transferts métalliques, etc.). Des librairies numériques dédiées aux études appliquées au soudage à l'arc sont également développées. Elles permettent le traitement de flux important de données (signaux, images) de manière systématique et globalisée. L'intérêt de cette approche pour l'enrichissement de la simulation numérique et le contrôle des procédés à l'arc est illustré dans différentes situations. Enfin, cette approche expérimentale est utilisée, dans le cadre de l'application choisie, pour obtenir des mesures suffisamment riches pour décrire le comportement dynamique du bain de fusion en P-GMAW. Une analyse dimensionnelle de ces mesures expérimentales permet d'identifier les mécanismes prépondérants qui interviennent et de déterminer expérimentalement les temps caractéristiques associés. Ce type d'approche permet notamment de mieux décrire le comportement d'une macro-goutte de métal fondu ou les phénomènes intervenant dans les problèmes de humping. expérimentation multiphysique modélisation mouillage humping contrôle base de données soudage GMAW-GTAW
119	Une Approche Algébrique pour les Workflows Scientifiques Orientés-Données Ogasawara, Eduardo 19 December 2011 (has links) (PDF) Os workflows científicos emergiram como uma abstração básica para estruturar experimentos científicos baseados em simulações computacionais. Em muitas situações, estes workflows são intensivos, seja computacionalmente seja quanto em relação à manipulação de dados, exigindo a execução em ambientes de processamento de alto desempenho. Entretanto, paralelizar a execução de workflows científicos requer programação trabalhosa, de modo ad hoc e em baixo nível de abstração, o que torna difícil a exploração das oportunidades de otimização. Visando a abordar o problema de otimizar a execução paralela de workflows científicos, esta tese propõe uma abordagem algébrica para especificar o workflow, bem como um modelo de execução que, juntos, possibilitam a otimização automática da execução paralela de workflows científicos. A tese apresenta uma avaliação ampla da abordagem usando tanto experimentos reais quanto dados sintéticos. Os experimentos foram avaliados no Chiron, um motor de execução de workflows desenvolvido para apoiar a execução paralela de workflows científicos. Os experimentos apresentaram resultados excelentes de paralelização na execução de workflows e evidenciaram, com a abordagem algébrica, diversas possibilidades de otimização de desempenho quando comparados a execuções paralelas de workflow de modo ad hoc. algèbre de workflows parallélisation optimisation exécution parallèle HPC cluster
120	Une approche déclarative pour la modélisation et la résolution du problème de la sélection de vues à matérialiser Mami, Imene 15 November 2012 (has links) (PDF) La matérialisation de vues est une technique très utilisée dans les systèmes de gestion de bases de données ainsi que dans les entrepôts de données pour améliorer les performances des requêtes. Elle permet de réduire de manière considérable le temps de réponse des requêtes en pré-calculant des requêtes coûteuses et en stockant leurs résultats. De ce fait, l'exécution de certaines requêtes nécessite seulement un accès aux vues matérialisées au lieu des données sources. En contrepartie, la matérialisation entraîne un surcoût de maintenance des vues. En effet, les vues matérialisées doivent être mises à jour lorsque les données sources changent a fin de conserver la cohérence et l'intégrité des données. De plus, chaque vue matérialisée nécessite également un espace de stockage supplémentaire qui doit être pris en compte au moment de la sélection. Le problème de choisir quelles sont les vues à matérialiser de manière à réduire les coûts de traitement des requêtes étant donné certaines contraintes tel que l'espace de stockage et le coût de maintenance, est connu dans la littérature sous le nom du problème de la sélection de vues. Trouver la solution optimale satisfaisant toutes les contraintes est un problème NP-complet. Dans un contexte distribué constitué d'un ensemble de nœuds ayant des contraintes de ressources différentes (CPU, IO, capacité de l'espace de stockage, bande passante réseau, etc.), le problème de la sélection de vues est celui de choisir un ensemble de vues à matérialiser ainsi que les nœuds du réseau sur lesquels celles-ci doivent être matérialisées de manière à optimiser les coût de maintenance et de traitement des requêtes. Notre étude traite le problème de la sélection de vues dans un environnement centralisé ainsi que dans un contexte distribué. Notre objectif est de fournir une approche efficace dans ces contextes. Ainsi, nous proposons une solution basée sur la programmation par contraintes, connue pour être efficace dans la résolution des problèmes NP-complets et une méthode puissante pour la modélisation et la résolution des problèmes d'optimisation combinatoire. L'originalité de notre approche est qu'elle permet une séparation claire entre la formulation et la résolution du problème. A cet effet , le problème de la sélection de vues est modélisé comme un problème de satisfaction de contraintes de manière simple et déclarative. Puis, sa résolution est effectuée automatiquement par le solveur de contraintes. De plus, notre approche est flexible et extensible, en ce sens que nous pouvons facilement modéliser et gérer de nouvelles contraintes et mettre au point des heuristiques pour un objectif d'optimisation. Les principales contributions de cette thèse sont les suivantes. Tout d'abord, nous dé finissons un cadre qui permet d'avoir une meilleure compréhension des problèmes que nous abordons dans cette thèse. Nous analysons également l'état de l'art des méthodes de sélection des vues à matérialiser en en identifiant leurs points forts ainsi que leurs limites. Ensuite, nous proposons une solution utilisant la programmation par contraintes pour résoudre le problème de la sélection de vues dans un contexte centralisé. Nos résultats expérimentaux montrent notre approche fournit de bonnes performances. Elle permet en effet d'avoir le meilleur compromis entre le temps de calcul nécessaire pour la sélection des vues à matérialiser et le gain de temps de traitement des requêtes à réaliser en matérialisant ces vues. Enfin, nous étendons notre approche pour résoudre le problème de la sélection de vues à matérialiser lorsque celui-ci est étudié sous contraintes de ressources multiples dans un contexte distribué. A l'aide d'une évaluation de performances extensive, nous montrons que notre approche fournit des résultats de qualité et fi ables. vues matérialisées optimisation de requêtes sélection de vues maintenance de vues programmation par contraintes

Search results