Global ETD Search

1	Approche dirigée par les modèles pour l'implantation de bases de données massives sur des SGBD NoSQL Ait Brahim, Amal 31 October 2018 (has links) La transformation digitale des entreprises et plus largement celle de la société, entraine une évolution des bases de données (BD) relationnelles vers les BD massives. Dans les systèmes informatiques décisionnels actuels, les décideurs doivent pouvoir constituer des bases de données, les réorganiser puis en extraire l’information pertinente pour la prise de décision. Ces systèmes sont donc naturellement impactés par cette évolution où les données sont généralement stockées sur des systèmes NoSQL capables de gérer le volume, la variété et la vélocité. Nos travaux s’inscrivent dans cette mutation ; ils concernent plus particulièrement les mécanismes d’implantation d’une BD massive sur un SGBDNoSQL. Le point de départ du processus d’implantation est constitué d’un modèle contenant la description conceptuelle des données et des contraintes d’intégrité associées.Peu de travaux ont apporté des solutions automatiques complètes portant à la fois sur les structures de données et les contraintes d’intégrité. L’objectif de cette thèse est de proposer une démarche générale qui guide et facilite la tâche de transformation d’un modèle conceptuel en un modèle d’implantation NoSQL. Pour ceci, nous utilisons l’architecture MDA qui est une norme du consortium OMG pour le développement dirigé par les modèles.A partir d'un modèle conceptuel exprimé à l'aide du formalisme UML, notre démarche MDA applique deux processus unifiés pour générer un modèle d’implantation sur une plateforme NoSQL choisie par l’utilisateur : - Le processus de transformation d’un DCL, - Le processus de transformation des contraintes associées, Nos deux processus s’appuient sur :- Trois niveaux de modélisation : conceptuel, logique et physique, où le modèle logique correspond à une représentation générique compatible avec les quatre types de SGBD NoSQL : colonnes, documents, graphes et clé-valeur, - Des métamodèles permettant de vérifier la validité des modèles à chaque niveau, - Des normes de l’OMG pour formaliser l’entrée du processus et l’ensemble des règles de transformation. Afin de vérifier la faisabilité de notre solution, nous avons développé un prototype composé de deux modules. Le premier applique un ensemble de règles de transformation sur un modèle conceptuel et restitue un modèle NoSQL associé à un ensemble de directives d’assistance. Le second module complète le premier en intégrant les contraintes qui ne sont pas prises en compte dans le modèle physique généré. Nous avons montré également la pertinence de nos propositions grâce à une évaluation réalisée par des ingénieurs d’une société spécialisée dans le décisionnel. / Le résumé en anglais n'a pas été communiqué par l'auteur. Bases de données massives
2	A spectroscopic survey of the WNL stars in the large magellanic cloud : general properties and binary status Schnurr, Olivier January 2007 (has links) No description available. Étoiles Étoiles massives Étoiles Wolf-Rayet Évolution Étoiles individuelles R145
3	Techniques d'optimisation non convexe basée sur la programmation DC et DCA et méthodes évolutives pour la classification non supervisée / Non convex optimization techniques based on DC programming and DCA and evolution methods for clustering Ta, Minh Thuy 04 July 2014 (has links) Nous nous intéressons particulièrement, dans cette thèse, à quatre problèmes en apprentissage et fouille de données : clustering pour les données évolutives, clustering pour les données massives, clustering avec pondération de variables et enfin le clustering sans connaissance a priori du nombre de clusters avec initialisation optimale des centres de clusters. Les méthodes que nous décrivons se basent sur des approches d’optimisation déterministe, à savoir la programmation DC (Difference of Convex functions) et DCA (Difference of Convex Algorithms), pour la résolution de problèmes de clustering cités précédemment, ainsi que des approches évolutionnaires élitistes. Nous adaptons l’algorithme de clustering DCA–MSSC pour le traitement de données évolutives par fenêtres, en appréhendant les données évolutives avec deux modèles : fenêtres fixes et fenêtres glissantes. Pour le problème du clustering de données massives, nous utilisons l’algorithme DCA en deux phases. Dans la première phase, les données massives sont divisées en plusieurs sous-ensembles, sur lesquelles nous appliquons l’algorithme DCA–MSSC pour effectuer un clustering. Dans la deuxième phase, nous proposons un algorithme DCA-Weight pour effectuer un clustering pondéré sur l’ensemble des centres obtenues à la première phase. Concernant le clustering avec pondération de variables, nous proposons également deux approches: clustering dur avec pondération de variables et clustering floue avec pondération de variables. Nous testons notre approche sur un problème de segmentation d’image. Le dernier problème abordé dans cette thèse est le clustering sans connaissance a priori du nombre des clusters. Nous proposons pour cela une approche évolutionnaire élitiste. Le principe consiste à utiliser plusieurs algorithmes évolutionnaires (EAs) en même temps, de les faire concourir afin d’obtenir la meilleure combinaison de centres initiaux pour le clustering et par la même occasion le nombre optimal de clusters. Les différents tests réalisés sur plusieurs ensembles de données de grande taille sont très prometteurs et montrent l’efficacité des approches proposées / This thesis focus on four problems in data mining and machine learning: clustering data streams, clustering massive data sets, weighted hard and fuzzy clustering and finally the clustering without a prior knowledge of the clusters number. Our methods are based on deterministic optimization approaches, namely the DC (Difference of Convex functions) programming and DCA (Difference of Convex Algorithm) for solving some classes of clustering problems cited before. Our methods are also, based on elitist evolutionary approaches. We adapt the clustering algorithm DCA–MSSC to deal with data streams using two windows models: sub–windows and sliding windows. For the problem of clustering massive data sets, we propose to use the DCA algorithm with two phases. In the first phase, massive data is divided into several subsets, on which the algorithm DCA–MSSC performs clustering. In the second phase, we propose a DCA–Weight algorithm to perform a weighted clustering on the obtained centers in the first phase. For the weighted clustering, we also propose two approaches: weighted hard clustering and weighted fuzzy clustering. We test our approach on image segmentation application. The final issue addressed in this thesis is the clustering without a prior knowledge of the clusters number. We propose an elitist evolutionary approach, where we apply several evolutionary algorithms (EAs) at the same time, to find the optimal combination of initial clusters seed and in the same time the optimal clusters number. The various tests performed on several sets of large data are very promising and demonstrate the effectiveness of the proposed approaches. Apprentissage Fouille de données Clustering Données évolutives Données massives Pondération de variables Optimisation 006.312
4	Conditions initiales de la formation des étoiles massives : Astrochimie de la protoétoile CygX-N63 / Initial conditions of massive star formation : astrochemistry of the protostar CygX-N63 Fechtenbaum, Sarah 05 November 2015 (has links) La naissance des étoiles massives est aujourd’hui encore mal comprise. En particulier, les conditions initiales de leur formation restent largement inconnues. Pour éclairer cette question, nous avons réalisé un relevé spectral complet non biaisé avec le télescope 30 m de l’IRAM vers la protoétoile massive CygX-N63 (M ~ 58 M◦ et L~ 340 L◦). Nous avons mis en évidence une complexité moléculaire significative avec plus de 40 espèces. L’ion CF+ est observé pour la première fois dans une protoétoile. Une possible première détection de l’espèce prébiotique CH2NH dans une protoétoile est aussi proposée, ainsi qu’une première détection de DOCO+. Cette étude spectroscopique, accompagnée d’observations interférométriques avec le Plateau de Bure, permet de séparer la contribution des différentes régions : enveloppe froide, région tiède, région de type hot core et flot bipolaire. L’enveloppe est constituée d’une grande quantité de gaz froid peu évolué, offrant un potentiel important pour la compréhension des phases précoces de la formation stellaire massive et compatible avec un scénario d’effondrement monolithique. La modélisation chimique montre que la chimie de ce gaz est encore hors équilibre, malgré sa haute densité, et confirme la jeunesse de la protoétoile avec un âge chimique de seulement ~ 1000 ans. N63 est un précurseur de hot core plutôt qu’un hot corino massif. Il serait donc possible de distinguer, grâce à des diagnostics chimiques évolutifs, les précurseurs d’étoiles massives des protoétoiles de masse faible ou ntermédiaire. / High-mass star formation is still poorly understood. In particular the initial conditions of their formation are unknown. To explore this question, a complete unbiased spectral survey was conducted with the IRAM 30 m telescope toward the massive protostar CygX-N63 (M~58 M◦ and L~ 340 L◦). A significant molecular complexity is found, with more than 40 species. The ion CF+ is observed for the first time in a protostar. A possible first detection of the prebiotic species CH2NH in a protostar and a first detection of DOCO+ are proposed. This spectroscopic study, along with Plateau de Bure interferometric observations, allows us to separate the contribution of different regions : cold envelope, lukewarm region, hot corelike region and outflow. The envelope contains large amounts of cold and young gas, which gives us the opportunity to better understand the early phases of massive star formation. The chemical modeling shows that the chemistry is still out of equilibrium, despite its high density, and confirms the youth of the protostar with a chemical age of ~ 1000 years. N63 is a hot core precursor rather than a massive hot corino. The use of chemical diagnostics of the evolution would then allow to distinguish massive star precursors from low-mass or intermediate-mass protostars. Astrochimie Formation stellaire Etoiles massives Relevé spectral non biaisé Astrochemistry Massive star formation Unbiased spectral survey
5	Réutilisation de données hospitalières pour la recherche d'effets indésirables liés à la prise d'un médicament ou à la pose d'un dispositif médical implantable / Reuse of hospital data to seek adverse events related to drug administration or the placement of an implantable medical device Ficheur, Grégoire 11 June 2015 (has links) Introduction : les effets indésirables associés à un traitement médicamenteux ou à la pose d'un dispositif médical implantable doivent être recherchés systématiquement après le début de leur commercialisation. Les études réalisées pendant cette phase sont des études observationnelles qui peuvent s'envisager à partir des bases de données hospitalières. L'objectif de ce travail est d'étudier l'intérêt de la ré-utilisation de données hospitalières pour la mise en évidence de tels effets indésirables.Matériel et méthodes : deux bases de données hospitalières sont ré-utilisées pour les années 2007 à 2013 : une première contenant 171 000 000 de séjours hospitaliers incluant les codes diagnostiques, les codes d'actes et des données démographiques, ces données étant chaînées selon un identifiant unique de patient ; une seconde issue d'un centre hospitalier contenant les mêmes types d'informations pour 80 000 séjours ainsi que les résultats de biologie médicale, les administrations médicamenteuses et les courriers hospitaliers pour chacun des séjours. Quatre études sont conduites sur ces données afin d'identifier d'une part des évènements indésirables médicamenteux et d'autre part des évènements indésirables faisant suite à la pose d'un dispositif médical implantable.Résultats : la première étude démontre l'aptitude d'un jeu de règles de détection à identifier automatiquement les effets indésirables à type d'hyperkaliémie. Une deuxième étude décrit la variation d'un paramètre de biologie médicale associée à la présence d'un motif séquentiel fréquent composé d'administrations de médicaments et de résultats de biologie médicale. Un troisième travail a permis la construction d'un outil web permettant d'explorer à la volée les motifs de réhospitalisation des patients ayant eu une pose de dispositif médical implantable. Une quatrième et dernière étude a permis l'estimation du risque thrombotique et hémorragique faisant suite à la pose d'une prothèse totale de hanche.Conclusion : la ré-utilisation de données hospitalières dans une perspective pharmacoépidémiologique permet l'identification d'effets indésirables associés à une administration de médicament ou à la pose d'un dispositif médical implantable. L'intérêt de ces données réside dans la puissance statistique qu'elles apportent ainsi que dans la multiplicité des types de recherches d'association qu'elles permettent. / Introduction:The adverse events associated with drug administration or placement of an implantable medical device should be sought systematically after the beginning of the commercialisation. Studies conducted in this phase are observational studies that can be performed from hospital databases. The objective of this work is to study the interest of the re-use of hospital data for the identification of such an adverse event.Materials and methods:Two hospital databases have been re-used between the years 2007 to 2013: the first contains 171 million inpatient stays including diagnostic codes, procedures and demographic data. This data is linked with a single patient identifier; the second database contains the same kinds of information for 80,000 stays and also the laboratory results and drug administrations for each inpatient stay. Four studies were conducted on these pieces of data to identify adverse drug events and adverse events following the placement of an implantable medical device.Results:The first study demonstrates the ability of a set of detection of rules to automatically identify adverse drug events with hyperkalaemia. The second study describes the variation of a laboratory results associated with the presence of a frequent sequential pattern composed of drug administrations and laboratory results. The third piece of work enables the user to build a web tool exploring on the fly the reasons for rehospitalisation of patients with an implantable medical device. The fourth and final study estimates the thrombotic and bleeding risks following a total hip replacement.Conclusion:The re-use of hospital data in a pharmacoepidemiological perspective allows the identification of adverse events associated with drug administration or placement of an implantable medical device. The value of this data is the amount statistical power they bring as well as the types of associations they allow to analyse. Données massives Réutilisation de données Pharmaco-épidémiologie Événement indésirable Cas-témoin en cross-over Big data Data reuse
6	Big Data : le nouvel enjeu de l'apprentissage à partir des données massives / Big Data : the new challenge Learning from data Massive Adjout Rehab, Moufida 01 April 2016 (has links) Le croisement du phénomène de mondialisation et du développement continu des technologies de l’information a débouché sur une explosion des volumes de données disponibles. Ainsi, les capacités de production, de stockage et de traitement des donnée sont franchi un tel seuil qu’un nouveau terme a été mis en avant : Big Data.L’augmentation des quantités de données à considérer, nécessite la mise en oeuvre de nouveaux outils de traitement. En effet, les outils classiques d’apprentissage sont peu adaptés à ce changement de volumétrie tant au niveau de la complexité de calcul qu’à la durée nécessaire au traitement. Ce dernier, étant le plus souvent centralisé et séquentiel,ce qui rend les méthodes d’apprentissage dépendantes de la capacité de la machine utilisée. Par conséquent, les difficultés pour analyser un grand jeu de données sont multiples.Dans le cadre de cette thèse, nous nous sommes intéressés aux problèmes rencontrés par l’apprentissage supervisé sur de grands volumes de données. Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d’exploiter au mieux l’ensemble des données disponibles. L’objectif de cette thèse est d’explorer la piste qui consiste à concevoir une version scalable de ces méthodes classiques. Cette piste s’appuie sur la distribution des traitements et des données pou raugmenter la capacité des approches sans nuire à leurs précisions.Notre contribution se compose de deux parties proposant chacune une nouvelle approche d’apprentissage pour le traitement massif de données. Ces deux contributions s’inscrivent dans le domaine de l’apprentissage prédictif supervisé à partir des données volumineuses telles que la Régression Linéaire Multiple et les méthodes d’ensemble comme le Bagging.La première contribution nommée MLR-MR, concerne le passage à l’échelle de la Régression Linéaire Multiple à travers une distribution du traitement sur un cluster de machines. Le but est d’optimiser le processus du traitement ainsi que la charge du calcul induite, sans changer évidement le principe de calcul (factorisation QR) qui permet d’obtenir les mêmes coefficients issus de la méthode classique.La deuxième contribution proposée est appelée "Bagging MR_PR_D" (Bagging based Map Reduce with Distributed PRuning), elle implémente une approche scalable du Bagging,permettant un traitement distribué sur deux niveaux : l’apprentissage et l’élagage des modèles. Le but de cette dernière est de concevoir un algorithme performant et scalable sur toutes les phases de traitement (apprentissage et élagage) et garantir ainsi un large spectre d’applications.Ces deux approches ont été testées sur une variété de jeux de données associées àdes problèmes de régression. Le nombre d’observations est de plusieurs millions. Nos résultats expérimentaux démontrent l’efficacité et la rapidité de nos approches basées sur la distribution de traitement dans le Cloud Computing. / In recent years we have witnessed a tremendous growth in the volume of data generatedpartly due to the continuous development of information technologies. Managing theseamounts of data requires fundamental changes in the architecture of data managementsystems in order to adapt to large and complex data. Single-based machines have notthe required capacity to process such massive data which motivates the need for scalablesolutions.This thesis focuses on building scalable data management systems for treating largeamounts of data. Our objective is to study the scalability of supervised machine learningmethods in large-scale scenarios. In fact, in most of existing algorithms and datastructures,there is a trade-off between efficiency, complexity, scalability. To addressthese issues, we explore recent techniques for distributed learning in order to overcomethe limitations of current learning algorithms.Our contribution consists of two new machine learning approaches for large scale data.The first contribution tackles the problem of scalability of Multiple Linear Regressionin distributed environments, which permits to learn quickly from massive volumes ofexisting data using parallel computing and a divide and-conquer approach to providethe same coefficients like the classic approach.The second contribution introduces a new scalable approach for ensembles of modelswhich allows both learning and pruning be deployed in a distributed environment.Both approaches have been evaluated on a variety of datasets for regression rangingfrom some thousands to several millions of examples. The experimental results showthat the proposed approaches are competitive in terms of predictive performance while reducing significantly the time of training and prediction. Données massives Big data Régression linéaire multiple Large scale data Mapreduce Multiple linear regression Bagging
7	Nouveaux modeles d'atmosphere pour etoiles massives: effets de line-blanketing et proprietes des vents des etoiles O Martins, Fabrice 01 October 2004 (has links) (PDF) Les etoiles massives jouent un role crucial dans divers domaines de l'astrophysique: elles produisent la majorite des elements plus lourds que l'Oxygene; elles creent des regions HII grace a leur fort pouvoir ionisant; elles terminent leur vie en supernovae. Par ailleurs, elles ont la particularite d'emettre continument un fort vent engendre par la pression de radiation et qui interagit avec le milieu interstellaire environnant, creant des bulles, des chocs et declenchant l'effondrement des nuages moleculaires voisins. En outre, la perte de masse associee a ces vents est telle qu'elle va gouverner completement l'evolution de l'etoile. Il est donc important de connaitre quantitativement ces vents radiatifs d'etoiles massives, ce qui passe par la modelisation de leurs atmospheres. Dans ce cadre, les codes de calcul ont vu recemment leur fiabilite se renforcer significativement grace a l'inclusion du line-blanketing, permettant ainsi d'esperer une connaissance accrue des proprietes des etoiles massives. Dans une premiere partie de cette these, nous nous sommes donc interesses a l'etude des effets induits par le line-blanketing sur le comportement des modeles d'atmosphere. Nous avons ainsi montre qu'a la fois le spectre emergent et la structure de cette atmosphere etaient modifies. Cela se traduit par une reduction de l'echelle de temperature (relation Teff - type spectral) des etoiles O de 1500 a 4000 K pour les naines de type spectral tardif et precoce respectivement, ainsi que par une revision des parametres fondamentaux (luminosite, flux ionisants). L'inclusion des metaux modifie egalement de facon significative la distribution spectrale d'energie de ces etoiles, ce qui permet entre autre de mieux rendre compte des sequences d'excitation construites a partir de raies nebulaires infrarouges observees dans des regions HII compactes. Dans une seconde partie, nous nous sommes interesses aux proprietes de vent des etoiles de type O. Une premiere etude menee sur les etoiles de la region N81 du SMC au moyen de spectres STIS/HST a revele l'exceptionnelle faiblesse de leurs vents ainsi que leur probable appartenance a la classe spectrale Vz. Avec des taux de perte de mass de l'ordre de 1e-9 Msol/an, ces vents sont en effet plus faibles que ce qui a jamais ete observe et predit par les simulations hydrodynamiques. Il en va de meme pour les quantites de mouvement modifiees. Une seconde etude d'etoiles Galactiques connues pour montrer qualitativement des vents faibles ainsi que de quelques etoiles Vz a elle aussi revele l'existence de vents faibles dans les etoiles les moins lumineuses, revelant de ce fait une rupture de pente de la relation quantite de mouvement modifiee - luminosite pour des luminosites plus faibles que 1e5.2 Lsol. L'origine de la faiblesse de ces vents reste inconnue puisque ni la metallicite ni la jeunesse des etoiles ne semblent etre en mesure de les expliquer. astrophysique astronomie physique stellaire etoiles massives atmospheres stellaires
8	Perte de masse des étoiles chaudes - Polarisation et haute résolution angulaire Chesneau, Olivier 06 June 2001 (has links) (PDF) Les étoiles massives constituent une classe stellaire d'une grande importance pour l'évolution de l'environnement galactique. Malgré leur faible nombre, leur perte de masse élevée à tous les stades de leur rapide évolution et l'injection d'énergie subséquente ont un impact déterminant, même à grande distance. La source de cette perte de masse est intimement liée à leur intense champ de radiation, qui génère un vent rapide et parfois dense. Les récents progrès instrumentaux ont mis en lumière la caractère profondément inhomogène et variable de ce vent, se manifestant par des phénomènes stochastiques, et parfois même périodiques. Ces manifestations mettent en lumière l'existence de phénomènes concurrents en mesure de modifier et moduler le vent radiatif, à savoir la rotation stellaire, la présence de pulsations non-radiales (NRP) ou de champ magnétique. C'est dans ce contexte que s'inscrit ce travail de thèse de cotutelle, issu d'une collaboration entre le groupe d'astrophysique de l'université de Montréal et le groupe d'interférométrie de l'Observatoire de la Cote d'Azur. J'aborde tout d'abord le problème des instabilités qui se développent dans les LBV (Luminous Blue Variables) par l'étude de l'étoile emblématique P Cygni. Après avoir développé le contexte observationnel des manifestations éruptives de l'étoile, je présente les résultats d'une observation avec une optique adaptative expérimentale opérant dans le visible menée à l'Observatoire de Haute-Provence (OHP). Puis, je développe la problématique des manifestations périodiques détectées chez les étoiles O et WR particulières, dans le contexte de la détection de champ magnétique. Cette étude est basée sur des observations menées avec le spectropolarimètre CASPEC du télescope de 3.6m de la Silla (ESO/Chili). Enfin, je décris le travail de prospection entrepris sur une technique de polarimétrie interférométrique appelée SPIN (Spectro-Polarimetric INterferometry). L'utilisation de SPIN peut apporter à l'interférométrie un complément irremplaçable pour à la fois localiser et quantifier la perte de masse au plus près de l'étoile. Je m'attacherai particulièrement à la détection et la caractérisation des champs magnétiques par SPIN en polarisation circulaire. interférométrie à longue bases polarisation magnétisme étoiles massives spectropolarimétrie
9	Services de répartition de charge pour le Cloud : application au traitement de données multimédia. Lefebvre, Sylvain 10 December 2013 (has links) (PDF) Le travail de recherche mené dans cette thèse consiste à développer de nouveaux algorithmes de répartition de charge pour les systèmes de traitement de données massives. Le premier algorithme mis au point, nommé "WACA" (Workload and Cache Aware Algorithm) améliore le temps d'exécution des traitements en se basant sur des résumés de contenus. Le second algorithme, appelé "CAWA" (Cost Aware Algorithm) tire partie de l'information de coût disponible dans les plateformes de type "Cloud Computing" en étudiant l'historique d'exécution des services.L'évaluation de ces algorithmes a nécessité le développement d'un simulateur d'infrastructures de "Cloud" nommé Simizer, afin de permettre leur test avant le déploiement en conditions réelles. Ce déploiement peut se faire de manière transparente grâce au système de distribution et de surveillance de service web nommé "Cloudizer", développé aussi dans le cadre de cette thèse. Ces travaux s'inscrivent dans le cadredu projet de plateforme de traitement de données Multimédia for Machine to Machine (MCUBE), dans le lequel le canevas Cloudizer est mis en oeuvre. Répartition de charge Cloud Données Massives
10	Étude polarimétrique à haute résolution temporelle de la matière circumstellaire et des paramètres physiques de trois systèmes WR+O éclipsants de courte période Villar-Sbaffi, Alfredo January 2005 (has links) No description available. Wolf-Rayet Étoiles Binaires Massives Vent Astrophysique Astronomie Rotation Polarisation Stellaire

Search results