Global ETD Search

391	Entrepôts de données pour l'aide à la décision médicale: conception et expérimentation María Trinidad, Serna Encinas 27 June 2005 (has links) (PDF) Les entrepôts de données intègrent les informations en provenance de différentes sources, souvent réparties et hétérogènes et qui ont pour objectif de fournir une vue globale de l'information aux analystes et aux décideurs. L'ensemble des données avec leurs historiques sert pour l'aide à la décision. La conception et la mise en œuvre d'un entrepôt se fait en trois étapes : extraction-intégration, organisation et interrogation. Dans cette thèse, nous nous intéressons aux deux dernières. Pour nous, l'organisation est une tâche complexe et délicate, pour cela, nous la divisons en deux parties : structuration et gestion des données. Ainsi, pour la structuration, nous proposons la définition d'un modèle multidimensionnel qui se compose de trois classes : Cube, Dimension et Hiérarchie. Nous proposons également un algorithme pour la sélection de l'ensemble optimal des vues à matérialiser. La gestion de données doit prendre en compte l'évolution des entrepôts. Le concept d'évolution de schéma a été introduit pour récupérer les données existantes par le biais de leur adaptation au nouveau schéma. Néanmoins, dans les systèmes qui doivent gérer des données historiques, l'évolution de schéma n'est pas suffisante et la maintenance de plusieurs schémas est requise. Pour cela, nous proposons l'utilisation des versions de schémas bitemporels pour la gestion, le stockage et la visualisation des données courantes et historisées (intensionnelles et extensionnelles). Finalement, pour l'interrogation, nous avons développé une interface graphique qui permet la génération (semi-automatique) des indicateurs. Ces indicateurs (par exemple, 'le nombre de séjours par établissement et par maladie') sont déterminés par le cadre applicatif. Nous avons eu l'opportunité de travailler dans le cadre d'un projet médical, ce qui nous a permis de vérifier et de valider notre proposition sur des données réelles. entrepôt de données modèle multidimensionnel vues matérialisées versions de schémas bitemporels gestionnaire d'évolution interface graphique données médicales
392	Etudes des signatures spectrales micro-ondes obtenues par télédétection sur la calotte polaire antarctique : comparaison avec des données de terrain et modélisation de l'émissivité de la neige Surdyk, Sylviane 07 May 1993 (has links) (PDF) Les études sur l'Antarctique sont motivées par l'interprétation des données que renferme la glace ancienne sur les climats passés et sur les possibles interactions entre la calotte et un éventuel changement climatique. Les radiomètres micro-ondes sont des instruments bien adaptés pour l'étude de la neige, car ils sont indépendants des conditions nuageuses et d'éclairement. Lorsque la neige est sèche, ils sont à même de fournir des informations en profondeur. Les caractéristiques du manteau neigeux (température, densité et taille de grains) sont liées aux processus de dépôt et leur évolution dépend des conditions climatiques. Ce sont ces caractéristiques, déterminantes vis à vis de la signature spectrale de la neige, que nous cherchons à évaluer à partir des données de télédétection. Les données utilisées proviennent du Scanning Multichannel Microwave Radiometer à bord du satellite Nimbus 7 (1978-86). Dans un premier temps, ces mesures ont été comparées à des données de terrain. A une forte stratification du manteau neigeux correspond une grande différence entre les polarisations verticale et horizontale, surtout pour les fréquences 6.6 et 10.7 GHz. On a trouvé aussi une forte corrélation entre la valeur moyenne de la taille des grains sur 0-2 mètres et la différence de comportement entre les fréquences 18 et 6.6 GHz (gradient en fréquence). Dans une seconde étape, nous avons modélisé l'émissivité microonde de la neige. Le modèle est basé sur la résolution des équations de Maxwell au travers de la théorie des fortes fluctuations (Stogryn 1986). Une solution analytique a été développée dans le cas d'un milieu uniforme en profondeur. Lorsque les caractéristiques de la neige changent en fonction de la profondeur, la solution fait appel à une résolution numérique. Le manteau neigeux est considéré isotherme, stratifié horizontalement et isotrope à l'intérieur de chaque strate. Les résultats du modèle font apparaitre plus clairement les contributions de la densité de la neige, de la taille des grains et surtout de la stratification sur les signatures spectrales. Télédétection données de terrain données SMMR émissivité micro-onde constante diélectrique neige modèles
393	Estimation robuste des modèles de mélange sur des données distribuées El Attar, Ali 12 July 2012 (has links) (PDF) Cette thèse propose une contribution en matière d'analyse de données, dans la perspective de systèmes informatiques distribués non-centralisés, pour le partage de données numériques. De tels systèmes se développent en particulier sur internet, possiblement à large échelle, mais aussi, par exemple, par des réseaux de capteurs. Notre objectif général est d'estimer la distribution de probabilité d'un jeu de données distribuées, à partir d'estimations locales de cette distribution, calculées sur des sous- jeux de données locaux. En d'autres termes, il s'est agi de proposer une technique pour agréger des estimés locaux pour en faire un estimé global. Notre proposition s'appuie sur la forme particulière que doivent prendre toutes les distributions de probabilité manipulées : elles doivent se formuler comme un mélange de lois gaussiennes multivariées. Notre contribution est une solution à la fois décentralisée et statistiquement robuste aux modèles locaux aberrants, pour mener à bien l'agrégation globale, à partir d'agrégations locales de mélanges de lois gaussiennes. Ces agrégations locales ne requièrent un accès qu'aux seuls paramètres des modèles de mélanges, et non aux données originales. [INFO:INFO_LG] Computer Science/Learning clustering modèle de mélange agrégation des modèles des mélanges estimation robuste détection de données atypiques données distribuées
394	Conception et réalisation du système de gestion de séries chronologiques du logiciel MODULECO Sefsaf, Belkacem 19 November 1981 (has links) (PDF) Présentation d'un logiciel permettant de gérer les données temporelles. On insiste particulièrement sur la spécificité de ces données qui amène, après une étude des logiciels existants, à développer un logiciel spécifique. base de données MODULECO données série chronologie temps gestion économétrie automatique automatisme SGBD
395	Extraction de connaissances : réunir volumes de données et motifs significatifs Masseglia, Florent 27 November 2009 (has links) (PDF) L'analyse et la fouille des données d'usages sont indissociables de la notion d'évolution dynamique. Considérons le cas des sites Web, par exemple. Le dynamisme des usages sera lié au dynamisme des pages qui les concernent. Si une page est créée, et qu'elle présente de l'intérêt pour les utilisateurs, alors elle sera consultée. Si la page n'est plus d'actualité, alors les consultations vont baisser ou disparaître. C'est le cas, par exemple, des pages Web de conférences scientifiques qui voient des pics successifs de consultation lorsque les appels à communications sont diffusés, puis le jour de la date limite d'envoi des résumés, puis le jour de la date limite d'envoi des articles. Dans ce mémoire d'habilitation à diriger des recherches, je propose une synthèse des travaux que j'ai dirigés ou co-dirigés, en me basant sur des extraits de publications issues de ces travaux. La première contribution concerne les difficultés d'un processus de fouille de données basé sur le support minimum. Ces difficultés viennent en particulier des supports très bas, à partir desquels des connaissances utiles commencent à apparaître. Ensuite, je proposerai trois déclinaisons de cette notion d'évolution dans l'analyse des usages : l'évolution en tant que connaissance (des motifs qui expriment l'évolution) ; l'évolution des données (en particulier dans le traitement des flux de données) ; et l'évolution des comportements malicieux et des techniques de défense. [INFO:INFO_LG] Computer Science/Learning Fouille de données Flux de données Motifs séquentiels Itemsets
396	Assimilation de données lagrangiennes pour la simulation numérique en hydraulique fluviale Honnorat, Marc 03 October 2007 (has links) (PDF) Ce travail porte sur l'assimilation variationnelle de données lagrangiennes en hydraulique fluviale, pour l'identification de paramètres dans un modèle numérique de rivière basé sur les équations de Saint-Venant, mise oeuvre dans le logiciel Dassflow. Nous proposons de prendre en compte des observations de nature Lagrangienne, comme des trajectoires de particules transportées à la surface de l'écoulement, en plus des observations classiquement disponibles, parfois insuffisantes. L'intérêt de cette approche pour améliorer l'identification de certains paramètres est mis en évidence à travers une série d'expériences numériques utilisant soit des données synthétiques, soit des données réelles issues d'un écoulement en canal, où des trajectoires sont extraites d'une séquence vidéo. [MATH] Mathematics assimilation variationnelle de données hydraulique fluviale données lagrangiennes identification de paramètres modèle numérique équations de Saint-Venant diffrentiation automatique
397	Traçabilité modulée pour la conformité à Sarbanes-Oxley Lepage, Yves January 2009 (has links) (PDF) La traçabilité est un mécanisme qui est indispensable dans la conduite des activités de vérification de la conformité des compagnies à la loi Sarbanes-Oxley. Cette loi rend les administrateurs (PDG, Chef des affaires financières, etc.) responsables des déclarations faites dans les états financiers. Elle a été établie dans la foulée des scandales corporatifs aux États-Unis, comme ceux des compagnies Enron et Worldcom. Les données utilisées pour produire les états financiers, lesquelles sont produites par des systèmes informatiques périphériques, transitent toujours par des bases de données. L'implantation d'un mécanisme de traçabilité des bases de données se heurte à plusieurs problèmes, dont le plus important est la gestion du volume des données de traçabilité, lequel devient rapidement trop important pour rendre les données de traçabilité utiles. Ce mémoire démontre qu'une solution envisageable pour résoudre ce problème consiste à identifier et à définir les comportements typiques de la fraude et d'utiliser ces comportements comme indicateurs de fraude potentielle. Jumelés à des techniques de classification telles que la classification Baysienne qui est utilisée dans le domaine de la détection du pourriel, les indicateurs permettront la classification des transactions potentiellement frauduleuses, dans le but d'appliquer le mécanisme de traçabilité qu'à ces transactions. Ainsi, nous démontrons que l'application de la classification Baysienne sur ces attributs, permet effectivement de détecter et de classifier des transactions frauduleuses comme tel et qu'en conséquence, un traitement de traçage spécifique peut être effectué sur ces transactions. En ne traçant plus spécifiquement que les transactions identifiées comme frauduleuses, le volume de données de traçabilité est alors réduit à son expression la plus utile et simple et du coup le problème de la gestion du volume des données de traçage s'en trouve d'autant diminué. Notre expérimentation démontre le bien-fondé de cette approche pour différencier les transactions honnêtes des transactions frauduleuses. Cette différenciation s'est faite avec un haut taux de succès et avec grande fiabilité, tel que démontré par les taux de détection obtenus pour les transactions frauduleuses. Les résultats détaillés sont documentés dans ce mémoire et prouvent la viabilité de cette approche. Comme les attributs utilisés qui sont basés sur les indicateurs de comportements sont intimement liés au domaine d'application, nous proposons une approche pour raffiner les résultats et ainsi rendre possible la différenciation des différents types de fraude à l'intérieur de ces transactions frauduleuses. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Fraude, Sarbanes-Oxley, Traçabilité, Détection automatique, Classification, Bayes. États-Unis Sarbanes-Oxley Act of 2002 Fraude comptable Classification automatique (Statistique) Sécurité des données Base de données Méthode statistique Traçabilité (Comptabilité)
398	OntoQL, un langage d'exploitation des bases de données à base ontologique Jean, Stéphane 05 December 2007 (has links) (PDF) Nous appelons Bases de Données à Base Ontologique (BDBO), les bases de données qui contiennent à la fois des données et des ontologies qui en décrivent la sémantique. Dans le contexte du Web Sémantique, de nombreuses BDBO associées à des langages qui permettent d'interroger les données et les ontologies qu'elles contiennent sont apparues. Conçus pour permettre la persistance et l'interrogation des données Web, ces BDBO et ces langages sont spécifiques aux modèles d'ontologies Web, ils se focalisent sur les ontologies conceptuelles et ils ne prennent pas en compte la structure relationnelle inhérente à des données contenues dans une base de données. C'est ce triple problème que vise à résoudre le langage OntoQL proposé dans cette thèse. Ce langage répond au triple problème évoqué précédemment en présentant trois caractéristiques essentielles qui le distinguent des autres langages proposés : (1) le langage OntoQL est indépendant d'un modèle d'ontologies particulier. En effet, ce langage est basé sur un noyau commun aux différents modèles d'ontologies et des instructions de ce langage permettent de l'étendre, (2) le langage OntoQL exploite la couche linguistique qui peut être associée à une ontologie conceptuelle pour permettre d'exprimer des instructions dans différentes langues naturelles et (3) le langage OntoQL est compatible avec le langage SQL, permettant ainsi d'exploiter les données au niveau logique d'une BDBO, et il étend ce langage pour permettre d'accéder aux données au niveau ontologique indépendamment de la représentation logique des données tout en permettant d'en manipuler la structure. Langages d'interrogation Bases de données Ontologie Bases de Données à Base Ontologique OWL PLIB
399	Combinaison multi-capteurs de données de couleur de l'eau : application en océanographie opérationnelle Pottier, Claire 22 December 2006 (has links) (PDF) Le phytoplancton joue un rôle important dans le cycle du carbone sur Terre, de par l'absorption du dioxyde de carbone au cours de la photosynthèse. Si les campagnes en mer offrent la possibilité d'acquérir des données à haute fréquence et à fine échelle spatio-temporelle, l'observation spatiale procure une description synoptique et sur de longues périodes de la chlorophylle-a, pigment principal du phytoplancton océanique. Chaque mission satellitaire qui mesure la couleur de l'eau est limitée en couverture océanique (traces du satellite, nuages, etc.). La couverture spatiale journalière peut augmenter considérablement en combinant les données issues de plusieurs satellites. L'objectif de cette thèse a été de concevoir, développer et tester des méthodes de combinaison de données couleur de l'eau, provenant des capteurs américains SeaWiFS et MODIS/Aqua, pour des applications en temps réel relevant de l'océanographie opérationnelle. Trois concepts ont été retenus : la moyenne pondérée par l'erreur capteur (conserve la netteté des structures mais n'utilise que les données existantes), l'analyse objective (améliore la couverture spatiale, mais lisse le champ en contrepartie), et une dernière approche innovante basée sur la transformée en ondelettes (conserve la netteté des structures et améliore la couverture du champ). L'opérationnalité de ces trois méthodes a été démontrée.<br />L'intérêt d'utiliser des données combinées a été montré à travers la mise en évidence des modes de variabilité dominants de la dynamique océanographique et biologique dans l'Océan Austral, en utilisant les données combinées SeaWiFS + MODIS/Aqua de la ceinture circumpolaire pour la période 2002-2006. couleur de l'eau moyenne pondérée analyse objective ondelettes Océan Austral
400	Style du génome exploré par analyse textuelle de l'ADN Lespinats, Sylvain 10 April 2006 (has links) (PDF) Les séquences d'ADN peuvent être considérées comme des textes écrits dans un alphabet de 4 lettres. Des techniques inspirées de l'analyse textuelle permettent donc de les caractériser, entre autres à partir de fréquences d'apparition de courtes suites de caractères (les oligonucléotides ou mots). L'ensemble des fréquences des mots d'une longueur donnée est appelé « signature génomique » (cet ensemble est spécifique de l'espèce, ce qui justifie le terme de « signature »). La signature d'espèce est observable sur la plupart des courts fragments d'ADN, ce qui donne à penser qu'elle résulte d'un « style d'écriture ». De plus, la proximité entre espèces du point de vue de la signature génomique correspond bien souvent à une proximité en terme taxonomique. Pourtant, l'analyse des signatures génomiques se confronte rapidement à des limitations dues à la malédiction de la dimension. En effet, les données de grande dimension (la signature génomique a généralement 256 dimensions) montrent des propriétés qui mettent en défaut l'intuition. Par exemple, le phénomène de concentration des distances euclidiennes est bien connu.<br />Partant de ces constatations, nous avons mis en place des procédures d'évaluation des distances entre signatures de façon à rendre plus manifeste les informations biologiques sur lesquelles s'appuient nos analyses. Une méthode de projection non-linéaire des voisinages y est associée ce qui permet de s'affranchir des problèmes de grande dimension et de visualiser l'espace occupé par les données. L'analyse des relations entre les signatures pose le problème de la contribution de chaque variable (les mots) à la distance entre les signatures. Un Z-score original basé sur la variation de la fréquence des mots le long des génomes a permis de quantifier ces contributions. L'étude des variations de l'ensemble des fréquences le long d'un génomes permet d'extraire des segments originaux. Une méthode basée sur l'analyse du signal permet d'ailleurs de segmenter précisément ces zones originales.<br />Grâce à cet ensemble de méthodes, nous proposons des résultats biologiques. En particulier, nous mettons en évidence une organisation de l'espace des signatures génomiques cohérente avec la taxonomie des espèces. De plus, nous constatons la présence d'une syntaxe de l'ADN : il existe des « mots à caractère syntaxique » et des « mots à caractère sémantique », la signature s'appuyant surtout sur les mots à caractère syntaxique. Enfin, l'analyse des signatures le long du génome permet une détection et une segmentation précise des ARN et de probables transferts horizontaux. Une convergence du style des transferts horizontaux vers la signature de l'hôte a d'ailleurs pu être observée.<br />Des résultats variés ont été obtenus par analyse des signatures. Ainsi, la simplicité d'utilisation et la rapidité de l'analyse des séquences par signatures en font un outil puissant pour extraire de l'information biologique à partir des génomes. [SDV] Life Sciences Signature génomique fouille de données réduction de dimension données de grande dimension apprentissage statistique metrique taxonomie transferts horizontaux

Search results