Global ETD Search

61	Modélisation conjointe des connaissances multi-points de vue d'un système industriel et de son système de soutien pour l'évaluation des stratégies de maintenance Medina-Oliva, Gabriela 12 December 2011 (has links) (PDF) Par rapport aux exigences de plus en plus importantes relatives au Maintien en Condition Opérationnelle d'un système industriel, le processus de maintenance joue un rôle fondamental pour l'amélioration de la disponibilité, de la productivité, etc. Pour essayer de contrôler au mieux ces performances, les responsables de maintenance doivent donc être capables de choisir les stratégies de maintenance et les ressources à mettre en œuvre les plus adaptées aux besoins. Dans un objectif d'aide à la prise de décisions en maintenance, les travaux présentés dans ce mémoire ont pour objet de proposer une méthodologie pour l'élaboration d'un modèle support permettant par simulation d'évaluer les différentes stratégies. La valeur ajoutée de la méthodologie réside dans l'unification, à base de modèles relationnels probabilistes (PRM), des différents types de connaissance nécessaires à la construction de ce modèle d'évaluation. Ce dernier est ainsi construit à partir de motifs génériques et modulables représentatifs des variables décisionnels du système industriel (système principal) et de son système de maintenance. Ces motifs, par instanciation, facilitent la construction des modèles d'applications spécifiques. Cette méthodologie, issue du projet ANR SKOOB, est testée sur le cas applicatif de la maintenance d'un système de production de ferment. Aide à la décision analyse de performances stratégies de maintenance disponibilité réseaux bayésiens ingénierie des systèmes statistique bayésienne efficacité de l'organisation intelligence artificielle
62	Analyse statistique des valeurs extrêmes de précipitation : application dans la région Cévennes-Vivarais Nguyen, Thi Phuong Thao 25 February 1993 (has links) (PDF) Ce travail consiste à choisir une méthode statistique d'ajustement des valeurs extrêmes et à l'appliquer aux précipitations extrêmes dans la région Cévennes - Vivarais. La première partie est réalisée à partir de valeurs simulées. La méthode non-paramétrique de Villasenor qui n'impose pas au début de l'analyse une loi statistique à la série de données, est choisie comme la meilleure méthode parmi les cinq méthodes d'ajustements. Dans la deuxième partie les caractéristiques pluviométriques de la région Cévennes - Vivarais sont calculées à partir de mesures horaires de 52 stations par la méthode choisie. La cartographie des caractéristiques pluviométriques de cette région est réalisée par les méthodes : spline et krigeage. La méthode krigeage donne une meilleure interpolation que celle de spline, et fournit encore des informations sur la structure spatiale de la région. Les cartes tracées représentent une distribution réaliste des valeurs extrêmes de précipitation de la région Cévennes - Vivarais. Précipitations extrêmes Simulation stochastique Echantillonnage Ajustements probabilistes Cartographie Krigeage Spline à deux dimensions
63	Modèles markoviens graphiques pour la fusion de données individuelles et d'interactions : application à la classification de gènes Vignes, Matthieu 30 October 2007 (has links) (PDF) Les recherches que nous présentons dans ce mémoire s'inscrivent dans le cadre de l'intégration statistique de données post-génomiques hétérogènes. La classification non supervisée de gènes vise à regrouper en ensembles significatifs les gènes d'un organisme, vu comme un système complexe, conformément aux données expérimentales afin de dégager des actions concertées de ces gènes dans les mécanismes biologiques mis en jeu. <br /><br />Nous basons notre approche sur des modèles probabilistes graphiques. Plus spécifiquement, nous utilisons l'outil de champs de Markov cachés qui permet la prise en compte simultanée de données propres à chacun des gènes grâce a des distributions de probabilités et de données traduisant un réseau d'interaction au sein de l'organisme à l'aide d'un graphe non-orienté entre les gènes. <br /><br />Apres avoir présenté la problématique et le contexte biologique, nous décrivons le modèle utilisé ainsi que les stratégies algorithmiques d'estimation des paramètres (i.e. approximations de type champ moyen). Puis nous nous intéresserons à deux particularités des données auxquelles nous avons été confrontés et qui amènent des développements du modèle utilisé, notamment la prise en compte de l'absence de certaines observations et la haute dimensionnalité de celles-ci. Enfin nous présenterons des expériences sur données simulées ainsi que sur données réelles sur la levure qui évaluent le gain apporté par notre travail. Notamment, nous avons voulu mettre l'accent sur des interprétations biologiques plausibles des résultats obtenus. [MATH] Mathematics [SDV] Life Sciences bio-statistiques modèles probabilistes graphiques champs de Markov cachés algorithme EM approximations de type champ moyen observations manquantes classification de gènes
64	Approches formelles pour l'analyse de la performabilité des systèmes communicants mobiles : Applications aux réseaux de capteurs sans fil Abo, Robert 06 December 2011 (has links) (PDF) Nous nous intéressons à l'analyse des exigences de performabilité des systèmes communicants mobiles par model checking. Nous modélisons ces systèmes à l'aide d'un formalisme de haut niveau issu du π-calcul, permettant de considérer des comportements stochastiques, temporels, déterministes, ou indéterministes. Cependant, dans le π-calcul, la primitive de communication de base des systèmes est la communication en point-à-point synchrone. Or, les systèmes mobiles, qui utilisent des réseaux sans fil, communiquent essentiellement par diffusion locale. C'est pourquoi, dans un premier temps, nous définissons la communication par diffusion dans le π-calcul, afin de mieux modéliser les systèmes que nous étudions. Nous proposons d'utiliser des versions probabilistes et stochastiques de l'algèbre que nous avons défini, pour permettre des études de performance. Nous en définissons une version temporelle permettant de considérer le temps dans les modèles. Mais l'absence d'outils d'analyse des propriétés sur des modèles spécifiés en une algèbre issue du π-calcul est un obstacle majeur à notre travail. La définition de règles de traduction en langage PRISM, nous permet de traduire nos modèles, en modèles de bas niveau supports du model checking, à savoir des chaînes de Markov à temps discret, à temps continu, des automates temporisés, ou des automates temporisés probabilistes. Nous avons choisi l'outil PRISM car, à notre connaissance, dans sa dernière version, il est le seul outil à supporter les formalismes de bas niveau que nous venons de citer, et ainsi il permet de réaliser des études de performabilité complètes. Cette façon de procéder nous permet de pallier à l'absence d'outils d'analyse pour nos modèles. Par la suite, nous appliquons ces concepts théoriques aux réseaux de capteurs sans fil mobiles. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Systèmes communicants mobiles Performabilité Méthodes formelles Algèbres de processus Model checking Chaînes de Markov Automates temporisés probabilistes Prism
65	Analyse probabiliste des systèmes temps réel Maxim, Dorin 10 December 2013 (has links) (PDF) Les systèmes embarqués temps réel critiques intègrent des architectures complexes qui évoluent constamment a n d'intégrer des nouvelles fonctionnalités requises par les utilisateurs naux des systèmes (automobile, avionique, ferroviaire, etc.). Ces nouvelles architectures ont un impact direct sur la variabilité du comportement temporel des systèmes temps réel. Cette variabilité entraîne un sur-approvisionnement important si la conception du système est uniquement basée sur le raisonnement pire cas. Approches probabilistes proposent des solutions basées sur la probabilité d'occurrence des valeurs les plus défavorables a n d'éviter le sur-approvisionnement, tout en satisfaisant les contraintes temps réel. Les principaux objectifs de ce travail sont de proposer des nouvelles techniques d'analyse des systèmes temps réel probabilistes et des moyens de diminuer la complexité de ces analyses, ainsi que de proposer des algorithmes optimaux d'ordonnancement á priorité xe pour les systèmes avec des temps d'exécution décrits par des variables aléatoires. Les résultats que nous présentons dans ce travail ont été prouvés surs et á utiliser pour les systèmes temps réel durs, qui sont l'objet principal de notre travail. Notre analyse des systèmes avec plusieurs paramètres probabilistes a été démontrée considérablement moins pessimiste que d'autres types d'analyses. Cette analyse combinée avec des algorithmes d'ordonnancement optimaux appropriées pour les systèmes temps réel probabilistes peut aider les concepteurs de systèmes á mieux apprécier la faisabilité d'un systéme, en particulier de ceux qui sont jugé irréalisable par des analyses/algorithmes d'ordonnancement déterministes. Systèmes Temps Réel Probabilistes Algorithmes d'Ordonnancement Optimaux Re-échantillonnage Temps Réel Monoprocesseur Réseau CAN
66	Modèles et inférence pour des systèmes stochastiques structurés Forbes, Florence 07 December 2010 (has links) (PDF) Le contexte de mon travail est la mise au point d'outils statistiques pour le dévelopement et l'analyse de modèles stochastiques structurés. L'idée sous-jacente à la notion de structure est qu'il est souvent possible à l'aide d'hypothèses locales simples combinées de manière cohérente de rendre compte de phénomènes globaux potentiellement complexes. Cette idée de construction du local vers le global guide ainsi la modélisation, l'estimation et l'interprétation. Cette approche se révèle utile dans des domaines variés tels que le traitement du signal et de l'image, les neurosciences, la génomique, l'épidémiologie, etc. Inversement les besoins de ces domaines ont pu susciter en retour des développements théoriques importants. Par ailleurs, beaucoup de techniques statistiques sont encore limitées par des d'hypothèses restrictives pouvant conduire à des analyses imprécises voire erronées. Différentes sources de complexité peuvent mettre en défaut les approches classiques. Souvent les données exhibent une structure de dépendance non triviale, due par exemple à des répétitions, des groupements, des méthodes d'échantillonnage particulières, des associations dans l'espace ou le temps. Une seconde source de complexité est liée au processus de mesure qui peut impliquer l'utilisation d'instruments physiquement très différents, qui produisent des données hétérogènes, en grandes dimensions et potentiellement de manière défaillante de sorte qu'une partie des données peut être manquante. La plupart de mes objectifs de recherche sont centrés sur la mise au point de modèles et d'outils d'inférence pouvant faire face à ce genre de complications fréquentes dans les données modernes et contribuer ainsi au développement de nouvelles méthodes statistiques. En ce qui concerne la notion de dépendance et de localité, un concept central est celui d'indépendance conditionnelle. Les propriétés de Markov et les modèles markoviens permettent d'énoncer de telles indépendances conditionnelles et ce thème est central dans ma recherche. Pour ce qui est des données manquantes ou incomplètes, les modèles de mélanges sont une approche classique. Ces modèles conduisent plus généralement à la notion de modèles à structure manquantes. Ces derniers sont également utiles pour rendre compte d'hétérogénéités dans les données. Ils trouvent de nombreux échos en statistique: modèles de mélanges finis, modèles de Markov cachés, modèles à effet aléatoire, etc. La présence de données incomplètes induit cependant généralement des difficultés pour ce qui est de l'estimation des paramètres et de l'évaluation des performances. Modèles markoviens et modèles de mélanges sont mes deux principaux thèmes de recherche avec cette idée unificatrice de structure dans les modèles mais aussi dans les données. J'ai pu montrer que ces deux thèmes pouvaient être reliés utilement en traitant des problèmes difficiles dans diverses applications. Plus précisément, j'ai developpé des modèles à structure cachée essentiellement dans le but de résoudre des problèmes de classifications inhérents à certaines questions. J'ai souvent abordé le problème de l'estimation de ces modèles à partir de l'algorithme EM et développé des variantes permettant d'apporter des solutions satisfaisantes lorsque les outils classiques faisaient défaut. J'ai tenté également d'apporter des résultats sur les propriétés théoriques, e.g. convergence et vitesse, de ces algorithmes. Enfin, j'ai abordé la question de la sélection de modèles essentiellement en cherchant à proposer des critères de sélection dans les cas où les critères classiques n'étaient pas calculables. statistiques modèles markoviens modèles de mélange modèles graphiques probabilistes approximation variationnelle champ moyen champs de Markov cachés analyse d'image
67	Diagnostic en ligne des systèmes à événements discrets complexes : approche mixte logique/probabiliste / Online diagnosis for complex discrete event systems : mixed approach based on logical/probabilistic Nguyen, Dang-Trinh 15 October 2015 (has links) Les systèmes de production auquel nous nous intéressons ici sont caractérisés par leur haut niveau de flexibilité et leur fort niveau d'incertitude lié par exemple à la forte variabilité de la demande, le haut niveau des technologies produites, un flux de production stressant, la présence d'opérateurs humains, de produits, etc. Le domaine de l'industrie du semi-conducteur est un exemple caractéristique de ce type de systèmes. Ces systèmes caractérisent également des équipements nombreux et couteux, des routes de produits diverses, voire même réentrantes sur un même équipement, des équipements de métrologie produits, etc.La présence non systématique d'équipements de métrologie en sortie de chacun des équipements de production (Patterson et al, 2005) rend ce système encore davantage complexe. Cela a en effet pour conséquences des problématiques inéluctables de propagations de défaillances au travers du flux de produits, défaillances qui ne pourront être détectées plus tard qu'au travers d'un arrêt d'équipement non programmé ou alors lors d'un contrôle produit sur un équipement de métrologie. Pour faire face à une telle complexité, un modèle de structure de commande hiérarchique et modulaire est généralement en premier lieu préconisé, il s'agit du modèle CIM (Jones et al, 1990). Ce modèle consiste à décomposer dans un premier temps le système de pilotage en 5 niveaux de commande allant de la couche capteurs/actionneurs en passant par le contrôle-commande et la supervision. Nous nous intéresserons ici plus particulièrement aux trois derniers niveaux temps réels de ce modèle. En effet, lorsqu'une défaillance est détectée au niveau le plus bas de cette pyramide de commande, il s'agit de mettre en place un mécanisme permettant de localiser, en temps réel et de manière efficace, la ou les origines possibles d'une telle défaillance, qu'elle soit propagée, ou non afin de fournir au système d'aide à la décision les informations importantes pour guider l'opérateur humain dans sa phase de maintenance corrective et ainsi contribuer à réduire le temps d'arrêts d'équipements ; l'origine ou la cause de l'arrêt pouvant être l'équipement lui-même (panne de capteur, d'actionneur, déréglage…) ou une mauvaise maintenance, ou encore une recette mal qualifié, etc…L'idée générale que nous défendons ici consiste à s'appuyer sur le mécanisme de génération en ligne du modèle d'historique des opérations exécutées réduit à celles suspectes pour identifier la structure du réseau Bayésien correspondant au modèle de diagnostic ; et de mener par la suite le calcul des probabilités du modèle Bayésien résultant afin de déterminer les candidats à visiter en premier (notion de score) et ainsi contribuer à optimiser la prise de décision pour la maintenance corrective.L'approche générale se veut donc à la croisée d'une approche déterministe et une probabiliste dans un contexte dynamique. Au-delà de ces propositions méthodologiques, nous avons développé une application logicielle permettant de valider notre proposition sur un cas d'étude de la réalité. Les résultats sont particulièrement encourageants et ont fait l'objet de publications des conférences internationales et la soumission dans la revue International Journal of Risk and Reliability. / Today's manufacturing systems are challenged by increasing demand diversity and volume that result in short product life cycles with the emergence of high-mix low-volume production. Therefore, one of the main objectives in the manufacturing domain is to reduce cycle time (CT) while ensuring product quality at reduced cost. In such competitive environment, product quality is ensured by introducing more rigorous controls at each production step that results in extended cycle times and increased production costs. This can be reduced by introducing R2R (run to run) loops where control on the product quality is carried out after multiple consecutive production steps. However, product quality drift, detected by metrology at the end of run-to-run loop, results in stopping respective sequence of production equipment. The manufacturing systems are equipped with sensors that provide basis for real time monitoring and diagnosis; however, placement of these sensors is constrained by its structure and the functions they perform. Besides this, these sensors cannot be placed across the equipment due to associated big data analyses challenge. This also results in non-observable components that limit our ability to support effective real time monitoring and fault diagnosis initiatives. Consequently, production equipment in R2R loop are stopped upon product quality drift detection at the inspection step. It is because of the fact that we are unable to diagnose that which equipment or components are responsible for the product quality drift. As a result, production capacities are reduced not because of faulty equipment or components but due to our inability for efficient and effective diagnosis.In this scenario, the key challenge is to diagnose faulty equipment and localize failure(s) against these unscheduled equipment breakdowns. Moreover, the situation becomes more complex if the potential failure(s) is unknown and requires experts' intervention before corrective maintenance can be applied. In addition to this, new failures can emerge as a consequence of different failures and associated delay in its localization and detection. Therefore, success of the manufacturing domain, in such competitive environment, depends on quick and more accurate fault isolation, detection and diagnosis. This paper proposes a methodology that exploits historical data over unobserved equipment components to reduce search space of potential faulty components followed by more accurate diagnosis of failures and causes. The key focus is to improve the effectiveness and efficiency of real time monitoring of potential faulty components and causes diagnoses.This research focuses on potential diagnosis using Logical Diagnosis model (Deschamps et al., 2007) which that offers real time diagnosis in an automated production system. This reduces the search space for faulty equipment from a given production flow and optimizes the learning step for the subsequent BN. The BN model, based on the graphical structure, received from Logical Diagnosis model then computes joint and conditional probabilities for each node, to support corrective maintenance decisions upon scheduled and unscheduled equipment breakdowns. The proposed method enables real time diagnosis for corrective maintenance in fully or semi-automated manufacturing systems. Diagnostic logique Modèles probabilistes Réseaux bayésiens Système discret Semi conducteur Logical diagnosis Probablity model Bayesian network Discret system Semi conductor 620
68	Origine et transport des sédiments dans un bassin versant alpin englacé (Glacier des Bossons, France) : une quantification couplant mesures hydro-sédimentaires haute-résolution, suivi radio-fréquence de galets, teneur en nucléides cosmogéniques et méthodes probabilistes / Origin and transport of sediments in an alpine glaciated catchment (Bossons glacier, France) : a quantification combining hydro-sedimentary data, radio-frequency identification of pebbles, cosmogenic nuclides content and probabilistic methods Guillon, Hervé 17 May 2016 (has links) Agents érosifs parmi les plus efficaces, les glaciers réagissent dynamiquement aux variations climatiques et entraînent à l’aval des modifications importantes des flux de sédiments. Dans les Alpes, et dans le cadre du réchauffement climatique actuel, se pose la question de l’évolution de la charge sédimentaire provenant de bassins versants partiellement englacés. L’export détritique issu d’un tel environnement résulte de processus d’érosion affectant plusieurs domaines géomorphologiques : les parois supra glaciaires, le substratum couvert de glace et la zone pro glaciaire à l’aval du glacier. Aussi, l’intention de ce travail de recherche doctorale est de caractériser l’origine et le transport des sédiments dans les bassins versants de deux torrents issus du glacier des Bossons (massif du Mont-Blanc, France).Dans ce but, les composantes du flux de sédiment issu des domaines supra glaciaire, sous-glaciaire et proglaciaire sont séparées et quantifiées à partir de méthodes innovantes :i. L’utilisation de la concentration en nucléides cosmogéniques comme marqueur du trans-port à la surface du glacier ;ii. L’analyse combinée de données météorologiques et de mesures hydro-sédimentaire à haute résolution temporelle (2 min) complétées par des modèles linéaires multivariés ;iii. La mise en oeuvre d’une méthode probabiliste adjointe à une application à l’échelle pluri-annuelle de l’estimation des flux sédimentaires par source ;iv. Le traçage radio-fréquence de particules grossières dans la zone pro glaciaire associé à une analyse dans le cadre d’un modèle de transport stochastique.A travers des outils numériques, l’application des méthodologies présentées apporte une estimation des taux d’érosion des domaines supra glaciaire, sous-glaciaire et pro glaciaire, et contraint le transfert des sédiments dans le bassin versant.Ainsi, dans la partie terminale du glacier, 52±14 à 9±4% de la charge supra glaciaire est transférée vers le réseau de drainage sous-glaciaire. Par ailleurs, l’évolution de ce dernier au cours de la saison de fonte entraîne sur une courte période l’export de la production sédimentaire hivernale. De plus, la configuration du drainage sous le glacier et sa dynamique de retrait contrôlent la remobilisation d’un stock sédimentaire sous-glaciaire plus ancien. Ces processus expliquent le contraste entre les taux moyens d’érosion sous-glaciaire des deux torrents instrumentés, respectivement 0.63 ± 0.37 et 0.38 ± 0.22 mm/an . Ces valeurs sont inférieures à la création topographique tectonique, ∼1.5 mm/an , et du même ordre de grandeur que le taux moyen d’érosion des parois surplombants le glacier, évalué à 0.76 ± 0.34 mm/an.A l’aval du glacier, les versants ne sont pas efficacement connectés au torrent proglaciaire et le glacier reste la source principale de l’export sédimentaire. Ainsi, en l’absence d’événements extrêmes, l’apport du domaine pro glaciaire correspond à 13 ± 10% de l’export sédimentaire total du bassin versant. Par ailleurs, la zone proglaciaire agit comme un tampon sédimentaire fonctionnant d’une échelle quotidienne à annuelle pour les silts et les sables, et à une échelle décennale pour les particules plus grossières. Au total, malgré un retrait glaciaire récent et rapide, le bassin versant du glacier des Bossons présente actuellement une dynamique paraglaciaire limitée dont l’intensité correspond à un taux moyen d’érosion proglaciaire de 0.25±0.20 mm/an. Enfin, sur l’ensemble du bassin versant, la dynamique sédimentaire est multi-fréquentielle et amortie par des stockages intermédiaires. / Among the most efficient agents of erosion, glaciers react dynamically to climate change, leading to a significant adjustment of downstream sediment flux. Present-day global warming raises the question regarding the evolution of the sediment load originating from partially glaciated catchment. The detrital export from such environment results from erosion processes operating within distinct geomorphological domains : supraglacial rockwalls, ice-covered substratum and the proglacial area, downstream from the glacier. The general intent of this doctoral research is therefore to characterize the origin and transport of sediments in the watersheds of two streams draining Bossons glacier (Mont-Blanc massif, France).For this purpose, the components of the sediment flux coming from supraglacial, subglacial and proglacial domains are separated and quantified by innovating methods:i. Using the terrestrial cosmogenic nuclides concentrations as evidence of a supraglacialtransport;ii. Combining meteorological data and hydro-sedimentary data acquired at a high timeresolution (2 min) and completed by multi-linear models;iii. Estimating sediment flux by source for 7 years and with a probabilistic method;iv. Associating radio-frequency identification of pebbles in the proglacial area with a stochas-tic transport analysis.Through numerical tools, applying the presented methodologies provides erosion rates of thesupraglacial, subglacial and proglacial domains, and determines the sediment transfer mecha-nisms within the catchment.Thus in the terminal part of the glacier, 52±14 to 9±4% of the supraglacial load is transferred to the subglacial drainage network. Moreover, its evolution throughout the melt season leads to the export of the winter sediment production during a limited period. Furthermore, the drainage configuration beneath the glacier and its retreat control the remobilization of a long-term sediment stock. These processes explain the contrast between the mean subglacial erosion rates of the two monitored streams, 0.63 ± 0.37 et 0.38 ± 0.22 mm/yr, respectively. This values are lower than the tectonic uplift, ∼1.5 mm/an, and of the same order of magnitude than the mean erosion rate of supraglacial rockwalls, evaluated at 0.76 ± 0.34 mm/an.Downstream from the glacier, hillslopes are not efficiently connected to the proglacial stream and the glacier is the main source of the sediment export. Hence, without extreme events, the input from proglacial domain corresponds to 13 ± 10% of the total sediment export from the catchment. Besides, the proglacial area acts as a buffer functioning from the daily to the year scales for fine particles, and at a decennial scale for coarser particles. In total, despite the rapid recent retreat of the glacier, the Bossons catchment exhibits a limited paraglacialdynamic whose intensity corresponds to a mean proglacial erosion rate of 0.25±0.20 mm/an. Finally, at the catchment scale, the sediment dynamic is multi-frequential and buffered by storage and release mechanisms. Erosion glaciaire Flux sédimentaires Terrain Nucléides cosmogéniques Rfid Méthodes probabilistes Glacial erosion Sediment flux Field work Terrestrial Cosmogenic Nuclides Rfid Probabilistic methods 550
69	Explorer et apprendre à partir de collections de textes multilingues à l'aide des modèles probabilistes latents et des réseaux profonds / Mining and learning from multilingual text collections using topic models and word embeddings Balikas, Georgios 20 October 2017 (has links) Le texte est l'une des sources d'informations les plus répandues et les plus persistantes. L'analyse de contenu du texte se réfère à des méthodes d'étude et de récupération d'informations à partir de documents. Aujourd'hui, avec une quantité de texte disponible en ligne toujours croissante l'analyse de contenu du texte revêt une grande importance parce qu' elle permet une variété d'applications. À cette fin, les méthodes d'apprentissage de la représentation sans supervision telles que les modèles thématiques et les word embeddings constituent des outils importants.L'objectif de cette dissertation est d'étudier et de relever des défis dans ce domaine.Dans la première partie de la thèse, nous nous concentrons sur les modèles thématiques et plus précisément sur la manière d'incorporer des informations antérieures sur la structure du texte à ces modèles.Les modèles de sujets sont basés sur le principe du sac-de-mots et, par conséquent, les mots sont échangeables. Bien que cette hypothèse profite les calculs des probabilités conditionnelles, cela entraîne une perte d'information.Pour éviter cette limitation, nous proposons deux mécanismes qui étendent les modèles de sujets en intégrant leur connaissance de la structure du texte. Nous supposons que les documents sont répartis dans des segments de texte cohérents. Le premier mécanisme attribue le même sujet aux mots d'un segment. La seconde, capitalise sur les propriétés de copulas, un outil principalement utilisé dans les domaines de l'économie et de la gestion des risques, qui sert à modéliser les distributions communes de densité de probabilité des variables aléatoires tout en n'accédant qu'à leurs marginaux.La deuxième partie de la thèse explore les modèles de sujets bilingues pour les collections comparables avec des alignements de documents explicites. En règle générale, une collection de documents pour ces modèles se présente sous la forme de paires de documents comparables. Les documents d'une paire sont écrits dans différentes langues et sont thématiquement similaires. À moins de traductions, les documents d'une paire sont semblables dans une certaine mesure seulement. Pendant ce temps, les modèles de sujets représentatifs supposent que les documents ont des distributions thématiques identiques, ce qui constitue une hypothèse forte et limitante. Pour le surmonter, nous proposons de nouveaux modèles thématiques bilingues qui intègrent la notion de similitude interlingue des documents qui constituent les paires dans leurs processus générateurs et d'inférence.La dernière partie de la thèse porte sur l'utilisation d'embeddings de mots et de réseaux de neurones pour trois applications d'exploration de texte. Tout d'abord, nous abordons la classification du document polylinguistique où nous soutenons que les traductions d'un document peuvent être utilisées pour enrichir sa représentation. À l'aide d'un codeur automatique pour obtenir ces représentations de documents robustes, nous démontrons des améliorations dans la tâche de classification de documents multi-classes. Deuxièmement, nous explorons la classification des tweets à plusieurs tâches en soutenant que, en formant conjointement des systèmes de classification utilisant des tâches corrélées, on peut améliorer la performance obtenue. À cette fin, nous montrons comment réaliser des performances de pointe sur une tâche de classification du sentiment en utilisant des réseaux neuronaux récurrents. La troisième application que nous explorons est la récupération d'informations entre langues. Compte tenu d'un document écrit dans une langue, la tâche consiste à récupérer les documents les plus similaires à partir d'un ensemble de documents écrits dans une autre langue. Dans cette ligne de recherche, nous montrons qu'en adaptant le problème du transport pour la tâche d'estimation des distances documentaires, on peut obtenir des améliorations importantes. / Text is one of the most pervasive and persistent sources of information. Content analysis of text in its broad sense refers to methods for studying and retrieving information from documents. Nowadays, with the ever increasing amounts of text becoming available online is several languages and different styles, content analysis of text is of tremendous importance as it enables a variety of applications. To this end, unsupervised representation learning methods such as topic models and word embeddings constitute prominent tools.The goal of this dissertation is to study and address challengingproblems in this area, focusing on both the design of novel text miningalgorithms and tools, as well as on studying how these tools can be applied to text collections written in a single or several languages.In the first part of the thesis we focus on topic models and more precisely on how to incorporate prior information of text structure to such models.Topic models are built on the premise of bag-of-words, and therefore words are exchangeable. While this assumption benefits the calculations of the conditional probabilities it results in loss of information.To overcome this limitation we propose two mechanisms that extend topic models by integrating knowledge of text structure to them. We assume that the documents are partitioned in thematically coherent text segments. The first mechanism assigns the same topic to the words of a segment. The second, capitalizes on the properties of copulas, a tool mainly used in the fields of economics and risk management that is used to model the joint probability density distributions of random variables while having access only to their marginals.The second part of the thesis explores bilingual topic models for comparable corpora with explicit document alignments. Typically, a document collection for such models is in the form of comparable document pairs. The documents of a pair are written in different languages and are thematically similar. Unless translations, the documents of a pair are similar to some extent only. Meanwhile, representative topic models assume that the documents have identical topic distributions, which is a strong and limiting assumption. To overcome it we propose novel bilingual topic models that incorporate the notion of cross-lingual similarity of the documents that constitute the pairs in their generative and inference processes. Calculating this cross-lingual document similarity is a task on itself, which we propose to address using cross-lingual word embeddings.The last part of the thesis concerns the use of word embeddings and neural networks for three text mining applications. First, we discuss polylingual document classification where we argue that translations of a document can be used to enrich its representation. Using an auto-encoder to obtain these robust document representations we demonstrate improvements in the task of multi-class document classification. Second, we explore multi-task sentiment classification of tweets arguing that by jointly training classification systems using correlated tasks can improve the obtained performance. To this end we show how can achieve state-of-the-art performance on a sentiment classification task using recurrent neural networks. The third application we explore is cross-lingual information retrieval. Given a document written in one language, the task consists in retrieving the most similar documents from a pool of documents written in another language. In this line of research, we show that by adapting the transportation problem for the task of estimating document distances one can achieve important improvements. Classification de textes L'apprentissage en profondeur Probabilistic Graphical Models Topic Modeling Deep Learning Text Classification Document Retrieval 004
70	Comparaison des estimations d'aléa sismique probabiliste avec les observations (accélérations et intensités) / Comparison of probabilistic seismic hazard estimations with observations (accelerations and intensities) Oksuz, Hilal 23 June 2014 (has links) L'estimation probabiliste de l'aléa sismique est basée sur plusieurs modèles et hypothèses à chaque étape, tels que la caractérisation des sources sismiques, les récurrences en magnitude, et le choix d'équations de prédiction du mouvement du sol. Le résultat final de ces études est la courbe d'aléa qui donne les taux annuels de dépassement pour différentes valeurs d'accélération. Chaque étape du calcul comporte des incertitudes. Comprendre l'impact de ces incertitudes sur le résultat final est délicat. Jusqu'à récemment, peu d'études se sont intéressées à tester le résultat final des calculs d'aléa sismique. Des données accélérométriques ou d'intensités macrosismiques, partiellement dépendantes des calculs d'aléa sismique, peuvent être utilisées, comme l'ont proposé quelques articles récents (Stirling & Gerstenberger 2006, Stirling & Gestenberger 2010, Albarello & D'Amico 2008). Cette étude vise à tester les estimations probabilistes de l'aléa sismique en France (MEDD2002, AFPS2006 et SIGMA2012) et aussi en Turquie (SHARE), en développant une méthode quantitative pour comparer les nombres prédits et observés de sites avec dépassement pendant la durée d'observation. La méthode développée s'appuie sur les travaux de Stirling & Gerstenberger (2010) et Albarello & D'Amico (2008). Les modèles sont évalués pour une large zone géographique en sélectionnant tous les sites et en sommant les durées d'observation à chaque site. L'objectif est de comprendre les possibilités et les limites de cette approche, car les durées d'observations sont courtes par rapport aux périodes de retour pertinentes en génie parasismique. Les résultats montrent que le modèle AFPS2006 est cohérent avec les observations du Réseau Accélérométrique Permanent (RAP) pour les accélérations entre 40 et 100 cm/s2 (temps de retour entre 50 et 200 ans). Le modèle MEDD2002 surestime l'aléa sismique pour un temps de retour de 100 ans. Ces résultats ne peuvent pas être extrapolés aux niveaux d'accélérations plus élevés. Pour des temps de retour plus longs (475 et 975 ans), il n'y a pas d'observation au dessus du seuil d'accélération. A l'heure actuelle en France, il n'est pas possible de tester les estimations probabilistes pour des niveaux d'accélérations utiles au génie parasismique. La méthode proposée a aussi été appliquée en Turquie. Les modèles d'aléa sismique peuvent être testés sur des durées d'observation plus longues et pour des niveaux d'accélération plus élevés qu'en France. Le modèle est testé pour différentes sélections de stations accélérométriques, différentes valeurs de la distance minimum entre stations, et différentes durées totales d'observations. Pour des accélérations entre 0.1 et 0.4 g, le modèle SHARE est cohérent avec les observations pour tous les tests. Pour des seuils plus bas, les résultats varient en fonction des décisions prises. Enfin, les modèles probabilistes d'aléa sismique en France ont été évalués à partir des intensités de la base de données SISFRANCE. Les périodes d'observations complètes sont estimées par une analyse statistique des données (I≥5, MSK). Nous avons sélectionné 25 sites avec des durées d'observations pour I≥5 variant entre 66 et 207 ans, localisés dans les zones les plus actives de France. Pour un temps de retour de 100 ans, le modèle MEDD2002 prédit un nombre de sites avec dépassement plus élevé que le nombre observé. Pour des temps de retour de 475 ans et plus longs, les modèles MEDD2002 et AFPS2006 ne peuvent pas être distingués car ils sont tous les deux compatibles avec les observations. Ces résultats basés sur les données d'intensité doivent être considérés de façon très prudente considérant les incertitudes sur la sélection des sites, sur la détermination des durées d'observations et la complétude, et sur l'équation utilisée pour convertir les intensités en accélérations. / PSHA calculations rely on several models and assumptions in its components, such as the characterization of seismic sources, the establishment of recurrence laws in magnitude, and the choice of ground-motion prediction equations. The final output of a PSHA study is the hazard curve that gives annual rates of exceedances of different acceleration levels. All steps of the PSHA calculation bear uncertainties. Understanding the impact of these uncertainties on the final output of the PSHA is not straightforward. Until recently, little attention has been paid to testing the final output of PSHA models against observations. Acceleration datasets and intensity databases, partially independent from the PSHA calculations, can be used, as proposed in a handful of recent papers (Stirling & Gerstenberger 2006, Stirling & Gestenberger 2010, Albarello & D'Amico 2008). This study is aimed at testing PSH models in France (MEDD2002, AFPS2006 and SIGMA2012) and also in Turkey (SHARE), developing a quantitative method for comparing predicted and observed number of sites with exceedance over the lifetime of the network. This method builds on the studies of Stirling & Gerstenberger (2010) and Albarello & D'Amico (2008). All sites are sampled, observation time windows are stacked, and the PSHA is evaluated over a large geographical area at once. The objective is to understand the possibilities and limits of this approach, as observation time windows are short with respect to the return periods of interest in earthquake engineering. Results show that the AFPS2006 PSH model is consistent with the observations of the RAP accelerometric network over the acceleration range 40-100 cm/s2 (or 50-200 years of return periods). The MEDD2002 PSH model over-predicts the observed hazard for the return period of 100 years. For longer return periods (475 and 975 years), the test is not conclusive due to the lack of observations for large accelerations. No conclusion can be drawn for acceleration levels of interest in earthquake engineering. The proposed method is applied to Turkey. The PSH model can be tested using longer observation periods and higher accelerations levels than in France. The PSH model is tested for different selections of accelerometric sites, minimum inter-site distance and total observation period. For accelerations between 0.1 and 0.4g, the model is consistent with the observations for all tests. At lower acceleration levels, the agreement between the model and the observations varies depending on the decisions taken. Finally, the PSHA models in France are evaluated using the macroseismic intensity database (SISFrance). Completeness time windows are estimated from statistics on the intensity data (I≥5, MSK). Twenty-five sites are selected, with completeness time periods for I≥5 extending between 66 and 207 years, located in the highest active zones in France. At 100 years return period, MEDD2002 models predicts more sites with exceedances than the observed number of sites. At return periods higher than or equal to 475 years, both models AFPS2006 cannot be discriminated as both are consistent with observations. Considering the uncertainties on the selection of sites, on the determination of completeness time periods, and on the equation selected for converting intensities into accelerations, the results based on macroseismic intensities should be considered very carefully. Aléa sismique Estimations probabilistes Intensité macrosismique Donnée accélérométrique France Turquie Seismic hazard Probabilistic estimations Macroseismic intensity Accelerometric data France Turkey 550

Search results