Global ETD Search

141	Extraction d'informations de changement à partir des séries temporelles d'images radar à synthèse d'ouverture / Change information extraction from Synthetic Aperture Radar Image Time Series Lê, Thu Trang 15 October 2015 (has links) La réussite du lancement d'un grand nombre des satellites Radar à Synthèse d'Ouverture (RSO - SAR) de nouvelle génération a fourni régulièrement des images SAR et SAR polarimétrique (PolSAR) multitemporelles à haute et très haute résolution spatiale sur de larges régions de la surface de la Terre. Le système SAR est approprié pour des tâches de surveillance continue ou il offre l'avantage d'être indépendant de l'éclairement solaire et de la couverture nuageuse. Avec des données multitemporelles, l'information spatiale et temporelle peut être exploitée simultanément pour rendre plus concise, l'extraction d'information à partir des données. La détection de changement de structures spécifiques dans un certain intervalle de temps nécessite un traitement complexe des données SAR et la présence du chatoiement (speckle) qui affecte la rétrodiffusion comme un bruit multiplicatif. Le but de cette thèse est de fournir une méthodologie pour simplifier l'analyse des données multitemporelles SAR. Cette méthodologie doit bénéficier des avantages d'acquisitions SAR répétitives et être capable de traiter différents types de données SAR (images SAR mono-, multi- composantes, etc.) pour diverses applications. Au cours de cette thèse, nous proposons tout d'abord une méthode générale basée sur une matrice d'information spatio-temporelle appelée Matrice de détection de changement (CDM). Cette matrice contient des informations de changements obtenus à partir de tests croisés de similarité sur des voisinages adaptatifs. La méthode proposée est ensuite exploitée pour réaliser trois tâches différentes: 1) la détection de changement multitemporel avec différents types de changements, ce qui permet la combinaison des cartes de changement entre des paires d'images pour améliorer la performance de résultat de détection de changement; 2) l'analyse de la dynamicité de changement de la zone observée, ce qui permet l'étude de l'évolution temporelle des objets d'intérêt; 3) le filtrage nonlocal temporel des séries temporelles d'images SAR/PolSAR, ce qui permet d'éviter le lissage des informations de changement dans des séries pendant le processus de filtrage.Afin d'illustrer la pertinence de la méthode proposée, la partie expérimentale de la thèse est effectuée sur deux sites d'étude: Chamonix Mont-Blanc, France et le volcan Merapi, Indonésie, avec différents types de changements (i.e. évolution saisonnière, glaciers, éruption volcanique, etc.). Les observations de ces sites d'étude sont acquises sur quatre séries temporelles d'images SAR monocomposantes et multicomposantes de moyenne à haute et très haute résolution: des séries temporelles d'images Sentinel-1, ALOS-PALSAR, RADARSAT-2 et TerraSAR-X. / A large number of successfully launched and operated Synthetic Aperture Radar (SAR) satellites has regularly provided multitemporal SAR and polarimetric SAR (PolSAR) images with high and very high spatial resolution over immense areas of the Earth surface. SAR system is appropriate for monitoring tasks thanks to the advantage of operating in all-time and all-weather conditions. With multitemporal data, both spatial and temporal information can simultaneously be exploited to improve the results of researche works. Change detection of specific features within a certain time interval has to deal with a complex processing of SAR data and the so-called speckle which affects the backscattered signal as multiplicative noise.The aim of this thesis is to provide a methodology for simplifying the analysis of multitemporal SAR data. Such methodology can benefit from the advantages of repetitive SAR acquisitions and be able to process different kinds of SAR data (i.e. single, multipolarization SAR, etc.) for various applications. In this thesis, we first propose a general framework based on a spatio-temporal information matrix called emph{Change Detection Matrix} (CDM). This matrix contains temporal neighborhoods which are adaptive to changed and unchanged areas thanks to similarity cross tests. Then, the proposed method is used to perform three different tasks:1) multitemporal change detection with different kinds of changes, which allows the combination of multitemporal pair-wise change maps to improve the performance of change detection result;2) analysis of change dynamics in the observed area, which allows the investigation of temporal evolution of objects of interest;3) nonlocal temporal mean filtering of SAR/PolSAR image time series, which allows us to avoid smoothing change information in the time series during the filtering process.In order to illustrate the relevancy of the proposed method, the experimental works of the thesis is performed on four datasets over two test-sites: Chamonix Mont-Blanc, France and Merapi volcano, Indonesia, with different types of changes (i.e., seasonal evolution, glaciers, volcanic eruption, etc.). Observations of these test-sites are performed on four SAR images time series from single polarization to full polarization, from medium to high, very high spatial resolution: Sentinel-1, ALOS-PALSAR, RADARSAT-2 and TerraSAR-X time series. Série temporelle d'image SAR Matrice de détection de changement Filtrage multitemporel Analyse de changement Indice de dynamicité de changement Test croisé de similarité SAR image time series Change detection matrix Multitemporal filtering Change analysis Index of change dynamics Similarity cross test 621.3
142	Espaces chimiques optimaux pour la recherche par similarité, la classification et la modélisation de réactions chimiques représentées par des graphes condensés de réactions / Optimal chemical spaces for similarity searching, classification and modelling of chemical reactions represented by condensed graphs of reactions Luca, Aurélie de 08 September 2015 (has links) Cette thèse vise à développer une approche basée sur le concept de Graphe Condensé de Réaction (GCR) capable de (i) sélectionner un espace optimal de descripteurs séparant au mieux différentes classes de réactions, et (ii) de préparer de nouveaux descripteurs pour la modélisation « structure–réactivité ». Cette méthodologie a été appliquée à la recherche par similarité dans une base de données contenant 8 classes de réaction différentes; et à la cartographie de son espace chimique en utilisant des cartes de Kohonen et de cartes topographiques génératives. La seconde partie de la thèse porte sur le développement de modèles prédictifs pour le pKa et pour des conditions optimales pour différents types de réaction de Michael impliquant à la fois les descripteurs d’effet électronique et des descripteurs calculés sur les GCR. / This thesis aims to develop an approach based on the Condensed Graph of Reaction (CGR) method able to (i) select an optimal descriptor space the best separating different reaction classes, and (ii) to prepare special descriptors to be used in obtaining predictive structure-reactivity models. This methodology has been applied to similarity search studies in a database containing 8 different reaction classes, and to visualization of its chemical space using Kohonen maps and Generative Topographic Mapping. Another part of the thesis concerns development of predictive models for pKa and for optimal conditions for different types of Michael reaction involving both CGR-based and Electronic Effect Descriptors. Graphes condensés de réactions Recherche par similarité Réaction de Michael QSPR/QSRR Réactivité chimique PKa Conditions de réaction Condensed graphs of reactions Similarity search Michael reaction QSPR/QSRR Chemical reactivity PKa Reaction Conditions 541.39
143	Connaissance inter-entreprises et optimisation combinatoire / Inter-companies knowledge and combinatorial optimization Ould Mohamed Lemine, Mohamed 17 June 2014 (has links) La connaissance inter-entreprises permet à chaque société de se renseigner sur ses clients, ses fournisseurs et de développer son activité tout en limitant le risque lié à la solvabilité ou retard de paiement de ses partenaires. Avec les tensions de trésorerie, la nécessité de la croissance et l'augmentation de la concurrence, ce domaine devient plus que jamais stratégique aussi bien pour les PME que pour les grands groupes. La quantité de données traitée dans ce domaine, les exigences de qualité et de fraîcheur, la nécessité de croiser ces données pour déduire des nouvelles informations et indicateurs, posent plusieurs problèmes pour lesquels l'optimisation en général et l'optimisation combinatoire en particulier peuvent apporter des solutions efficaces. Dans cette thèse, nous utilisons l'optimisation combinatoire, l'algorithmique du texte et la théorie des graphes pour résoudre efficacement des problèmes issus du domaine de la connaissance inter-entreprises et posés par Altares D&B. Dans un premier temps, nous nous intéressons à la qualité de la base de données des dirigeants. Ce problème combine la détection et suppression des doublons dans une base de données et la détection d'erreurs dans une chaîne de caractères. Nous proposons une méthode de résolution basée sur la normalisation des données et l'algorithmique de texte et de comparaison syntaxique entre deux chaînes de caractères. Les résultats expérimentaux montrent non seulement que cette méthode est pertinente dans la détection et la suppression des doublons mais aussi qu'elle est efficace de point du vue temps de traitement. Nous nous focalisons par la suite sur les données des liens capitalistiques et nous considérons le problème de calcul des liens indirects et l'identification des têtes des groupes. Nous présentons une méthode de résolution basée sur la théorie des graphes. Nous testons cette méthode sur plusieurs instances réelles. Nous prouvons l'efficacité de cette méthode par son temps de traitement et par l'espace de calcul qu'elle utilise. Enfin, nous remarquons que le temps de calcul de celui-ci augmente de façon logarithmique en fonction de la taille d'instance. Enfin, nous considérons le problème de l'identification des réseaux d'influence. Nous formalisons ce problème en termes de graphes et nous le ramenons à un problème de partitionnement de graphe qui est NP-difficile dans ce cas général. Nous proposons alors une formulation en programme linéaire en nombre entier pour ce problème. Nous étudions le polyèdre associé et décrivons plusieurs classes de contraintes valides. Nous donnons des conditions nécessaires pour que ces contraintes définissent des facettes et discutons des algorithmes de séparations de ces contraintes. En utilisant les résultats polyédraux obtenus, nous développons un algorithme de coupes et branchements. Enfin, nous donnons quelques résultats expérimentaux qui montrent l'efficacité de notre algorithme de coupes et branchements / The inter-companies knowledge allows to every partner to learn about its customers, its suppliers and to develop its activity. Also this permits to limit the risk related to the creditworthiness, or the late payment of its partners. With the cash flow pressures, the need for growth and increased competition, this area becomes more strategic than ever, for both small (PME) and large groups. The amount of data processed in this domain, the requirements of quality and freshness, the need to cross these data to obtain new information and indicators, yield several optimization problems for which the recent techniques and computational tools can bring effective solutions. In this thesis, we use combinatorial optimization, text algorithms as well as graph theory to solve efficiently problems arising in the field of inter-companies knowledge. In particular, such problems was encountered in Altares D&B. First, we focus on the quality of the managers database. This problem combines the detection and removal of duplicates in a database, as well as the error detection in a string. We propose a method for solving this problem, based on data normalization, text algorithms and syntactic comparison between two strings. Our experimental results show that this method is relevant for the detection and removal of duplicates, and it is also very efficient in terms of processing time. In a second part of the thesis, we address a problem related to the data of ownership links. We compute the indirect links, and identify the group heads. We propose a method for solving this problem using graph theory and combinatorial optimization. We then perform a set of experiments on several real-world instances. The computational results show the effectiveness of our method in terms of CPU-time and resource allocation. In fact, the CPU time for computation increases logarithmically with the size of the instances. Finally, we consider the problem of identifying influence networks. We give a description of this problem in terms of graphs, and show that it can reduce to a graph partitioning problem. The latter is NP-hard. We then propose an integer linear programming formulation to model the problem. We investigate the associated polyhedron and describe several classes of valid inequalities. We give some necessaryand sufficient conditions for these inequalities to define facets of the considered polyhedron, and we discuss the related separation problems. Based on the obtained polyhedral results, we devise a Branch-and-Cut algorithm to solve the problem. Some numerical results are presented to show the efficiency of our algorithm. Connaissance inter-entreprises Optimisation combinatoire Déduplication des données Similarité syntaxique Complexité Graphe Polytope Facette Séparation Algorithme de coupes et branchements Inter-companies knowledge Combinatorial optimization Data duplication Syntactic similarities Computational complexity Graph Polytope Facet Separation Branch-and-Cut algorithm 511.6
144	(Meta)Knowledge modeling for inventive design / Modélisation des (méta)connaissances pour la conception inventive Yan, Wei 07 February 2014 (has links) Un nombre croissant d’industries ressentent le besoin de formaliser leurs processus d’innovation. Dans ce contexte, les outils du domaine de la qualité et les approches d’aide à la créativité provenant du "brain storming" ont déjà montré leurs limites. Afin de répondre à ces besoins, la TRIZ (Acronyme russe pour Théorie de Résolution des Problèmes Inventifs), développée par l’ingénieur russe G. S. Altshuller au milieu du 20ème siècle, propose une méthode systématique de résolution de problèmes inventifs multidomaines. Selon TRIZ, la résolution de problèmes inventifs consiste en la construction du modèle et l’utilisation des sources de connaissance de la TRIZ. Plusieurs modèles et sources de connaissances permettent la résolution de problèmes inventifs de types différents, comme les quarante Principes Inventifs pour l’élimination des contradictions techniques. Toutes ces sources se situent à des niveaux d’abstractions relativement élevés et sont, donc, indépendantes d’un domaine particulier, qui nécessitent des connaissances approfondies des domaines d’ingénierie différents. Afin de faciliter le processus de résolution de problèmes inventifs, un "Système Intelligent de Gestion de Connaissances" est développé dans cette thèse. D’une part, en intégrant les ontologies des bases de connaissance de la TRIZ, le gestionnaire propose aux utilisateurs de sources de connaissance pertinentes pour le modèle qu’ils construisent, et d’autre part, le gestionnaire a la capacité de remplir "automatiquement" les modèles associés aux autres bases de connaissance. Ces travaux de recherche visent à faciliter et automatiser le processus de résolution de problèmes inventifs. Ils sont basés sur le calcul de similarité sémantique et font usage de différentes technologies provenantes de domaine de l’Ingénierie de Connaissances (modélisation et raisonnement basés sur les ontologies, notamment). Tout d’abord, des méthodes de calcul de similarité sémantique sont proposées pour rechercher et définir les liens manquants entre les bases de connaissance de la TRIZ. Ensuite, les sources de connaissance de la TRIZ sont formalisées comme des ontologies afin de pouvoir utiliser des mécanismes d’inférence heuristique pour la recherche de solutions spécifiques. Pour résoudre des problèmes inventifs, les utilisateurs de la TRIZ choisissent dans un premier temps une base de connaissance et obtiennent une solution abstraite. Ensuite, les éléments des autres bases de connaissance similaires aux éléments sélectionnés dans la première base sont proposés sur la base de la similarité sémantique préalablement calculée. A l’aide de ces éléments et des effets physiques heuristiques, d’autres solutions conceptuelles sont obtenues par inférence sur les ontologies. Enfin, un prototype logiciel est développé. Il est basé sur cette similarité sémantique et les ontologies interviennent en support du processus de génération automatique de solutions conceptuelles. / An increasing number of industries feel the need to formalize their innovation processes. In this context, quality domain tools show their limits as well as the creativity assistance approaches derived from brainstorming. TRIZ (Theory of Inventive Problem Solving) appears to be a pertinent answer to these needs. Developed in the middle of the 20th century by G. S. Althshuller, this methodology's goal was initially to improve and facilitate the resolution of technological problems. According to TRIZ, the resolution of inventive problems consists of the construction of models and the use of the corresponding knowledge sources. Different models and knowledge sources were established in order to solve different types of inventive problems, such as the forty inventive principles for eliminating the technical contradictions. These knowledge sources with different levels of abstraction are all built independent of the specific application field, and require extensive knowledge about different engineering domains. In order to facilitate the inventive problem solving process, the development of an "intelligent knowledge manager" is explored in this thesis. On the one hand, according to the TRIZ knowledge sources ontologies, the manager offers to the users the relevant knowledge sources associated to the model they are building. On the other hand, the manager has the ability to fill "automatically" the models of the other knowledge sources. These research works aim at facilitating and automating the process of solving inventive problems based on semantic similarity and ontology techniques. At first, the TRIZ knowledge sources are formalized based on ontologies, such that heuristic inference can be executed to search for specific solutions. Then, methods for calculating semantic similarity are explored to search and define the missing links among the TRIZ knowledge sources. In order to solve inventive problems, the TRIZ user firstly chooses a TRIZ knowledge source to work for an abstract solution. Then, the items of other knowledge sources, which are similar with the selected items of the first knowledge source, are obtained based on semantic similarity calculated in advance. With the help of these similar items and the heuristic physical effects, other specific solutions are returned through ontology inference. Finally, a software prototype is developed based on semantic similarity and ontology inference to support this automatic process of solving inventive problems. Innovation Source de connaissance Similarité sémantique Case-based reasoning Ontologie Inférence de l’ontologie Innovation Knowledge source Semantic similarity Case-based reasoning Ontology Ontology inference 006.3
145	Analyse multi-échelle du comouvement entre les prix du quota carbone, du crédit carbone, et des produits énergétiques / Multi-scale analysis of comovement between the prices of carbon quota, carbon credit, and energetic products Nsouadi, Clarda 21 June 2016 (has links) Notre thèse est une contribution à la compréhension de la structure du prix du quota carbone, à l’analyse de sa fluctuation, et aux interactions pouvant exister entre d’une part le système communautaire d’échange de quota d’émission (SCEQE) et le mécanisme pour le développement propre (MDP) et d’autre part entre le marché du quota carbone et ceux du secteur de l’énergie. Pour réaliser cet objectif, nous faisons appel à l’approche temps-fréquence (ondelettes) qui permet d’analyser le comportement local d’un signal, en isolant les composantes relatives aux fréquences de trading des agents. Cette méthode permet de décomposer la variance d’une série chronologique en différentes composantes fréquentielles dont on peut suivre les évolutions au cours du temps. Les horizons temporels de placement sont affectés à chaque bande de fréquences liés à un degré de risque du marché. Les bandes à haute fréquence obtenues par la décomposition en ondelettes renferment l’information relative à la structure de la série chronologique à court terme et non; celle à moyenne et à basse fréquence captent respectivement les structures de la série chronologique à moyen et long terme. Pour concrétiser notre apport nous proposons un développement de notre recherche en 3 chapitres. Le premier présente le marché carbone, sa création, son fonctionnement, et les différents acteurs qui l’animent. La formation du prix du CO2, son évolution et ses facteurs déterminants. Le deuxième développe une analyse multidimensionnelle du comouvement entre le prix du quota (SCEQE) et du crédit carbone (MDP) selon deux hypothèses : la première est l’homogénéité du comportement des agents. La relation de comouvement entre le prix du quota (SCEQE) et du crédit carbone (MDP) suppose que les intervenants sur le marché disposent d’une même stratégie d’investissement. On utilise dans ce cas les outils économétriques standards (Analyse de la Cointégration, de la causalité, modélisation vecteur Autorégressif). Nous mettons en évidence l’existence d’une causalité unidirectionnelle du CER vers l’EUA conforme aux faits observés de l’accélération du mécanisme pour le développement propre (MDP). En effet les industriels portent un grand intérêt sur le MDP, et cela a eu un impact direct sur le prix de l’EUA sur le marché européen du carbone. Nous observons aussi une dynamique d’interconnexion par l’intermédiaire du VAR(1) entre l’EUA et le CER. La deuxième hypothèse est celle de l’hétérogénéité du comportement des agents. Nous étudions la relation de comouvement entre le prix du quota (SCEQE) et celui crédit carbone (MDP) par une analyse multi-échelle dérivée de la théorie des ondelettes. Nous montrons que quels que soient les différents horizons d’investissement retenus (court, moyen et long terme), il existe une relation positive significative entre les deux séries de prix. De plus La causalité dynamique par ondelettes sur chaque paire de bandes de fréquence, confirme notre hypothèse d’une relation instable entre le EUA et le CER. Le troisième chapitre complète le précédent par l’analyse du comouvement multi-échelle entre le prix du quota carbone issu du SCEQE et ceux des marchés énergétiques (pétrole, le Charbon et le Gaz). La cohérence par ondelettes pierre angulaire de cette étude peut être interprétée comme une mesure de corrélation locale calculée de façon non-paramétrique. Cette première tentative de l’analyse multi-échelle de la relation de comouvement entre le marché du CO2, du pétrole, du Gaz et du Charbon fondée sur l’hypothèse d’hétérogénéité des agents montre qu’il est possible aux intervenants sur le marché carbone d’avoir une grande palette de choix de stratégies leurs permettant de mieux se prémunir contre les risques liés aux fortes volatilités du prix du carbone. / The purpose of this thesis is to contribute to the understanding of the carbon price quota structure, the analysis of its fluctuation, and the interactions that may exist between on the one hand the EU system of emission quota exchange (ETS) and the mechanism for clean development (CDM) and on the other hand between carbon quota market and the quota in the energy sector. For this study, we introduced the hypothesis of heterogeneity of agents' behavior on the carbon market where coexist multiple scales of investments.To achieve this, we used a time-frequency approach (wavelets) that can analyze the local behavior of a signal by isolating the components related to the agents’ trading frequency. This method allows variance decomposition of a time series into different frequency components. The time investment horizons are assigned to each frequency band associated with a degree of market risk. High frequency bands obtained by wavelet decomposition contain information pertaining to the short-term time series structure; the medium and the low frequencies respectively capture the structures of the time series in the medium and long term.To complete this project we proposed developing of our research in 3 chapters:The first chapter presents the carbon market, its creation, its operation, and the various actors who animate it. The formation of the CO2 price, its evolution and its determinants were also analyzed during this chapter.The second chapter develops a multi-scale analysis of the co-movement between price of quota (ETS) and carbon credit (CDM). This particular study was based on two assumptions:- The first assumption was the homogeneity of the various agents’ behaviors. The co-movement relationship between the price of quota (ETS) and carbon credit (CDM) assumes that market participants have the same investment strategy especially since all stakeholders agents invest in these markets on the same horizons. This relationship is studied using standard econometric tools such as Analysis of Co-integration of causality and Vector Autoregressive modeling.The main result of this specific part highlights the existence of a unidirectional causality from the ERC to the EUA with an observed acceleration of the mechanism for clean development (CDM). Manufacturers have a strong interest in the CDM which has had a direct impact on the price of EUAs on the European carbon market. We also observed a dynamic interconnection through the VAR (1) between EUA and CER.- The second assumption is the heterogeneity of agents' behavior. We highlighted the relationship of co-movement between price of quota (ETS) and carbon credit (CDM) to a multi-scale analysis derived from wavelet theory. We show that whatever the different investment horizons retained (short, medium and long term), there is a significant positive relationship between the two sets of prices. The more dynamic causal wavelet on each pair of frequency bands detects an unstable relationship between EUA and CER which confirms our working hypothesis.And finally, a third chapter that complements the previous analysis by the co-movement between multi-scale carbon allowance prices resulting from the ETS to those energy markets (oil, coal and gas). Using coherence wavelet, it examined the simultaneous dependence (co-movement) between two price series in time and frequency. It can be interpreted as a local measurement of correlation calculated non-parametrically. Overall, this study is the first attempt at a multi-scale analysis of the co-movement relationship between the CO2 market, Oil, Gas and Coal which is based on the hypothesis of heterogeneity of agents using a template from wavelet algorithm. The model used in this study will allow stakeholders agents on the carbon market to have a great range of choices for their strategies to be able to anticipate wisely because of the high volatility of carbon prices on their different investment horizons. Finance carbone Prix du crédit et du quota carbone Co-Mouvement Auto-Similarité et non-Linéarité Ondelettes;causalité; cointégration Carbon finance Price of quota and credit carbon Co-Movement Self-Similarity and non-Linearity Prices in the energy sector Wavelets; causality; cointegration
146	Natural language processing of incident and accident reports : application to risk management in civil aviation / Traitement automatique de rapports d’incidents et accidents : application à la gestion du risque dans l’aviation civile / Автоматична обработка на доклади за инциденти : приложения в управлението на риска в гражданското въздухоплаване Tulechki, Nikola 30 September 2015 (has links) Cette thèse décrit les applications du traitement automatique des langues (TAL) à la gestion des risques industriels. Elle se concentre sur le domaine de l'aviation civile, où le retour d'expérience (REX) génère de grandes quantités de données, sous la forme de rapports d'accidents et d'incidents. Nous commençons par faire un panorama des différentes types de données générées dans ce secteur d'activité. Nous analysons les documents, comment ils sont produits, collectés, stockés et organisés ainsi que leurs utilisations. Nous montrons que le paradigme actuel de stockage et d’organisation est mal adapté à l’utilisation réelle de ces documents et identifions des domaines problématiques ou les technologies du langage constituent une partie de la solution. Répondant précisément aux besoins d'experts en sécurité, deux solutions initiales sont implémentées : la catégorisation automatique de documents afin d'aider le codage des rapports dans des taxonomies préexistantes et un outil pour l'exploration de collections de rapports, basé sur la similarité textuelle. En nous basant sur des observations de l'usage de ces outils et sur les retours de leurs utilisateurs, nous proposons différentes méthodes d'analyse des textes issus du REX et discutons des manières dont le TAL peut être appliqué dans le cadre de la gestion de la sécurité dans un secteur à haut risque. En déployant et évaluant certaines solutions, nous montrons que même des aspects subtils liés à la variation et à la multidimensionnalité du langage peuvent être traités en pratique afin de gérer la surabondance de données REX textuelles de manière ascendante / This thesis describes the applications of natural language processing (NLP) to industrial risk management. We focus on the domain of civil aviation, where incident reporting and accident investigations produce vast amounts of information, mostly in the form of textual accounts of abnormal events, and where efficient access to the information contained in the reports is required. We start by drawing a panorama of the different types of data produced in this particular domain. We analyse the documents themselves, how they are stored and organised as well as how they are used within the community. We show that the current storage and organisation paradigms are not well adapted to the data analysis requirements, and we identify the problematic areas, for which NLP technologies are part of the solution. Specifically addressing the needs of aviation safety professionals, two initial solutions are implemented: automatic classification for assisting in the coding of reports within existing taxonomies and a system based on textual similarity for exploring collections of reports. Based on the observation of real-world tool usage and on user feedback, we propose different methods and approaches for processing incident and accident reports and comprehensively discuss how NLP can be applied within the safety information processing framework of a high-risk sector. By deploying and evaluating certain approaches, we show how elusive aspects related to the variability and multidimensionality of language can be addressed in a practical manner and we propose bottom-up methods for managing the overabundance of textual feedback data / Тoзи реферат описва приложението на автоматичната обработка на естествен език (ОЕЕ) в контекста на управлението на риска в гражданското въздухоплаване. В тази област докладването на инциденти и разследването на произшествия генерират голямо количество информация, главно под формата на текстови описания на необичайни събития. На първо време описваме раличните типове (текстови) данни, които секторът произвежда. Анализираме самите документи, методите за съхраняването им, как са организирани, както и техните употреби от екперти по сигурността. Показваме, че съвремените парадигми за съхраняване и организация не са добре приспособени към реалната употреба на този тип данни и установяваме проблемните зони, в които ОЕЕ е част от решението. Две приложения, отговарящи прецизно на нуждите на експерти по авиационна сигурност, са имплементирани: автоматична класификация на доклади за инциденти и система за проучване на на колекции, основаваща се върху текстовото сходство. Въз основа на наблюдения на реалната употреба на приложенията, предлагаме няколко метода за обработка на доклади за инциденти и произшествия и обсъждаме в дълбочина как ОЕЕ може да бъде проложено на различни нива в информационнo-обработващите структури на един високорисков сектор. Оценявайки методите показваме, че трудностите свързани с многоизмерността и изменимостта на човешкия език могат да бъдат ефективно адресирани и предлагаме надеждни възходящи методи за справяне със свръхизобилието на доклади за инциденти в текстови формат Traitement automatique des langues Retour d'expérience Aviation civile Similarité textuelle Gestion du risque Natural language processing Incident reporting Civil aviation Textual similarity Safety management Текстова сходност Управление на риска
147	Gestion efficace de données et couverture dans les réseaux de capteurs sans fil / Energy efficient data handling and coverage for wireless sensor networks Moustafa Harb, Hassan 12 July 2016 (has links) Dans cette thèse, nous proposons des techniques de gestion de données pour économiser l’énergie dans les réseaux de capteurs périodiques basés sur l’architecture de clustering. Premièrement, nous proposons d’adapter le taux d’échantillonnage du capteur à la dynamique de la condition surveillée en utilisant le modèle de one-way ANOVA et des tests statistiques (Fisher, Tukey et Bartlett), tout en prenant en compte l’énergie résiduelle du capteur. Le deuxième objectif est d’éliminer les données redondantes générées dans chaque cluster. Au niveau du capteur, chaque capteur cherche la similarité entre les données collectées à chaque période et entre des périodes successives, en utilisant des fonctions de similarité. Au niveau du CH, nous utilisons des fonctions de distance pour permettre CH d’éliminer les ensembles de données redondantes générées par les nœuds voisins. Enfin, nous proposons deux stratégies actif/inactif pour ordonnancer les capteurs dans chaque cluster, après avoir cherché la corrélation spatio-temporelle entre les capteurs. La première stratégie est basée sur le problème de couverture des ensembles tandis que la seconde prend avantages du degré de corrélation et les énergies résiduelles de capteurs pour ordonnancer les nœuds dans chaque cluster. Pour évaluer la performance des techniques proposées, des simulations sur des données de capteurs réelles ont été menées. La performance a été analysée selon la consommation d’énergie, la latence et l’exactitude des données, et la couverture, tout en montrant comment nos techniques peuvent améliorer considérablement les performances des réseaux de capteurs. / In this thesis, we propose energy-efficient data management techniques dedicated to periodic sensor networks based on clustering architecture. First, we propose to adapt sensor sampling rate to the changing dynamics of the monitored condition using one-way ANOVA model and statistical tests (Fisher, Tukey and Bartlett), while taking into account the residual energy of sensor. The second objective is to eliminate redundant data generated in each cluster. At the sensor level, each sensor searches the similarity between readings collected at each period and among successive periods, based on the sets similarity functions. At the CH level, we use distance functions to allow CH to eliminate redundant data sets generated by neighboring nodes. Finally, we propose two sleep/active strategies for scheduling sensors in each cluster, after searching the spatio-temporal correlation between sensor nodes. The first strategy uses the set covering problem while the second one takes advantages from the correlation degree and the sensors residual energies for scheduling nodes in the cluster. To evaluate the performance of the proposed techniques, simulations on real sensor data have been conducted. We have analyzed their performances according to energy consumption, data latency and accuracy, and area coverage, and we show how our techniques can significantly improve the performance of sensor networks. Réseaux de capteurs périodiques Architecture clustering Fonctions de similarité et de distance Corrélation spatio-temporelle Stratégies d'ordonnancement Periodic sensor networks Clustering architecture Adaptive sensor sampling rate Similarity and distance functions Spatio-temporal correlation Scheduling strategies 004.6
148	Big data management for periodic wireless sensor networks / Gestion de données volumineuses dans les réseaux de capteurs périodiques Medlej, Maguy 30 June 2014 (has links) Les recherches présentées dans ce mémoire s’inscrivent dans le cadre des réseaux decapteurs périodiques. Elles portent sur l’étude et la mise en oeuvre d’algorithmes et de protocolesdistribués dédiés à la gestion de données volumineuses, en particulier : la collecte, l’agrégation etla fouille de données. L’approche de la collecte de données permet à chaque noeud d’adapter sontaux d’échantillonnage à l’évolution dynamique de l’environnement. Par ce modèle le suréchantillonnageest réduit et par conséquent la quantité d’énergie consommée. Elle est basée surl’étude de la dépendance de la variance de mesures captées pendant une même période voirpendant plusieurs périodes différentes. Ensuite, pour sauvegarder plus de l’énergie, un modèled’adpatation de vitesse de collecte de données est étudié. Ce modèle est basé sur les courbes debézier en tenant compte des exigences des applications. Dans un second lieu, nous étudions unetechnique pour la réduction de la taille de données massive qui est l’agrégation de données. Lebut est d’identifier tous les noeuds voisins qui génèrent des séries de données similaires. Cetteméthode est basée sur les fonctions de similarité entre les ensembles de mesures et un modèle defiltrage par fréquence. La troisième partie est consacrée à la fouille de données. Nous proposonsune adaptation de l’approche k-means clustering pour classifier les données en clusters similaires,d’une manière à l’appliquer juste sur les préfixes des séries de mesures au lieu de l’appliquer auxséries complètes. Enfin, toutes les approches proposées ont fait l’objet d’études de performancesapprofondies au travers de simulation (OMNeT++) et comparées aux approches existantes dans lalittérature. / This thesis proposes novel big data management techniques for periodic sensor networksembracing the limitations imposed by wsn and the nature of sensor data. First, we proposed anadaptive sampling approach for periodic data collection allowing each sensor node to adapt itssampling rates to the physical changing dynamics. It is based on the dependence of conditionalvariance of measurements over time. Then, we propose a multiple level activity model that usesbehavioral functions modeled by modified Bezier curves to define application classes and allowfor sampling adaptive rate. Moving forward, we shift gears to address the periodic dataaggregation on the level of sensor node data. For this purpose, we introduced two tree-based bilevelperiodic data aggregation techniques for periodic sensor networks. The first one look on aperiodic basis at each data measured at the first tier then, clean it periodically while conservingthe number of occurrences of each measure captured. Secondly, data aggregation is performedbetween groups of nodes on the level of the aggregator while preserving the quality of theinformation. We proposed a new data aggregation approach aiming to identify near duplicatenodes that generate similar sets of collected data in periodic applications. We suggested the prefixfiltering approach to optimize the computation of similarity values and we defined a new filteringtechnique based on the quality of information to overcome the data latency challenge. Last butnot least, we propose a new data mining method depending on the existing K-means clusteringalgorithm to mine the aggregated data and overcome the high computational cost. We developeda new multilevel optimized version of « k-means » based on prefix filtering technique. At the end,all the proposed approaches for data management in periodic sensor networks are validatedthrough simulation results based on real data generated by periodic wireless sensor network. Réseaux de capteurs périodiques, Collecte adaptative de données Agrégation de données Filtrage par préfixe Fonction de similarité Fouille de données K-Means Periodic sensor networks, Adaptive sampling approach Bezier Curve Treebased data aggregation Similar sets Prefix frequency filtering Data mining K-Means 004.6
149	Convergence en conversation : La similarité linguistique comme indice d'alignement et d'affiliation / Convergence in conversation : linguistic similarity as a cue of alignment and affiliation Guardiola, Mathilde 01 December 2014 (has links) Cette thèse questionne les manifestations de la convergence (i.e. le rapprochement entre les productions des participants) au niveau interactionnel. Pour cela, les termes d'alignement (défini en rapport avec l'activité en cours) et d'affiliation (l'expression d'un même stance par les participants) sont empruntés à l'Analyse Conversationnelle. Le corpus utilisé est le CID-Corpus of Interational Data, corpus de conversation (interaction non-contrainte, hautement coopérative et globalement symétrique).Nous interrogeons le lien entre la convergence et la similarité lexicale, grâce à l'analyse d'une collection de 300 hétéro-répétitions (recueillie grâce à un outil d'aide au repérage des répétitions). Nous proposons ensuite une analyse quantitative de l'évolution des réponses des auditeurs, puis une analyse qualitative de discours rapportés directs, phénomènes susceptibles de faire émerger de l'affiliation. Nous montrons que les hétéro-répétitions lexicales et les discours rapportés « en écho » (discours rapportés produits par l'auditeur de la narration) peuvent être utilisés (entre autres) pour exprimer l'alignement et l'affiliation, ce qui, en cas de ratification, crée les conditions propices à l'émergence d'un moment de convergence interactionnelle. Nous montrons également que ces mêmes phénomènes peuvent servir à créer le désalignement temporaire nécessaire à l'engagement dans une séquence oblique convergente. Ainsi, ce travail décrit l'établissement et le fonctionnement de séquences convergentes, à travers l'étude de phénomènes interactionnels méconnus. / This thesis investigates the manifestations of convergence (i.e. the rapprochement between the participants' productions) at the level of interaction. With this aim, the terms of alignment (defined in relation to the current activity) and affiliation (display of the same stance by both participants) are borrowed from Conversation Analysis. The conversational corpus (non-constrained, highly cooperative and globally symmetrical interaction) used is the CID-Corpus of Interactional Data. Firstly, the link between convergence and lexical similarity is investigated thanks to the analysis of a collection of 300 other-repetitions (collected using a tool to assist in the detection of OR). Secondly, storytelling is studied and a quantitative analysis of the evolution of listeners' responses is proposed together with a qualitative analysis of direct reported speech phenomena, which are likely to make affiliation emerge. These analyses show that lexical other-repetitions and "echo" reported speech (reported speech which is produced by the listener of the narrative) can be used by participants to, inter alia, express alignment and affiliation, which, in case of ratification, creates the adequate conditions for the emergence of interactional convergence. The same phenomena can be used to create the temporary disalignment necessary to engage in an oblique (and potentially convergent) sequence. This work then describes the establishment and the conduct of convergent sequences through the analysis of interactional phenomena. Convergence interactionnelle Alignement Affiliation Similarité linguistique Discours rapporté Réponses Hétéro-Répétitions Conversation Parole semi-Spontanée Analyse Conversationnelle Interactional convergence Alignment Affiliation Linguistic similarity Reported speech Responses Other-Repetitions Conversation Semi-Spontaneous speech Conversation Analysis
150	De l'usage de la sémantique dans la classification supervisée de textes : application au domaine médical / On the use of semantics in supervised text classification : application in the medical domain Albitar, Shereen 12 December 2013 (has links) Cette thèse porte sur l’impact de l’usage de la sémantique dans le processus de la classification supervisée de textes. Cet impact est évalué au travers d’une étude expérimentale sur des documents issus du domaine médical et en utilisant UMLS (Unified Medical Language System) en tant que ressource sémantique. Cette évaluation est faite selon quatre scénarii expérimentaux d’ajout de sémantique à plusieurs niveaux du processus de classification. Le premier scénario correspond à la conceptualisation où le texte est enrichi avant indexation par des concepts correspondant dans UMLS ; le deuxième et le troisième scénario concernent l’enrichissement des vecteurs représentant les textes après indexation dans un sac de concepts (BOC – bag of concepts) par des concepts similaires. Enfin le dernier scénario utilise la sémantique au niveau de la prédiction des classes, où les concepts ainsi que les relations entre eux, sont impliqués dans la prise de décision. Le premier scénario est testé en utilisant trois des méthodes de classification: Rocchio, NB et SVM. Les trois autres scénarii sont uniquement testés en utilisant Rocchio qui est le mieux à même d’accueillir les modifications nécessaires. Au travers de ces différentes expérimentations nous avons tout d’abord montré que des améliorations significatives pouvaient être obtenues avec la conceptualisation du texte avant l’indexation. Ensuite, à partir de représentations vectorielles conceptualisées, nous avons constaté des améliorations plus modérées avec d’une part l’enrichissement sémantique de cette représentation vectorielle après indexation, et d’autre part l’usage de mesures de similarité sémantique en prédiction. / The main interest of this research is the effect of using semantics in the process of supervised text classification. This effect is evaluated through an experimental study on documents related to the medical domain using the UMLS (Unified Medical Language System) as a semantic resource. This evaluation follows four scenarios involving semantics at different steps of the classification process: the first scenario incorporates the conceptualization step where text is enriched with corresponding concepts from UMLS; both the second and the third scenarios concern enriching vectors that represent text as Bag of Concepts (BOC) with similar concepts; the last scenario considers using semantics during class prediction, where concepts as well as the relations between them are involved in decision making. We test the first scenario using three popular classification techniques: Rocchio, NB and SVM. We choose Rocchio for the other scenarios for its extendibility with semantics. According to experiment, results demonstrated significant improvement in classification performance using conceptualization before indexing. Moderate improvements are reported using conceptualized text representation with semantic enrichment after indexing or with semantic text-to-text semantic similarity measures for prediction. Classification supervisée de texte Sémantique Conceptualisation Enrichissement sémantique Mesures de similarité sémantique Domaine médical UMLS Rocchio NB SVM Supervised text classification Semantics Conceptualization Semantic enrichment Semantic similarity measures Medical domain UMLS Rocchio NB SVM

Search results