Cette thèse décrit les applications du traitement automatique des langues (TAL) à la gestion des risques industriels. Elle se concentre sur le domaine de l'aviation civile, où le retour d'expérience (REX) génère de grandes quantités de données, sous la forme de rapports d'accidents et d'incidents. Nous commençons par faire un panorama des différentes types de données générées dans ce secteur d'activité. Nous analysons les documents, comment ils sont produits, collectés, stockés et organisés ainsi que leurs utilisations. Nous montrons que le paradigme actuel de stockage et d’organisation est mal adapté à l’utilisation réelle de ces documents et identifions des domaines problématiques ou les technologies du langage constituent une partie de la solution. Répondant précisément aux besoins d'experts en sécurité, deux solutions initiales sont implémentées : la catégorisation automatique de documents afin d'aider le codage des rapports dans des taxonomies préexistantes et un outil pour l'exploration de collections de rapports, basé sur la similarité textuelle. En nous basant sur des observations de l'usage de ces outils et sur les retours de leurs utilisateurs, nous proposons différentes méthodes d'analyse des textes issus du REX et discutons des manières dont le TAL peut être appliqué dans le cadre de la gestion de la sécurité dans un secteur à haut risque. En déployant et évaluant certaines solutions, nous montrons que même des aspects subtils liés à la variation et à la multidimensionnalité du langage peuvent être traités en pratique afin de gérer la surabondance de données REX textuelles de manière ascendante / This thesis describes the applications of natural language processing (NLP) to industrial risk management. We focus on the domain of civil aviation, where incident reporting and accident investigations produce vast amounts of information, mostly in the form of textual accounts of abnormal events, and where efficient access to the information contained in the reports is required. We start by drawing a panorama of the different types of data produced in this particular domain. We analyse the documents themselves, how they are stored and organised as well as how they are used within the community. We show that the current storage and organisation paradigms are not well adapted to the data analysis requirements, and we identify the problematic areas, for which NLP technologies are part of the solution. Specifically addressing the needs of aviation safety professionals, two initial solutions are implemented: automatic classification for assisting in the coding of reports within existing taxonomies and a system based on textual similarity for exploring collections of reports. Based on the observation of real-world tool usage and on user feedback, we propose different methods and approaches for processing incident and accident reports and comprehensively discuss how NLP can be applied within the safety information processing framework of a high-risk sector. By deploying and evaluating certain approaches, we show how elusive aspects related to the variability and multidimensionality of language can be addressed in a practical manner and we propose bottom-up methods for managing the overabundance of textual feedback data / Тoзи реферат описва приложението на автоматичната обработка на естествен език (ОЕЕ) в контекста на управлението на риска в гражданското въздухоплаване. В тази област докладването на инциденти и разследването на произшествия генерират голямо количество информация, главно под формата на текстови описания на необичайни събития. На първо време описваме раличните типове (текстови) данни, които секторът произвежда. Анализираме самите документи, методите за съхраняването им, как са организирани, както и техните употреби от екперти по сигурността. Показваме, че съвремените парадигми за съхраняване и организация не са добре приспособени към реалната употреба на този тип данни и установяваме проблемните зони, в които ОЕЕ е част от решението. Две приложения, отговарящи прецизно на нуждите на експерти по авиационна сигурност, са имплементирани: автоматична класификация на доклади за инциденти и система за проучване на на колекции, основаваща се върху текстовото сходство. Въз основа на наблюдения на реалната употреба на приложенията, предлагаме няколко метода за обработка на доклади за инциденти и произшествия и обсъждаме в дълбочина как ОЕЕ може да бъде проложено на различни нива в информационнo-обработващите структури на един високорисков сектор. Оценявайки методите показваме, че трудностите свързани с многоизмерността и изменимостта на човешкия език могат да бъдат ефективно адресирани и предлагаме надеждни възходящи методи за справяне със свръхизобилието на доклади за инциденти в текстови формат
Identifer | oai:union.ndltd.org:theses.fr/2015TOU20035 |
Date | 30 September 2015 |
Creators | Tulechki, Nikola |
Contributors | Toulouse 2, Tanguy, Ludovic |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0029 seconds