Global ETD Search

1	Contribution de la linguistique de corpus à la constitution de langues contrôlées pour la rédaction technique : l'exemple des exigences de projets spatiaux / A methodology for creating controlled natural languages for technical writing based on corpus analysis : a case study on requirements written for space projects Warnier, Maxime 10 September 2018 (has links) L'objectif de notre travail, qui émane d'une demande de la sous-direction Assurance Qualité du CNES (Centre National d'Études Spatiales), est d'augmenter la clarté des spécifications techniques rédigées par les ingénieurs préalablement à la réalisation de systèmes spatiaux. L'importance des spécifications (et en particulier des exigences qui les composent) pour la réussite des projets de grande envergure est en effet désormais largement reconnue, de même que les principaux problèmes liés à l'utilisation de la langue naturelle (ambiguïtés, flou, incomplétude) sont bien identifiés. Dès lors, de nombreuses solutions, plus ou moins formalisées, ont été proposées et développées pour limiter les risques d'interprétation erronée – dont les conséquences potentielles peuvent se révéler extrêmement coûteuses – lors de la rédaction des exigences.Nous voudrions définir une langue contrôlée pour la rédaction des exigences en français au CNES. L’originalité de notre démarche consiste à systématiquement vérifier nos hypothèses sur un corpus d’exigences (constitué à partir d’authentiques spécifications de projets spatiaux) à l’aide de techniques et d’outils de traitement automatique du langage existants, dans l’optique de proposer un ensemble cohérent de règles (nouvelles ou inspirées de règles plus anciennes) qui puissent ainsi être vérifiées semi-automatiquement lors de l’étape de spécification et qui soient conformes aux pratiques de rédaction des ingénieurs du CNES. Pour cela, nous nous appuyons notamment sur l’hypothèse de l’existence d’un genre textuel, que nous tentons de prouver par une analyse quantitative, ainsi que sur les notions de normalisation et normaison. Notre méthodologie combine les approches corpus-based et corpus-driven en tenant compte à la fois des règles imposées par deux autres langues contrôlées (dont l’adéquation avec des données réelles est discutée au travers d’une analyse plus qualitative) et des résultats offerts par des outils de text mining. / The aim of this work is to improve the clarity and precision of the technical specifications written in French by the engineers at CNES (Centre National d’Études Spatiales / National Centre for Space Studies) prior to the realization of space systems. The importance of specifications (and particularly of the requirements that are part of them) for the success of large-scale projects is indeed widely acknowledged; similarly, the main risks associated with the use of natural language (ambiguity, vagueness, incompleteness) are relatively well identified.In this context, we would like to propose a solution that would be used by the engineers at CNES (who are currently not asked to follow specific writing rules): in that respect, we believe that this solution should be both effective (i.e. it should significantly limit the above-mentioned risks) and not too disruptive (which would make it counterproductive). A Controlled Natural Language (CNL) – i.e. a set of linguistic rules constraining the lexicon, the syntax and the semantics – seems to be an interesting option, provided that it remains close enough to natural language. Unfortunately, the CNLs for technical writing that we have examined are not always relevant from a linguistic point of view.Our methodology for developping a CNL for requirements writing in French at CNES relies on the hypothesis of the existence of a textual genre; besides, we make use of existing Natural Language Processing tools and methods to validate the relevance of the rules on a corpus of genuine requirements written for former projects. Exigences Spécifications Langue contrôlée Genre textuel Corpus Requirements Specifications Controlled language Textual genre Corpus
2	Système de traduction automatique français-chinois dans le domaine de la sécurité globale / French-Chinese machine translation system for global security Jin, Gan 19 February 2015 (has links) Dans ce mémoire, nous présentons outre les résultats de recherche en vue d’un système de traduction automatique français–chinois, les apports théoriques à partir de la théorie SyGULAC et de la théorie micro-systémique avec ses calculs ainsi que les méthodologies élaborées tendant à une application sure et fiable dans le cadre de la traduction automatique. L’application porte sur des domaines de sécurité critique tels que l’aéronautique, la médecine, la sécurité civile. Tout d’abord un état de l’art du domaine de la traduction automatique, en Chine et en France, est utile pour commencer la lecture. Les faiblesses des systèmes actuels à travers des tests que nous réalisons prouvent l’intérêt de cette recherche. Nous donnons les raisons pour lesquelles nous avons choisi la théorie micro-systémique et la théorie SyGULAC. Nous expliquons ensuite les problématiques rencontrées au cours de notre recherche. L’ambigüité, obstacle majeur pour la compréhensibilité et la traductibilité d’un texte, se situe à tous les niveaux de la langue : syntaxique, morphologique, lexical, nominal ou encore verbal. L’identification des unités d’une phrase est aussi une étape préalable à la compréhension globale, que cela soit pour un être humain ou un système de traduction. Nous dressons un état des lieux de la divergence entre la langue française et la langue chinoise en vue de réaliser un système de traduction automatique. Nous essayons d’observer la structure aux niveaux verbal, nominal et lexical, de comprendre leurs liens et leurs interactions. Egalement nous définissons les obstacles sources d’entrave à la réalisation de cette recherche, avec un point de vue théorique mais aussi en étudiant notre corpus concret. Le formalisme pour lequel nous avons opté part d’une étude approfondie de la langue utilisée dans les protocoles de sécurité. Une langue ne se prête au traitement automatique que si elle est formalisée. De ce fait, nous avons procédé à l’analyse de plusieurs corpus bilingues français/chinois mais aussi monolingues émanant d’organismes de sécurité civile. Le but est de dégager les particularités linguistiques (lexicales, syntaxiques, …) qui caractérisent la langue de la sécurité en général et de recenser toutes les structures syntaxiques qu’utilise cette langue. Après avoir présenté la formalisation de notre système, nous montrons les processus de reconnaissance, de transfert et de génération. / In this paper, in addition to our research results for a French-Chinese machine translation system, we present the theoretical contributions from the SyGULAC theory and from the micro-systemic theory with its calculations as well as the methodologies developed aimed at a secure and reliable application in the context of machine translation. The application covers critical safety areas such as aerospace, medicine and civil security.After presenting the state of the art in the field of machine translation in China and France, the reasons of the choice of the micro-systemic theory and SyGULAC theory are explained. Then, we explain the problems encountered during our research. The ambiguity, which is the major obstacle to the understandability and to the translatability of a text, is present at all language levels: syntactic, morphological, lexical, nominal and verbal. The identification of the units of a sentence is also a preliminary step for global understanding, whether for human beings or for a translation system. We present an inventory of the divergences between the french and the chinese language in order to achieve an machine translation system. We try to observe the verbal, nominal and vocabulary structure levels, in order to understand their interconnections and their interactions. We also define the obstacles to this research, with a theoretical point of view but also by studying our corpus.The chosen formalism starts from a thorough study of the language used in security protocols. A language is suitable for automatic processing only if this language is formalized. Therefore, An analysis of several French/Chinese bilingual corpora, but also monolingual, from civil security agencies, was conducted. The goal is to find out and present the linguistic characteristics (lexical, syntactic ...) which characterize the language of security in general, and to identify all the syntactic structures used by this language. After presenting the formalization of our system, we show the recognition, transfer and generation processes. Traduction automatique Langue contrôlée Chinois Français Théorie SyGULAC Théorie micro-systémique Machine translation Controlled language Chinese French 402
3	Vers un prototype de traduction automatique contrôlée français/arabe appliquée aux domaines à sécurité critique / Towards a machine translation prototype for controlled french to controlled arabic applied to security critical domains Beddar, Mohand 30 April 2013 (has links) La présente recherche propose un modèle de traduction automatique français-arabe contrôlée appliquée aux domaines à sécurité critique. C’est une recherche transverse qui traite à la fois des langues contrôlées et de la traduction automatique français-arabe, deux concepts intimement liés. Dans une situation de crise où la communication doit jouer pleinement son rôle, et dans une mondialisation croissante où plusieurs langues cohabitent, notre recherche montre que l’association de ces deux concepts est plus que nécessaire. Nul ne peut contester aujourd’hui la place prépondérante qu’occupe la sécurité dans le quotidien des personnes et les enjeux qu’elle représente au sein des sociétés modernes. Ces sociétés davantage complexes et interconnectées manifestent une vulnérabilité flagrante qui les oblige à repenser leurs moyens d’organisation et de protection dont les systèmes de communication. La communication langagière à l’aide de systèmes informatisés est l’une des formes de communication la plus souvent utilisée pour le transfert des connaissances nécessaires à l’accomplissement des tâches et le déroulement des diverses actions. Toutefois, et contrairement à une idée bien ancrée qui tend à associer les risques d’une mauvaise communication à l’oral uniquement, l’usage de la langue écrite peut lui aussi comporter des risques. En effet des messages mal écrits peuvent conduire à de réelles catastrophes et à des conséquences irréversibles notamment dans des domaines jugés sensibles tels que les domaines à sécurité critique. C’est dans ce contexte que s’inscrit notre recherche. Cette thèse est une approche novatrice dans les domaines des langues contrôlées et de la traduction automatique. Elle définit avec précision, en s’appuyant sur une analyse microsystémique de la langue et un travail en intension sur le corpus, des normes pour la rédaction de protocoles de sécurité et d’alertes ainsi que leur traduction automatique vers l’arabe. Elle apporte en effet des notions nouvelles à travers plusieurs procédés normatifs intervenant non seulement dans le processus de contrôle mais également dans le processus de traduction. Le système de traduction automatique français-arabe TACCT (Traduction Automatique Contrôlée Centre Tesnière) mis au point dans cette thèse est un système à base de règles linguistiques qui repose sur un modèle syntaxico-sémantique isomorphique issu des analyses intra- et interlangues entre le français et l’arabe. Il introduit de nouveaux concepts notamment celui des macrostructures miroir contrôlées, où la syntaxe et la sémantique des langues source et cible sont représentées au même niveau. / The result of our research is a proposal for a controlled French to Arabic machine translation model, applied to security critical domains. This cross-disciplinary research study covers controlled languages and French to Arabic machine translation, two intimately related concepts. In a situation of crisis where communication must play its full role, and in the context of increasing globalisation where many languages coexist, our research findings show that the combination of these two concepts is sorely needed. No one can deny today the predominant role played by security in people’s daily life and the significant challenges it presents in modern societies. These more and more complex and interconnected societies present evident vulnerabilities that force them to rethink their means of protection and in particular that of their communication systems. Language communication with computerised systems is one of the most widely used forms of communication for the transfer of knowledge required in carrying out and completing tasks and in the good conduct of various activities. However, and contrary to an entrenched idea that tends to associate the risk of poor communication only with oral transmission, the use of written language can also be subject to risk. Indeed, a protocol or an alert which is badly formulated can provoke serious accidents due to misunderstanding, in particular during a crisis and under stress. It is in this context that our research has been undertaken. Our thesis proposes an innovative approach in the fields of controlled language and machine translation in which, relying on a microsystemic analysis of the language and a study of the corpus in intension, precise standards are defined for writing and translating protocols and security alerts written in French automatically into Arabic. Indeed, new concepts are introduced by means of several normative methods involved not only in the controlling process but also in the machine translation process. The French to Arabic machine translation system TACCT (Traduction Automatique Contrôlée Centre Tesnière) developed during our research is a rule-based system based on an isomorphic syntactic and semantic model stemming from intra- and interlanguage analysis between French and Arabic. It introduces new concepts including controlled mirror macrostructures, where the syntax and semantics of the source and target languages are represented at the same level. Traduction automatique Arabe Français Langue contrôlée Syntaxe Macrostructures miroir Systémique Sémantique Nominalisation Protocole de sécurité Langue spécialisée Linguistique contrastive Machine translation Semantics Arabic French Controlled language Syntax Mirror macrostructures Systemic Nominalization Security protocols Specialized language Contrastive linguistics 402
4	Controlled language for Thai software requirements specification / Langue contrôlée pour la spécification des besoins du logiciel en thaï Thongglin, Kanjana 07 June 2014 (has links) Cette thèse porte sur l’utilisation d’une langue contrôlée pour les spécifications des besoins du logiciel en thaï. L’étudedécrit les ambiguïtés syntaxiques et sémantiques ainsi que les problèmes rencontrés dans les spécifications des besoins dulogiciel en thaï. Ce travail explique également la nature de la langue thaïe. Le modèle de la langue contrôlée pour lesspécifications des besoins du logiciel en thaï, proposé dans cette étude, comprend trois composantes: l’analyse lexicale,l’analyse syntaxique et l’analyse sémantique. Pour l’analyse syntaxique, une syntaxe contrôlée est conçue en utilisant laforme du Backus-Naur (BNF). Quant à l’analyse lexicale, nous créons une ressource lexicale sous forme de langage XMLpour stocker tous les mots classés selon leur domaine. Les mots reçus de la ressource XML sont corrects d’un point de vueconceptuel mais ne sont pas pertinents d’un point de vue sémantique. Pour résoudre ce problème, nous faisons alors usage dematrices booléennes pour aligner les phrases sémantiquement. Ainsi les phrases produites par le modèle serontsyntaxiquement et sémantiquement correctes.Après avoir créé le modèle, nous avons construit un logiciel pour tester son efficacité. Il est ainsi évalué par quatreméthodes d’évaluation : 1. le test de fonctionnement syntaxique pour vérifier la syntaxe de la phrase; 2. le test defonctionnement sémantique pour tester la sémantique de la phrase; 3. le test d’acceptation en terme de satisfaction desutilisateurs avec le logiciel; et 4. le test d’acceptation en terme d’acception des données de sortie.Des résultats positifs montrent que : 1. les phrases produites par le modèle proposé sont syntaxiquement correctes; 2. lesphrases produites par le modèle proposé sont sémantiquement correctes; 3. les utilisateurs sont satisfaits et acceptent lelogiciel; et 4. les utilisateurs acceptent et comprennent les phrases produites par ce modèle. / This thesis focuses on using controlled language for Thai software requirements specifications. The studydescribes the ambiguities and problems encountered in Thai software requirements specifications; both syntacticambiguity and semantic ambiguity. The study also describes the nature of the Thai language. The model of controlledlanguage for Thai software requirements specifications is composed of three main components: lexical analysis,syntactic analysis, and semantic analysis. For syntactic analysis, a controlled syntax is created using Backus-NaurForm (BNF). In the lexical analysis stage, an XML format lexical resource is built to store words according to theirdomain. The words received from the XML resource are conceptually correct but may be semantically irrelevant. Tosolve this issue, the model applies Boolean Matrices to align sentences semantically. As a result, the sentencesproduced from the model are guaranteed to be syntactically and semantically correct.After having created this model, a program for testing the efficiency of the model is developed. The model isevaluated using four testing methods as follows: 1. functional testing for the correctness of the sentence’s syntax, 2.functional testing for the semantic correctness of the sentences produced by the model, 3. acceptance testing in termsof user satisfaction with the program, and 4. acceptance testing in terms of the validity of the outputs.The positive results signify that: 1. the sentences produced by the proposed model are syntactically correct, 2. thesentences produced by the proposed model are semantically correct, 3. the users are satisfied and accept the softwarecreated, and 4. the users approve and understand the sentences produced from this model. Ambiguïté Langue contrôlée Forme de Backus-Naur Ressource XML Matrice booléenne Ambiguity Controlled language Backus-Naur form XML resource Boolean matrix 402

1

Page generated in 0.0659 seconds