Global ETD Search

61	Le préverbe i en créole réunionnais : étude de syntaxe comparée / The verb i in Reunion creole : comparative syntax study Gaze, Laetitia 07 May 2019 (has links) Cette thèse s'inscrit dans le champ de la linguistique classique. Elle aborde l'étude du fonctionnement syntaxique du préverbe i en créole réunionnais. Un inventaire précis de ses emplois d'un point de vue descriptif est fait afin de déterminer ses conditions d'apparition et les conditions où il n'apparaît pas. Deux grandes catégories d'hypothèses sont confrontées : les hypothèses à base sémantique et les hypothèses à base purement syntaxique. Il s'agit de démontrer le bien-fondé de la seconde approche et les point faibles de la première. Les théories déjà publiées sur le problème du i sont examinées. Pour mieux saisir la valeur du i réunionnais, une comparaison des structures des créoles à base lexicale française est réalisée : le créole réunionnais qui est au premier plan de notre recherche ; les créoles mauricien et seychellois de la région de l'océan Indien et les créoles martiniquais, guadeloupéen et haïtien de la région de l'océan Atlantique. / This thesis is part of the field of classical linguistics. It deals with the study of the syntactic functioning of the preverb i in Reunion creole. A precise inventory of its uses from a descriptive point of view is made in order to determine its conditions of appearance and the conditions in which it does not appear. Two major categories of hypotheses are confronted: seamantic-based hypotheses and purely syntactical hypotheses. This is to demonstrate the merits of the second approach and the weak points of the first. Already published theories on the problem of i are examined. To better understand the value of Reunionese i, a comparaison of the structures of French-based creole languages is carried out: Reunion creole which is at the forefront of our reseach; Mauritian and Seychellois Creoles in Indian ocean region and Martinican, Guadeloupe and Haitian creoles of the Atlantic ocean region I Marqueur prédicatif Hypothèse syntaxique Créoles de l'océan Indien Créoles de l'océan Atantique I Predicative marker Syntactic hypothesis Indian ocean creoles Altlantic ocean creoles
62	Extraction en langue chinoise d'actions spatiotemporalisées réalisées par des personnes ou des organismes / Extraction of spatiotemporally located actions performed by individuals or organizations from Chinese texts Wang, Zhen 09 June 2016 (has links) La thèse a deux objectifs : le premier est de développer un analyseur qui permet d'analyser automatiquement des sources textuelles en chinois simplifié afin de segmenter les textes en mots et de les étiqueter par catégories grammaticales, ainsi que de construire les relations syntaxiques entre les mots. Le deuxième est d'extraire des informations autour des entités et des actions qui nous intéressent à partir des textes analysés. Afin d'atteindre ces deux objectifs, nous avons traité principalement les problématiques suivantes : les ambiguïtés de segmentation, la catégorisation ; le traitement des mots inconnus dans les textes chinois ; l'ambiguïté de l'analyse syntaxique ; la reconnaissance et le typage des entités nommées. Le texte d'entrée est traité phrase par phrase. L'analyseur commence par un traitement typographique au sein des phrases afin d'identifier les écritures latines et les chiffres. Ensuite, nous segmentons la phrase en mots à l'aide de dictionnaires. Grâce aux règles linguistiques, nous créons des hypothèses de noms propres, changeons les poids des catégories ou des mots selon leur contextes gauches ou/et droits. Un modèle de langue n-gramme élaboré à partir d'un corpus d'apprentissage permet de sélectionner le meilleur résultat de segmentation et de catégorisation. Une analyse en dépendance est utilisée pour marquer les relations entre les mots. Nous effectuons une première identification d'entités nommées à la fin de l'analyse syntaxique. Ceci permet d'identifier les entités nommées en unité ou en groupe nominal et également de leur attribuer un type. Ces entités nommées sont ensuite utilisées dans l'extraction. Les règles d'extraction permettent de valider ou de changer les types des entités nommées. L'extraction des connaissances est composée des deux étapes : extraire et annoter automatiquement des contenus à partir des textes analysés ; vérifier les contenus extraits et résoudre la cohérence à travers une ontologie. / We have developed an automatic analyser and an extraction module for Chinese langage processing. The analyser performs automatic Chinese word segmentation based on linguistic rules and dictionaries, part-of-speech tagging based on n-gram statistics and dependency grammar parsing. The module allows to extract information around named entities and activities. In order to achieve these goals, we have tackled the following main issues: segmentation and part-of-speech ambiguity; unknown word identification in Chinese text; attachment ambiguity in parsing. Chinese texts are analysed sentence by sentence. Given a sentence, the analyzer begins with typographic processing to identify sequences of Latin characters and numbers. Then, dictionaries are used for preliminary segmentation into words. Linguistic-based rules are used to create proper noun hypotheses and change the weight of some word categories. These rules take into account word context. An n-gram language model is created from a training corpus and selects the best word segmentation and parts-of-speech. Dependency grammar parsing is used to annotate relations between words. A first step of named entity recognition is performed after parsing. Its goal is to identify single-word named entities and noun-phrase-based named entities and to determine their semantic type. These named entities are then used in knowledge extraction. Knowledge extraction rules are used to validate named entities or to change their types. Knowledge extraction consists of two steps: automatic content extraction and tagging from analysed text; extracted contents control and ontology-based co-reference resolution. Langue chinoise Traitement automatique du chinois Extraction d'information Segmentation Analyse syntaxique Reconnaissance d'entités nommées Chinese Chinese language processing Knowledge extraction Segmentation Parsing Named entity recognition
63	Classifications et grammaires des invariants lexicaux arabes en prévision d’un traitement informatique de cette langue. Construction d’un modèle théorique de l’arabe : la grammaire des invariants lexicaux temporels / Classifications and grammars of Arab lexical invariants in anticipation of an automatic processing of this language. Construction of a theoretical model of Arabic : grammar of temporal lexical invariants Ghoul, Dhaou 07 December 2016 (has links) Cette thèse porte sur la classification et le traitement des invariants lexicaux arabes qui expriment un aspect temporel afin de créer un modèle qui présente chaque invariant sous la forme d’un schéma de grammaire (automates à états finis). Dans ce travail nous avons limité notre traitement seulement pour 20 invariants lexicaux. Notre hypothèse part du principe que les invariants lexicaux sont situés au même niveau structural (formel) que les schèmes dans le langage quotient (squelette) de la langue arabe. Ils cachent beaucoup d’informations et entraînent des attentes syntaxiques qui permettent de prédire la structure de la phrase.Au début de cette thèse, nous abordons la notion « invariant lexical » en exposant les différents niveaux d’invariance. Ensuite, nous classons les invariants étudiés dans cette thèse selon plusieurs critères.La deuxième partie de cette thèse fait l’objet de notre propre étude concernant les invariants lexicaux temporels dans laquelle nous commençons par une présentation de notre méthode d’étude linguistique ainsi que la modélisation par schémas de grammaires des invariants lexicaux temporels étudiés. Ensuite, nous abordons l’analyse proprement dite des invariants lexicaux simples comme « ḥattā, baʿda » et complexes comme « baʿdamā, baynamā ».Enfin, une application expérimentale « Kawâkib » a été employée pour détecter et identifier les invariants lexicaux en montrant leurs points forts aussi bien que leurs lacunes. Nous proposons également une nouvelle vision de la prochaine version de « Kawâkib » qui peut représenter une application pédagogique de l'arabe sans lexique. / This thesis focuses on the classification and the treatment of Arabic lexical invariants that express a temporal aspect. Our aim is to create a diagram of grammar (finite state machine) for each invariant. In this work, we limited our treatment to 20 lexical invariants. Our assumption is that the lexical invariants are located at the same structural level (formal) as the schemes in the language quotient (skeleton) of the Arabic language. They hide much information and involve syntactic expectations that make it possible to predict the structure of the sentence.In the first part of our research tasks, we present the concept of “invariant lexical” by exposing the various levels of invariance. Then, we classify the invariants according to several criteria.The second part is the object of our own study concerning the temporal lexical invariants. We present our linguistic method as well as our approach of modelling using diagrams of grammars. Then, we analyze the simple lexical invariants such “ḥattā, baʿda” and the complexes ones such “baʿdamā, baynamā”.Finally, an experimental application “Kawâkib” was used to detect and identify the lexical invariants by showing their strong points as well as their gaps. We also propose a new vision of the next version of “Kawâkib” that can represent a teaching application of Arabic without lexicon. Corpus Classification Environnement syntaxique Expression régulière Langue arabe Invariants lexicaux Règles linguistiques Schémas de grammaires Corpus Classification Syntactic environment Regular expression Arabic language Lexical invariants Linguistic rules Diagrams of grammars
64	Syntaxe et prosodie en japonais. Lecture d'Informations télévisées / Dialogue spontané / Syntax and Prosody of Japanese. Reading of News on television / Spontaneous Dialogue Shirota, Chieko 06 December 2012 (has links) Cette recherche a deux objectifs, la systématisation de la prosodie fondamentale du japonais langue commune et l’application de ce système prosodique à une méthode didactique. Pour atteindre ces objectifs, nous cernons d'abord un cadre théorique adaptable au japonais en nous fondant sur la théorie de la "Grammaire de l’intonation" de Morel et Danon-Boileau (1998). Ensuite, nous analysons deux types de corpus, les premières phrases d'informations télévisées, dont le style est proche de celui de l’écrit, et des extraits de dialogue spontané. Les résultats de l’analyse du corpus d'écrit oralisé corroborent une hypothèse selon laquelle l’unité discursive, qui est dans l’ordre fondamental des constituants tel que défini par la fonction de détermination correspondant à un marqueur syntaxique/discursif spécifique, doit être réalisée par la prosodie fondamentale conformément à la fonction de détermination. Les indices suprasegmentaux de cette prosodie sont la position et la durée de la pause et la mélodie des séquences du modifiant et du modifié. En application de ce système prosodique, nous proposons une méthode d’enseignement d’accès facile pour l’enseignant et l’apprenant sur les plans théorique et didactique, grâce au critère binaire de la fonction de détermination d'une part, et d’un indice "écrit", le marqueur syntaxique/discursif, d'autre part. L’analyse du corpus d’oral montre que dans l’oral la fonction de détermination n’est pas représentée par le marqueur spécifique ni par la pause, qui sont remplacés par un indice intonatif à la fin du constituant, tandis que la fonction énonciative est réalisée par l’intonation des particules finales. / This research has two objectives: a systematization of the fundamental prosody of Japanese as a common language, and an application of this prosodic system to teaching method. To attain these objectives, we first fix a theoretical framework adaptable to Japanese based on the theory "Grammaire de l’intonation" (Intonation Grammar) of Morel and Danon-Boileau (1998). We then analyze two types of corpus, readings of lead sentences of TV news, whose style are close to the written style, and extracts from spontaneous dialogues. The results of analysis of the corpus in uttered-written style corroborate the hypothesis that the discursive unit, which is in the fundamental constituent order defined by the function of determination corresponding to a specific syntactic/discursive marker, must be realized by the fundamental prosody conforming to the function of determination. The supra-segmental indicia of this prosody are the position and the length of pauses and the pitch pattern of sequences of modifier and modified. With application of this prosodic system, we propose a teaching method easily accessible both to the teacher and the learner in theoretical and didactical aspects through the binary criterion of the function of determination and a "written" indicium, the specific syntactic/discursive marker. The analysis of the corpus in spoken style shows that in this style, the function of determination is represented neither by the marker nor by the pause, which are replaced by the intonated indicium at the end of constituent, whereas the enunciative function is realized by intonation of the final particles. Information linguistique Ordre des constituants Fonction de détermination Fonction énonciative Marqueur syntaxique/discursif Prosodie Linguistic information Constituent order Function of determination Enunciative function Syntactic/discursive marker Prosody 495.6
65	Contribution à la construction d'un système robuste d'analyse du français Genthial, Damien 10 January 1991 (has links) (PDF) La première partie aborde la conception et la mise en œuvre d'un outil d'analyse syntaxique capable de manipuler des informations syntaxiques et sémantiques. La problématique de l'analyse d'une langue naturelle est d'abord présentée: nous essayons de montrer quels sont les invariants de quelques formalismes récents et comment ces invariants ont motive nos choix. Nous décrivons ensuite le constructeur de structures de dépendances que nous proposons et les apports d'une hiérarchie de catégories a la souplesse et a la tolérance de l'analyse. Les arbres de dépendances produits sont décores grâce a un formalisme de représentation de la connaissance base sur des structures de traits intégrant un mécanisme d'héritage. Nous terminons en présentant le prototype d'analyseur que nous avons réalisé. La deuxième partie définit une architecture pour un système de détection et de correction qui exploite de manière cohérente tous les outils dont nous disposons. Les outils de niveau lexical comprennent un analyseur et un générateur morphologiques et des modules de correction lexicale utilisant trois techniques: phonétique, morphologie et clé squelette. Après avoir décrit les objectifs fixes pour le niveau syntaxique, nous donnons un aperçu du vérificateur syntaxique dont nous disposons et nous soulignons les apports des concepts et outils de la première partie a la robustesse des traitements. Enfin, nous proposons l'architecture d'un système complet de détection et correction d'erreurs dans un texte écrit en insistant sur sa portabilité et son adaptabilité. analyse syntaxique hiérarchique de catégories structures de dépendances transduction d'arbres structures de traits traits sémantiques correction d'erreurs lexicales correction d'erreurs syntaxiques
66	Étude d'un analyseur de surface de la langue naturelle : application à l'indexation automatique de textes Palmer, Patrick 03 September 1990 (has links) (PDF) Nous présentons l'étude et la réalisation d'un analyseur de surface de la langue naturelle, dans le contexte des systèmes de recherche d'informations. Cette analyse morpho-syntaxique a pour objet la reconnaissance des concepts véhicules par les syntagmes nominaux (groupes conceptuels) présents dans les textes, en vue de leur indexation automatique. Pour cela nous avons défini: 1) une analyse morphologique utilisant un dictionnaire de racines organise en arbre lexicographique, un ensemble de desinences et des modèles de composition morphologique; 2) une analyse syntaxique partielle basée d'une part, sur un filtrage utilisant une matrice de précédente qui exploite les relations positionnelles de la langue et certaines contraintes grammaticales, et d'autre part sur une resolution des ambiguïtés grammaticales par l'application de schémas prédéfinis; 3) un enrichissement automatique du vocabulaire base sur une interprétation des formes inconnues en fonction de l'orthographe et du contexte immédiat. L'architecture de cet analyseur est présentée en détail, ainsi que des résultats d'expérimentation obtenus pour des textes de différents corpus système de recherche d'informations analyse de surface indexation automatique catégorisation automatique langue naturelle enrichissement du vocabulaire analyse morpho-syntaxique
67	Contribution à l'étude du traitement des erreurs au niveau lexico-syntaxique dans un texte écrit en français Strube Den Lima, Vare Lucia 15 March 1990 (has links) (PDF) Cette thèse aborde le thème du traitement des erreurs aux niveaux lexical et syntaxique dans un texte écrit en français. Nous présentons d'abord une approche générale des erreurs pouvant apparaitre dans un texte. Nous donnons les éléments de base d'un ensemble de méthodes utilisées actuellement dans le traitement d'erreurs aux niveaux lexical et syntaxique et décrivons des méthodes de correction proposées dans les principales études réalisées dans le domaine de la correction. Après une brève description de l'environnement pilaf de traitement de la langue naturelle, ou s'insère l'étude en question, nous proposons et décrivons la mise en œuvre d'un algorithme de correction d'erreurs lexicales par la phonétique applicable a un dictionnaire de grandeur réelle. Cet algorithme realise la transduction phonétique du mot a corriger, suivie de sa reconstitution graphique. Nous présentons ensuite la mise en œuvre d'un pré-prototype de vérification syntaxique et de correction des erreurs d'accord. La vérification syntaxique est réalisée par unifications de traits; la détection d'une faute d'accord est a l'origine d'une correction par génération morphologique. Une maquette de détection/correction d'erreurs au niveau lexico-syntaxique permet de démontrer la faisabilité d'un système multi-algorithmique de détection/correction d'erreurs au niveau lexico-syntaxique traitement d'erreurs typologie des erreurs méthodes de correction correction lexicale par phonétique vérification syntaxique correction de fautes d'accord accord du participe passé
68	CELINE, vers un correcteur lexico-syntaxique adaptatif et semi-automatique Menezo, Jacques 05 July 1999 (has links) (PDF) Cette thèse aborde la spécification et la réalisation de CELINE, outil de correction des erreurs basé sur une architecture multi-agents à deux niveaux : <BR> 1) Un système lourd, renfermant l'ensemble du savoir linguistique (multi-domaines par rapport à l'univers du discours), et générateur de systèmes individualisés. Les agents peuvent être considérés comme imparfaits ou partiellement inadaptés. Ils sont mis en concurrence par domaine d' expertise.<BR> 2) Un système léger implanté sur le site du rédacteur, système construit par apprentissage par le système central à partir des travaux de ce rédacteur.<BR> La spécification du système se construit tout au long des chapitres.<BR> La problématique de la correction des erreurs et la finalité de la conception d'un système de correction le plus automatique possible, avec des prises de décision à faible granularité reposant sur des critères multi-niveaux, nous entraînent vers un besoin de coopération justifiant une réalisation multi-agents.<BR> Une taxinomie des erreurs et des rappels sur l'analyse linguistique nous permet d'établir un début de structure du tableau noir du système. Nous consolidons nos choix par une comparaison du système attendu avec quelques prototypes du domaine. Nous examinons ensuite les comportements sociaux de deux agents chargés de définir l'un un modèle linguistique partiel suffisant du rédacteur et l'autre un sous-ensemble pertinent du système global. Nous découvrons alors le modèle de communication des agents et complétons notre structure de données par les marques de validité.<BR> La méthode des structures permet une quantification, incluse dans le tableau noir, de la correction des fautes d'accords.<BR> Après une approche des systèmes multi-agents, nous présentons une synthèse de l'architecture de CELINE et du fonctionnement des pilotes et de quelques agents.<BR> Un bilan rapide, précèdera en conclusion, une mise en situation du système proposé dans le cadre des industries de la langue et dans un environnement réseau du type Internet. [INFO:INFO_OH] Computer Science/Other Correcteur lexico-syntaxique Industries de la langue naturelle Intelligence artificielle distribuée Systèmes multi-agents Blackboards parallèles
69	Manipulation des données XML par des utilisateurs non-experts Tekli, Gilbert 04 October 2011 (has links) (PDF) Aujourd'hui, les ordinateurs et l'Internet sont partout dans le monde : dans chaque maison, domaine et plateforme. Dans ce contexte, le standard XML s'est établi comme un moyen insigne pour la représentation et l'échange efficaces des données. Les communications et les échanges d'informations entre utilisateurs, applications et systèmes d'information hétérogènes sont désormais réalisés moyennant XML afin de garantir l'interopérabilité des données. Le codage simple et robuste de XML, à base de données textuelles semi-structurées, a fait que ce standard a rapidement envahi les communications medias. Ces communications sont devenues inter-domaines, partant de l'informatique et s'intégrant dans les domaines médical, commercial, et social, etc. Par conséquent, et au vu du niveau croissant des données XML flottantes entre des utilisateurs non-experts (employés, scientifiques, etc.), que ce soit sur les messageries instantanées, réseaux sociaux, stockage de données ou autres, il devient incontournable de permettre aux utilisateurs non-experts de manipuler et contrôler leurs données (e.g., des parents qui souhaitent appliquer du contrôle parental sur les messageries instantanées de leur maison, un journaliste qui désire regrouper et filtrer des informations provenant de différents flux RSS, etc.). L'objectif principal de cette thèse est l'étude des manipulations des données XML par des utilisateurs non-experts. Quatre principales catégories ont été identifiées dans la littérature : i) les langages visuels orientés XML, ii) les Mashups, iii) les techniques de manipulation des données XML, et iv) les DFVPL (langages de programmation visuel à base de Dataflow), couvrant différentes pistes. Cependant, aucune d'entre elles ne fournit une solution complète. Dans ce travail de recherche, nous avons formellement défini un Framework de manipulation XML, intitulé XA2C (XML-oriented mAnipulAtion Compositions). XA2C représente un environnement de programmation visuel (e.g., Visual-Studio) pour un DFVPL orienté XML, intitulé XCDL (XML-oriented Composition Definition Language) qui constitue la contribution majeure de cette thèse. XCDL, basé sur les réseaux de Pétri colorés, permet aux non-experts de définir, d'arranger et de composer des opérations de manipulation orientées XML. Ces opérations peuvent être des simples sélections/projections de données, ainsi que des opérations plus complexes de modifications de données (insertion, suppression, tatouage, etc.). Le langage proposé traite les données XML à base de documents ou de fragments. En plus de la définition formelle (syntaxique et sémantique) du langage XCDL, XA2C introduit une architecture complète à base d'un compilateur et un environnement d'exécution dédiés. Afin de tester et d'évaluer notre approche théorique, nous avons développé un prototype, intitulé X-Man, avec un Framework d'évaluation pour les langages et outils visuels de programmation orientés XML. Une série d'études de cas et d'expérimentations a été réalisée afin d'évaluer la qualité d'usage de notre langage, et de le comparer aux solutions existantes. Les résultats obtenus soulignent la supériorité de note approche, notamment en termes de qualité d'interaction, de visualisation, et d'utilisation. Plusieurs pistes sont en cours d'exploration, telles que l'intégration des opérations plus complexes (opérateurs de contrôle, boucles, etc.), les compositions automatiques, et l'extension du langage pour gérer la spécificité des formats dérivés du standard XML (flux RSS, RDF, SMIL, etc.) [INFO:INFO_OH] Computer Science/Other XML Manipulation de données XML Contrôle de données XML Langages visuelles Dataflow Mashups Réseaux de Pétri Syntaxe visuelle Langage sémantique et syntaxique Composition Concurrence et parallélisme
70	Robustesse et Identification des Applications Communicantes François, Jérôme 07 December 2009 (has links) (PDF) La popularité des réseaux informatiques et d'Internet s'accompagne d'un essor des applications communicantes et de la multiplication des protocoles dont le fonctionnement est plus ou moins compliqué, ce qui implique également des performances différentes en termes de robustesse. Un premier objectif de cette thèse est d'approfondir plus en détails la robustesse de protocoles s'illustrant par d'extraordinaires performances empiriques tels que les botnets. Différents protocoles employés par les botnets sont donc modélisés dans cette thèse. Par ailleurs, l'essor et la diversité des protocoles s'accompagnent d'un manque de spécification volontaire ou non que la rétro-ingénierie tente de retrouver. Une première phase essentielle est notamment de découvrir les types de messages. La technique mise en \oe uvre dans cette étude s'appuie sur les machines à vecteurs de supports tout en ayant au préalable spécifié de nouvelles représentations des messages dont la complexité de calcul est très réduite par rapport aux autres techniques existantes. Enfin, il existe généralement un grand nombre d'applications distinctes pour un même protocole et identifier précisément le logiciel ou le type d'équipement utilisé (marque, version) est un atout essentiel dans plusieurs domaines tels que la supervision ou la sécurité des réseaux. S'appuyant uniquement sur les types de messages, le comportement d'un équipement, c'est-à-dire la manière dont il interagit avec les autres, est une information très avantageuse lorsqu'elle est couplée avec les délais entre les messages. Enfin, la grammaire d'un protocole connu permet de construire les arbres syntaxiques des messages, dont le contenu et la structure sémantiquement riche, avaient peu été étudiés jusqu'à maintenant dans le cadre de l'identification des équipements. botnet robustesse supervision sécurité fingerprinting arbre comportemental arbre syntaxique machines à vecteurs supports clustering rétro-ingénierie des protocoles

Search results