Spelling suggestions: "subject:"arbre syntaxique"" "subject:"sobre syntaxique""
1 |
Transformation automatique d'arbres syntaxiques avec SableCCAgbakpem, Komivi Kevin January 2006 (has links) (PDF)
Dans la partie frontale d'un compilateur, il est souvent usuel de transformer l'arbre syntaxique concret correspondant à la grammaire utilisée lors de l'analyse syntaxique en un arbre simplifié appelé arbre syntaxique abstrait qui retient uniquement l'essentiel des éléments de l'arbre syntaxique concret et qui par ailleurs est plus approprié pour les étapes ultérieures de la compilation. La réalisation d'une telle transformation avec les générateurs de compilateurs traditionnels peut nécessiter d'écrire une quantité considérable de code répétitif et très enclin aux erreurs dans la grammaire. Dans ce mémoire, nous introduisons un nouveau mécanisme pour spécifier des transformations d'un arbre syntaxique concret vers un arbre syntaxique abstrait durant l'analyse syntaxique. Doté d'une syntaxe intuitive, ce mécanisme permet la spécification de transformations ascendantes de manière efficace et déterministe. De plus, des vérifications effectuées sur ces transformations garantissent leur exactitude. Nous avons implanté ce mécanisme à l'intérieur de l'outil SableCC, un générateur de compilateurs. Le résultat est un outil capable de générer des analyseurs lexicaux et syntaxiques dans lesquelles sont enchâssées des actions de construction d'arbres syntaxiques et des classes utilitaires (incluant des visiteurs) à partir de simples spécifications grammaticales. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Arbre syntaxique concret, Arbre syntaxique abstrait, Générateur de compilateurs, Analyse syntaxique.
|
2 |
Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpusYousfi-Monod, Mehdi 16 November 2007 (has links) (PDF)
Le travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spécifiquement d'une application de ce dernier au résumé automatique de textes.<br />L'originalité de la thèse consiste à s'attaquer à une variété fort peu explorée, la compression de textes, par une technique non supervisée.<br />Ce travail propose un système incrémental et interactif d'élagage de l'arbre syntagmatique des phrases, tout en préservant la cohérence syntaxique et la conservation du contenu informationnel important.<br />Sur le plan théorique, le travail s'appuie sur la théorie du gouvernement de Noam Chomsky et plus particulièrement sur la représentation formelle de la théorie X-barre pour aboutir à un fondement théorique important pour un modèle computationnel compatible avec la compression syntaxique de phrases.<br />Le travail a donné lieu a un logiciel opérationnel, nommé COLIN, qui propose deux modalités : une compression automatique, et une aide au résumé sous forme semi-automatique, dirigée par l'interaction avec l'utilisateur.<br />Le logiciel a été évalué grâce à un protocole complexe par 25 utilisateurs bénévoles.<br />Les résultats de l'expérience montrent que 1) la notion de résumé de référence qui sert aux évaluations classiques est discutable 2) les compressions semi-automatiques ont été fortement appréciées 3) les compressions totalement automatiques ont également obtenu de bons scores de satisfaction.<br />À un taux de compression supérieur à 40% tous genres confondus, COLIN fournit un support appréciable en tant qu'aide à la compression de textes, ne dépend d'aucun corpus d'apprentissage, et présente une interface convivial.
|
3 |
Robustesse et Identification des Applications CommunicantesFrançois, Jérôme 07 December 2009 (has links) (PDF)
La popularité des réseaux informatiques et d'Internet s'accompagne d'un essor des applications communicantes et de la multiplication des protocoles dont le fonctionnement est plus ou moins compliqué, ce qui implique également des performances différentes en termes de robustesse. Un premier objectif de cette thèse est d'approfondir plus en détails la robustesse de protocoles s'illustrant par d'extraordinaires performances empiriques tels que les botnets. Différents protocoles employés par les botnets sont donc modélisés dans cette thèse. Par ailleurs, l'essor et la diversité des protocoles s'accompagnent d'un manque de spécification volontaire ou non que la rétro-ingénierie tente de retrouver. Une première phase essentielle est notamment de découvrir les types de messages. La technique mise en \oe uvre dans cette étude s'appuie sur les machines à vecteurs de supports tout en ayant au préalable spécifié de nouvelles représentations des messages dont la complexité de calcul est très réduite par rapport aux autres techniques existantes. Enfin, il existe généralement un grand nombre d'applications distinctes pour un même protocole et identifier précisément le logiciel ou le type d'équipement utilisé (marque, version) est un atout essentiel dans plusieurs domaines tels que la supervision ou la sécurité des réseaux. S'appuyant uniquement sur les types de messages, le comportement d'un équipement, c'est-à-dire la manière dont il interagit avec les autres, est une information très avantageuse lorsqu'elle est couplée avec les délais entre les messages. Enfin, la grammaire d'un protocole connu permet de construire les arbres syntaxiques des messages, dont le contenu et la structure sémantiquement riche, avaient peu été étudiés jusqu'à maintenant dans le cadre de l'identification des équipements.
|
4 |
Méthodes et outils pour les problèmes faibles de traductionMalik, Muhammad Ghulam Abbas 09 July 2010 (has links) (PDF)
Étant données une langue source L1 et une langue cible L2, un segment (phrase ou titre) S de n mots écrit en L1 peut avoir un nombre exponentiel N=O(kn) de traductions valides T1...TN. Nous nous intéressons au cas où N est très faible en raison de la proximité des formes écrites de L1 et L2. Notre domaine d'investigation est la classe des paires de combinaisons de langue et de système d'écriture (Li-Wi, Lj-Wj) telles qu'il peut y avoir une seule traduction valide, ou un très petit nombre de traductions valides, pour tout segment S de Li écrit en Wi. Le problème de la traduction d'une phrase hindi/ourdou écrite en ourdou vers une phrase équivalente en devanagari tombe dans cette classe. Nous appelons le problème de la traduction pour une telle paire un problème faible de traduction. Nous avons conçu et expérimenté des méthodes de complexité croissante pour résoudre des instances de ce problème, depuis la transduction à états finis simple jusqu'à à la transformation de graphes de chaînes d'arbres syntaxiques partiels, avec ou sans l'inclusion de méthodes empiriques (essentiellement probabilistes). Cela conduit à l'identification de la difficulté de traduction d'une paire (Li-Wi, Lj-Wj) comme le degré de complexité des méthodes de traduction atteignant un objectif souhaité (par exemple, moins de 15% de taux d'erreur). Considérant la translittération ou la transcription comme un cas spécial de traduction, nous avons développé une méthode basée sur la définition d'une transcription intermédiaire universelle (UIT) pour des groupes donnés de couples Li-Wi, et avons utilisé UIT comme un pivot phonético-graphémique. Pour traiter la traduction interdialectale dans des langues à morphologie flexionnelle riche, nous proposons de faire une analyse de surface sur demande et limitée, produisant des arbres syntaxiques partiels, et de l'employer pour mettre à jour et propager des traits tels que le genre et le nombre, et pour traiter les phénomènes aux limites des mots. A côté d'expériences à grande échelle, ce travail a conduit à la production de ressources linguistiques telles que des corpus parallèles et annotés, et à des systèmes opérationnels, tous disponibles gratuitement sur le Web. Ils comprennent des corpus monolingues, des lexiques, des analyseurs morphologiques avec un vocabulaire limité, des grammaires syntagmatiques du hindi, du punjabi et de l'ourdou, des services Web en ligne pour la translittération entre hindi et ourdou, punjabi (shahmukhi) et punjabi (gurmukhi), etc. Une perspective intéressante est d'appliquer nos techniques à des paires distantes LW, pour lesquelles elles pourraient produire efficacement des présentations d'apprentissage actif, sous la forme de sorties pidgin multiples.
|
Page generated in 0.0636 seconds