Spelling suggestions: "subject:"catégorielles"" "subject:"catégorielle""
1 |
Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégoriellesParakh Ousman, Yassine Zaralahy January 2012 (has links)
Le problème des spams connaît depuis ces 20 dernières années un essor considérable. En effet, le pollupostage pourrait représenter plus de 72% de l'ensemble du trafic de courrier électronique. Au-delà de l'aspect intrusif des spams, ceux-ci peuvent comporter des virus ou des scripts néfastes ; d'où l'intérêt de les détecter afin de les supprimer.Le coût d'un envoi de courriels par un spammeur étant infime, ce dernier peut se permettre de transmettre le spam au plus d'adresse de messagerie électronique. Pour le spammeur qui arrive à récupérer même une petite partie d'utilisateurs, son opération devient commercialement viable. Imaginant un million de courriels envoyés et seul 0,1% de personnes qui se font appâtées [i.e. appâter], cela représente tout de même 1 millier de personnes ; et ce chiffre est très réaliste. Nous voyons que derrière la protection de la vie privée et le maintien d'un environnement de travail sain se cachent également des enjeux économiques. La détection des spams est une course constante entre la mise en place de nouvelles techniques de classification du courriel et le contournement de celles-ci par les spammeurs. Jusqu'alors, ces derniers avaient une avance dans cette lutte. Cette tendance s'est inversée avec l'apparition de techniques basées sur le filtrage du contenu. Ces filtres pour la plupart sont basés sur un classificateur bayésien naïf. Nous présentons dans ce mémoire une approche nouvelle de cette classification en utilisant une méthode basée sur le traitement de données catégorielles. Cette méthode utilise les N-grams pour identifier les motifs significatifs afin de limiter l'impact du morphisme des courriers indésirables.
|
2 |
Modéliser l'acquisition de la syntaxe du langage naturel via l'hypothèse de la primauté du sensTellier, Isabelle 08 December 2005 (has links) (PDF)
L'objet de ce travail est la modélisation informatique de la capacité d'apprentissage de la syntaxe de leur langue naturelle par les enfants. Une synthèse des connaissances psycho-linguistiques sur la question est donc tout d'abord proposée. Le point de vue adopté pour la modélisation accorde une place privilégiée à la sémantique, qui est supposée acquise avant la syntaxe. Le Principe de compositionnalité, éventuellement adapté, est mis à contribution pour formaliser les liens entre syntaxe et sémantique, et le modèle d'apprentissage ''à la limite'' par exemples positifs de Gold est choisi pour régir les conditions de l'apprentissage. Nous présentons dans ce contexte divers résultats d'apprenabilité de classes de grammaires catégorielles à partir de divers types de données qui véhiculent des informations sémantiques. Nous montrons que, dans tous les cas, la sémantique contribue à spécifier les structures sous-jacentes aux énoncés, et à réduire ainsi l'espace de recherche des algorithmes d'apprentissage.
|
3 |
Time Sequence Summarization: Theory and ApplicationsPham, Quang-Khai 09 July 2010 (has links) (PDF)
Les domaines de la médecine, du web, du commerce ou de la nance génèrent et stockent de grandes masses d'information sous la forme de séquences d'événements. Ces archives représentent des sources d'information très riches pour des analystes avides d'y découvrir des perles de connaissance. Par exemple, les biologistes cherchent à découvrir les facteurs de risque d'une maladie en analysant l'historique des patients, les producteurs de contenu web et les bureaux de marketing examinent les habitudes de consommation des clients et les opérateurs boursiers suivent les évolutions du marché pour mieux l'anticiper. Cependant, ces applications requièrent l'exploration de séquences d'événements très volumineuses, par exemple, la nance génère quotidiennement des millions d'événements, où les événements peuvent être décrits par des termes extraits de riches contenus textuels. La variabilité des descripteurs peut alors être très grande. De ce fait, découvrir des connaissances non triviales à l'aide d'approches classiques de fouille de données dans ces sources d'information prolixes est un problème dicile. Une étude récente montre que les approches classiques de fouille de données peuvent tirer prot de formes condensées de ces données, telles que des résultats d'agrégation ou encore des résumés. La connaissance ainsi extraite est qualiée de connaissance d'ordre supérieur. À partir de ce constat, nous présentons dans ces travaux le concept de résumé de séquence d'événements dont le but est d'amener les applications dépendantes du temps à gagner un facteur d'échelle sur de grandes masses de données. Un résumé s'obtient en transformant une séquence d'événements où les événements sont ordonnés chronologiquement. Chaque événement est précisément décrit par un ensemble ni de descripteurs symboliques. Le résumé produit est alors une séquence d'événements, plus concise que la séquence initiale, et pouvant s'y substituer dans les applications. Nous proposons une première méthode de construction guidée par l'utilisateur, appelée TSaR. Il s'agit d'un processus en trois phases : i) une généralisation, ii) un regroupement et iii) une formation de concepts. TSaR utilise des connaissances de domaine exprimées sous forme de taxonomies pour généraliser les descripteurs d'événements. Une fenêtre temporelle est donnée pour contrôler le processus de regroupement selon la proximité temporelle des événements. Dans un second temps, pour rendre le processus de résumé autonome, c'est- à-dire sans paramétrage, nous proposons une redénition du problème de résumé en un nouveau problème de classication. L'originalité de ce problème de classication tient au fait que la fonction objective à optimiser dépend simultanément du contenu des événements et de leur proximité dans le temps. Nous proposons deux algorithmes gloutons appelés G-BUSS et GRASS pour répondre à ce problème. Enn, nous explorons et analysons l'aptitude des résumés de séquences d'événements à contribuer à l'extraction de motifs séquentiels d'ordre supérieur. Nous analysons les caractéristiques des motifs fréquents extraits des résumés et proposons une méthodologie qui s'appuie sur ces motifs pour en découvrir d'autres, à granularité plus ne. Nous évaluons et validons nos approches de résumé et notre méthodologie par un ensemble d'expériences sur un jeu de données réelles extraites des archives d'actualités nancières produites par Reuters.
|
4 |
Réseaux de preuve et génération pour les grammaires de types logiquesPogodalla, Sylvain 27 September 2001 (has links) (PDF)
L'étude de la relation entre syntaxe et sémantique qu'établissent les grammaires de types<br />logiques a essentiellement privilégié le sens de l'analyse - syntaxe vers sémantique. Cette thèse souligne le profit que la génération - sémantique vers syntaxe - tire de l'étroitesse de cette relation.<br /><br />Elle s'appuie sur l'étude logique de ces modèles grammaticaux et met en avant l'utilisation de la logique linéaire et de ses réseaux de preuve. Autour du calcul de Lambek, un fragment intuitionniste de la logique linéaire non commutative, nous étudions le comportement des extensions de ce calcul en tant que modèles syntaxiques, notamment avec le calcul ordonné. Nous montrons par exemple qu'un fragment de ce dernier permet d'engendrer la même classe de langage que les grammaires d'arbres adjoints.<br /><br />D'autre part, l'adéquation de la syntaxe, portée par la notion de preuve, à la sémantique de Montague, portée par la notion de lambda-terme, s'illustre dans la correspondance de Curry-Howard. L'utilisation des réseaux de preuve nous permet de montrer que, pour le calcul de Lambek et pour des représentations sémantiques linéaires avec une constante au moins, le problème de génération est décidable et que ces grammaires sont intrinsèquement réversibles. Nous caractérisons les formes sémantiques permettant une réalisation syntaxique polynomiale. Aussi pouvons-nous proposer une méthode complète de génération dans ce cadre.<br /><br />Ces résultats, de même que l'implémentation dont ils ont fait l'objet, exploitent la théorie de la démonstration sous-jacente et en particulier les réseaux de preuve sous forme de graphes. Nous obtenons ainsi un cadre uniforme pour l'analyse et la génération. Pour le conserver, dans l'optique d'une prise en compte sémantique de termes non linéaires grâce aux connecteurs exponentiels de la logique linéaire, nous donnons une nouvelle syntaxe et un nouveau critère de correction pour les réseaux avec exponentiels sous forme de graphes.
|
5 |
Natural language generation using abstract categorial grammars / Génération automatique de texte avec des grammaires catégorielles abstraitesSalmon, Raphael 10 July 2017 (has links)
Cette thèse explore l'usage des Grammaires Categorielles Abstraites (CGA) pour la Génération Automatique de Texte (GAT) dans un contexte industriel. Les systèmes GAT basés sur des théories linguistiques ont un long historique, cependant ils sont relativement peu utilisés en industrie, qui préfère les approches plus "pragmatiques", le plus souvent pour des raisons de simplicité et de performance. Cette étude montre que les avancées récentes en linguistique computationnelle permettent de concilier le besoin de rigueur théorique avec le besoin de performance, en utilisant CGA pour construire les principaux modules d'un système GAT de qualité industrielle ayant des performances comparables aux méthodes habituellement utilisées en industrie. / This thesis explores the usage of Abstract Categorial Grammars (ACG) for Natural Language Generation (NLG) in an industrial context. While NLG system based on linguistic theories have a long history, they are not prominent in industry, which, for the sake of simplicity and efficiency, usually prefer more ``pragmatic" methods. This study shows that recent advances in computational linguistics allow to conciliate the requirements of soundness and efficiency, by using ACG to build the main elements of a production grade NLG framework (document planner and microplanner), with performance comparable to existing, less advanced methods used in industry
|
6 |
Déterminants de l'utilisation des services prénatals dans les pays en développement : cas du Burkina FasoDabiré, Ernest January 2001 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
7 |
Approche logique des grammaires pour les langues naturellesAnoun, Houda 24 October 2007 (has links) (PDF)
Les contributions majeures de cette thèse s'articulent autour des trois axes de base de la linguistique computationnelle, à savoir la logique, la linguistique et l'informatique. Nous proposons ainsi un nouveau système non-directionnel GLE permettant de simuler les opérations transformationnelles du Programme Minimaliste dans un cadre logique qui fait appel au raisonnement hypothétique de manière contrôlée. La pertinence de ce formalisme est soulignée en montrant sa capacité à prendre en charge des phénomènes linguistiques complexes, nécessitant un partage contraint de ressources, tels que le liage d'anaphores ou la résolution d'ellipse. En outre, nous présentons un atelier logique, nommé ICHARATE, destiné à la recherche et l'enseignement de la linguistique computationnelle. Cet outil est composé de bibliothèques pour l'assistant à la démonstration Coq, qui comprennent la formalisation de systèmes logiques avancés dédiés au traitement des langues naturelles, dont la logique multimodale.
|
8 |
Acquisition de grammaires lexicalisées pour les langues naturellesMoreau, Erwan 18 October 2006 (has links) (PDF)
L'inférence grammaticale désigne le problème qui consiste à découvrir les règles de formation des phrases d'un langage, c'est-à-dire une grammaire de celui-ci. Dans le modèle d'apprentissage de Gold, les exemples fournis sont constitués uniquement des phrases appartenant au langage. L'algorithme doit fournir une grammaire qui représente le langage énuméré. Les grammaires catégorielles sont l'un des nombreux formalismes existants pour représenter des langages. Kanazawa a montré que certaines sous-classes de ces grammaires sont apprenables, mais ses résultats ne sont pas applicables directement aux langues naturelles. Sur le plan théorique, nous proposons de généraliser les résultats de Kanazawa à différents types de grammaires. Les grammaires combinatoires générales sont un modèle flexible permettant de définir des systèmes grammaticaux à base de règles de réécriture. Nous démontrons dans ce cadre que certaines classes de langages sont apprenables. Dans un souci de généralité maximale, nos résultats sont exprimés sous forme de critères sur les règles des systèmes grammaticaux considérés. Ces résultats sont appliqués à plusieurs formalismes relativement adaptés à la représentation des langues naturelles. Nous abordons également le problème de la mise en œuvre de l'apprentissage sur des données réelles. En effet, les algorithmes existants capables d'apprendre des classes de langages intéressantes sont NP-complets. Afin de contourner cet obstacle, nous proposons un cadre d'apprentissage plus souple, l'apprentissage partiel : le contexte d'utilisation est modifié dans le but d'obtenir une complexité algorithmique plus réaliste. Nous testons cette approche sur des données de taille moyenne, et obtenons des résultats relativement encourageants.
|
9 |
Problèmes morpho-syntaxiques analysés dans un modèle catégoriel étendu : application au coréen et au français avec une réalisation informatique / Morpho-syntactic problems analyzed in an extended categorial model : application to korean and to french with a development of a categorial parserChoi, Juyeon 28 June 2011 (has links)
Ce travail de thèse vise à proposer les analyses formelles de phénomènes langagiers, tels que le système casuel, le double cas, la flexibilité de l'ordre des mots, la coordination, la subordination et la thématisation, dans deux langues structurellement très distinctes : le coréen et le français. Le choix théorique s'est porté sur le formalisme de la Grammaire Catégorielle Combinatoire Applicative, développée par Jean-Pierre Desclés et Ismail Biskri, en mettant en œuvre les combinateurs de la Logique Combinatoire de Curry et le calcul fonctionnel des types de Church. Le problème à résoudre est le suivant : en prenant une langue « à cas » comme le coréen, avec les constructions « à double cas » et la flexibilité dans l'ordre des mots, spécifiques à certaines langues extrêmes orientales, cette langue est-elle analysable avec un formalisme catégoriel et selon quelle stratégie de calcul ? Nous donnons un certain nombre d'exemples qui répondent à cette question. Les analyses formelles proposées dans ce travail permettent ensuite d'examiner la pertinence syntaxique de l'hypothèse « anti-anti relativiste » en dégageant certains invariants syntaxiques à partir des opérations de prédication, de détermination, de transposition, de quantification et de coordination. Nous proposons également un analyseur catégoriel, ACCG, applicable au coréen et au français, qui permet d'engendrer, de façon automatique, les calculs catégoriels, ainsi que les structures opérateur/opérande. / This dissertation aims at proposing the formal analysis of the linguistic phenomena, such as the case system, the double case, the flexible word order, the coordination, the subordination and the thematisation, in the two structurally distinct languages: Korean and French. The formalism of Applicative Combinatory Categorial Grammar, developed by Jean-Pierre Desclés and Ismail Biskri, allow us to analyze these problems by means of the combinators of the Combinatory Logic of Curry and the functional calculus of the Church's types. By taking account of these formal analysis applied to Korean and to French, we discuss on the « anti-anti relativist » hypothesis by finding some syntactic invariants from the different operations such as the predication, the determination, the quantification, the transposition and the coordination. We propose also a categorial parser, ACCG, applicable to Korean and French sentences, which generates automatically categorial calculus and the operator-operand structures.
|
10 |
L’étude du traitement des relations spatiales visuelles : approche dynamique des capacités cognitives / Study of spatial relations encoding and practice effect : a new approach to cognitive processesPutois, Benjamin 10 July 2009 (has links)
Le modèle computo-fonctionnel de la vision de haut niveau de Kosslyn et Koenig (1992) repose sur la dissociation entre la reconnaissance et le traitement spatial de la scène visuelle. En 1987, Kosslyn postula l’existence de deux processus pour le traitement des relations spatiales : un processus catégoriel qui calcule les positions relatives des objets et un processus coordonné qui calcule la distance entre les objets. Des études utilisant le paradigme de présentation en champ visuel divisé ont mis en évidence que l’hémisphère gauche sous-tendrait un traitement catégoriel ; l’hémisphère droit sous-tendrait un traitement coordonné. Cette interaction semblerait valider la dichotomie des deux types de processus.Une revue de la littérature pluridisciplinaire a été menée afin de savoir si ce fait est suffisant pour rejeter l’hypothèse d’un processus unique pour les traitements catégoriels et coordonnés. Entre autres, plusieurs études ont observé un effet de pratique au cours de la réalisation de jugements coordonnés : une diminution de l’intervention de l’hémisphère droit au profit d’une prise en charge progressive de l’hémisphère gauche. De plus, l’avantage de l’hémisphère gauche pour le traitement catégoriel a été rarement observé.Une série de cinq expériences comportementales ont été conduites pour vérifier certains biais expérimentaux qui pourraient expliquer les différences hémisphériques et l’effet de pratique observés. Nos résultats nous ont permis d’avancer des hypothèses axées sur la communication entre les hémisphères et sur un lien entre les processus catégoriels et coordonnés. Une critique du paradigme de présentation en champ visuel divisé et différents modèles d’interaction hémisphérique ont été présentés. Trois expériences ont été menées, afin d’évaluer l’impact des communications hémisphériques dans le traitement des relations spatiales. A la lumière de nos résultats, la dichotomie des processus catégoriels et coordonnés a été discutée. / The computational-functional conception of high-level processing of vision in Kosslyn and Koenig (1992) relies on dissociation between object recognition and spatial processing. In 1987, Kosslyn postulated that two different processes compute spatial-relations: categorical process computes relative position of objects and coordinate process computes the distance between objects. Some studies indicate a left-hemisphere advantage for processing categorical spatial relations and a right-hemisphere advantage for processing coordinate spatial relations. This hemispheric difference is interpreted as an evidence of a dichotomy between these two processes. A pluridisciplinary review was conducted to assure that single process hypothesis is dismissed out. Some studies showed, in a coordinate task, that practice resulted in a decreased right-hemisphere involvement and a concurrent increase in left-hemisphere involvement (i.e., practice effect). Furthermore, the left-hemisphere advantage in categorical was seldom observed. The theoretical aim of the thesis was based on two questions: (1) Are there single or several processes encoding visual spatial relations? (2) How can we interpret this practice effect ?Five experiments were run to verify possible bias which might explain observed hemispheric differences and practice effect. Our results suggested that hemispheric communication might be an important factor in spatial-relation processing.An theoretical investigation of divided visual field paradigm was led and several interhemispheric models were described. Three experiments were conducted to estimate hemispheric communication in spatial-relation process. In the light of our results, separate categorical-coordinate processes hypothesis were discussed.
|
Page generated in 0.059 seconds