• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 11
  • 4
  • Tagged with
  • 15
  • 15
  • 15
  • 15
  • 5
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Analyse de l'erreur dans la vérification probabiliste

Muhimpundu, Joël January 2014 (has links)
Nous nous intéressons aux erreurs qui apparaissent lors de la vérification de systèmes probabilistes en utilisant la technique d’évaluation de modèle avec l’outil PRISM. L’évaluation de modèle probabiliste est une technique de vérification qui consiste à déterminer si un modèle probabiliste M vérifie une propriété donnée. Les modèles sont décrits par des systèmes de transitions tandis que la logique temporelle est utilisée comme langage de spécification des propriétés. L’algorithme d’évaluation de modèle qui est appliqué consiste essentiellement à résoudre un système d’équations linéaires Ax = b. Nous montrons à quelles étapes du processus d’évaluation de modèle les erreurs apparaissent. Nous distinguons essentiellement deux types d’erreurs à savoir les erreurs d’arrondi (arithmétique à point flottant, model-checking symbolique), et les erreurs de troncature qui proviennent du fait qu’on a remplacé une méthode de calcul direct par des opérations mettant en jeu un nombre fini d’étapes. Nous utilisons la notion de bisimulation approchée pour comparer le modèle M à l’étude et celui réellement encodé par PRISM. Nous faisons aussi une analyse numérique de l’écart entre la solution x du système linéaire Ax = b et celle calculée par PRISM suite aux effets de l’erreur d’arrondi. / We are interested in errors that occur during the verification of probabilistic systems using the technique of model-checking with PRISM tool. Probabilistic model-checking is a technique for verification that aims at determining whether a probabilistic model satisfies a given property. The models are described by transition systems while temporal logic is used as specification language for properties. The model-checking algorithm under study essentially involves solving a system of linear equations Ax = b.We show at what stages of the model-checking process the errors appear. We basically distinguish two types of errors, namely rounding errors (floatingpoint arithmetic, symbolic model checking), and truncation errors, which arise because a direct method of calculation is replaced by operations involving a finite number of steps. We use a notion of approximate bisimulation to compare the model under study and the one actually encoded by PRISM. We also carry a numerical analysis of the difference between the solution of the linear system Ax = b and the one calculated by PRISM, due to the effects of rounding errors.
2

Problèmes d'homomorphisme à largeur de chemin bornée

Bédard, Catherine 20 April 2018 (has links)
Un homomorphisme est une fonction entre deux structures, par exemple des graphes, qui respecte certaines contraintes. Dans ce mémoire, on étudie la complexité des problèmes d'homomorphisme, c'est-à-dire des problèmes où l'on doit décider s'il existe une telle fonction entre deux structures. On présentera des propriétés sur ces structures qui permettent de déterminer cette complexité. On s'intéressera particulièrement aux problèmes d'homomorphisme qui appartiennent à la classe de complexité NL, une classe contenant des problèmes dont la résolution par un algorithme non déterministe nécéssite peu d'espace mémoire.
3

Analyse de l'erreur en vérification probabiliste

Kouko, Gildas Syla Déo 20 April 2018 (has links)
La vérification de systèmes est aujourd’hui un sujet de recherche récurrent et différentes techniques permettent de vérifier formellement des systèmes critiques dont il faut impérativement garantir la correction. Nous consacrons ce mémoire à l’une des techniques les plus utilisées et les plus efficaces, l’évaluation de modèle. Schématiquement, pour vérifier un système par évaluation de modèle, on abstrait d’abord son comportement sous la forme d’un système de transitions appelé modèle. Ensuite, on formule une propriété désirée du système dans une logique temporelle. Enfin, on utilise un outil logiciel appelé vérificateur pour vérifier automatiquement si le modèle satisfait la propriété. Dans ce mémoire, nous voulons vérifier des propriétés d’atteignabilité dans des modèles probabilistes appelés processus de Markov étiquetés (en anglais, LMP pour Labelled Markov processes) et qui ont possiblement un ensemble d’états non dénombrable. Malheureusement, le vérificateur CISMO dédié à une famille de LMP ne gère pas les propriétés d’atteignabilité et aucun autre outil ne peut vérifier les LMP. Pour améliorer CISMO et atteindre notre objectif, nous avons rendu d’abord plus expressive sa logique de spécification de propriétés pour qu’elle exprime les propriétés d’atteignabilité sur les LMP. Ces propriétés expriment le fait qu’un état souhaité dans un système peut être atteint avec une certaine probabilité. Ensuite, nous avons implémenté dans CISMO une nouvelle approche de vérification d’une famille de propriétés d’atteignabilité qui contribue à l’évolution de la vérification probabiliste. Nous utilisons le théorème de la moyenne pour prouver que, pour tout LMP acceptable par CISMO et toute propriété d’atteignabilité, il existe une chaîne de Markov à temps discret (en anglais, DTMC pour Discrete Time Markov Chains) équivalent au LMP de point de vue atteignabilité moyenne et auquel on peut appliquer les algorithmes connus pour les systèmes probabilistes finis. Le DTMC est construit de telle sorte que nous inférons que le LMP satisfait la propriété d’atteignabilité, si et seulement si le DTMC la satisfait. Théoriquement, notre approche donne un résultat ultime exact et nous l’avons prouvé. À l’implémentation, nous utilisons une méthode d’intégration numérique pour déterminer les probabilités de transition dans le DTMC. Malgré les imprécisions numériques qui peuvent nuire au résultat d’une vérification, nous avons prouvé que notre approche a du sens en quantifiant les erreurs. Nous avons démontré d’une part que les erreurs numériques sont toujours bornées supérieurement dans le DTMC et avons montré d’autre part, qu’il existe une relation de bisimulation entre le LMP et le DTMC. Notre méthode est originale et repousse les limites de l’évaluation de modèle, notamment l’explosion combinatoire de l’espace d’états ou de chemins dans la vérification de systèmes probabilistes infinis. / Systems verification is nowadays a major issue and various techniques verify formally critical systems for which correction must be ensured. The focus of this master’s thesis is on one of the most used and most effective systems verification techniques, modelchecking. Conceptually, to apply model-checking to a system, we first abstract its behavior in the form of a transitions system, the model. Then, we formulate a system property of interest in a temporal logic. Finally, a software called model-checker is used to verify automatically if the model satisfies the property. In this paper, we want to check reachability property in the probabilistic models called labelled Markov process (LMP) and which have possibly an uncountable set of states. Unfortunately, the model-checker CISMO dedicated to a family of LMP does not handle reachability properties and no other tool can verify LMP. To improve CISMO and achieve our goal, we first made more expressive its properties specification logic so that it can express reachability property on LMP. These properties express the fact that a desired state in a system can be reached with a certain probability. Secondly, we implemented in CISMO a new approach for the verification of a family of reachability properties. This is a contribution to the evolution of the probabilistic verification. We use the mean theorem to prove that, for any LMP acceptable by CISMO and for any reachability property, there is a discrete time process (DTMC) equivalent to the LMP according to the average reachability and on which we can apply known algorithms for probabilistic systems which have a countable set of states. The DTMC is constructed in such a way that we can infer the LMP satisfies the reachability property, if and only if the DTMC also satisfies it. Theoretically, our approach gives a precise final result and we prove it. At implementation, since the DTMC is subjected to numerical errors the result can be false, as expected. We use a numerical integration method to determine the transitions probabilities in the DTMC. Despite the errors that can affect the outcome of a verification, we have shown that our approach makes sense at implementation by quantifying the errors. We have shown on one hand that numerical errors are always bounded from above in the DTMC and we established, on the other hand, bisimulation relations between LMP, DTMC constructed theoretically, and DTMC generated algorithmically with errors. Our method is original and pushes the limits of model-checking, especially combinatorial explosion of the states space or paths in the verification of infinite probabilistic systems.
4

Interactions between gaussian processes and bayesian estimation

Wang, Ya Li January 2014 (has links)
L’apprentissage (machine) de modèle et l’estimation d’état sont cruciaux pour interpréter les phénomènes sous-jacents à de nombreuses applications du monde réel. Toutefois, il est souvent difficile d’apprendre le modèle d’un système et de capturer les états latents, efficacement et avec précision, en raison du fait que la connaissance du monde est généralement incertaine. Au cours des dernières années, les approches d’estimation et de modélisation bayésiennes ont été extensivement étudiées afin que l’incertain soit réduit élégamment et de manière flexible. Dans la pratique cependant, différentes limitations au niveau de la modélisation et de l’estimation bayésiennes peuvent détériorer le pouvoir d’interprétation bayésienne. Ainsi, la performance de l’estimation est souvent limitée lorsque le modèle de système manque de souplesse ou/et est partiellement inconnu. De même, la performance de la modélisation est souvent restreinte lorsque l’estimateur Bayésien est inefficace. Inspiré par ces faits, nous proposons d’étudier dans cette thèse, les connections possibles entre modélisation bayésienne (via le processus gaussien) et l’estimation bayésienne (via le filtre de Kalman et les méthodes de Monte Carlo) et comment on pourrait améliorer l’une en utilisant l’autre. À cet effet, nous avons d’abord vu de plus près comment utiliser les processus gaussiens pour l’estimation bayésienne. Dans ce contexte, nous avons utilisé le processus gaussien comme un prior non-paramétrique des modèles et nous avons montré comment cela permettait d’améliorer l’efficacité et la précision de l’estimation bayésienne. Ensuite, nous nous somme intéressé au fait de savoir comment utiliser l’estimation bayésienne pour le processus gaussien. Dans ce cadre, nous avons utilisé différentes estimations bayésiennes comme le filtre de Kalman et les filtres particulaires en vue d’améliorer l’inférence au niveau du processus gaussien. Ceci nous a aussi permis de capturer différentes propriétés au niveau des données d’entrée. Finalement, on s’est intéressé aux interactions dynamiques entre estimation bayésienne et processus gaussien. On s’est en particulier penché sur comment l’estimation bayésienne et le processus gaussien peuvent ”travailler” de manière interactive et complémentaire de façon à améliorer à la fois le modèle et l’estimation. L’efficacité de nos approches, qui contribuent à la fois au processus gaussien et à l’estimation bayésienne, est montrée au travers d’une analyse mathématique rigoureuse et validée au moyen de différentes expérimentations reflétant des applications réelles. / Model learning and state estimation are crucial to interpret the underlying phenomena in many real-world applications. However, it is often challenging to learn the system model and capture the latent states accurately and efficiently due to the fact that the knowledge of the world is highly uncertain. During the past years, Bayesian modeling and estimation approaches have been significantly investigated so that the uncertainty can be elegantly reduced in a flexible probabilistic manner. In practice, however, several drawbacks in both Bayesian modeling and estimation approaches deteriorate the power of Bayesian interpretation. On one hand, the estimation performance is often limited when the system model lacks in flexibility and/or is partially unknown. On the other hand, the modeling performance is often restricted when a Bayesian estimator is not efficient and/or accurate. Inspired by these facts, we propose Interactions Between Gaussian Processes and Bayesian Estimation where we investigate the novel connections between Bayesian model (Gaussian processes) and Bayesian estimator (Kalman filter and Monte Carlo methods) in different directions to address a number of potential difficulties in modeling and estimation tasks. Concretely, we first pay our attention to Gaussian Processes for Bayesian Estimation where a Gaussian process (GP) is used as an expressive nonparametric prior for system models to improve the accuracy and efficiency of Bayesian estimation. Then, we work on Bayesian Estimation for Gaussian Processes where a number of Bayesian estimation approaches, especially Kalman filter and particle filters, are used to speed up the inference efficiency of GP and also capture the distinct input-dependent data properties. Finally, we investigate Dynamical Interaction Between Gaussian Processes and Bayesian Estimation where GP modeling and Bayesian estimation work in a dynamically interactive manner so that GP learner and Bayesian estimator are positively complementary to improve the performance of both modeling and estimation. Through a number of mathematical analysis and experimental demonstrations, we show the effectiveness of our approaches which contribute to both GP and Bayesian estimation.
5

Le filtrage des bornes pour les contraintes cumulative et multi-inter-distance

Ouellet, Pierre 20 April 2018 (has links)
Ce mémoire traite de la résolution de problèmes d’ordonnancement à l’aide de la programmation par contraintes. Il s’intéresse principalement aux contraintes globales et particulièrement à la contrainte cumulative. Il passe en revue les règles permettant de la filtrer et les principaux algorithmes qui les appliquent. Il explique le Edge-Finder de Vilím et son arbre cumulatif. Il propose un algorithme plus performant et plus général pour appliquer les règles découlant du raisonnement énergétique. Le mémoire traite du cas particulier où toutes les tâches sont de durée identique. Pour modéliser efficacement ce type de problèmes, on y conçoit la contrainte multi-inter-distance. L’algorithme d’ordonnancement de López-Ortiz et Quimper est adapté pour réaliser un algorithme qui applique la cohérence de bornes. La contrainte multi-inter-distance s’avère efficace à résoudre le problème de séquençage des atterrissages d’avions du banc d’essai d’Artiouchine et Baptiste. / This thesis discusses how to solve scheduling problems using constraint programming. We study global constraints and particularly the Cumulative constraint. We survey its main filtering rules and their state-of-the-art filtering algorithms. We explain the Vilím’s Edge-Finder and its cumulative tree.We introduce a more efficient and more general algorithm that enforces the filtering rules from the energetic reasoning. We study the special case where all tasks have identical processing times. To efficiently model such problems, we introduce the Multi-Inter-Distance constraint. The scheduling algorithm by López-Ortiz and Quimper is adapted to produce a filtering algorithm enforcing bounds consistency. The constraint Multi-Inter-Distance is proved efficient to solve the runway scheduling problem on the benchmark by Artiouchine and Baptiste.
6

Combinaison d'approche statique et dynamique pour l'application de politiques de sécurité

Godonou, Théophane Gloria 20 April 2018 (has links)
Ce mémoire présente une approche d'application de politiques de sécurité qui utilise une analyse de types basée sur un système de types multi-valeurs. Cette analyse est suivie d'une instrumentation lorsque nécessaire. Le langage cible est un langage impératif. Notre approche vise à réduire les faux-positifs générés par une analyse statique, et à réduire la surcharge d'exécution en n'instrumentant que lorsque nécessaire. Les faux-positifs surviennent dans l'analyse de systèmes informatiques lorsqu'une information est manquante durant la compilation, par exemple le nom d'un fichier, et par conséquent, son niveau de sécurité. L'idée principale de notre approche est de distinguer les réponses négatives des réponses incertaines. Au lieu de rejeter les commandes potentiellement non sécuritaires, elles sont identifiées et étiquetées pour la seconde phase de l'analyse. Les réponses négatives et positives sont traitées comme cela se fait d'habitude. Ce travail est une approche hybride d'application de politique de sécurité : les points potentiellement sécuritaires du programme détectés par notre analyse par typage sont instrumentés par la suite avec des tests dynamiques. Le système de typage sur lequel se base le nôtre a été présenté par Desharnais et al. [12]. Notre approche a été acceptée pour publication [7]. Dans ce travail nous présentons les modifications apportées au précédent travail et la phase d'instrumentation qui la complète. La nouveauté de notre approche est de rajouter un niveau de sécurité aux trois du travail précédent. Nous traitons les canaux et les variables de façon spéciale. Les programmes interagissent par le biais de canaux de communication. Des niveaux de confidentialité sont associés aux canaux plutôt qu'aux variables dont le niveau de sécurité est fonction de l'information qu'elles stockent. Notre analyse est sensible au flot. / In this Master thesis, we present an approach to enforce information flow policies using a multi-valued type-based analysis followed by an instrumentation when needed. The target is a core imperative language. Our approach aims at reducing false positives generated by static analysis, and at reducing execution overhead by instrumenting only when needed. False positives arise in the analysis of real computing systems when some information is missing at compile time, for example the name of a file, and consequently, its security level. The key idea of our approach is to distinguish between negative and may responses. Instead of rejecting the possibly faulty commands, they are identified and annotated for the second step of the analysis; the positive and negative responses are treated as is usually done. This work is a hybrid security enforcement mechanism: the maybe-secure points of the program detected by our type based analysis are instrumented with dynamic tests. The basic type based analysis has been reported by Desharnais et al. [12], this work deals with the modification of the type system and the instrumentation step. It has been accepted for publication [7]. The novelty of our approach is the handling of four security types, but we also treat variables and channels in a special way. Programs interact via communication channels. Secrecy levels are associated to channels rather than to variables whose security levels change according to the information they store. Thus the analysis is flow-sensitive.
7

Guide de développement d'un réseau social à visée pédagogique

Chaabane, Saif 20 April 2018 (has links)
La popularité croissante des réseaux sociaux a suscité l’intérêt du monde de l’éducation. En effet, ces réseaux constituent des espaces virtuels qui enrichissent l’expérience pédagogique des membres de la communauté académique. Ces différents membres, étudiants et enseignants, bénéficient des outils qui y sont offerts pour soutenir l’expérience d’apprentissage/enseignement au-delà des cours magistraux officiels. Cet intérêt a donné naissance à un éventail d’outils de développement de réseaux sociaux. Par contre, la littérature n’indique pas de démarche à suivre pour développer des réseaux sociaux à visée pédagogique. À cet effet, nous avons comparé des différents outils disponibles pour le développement de réseaux sociaux, puis proposé un guide pour le développement de réseaux sociaux à visée pédagogique. Ce guide est générique et présente la démarche à entreprendre, en étapes concises et bien détaillées. Nous illustrons l’utilisation du guide que nous avons développé pour un cas réel, à savoir celui de l’université de Koudougou. / Social networks know growing popularity that is attracting more and more education world. They are virtual spaces that enrich the educational experience. A variety of software was proposed to create social networks. But, the literature does not indicate how to proceed to develop educational social networks. To this end, a comparison of available tools to create social network was made and a guide for the development of such networks was proposed. This guide is generic and presents, in concise and well-detailed steps, the approach to be undertaken for developing educational social networks. It can be used independently of the objectives of setting up a given educational social network, and independently of the specific needs of its users. In order to illustrate the use of the guide, we have developed the educational social network of the University of Koudougou.
8

Investigation of open resolvers in DNS reflection DDoS attacks

Abbasi, Saeed 23 April 2018 (has links)
Les serveurs du système de noms de domaine (DNS) représentent des éléments clés des réseaux Internet. Récemment, les attaquants ont profité de ce service pour lancer des attaques massives de déni de service distribué (DDoS) contre de nombreuses organisations [1, 2, 3]. Ceci est rendu possible grâce aux différentes vulnérabilités liées à la conception, implantation ou une mauvaise configuration du protocole DNS. Les attaques DDoS amplifiées par DNS sont des menaces dangereuses pour les utilisateurs d’Internet. L’objectif de cette étude est d’acquérir une meilleure compréhension des attaques DDoS amplifiées par DNS par l’investigation des résolveurs DNS ouverts à travers le monde. Dans ce contexte, il est nécessaire d’adopter une approche en phase précoce pour détecter les résolveurs DNS ouverts. Cela devient cruciale dans le processus d’enquête. Dans cette thèse, nous nous intéresserons à l’utilisation de résolveurs DNS ouverts dans les attaques DDoS amplifiées par DNS. Plus précisément, la principale contribution de notre recherche est la suivante : (i) Nous profilons les résolveurs DNS ouverts, ce qui implique : détecter les résolveurs ouverts, les localiser, détecter leur système d’exploitation et le type de leur connectivité, et étudier le but de leur vivacité. (ii) Nous effectuons une évaluation de la sécurité des résolveurs DNS ouverts et leurs vulnérabilités. De plus, nous discutons les fonctions de sécurité des résolveurs DNS, qui fournissent, par inadvertence, les attaquants par la capacité d’effectuer des attaques DDoS amplifiées par DNS. (iii) Nous présentons une analyse pour démontrer l’association des résolveurs DNS ouverts avec les menaces de logiciels malveillants. / Domain Name System (DNS) servers represent key components of Internet networks. Recently, attackers have taken advantage of this service to launch massive Distributed Denial of Service (DDoS) attacks against numerous organizations [1, 2, 3]. This is made possible due to the various vulnerabilities linked to the design, implementation or misconfiguration of the DNS protocol. DNS reflection DDoS attacks are harmful threats for internet users. The goal of this study is to gain a better understanding of DNS reflection DDoS attacks through the investigation of DNS open resolvers around the world. In this context, there is a need for an early phase approach to detect and fingerprint DNS open resolvers. This becomes crucial in the process of investigation. In this thesis, we elaborate on the usage of DNS open resolvers in DNS reflection DDoS attacks. More precisely, the main contribution of our research is as follows : (i) We profile DNS open resolvers, which involves : detecting open resolvers, locating them, fingerprinting their operating system, fingerprinting the type of their connectivity, studying the purpose of their liveness. (ii) We conduct an assessment with respect to DNS open resolvers security and their vulnerabilities. Moreover, we discuss the security features that DNS open resolvers are equipped with, which inadvertently provide the capability to the attackers in order to carry out DNS reflection DDoS attacks. (iii) We present an analysis to demonstrate the association of DNS open resolvers with malware threats.
9

Jeux de poursuite policier-voleur sur un graphe : le cas du voleur rapide

Marcoux, Héli 20 April 2018 (has links)
Les problèmes de recherche sur un graphe peuvent être exprimés sous la forme d’un jeu où un ensemble de chercheurs tentent de capturer un ensemble de fugitifs. Lorsqu’un tel jeu est joué en alternance par les deux ensembles de joueurs, nous parlons alors de jeux des policiers et des voleurs (« Cops and Robbers games ») ou plus simplement de jeux policiers-voleurs. Nowakowski et Winkler [28], et indépendamment Quilliot [45], ont introduit la première version des jeux policiers-voleurs dans laquelle un seul policier tente de capturer un seul voleur, les deux se déplaçant à tour de rôle vers des sommets adjacents de leurs positions courantes. Ils ont notamment proposé une jolie caractérisation des graphes gagnants pour le policier qui est basée sur l’existence d’un démantèlement particulier des sommets du graphe ; un démantèlement consistant à retirer un à un les sommets du graphe suivant une certaine règle. Cette caractérisation par démantèlement est par ailleurs intéressante puisqu’elle donne directement un algorithme polynomial de type diminuer pour régner pour résoudre le problème du policier et du voleur. Dans ce mémoire, nous proposons une nouvelle version d’un jeu policier-voleur dans laquelle le voleur se déplace arbitrairement vite dans le graphe et dans laquelle le policier possède une zone de surveillance qui limite le voleur dans ses déplacements. Nous caractérisons les graphes gagnants pour le policier dans ce nouveau jeu en utilisant un concept de démantèlement d’un graphe, similaire à celui de Nowakowski et Winkler [28], Quilliot [45], mais adapté aux conditions de notre nouveau jeu. Nous devons notamment généraliser la définition d’un graphe classique à celle d’un graphe clandestin, qui possède un ensemble de sommets clairs et un ensemble de sommets sombres, afin d’obtenir notre caractérisation par démantèlement. Nous donnons par ailleurs un algorithme qui permet de bâtir une stratégie monotone gagnante pour le policier en nous assurant que le policier sécurise de plus en plus de sommets à chaque tour. / Graph searching problems can be expressed as a game where a group of searchers is trying to capture a group of fugitives on a graph. When players move alternately in such a game, we are then referring to games of Cops and Robbers. Nowakowski and Winkler [28], and independently Quilliot [45], introduced the very first version of cops and robbers games in which a single cop tries to capture a single robber, both players moving alternately from their current positions to neighboring vertices. They notably proposed a very nice characterization of graphs that are winning for the cop, which is based on a particular dismantling scheme of the graph’s vertices; a dismantling scheme consisting in removing one by one each vertex of the graph by following a given rule. This dismantling-like characterization is furthermore interesting since it directly yields a divide-and-conquer algorithm that is polynomial, to solve the cop and robber problem. In this master thesis, we propose a new version of cops and robbers games in which the robber is able to move arbitrarily fast in the graph and in which the cop has a watching area that limits the robber’s moving capabilities. We characterize the cop-winning graphs for this new game by using some dismantling scheme similar to the one given by Nowakowski and Winkler [28], Quilliot [45], but that better fits our new game’s conditions. To obtain this dismantling-like characterization, we particularly need to generalize the definition of a classical graph to an undergrounded graph, whose vertices are split in a set of light vertices and a set of dark vertices. We also give an algorithm that provides a monotonous cop-winning strategy by making sure the cop is securing more and more vertices at each turn.
10

Unsupervised segmentation of sequences using harmony search and hierarchical clustering techniques

Roshani, Asra 20 April 2018 (has links)
Dans le contexte de traitement automatique du langage naturel, les données le plus souvent sont présentées comme une longue séquence de caractères discrets. Donc, l'identification d'un modèle intéressant dans la longue séquence peut être une tâche difficile. En conséquence, la segmentation automatique de données serait extrêmement utile pour extraire les sous-séquences et les morceaux significatifs à partir d'une longue séquence de données. La segmentation de données est l'une des étapes de prétraitement les plus importantes dans plusieurs tâches de traitement du langage naturel. La segmentation de mots est considérée comme la tâche de trouver des morceaux significatifs dans le corpus de textes. L'objectif principal de cette étude est de présenter une technique de segmentation hiérarchique non supervisée en utilisant l'algorithme de recherche d'harmonie (Harmony Search algorithm) qui est une approche d'optimisation méta-heuristique. Dans la technique proposée, la tâche de segmentation de mots est réalisée à l'aide d'une recherche d'harmonie binaire (Binary Harmony search) qui une forme particulière de l'algorithme de recherche d'harmonie. La construction et la formation de modèles de langue sont accomplies par un lexique hiérarchique et un algorithme de Baum-Welch. De plus, pour améliorer la performance et la convergence de la recherche de l'harmonie binaire, quelques modifications innovantes sont appliquées. En général, cette étude présente un algorithme de segmentation de mots hiérarchique non supervisée basée sur une méthode recherche de l'harmonie et examine toutes les questions relatives y compris: la segmentation de mots représentées en format binaire, l'harmonie binaire, l'amélioration de la procédure de l'ajustement du lancement, la définition de la fonction objective en recherche d'harmonie et la politique de pénalité. La performance de l'algorithme est évaluée selon la précision de la segmentation, le rappel, la F-mesure et le temps d'exécution de l'algorithme. Une partie du corpus Moby Dick est utilisée comme étude de cas. Nos expérimentations montrent que l'approche de segmentation basée sur une recherche d'harmonie fournit plusieurs de bons segments, mais qu'il nécessite un long temps d'exécution. / In the context of natural language processing, data is presented most of the time as a long sequence of discrete characters. Therefore, identifying interesting patterns within the long sequence can be a challenging task. Consequently, automatic segmentation of data would be extremely useful to extract the meaningful sub-sequences and chunks from a long data sequence. Segmentation of raw data is one of the most important preprocessing steps in many natural language processing tasks. Word segmentation is considered as the task of finding meaningful chunks, i.e. words, within a text corpus. The main objective of this study is to present an unsupervised hierarchical segmentation technique using Harmony Search algorithm which is a meta-heuristic optimization approach. In the proposed technique, the word segmentation task is performed using a Binary Harmony Search (a special form of Harmony Search). The language model construction and training are accomplished using a hierarchical lexicon and Baum-welch algorithm. Moreover, to improve the performance and convergence of the Binary Harmony Search, some innovative modifications are applied. In general, this study introduces an unsupervised hierarchical word segmentation algorithm based on Harmony Search approach and investigates the following related issues: word segmentation mapping to binary format, Binary Harmony Search, pitch adjustment procedure improvement, Harmony Search objective function definition, and penalty policy. The performance of the algorithm is valuated using segmentation precision, recall, F-measure and the algorithm run time when applied to the part of famous Moby Dick story as the case study. Our experiments reveal that the segmentation approach based on Harmony Search provides significantly good segments, while it requires significant run time.

Page generated in 0.0329 seconds