Global ETD Search

1	Test de spécifications de services de télécommunication Zuanon, Nicolas 27 June 2000 (has links) (PDF) Ce travail aborde le problème de la validation de spécifications de services téléphoniques et notamment la recherche d'interactions entre services. Une interaction correspond à la modification du comportement d'un ou plusieurs services, du fait de la coexistence des services. L'interaction est un obstacle majeur au développement de l'offre de services de télécommunications. La validation de spécifications requiert une modélisation des services et du réseau sous-jacent. Nous proposons une méthode de spécification formelle et de validation de services. Celle-ci est basée sur l'utilisation d'un formalisme synchrone pour la modélisation et la spécification, et sur la mise en oeuvre de méthodes de test pour la validation. Nous avons à cette fin proposé une méthode de test adaptée au problème. Cette méthode a été intégrée à Lutess, un environnement de test fonctionnel de systèmes réactifs synchrones, reposant sur un principe de génération de données dynamique et aléatoire. Elle est basée sur la notion de "guidage par schémas". Un schéma représente une classe de comportements de l'environnement du système sous test, comportements que l'on souhaite tester principalement, soit parce qu'ils sont réalistes, soit parce qu'ils conduisent à une situation estimée critique. Cette méthode a été formalisée, puis validée expérimentalement dans plusieurs études de cas conséquentes, en particulier lors du premier concours de détection d'interaction proposé en marge de la conférence "Feature Interaction Workshop", qui a consacré Lutess "Meilleur outil pour la détection d'interactions". Validation de services téléphoniques génération de données de test spécification formelle approche synchrone
2	Génération de données : de l’anonymisation à la construction de populations synthétiques Jutras-Dubé, Pascal 11 1900 (has links) Les coûts élevés de collecte de données ne rendent souvent possible que l’échantillonnage d’un sous-ensemble de la population d’intérêt. Il arrive également que les données collectées renferment des renseignements personnels et sensibles au sujet des individus qui y figurent de sorte qu’elles sont protégées par des lois ou des pratiques strictes de sécurité et gouvernance de données. Dans les deux cas, l’accès aux données est restreint. Nos travaux considèrent deux angles de recheche sous lesquels on peut se servir de la génération de données fictives pour concevoir des modèles d’analyse où les données véritables sont inaccessibles. Sous le premier angle, la génératon de données fictives se substitue aux données du recensement. Elle prend la forme d’une synthèse de population constituée d’individus décrits par leurs attributs aux niveaux individuel et du ménage. Nous proposons les copules comme nouvelle approche pour modéliser une population d’intérêt dont seules les distributions marginales sont connues lorsque nous possédons un échantillon d’une autre population qui partage des caractéristiques de dépendances interdimensionnelles similaires. Nous comparons les copules à l’ajustement proportionnel itératif, technologie répandue dans le domaine de la synthèse de population, mais aussi aux approches d’apprentissage automatique modernes comme les réseaux bayésiens, les auto-encodeurs variationnels et les réseaux antagonistes génératifs lorsque la tâche consiste à générer des populations du Maryland dont les données sont issues du recensement américain. Nos expériences montrent que les copules surpassent l’ajustement proportionnel itératif à modéliser les relations interdimensionnelles et que les distributions marginales des données qu’elles génèrent correspondent mieux à celles de la population d’intèrêt que celles des données générées par les méthodes d’apprentissage automatique. Le second angle considère la génération de données qui préservent la confidentialité. Comme la désensibilisation des données est en relation inverse avec son utilité, nous étudions en quelles mesures le k-anonymat et la modélisation générative fournissent des données utiles relativement aux données sensibles qu’elles remplacent. Nous constatons qu’il est effectivement possible d’employer ces définitions de confidentialité pour publier des données utiles, mais la question de comparer leurs garanties de confidentialité demeure ouverte. / The high costs of data collection can restrict sampling so that only a subset of the data is available. The data collected may also contain personal and sensitive information such that it is protected by laws or strict data security and governance practices. In both cases, access to the data is restricted. Our work considers two research angles under which one can use the generation of synthetic data to design analysis models where the real data is inaccessible. In the first project, a synthetically generated population made up of individuals described by their attributes at the individual and household levels replaces census data. We propose copulas as a new approach to model a population of interest whose only marginal distributions are known when we have a sample from another population that shares similar interdimensional dependencies. We compare copulas to iterative proportional fitting, a technology developed in the field of population synthesis, but also to modern machine learning approaches such as Bayesian networks, variational autoencoders, and generative adversarial networks when the task is to generate populations of Maryland. Our experiments demonstrated that the copulas outperform iterative proportional fitting in modeling interdimensional relationships and that the marginal distributions of the data they generated match those of the population of interest better than those of the data generated by the machine learning methods. The second project consists of generating data that preserves privacy. As data privacy is inversely related to its usefulness, we study to what extent k-anonymity and generative modeling provide useful data relative to the sensitive data they replace. We find that it is indeed possible to use these privacy definitions to publish useful data, but the question of comparing their privacy guarantees remains open. Génération de données Copules Synthèse de population Confidentialité Data Generation Copulas Population Synthesis Privacy Transportation / Transport (UMI : 0709)
3	Génération automatique de tests unitaires avec Praspel, un langage de spécification pour PHP / The art of contract-based testiong in PHP with Praspel Enderlin, Ivan 16 July 2014 (has links) Les travaux présentés dans ce mémoire portent sur la validation de programmes PHP à travers un nouveau langage de spécification, accompagné de ses outils. Ces travaux s’articulent selon trois axes : langage de spécification, génération automatique de données de test et génération automatique de tests unitaires.La première contribution est Praspel, un nouveau langage de spécification pour PHP, basé sur la programmation par contrat. Praspel spécifie les données avec des domaines réalistes, qui sont des nouvelles structures permettant de valider etgénérer des données. À partir d’un contrat écrit en Praspel, nous pouvons faire du Contract-based Testing, c’est à dire exploiter les contrats pour générer automatiquement des tests unitaires. La deuxième contribution concerne la génération de données de test. Pour les booléens, les entiers et les réels, une génération aléatoire uniforme est employée. Pour les tableaux, un solveur de contraintes a été implémenté et utilisé. Pour les chaînes de caractères, un langage de description de grammaires avec un compilateur de compilateurs LL(⋆) et plusieurs algorithmes de génération de données sont employés. Enfin, la génération d’objets est traitée.La troisième contribution définit des critères de couverture sur les contrats.Ces derniers fournissent des objectifs de test. Toutes ces contributions ont été implémentées et expérimentées dans des outils distribués à la communauté PHP. / The works presented in this memoir are about the validation of PHPprograms through a new specification language, along with its tools. These works follow three axes: specification language, automatic test data generation and automatic unit test generation. The first contribution is Praspel, a new specification language for PHP, based on the Design by Contract. Praspel specifies data with realistic domains, which are new structures allowing to validate and generate data. Based on a contract, we are able to perform Contract-based Testing, i.e.using contracts to automatically generate unit tests. The second contribution isabout test data generation. For booleans, integers and floating point numbers, auniform random generation is used. For arrays, a dedicated constraint solver has been implemented and used. For strings, a grammar description language along with an LL(⋆) compiler compiler and several algorithms for data generation are used. Finally, the object generation is supported. The third contribution defines contract coverage criteria. These latters provide test objectives. All these contributions are implemented and experimented into tools distributed to the PHP community. Praspel Génération de données PHP Contract-based Testing Praspel Data generation Automatic unit test generation PHP 004.75
4	Modèle de dégradation d’images de documents anciens pour la génération de données semi-synthétiques / Semi-synthetic ancient document image generation by using document degradation models Kieu, Van Cuong 25 November 2014 (has links) Le nombre important de campagnes de numérisation mises en place ces deux dernières décennies a entraîné une effervescence scientifique ayant mené à la création de nombreuses méthodes pour traiter et/ou analyser ces images de documents (reconnaissance d’écriture, analyse de la structure de documents, détection/indexation et recherche d’éléments graphiques, etc.). Un bon nombre de ces approches est basé sur un apprentissage (supervisé, semi supervisé ou non supervisé). Afin de pouvoir entraîner les algorithmes correspondants et en comparer les performances, la communauté scientifique a un fort besoin de bases publiques d’images de documents avec la vérité-terrain correspondante, et suffisamment exhaustive pour contenir des exemples représentatifs du contenu des documents à traiter ou analyser. La constitution de bases d’images de documents réels nécessite d’annoter les données (constituer la vérité terrain). Les performances des approches récentes d’annotation automatique étant très liées à la qualité et à l’exhaustivité des données d’apprentissage, ce processus d’annotation reste très largement manuel. Ce processus peut s’avérer complexe, subjectif et fastidieux. Afin de tenter de pallier à ces difficultés, plusieurs initiatives de crowdsourcing ont vu le jour ces dernières années, certaines sous la forme de jeux pour les rendre plus attractives. Si ce type d’initiatives permet effectivement de réduire le coût et la subjectivité des annotations, reste un certain nombre de difficultés techniques difficiles à résoudre de manière complètement automatique, par exemple l’alignement de la transcription et des lignes de texte automatiquement extraites des images. Une alternative à la création systématique de bases d’images de documents étiquetées manuellement a été imaginée dès le début des années 90. Cette alternative consiste à générer des images semi-synthétiques imitant les images réelles. La génération d’images de documents semi-synthétiques permet de constituer rapidement un volume de données important et varié, répondant ainsi aux besoins de la communauté pour l’apprentissage et l’évaluation de performances de leurs algorithmes. Dans la cadre du projet DIGIDOC (Document Image diGitisation with Interactive DescriptiOn Capability) financé par l’ANR (Agence Nationale de la Recherche), nous avons mené des travaux de recherche relatifs à la génération d’images de documents anciens semi-synthétiques. Le premier apport majeur de nos travaux réside dans la création de plusieurs modèles de dégradation permettant de reproduire de manière synthétique des déformations couramment rencontrées dans les images de documents anciens (dégradation de l’encre, déformation du papier, apparition de la transparence, etc.). Le second apport majeur de ces travaux de recherche est la mise en place de plusieurs bases d’images semi-synthétiques utilisées dans des campagnes de test (compétition ICDAR2013, GREC2013) ou pour améliorer par ré-apprentissage les résultats de méthodes de reconnaissance de caractères, de segmentation ou de binarisation. Ces travaux ont abouti sur plusieurs collaborations nationales et internationales, qui se sont soldées en particulier par plusieurs publications communes. Notre but est de valider de manière la plus objective possible, et en collaboration avec la communauté scientifique concernée, l’intérêt des images de documents anciens semi-synthétiques générées pour l’évaluation de performances et le ré-apprentissage. / In the last two decades, the increase in document image digitization projects results in scientific effervescence for conceiving document image processing and analysis algorithms (handwritten recognition, structure document analysis, spotting and indexing / retrieval graphical elements, etc.). A number of successful algorithms are based on learning (supervised, semi-supervised or unsupervised). In order to train such algorithms and to compare their performances, the scientific community on document image analysis needs many publicly available annotated document image databases. Their contents must be exhaustive enough to be representative of the possible variations in the documents to process / analyze. To create real document image databases, one needs an automatic or a manual annotation process. The performance of an automatic annotation process is proportional to the quality and completeness of these databases, and therefore annotation remains largely manual. Regarding the manual process, it is complicated, subjective, and tedious. To overcome such difficulties, several crowd-sourcing initiatives have been proposed, and some of them being modelled as a game to be more attractive. Such processes reduce significantly the price andsubjectivity of annotation, but difficulties still exist. For example, transcription and textline alignment have to be carried out manually. Since the 1990s, alternative document image generation approaches have been proposed including in generating semi-synthetic document images mimicking real ones. Semi-synthetic document image generation allows creating rapidly and cheaply benchmarking databases for evaluating the performances and trainingdocument processing and analysis algorithms. In the context of the project DIGIDOC (Document Image diGitisation with Interactive DescriptiOn Capability) funded by ANR (Agence Nationale de la Recherche), we focus on semi-synthetic document image generation adapted to ancient documents. First, we investigate new degradation models or adapt existing degradation models to ancient documents such as bleed-through model, distortion model, character degradation model, etc. Second, we apply such degradation models to generate semi-synthetic document image databases for performance evaluation (e.g the competition ICDAR2013, GREC2013) or for performance improvement (by re-training a handwritten recognition system, a segmentation system, and a binarisation system). This research work raises many collaboration opportunities with other researchers to share our experimental results with our scientific community. This collaborative work also helps us to validate our degradation models and to prove the efficiency of semi-synthetic document images for performance evaluation and re-training. Modèle de dégradation Évaluation de performance Re-apprentissage Analyse d’images de documents anciens Document degradation model Document image generation Performance evaluation Re-training Ancient document image analysis

1

Page generated in 0.0839 seconds