Spelling suggestions: "subject:"automatique,""
1 |
Détection de textes générés automatiquement / Detection of automatically generated textsNguyen, Minh Tien 03 April 2018 (has links)
Le texte généré automatiquement a été utilisé dans de nombreuses occasions à des buts différents. Il peut simplement passer des commentaires générés dans une discussion en ligne à une tâche beaucoup plus malveillante, comme manipuler des informations bibliographiques. Ainsi, cette thèse introduit d'abord différentes méthodes pour générer des textes libres ayant trait à un certain sujet et comment ces textes peuvent être utilisés. Par conséquent, nous essayons d'aborder plusieurs questions de recherche. La première question est comment et quelle est la meilleure méthode pour détecter un document entièrement généré.Ensuite, nous irons un peu plus loin et montrer la possibilité de détecter quelques phrases ou un petit paragraphe de texte généré automatiquement en proposant une nouvelle méthode pour calculer la similarité des phrases en utilisant leur structure grammaticale. La dernière question est comment détecter un document généré automatiquement sans aucun échantillon, ceci est utilisé pour illustrer le cas d'un nouveau générateur ou d'un générateur dont il est impossible de collecter des échantillons dessus.Cette thèse étudie également l'aspect industriel du développement. Un aperçu simple d'un flux de travail de publication d'un éditeur de premier plan est présenté. À partir de là, une analyse est effectuée afin de pouvoir intégrer au mieux notre méthode de détection dans le flux de production.En conclusion, cette thèse a fait la lumière sur de multiples questions de recherche importantes concernant la possibilité de détecter des textes générés automatiquement dans différents contextes. En plus de l'aspect de la recherche, des travaux d'ingénierie importants dans un environnement industriel réel sont également réalisés pour démontrer qu'il est important d'avoir une application réelle pour accompagner une recherche hypothétique. / Automatically generated text has been used in numerous occasions with distinct intentions. It can simply go from generated comments in an online discussion to a much more mischievous task, such as manipulating bibliography information. So, this thesis first introduces different methods of generating free texts that resemble a certain topic and how those texts can be used. Therefore, we try to tackle with multiple research questions. The first question is how and what is the best method to detect a fully generated document.Then, we take it one step further to address the possibility of detecting a couple of sentences or a small paragraph of automatically generated text by proposing a new method to calculate sentences similarity using their grammatical structure. The last question is how to detect an automatically generated document without any samples, this is used to address the case of a new generator or a generator that it is impossible to collect samples from.This thesis also deals with the industrial aspect of development. A simple overview of a publishing workflow from a high-profile publisher is presented. From there, an analysis is carried out to be able to best incorporate our method of detection into the production workflow.In conclusion, this thesis has shed light on multiple important research questions about the possibility of detecting automatically generated texts in different setting. Besides the researching aspect, important engineering work in a real life industrial environment is also carried out to demonstrate that it is important to have real application along with hypothetical research.
|
2 |
Détection de problèmes de qualité dans les ontologies construites automatiquement à partir de textesGherasim, Toader 30 September 2013 (has links) (PDF)
La démocratisation de l'utilisation des ontologies dans des domaines très variés a stimulé le développement d'approches proposant différents degrés d'automatisation du processus de construction d'une ontologie. Cependant, malgré le réel intérêt de ces approches, parfois les résultats obtenus peuvent être d'une faible qualité. L'objectif des travaux présentés dans cette thèse est de contribuer à l'amélioration de la qualité des ontologies construites automatiquement à partir de textes. Nos principales contributions sont : (1) une démarche pour la comparaison des approches, (2) une typologie des problèmes qui affectent la qualité les ontologies, et (3) une première réflexion sur l'automatisation de la détection des problèmes. Notre démarche de comparaison des approches comporte trois étapes complémentaires : (1) sur la base de leur degré de complétude et d'automatisation ; (2) puis sur la base de leurs caractéristiques techniques et fonctionnelles, et (3) expérimentalement par comparaison de leurs résultats avec une ontologie construite manuellement. La typologie proposée organise les problèmes de qualité selon deux dimensions : les erreurs versus les situations indésirables et les aspects logiques versus les aspects sociaux. Notre typologie contient 24 classes de problèmes qui recouvrent, en les complétant, les problèmes décrits dans la littérature. Pour la détection automatique nous avons recensé quelques unes des méthodes existantes pour chaque problème de notre typologie et nous avons mis en évidence les problèmes qui semblent encore ouverts. Et, nous avons proposé une heuristique pour un problème qui apparaît fréquemment dans nos expérimentations (étiquettes polysémiques).
|
Page generated in 0.0896 seconds