Spelling suggestions: "subject:"similarités"" "subject:"similarité""
1 |
Problèmes de similarité et spectre étendu d'un opérateur / Similarity problems and extended spectrum of an operatorPetitcunot, Pierre 30 May 2008 (has links)
Dans ce mémoire on s'intéresse à quelques problèmes de similarités ainsi qu'au spectre étendu d'un opérateur. Dans la première partie, on donne des critères de similarité à certaines classes d'isométries partielles et on obtient par exemple le résultat suivant. Soit T un opérateur sur H un espace de Hilbert. T est similaire à la somme directe d'un opérateur de Jordan et d'une isométrie si et seulement si T est à puissances bornées, T a une ascente finie et il existe un opérateur S E [appartenant à] B(H) à puissances bornées tel que Tn Sn Tn =Tn , pour tout n de N . Ces résultats peuvent être vus comme des résultats partiels pour un problème ouvert posé par Badea et Mbekhta en 2005. Dans la seconde partie, on obtient un critère de similarité conjointe à deux contractions qu'on applique pour obtenir des résultats de perturbation d'opérateurs conjointement similaires à des contractions. Le spectre étendu d'un opérateur est traité dans le dernier chapitre. Quelques liens avec d'autres spectres d'un opérateur sont proposés avant d'étudier le comportement du spectre étendu de certaines classes d'opérateurs. Enfin, on utilise le spectre étendu pour donner des critères d'hypercyclicité qu'on comparera à celui de Godefroy-Shapiro. / Ln this thesis, we study some similarity problems and the extended spectrum of an operator. ln the first part, we give criteria of similarity to some classes of partial isometries. For example, we obtain the following result. Let T be an operator on H an Hilbert space. T is similar to the direct sum of a Jordan operator and an isometry if and only if T is power-bounded, T has a finite as cent and there exists a power~bounded operator S E B(H) so that TnsnTn = Tn, for all n of No This results can be seen as partial results to an open problem of Badea and Mbekhta (2005) . ln the second part, we obtain a criterion of joint similarity to two contractions that we apply to have results of pertubation of operators jointly similar to contractions. The extended spectrum is the subject of the last part. Some of its links with other spectra of an operator are proposed before studying the behaviour of the extended spectrum of sorne classes of operators. Finally we use the extended spectrum to give criteria of hypercyclicity that we will compare to a criterion of Godefroy and Shapiro
|
2 |
Apprentissage probabiliste de similarités d'édition / Learning probabilistic edit similarityBoyer, Laurent 24 March 2011 (has links)
De nombreuses applications informatiques nécessitent l’utilisation de distances. Dans le cadre de données structurées, chaînes ou arbres, nous utilisons majoritairement la distance d’édition. Celle-ci correspond au nombre minimal d’opérations d’édition (insertion, délétion et substitution) nécessaire pour transformer la première donnée en la seconde. Suivant l’application traitée, il est possible de paramétrer la distance d’édition en associant à chaque opération d’édition un poids. Dans le cadre de ce manuscrit, nous proposons une technique d’apprentissage automatique supervisée pour apprendre les poids de la distance décrite précédemment. L’algorithme utilisé, appelé Expectation-Maximisation, maximise la vraisemblance des paramètres du modèle à l’aide d’un échantillon d’apprentissage composé de paires d’exemples considérés comme similaires. La première contribution de ce manuscrit est une extension de précédents travaux sur les chaînes aux arbres sous la forme de transducteur à un unique état. Nous montrons sur une tâche de reconnaissance de caractères manuscrits, l’efficacité de l’apprentissage par rapport à l’utilisation de poids non appris. La seconde est une approche sur les chaînes sous contraintes. Le modèle est représenté par un ensemble fini d’états dans lequel les transitions sont contraintes. Une contrainte est représentée par un ensemble fini de fonctions booléennes définies sur la chaîne d’entrée et une de ses positions. Nous utilisons notre modèle pour aborder une application de recherche de sites de facteur de transcription dans des séquences génomiques / In computer science, a lot of applications use distances. In the context of structured data, strings or trees, we mainly use the edit distance. The edit distance is defined as the minimum number of edit operation (insertion, deletion and substitution) needed to transform one data into the other one. Given the application, it is possible to tune the edit distance by adding a weight to each edit operation. In this work, we use a supervised machine learning approach to learn the weight of edit operation. The exploited algorithm, called Expectation-Maximisation, is a method for finding maximum likelihood estimates of parameters in a model given a learning sample of pairs of similar examples. The first contribution is an extension of earlier works on string to trees. The model is represent by a transducer with a single state. We apply successfully our method on a handwritten character recognition task. In a last part, we introduce a new model on strings under constraints. The model is made of a finite set of states where the transitions are constrained. A constraint is a finite set of boolean functions defined over an input string and one of its position. We show the relevance of our approach on a molecular biology task. We consider the problem of detecting Transcription Factor Binding Site in DNA sequences
|
3 |
Apprentissage probabiliste de similarités d'éditionBoyer, Laurent 24 March 2011 (has links) (PDF)
De nombreuses applications informatiques nécessitent l'utilisation de distances. Dans le cadre de données structurées, chaînes ou arbres, nous utilisons majoritairement la distance d'édition. Celle-ci correspond au nombre minimal d'opérations d'édition (insertion, délétion et substitution) nécessaire pour transformer la première donnée en la seconde. Suivant l'application traitée, il est possible de paramétrer la distance d'édition en associant à chaque opération d'édition un poids. Dans le cadre de ce manuscrit, nous proposons une technique d'apprentissage automatique supervisée pour apprendre les poids de la distance décrite précédemment. L'algorithme utilisé, appelé Expectation-Maximisation, maximise la vraisemblance des paramètres du modèle à l'aide d'un échantillon d'apprentissage composé de paires d'exemples considérés comme similaires. La première contribution de ce manuscrit est une extension de précédents travaux sur les chaînes aux arbres sous la forme de transducteur à un unique état. Nous montrons sur une tâche de reconnaissance de caractères manuscrits, l'efficacité de l'apprentissage par rapport à l'utilisation de poids non appris. La seconde est une approche sur les chaînes sous contraintes. Le modèle est représenté par un ensemble fini d'états dans lequel les transitions sont contraintes. Une contrainte est représentée par un ensemble fini de fonctions booléennes définies sur la chaîne d'entrée et une de ses positions. Nous utilisons notre modèle pour aborder une application de recherche de sites de facteur de transcription dans des séquences génomiques
|
4 |
Descripteurs couleur locaux invariants aux conditions d'acquisition / Invariant local colour descriptors of acquisitioned conditionsSong, Xiaohu 08 December 2011 (has links)
La mise au point de descripteurs locaux discriminants est aujourd’hui une priorité dans de nombreuses applications comme la reconnaissance d’objets, le suivi d’objets, la reconstruction 3D ou l’estimation de mouvement. La problématique réside dans le fait que ces descripteurs doivent être invariants aux conditions d’acquisition tout en conservant un pouvoir discriminant important. Dans ce contexte, nous nous sommes intéressés à l’invariance des descripteurs locaux de la littérature. Nous les avons notamment catégorisés en fonction des hypothèses sur lesquelles repose leur invariance. Ensuite, nous avons proposé des descripteurs locaux qui exploitent l’information de couleur dans les images. Nous avons montré que cette information peut être très pertinente lorsqu’elle est combinée à une information spatiale, à condition que son degré d’invariance soit contrôlé et adapté aux applications considérées. Ainsi, nous avons proposé un ensemble de descripteurs locaux couleur avec des degrés d’invariance différents. Ainsi, nous introduisons tout d’abord deux nouveaux descripteurs qui caractérisent les distributions spatiales des couleurs dans les régions analysées. L’idée originale consiste à appliquer des transformations affines entre les coordonnées spatiales des pixels et leurs coordonnées couleur. En effet, chaque pixel étant caractérisé par 5 valeurs, 2 coordonnées spatiales xy dans l’image et 3 composantes couleur RVB, nous proposons de rechercher une transformation affine qui permet de transformer les coordonnées xy de tous les pixels de la région concernée en coordonnées RVB de ces pixels. Nous montrons que l’application de cette transformation aux coordonnées xy fournit des coordonnées dans l’espace RVB qui a un double avantage. D’une part, les coordonnées d’un seul pixel dépendent à la fois de toutes les couleurs présentes dans la région mais aussi de leur répartition spatiale. Quelques coordonnées permettent donc de résumer efficacement le contenu de la région. D’autre part, ces coordonnées présente une invariance totale à toute transformation affine appliquée dans l’espace image 2D(invariance géométrique) et comme elles sont homogènes à des coordonnées couleur, nous pouvons leur procurer une invariance photométrique en leur appliquant des transformations affines particulières. Nous montrons que le degré d’invariance peut être contrôlé en fonction des besoins de l’application. Ces coordonnées nous permettent de définir le descripteur IVC (Image Vers Couleur). De manière similaire, nous évaluons une transformation affine de l’espace couleur à l’espace image et appliquons cette transformation aux coordonnées couleur. Les coordonnées obtenues par cette transformation sont invariantes à toute transformation affine appliquée dans l’espace couleur, elles présentent donc un degré d’invariance élevé aux variations photométriques. Ces coordonnées nous permettent de constituer le descripteur CVI (Couleur Vers Image). Nous montrons que ces deux descripteurs fournissent de très bons résultats dans le cadre de la reconnaissance d’objet et présentent une telle complémentarité que le descripteur obtenu par concaténation de IVC et CVI fournit de meilleurs résultats que la plupart des descripteurs couleur parus dans la littérature. Ensuite, nous proposons un descripteur qui présente un degré d’invariance plus élevé que les deux précédents puisqu’il n’est pas sensible aux transformations non-linéaires des couleurs modélisées par des fonctions croissantes appliquées indépendamment sur chaque composante couleur. Pour cela, nous exploitons les mesures de rang des pixels dans les images. De plus, nous utilisons les corrélations entre mesures de rang obtenues pour différentes composantes couleur. Ceci nous a permis de proposer un descripteur lui aussi très compact qui présente un degré d’invariance photométrique assez élevé. Enfin, nous abordons le problème de la caractérisation locale d’images par auto-similarités / Pas de résumé fourni en anglais
|
5 |
L'application de l'analogie dans l'enseignement du français en Chine / Application of analogy in the teaching of french in ChinaZhang, Fang 11 June 2014 (has links)
L’analogie désigne une similitude non fortuite entre deux choses ou deux idées de nature différente. Elle est un processus cognitif par lequel l’information attachée à un élément spécifique est transférée à un autre élément spécifique, et joue un rôle important dans le processus de la mémorisation, de la communication et de la résolution de problèmes. La méthode analoigique est utilisée dans plusieurs disciplines, et possède ses applications propres dans divers domaines. Dans la recherche en linguistique, l’analogie est aussi un sujet très intéressant. Au fil de nos recherches, nous constatons que l’analogie a une influence importante sur la création et l’évolution d’une langue, et, lorsqu’elle est correcte, joue aussi un rôle positif dans l’apprentissage : il devient alors possible de relier deux ou plusieurs langues par l’analogie. Par conséquent, notre travail consiste à mettre en relation de la langue française, de la langue anglaise et de la langue chinoise dans l’apprentissage du français, qui est la langue cible, l’anglais et le mandarin chinois étant déjà acquis par la plupart des apprenants chinois et constituant donc les langues de référence. A travers l’analogie, on pourra trouver les similarités entre les langues concernées qui ont une influence positive sur l’apprentissage, ainsi que les différences entre les langues qu’on peut utiliser pour former la compétence interculturelle des apprenants. / The analogy refers to a non-coincidental similarity between two things or two ideas of different nature. It is a cognitive process whereby information attached to a specific element is transferred to another specific element, and plays an important role in the process of memorization, communication and problem solving. It is used as a method in many disciplines, it also has its own definition in different areas. In linguistic research, the analogy is also a very interesting topic. According to our research, we find that the analogy has an important influence on the creation and the evolution of a language, when we learn a language, the correct analogy also plays a positive role, it is possible to connect two or more languages by analogy. Therefore, our work is to link French, English and Chinese because French is the language we want to learn, English and Chinese are the languages of reference as these two languages are already spoken by most Chinese students. Through the analogy, we can find similarities between the three languages and these similarities have a positive influence for the study, and also the differences between languages that can be used to train the intercultural competence of learners.
|
6 |
Descripteurs couleur locaux invariants aux conditions d'acquisitionSong, Xiaohu 08 December 2011 (has links) (PDF)
La mise au point de descripteurs locaux discriminants est aujourd'hui une priorité dans de nombreuses applications comme la reconnaissance d'objets, le suivi d'objets, la reconstruction 3D ou l'estimation de mouvement. La problématique réside dans le fait que ces descripteurs doivent être invariants aux conditions d'acquisition tout en conservant un pouvoir discriminant important. Dans ce contexte, nous nous sommes intéressés à l'invariance des descripteurs locaux de la littérature. Nous les avons notamment catégorisés en fonction des hypothèses sur lesquelles repose leur invariance. Ensuite, nous avons proposé des descripteurs locaux qui exploitent l'information de couleur dans les images. Nous avons montré que cette information peut être très pertinente lorsqu'elle est combinée à une information spatiale, à condition que son degré d'invariance soit contrôlé et adapté aux applications considérées. Ainsi, nous avons proposé un ensemble de descripteurs locaux couleur avec des degrés d'invariance différents. Ainsi, nous introduisons tout d'abord deux nouveaux descripteurs qui caractérisent les distributions spatiales des couleurs dans les régions analysées. L'idée originale consiste à appliquer des transformations affines entre les coordonnées spatiales des pixels et leurs coordonnées couleur. En effet, chaque pixel étant caractérisé par 5 valeurs, 2 coordonnées spatiales xy dans l'image et 3 composantes couleur RVB, nous proposons de rechercher une transformation affine qui permet de transformer les coordonnées xy de tous les pixels de la région concernée en coordonnées RVB de ces pixels. Nous montrons que l'application de cette transformation aux coordonnées xy fournit des coordonnées dans l'espace RVB qui a un double avantage. D'une part, les coordonnées d'un seul pixel dépendent à la fois de toutes les couleurs présentes dans la région mais aussi de leur répartition spatiale. Quelques coordonnées permettent donc de résumer efficacement le contenu de la région. D'autre part, ces coordonnées présente une invariance totale à toute transformation affine appliquée dans l'espace image 2D(invariance géométrique) et comme elles sont homogènes à des coordonnées couleur, nous pouvons leur procurer une invariance photométrique en leur appliquant des transformations affines particulières. Nous montrons que le degré d'invariance peut être contrôlé en fonction des besoins de l'application. Ces coordonnées nous permettent de définir le descripteur IVC (Image Vers Couleur). De manière similaire, nous évaluons une transformation affine de l'espace couleur à l'espace image et appliquons cette transformation aux coordonnées couleur. Les coordonnées obtenues par cette transformation sont invariantes à toute transformation affine appliquée dans l'espace couleur, elles présentent donc un degré d'invariance élevé aux variations photométriques. Ces coordonnées nous permettent de constituer le descripteur CVI (Couleur Vers Image). Nous montrons que ces deux descripteurs fournissent de très bons résultats dans le cadre de la reconnaissance d'objet et présentent une telle complémentarité que le descripteur obtenu par concaténation de IVC et CVI fournit de meilleurs résultats que la plupart des descripteurs couleur parus dans la littérature. Ensuite, nous proposons un descripteur qui présente un degré d'invariance plus élevé que les deux précédents puisqu'il n'est pas sensible aux transformations non-linéaires des couleurs modélisées par des fonctions croissantes appliquées indépendamment sur chaque composante couleur. Pour cela, nous exploitons les mesures de rang des pixels dans les images. De plus, nous utilisons les corrélations entre mesures de rang obtenues pour différentes composantes couleur. Ceci nous a permis de proposer un descripteur lui aussi très compact qui présente un degré d'invariance photométrique assez élevé. Enfin, nous abordons le problème de la caractérisation locale d'images par auto-similarités
|
7 |
Suivi d'objets dans une séquence d'images par modèle d'apparence : conception et évaluationMikram, Mounia 15 December 2008 (has links)
Le travail présenté dans ce mémoire s’inscrit dans le cadre du suivi d'objets dans des vidéos, et plus particulièrement, sur l'utilisation de représentations par modèle d'apparence pour le suivi. La notion de modèle d'apparence est précisée sur la base de l'extraction de descripteurs visuels comparés à l'aide de similarités à une référence. De nouvelles techniques pour évaluer les performances vis à vis du suivi sont présentées. Les approches classiques d’évaluation considèrent uniquement la qualité des trajectoires finales estimées. Les métriques proposées dans ce mémoire s’en distinguent par le fait qu’elles quantifient la performance intrinsèque des modèles d’apparence utilisés au sein du système. Deux axes sont ainsi développés : d’une part, un ensemble de mesures de la précision spatiale d’un modèle couplées à la mesure de la robustesse vis-à-vis d’une initialisation spatiale approximative, et d’autre part, la proposition d’une méthodologie permettant de mesurer la stabilité d’un modèle du point de vue temporel sur des données vidéos naturelles. Ces techniques seront utilisées dans la suite du mémoire pour évaluer les méthodes existantes ainsi que celles présentées. Deux nouveaux modèles d'apparence sont ensuite introduits. Le premier modèle dénommé l’histogramme multi-échelles permet de limiter les ambigüités liées à la représentation par histogramme de couleurs. Le deuxième modèle, fondé sur une extension de la métrique de Matusita pour la comparaison de distributions de couleurs, prend en compte les variations possibles des couleurs des objets liées aux conditions de changement d’illumination. Enfin, le lien entre modèle d'apparence et technique de recherche de la position optimale est abordé dans le contexte du suivi multi-noyaux à travers la proposition d'un nouvel algorithme de suivi basé sur une approche compositionnelle inverse. Celui-ci offre un temps de calcul fortement réduit pour une qualité de suivi similaire aux algorithmes existants. / Abstract
|
8 |
Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'informationChampclaux, Yaël 04 December 2009 (has links) (PDF)
Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches.
|
9 |
Semantic Decision Support for Information Fusion Applications / Aide à la décision sémantique pour la diffusion d'informationsBellenger, Amandine 03 June 2013 (has links)
La thèse s'inscrit dans le domaine de la représentation des connaissances et la modélisation de l'incertitude dans un contexte de fusion d'informations. L'idée majeure est d'utiliser les outils sémantiques que sont les ontologies, non seulement pour représenter les connaissances générales du domaine et les observations, mais aussi pour représenter les incertitudes que les sources introduisent dans leurs observations. Nous proposons de représenter ces incertitudes au travers d'une méta-ontologie (DS-ontology) fondée sur la théorie des fonctions de croyance. La contribution de ce travail porte sur la définition d'opérateurs d'inclusion et d'intersection sémantique et sur lesquels s'appuie la mise en œuvre de la théorie des fonctions de croyance, et sur le développement d'un outil appelé FusionLab permettant la fusion d'informations sémantiques à partir du développement théorique précédent. Une application de ces travaux a été réalisée dans le cadre d'un projet de surveillance maritime. / This thesis is part of the knowledge representation domain and modeling of uncertainty in a context of information fusion. The main idea is to use semantic tools and more specifically ontologies, not only to represent the general domain knowledge and observations, but also to represent the uncertainty that sources may introduce in their own observations. We propose to represent these uncertainties and semantic imprecision trough a metaontology (called DS-Ontology) based on the theory of belief functions. The contribution of this work focuses first on the definition of semantic inclusion and intersection operators for ontologies and on which relies the implementation of the theory of belief functions, and secondly on the development of a tool called FusionLab for merging semantic information within ontologies from the previous theorical development. These works have been applied within a European maritime surveillance project.
|
10 |
Similarités textuelles sémantiques translingues : vers la détection automatique du plagiat par traduction / Cross-lingual semantic textual similarity : towards automatic cross-language plagiarism detectionFerrero, Jérémy 08 December 2017 (has links)
La mise à disposition massive de documents via Internet (pages Web, entrepôts de données,documents numériques, numérisés ou retranscrits, etc.) rend de plus en plus aisée la récupération d’idées. Malheureusement, ce phénomène s’accompagne d’une augmentation des cas de plagiat.En effet, s’approprier du contenu, peu importe sa forme, sans le consentement de son auteur (ou de ses ayants droit) et sans citer ses sources, dans le but de le présenter comme sa propre œuvre ou création est considéré comme plagiat. De plus, ces dernières années, l’expansion d’Internet a également facilité l’accès à des documents du monde entier (écrits dans des langues étrangères)et à des outils de traduction automatique de plus en plus performants, accentuant ainsi la progression d’un nouveau type de plagiat : le plagiat translingue. Ce plagiat implique l’emprunt d’un texte tout en le traduisant (manuellement ou automatiquement) de sa langue originale vers la langue du document dans lequel le plagiaire veut l’inclure. De nos jours, la prévention du plagiat commence à porter ses fruits, grâce notamment à des logiciels anti-plagiat performants qui reposent sur des techniques de comparaison monolingue déjà bien éprouvées. Néanmoins, ces derniers ne traitent pas encore de manière efficace les cas translingues. Cette thèse est née du besoin de Compilatio, une société d’édition de l’un de ces logiciels anti-plagiat, de mesurer des similarités textuelles sémantiques translingues (sous-tâche de la détection du plagiat). Après avoir défini le plagiat et les différents concepts abordés au cours de cette thèse, nous établissons un état de l’art des différentes approches de détection du plagiat translingue. Nousprésentons également les différents corpus déjà existants pour la détection du plagiat translingue et exposons les limites qu’ils peuvent rencontrer lors d’une évaluation de méthodes de détection du plagiat translingue. Nous présentons ensuite le corpus que nous avons constitué et qui ne possède pas la plupart des limites rencontrées par les différents corpus déjà existants. Nous menons,à l’aide de ce nouveau corpus, une évaluation de plusieurs méthodes de l’état de l’art et découvrons que ces dernières se comportent différemment en fonction de certaines caractéristiques des textes sur lesquelles elles opèrent. Ensuite, nous présentons des nouvelles méthodes de mesure de similarités textuelles sémantiques translingues basées sur des représentations continues de mots(word embeddings). Nous proposons également une notion de pondération morphosyntaxique et fréquentielle de mots, qui peut aussi bien être utilisée au sein d’un vecteur qu’au sein d’un sac de mots, et nous montrons que son introduction dans ces nouvelles méthodes augmente leurs performances respectives. Nous testons ensuite différents systèmes de fusion et combinaison entre différentes méthodes et étudions les performances, sur notre corpus, de ces méthodes et fusions en les comparant à celles des méthodes de l’état de l’art. Nous obtenons ainsi de meilleurs résultats que l’état de l’art dans la totalité des sous-corpus étudiés. Nous terminons en présentant et discutant les résultats de ces méthodes lors de notre participation à la tâche de similarité textuelle sémantique (STS) translingue de la campagne d’évaluation SemEval 2017, où nous nous sommes classés 1er à la sous-tâche correspondant le plus au scénario industriel de Compilatio. / The massive amount of documents through the Internet (e.g. web pages, data warehouses anddigital or transcribed texts) makes easier the recycling of ideas. Unfortunately, this phenomenonis accompanied by an increase of plagiarism cases. Indeed, claim ownership of content, withoutthe consent of its author and without crediting its source, and present it as new and original, isconsidered as plagiarism. In addition, the expansion of the Internet, which facilitates access todocuments throughout the world (written in foreign languages) as well as increasingly efficient(and freely available) machine translation tools, contribute to spread a new kind of plagiarism:cross-language plagiarism. Cross-language plagiarism means plagiarism by translation, i.e. a texthas been plagiarized while being translated (manually or automatically) from its original languageinto the language of the document in which the plagiarist wishes to include it. While prevention ofplagiarism is an active field of research and development, it covers mostly monolingual comparisontechniques. This thesis is a joint work between an academic laboratory (LIG) and Compilatio (asoftware publishing company of solutions for plagiarism detection), and proposes cross-lingualsemantic textual similarity measures, which is an important sub-task of cross-language plagiarismdetection.After defining the plagiarism and the different concepts discussed during this thesis, wepresent a state-of-the-art of the different cross-language plagiarism detection approaches. Wealso present the preexisting corpora for cross-language plagiarism detection and show their limits.Then we describe how we have gathered and built a new dataset, which does not contain mostof the limits encountered by the preexisting corpora. Using this new dataset, we conduct arigorous evaluation of several state-of-the-art methods and discover that they behave differentlyaccording to certain characteristics of the texts on which they operate. We next present newmethods for measuring cross-lingual semantic textual similarities based on word embeddings.We also propose a notion of morphosyntactic and frequency weighting of words, which can beused both within a vector and within a bag-of-words, and we show that its introduction inthe new methods increases their respective performance. Then we test different fusion systems(mostly based on linear regression). Our experiments show that we obtain better results thanthe state-of-the-art in all the sub-corpora studied. We conclude by presenting and discussingthe results of these methods obtained during our participation to the cross-lingual SemanticTextual Similarity (STS) task of SemEval-2017, where we ranked 1st on the sub-task that bestcorresponds to Compilatio’s use-case scenario.
|
Page generated in 0.029 seconds