Global ETD Search

1	Les marqueurs –mm et dämmo dans la narration en amharique : approche développementale / The markers -mm and dämmo in Amharic narrative : developmental approach Omar, Hayat 27 October 2017 (has links) Les langues offrent une multitude d’éléments linguistiques pour organiser et délivrer les informations (Jisa, Reilly, Verhoeven, Baruch & Rosado, 2002). Il y a plusieurs manières d’exprimer en mot la représentation mentale des événements. Le locuteur, en fonction des outils linguistiques dont il dispose, choisit les formes qui lui apportent le plus de valeur communicative pour transmettre son message.Notre étude est centrée sur deux connecteurs de l’amharique, -mm et dämmo, qui sont abondants dans la langue, et dans la narration en particulier. Nous avons pour objectif d’examiner, dans une perspective développementale, comment les locuteurs les utilisent, et les fonctions que ces particules ont dans leurs narrations. Nous cherchons à distinguer les fonctions communicatives ou pragmatiques qui sont signalées dans l’énoncé au moyen de ces marques. Pour ce faire, nous avons constitué un corpus de soixante productions narratives d’enfants de groupes d’âges différents (5-6, 7-8 et 10-12 ans) et d’adultes locuteurs d’amharique. Nous avons utilisé le support imagé sans texte « Frog, where are you? » (Mayer, 1969) pour recueillir nos données. Ce matériel expérimental a déjà servi à de nombreuses études développementales dans plusieurs langues (Bamberg, 1987 ; Kail & Hickmann, 1992 ; Berman & Slobin, 1994 ; Kern 1997 ; Akinci, 1999 ; Strömqvist &Verhoeven 2003 ; Jisa, Chenu, Fekete & Omar, 2010 ; Fekete, 2011, Saïdi 2014 entre autres).Les résultats montrent que le clitique -mm et la locution dämmo, bien qu’ils soient tous les deux employés par tous les locuteurs, n’ont pas toujours la même portée selon le locuteur et varient en fonction de l’âge. dämmo, marque principalement le thème contrasté pour montrer la concomitance des événements. Il s’avère être plus maniable pour les enfants par rapport à –mm qui est beaucoup plus complexe, non seulement de par sa structure synthétique mais surtout parce qu’il est multiusage. –mm ancre l’information dans le contexte, il met en exergue le constituant sur lequel il opère. / Languages provide speakers with a wide range of linguistic units to organize and deliver information (Jisa, Reilly, Verhoeven, Baruch & Rosado, 2002). There are several ways to verbally express the mental representations of events. The speaker, according to the linguistic tools he has acquired, selects the one that brings out the most communicative effect to convey his message.Our study focuses on two markers in Amharic, -mm and dämmo, which abound in the language and in narratives in particular. Our aim is to examine, from a developmental perspective, how the speakers use them, and the functions these elements have in their narratives. We seek to distinguish the communicative and pragmatic functions indicated by means of these markers. To do so, we created a corpus of sixty narrative productions of children from 5-6, 7-8 to 10-12 years old and adult Amharic speakers. The material we used to collect our data is a series of pictures without text “Frog, Where are you?” (Mayer, 1969). This experimental material has already been used in many developmental studies and in several languages (Bamberg, 1987 ; Kail & Hickmann, 1992 ; Berman & Slobin, 1994 ; Kern 1997 ; Akinci, 1999 ; Strömqvist &Verhoeven 2003 ; Jisa, Chenu, Fekete & Omar, 2010 ; Fekete, 2011, Saïdi 2014 and many more).The results show that -mm and dämmo, although all the speakers use them both, do not always have the same scope according to the speaker and vary according to the age. dämmo is mainly used to mark a contrastive topic to signal the concomitance of the events. It seems to be easy to use for children compared to -mm which is much more complex, not only because of its synthetic structure but primarily because it is a multi-purpose morpheme. -mm anchors the information into the context, it highlights the constituent on which it operates. Acquisition Compétence narrative Cohésion Connexion Marqueurs discursifs Topique contrastif Focus contrastif Pragmatique Acquisition Narrative competence Cohesion Connection Discourse markers Contrastive topic Contrastive focus Pragmatics
2	CLASSIFICATION SEMANTIQUE DES PREDICATS DE MOUVEMENT DU HONGROIS DANS L'OPTIQUE DU TRAITEMENT AUTOMATIQUE<br />Etude contrastive hongrois-français Varga, Lidia 12 December 2007 (has links) (PDF) Cette étude présente une typologie générale des prédicats de mouvement du hongrois. Elle reflète une perception objective et simple du mouvement et de l'espace qui correspond le mieux à la réalité du monde. Le travail s'inscrit dans le cadre de la théorie des classes d'objets développée par Gaston Gross que nous avons appliquée au hongrois, langue non indo-européenne. Du point de vue morphologique, les prédicats de mouvement correspondent à des prédicats verbaux, des prédicats nominaux et, en nombre moins important, des adjectifs prédicatifs. Notre classification s'appuie sur des propriétés sémantiques comme la directionnalité, le mode, le lieu de destination, le but, le lieu source, l'intentionnalité et des propriétés aspectuelles des différents types de mouvement. Ces propriétés sémantiques sont complétées par des propriétés morpho-syntaxiques nécessaires au traitement automatique. <br />La composante contrastive de notre étude nous a permis, d'une part, à l'aide de la traduction, de proposer une meilleure description des classes de prédicats du hongrois et, d'autre part, de relever les différences morpho-syntaxiques et combinatoires spécifiques des deux langues dans l'expression du mouvement, comme le rôle des préfixes verbaux, des compléments locatifs ainsi que l'importance des prédicats nominaux. [SHS] Humanities and Social Sciences
3	Étude comparative russe-français des constructions verbales problématiques lors de l'apprentissage du français (langue étrangère) / Contrastive study of Russian-French problematic verbal constructions during French learning (foreign language) Ismayilov, Abdulali 08 December 2017 (has links) Basée sur une analyse contrastive, cette thèse aborde la structure verbale en français et en russe. Son objectif est d’établir un regard réflexif sur les deux langues dans le but de déterminer la différence et la ressemblance dans leur construction verbale. Explorant la question des verbes de structure différente des langues concernées, elle tente également de trouver les difficultés provoquées par cette différence à l’apprentissage. Ainsi, dans cette recherche, on parle des verbes problématiques sous un angle aussi didactique que linguistique. Composé de trois chapitres, ce travail étudie dans un premier temps le statut transitif/intransitif des verbes dans les deux langues en traitant l’approche traditionnelle et moderne et met en place une étude contrastive par rapport à la question de valence. On explore la construction verbale avec complément dans le deuxième chapitre de la recherche. Dans cette partie, l’analyse parallèle des verbes est effectuée afin de repérer leur fonctionnement selon les moyens grammaticaux de chaque langue. Et finalement, la comparaison de chaque verbe considéré problématique à l’apprentissage des deux langues suivie de tableaux fait partie du dernier chapitre. La production des tests préliminaires effectués auprès des apprenants russophones constitue également cette partie pour mieux comprendre la difficulté de ces derniers lors de la communication. / Based on a contrastive analysis, this thesis deals with the verbal structure in French and Russian. Its objective is to establish a reflexive look at the two languages in order to determine the difference and the similarity in their verbal construction. Exploring the question of the verbs of different structure, it also tries to find the difficulties caused by this difference in learning. Thus, in this research, problematic verbs are spoken of in a didactic as well as linguistic angle. This work, composed of three chapters, speaks first of all about the transitive/intransitive status of verbs in both languages by treating the traditional and modern approach and sets up a contrastive study in relation to the valence question. Verbal construction is explored with complement in the second chapter of the research. In this part, the parallel analysis of the verbs is performed in order to identify their functioning according to the grammatical means of each language. And finally, the comparison of each verb considered problematical to the learning in both languages followed by tables took the part of the last chapter. The production of preliminary tests with Russian-speaking learners is also part of this work in order to better understand the difficulties of the latter during the communication. Langue Transitif/intransitif Verbe Contrastif Complément Français Russe Confusion Language Transitive/intransitive Verb Contrastive Complement French Russian Confusion
4	La combinatoire des verbes d'affect : analyse sémantique, syntaxique et discursive français-arabe / Affective verbs’ combinations : semantic, syntactic and dicursive analysis in French and Arabic Zouaidi, Safa 09 December 2016 (has links) Le principal enjeu de notre recherche est d’aboutir à un modèle intégratif fonctionnel pour l’analyse des verbes d’affect en français et en arabe. Nous avons choisi d’étudier quatre V_affect : deux verbes d’émotion (étonner et énerver en français et leurs équivalents [ʔadhaʃa], [ʕaɣḍaba] en arabe]) et deux verbes de sentiment (admirer et envier et leurs équivalents [ʔaʕʒaba] et [ħasada]) appartenant aux champs sémantiques de la surprise, la colère, l’admiration et la jalousie. Plus concrètement, l’analyse se situe :– au niveau sémantique et syntaxique : les dimensions sémantiques véhiculées par les collocatifs verbaux comme étonner tellement, énerver prodigieusement, en français, et [ʔaʕʒaba ʔiʕʒāban kabīran] (admirer admiration grand) , [ɣaḍaba ɣaḍabaan ʃadīdan] (énerver colère sévère), en arabe, sont systématiquement reliées à la syntaxe (les constructions grammaticales récurrentes) (Hoey, 2005).– au niveau syntaxique et discursif : les emplois actifs, passifs, et pronominaux des V_affect sont étudiés dans la perspective des dynamiques informationnelles au sein de la phrase (Van Valin et LaPolla, 1997).D’un point de vue méthodologique, l’étude s’appuie sur une démarche quantitative et qualitative de la combinatoire verbale et privilégie la démarche contrastive. Elle est fondée sur le corpus journalistique français de la base de données EmoBase (projet Emolex 100 M de mots) et du corpus journalistique ArabiCorpus (137 M de mots).La thèse contribue ainsi à l’étude des valeurs sémantiques, du comportement syntaxique et discursif de la combinatoire des V_affect, en arabe et en français, ce qui permet de mieux structurer le champ lexical des affects par rapport à ce que proposent les études existantes en lexicologie. Les principaux résultats de l’étude peuvent être appliqués en didactique des langues, en traductologie et en traitement automatisé du lexique des affects dans les deux langues comparées. / The paramount stake of this research is to achieve an integrative functional model for the analysis of affective verbs in French and Arabic. I have chosen four affective verbs: two verbs of emotion (to astonish and to rage in French and their equivalent in Arabic) and two verbs of sentiment (to admire and to envy in French and their equivalent [ʔadhaʃa], [ʔaɣḍaba] in Arabic) they belong to semantic dictions of Surprise, Anger, Admiration, and Jealousy. More concretely, the analysis is shaped:- On the semantic and syntactic level: the semantic dimensions carried by verbal collocations such as to extremely astonish, to rage prodigiously in French, and [ʔaʕʒaba ʔiʕʒāban kabīran] (admire admiration big)*, [ɣaḍaba ɣaḍabaan ʃadīdan] (to rage rage extreme), and in Arabic are systematically linked to syntax (the recurrent grammatical constructions) (Hoey 2005).- On the syntactic and discursive level: the usage of passive, active and reflexive forms of affective verbs are dealt with from the perspective of informational dynamics in the sentence. (Van Valin et LaPolla 1997).From a methodological point of view, the study is based on the quantitative and qualitative approach of the verbal combination and favours the contrastive one. It is founded on the French journalistic corpus of Emobase Database (Emolex project 100 M of words) and the journalistic corpus Arabicorpus) (137 M of words).Furthermore, the thesis participates in the studies of semantic values, the syntactic and the discursive behavior of affective verbs’combinations, in Arabic and in French, which will enable to better structure the diction of emotions in relation to what is proposed by current studies in lexicography. The main results of the study can be applied in language teaching, translation, and automated processing of emotions' lexicon in the two compared languages. Combinaisons Lexique des affects Corpus comparables Sémantique-syntaxe-discours Contrastif arabe-français Modèle fonctionnel Verbs’ combinations Corpus Contrastive analyse Discursive behavior Semantic level Syntactic level 400
5	Apprentissage de descripteurs locaux pour l’amélioration des systèmes de SLAM visuel Luttun, Johan 12 1900 (has links) This thesis covers the topic of image matching in a visual SLAM or SfM context. These problems are generally based on a vector representation of the keypoints of one image, called a descriptor, which we seek to map to the keypoints of another, using a similarity measure to compare the descriptors. However, it remains difficult to perform this matching successfully, especially for challenging scenes where illumination changes, occlusions, motion, textureless and similar features are present, leading to mis-matched points. In this thesis, we develop a self-supervised contrastive deep learning framework for computing robust descriptors, particularly for these challenging situations.We use the TartanAir dataset built explicitly for this task, and in which these difficult scene cases are present. Our results show that descriptor learning works, improves scores, and that our method is competitive with traditional methods such as ORB. In particular, the invariance built implicitly by training pairs of positive examples through the construction of a trajectory from a sequence of images, as well as the controlled introduction of ambiguous negative examples during training, have a real observable effect on the scores obtained. / Le présent mémoire traite du sujet de mise en correspondance entre deux images dans un contexte de SLAM visuel ou de SfM. Ces problèmes reposent généralement sur une représentation vectorielle de points saillants d’une image, appelée descripteur, et qu’on cherche à mettre en correspondance avec les points saillants d’une autre, en utilisant une mesure de similarité pour comparer les descripteurs. Cependant, il reste difficile de réaliser cette mise en correspondance avec succès, en particulier pour les scènes difficiles où des changements d’illumination, des occultations, des mouvements, des éléments sans texture, et des éléments similaires sont présents, conduisant à des mises en correspondance incorrectes. Nous développons dans ce mémoire une méthode d’apprentissage profond contrastif auto-supervisé pour calculer des descripteurs robustes, particulièrement à ces situations difficiles. Nous utilisons le jeu de données TartanAir construit explicitement pour cette tâche, et dans lequel ces cas de scènes difficiles sont présents. Nos résultats montrent que l’apprentissage de descripteurs fonctionne, améliore les scores, et que notre méthode est compétitive avec les méthodes traditionnelles telles que ORB. En particulier, l’invariance bâtie implicitement en formant des paires d’exemples positifs grâce à la construction d’une trajectoire depuis une séquence d’images, ainsi que l’introduction contrôlée d’exemples négatifs ambigus pendant l’entraînement a un réel effet observable sur les scores obtenus. SLAM visuel SfM Mise en correspondance d’images Descripteur Apprentissage profond Apprentissage contrastif Visual SLAM Image matching Descriptor Deep learning Contrastive learning
6	Imitation from observation using behavioral learning Djeafea Sonwa, Medric B. 11 1900 (has links) L'Imitation par observation (IPO) est un paradigme d'apprentissage qui consiste à entraîner des agents autonomes dans un processus de décision markovien (PDM) en observant les démonstrations d'un expert et sans avoir accès à ses actions. Ces démonstrations peuvent être des séquences d'états de l'environnement ou des observations visuelles brutes de l'environnement. Bien que le cadre utilisant des états à dimensions réduites ait permis d'obtenir des résultats convaincants avec des approches récentes, l'utilisation d'observations visuelles reste un défi important en IPO. Une des procédures très adoptée pour résoudre le problème d’IPO consiste à apprendre une fonction de récompense à partir des démonstrations, toutefois la nécessité d’analyser l'environnement et l'expert à partir de vidéos pour récompenser l'agent augmente la complexité du problème. Nous abordons ce problème avec une méthode basée sur la représentation des comportements de l'agent dans un espace vectoriel en utilisant des vidéos démonstratives. Notre approche exploite les techniques récentes d'apprentissage contrastif d'images et vidéos et utilise un algorithme de bootstrapping pour entraîner progressivement une fonction d'encodage de trajectoires à partir de la variation du comportement de l'agent. Simultanément, cette fonction récompense l'agent imitateur lors de l'exécution d'un algorithme d'apprentissage par renforcement. Notre méthode utilise un nombre limité de vidéos démonstratives et nous n'avons pas accès à comportement expert. Nos agents imitateurs montrent des performances convaincantes sur un ensemble de tâches de contrôle et démontrent que l'apprentissage d'une fonction de codage du comportement à partir de vidéos permet de construire une fonction de récompense efficace dans un PDM. / Imitation from observation (IfO) is a learning paradigm that consists of training autonomous agents in a Markov Decision Process (MDP) by observing an expert's demonstrations and without access to its actions. These demonstrations could be sequences of environment states or raw visual observations of the environment. Although the setting using low-dimensional states has allowed obtaining convincing results with recent approaches, the use of visual observations remains an important challenge in IfO. One of the most common procedures adopted to solve the IfO problem is to learn a reward function from the demonstrations, but the need to understand the environment and the expert's moves through videos to appropriately reward the learning agent increases the complexity of the problem. We approach this problem with a method that focuses on the representation of the agent’s behaviors in a latent space using demonstrative videos. Our approach exploits recent techniques of contrastive learning of image and video and uses a bootstrapping algorithm to progressively train a trajectory encoding function from the variation of the agent’s policy. Simultaneously, this function rewards the imitating agent through a Reinforcement Learning (RL) algorithm. Our method uses a limited number of demonstrative videos and we do not have access to any expert policy. Our imitating agents in experiments show convincing performances on a set of control tasks and demonstrate that learning a behavior encoding function from videos allows for building an efficient reward function in MDP. Apprentissage par renforcement Apprentissage par imitation Imitation par observation Apprentissage contrastif Reconnaissance d'actions Reinforcement learning Imitation learning Imitation from observation Contrastive learning Action recognition
7	Sur l'élaboration de meilleures techniques pour l'apprentissage auto-supervisé des représentations du code Maes, Lucas 07 1900 (has links) Les représentations du code apprises par les modèles d’apprentissage profond sont une composante cruciale pour certaines applications en génie logiciel telles que la recherche de code ou la détection de clones. Les performances de ces applications dépendent de la qualité des représentations apprises par les modèles. De fait, des représentations possédant peu de bruit et contenant des informations avec un haut niveau d’abstraction, comme la sémantique fonctionnelle, facilitent la résolution de ces tâches. En effet, la recherche de code nécessite de comprendre les objectifs des morceaux de code pour les comparer avec une requête en langage naturel, tandis que la détection de clone exige de déterminer si deux morceaux de code ont la même sémantique fonctionnelle. La capacité des modèles à apprendre des représentations contenant de telles informations abstraites est donc cruciale pour la bonne résolution de ces tâches. Cependant, il est toujours difficile pour les modèles de code d’apprendre des représentations abstraites indépendantes de la syntaxe, par exemple la sémantique fonctionnelle. Ce mémoire se consacre donc à l’élaboration de meilleures techniques pour l’apprentissage des représentations du code via l’apprentissage auto-supervisé. Plus spécifiquement, nous nous sommes concentrés sur deux tâches centrales dans l’automatisation du génie logiciel nécessitant un minimum de compréhension de la sémantique fonctionnelle, à savoir, la recherche de code et la détection de clones de type 4. Ce mémoire propose différentes approches à différents degrés d’entraînement. Le premier degré est le pré-entraînement et consiste à apprendre des représentations génériques du code adaptables à n’importe quels problèmes. Le second est le peaufinage, modifiant les représentations apprises pour un problème spécifique. Tout d’abord, nous proposons un nouvel algorithme de pré-entraînement pour les modèles de code utilisant une méthode non contrastive régularisée adaptée de VICReg, permettant l’apprentissage de représentations génériques. Ensuite, nous proposons un nouvel objectif de peaufinage des modèles de code utilisant la distillation des connaissances d’un ensemble de modèles déjà peaufinés, appelés enseignants, sur un modèle étudiant, lui permettant ainsi l’apprentissage de représentations plus abstraites. L’ensemble des contributions vise à améliorer les représentations du code et à maximiser les performances des modèles d’apprentissage automatique pour le code, mais aussi à déterminer quel est le meilleur degré d’entraînement à adopter pour cela. Les résultats expérimentaux et les analyses menées dans ce mémoire sont préliminaires et ne permettent pas de tirer de conclusions définitives. Néanmoins, il est important de souligner que la deuxième contribution surpasse la méthode classique de peaufinage des modèles pour la recherche de code. De plus, les approches décrites proposent des pistes de directions de recherche innovantes et non conventionnelles. / Code representations learned by deep learning models are a crucial component for certain software engineering applications such as code search or clone detection. The performance of these applications depends on the quality of the representations learned by the models. In fact, low-noise representations containing highly abstract information, such as functional semantics, facilitate the resolution of these tasks. Indeed, code search requires understanding the objectives of code snippets in order to compare them with a natural language query, while clone detection requires determining whether two code snippets have the same functional semantics. The ability of models to learn representations containing such abstract information is therefore crucial to the successful resolution of these tasks. However, it is still difficult for code models to learn abstract representations that are independent of syntax, such as functional semantics. This thesis is therefore dedicated to developing better techniques for learning code representations via self-supervised learning. More specifically, we focus on two central tasks in software engineering automation requiring a minimum understanding of functional semantics, namely, code search and type 4 clone detection. This work proposes different approaches with different degrees of training. The first, pre-training, consists in learning generic code representations that can be adapted to any problem. The second is fine-tuning, modifying the representations learned for a specific problem. First, we propose a new pre-training algorithm for code models using a regularized non-contrastive method adapted from VICReg [14] enabling the learning of generic representations. Secondly, we propose a new code model refinement objective using knowledge distillation of a set of already refined models, called teachers, on a student model allowing it to learn more abstract representations. The aim of all these contributions is not only to improve code representations and maximize the performance of machine learning models for code, but also to determine the best degree of training to adopt for this purpose. The experimental results and analyses carried out in this thesis are preliminary and do not allow to draw formal conclusions. Nevertheless, it is important to underline that the second contribution outperforms the classical model refinement method for code search. Moreover, the approaches described suggest innovative and unconventional research directions. Génie logiciel apprentissage profond apprentissage auto-supervisé non contrastif distillation représentation du code recherche de code détection de clone Software engineering Deep learning Self-supervised learning Noncontrastive Code representation Code search Clone detection
8	Finding duplicate offers in the online marketplace catalogue using transformer based methods : An exploration of transformer based methods for the task of entity resolution / Hitta dubbletter av erbjudanden i online marknadsplatskatalog med hjälp av transformer-baserade metoder : En utforskning av transformer-baserad metoder för uppgiften att deduplicera Damian, Robert-Andrei January 2022 (has links) The amount of data available on the web is constantly growing, and e-commerce websites are no exception. Considering the abundance of available information, finding offers for the same product in the catalogue of different retailers represents a challenge. This problem is an interesting one and addresses the needs of multiple actors. A customer is interested in finding the best deal for the product they want to buy. A retailer wants to keep up to date with the competition and adapt its pricing strategy accordingly. Various services already offer the possibility of finding duplicate products in catalogues of e-commerce retailers, but their solutions are based on matching a Global Trade Identification Number (GTIN). This strategy is limited because a GTIN may not be made publicly available by a competitor, may be different for the same product exported by the manufacturer to different markets or may not even exist for low-value products. The field of Entity Resolution (ER), a sub-branch of Natural Language Processing (NLP), focuses on solving the issue of matching duplicate database entries when a deterministic identifier is not available. We investigate various solutions from the the field and present a new model called Spring R-SupCon that focuses on low volume datasets. Our work builds upon the recently introduced model, R-SupCon, introducing a new learning scheme that improves R-SupCon’s performance by up to 74.47% F1 score, and surpasses Ditto by up 12% F1 score for low volume datasets. Moreover, our experiments show that smaller language models can be used for ER with minimal loss in performance. This has the potential to extend the adoption of Transformer-based solutions to companies and markets where datasets are difficult to create, like it is the case for the Swedish marketplace Fyndiq. / Mängden data på internet växer konstant och e-handeln är inget undantag. Konsumenter har idag många valmöjligheter varifrån de väljer att göra sina inköp från. Detta gör att det blir svårare och svårare att hitta det bästa erbjudandet. Även för återförsäljare ökar svårigheten att veta vilken konkurrent som har lägst pris. Det finns tillgängliga lösningar på detta problem men de använder produktunika identifierare såsom Global Trade Identification Number (förkortat “GTIN”). Då det finns en rad utmaningar att bara förlita sig på lösningar som baseras på GTIN behövs ett alternativt tillvägagångssätt. GTIN är exempelvis inte en offentlig information och identifieraren kan dessutom vara en annan när samma produkt erbjuds på en annan marknad. Det här projektet undersöker alternativa lösningar som inte är baserade på en deterministisk identifierare. Detta projekt förlitar sig istället på text såsom produktens namn för att fastställa matchningar mellan olika erbjudanden. En rad olika implementeringar baserade på maskininlärning och djupinlärning studeras i detta projekt. Projektet har dock ett särskilt fokus på “Transformer”-baserade språkmodeller såsom BERT. Detta projekt visar hur man generera proprietär data. Projektet föreslår även ett nytt inlärningsschema och bevisar dess fördelar. / Le volume des données qui se trouve sur l’internet est en une augmentation constante et les commerces électroniques ne font pas note discordante. Le consommateur a aujourd’hui beaucoup des options quand il decide d’où faire son achat. Trouver le meilleur prix devient de plus en plus difficile. Les entreprises qui gerent cettes plates-formes ont aussi la difficulté de savoir en tous moments lesquels de ses concurrents ont le meilleur prix. Il y-a déjà des solutions en ligne qui ont l’objectif de résoudre ce problème, mais ils utilisent un identifiant de produit unique qui s’appelle Global Trade identification number (ou GTIN). Plusieurs difficultés posent des barriers sur cette solution. Par exemple, GTIN n’est pas public peut-être, ou des GTINs différents peut-être assigne par la fabricante au même produit pour distinguer des marchés différents. Ce projet étudie des solutions alternatives qui ne sont pas basées sur avoir un identifiant unique. On discute des methods qui font la décision en fonction du nom des produits, en utilisant des algorithmes d’apprentissage automatique ou d’apprentissage en profondeur. Le projet se concentre sur des solutions avec ”Transformer” modèles de langages, comme BERT. On voit aussi comme peut-on créer un ensemble de données propriétaire pour enseigner le modèle. Finalement, une nouvelle method d’apprentissage est proposée et analysée. Transformers Language Models Deep Neural Networks Entity Resolution Duplicate Detection Entity Matching Record Linkage Contrastive Learning e-commerce Transformers Modèles de langage Apprentisage en profondeur Résolution d’entité Détection de doublons Apprentisage contrastif commerce électronique Transformers Språkmodeller Djupinlärning Entitetserkännande Dubblettdetektering Entitetsmatchning Rekordkoppling e-handel Computer and Information Sciences Data- och informationsvetenskap

Search results