• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 154
  • 24
  • 16
  • 12
  • 9
  • 3
  • 2
  • 2
  • 1
  • 1
  • Tagged with
  • 233
  • 64
  • 50
  • 33
  • 32
  • 29
  • 29
  • 29
  • 28
  • 28
  • 27
  • 26
  • 26
  • 23
  • 22
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
201

Étude comparative du vocabulaire de description de la danse dans les archives et du vocabulaire de représentation de la danse dans la littérature

Paquette-Bigras, Ève 03 1900 (has links)
Notre recherche s’insère dans la mouvance des humanités numériques; nous y faisons dialoguer les arts et les sciences de l’information. Depuis quelques décennies, la danse est un sujet d’études et de recherche à part entière. Il devient donc nécessaire de mieux décrire la danse dans les archives, sachant que la description en amont influe grandement sur l’accès en aval. Les méthodes d’extraction automatique de connaissances nous semblent offrir de nouvelles possibilités. L’objectif de notre recherche est de contribuer au développement d’outils de gestion de l’information dans les archives de la danse en comparant un vocabulaire de description de la danse dans les archives et un vocabulaire de représentation de la danse dans la littérature, recueilli grâce à des méthodes d’extraction automatique de connaissances, pour en distinguer une possible complémentarité, particulièrement en ce qui a trait au vocabulaire de l’expérience esthétique. D’abord, nous analysons un vocabulaire de description de la danse dans les archives. Nous décrivons certains outils de description des archives de la danse et nous analysons le thésaurus de descripteurs Collier. Nous constatons que le vocabulaire de description de la danse dans les archives ne semble pas prendre en compte l’expérience esthétique. Ensuite, nous analysons un vocabulaire de représentation de la danse dans la littérature. Un vocabulaire structuré de l’expérience esthétique de la danse moderne est ainsi extrait d’un corpus de textes de l’écrivain français Stéphane Mallarmé et analysé. Puis nous comparons les deux vocabulaires afin d'en distinguer la complémentarité quant à la description de l’expérience esthétique. Nous formulons une première suggestion d’amélioration de certains thésaurus employés dans les archives de la danse : un thésaurus au vocabulaire essentiellement factuel, comme le thésaurus de descripteurs Collier, peut être enrichi de termes à propos de l’expérience esthétique. Le vocabulaire de représentation de la danse dans la littérature est jusqu’à un certain point complémentaire au vocabulaire de description de l’expérience esthétique de la danse dans les archives. Nous menons ainsi une première expérimentation qui justifie en partie la pertinence de certaines méthodes d’extraction de connaissances dans le développement et la maintenance de ressources documentaires pour le domaine des arts d’interprétation tels que la danse. / This research falls within the field of digital humanities; arts and information science engage in dialogue. In the last few decades, dance has become a distinct research subject. Dance description in archives needs to be improved, because the quality of the description impacts access to the documentation. Knowledge extraction seems to offer new opportunities in this regard. The goal of this research is to contribute to the development of information management tools by comparing a vocabulary for describing dance in archives with a vocabulary for representing dance in literature obtained through knowledge extraction. We look for possible complementarity, particularly in regard to the aesthetic experience. First, some tools for describing dance in archives are described, and the Collier Descriptor Thesaurus is analyzed. We observe that this vocabulary for describing dance in archives does not take into account aesthetic experience. Second, a vocabulary for representing dance in literature is analyzed. More specifically, a structured vocabulary of aesthetic experience of modern dance is drawn from a corpus of texts from the French writer Stéphane Mallarmé, and the vocabulary obtained is analyzed. Finally, the two vocabularies are compared to consider their complementarity. We conclude that some vocabularies for describing dance in archives, consisting mainly of factual terms, such as the Collier Descriptor Thesaurus, can be enriched with terms related to aesthetic experience. The vocabulary for representing dance in literature complements to a certain extent the vocabulary for describing dance in archives. Thus this initial experiment supports the relevance of knowledge extraction in information resources maintenance and development for performing arts such as dance. / Diese Arbeit beschäftigt sich mit dem Fachgebiet der Digital Humanities und verbindet dabei Kunst mit informationswissenschaftlichen Methoden. In den letzten Jahrzehnten ist Tanz ein eigenständiges Forschungsgebiet geworden. Da sich die Qualität der Beschreibung direkt auf den Zugang zu Dokumenten im Archiv auswirkt, bedarf die Beschreibung von Tanz in Archiven Verbesserung. Ziel der Forschung ist es zur Entwicklung von Informationsverwaltungs-Tools beizutragen, indem das Vokabular der Beschreibung von Tanz im Archiv mit Vokabular aus der Literatur, extrahiert aus textuellen Datenbanken, verglichen wird. Dabei liegt der Fokus auf der Komplementarität beider Quellen, besonders in Bezug auf die Beschreibung von ästhetischen Erfahrungen. Zunächst werden Tools für die Beschreibung von Tanz in Archiven beschrieben und der Collier Descriptor Thesaurus analysiert. Dabei zeigt sich, dass das Vokabular der Tanz-Beschreibung im Archiv ästhetische Erfahrung generell nicht berücksichtigt. Daraufhin wird das Vokabular der Tanz-Darstellung in der Literatur am Beispiel der Text-Sammlung des franzözischen Dichters Stéphane Mallarmé analysiert. Im Anschluss werden die zwei Wortschätze verglichen, um die Komplementarität beider Quellen zu beschreiben. Die Arbeit kommt zu dem Schluss, dass das Vokabular der Tanz-Beschreibung im Archiv hauptsächlich aus sachbezogenen Begriffen besteht (z.B. der Collier Descriptor Thesaurus), welche um Begriffe zur ästhetischen Erfahrung ergänzt werden können. Die Begriffe für die Tanz-Beschreibung in der Literatur komplementieren bis zu einem gewissen Grad das Vokabular der Tanz-Beschreibung im Archiv. Demzufolge bildet diese Arbeit eine Grundlage für weitere Forschung im Bereich der Wissensextraktion in textuellen Datenbanken im Fachgebiet darstellender Künste wie Tanz.
202

Confidence Measures for Alignment and for Machine Translation / Mesures de Confiance pour l’Alignement et pour la Traduction Automatique

Xu, Yong 26 September 2016 (has links)
En linguistique informatique, la relation entre langues différentes est souventétudiée via des techniques d'alignement automatique. De tels alignements peuvent êtreétablis à plusieurs niveaux structurels. En particulier, les alignements debi-textes aux niveaux phrastiques et sous-phrastiques constituent des sources importantesd'information dans pour diverses applications du Traitement Automatique du Language Naturel (TALN)moderne, la Traduction Automatique étant un exemple proéminent.Cependant, le calcul effectif des alignements de bi-textes peut êtreune tâche compliquée. Les divergences entre les langues sont multiples,de la structure de discours aux constructions morphologiques.Les alignements automatiques contiennent, majoritairement, des erreurs nuisantaux performances des applications.Dans cette situation, deux pistes de recherche émergent. La première est de continuerà améliorer les techniques d'alignement.La deuxième vise à développer des mesures de confiance fiables qui permettent aux applicationsde sélectionner les alignements selon leurs besoins.Les techniques d'alignement et l'estimation de confiance peuvent tous les deuxbénéficier d'alignements manuels.Des alignements manuels peuventjouer un rôle de supervision pour entraîner des modèles, et celuides données d'évaluation. Pourtant, la création des telles données est elle-mêmeune question importante, en particulier au niveau sous-phrastique, où les correspondancesmultilingues peuvent être implicites et difficiles à capturer.Cette thèse étudie des moyens pour acquérir des alignements de bi-textes utiles, aux niveauxphrastiques et sous-phrastiques. Le chapitre 1 fournit une description de nos motivations,la portée et l'organisation du travail, et introduit quelques repères terminologiques et lesprincipales notations.L'état-de-l'art des techniques d'alignement est revu dans la Partie I. Les chapitres 2 et3 décriventles méthodes respectivement pour l'alignement des phrases et des mots.Le chapitre 4 présente les bases de données d'alignement manuel,et discute de la création d'alignements de référence. Le reste de la thèse, la Partie II,présente nos contributions à l'alignement de bi-textes, en étudiant trois aspects.Le chapitre 5 présente notre contribution à la collection d'alignements de référence. Pourl'alignement des phrases, nous collectons les annotations d'un genre spécifiquede textes: les bi-textes littéraires. Nous proposons aussi un schéma d'annotation deconfiance. Pour l'alignement sous-phrastique,nous annotons les liens entre mots isolés avec une nouvelle catégorisation, et concevonsune approche innovante de segmentation itérative pour faciliter l'annotation des liens entre groupes de mots.Toutes les données collectées sont disponibles en ligne.L'amélioration des méthodes d'alignement reste un sujet important de la recherche. Nousprêtons une attention particulière à l'alignement phrastique, qui est souvent le point dedépart de l'alignement de bi-textes. Le chapitre 6 présente notre contribution. En commençantpar évaluer les outils d'alignement d'état-de-l'art et par analyser leurs modèles et résultats,nous proposons deux nouvelles méthodes pour l'alignement phrastique, qui obtiennent desperformances d'état-de-l'art sur un jeu de données difficile.L'autre sujet important d'étude est l'estimation de confiance. Dans le chapitre 7, nousproposons des mesures de confiance pour les alignements phrastique et sous-phrastique.Les expériences montrent que l'estimation de confiance des liens d'alignement reste undéfi remarquable. Il sera très utile de poursuivre cette étude pour renforcer les mesuresde confiance pour l'alignement de bi-textes.Enfin, notons que les contributions apportées dans cette thèse sont employées dans uneapplication réelle: le développement d'une liseuse qui vise à faciliter la lecturedes livres électroniques multilingues. / In computational linguistics, the relation between different languages is often studied through automatic alignment techniques. Such alignments can be established at various structural levels. In particular, sentential and sub-sentential bitext alignments constitute an important source of information in various modern Natural Language Processing (NLP) applications, a prominent one being Machine Translation (MT).Effectively computing bitext alignments, however, can be a challenging task. Discrepancies between languages appear in various ways, from discourse structures to morphological constructions. Automatic alignments would, at least in most cases, contain noise harmful for the performance of application systems which use the alignments. To deal with this situation, two research directions emerge: the first is to keep improving alignment techniques; the second is to develop reliable confidence measures which enable application systems to selectively employ the alignments according to their needs.Both alignment techniques and confidence estimation can benefit from manual alignments. Manual alignments can be used as both supervision examples to train scoring models and as evaluation materials. The creation of such data is, however, an important question in itself, particularly at sub-sentential levels, where cross-lingual correspondences can be only implicit and difficult to capture.This thesis focuses on means to acquire useful sentential and sub-sentential bitext alignments. Chapter 1 provides a non-technical description of the research motivation, scope, organization, and introduces terminologies and notation. State-of-the-art alignment techniques are reviewed in Part I. Chapter 2 and 3 describe state-of-the-art methods for respectively sentence and word alignment. Chapter 4 summarizes existing manual alignments, and discusses issues related to the creation of gold alignment data. The remainder of this thesis, Part II, presents our contributions to bitext alignment, which are concentrated on three sub-tasks.Chapter 5 presents our contribution to gold alignment data collection. For sentence- level alignment, we collect manual annotations for an interesting text genre: literary bitexts, which are very useful for evaluating sentence aligners. We also propose a scheme for sentence alignment confidence annotation. For sub-sentential alignment, we annotate one-to-one word links with a novel 4-way labelling scheme, and design a new approachfor facilitating the collection of many-to-many links. All the collected data is released on-line.Improving alignment methods remains an important research subject. We pay special attention to sentence alignment, which often lies at the beginning of the bitext alignment pipeline. Chapter 6 presents our contributions to this task. Starting by evaluating state-of-the-art aligners and analyzing their models and results, we propose two new sentence alignment methods, which achieve state-of-the-art performance on a difficult dataset.The other important subject that we study is confidence estimation. In Chapter 7, we propose confidence measures for sentential and sub-sentential alignments. Experiments show that confidence estimation of alignment links is a challenging problem, and more works on enhancing the confidence measures will be useful.Finally, note that these contributions have been employed in a real world application: the development of a bilingual reading tool aimed at facilitating the reading in a foreign language.
203

Réminiscences mythiques dans les Miracles de Nostre Dame par personnages : Ia mise en scène dun imaginaire chrétien du XIVe siècle / Mythological reminiscences in Les Miracles de Nostre Dame par personnages : staging a Christian imagination of the 14th century

Musso, Daniela 03 December 2013 (has links)
Cette thèse se propose d'étudier les Miracles de Nostre Dame par personnages en tant que corpus de réécritures dramatiques d'un répertoire assez important de contes hagiographiques et romanesques. La recherche, fondée sur une démarche essentiellement intertextuelle qui fait référence ponctuellement à un vaste corpus de textes de comparaison, est centrée sur deux axes. Il s'agit d'abord de vérifier si les réminiscences mythiques que les textes recèlent sont les simples résidus inertes d'une longue stratification ou s'ils s'organisent, au-delà de l'agencement rationnel de chaque récit, en faisant appel à une mémoire littéraire et mythico-folklorique et en se disposant dans des configurations assez cohérentes. Ensuite, il s'agit d'étudier le contexte de la mise en scène des Miracles, les éléments intrinsèque de l'écriture dramatique, et, par le biais de l'étude de quelques exemples significatifs, les formes de la représentation, qui semblent calquer et réadapter des formes de la théâtralité diffuse liées à des rites préchrétiens. Produits d'un imaginaire chrétien qu'ils contribuent à leur tour à façonner, les Miracles sont des pièces qui exemplifient le rôle de médiatrice universelle de la Vierge tout en évoquant une vision du monde lié au calendrier ancestral d'une culture « autre », qui fait surface dans l'écriture dramatique et dans la mise en scène, en renforçant et en amplifiant, en général, la portée du message édifiant. / This thesis propose to studying the Miracles de Nostre Dame par personnages as corpus of dramatic rewritings of a rather important directory of hagiographic and romantic tales. The research, based on an essentially intertextual approach which makes punctual references to a vast corpus of texts of comparison, is centered on two axes. It is a question at first of verifying if the mythical recollections which texts contain are the simple residues empty of meaning of a long stratification or if they get organized, beyond the rational plot of every narrative, by calling into play a literary and mythical-folk memory and arranging themselves in rather coherent configurations. Then, it is a question of studying the context of the staging and the intrinsic elements of the dramatic writing, and, by means of the study of some significant examples, the forms of the representation, which seem to trace and to readjust forms of the diffuse theatricality bound up pagan rites. Produced by a Christian imagination which they contribute in their turn to shape, the Miracles are plays which exemplify the role of universal mediator of the Virgin while evoking a vision of the world connected to the ancestral calendar of an "other" culture, which makes surface in the dramatic writing and in the staging, by strengthening and by amplifying, generally, the influence of the edifying message.
204

Les divinités gréco-égyptiennes dans les textes magiques coptes: Une étude du syncrétisme religieux en Égypte tardo-antique et médiévale

Bélanger Sarrazin, Roxanne 14 August 2020 (has links) (PDF)
Aujourd’hui, le corpus des textes magiques coptes compte 314 manuscrits publiés et plusieurs dizaines de textes toujours inédits, datés pour la plupart entre le 5e et le 12e siècle de notre ère. Parmi ceux-ci, un petit groupe composé de vingt-trois manuscrits magiques comprend des charmes qui présentent des invocations à des divinités grecques ou égyptiennes (p. ex. Artémis, Isis, Horus, Seth, Petbe) ou de courts récits mythologiques (historiolae) les mettant en scène. L’existence même de ces charmes soulève plusieurs questions :comment des références à des divinités traditionnelles se sont-elles retrouvées dans des textes « chrétiens » datés des 5e–12e siècles, et surtout, quels mécanismes ont été utilisés par les experts en rituels de l’Égypte tardo-antique et médiévale pour intégrer ces références dans leurs charmes ?Afin de répondre à ces questions, cette étude propose le premier examen exhaustif de l’ensemble de ces vingt-trois textes magiques coptes. Dans les trois premiers chapitres, nous étudions chacun des vingt-trois textes coptes en détail—les types de textes, les objectifs des charmes, les éléments traditionnels et chrétiens utilisés, les différentes façons dont ceux-ci ont été combinés—en plus de les comparer avec des textes magiques datés des périodes pharaonique (en moyen égyptien) et gréco-romaine (en démotique et en grec). Dans le dernier chapitre, nous offrons un examen plus général du groupe de vingt-trois textes en discutant entre autres de la datation et de la provenance des manuscrits, ainsi que des expressions récurrentes utilisées, ce qui nous permet également de les replacer dans le contexte plus large de l’ensemble du corpus des textes magiques coptes. Cette étude montre, d’une part, que nos vingt-trois textes magiques coptes témoignent d’une grande continuité dans les pratiques magiques en Égypte, puisque les éléments traditionnels utilisés (références aux divinités grecques et égyptiennes, historiolae, formules et expressions) ont été transmis, par l’intermédiaire de manuscrits magiques, depuis l’époque pharaonique jusqu’à l’époque médiévale. D’autre part, ces textes témoignent également de changements, et plus particulièrement, de nombreux processus syncrétiques, puisque les éléments traditionnels ont été réinterprétés, puis juxtaposés ou fusionnés à des éléments chrétiens. Ainsi, notre examen révèle comment les experts en rituels de l’Égypte tardo-antique et médiévale, en s’inspirant de manuscrits magiques plus anciens et en combinant des éléments de différentes traditions religieuses dans leurs charmes, sont devenus des agents du syncrétisme religieux et, de façon plus générale, de la transformation religieuse. / Doctorat en Langues, lettres et traductologie / info:eu-repo/semantics/nonPublished
205

Sparsity-sensitive diagonal co-clustering algorithms for the effective handling of text data

Ailem, Melissa 18 November 2016 (has links)
Dans le contexte actuel, il y a un besoin évident de techniques de fouille de textes pour analyser l'énorme quantité de documents textuelles non structurées disponibles sur Internet. Ces données textuelles sont souvent représentées par des matrices creuses (sparses) de grande dimension où les lignes et les colonnes représentent respectivement des documents et des termes. Ainsi, il serait intéressant de regrouper de façon simultanée ces termes et documents en classes homogènes, rendant ainsi cette quantité importante de données plus faciles à manipuler et à interpréter. Les techniques de classification croisée servent justement cet objectif. Bien que plusieurs techniques existantes de co-clustering ont révélé avec succès des blocs homogènes dans plusieurs domaines, ces techniques sont toujours contraintes par la grande dimensionalité et la sparsité caractérisant les matrices documents-termes. En raison de cette sparsité, plusieurs co-clusters sont principalement composés de zéros. Bien que ces derniers soient homogènes, ils ne sont pas pertinents et doivent donc être filtrés en aval pour ne garder que les plus importants. L'objectif de cette thèse est de proposer de nouveaux algorithmes de co-clustering conçus pour tenir compte des problèmes liés à la sparsité mentionnés ci-dessus. Ces algorithmes cherchent une structure diagonale par blocs et permettent directement d'identifier les co-clusters les plus pertinents, ce qui les rend particulièrement efficaces pour le co-clustering de données textuelles. Dans ce contexte, nos contributions peuvent être résumées comme suit: Tout d'abord, nous introduisons et démontrons l'efficacité d'un nouvel algorithme de co-clustering basé sur la maximisation directe de la modularité de graphes. Alors que les algorithmes de co-clustering existants qui se basent sur des critères de graphes utilisent des approximations spectrales, l'algorithme proposé utilise une procédure d'optimisation itérative pour révéler les co-clusters les plus pertinents dans une matrice documents-termes. Par ailleurs, l'optimisation proposée présente l'avantage d'éviter le calcul de vecteurs propres, qui est une tâche rédhibitoire lorsque l'on considère des données de grande dimension. Ceci est une amélioration par rapport aux approches spectrales, où le calcul des vecteurs propres est nécessaire pour effectuer le co-clustering. Dans un second temps, nous utilisons une approche probabiliste pour découvrir des structures en blocs homogènes diagonaux dans des matrices documents-termes. Nous nous appuyons sur des approches de type modèles de mélanges, qui offrent de solides bases théoriques et une grande flexibilité qui permet de découvrir diverses structures de co-clusters. Plus précisément, nous proposons un modèle de blocs latents parcimonieux avec des distributions de Poisson sous contraintes. De façon intéressante, ce modèle comprend la sparsité dans sa formulation, ce qui le rend particulièrement adapté aux données textuelles. En plaçant l'estimation des paramètres de ce modèle dans le cadre du maximum de vraisemblance et du maximum de vraisemblance classifiante, quatre algorithmes de co-clustering ont été proposées, incluant une variante dure, floue, stochastique et une quatrième variante qui tire profit des avantages des variantes floue et stochastique simultanément. Pour finir, nous proposons un nouveau cadre de fouille de textes biomédicaux qui comprend certains algorithmes de co-clustering mentionnés ci-dessus. Ce travail montre la contribution du co-clustering dans une problématique réelle de fouille de textes biomédicaux. Le cadre proposé permet de générer de nouveaux indices sur les résultats retournés par les études d'association pan-génomique (GWAS) en exploitant les abstracts de la base de données PUBMED. (...) / In the current context, there is a clear need for Text Mining techniques to analyse the huge quantity of unstructured text documents available on the Internet. These textual data are often represented by sparse high dimensional matrices where rows and columns represent documents and terms respectively. Thus, it would be worthwhile to simultaneously group these terms and documents into meaningful clusters, making this substantial amount of data easier to handle and interpret. Co-clustering techniques just serve this purpose. Although many existing co-clustering approaches have been successful in revealing homogeneous blocks in several domains, these techniques are still challenged by the high dimensionality and sparsity characteristics exhibited by document-term matrices. Due to this sparsity, several co-clusters are primarily composed of zeros. While homogeneous, these co-clusters are irrelevant and must be filtered out in a post-processing step to keep only the most significant ones. The objective of this thesis is to propose new co-clustering algorithms tailored to take into account these sparsity-related issues. The proposed algorithms seek a block diagonal structure and allow to straightaway identify the most useful co-clusters, which makes them specially effective for the text co-clustering task. Our contributions can be summarized as follows: First, we introduce and demonstrate the effectiveness of a novel co-clustering algorithm based on a direct maximization of graph modularity. While existing graph-based co-clustering algorithms rely on spectral relaxation, the proposed algorithm uses an iterative alternating optimization procedure to reveal the most meaningful co-clusters in a document-term matrix. Moreover, the proposed optimization has the advantage of avoiding the computation of eigenvectors, a task which is prohibitive when considering high dimensional data. This is an improvement over spectral approaches, where the eigenvectors computation is necessary to perform the co-clustering. Second, we use an even more powerful approach to discover block diagonal structures in document-term matrices. We rely on mixture models, which offer strong theoretical foundations and considerable flexibility that makes it possible to uncover various specific cluster structure. More precisely, we propose a rigorous probabilistic model based on the Poisson distribution and the well known Latent Block Model. Interestingly, this model includes the sparsity in its formulation, which makes it particularly effective for text data. Setting the estimate of this model’s parameters under the Maximum Likelihood (ML) and the Classification Maximum Likelihood (CML) approaches, four co-clustering algorithms have been proposed, including a hard, a soft, a stochastic and a fourth algorithm which leverages the benefits of both the soft and stochastic variants, simultaneously. As a last contribution of this thesis, we propose a new biomedical text mining framework that includes some of the above mentioned co-clustering algorithms. This work shows the contribution of co-clustering in a real biomedical text mining problematic. The proposed framework is able to propose new clues about the results of genome wide association studies (GWAS) by mining PUBMED abstracts. This framework has been tested on asthma disease and allowed to assess the strength of associations between asthma genes reported in previous GWAS as well as discover new candidate genes likely associated to asthma. In a nutshell, while several text co-clustering algorithms already exist, their performance can be substantially increased if more appropriate models and algorithms are available. According to the extensive experiments done on several challenging real-world text data sets, we believe that this thesis has served well this objective.
206

Regroupement de textes avec des approches simples et efficaces exploitant la représentation vectorielle contextuelle SBERT

Petricevic, Uros 12 1900 (has links)
Le regroupement est une tâche non supervisée consistant à rassembler les éléments semblables sous un même groupe et les éléments différents dans des groupes distincts. Le regroupement de textes est effectué en représentant les textes dans un espace vectoriel et en étudiant leur similarité dans cet espace. Les meilleurs résultats sont obtenus à l’aide de modèles neuronaux qui affinent une représentation vectorielle contextuelle de manière non supervisée. Or, cette technique peuvent nécessiter un temps d’entraînement important et sa performance n’est pas comparée à des techniques plus simples ne nécessitant pas l’entraînement de modèles neuronaux. Nous proposons, dans ce mémoire, une étude de l’état actuel du domaine. Tout d’abord, nous étudions les meilleures métriques d’évaluation pour le regroupement de textes. Puis, nous évaluons l’état de l’art et portons un regard critique sur leur protocole d’entraînement. Nous proposons également une analyse de certains choix d’implémentation en regroupement de textes, tels que le choix de l’algorithme de regroupement, de la mesure de similarité, de la représentation vectorielle ou de l’affinage non supervisé de la représentation vectorielle. Finalement, nous testons la combinaison de certaines techniques ne nécessitant pas d’entraînement avec la représentation vectorielle contextuelle telles que le prétraitement des données, la réduction de dimensionnalité ou l’inclusion de Tf-idf. Nos expériences démontrent certaines lacunes dans l’état de l’art quant aux choix des métriques d’évaluation et au protocole d’entraînement. De plus, nous démontrons que l’utilisation de techniques simples permet d’obtenir des résultats meilleurs ou semblables à des méthodes sophistiquées nécessitant l’entraînement de modèles neuronaux. Nos expériences sont évaluées sur huit corpus issus de différents domaines. / Clustering is an unsupervised task of bringing similar elements in the same cluster and different elements in distinct groups. Text clustering is performed by representing texts in a vector space and studying their similarity in this space. The best results are obtained using neural models that fine-tune contextual embeddings in an unsupervised manner. However, these techniques require a significant amount of training time and their performance is not compared to simpler techniques that do not require training of neural models. In this master’s thesis, we propose a study of the current state of the art. First, we study the best evaluation metrics for text clustering. Then, we evaluate the state of the art and take a critical look at their training protocol. We also propose an analysis of some implementation choices in text clustering, such as the choice of clustering algorithm, similarity measure, contextual embeddings or unsupervised fine-tuning of the contextual embeddings. Finally, we test the combination of contextual embeddings with some techniques that don’t require training such as data preprocessing, dimensionality reduction or Tf-idf inclusion. Our experiments demonstrate some shortcomings in the state of the art regarding the choice of evaluation metrics and the training protocol. Furthermore, we demonstrate that the use of simple techniques yields better or similar results to sophisticated methods requiring the training of neural models. Our experiments are evaluated on eight benchmark datasets from different domains.
207

Les réécritures des textes chinois dans la France de la première modernité

Xing, Tingting 06 1900 (has links)
Dans ce travail, nous étudions les réécritures en français des textes chinois Lúnyǔ 论语 (Lunyu, ou Livre des Sentences), Shījīnɡ 诗经 (Chi-King, ou Livre des Odes), et Zhàoshì gū’ér 赵氏孤儿 (Tchao Chi Cou Ell, ou le Petit Orphelin de la maison de Tchao). Nous menons une étude descriptive et comparative de neuf textes d’arrivée avec une approche culturelle développée par Lefevere et Bassnett. La méthodologie appliquée est celle proposée par Gérard Genette. Nous remarquerons que les travaux existants se concentrent plutôt sur les textes de départ, les analyses textuelles des réécritures, et l’étude d’un seul agent. Peu d’importance est accordée au rôle de l’ensemble d’éléments qui participent à la manipulation culturelle lors du passage du chinois aux réécritures françaises durant plus de cent ans. Notre recherche vise à élucider les agents, les mécanismes, les formes, et les enjeux de la manipulation culturelle en analysant les paratextes des réécritures choisies. Notre travail fera ressortir deux constats. Premièrement, les auteurs de réécriture cherchent à faire croire aux lecteurs européens que les connotations culturelles des textes sources ne vont pas à l’encontre de la Bible et de la philosophie académicienne. Par conséquent, ils tentent de cacher les divergences entre les civilisations chinoise et européenne qui se manifestent dans les textes de départ. Deuxièmement, ces réécritures imprimées occupaient une place populaire ou privilégiée avec approbation du roi dans le marché de livres français du XVIIe au XVIIIe siècles. Leurs reproductions et réécritures en Europe nous informent qu’elles jouent un rôle important dans la transmission des savoirs chinois et la formation des perceptions européennes sur la Chine. En comparant les agents des réécritures et les contextes de production et circulation, notre analyse permet de mettre en lumière la manipulation littéraire et idéologique des textes réécrits dans la culture d’arrivée au cours de la rencontre des civilisations chinoise et française dans la première modernité. Nous contribuerons à compléter les lacunes laissées par d’autres chercheurs, et à élaborer une recherche historiographique qui traite les réécritures des textes chinois comme matériaux imprimés. / This project offers an analysis of nine French rewritings of Lúnyǔ 论语 (The Analects), Shījīnɡ 诗经 (The Book of Odes), et Zhàoshì gū’ér 赵氏孤儿 (The Orphan Of Zhao). We conduct a cultural and descriptive study of nine target texts using the cultural approach developed by Lefevere and Bassnett. Our primary focus is on the analysis of paratexts (Genette). We observe that existing work emphasizes source texts, textual analyses of rewritings, and the study of single agents, while giving little importance to other factors that participate in the manipulation of Chinese to French rewritings. Our research analyzes the paratexts of the chosen rewritings and aims to clarify the agents, mechanisms, forms, and challenges that shape cultural translation. Our work will highlight two observations. First, the authors of rewriting seek to make European readers believe that the cultural connotations of the source texts do not go against the Bible and academic philosophy. Therefore, they try to hide the divergences between the Chinese and European civilizations that exist in the original texts. Second, these printed rewrites occupied a popular or privileged place with the king's approval in the French book market from the seventeenth to the eighteenth century. Their reproductions and rewritings in Europe inform us that they play an important role in the transmission of Chinese knowledge and the formation of European perceptions of China. By comparing the agents and historical context, our study sheds light on the ideological and poetic manipulation of rewritings in the target culture during the encounter of Chinese and French civilizations in early modernity. We contribute to the studies in translation history of Chinese texts in 17th and 18th centuries.
208

Apocryphon berolinense/argentoratense (previously known as the gospel of the savior) : reedition of P. Berol.22220, Strasbourg Copte5-7 and Qasr el-Wizz Codex ff. 12v -17r with introduction and commentary

Suciu, Alin 19 April 2018 (has links)
Cette thèse est une réédition semi-diplomatique de trois manuscrits copiés dans le dialecte sahidique du copte : Berlin, Papyrussammlung, P. Berol. 22220; Strasbourg, Bibliothèque Nationale et Universitaire, Copte 4-7a; Aswan, Nubian Museum, Special Number 168, ff. 12v-17r. L’édition est accompagnée d’index complets des mots grecs et coptes, d’une introduction détaillée visant à faire la lumière sur le contexte littéraire et culturel dans lequel les textes ont été produits, et d’un commentaire. P. Berol. 22220 est un manuscrit de parchemin d’origine inconnue. Les données paléographiques suggèrent qu’il aurait pu être copié durant le 7e ou le 8e siècle de notre ère. Les fragments de Strasbourg, aussi d’origine inconnue, proviennent d’un codex de papyrus daté approximativement de 600 de notre ère. Enfin, le codex Aswan est un petit manuscrit de parchemin découvert en 1965 à Qasr el-Wizz, en Nubie. On date ce codex aux environs de l’an 1000 de notre ère. Les manuscrits de Berlin et de Strasbourg contiennent la version complète du texte édité ici, mais sont aujourd’hui très fragmentaires. En revanche, le manuscrit de Qasr el-Wizz contient seulement un extrait retravaillé d’une partie du texte. L’ouvrage est connu jusqu’à maintenant comme l’Évangile du Sauveur, l’Unbekanntes Berliner Evangelium ou Strasbourg Gospel Fragments. Toutefois, comme ces titres ne rendent justice ni au genre ni au contenu réel du texte, j’ai choisi de l’appeler l’Apocryphon Berolinense/Argentoratense. Le texte est un discours de révélation de Jésus à ses apôtres, écrit à la première personne du pluriel. Une partie importante du texte est dévolue à un hymne de la Croix. L’hymne est chanté par le Christ alors que les apôtres semblent danser autour de la Croix en répondant « Amen ». Cette section est semblable à l’hymne au Père des Actes de Jean 94-96. L’introduction et le commentaire explorent le cadre littéraire et culturel dans lequel l’Apocryphon Berolinense/Argentoratense fut rédigé. Je propose ici que le texte constitue un des nombreux mémoires pseudo-apostoliques probablement composés en copte au cours des 5e-6e siècles. Ma lecture du texte améliore enfin en plus d’un point les précédentes éditions des trois manuscrits. / The present dissertation is a semi-diplomatic reedition of three manuscripts written in the Sahidic dialect of Coptic: Berlin, Papyrussammlung, P. Berol. 22220; Strasbourg, Bibliothèque Nationale et Universitaire, Copte 4-7a; Aswan, Nubian Museum, Special Number 168, ff. 12v-17r. The edition is accompanied by complete indices of the Greek and Coptic words, an extensive introductory study concerning the literary and cultural context in which the text was written, and commentaries. P. Berol. 22220 is a parchment manuscript of unknown provenance. Paleographical data suggests that it might have been copied during the 7th-8th century CE. The Strasbourg fragments, also of unknown provenance, came from a papyrus codex tentatively dated around 600 CE. Finally, the Aswan codex is a small parchment manuscript discovered in 1965 at Qasr el-Wizz, in Nubia. The codex is roughly datable around 1000 CE. The Berlin and the Strasbourg manuscripts contained the full version of the text edited here, but they have survived very fragmentarily. On the other hand, the Qasr el-Wizz manuscript contains only a reworked extract from a portion of the text. The work has been known until now as the Gospel of the Savior, the Unbekanntes Berliner Evangelium or the Strasbourg Gospel Fragments. However, as these titles fail to conform to the genre and the real content of the text, I have chosen to call it the Apocryphon Berolinense/Argentoratense. The text is a revelation discourse of Jesus to the apostles, written in the first person plural. An important part of the text is occupied by an extensive hymn of the Cross. The hymn is sung by Christ while to apostles are apparently dancing around the Cross answering “Amen.” This section is similar to the hymn to the Father from the Acts of John 94-96. The introductory study and the commentary explore the literary and the cultural setting in which the Apocryphon Berolinense/Argentoratense was written. Here I suggest that the text is one of the numerous pseudo-apostolic memoirs probably composed in Coptic during the 5th-6th century. Finally, my reading of the text contains several improvements to the previous editions of the three manuscripts.
209

Le repérage automatique des entités nommées dans la langue arabe : vers la création d'un système à base de règles

Zaghouani, Wajdi January 2009 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
210

Effets de l’écriture de textes identitaires, soutenue par des ateliers d’expression théâtrale plurilingues, sur le rapport à l’écrit d’élèves immigrants allophones en situation de grand retard scolaire

Maynard, Catherine 12 1900 (has links)
Le présent mémoire expose les effets de pratiques d’écriture de textes identitaires plurilingues, soutenues par des ateliers d’expression théâtrale plurilingues, sur le rapport à l’écrit d’élèves immigrants allophones nouvellement arrivés en situation de grand retard scolaire au secondaire, et ce, tout au long d’une recherche-action visant le développement de l’écriture. Puis, ces effets sont comparés avec ceux de pratiques traditionnelles d’enseignement de l’écriture. Un groupe expérimental et un groupe contrôle ont participé à cette étude de cas multiples. Des observations participantes et des entretiens individuels semi-dirigés ont permis de dresser le portrait du rapport à l’écrit des huit élèves participant à notre recherche. Dans ce rapport à l’écrit est considéré l’engagement dans la littératie des élèves, un concept clé à prendre en compte en didactique des langues secondes. Nous proposons ainsi l’étude d’une nouvelle notion : le rapport à l’écrit teinté du concept d’engagement (RÉ+). Les résultats de ce mémoire confirment la pertinence de l’approche novatrice mise en place, qui agit sur les quatre dimensions du RÉ+ (affective, praxéologique, conceptuelle et axiologique). Elle permet notamment aux élèves d’associer l’écriture à des sentiments positifs et les amène à poser un regard réflexif sur la langue associé au développement d’habiletés métacognitives. De tels effets sont différents de ceux de pratiques traditionnelles d’enseignement de l’écriture, qui ne paraissent pas en mesure d’engager pleinement, affectivement et cognitivement, les élèves dans les tâches d’écriture. / This study explores the effects of the writing of multilingual identity texts, supported by multilingual drama expression workshops, on the relationship with writing of French as a second language (FSL) learners. Additionally, we compare these effects with traditional teaching practices for writing. The participants were recent immigrants with limited prior schooling educated at the secondary school level. This multiple case study was performed with both an experimental group and a control group. Participant observations and semi-directed interviews were conducted with each of the eight participants in order to describe their relationship with writing. The main contribution of this research project is that the researcher links a key concept in second language teaching, students’ literacy engagement, to their relationship with writing. Thus a new notion is proposed: the FSL students’ relationship with writing enhanced by literacy engagement (designated with the abbreviation “RÉ+” in French). Results confirm the relevance of this innovative approach which has an influence on the four dimensions of RÉ+: affective, praxeological, conceptual and axiological. The benefits of this approach are that students associate writing with positive feelings. Moreover, they adopt an analytical point of view on language learning, which leads to the development of metacognitive abilities. In essence, the effects on RÉ+ are different from those of traditional writing teaching practices, which, in comparison, seem unable to fully engage students emotionally and cognitively in writing tasks.

Page generated in 0.0461 seconds