Spelling suggestions: "subject:"thématique"" "subject:"mathématiques""
1 |
Mise en place de circuits touristiques thématiques pour le parc du Mont-Bellevue, basés sur un inventaire des attraits naturels et anthropiquesTricard, Vincent January 2009 (has links)
The changing point of views on values linked to the importance now to protect, preserve and promote natural and cultural heritage influence the quality of life environment in which the man evolves. It has directly an influence on lifestyle, more specific on leisure and touristic activities.The general objective of this Master Thesis is to preserve, protect and promote the Mont- Bellevue Park, located at Sherbrooke (Quebec) by applying Sustainable Development Principles. This urban green park has a big area (197 hectares). Indeed, the ecotouristic development propositions applies values and criteria of Sustainable Development. Furthermore, this Master Thesis answers to a lack of studies on the characterization of the natural and human environment of the Mont-Bellevue Park. For Sherbrooke City, the Mont-Bellevue Park represents a green, infrastructure having an environmental, ecological, social and economic usefulness. It is on this notion of Sustainable City Development that is part of the Sustainable Development Concept, that the research hypothesis is based.The Master Thesis integrates a large range of investigations based on human, physical and biophysical data. Mainly, human data come from a research by written questionnaire and interviews to know Mont-Bellevue Park users habits. Physical and biophysical data were acquired by field investigation, photo-interpretation and thematic maps analysis.The treatment and the analysis of these data identify and localize the information that were presented, organized and synthesised by thematic maps. These data were combined with a sustainable criteria base to map potential sites that can be developed (by thematic attractions) and protected in the Park. A Sustainable Development Concept of the sites was elaborated to emphasize the natural and anthropological attractions of the area.The application of Sustainable Development Principles allows respecting the integrity of the natural environment while meeting the needs and the expectations of Mont-Bellevue Park users and visitors. To give access to these sites, we proposed varieties of thematic circuits plans that connect these sites.
|
2 |
Modèles thématiques pour la découverte non supervisée de points de vue sur le Web / Topic Models for Unsupervised Discovery of Viewpoints on the WebThonet, Thibaut 23 November 2017 (has links)
Les plateformes en ligne telles que les blogs et les réseaux sociaux permettent aux internautes de s'exprimer sur des sujets d'une grande variété (produits commerciaux, politique, services, etc.). Cet important volume de données d'opinions peut être exploré et exploité grâce à des techniques de fouille de texte connues sous le nom de fouille d'opinions ou analyse de sentiments. Contrairement à la majorité des travaux actuels en fouille d'opinions, qui se focalisent sur les opinions simplement positives ou négatives (ou un intermédiaire entre ces deux extrêmes), nous nous intéressons dans cette thèse aux points de vue. La fouille de point de vue généralise l'opinion au delà de son acception usuelle liée à la polarité (positive ou négative) et permet l'étude d'opinions exprimées plus subtilement, telles que les opinions politiques. Nous proposons dans cette thèse des approches non supervisées - ne nécessitant aucune annotation préalable - basées sur des modèles thématiques probabilistes afin de découvrir simultanément les thèmes et les points de vue exprimés dans des corpus de textes d'opinion. Dans notre première contribution, nous avons exploré l'idée de différencier mots d'opinions (spécifiques à la fois à un point de vue et à un thème) et mots thématiques (dépendants du thème mais neutres vis-à-vis des différents points de vue) en nous basant sur les parties de discours, inspirée par des pratiques similaires dans la littérature de fouille d'opinions classique - restreinte aux opinions positives et négatives. Notre seconde contribution se focalise quant à elle sur les points de vue exprimés sur les réseaux sociaux. Notre objectif est ici d'analyser dans quelle mesure l'utilisation des interactions entre utilisateurs, en outre de leur contenu textuel généré, est bénéfique à l'identification de leurs points de vue. Nos différentes contributions ont été évaluées et comparées à l'état de l'art sur des collections de documents réels. / The advent of online platforms such as weblogs and social networking sites provided Internet users with an unprecedented means to express their opinions on a wide range of topics, including policy and commercial products. This large volume of opinionated data can be explored and exploited through text mining techniques known as opinion mining or sentiment analysis. Contrarily to traditional opinion mining work which mostly focuses on positive and negative opinions (or an intermediate in-between), we study a more challenging type of opinions: viewpoints. Viewpoint mining reaches beyond polarity-based opinions (positive/negative) and enables the analysis of more subtle opinions such as political opinions. In this thesis, we proposed unsupervised approaches – i.e., approaches which do not require any labeled data – based on probabilistic topic models to jointly discover topics and viewpoints expressed in opinionated data. In our first contribution, we explored the idea of separating opinion words (specific to both viewpoints and topics) from topical, neutral words based on parts of speech, inspired by similar practices in the litterature of non viewpoint-related opinion mining. Our second contribution tackles viewpoints expressed by social network users. We aimed to study to what extent social interactions between users – in addition to text content – can be beneficial to identify users' viewpoints. Our different contributions were evaluated and benchmarked against state-of-the-art baselines on real-world datasets
|
3 |
Sur la méthode des moments pour l'estimation des modèles à variables latentes / On the method of moments for estimation in latent linear modelsPodosinnikova, Anastasia 01 December 2016 (has links)
Les modèles linéaires latents sont des modèles statistique puissants pour extraire la structure latente utile à partir de données non structurées par ailleurs. Ces modèles sont utiles dans de nombreuses applications telles que le traitement automatique du langage naturel et la vision artificielle. Pourtant, l'estimation et l'inférence sont souvent impossibles en temps polynomial pour de nombreux modèles linéaires latents et on doit utiliser des méthodes approximatives pour lesquelles il est difficile de récupérer les paramètres. Plusieurs approches, introduites récemment, utilisent la méthode des moments. Elles permettent de retrouver les paramètres dans le cadre idéalisé d'un échantillon de données infini tiré selon certains modèles, mais ils viennent souvent avec des garanties théoriques dans les cas où ce n'est pas exactement satisfait. Dans cette thèse, nous nous concentrons sur les méthodes d'estimation fondées sur l'appariement de moment pour différents modèles linéaires latents. L'utilisation d'un lien étroit avec l'analyse en composantes indépendantes, qui est un outil bien étudié par la communauté du traitement du signal, nous présentons plusieurs modèles semiparamétriques pour la modélisation thématique et dans un contexte multi-vues. Nous présentons des méthodes à base de moment ainsi que des algorithmes pour l'estimation dans ces modèles, et nous prouvons pour ces méthodes des résultats de complexité améliorée par rapport aux méthodes existantes. Nous donnons également des garanties d'identifiabilité, contrairement à d'autres modèles actuels. C'est une propriété importante pour assurer leur interprétabilité. / Latent linear models are powerful probabilistic tools for extracting useful latent structure from otherwise unstructured data and have proved useful in numerous applications such as natural language processing and computer vision. However, the estimation and inference are often intractable for many latent linear models and one has to make use of approximate methods often with no recovery guarantees. An alternative approach, which has been popular lately, are methods based on the method of moments. These methods often have guarantees of exact recovery in the idealized setting of an infinite data sample and well specified models, but they also often come with theoretical guarantees in cases where this is not exactly satisfied. In this thesis, we focus on moment matchingbased estimation methods for different latent linear models. Using a close connection with independent component analysis, which is a well studied tool from the signal processing literature, we introduce several semiparametric models in the topic modeling context and for multi-view models and develop moment matching-based methods for the estimation in these models. These methods come with improved sample complexity results compared to the previously proposed methods. The models are supplemented with the identifiability guarantees, which is a necessary property to ensure their interpretability. This is opposed to some other widely used models, which are unidentifiable.
|
4 |
Les adjectifs psychologiques / Psych adjectivesVoicu, Roxana 29 October 2012 (has links)
Le présent travail vise à identifier le rôle non expérienceur qui figure dans la représentation sémantique des adjectifs psychologiques. La classe a été circonscrite à partir d’une définition sémantico-cognitive de l’expérience psychologique qui pose la structure dyadique des prédicats prototypiques appartenant à ce domaine. L’analyse a été poursuivie sur le plan sémantique pour partager la classe des adjectifs psychologiques selon qu’ils dénotent une expérience psychologique actualisée ou potentielle. La non actualisation de l’expérience psychologique repose sur l’hypothèse de modalité, circonscrite au niveau de la sémantique lexicale en tant que modalité implicite (les dispositions psychologiques) et au niveau du discours, à l’aide de l’inférence (adjectifs causatifs). L’absence de stimulus se voit interpréter au terme de cette analyse sémantique comme conséquence de la présence de la modalité dans la représentation des adjectifs. A partir de ces résultats, l’analyse qui interroge le rôle non expérienceur est poursuivie uniquement dans le cas des adjectifs ayant une structure dyadique, qui dénotent une expérience psychologique actualisée. Deux domaines conceptuels divisent ce noyau : les états psychologiques et les sentiments. L’analyse de la représentation sémantique part des principes contraignants qui régissent l’interface de la sémantique et de la syntaxe. Sont relevées les limitations de l’approche syntaxique pour proposer ensuite une représentation sémantique qui se réclame d’une approche sémantique, libérée de sous la tutelle de la syntaxe. A la suite de Jackendoff (1990), la représentation sémantique s’organise sur deux niveaux, un niveau thématique et un niveau des macro-rôles. Telle qu’elle est proposée dans Jackendoff (1990) la représentation thématique est une illustration de l’hypothèse localiste qui est ainsi mise à l’épreuve de la représentation des adjectifs psychologiques. L’expérienceur ne figure pas au niveau thématique où il a comme correspondants les rôles de location et de destination. Les adjectifs d’état psychologique sont représentés au niveau thématique par les rôles de thème et de source, cette dernière servant à codifier selon l’hypothèse localiste la notion de cause. D’autres prépositions localistes sont relevées pour l’expression de la cause mais les syntagmes qu’elles introduisent ne sont pas sous-catégorisés par l’adjectif, ce qui en fait des adjoints. Les adjectifs de sentiments ont une représentation qui consiste dans les rôles de thème et de destination ou de source. Au niveau des macro- rôles, les adjectifs comme les autres prédicats psychologiques n’ont que deux rôles, l’expérienceur et le stimulus. / The aim of the thesis is to identify the thematic role of the non-experiencer argument in the semantic structure of psych adjectives. The class of psych adjectives is identified on the basis of the cognitive semantic definition of psychological experience which proposes a binary structure for prototypical predicates belonging to this class. The analysis is carried out at a semantic level and divides the class into two sub-classes according to whether the psychological experience denoted by the adjectives is actualized or potential. The non-actualization of the psychological experience relies on the modality hypothesis, identified at the lexical semantics level as implicit modality (psychological dispositions), or, at the discourse level, by means of inference (causative adjectives). For the former, the absence of a stimulus is interpreted as a consequence of the presence of implicit modality in their semantic structure. On the basis of these results, the analysis is restricted to those adjectives with a binary structure, the adjectives which denote an actualized psychological experience. Two conceptual domains divide this core class of adjectives: psychological states and feelings. Starting from the semantic representation of psychological verbs, we discuss the correspondence principle at the syntax-semantics interface. The analysis highlights the limitations of the syntactic approach and proposes a semantic representation within a semantic approach free of syntactic constraints. Following Jackendoff (1990), the semantic representation is structured into two levels, the thematic level and the macro-role level. As proposed by Jackendoff, the thematic level relies on the localist hypothesis, which in turn is supported by the representation of psych adjectives. The experiencer role is not present at the thematic level, or it corresponds to the location or goal roles. The psychological state adjectives are represented at the thematic level by the theme and source roles, the latter serving, according to the localist hypothesis, to encode the notion of cause. Other locative prepositions serve to encode the concept of causation but the phrases headed by them do not belong to the sub-categorization frame of adjectives, functioning as adjuncts. The adjectives of emotion have two roles on their thematic tier, theme and goal or source. On their macro-roles tier, similarly to other psych predicates, adjectives have only two roles, experiencer and stimulus.
|
5 |
Créer un outil interactif de manière collaborative permettant de cataloguer le répertoire de clarinette basse afin de mieux répondre au besoin de la communauté artistiqueBourassa, Mélanie 12 November 2023 (has links)
Titre de l'écran-titre (visionné le 26 juin 2023) / Ce projet de recherche vise à démontrer la nécessité de créer un catalogue complet et collaboratif de répertoire de clarinette basse. Aucun catalogue interactif incluant des mises à jour sur une base continue n'a été créé pour la clarinette basse. En constatant le manque d'organisation dans les catalogues actuels, je ressens l'urgence de construire un catalogue de répertoire appelé à devenir un outil de travail mondialement utilisé et reconnu. Je travaille à ce projet en collaboration avec le centre de recherche internationale sur la clarinette basse (CIRCB), avec Charles du Preez (Université d'Arizona) ainsi qu'avec de nombreux interprètes de haut niveau à travers le monde qui ont, eux aussi, besoin de recourir à un outil efficace qui facilite le partage d'informations. Des notes interprétatives seront insérées dans ce catalogue, ainsi qu'une échelle de gradation de difficulté des œuvres. De plus, lorsque disponible et pertinent, un lien vers un enregistrement sera aussi ajouté. La création de cet outil de travail se fait de façon collective et bonifiera le répertoire des interprètes autour du globe, en plus de faire connaître les œuvres émergentes. Ce projet est d'ordre autoethnographique et basé sur ma pratique personnelle ainsi que celle de mes collègues collaborateurs depuis de nombreuses années, et se veut un outil accessible à la communauté amatrice, étudiante et professionnelle qui démocratisera le répertoire actuel de clarinette basse et qui permettra de mondialiser les connaissances autour de l'instrument. Créer des liens entre le passé et le présent, éduquer et participer à l'évolution de la clarinette basse par le biais d'un travail collaboratif autour de la création d'un catalogue permettront assurément de briser un certain isolement et ultimement de démystifier davantage notre noble instrument. / This research project aims to demonstrate the need to create a complete and collaborative catalog of bass clarinet repertoire. Since the creation of the instrument, no still-used interactive catalog has been created for the bass clarinet. Noting the lack of organization in the current catalogs, I feel the urgency of building a catalog of repertoire destined to become a working tool used and recognized worldwide. I am working on this project in collaboration with the Center for International Research on the Bass Clarinet (CIRCB), with Charles du Preez (University of Arizona) as well as with many high-level performers around the world who also need to use an effective tool that facilitates the sharing of information. Interpretative notes will be inserted in this catalog, as well as a gradation of difficulty of the works. In addition, when available and relevant, a link to a recording will also be added. The creation of this tool is done collectively and will enhance the repertoire of performers around the globe, in addition to promoting emerging works. This project is autoethnographic and based on my personal practice as well as the practice of my collaborating colleagues for many years, and is intended as a tool accessible to the amateur, student and professional community which will democratize the current bass clarinet repertoire and which will allow globalizing knowledge around the instrument. Creating links between the past and the present, educating and participating in the evolution of the bass clarinet through collaborative work around the creation of a catalog will certainly break a certain isolation and ultimately demystify our noble instrument.
|
6 |
La formation des traducteurs en arabe/français : étude de terrain à Damas et à l'Université Lumière Lyon II / Pedagogy of translators in Lyon and DamascusHassan, Ward 17 December 2011 (has links)
Cette thèse présente des propositions pour les professeurs concernés par la formation des traducteurs de l'arabe en français et vice-versa. Elle suggère un cadre de référence qui fournit une conception globale de la formation des traducteurs dès le plus bas niveau jusqu'au niveau le plus élevé. Le cadre de référence sert de base pour une étude de terrain de la formation des traducteurs à Lyon 2, au Centre Culturel Français de Damas et à l'Université de Damas. / This thesis presents suggestions for teachers involved in the training of translators from Arabic into French and vice versa. It suggests a framework that provides a comprehensive approach to the training of translators from the lowest to the highest level. The framework provides the basis for a field study of the formation of two translators in Lyon, the French Cultural Center in Damascus and Damascus University.
|
7 |
Prise en compte des dépendances entre données thématiques utilisateur et données topographiques lors d’un changement de niveau de détail / Taking into account the dependences between user thematic data and topographic data when the level of detail is changedJaara, Kusay 10 March 2015 (has links)
Avec l'importante disponibilité de données topographiques de référence, la création des données géographiques n'est plus réservée aux professionnels de l'information géographique. De plus en plus d'utilisateurs saisissent leurs propres données, que nous appelons données thématiques, en s'appuyant sur ces données de référence qui jouent alors le rôle de données support. Les données thématiques ainsi saisies font sens en tant que telles, mais surtout de par leurs relations avec les données topographiques. La non prise en compte des relations entre données thématiques et topographiques lors de traitements modifiant les unes ou les autres peut engendrer des incohérences, notamment pour les traitements liés au changement de niveau de détail. L'objectif de la thèse est de définir une méthodologie pour préserver la cohérence entre les données thématiques et topographiques lors d'un changement de niveau de détail. Nous nous concentrons sur l'adaptation des données thématiques suite à une modification des données topographiques, processus que nous appelons migration des données thématiques. Nous proposons d'abord un modèle pour la migration de données thématiques ponctuelles sur réseau composé de : (1) un modèle pour décrire le référencement des données thématiques sur les données topographiques par des relations spatiales (2) une méthode de relocalisation basée sur ces relations. L'approche consiste à identifier les relations finales attendues en fonction des relations initiales et des changements sur les données topographiques entre les états initial et final. La relocalisation est alors effectuée grâce à une méthode multicritère de manière à respecter au mieux les relations attendues. Une mise en œuvre est présentée sur des cas d'étude jouets et sur un cas réel fourni par un service de l'Etat gestionnaire de réseau routier. Nous discutons enfin l'extension du modèle proposé pour traiter la prise en compte des relations pour d'autres applications que la migration de données thématiques / With the large availability of reference topographic data, creating geographic data is not exclusive to experts of geographic information any more. More and more users rely on reference data to create their own data, hereafter called thematic data. Reference data then play the role of support for thematic data. Thematic data make sense by themselves, but even more by their relations with topographic data. Not taking into account the relations between thematic and topographic data during processes that modify the former or the latter may cause inconsistencies, especially for processes that are related to changing the level of detail. The objective of this thesis is to define a methodology to preserve the consistency between thematic and topographic when the level of detail is modified. This thesis focuses on the adaptation of thematic data after a modification of topographic data: we call this process thematic data migration. We first propose a model for the migration of punctual thematic data hosted by a network. This model is composed of: (1) a model to describe the referencing of thematic data on topographic data using spatial relations (2) a method to re-locate thematic data based on these relations. The approach consists in identifying the expected final relations according to the initial relations and the modifications of topographic data between the initial and the final state. The thematic data are then re-located using a multi-criteria method in order to satisfy, as much as possible, the expected relations. An implementation is presented on toy problems and on a real use case provided by a French public authority in charge of road network management. The extension of the proposed model to take into account the relations for other applications than thematic data migration is also discussed
|
8 |
Prise en compte des dépendances entre données thématiques utilisateur et données topographiques lors d’un changement de niveau de détail / Taking into account the dependences between user thematic data and topographic data when the level of detail is changedJaara, Kusay 10 March 2015 (has links)
Avec l'importante disponibilité de données topographiques de référence, la création des données géographiques n'est plus réservée aux professionnels de l'information géographique. De plus en plus d'utilisateurs saisissent leurs propres données, que nous appelons données thématiques, en s'appuyant sur ces données de référence qui jouent alors le rôle de données support. Les données thématiques ainsi saisies font sens en tant que telles, mais surtout de par leurs relations avec les données topographiques. La non prise en compte des relations entre données thématiques et topographiques lors de traitements modifiant les unes ou les autres peut engendrer des incohérences, notamment pour les traitements liés au changement de niveau de détail. L'objectif de la thèse est de définir une méthodologie pour préserver la cohérence entre les données thématiques et topographiques lors d'un changement de niveau de détail. Nous nous concentrons sur l'adaptation des données thématiques suite à une modification des données topographiques, processus que nous appelons migration des données thématiques. Nous proposons d'abord un modèle pour la migration de données thématiques ponctuelles sur réseau composé de : (1) un modèle pour décrire le référencement des données thématiques sur les données topographiques par des relations spatiales (2) une méthode de relocalisation basée sur ces relations. L'approche consiste à identifier les relations finales attendues en fonction des relations initiales et des changements sur les données topographiques entre les états initial et final. La relocalisation est alors effectuée grâce à une méthode multicritère de manière à respecter au mieux les relations attendues. Une mise en œuvre est présentée sur des cas d'étude jouets et sur un cas réel fourni par un service de l'Etat gestionnaire de réseau routier. Nous discutons enfin l'extension du modèle proposé pour traiter la prise en compte des relations pour d'autres applications que la migration de données thématiques / With the large availability of reference topographic data, creating geographic data is not exclusive to experts of geographic information any more. More and more users rely on reference data to create their own data, hereafter called thematic data. Reference data then play the role of support for thematic data. Thematic data make sense by themselves, but even more by their relations with topographic data. Not taking into account the relations between thematic and topographic data during processes that modify the former or the latter may cause inconsistencies, especially for processes that are related to changing the level of detail. The objective of this thesis is to define a methodology to preserve the consistency between thematic and topographic when the level of detail is modified. This thesis focuses on the adaptation of thematic data after a modification of topographic data: we call this process thematic data migration. We first propose a model for the migration of punctual thematic data hosted by a network. This model is composed of: (1) a model to describe the referencing of thematic data on topographic data using spatial relations (2) a method to re-locate thematic data based on these relations. The approach consists in identifying the expected final relations according to the initial relations and the modifications of topographic data between the initial and the final state. The thematic data are then re-located using a multi-criteria method in order to satisfy, as much as possible, the expected relations. An implementation is presented on toy problems and on a real use case provided by a French public authority in charge of road network management. The extension of the proposed model to take into account the relations for other applications than thematic data migration is also discussed
|
9 |
Réseaux de service web : construction, analyse et applications / Web service networks : analysis, construction and applicationsNaim, Hafida 13 December 2017 (has links)
Cette thèse se place dans le cadre de services web en dépassant leur description pour considérer leur structuration en réseaux (réseaux d'interaction et réseaux de similitude). Nous proposons des méthodes basées sur les motifs, la modélisation probabiliste et l'analyse des concepts formels, pour améliorer la qualité des services découverts. Trois contributions sont alors proposées: découverte de services diversifiés, recommandation de services et cohérence des communautés de services détectées. Nous structurons d'abord les services sous forme de réseaux. Afin de diversifier les résultats de la découverte, nous proposons une méthode probabiliste qui se base à la fois sur la pertinence, la diversité et la densité des services. Dans le cas de requêtes complexes, nous exploitons le réseau d'interaction de services construit et la notion de diversité dans les graphes pour identifier les services web qui sont susceptibles d'être composables. Nous proposons également un système de recommandation hybride basé sur le contenu et le filtrage collaboratif. L'originalité de la méthode proposée vient de la combinaison des modèles thématiques et les motifs fréquents pour capturer la sémantique commune maximale d'un ensemble de services. Enfin, au lieu de ne traiter que des services individuels, nous considérons aussi un ensemble de services regroupés sous forme de communautés de services pour la recommandation. Nous proposons dans ce contexte, une méthode qui combine la sémantique et la topologie dans les réseaux afin d'évaluer la qualité et la cohérence sémantique des communautés détectées, et classer également les algorithmes de détection de communautés. / As a part of this thesis, we exceed the description of web services to consider their structure as networks (i.e. similarity and interaction web service networks). We propose methods based on patterns, topic models and formal concept analysis, to improve the quality of discovered services. Three contributions are then proposed: (1) diversified services discovery, (2) services recommendation and (3) consistency of detected communities. Firstly, we propose modeling the space of web services through networks. To discover the diversified services corresponding to a given query, we propose a probabilistic method to diversify the discovery results based on relevancy, diversity and service density. In case of complex requests, it is necessary to combine multiple web services to fulfill this kind of requests. In this regard, we use the interaction web service network and the diversity notion in graphs to identify all possible services compositions. We also propose a new hybrid recommendation system based on both content and collaborative filtering. Its originality comes from the combination of probabilistic topic models and pattern mining to capture the maximal common semantic of a set of services. Finally, instead of processing individual services, we consider a set of services grouped into service communities for the recommendation. We propose in this context, a new method combining both topology and semantics to evaluate the quality and the semantic consistency of detected communities, and also rank the detection communities algorithms.
|
10 |
Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiquesKe, Guiyao 26 February 2014 (has links) (PDF)
Les corpus comparables thématiques regroupent des textes issus d¡¯un même thème et rédigés dans plusieurs langues, fortement similaires mais ne comprenant pas de traductions mutuelles. Par rapport aux corpus parallèles qui regroupent des paires de traductions, les corpus comparables présentent trois avantages: premièrement, ce sont des ressources riches et larges : en volume et en période couverte; deuxièmement, les corpus comparables fournissent des ressources linguistiques originales et thématiques. Enfin, ils sont moins coûteux à développer que les corpus parallèles. Avec le développement considérable du WEB, une matière première très abondante est exploitable pour la construction de corpus comparables. En contre-partie, la qualité des corpus comparables est essentielle pour leur utilisation dans différents domaines tels que la traduction automatique ou assistée, l¡¯extraction de terminologies bilingues, la recherche d¡¯information multilingue, etc. L¡¯objectif de ce travail de thèse est de développer une approche méthodologique et un outillage informatique pour fournir une assistance à la construction des corpus comparables bilingues et thématiques de ? bonne qualité ?, à partir du WEB et à la demande. Nous présentons tout d¡¯abord la notion de mesure de comparabilité qui associe deux espaces linguistiques et, à partir d¡¯une mesure quantitative de comparabilité de référence, nous proposons deux variantes, qualifiées de comparabilité thématique, que nous évaluons suivant un protocole basé sur la dégradation progressive d¡¯un corpus parallèle. Nous proposons ensuite une nouvelle méthode pour améliorer le co-clustering et la co-classification de documents bilingues, ainsi que l¡¯alignement des clusters comparables. Celle-ci fusionne des similarités natives définies dans chacun des espaces linguistiques avec des similarités induites par la mesure de comparabilité utilisée. Enfin, nous proposons une démarche intégrée basée sur les contributions précédemment évoquées afin d¡¯assister la construction, à partir du WEB, de corpus comparables bilingues thématiques de qualité. Cette démarche comprend une étape de validation manuelle pour garantir la qualité de l¡¯alignement des clusters comparables. En jouant sur le seuil de comparabilité d¡¯alignement, différents corpus comparables associés à des niveaux de comparabilité variables peuvent être fournis en fonction des besoins spécifiés. Les expérimentations que nous avons menées sur des Flux RSS issus de grands quotidiens internationaux apparaissent pertinentes et prometteuses.
|
Page generated in 0.0701 seconds