• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 31
  • 15
  • 4
  • Tagged with
  • 49
  • 13
  • 9
  • 8
  • 8
  • 8
  • 8
  • 7
  • 7
  • 6
  • 6
  • 6
  • 6
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Construction automatique de hiérarchies sémantiques à partir du Trésor de la Langue Française informatisé (TLFi) : application à l'indexation et la recherche d'images / Automatic construction of semantic hierarchies from the Trésor de la langue française informatisé (TLFi) : application for image indexing and retrieval

Gheorghita, Inga 17 February 2014 (has links)
L’objectif principal de cette thèse est de montrer que les informations lexicales issues d’un dictionnaire de langue, tel le Trésor de la langue française informatisé (TLFi), peuvent améliorer les processus d’indexation et de recherche d’images. Le problème d’utilisation d’une telle ressource est qu’elle n’est pas suffisamment formalisée pour être exploitée d’emblée dans un tel domaine d’application. Pour résoudre ce problème, nous proposons, dans un premier temps, une approche de construction automatique de hiérarchies sémantiques à partir du TLFi. Après avoir défini une caractéristique quantitative (mesurable) et comparable des noms apparaissant dans les définitions lexicographiques, à travers une formule de pondération permettant de sélectionner le nom de poids maximal comme un bon candidat hyperonyme pour un lexème donné du TLFi, nous proposons un algorithme de construction automatique de hiérarchies sémantiques pour les lexèmes des vocables du TLFi. Une fois notre approche validée à travers des évaluations manuelles, nous montrons, dans un second temps, que les hiérarchies sémantiques obtenues à partir du TLFi peuvent être utilisées pour l’enrichissement d’un thésaurus construit manuellement ainsi que pour l’indexation automatique d’images à partir de leurs descriptions textuelles associées. Nous prouvons aussi que l’exploitation d’une telle ressource dans le domaine de recherche d’images améliore la précision de la recherche en structurant les résultats selon les domaines auxquels les concepts de la requête de recherche peuvent faire référence. La mise en place d’un prototype nous a permis ainsi d’évaluer et de valider les approches proposées. / The main purpose of this thesis is to show that the lexical information issuing from a language dictionary, as the Trésor de la langue française informatisé (TLFi), can improve the image indexing and retrieval process. The problem of using of such resource is that it is not sufficiently formalized to be exploited immediately in such application domain.To solve this problem, we propose a first approach of automatic construction of semantic hierarchies from TLFi. After defining a quantitative (measurable) and comparable characteristic of names appearing in dictionary definitions, through a weighting formula that allows us to select the name of the maximum weight as a good hypernym candidate for a given TLFi lexeme, we suggest an algorithm of automatic construction of semantic hierarchies for the lexemes of TLFi vocables.Once our approach is validated through manual evaluations, we demonstrate in the second time that the semantic hierarchies obtained from TLFi can be used to enrich a thesaurus manually built as well as for automatic image indexing using their associated text descriptions. We also prove that the use of such resource in the domain of image retrieval improves the accuracy of search by structuring the results according the domains to which the concepts of the search query are related to. The implementation of a prototype allowed us to evaluate and validate the proposed approaches.
12

Modulation du traitement cortical des informations visuelles et somatosensorielles en situation d'incongruence : une approche électroencéphalographique / Modulation of cortical visual and somatosensory processing in an incongruent sensory situation : an EEG approach

Lebar, Nicolas 30 September 2016 (has links)
L’objectif du présent travail de thèse est d’étudier les mécanismes de pondération des informations visuelles et somatosensorielles dans le contrôle du mouvement volontaire visuoguidé de la main lorsque les retours sensoriels de ces deux canaux véhiculent des informations spatiales congruentes ou incongruentes. Une incongruence entre les informations visuelles et somatosensorielles peut-être crée expérimentalement en décalant l’environnement visuel perçu des participants. Dans une telle situation, les participants devaient suivre les contours d’une forme géométrique irrégulière avec un stylet sur une tablette graphique. L’activité cérébrale des régions visuelles, somatosensorielles et pariétales postérieures a été enregistrée en électroencéphalographie, et quantifiée par la mesure de l’amplitude de potentiels évoqués visuels [Etude 1] et de la puissance des bandes de fréquences alpha (8-12 Hz), beta (15-25 Hz) et gamma (50-80 Hz) [Etudes 2 et 3]. Nous avons ainsi montré que le mouvement visuoguidé entraînait une augmentation de l’activité au niveau des aires corticales visuelles, et que le contrôle du mouvement en situation d’incongruence induisait une augmentation supplémentaire de l’excitabilité des cortex visuels, somatosensoriels et pariétaux postérieurs. Ces modulations reflèteraient des mécanismes de pondération du traitement de ces entrées sensorielles dans le but de s’adapter à cette situation. Plus généralement, nos résultats soutiennent l’idée que notre système nerveux est en mesure de moduler localement son activité en fonction de la pertinence du traitement des informations pour répondre aux exigences imposées par le contexte. / The goal of our doctoral research was to investigate the weighting of these sensory inputs in conditions under which they provided either congruent or incongruent information about hand motion. A visuo-somatosensory incongruence can be induced experimentally by shifting the visual feedback of the environment. We asked participants to follow precisely the outline of an irregular shape with a stylus on a digitizing tablet. Brain activity was recorded with an electroencephalographic device, and quantified by measuring visual evoked potentials amplitudes [Study 1], and the power in the alpha (8-12 Hz), beta (15- 25 Hz) and gamma (50-80 Hz) frequency-bands [Studies 2 and 3]. We first evidenced that visually-guided hand movements increased the sensitivity to visual inputs of a large cortical network. Moreover, we showed that controlling movement in a situation with an incongruence between visual and somatosensory input led to a further increase of visual, somatosensory and posterior-parietal cortical excitability. We suggest that these modulations reflect sensory weighting mechanisms in order to attempt to adapt to the sensory incongruence. Interestingly, in the somatosensory areas, we found that the sensory incongruent condition led to a reduction of gamma power, suggesting a reduced integration of somatosensory inputs for controlling movements. Taken together, our findings are in line with the existence of a general sensory gain control mechanism driven by the state of adaptation of the sensorimotor system in a given sensory context. More generally, our results argue for the idea that sensory processing is function of the context-dependent relevance of the sensory inputs.
13

La saillance des promesses électorales : ses outils, ses mesures et sa validité

Tremblay-Antoine, Camille 06 November 2023 (has links)
Thèse ou mémoire avec insertion d'articles. / Les outils de suivi des promesses électorales (OSPÉ) produisent un score de complétion des engagements électoraux en considérant chaque promesse comme étant égales. Mais la littérature sur le mandat démocratique montre que chaque promesse n'a pas la même importance dans la société. Cette thèse vise à développer un indice automatisé de pondération des promesses en fonction de leur importance dans la sphère publique. Une étude de la portée de la littérature est menée et montre que plusieurs défis se posent au niveau de l'opérationnalisation de cette importance. Basé sur la littérature existante cette thèse identifie les différentes approches utilisées pour mesurer l'importance par la saillance dans notre société, teste leur fiabilité et les applique au cas du Polimètre, un OSPÉ canadien. Cette recherche prend la forme d'une thèse par articles où le concept de saillance est central. L'article How Can We Size Your Core Issue : Assessing Salience Validity using Psychophysiology compare les résultats de la saillance d'enjeux obtenus à partir de mesures traditionnellement utilisées en science politique avec des résultats issus de mesures physiologiques. Un devis expérimental en laboratoire est déployé afin de déterminer les correspondances entre différentes mesures de saillance personnelle et les réactions émotionnelles des répondants mesurées avec la conduction cutanée et la dilatation pupillaire. Les résultats montrent une forte corrélation entre toutes les mesures testées et valident donc les approches d'enquête conventionnelles utilisées en science politique pour mesurer la saillance des enjeux. L'article Weighting Pledge Trackers Scores : A Measure Based on Pledge Salience est construit sur les conclusions de l'étude de la portée de la littérature ainsi que sur les résultats obtenus par la validation, dans le premier article, des mesures de saillance individuelle. À partir des dimensions de la saillance utilisés dans la littérature - dans l'opinion publique, dans la sphère politique, dans les médias et dans les groupes d'intérêts - une mesure agrégée de la saillance des promesses pondérée est conceptualisée, opérationnalisée puis testée. L'OSPÉ Polimètre Trudeau est utilisé pour comparer son score non pondéré d'accomplissement d'engagement électoraux avec le score pondéré en fonction de la saillance. Le score global de réalisation des promesses pondéré en fonction de la saillance est inférieur à celui non pondéré du Polimètre Trudeau. Finalement, l'article Who cares about pledges ? A conjoint analysis of factors influencing political parties' perception and vote choice in Canada présente les résultats d'un devis de recherche expérimental par analyse conjointe qui évalue l'importance perçue par les citoyens de la complétion des engagements électoraux par les partis élus. Les théories du comportement de vote offrent un aperçu de la façon dont le respect des engagements est considéré par les citoyens lorsqu'ils votent, mais n'aborde pas cette variable en lien avec celles de l'entonnoir de causalité. Cet article mesure l'importance pour les citoyens du respect des engagements en la comparant aux variables de l'entonnoir de causalité. Les résultats montrent que le fait qu'un parti politique respecte ses engagements électoraux et qu'il priorise les enjeux importants pour les répondants sont les prédicteurs les plus forts de la perception qu'ont les répondants de ce parti, et même du choix de vote. Les résultats montrent que parmi l'idéologie, l'attachement émotionnel au parti, les enjeux traités par le parti, l'image du candidat et la réalisation des promesses électorales, cette dernière caractéristique est l'une des plus influentes sur la perception d'un parti par les Canadiens. En somme, les résultats de cette thèse permettent de mieux conceptualiser et opérationnaliser la saillance des promesses électorales. Puisque les perceptions des citoyens par rapport à la complétion des promesses électorales présente une importance dans leur choix de vote, les résultats de cette thèses incitent à considérer les OSPÉ avec prudence. Ces outils présentent un grand potentiel d'impact en termes d'éducation politique, d'information, de construction par les citoyens de leur évaluation des performances gouvernementales ou encore de leur choix de vote. Cet impact potentiel devrait motiver la communauté académique à étudier les méthodologies sous-jacentes à l'établissement de pronostics sur le respect des engagements électoraux de ces outils. Les résultats incitent également à recommander aux développeurs actuels et futurs d'OSPÉ d'intégrer l'indice de pondération des promesses développé dans cette recherche afin de produire un score de complétion plus précis. / Campaign pledge evaluation tools (CPETs) track the congruence between election pledges and their completion and produce a completion score by considering each pledge as equal. But the literature on the democratic mandate shows that not every promise has the same importance in the public arena. This thesis aims to develop a pledge automated weighting index according to each pledge's importance in the society. A scoping review of the literature is conducted and shows that several challenges arise in operationalizing this salience. Based on the existing literature, this thesis identifies the different approaches used to measure importance by salience in our society, tests their reliability and applies them to the case of the Polimeter, a Canadian CPET. This research takes the form of a thesis by articles where the concept of salience is central. The paper How Can We Size Your Core Issue : Assessing Salience Validity using Psychophysiology compare results of society stakes salience obtained with conventional measurements used in political science with physiological measures. An experimental design in laboratory is deployed in order to assess the correspondences between different measures of personal salience and the emotional reactions of respondents measured with skin conduction and pupillary dilation. Results show a strong correlation between all the measures tested and therefore validate the conventional survey approaches used in political science to measure issue salience. The paper Weighting Pledge Fulfillment : A Measure Based on Pledge Salience is built on the conclusions of the scoping review as well as on the results obtained by the validation, in the first article, of the individual salience measurements. From the dimensions of salience used in the literature - in public opinion, in the political arena, in the media and in interest groups - a weighted aggregate measure of pledge salience is conceptualized, operationalized, and tested. The CPET Trudeau Polimeter is used to compare its unweighted electoral commitment achievement score with the weighted score. The overall salience-weighted promise fulfillment score is lower than the unweighted Trudeau Polimeter score. Finally, the paper Who Cares About Pledges ? A Conjoint Analysis of Factors Influencing Political Parties' Perception and Vote Choice in Canada presents results from an experimental research design using conjoint analysis that assess the importance perceived by citizens of the fulfillment of electoral commitments by elected parties. Voting behavior theories offer insight into how fulfillment of commitments is viewed by citizens when they vote, but do not address this variable in relation with the causal funnel variables. This research measures the importance citizens place in governments respecting their commitments by comparing it to the variables of the causal funnel. Results show that the fact that a political party respects its electoral commitments and that it prioritizes the issues that are important to respondents are the strongest predictors of the perception that respondents have of this party, and even of the vote choice. Results also show that among the ideology, the emotional attachment to the party, the issues dealt with by the party, the image of the candidate and the fulfillment of electoral promises, this last characteristic is one of the most influential on the perception of a party by Canadians. In all, the results of this thesis make it possible to better conceptualize and operationalize the salience of electoral promises. Since citizens' perceptions of electoral pledge fulfillment is important in their choice of vote, the results of this thesis encourage to consider CPETs cautiously. These tools have great potential for impact in terms of political education, information, construction by citizens of their evaluation of government performance or their choice of vote. This potential impact should motivate the academic community to study the methodologies underlying CPETs scores. Results also encourage us to recommend that current and future CPETs developers integrate the promise weighting index based on salience developed in this research in order to produce a more accurate completion scores.
14

Comparing inverse probability of treatment weighting methods and optimal nonbipartite matching for estimating the causal effect of a multicategorical treatment

Diop, Serigne Arona 18 April 2019 (has links)
Des débalancements des covariables entre les groupes de traitement sont souvent présents dans les études observationnelles et peuvent biaiser les comparaisons entre les traitements. Ce biais peut notamment être corrigé grâce à des méthodes de pondération ou d’appariement. Ces méthodes de correction ont rarement été comparées dans un contexte de traitement à plusieurs catégories (>2). Nous avons mené une étude de simulation pour comparer une méthode d’appariement optimal non-biparti, la pondération par probabilité inverse de traitement ainsi qu’une pondération modifiée analogue à l’appariement (matching weights). Ces comparaisons ont été effectuées dans le cadre de simulation de type Monte Carlo à travers laquelle une variable d’exposition à 3 groupes a été utilisée. Une étude de simulation utilisant des données réelles (plasmode) a été conduite et dans laquelle la variable de traitement avait 5 catégories. Parmi toutes les méthodes comparées, celle du matching weights apparaît comme étant la plus robuste selon le critère de l’erreur quadratique moyenne. Il en ressort, aussi, que les résultats de la pondération par probabilité inverse de traitement peuvent parfois être améliorés par la troncation. De plus, la performance de la pondération dépend du niveau de chevauchement entre les différents groupes de traitement. La performance de l’appariement optimal nonbiparti est, quant à elle, fortement tributaire de la distance maximale pour qu’une paire soit formée (caliper). Toutefois, le choix du caliper optimal n’est pas facile et demeure une question ouverte. De surcroît, les résultats obtenus avec la simulation plasmode étaient positifs, dans la mesure où une réduction importante du biais a été observée. Toutes les méthodes ont pu réduire significativement le biais de confusion. Avant d’utiliser la pondération de probabilité inverse de traitement, il est recommandé de vérifier la violation de l’hypothèse de positivité ou l’existence de zones de chevauchement entre les différents groupes de traitement
15

Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets

Boubekeur, Fatiha 01 July 2008 (has links) (PDF)
Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence).
16

Modèles de pondération par les méthodes de tri croisé pour l'aide à la décision collaborative en projet

Limayem, Frej 23 November 2001 (has links) (PDF)
En gestion de projet, les procédures de pondération sont associées à l'évaluation de paramètres intervenant dans les processus de décision. Malgré cet enjeu les outils du terrain sont très souvent peu adaptés aux exigences projet. Certains conduisent même à des résultats inexacts. Parallèlement, les solutions disponibles dans le monde de la recherche ne présentent pas toujours la souplesse nécessaire à leur exploitation immédiate sur le terrain. Ce travail de thèse apporte des éléments de réponse tant sur le plan théorique que pratique. Il s'inscrit dans le cadre plus particulier des outils dit de tri croisé. Cette désignation englobe toute méthode ramenant le problème à un ensemble de comparaisons binaires des éléments à pondérer pour simplifier la tâche du groupe de décision.<br />Nos apports consistent tout d'abord en une plus grande flexibilité dans la prise en compte des opinions des décideurs. Une formulation mathématique générale du problème est proposée ainsi que des perspectives, basées sur la logique floue, en vue d'une meilleure gestion de l'imprécision inhérente au jugement. Notre contribution se situe aussi au niveau de la détection et du traitement de l'incohérence induite par l'agrégation de comparaisons binaires comportant le plus souvent une part d'information redondante sans être nécessairement concordante. Un indicateur de cohérence original est proposé de même qu'une procédure itérative en vue de l'amélioration de cette cohérence. De plus, l'introduction de la notion d'entité votante permet d'envisager une plus grande variété de stratégies de vote et de cibler l'assistance apportée au groupe de décision. Enfin sur le plan pratique, un concept original de plate-forme de tri croisé asynchrone et réparti est proposé. Il offre une grande souplesse au niveau de la conception et de la conduite d'une procédure de tri croisé en projet. Une maquette informatique a été développée en vue de valider une partie de ses fonctionnalités.
17

Corrélation sémantique entre documents : application à la recherche d'information juridique sur le Web

Chotteau, Christophe 12 December 2003 (has links) (PDF)
Parmi les nombreuses méthodes d'accès à l'information présentes sur Internet, la corrélation de divers documents apparaît comme un outil complémentaire permettant aux internautes d'enrichir leurs connaissances sur un document sans avoir à formuler de question. L'objectif de nos travaux est de réaliser une méthode de corrélation sémantique dédiée à la recherche d'information juridique. La méthode que nous dégageons vise à appliquer des outils et techniques d'ingénierie linguistique sur des textes préalablement choisis. Les unités textuelles saillantes les constituant sont alors dégagées, définissant pour chaque document analysé ce que nous appelons une signature lexicale. Ces signatures lexicales servent ensuite d'éléments clefs pour interroger un moteur de recherche dont les résultats représentent l'ensemble des documents corrélés. Cette méthode de corrélation est utilisée et évaluée dans un contexte de recherche d'information sur Internet et plus spécifiquement est intégrée aux développements d'un moteur de recherche. Les principaux apports de nos travaux sont (1) un renouvellement des méthodes de recherche de documents corrélés par l'optimisation des signatures lexicales dédiées, (2) l'élaboration et l'évaluation d'un nouvel indice de pondération statistique noté Tifr, (3) une réflexion sur l'aspect sémantique de la méthode de corrélation exposée, et enfin (4) une proposition concrète de réponse à la problématique de l'accès à l'information dans un contexte juridique.
18

Model adaptation techniques in machine translation / Techniques d'adaptation en traduction automatique

Shah, Kashif 29 June 2012 (has links)
L’approche statistique pour la traduction automatique semble être aujourd’hui l’approche la plusprometteuse. Cette approche permet de développer rapidement un système de traduction pour unenouvelle paire de langue lorsque les données d'apprentissage disponibles sont suffisammentconséquentes.Les systèmes de traduction automatique statistique (Statistical Machine Translation (SMT)) utilisentdes textes parallèles, aussi appelés les bitextes, comme support d'apprentissage pour créer lesmodèles de traduction. Ils utilisent également des corpus monolingues afin de modéliser la langueciblée.Les performances d'un système de traduction automatique statistique dépendent essentiellement dela qualité et de la quantité des données disponibles. Pour l'apprentissage d'un modèle de traduction,les textes parallèles sont collectés depuis différentes sources, dans différents domaines. Ces corpussont habituellement concaténés et les phrases sont extraites suite à un processus d'alignement desmots.Néanmoins, les données parallèles sont assez hétérogènes et les performances des systèmes detraduction automatique dépendent généralement du contexte applicatif. Les performances varient laplupart du temps en fonction de la source de données d’apprentissage, de la qualité de l'alignementet de la cohérence des données avec la tâche. Les traductions, sélectionnées parmi différenteshypothèses, sont directement influencées par le domaine duquel sont récupérées les donnéesd'apprentissage. C'est en contradiction avec l'apprentissage des modèles de langage pour lesquelsdes techniques bien connues sont utilisées pour pondérer les différentes sources de données. Ilapparaît donc essentiel de pondérer les corpus d’apprentissage en fonction de leur importance dansle domaine de la tâche de traduction.Nous avons proposé de nouvelles méthodes permettant de pondérer automatiquement les donnéeshétérogènes afin d'adapter le modèle de traduction.Dans une première approche, cette pondération automatique est réalisée à l'aide d'une technique deré-échantillonnage. Un poids est assigné à chaque bitextes en fonction de la proportion de donnéesdu corpus. Les alignements de chaque bitextes sont par la suite ré-échantillonnés en fonction de cespoids. Le poids attribué aux corpus est optimisé sur les données de développement en utilisant uneméthode numérique. De plus, un score d'alignement relatif à chaque paire de phrase alignée estutilisé comme mesure de confiance.Dans un travail approfondi, nous pondérons en ré-échantillonnant des alignements, en utilisant despoids qui diminuent en fonction de la distance temporelle entre les bitextes et les données de test.Nous pouvons, de cette manière, utiliser tous les bitextes disponibles tout en mettant l'accent sur leplus récent.L'idée principale de notre approche est d'utiliser une forme paramétrique, ou des méta-poids, pourpondérer les différentes parties des bitextes. De cette manière, seuls quelques paramètres doiventêtre optimisés.Nous avons également proposé un cadre de travail générique qui, lors du calcul de la table detraduction, ne prend en compte que les corpus et les phrases réalisant les meilleurs scores. Cetteapproche permet une meilleure distribution des masses de probabilités sur les paires de phrasesindividuelles.Nous avons présenté les résultats de nos expériences dans différentes campagnes d'évaluationinternationales, telles que IWSLT, NIST, OpenMT et WMT, sur les paires de langues Anglais/Arabeet Fançais/Arabe. Nous avons ainsi montré une amélioration significative de la qualité destraductions proposées. / Nowadays several indicators suggest that the statistical approach to machinetranslation is the most promising. It allows fast development of systems for anylanguage pair provided that sufficient training data is available.Statistical Machine Translation (SMT) systems use parallel texts ‐ also called bitexts ‐ astraining material for creation of the translation model and monolingual corpora fortarget language modeling.The performance of an SMT system heavily depends upon the quality and quantity ofavailable data. In order to train the translation model, the parallel texts is collected fromvarious sources and domains. These corpora are usually concatenated, word alignmentsare calculated and phrases are extracted.However, parallel data is quite inhomogeneous in many practical applications withrespect to several factors like data source, alignment quality, appropriateness to thetask, etc. This means that the corpora are not weighted according to their importance tothe domain of the translation task. Therefore, it is the domain of the training resourcesthat influences the translations that are selected among several choices. This is incontrast to the training of the language model for which well‐known techniques areused to weight the various sources of texts.We have proposed novel methods to automatically weight the heterogeneous data toadapt the translation model.In a first approach, this is achieved with a resampling technique. A weight to eachbitexts is assigned to select the proportion of data from that corpus. The alignmentscoming from each bitexts are resampled based on these weights. The weights of thecorpora are directly optimized on the development data using a numerical method.Moreover, an alignment score of each aligned sentence pair is used as confidencemeasurement.In an extended work, we obtain such a weighting by resampling alignments usingweights that decrease with the temporal distance of bitexts to the test set. By thesemeans, we can use all the available bitexts and still put an emphasis on the most recentone. The main idea of our approach is to use a parametric form or meta‐weights for theweighting of the different parts of the bitexts. This ensures that our approach has onlyfew parameters to optimize.In another work, we have proposed a generic framework which takes into account thecorpus and sentence level "goodness scores" during the calculation of the phrase‐tablewhich results into better distribution of probability mass of the individual phrase pairs.
19

Tests multiples et bornes post hoc pour des données hétérogènes / Multiple testing and post hoc bounds for heterogeneous data

Durand, Guillermo 26 November 2018 (has links)
Ce manuscrit présente mes contributions dans trois domaines des tests multiples où l'hétérogénéité des données peut être exploitée pour mieux détecter le signal tout en contrôlant les faux positifs : pondération des p-valeurs, tests discrets, et inférence post hoc. Premièrement, une nouvelle classe de procédures avec pondération données-dépendante, avec une structure de groupe et des estimateurs de la proportion de vraies nulles, est définie, et contrôle le False Discovery Rate (FDR) asymptotiquement. Cette procédure atteint aussi l'optimalité en puissance sous certaines conditions sur les estimateurs. Deuxièmement, de nouvelles procédures step-up et step-down, adaptées aux tests discrets sous indépendance, sont conçues pour contrôler le FDR pour une distribution arbitraire des marginales des p-valeurs sous l'hypothèse nulle. Finalement, de nouvelles familles de référence pour l'inférence post hoc, adaptées pour le cas où le signal est localisé, sont étudiées, et on calcule les bornes post hoc associées avec un algorithme simple. / This manuscript presents my contributions in three areas of multiple testing where data heterogeneity can be exploited to better detect false null hypotheses or improve signal detection while controlling false positives: p-value weighting, discrete tests, and post hoc inference. First, a new class of data-driven weighting procedures, incorporating group structure and true null proportion estimators, is defined, and its False Discovery Rate (FDR) control is proven asymptotically. This procedure also achieves power optimality under some conditions on the proportion estimators. Secondly, new step-up and step-down procedures, tailored for discrete tests under independence, are designed to control the FDR for arbitrary p-value null marginals. Finally, new confidence bounds for post hoc inference (called post hoc bounds), tailored for the case where the signal is localized, are studied, and the associated optimal post hoc bounds are derived with a simple algorithm.
20

Estimations de satisfaisabilité

Hugel, Thomas 07 December 2010 (has links) (PDF)
Le problème de satisfaisabilité booléenne 3-SAT est connu pour présenter un phénomène de seuil en fonction du quotient entre le nombre de clauses et le nombre de variables. Nous donnons des estimations de la valeur de ce seuil au moyen de méthodes combinatoires et probabilistes: la méthode du premier moment et la méthode du second moment. Ces méthodes mettent en jeu des problèmes d'optimisation sous contraintes et nous amènent à employer de façon intensive la méthode des multiplicateurs de Lagrange. Nous mettons en œuvre une forme pondérée de la méthode du premier moment sur les affectations partielles valides de Maneva ainsi que des variantes. Cela nous conduit à élaborer une pondération générale pour les problèmes de satisfaction de contraintes qui soit compatible avec la méthode du premier moment. Cette pondération est constituée d'une graine et d'un répartiteur, et nous permet d'obtenir une pondération des affectations partielles valides meilleure que celle de Maneva. Nous comparons aussi dans certains cas les performances de la pondération et de l'orientation de l'espace des solutions des problèmes de satisfaction de contraintes relativement à la méthode du premier moment. Nous développons la première sélection non uniforme de solutions pour majorer le seuil de 3-SAT et nous montrons sa supériorité sur ses prédécesseurs. Nous construisons un cadre général pour appliquer la méthode du second moment à k-SAT et nous discutons des conditions qui la font fonctionner. Nous faisons notamment fonctionner la méthode du second moment sur les solutions booléennes et sur les impliquants. Nous étendons cela au modèle distributionnel de k-SAT.

Page generated in 0.4662 seconds