• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • 2
  • Tagged with
  • 6
  • 6
  • 4
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

A Markovian approach to distributional semantics / Une approche Markovienne à la sémantique distributionnelle

Grave, Edouard 20 January 2014 (has links)
Cette thèse, organisée en deux parties indépendantes, a pour objet la sémantique distributionnelle et la sélection de variables. Dans la première partie, nous introduisons une nouvelle méthode pour l'apprentissage de représentations de mots à partir de grandes quantités de texte brut. Cette méthode repose sur un modèle probabiliste de la phrase, utilisant modèle de Markov caché et arbre de dépendance. Nous présentons un algorithme efficace pour réaliser l'inférence et l'apprentissage dans un tel modèle, fondé sur l'algorithme EM en ligne et la propagation de message approchée. Nous évaluons les modèles obtenus sur des taches intrinsèques, telles que prédire des jugements de similarité humains ou catégoriser des mots et deux taches extrinsèques~: la reconnaissance d'entités nommées et l'étiquetage en supersens. Dans la seconde partie, nous introduisons, dans le contexte des modèles linéaires, une nouvelle pénalité pour la sélection de variables en présence de prédicteurs fortement corrélés. Cette pénalité, appelée trace Lasso, utilise la norm trace des prédicteurs sélectionnés, qui est une relaxation convexe de leur rang, comme critère de complexité. Le trace Lasso interpole les normes $\ell_1$ et $\ell_2$. En particulier, lorsque tous les prédicteurs sont orthogonaux, il est égal à la norme $\ell_1$, tandis que lorsque tous les prédicteurs sont égaux, il est égal à la norme $\ell_2$. Nous proposons deux algorithmes pour calculer la solution du problème de régression aux moindres carrés regularisé par le trace Lasso et réalisons des expériences sur des données synthétiques. / This thesis, which is organized in two independent parts, presents work on distributional semantics and on variable selection. In the first part, we introduce a new method for learning good word representations using large quantities of unlabeled sentences. The method is based on a probabilistic model of sentence, using a hidden Markov model and a syntactic dependency tree. The latent variables, which correspond to the nodes of the dependency tree, aim at capturing the meanings of the words. We develop an efficient algorithm to perform inference and learning in those models, based on online EM and approximate message passing. We then evaluate our models on intrinsic tasks such as predicting human similarity judgements or word categorization, and on two extrinsic tasks: named entity recognition and supersense tagging. In the second part, we introduce, in the context of linear models, a new penalty function to perform variable selection in the case of highly correlated predictors. This penalty, called the trace Lasso, uses the trace norm of the selected predictors, which is a convex surrogate of their rank, as the criterion of model complexity. The trace Lasso interpolates between the $\ell_1$-norm and $\ell_2$-norm. In particular, it is equal to the $\ell_1$-norm if all predictors are orthogonal and to the $\ell_2$-norm if all predictors are equal. We propose two algorithms to compute the solution of least-squares regression regularized by the trace Lasso, and perform experiments on synthetic datasets to illustrate the behavior of the trace Lasso.
2

Travail de représentation et rapport au politique dans le syndicalisme policier / Representation process and relation to politics in police unionism

Pabion, Benjamin 25 June 2018 (has links)
La Police Nationale est l’une des professions les plus syndiquées en France, avec un taux de syndicalisation proche des 70%. Pourtant, les recherches sur le militantisme et les mouvements sociaux pensent souvent les policiers comme les instruments de la répression, comme le bras armé de l’État, mais bien plus rarement comme des travailleurs soumis, comme d’autres, à des pressions de leur hiérarchie et à des difficultés professionnelles. A partir de ce constat, et grâce à une enquête socio-ethnographique, cette thèse questionne l’organisation et le fonctionnement du syndicalisme policier. Après une mise en perspective historique permettant de présenter les modalités de construction et d’évolution du syndicalisme policier, l’analyse porte sur le travail syndical de représentation et le rapport au politique. Nous montrons ainsi que les syndicalistes policiers articulent un important travail de service aux adhérents (en participant notamment aux commissions administratives paritaires qui gèrent les carrières des fonctionnaires) et des formes de mobilisations plus conflictuelles. Comme dans d’autres milieux, les syndicalistes policiers sont soumis à une logique de professionnalisation, mais les permanents syndicaux sont accompagnés, dans leur travail, par un important réseau de militants et délégués qui contribuent à entretenir la proximité avec les travailleurs. En mobilisant et en questionnant le concept bourdieusien de champ, nous interrogeons enfin les relations entre le champ syndical policier et le champ politique. Les syndicalistes policiers entretiennent un rapport ambivalent et très circonstancié au politique, entre rejet, mise à distance et appropriation. Notre démarche ethnographique permet de saisir les logiques de différenciation des pratiques en fonction des acteurs, et plus particulièrement en fonction du niveau de responsabilité. Ainsi, si l’évitement du politique est la règle générale, elle est appliquée avec bien plus de rigueur au niveau départemental qu’au niveau national. / The French National Police force is one of the most unionised professions in the country: close to 70%. Yet most of the scientific research on activism and social movements only considers police officers as a entities within the state repression system, and rarely as workers who experience, as any others, pressures from their management and professional struggles. Based on these observations, and using a socio-ethnographic survey, our thesis aims to question the organization and running of French police unionism. After a brief analysis of the historical process of construction and evolution of police unionism, we examine the unions representation work and its relation to politics.We notably demonstrate that police unionists articulate an important work of service to their paying members (by participating in the joint administrative commissions which manage the careers of civil servants) and forms of more conflicting mobilizations. As in other environments, police unionists are subject to a logic of professionalization, but the union officials are accompanied in their work by a large network of activists and representatives who contribute to maintaining proximity with the workers.Mobilizing and questioning Bourdieu's concept of “field”, we finally examine the relations between the police union field and the political field. Police unionists entertain an ambivalent and very circumstantial relationship to politics, caught between rejection, distanciation and appropriation. Our ethnographic approach allows us to grasp the logic of practice differentiation by stakeholder, and more particularly by level of responsibility. Thus, if avoiding politics is the general rule, it is applied much more rigorously at the local level than at the national level.
3

Apprentissage automatique des classes d'occupation du sol et représentation en mots visuels des images satellitaires

Lienou, Marie Lauginie 02 March 2009 (has links) (PDF)
La reconnaissance de la couverture des sols à partir de classifications automatiques est l'une des recherches méthodologiques importantes en télédétection. Par ailleurs, l'obtention de résultats fidèles aux attentes des utilisateurs nécessite d'aborder la classification d'un point de vue sémantique. Cette thèse s'inscrit dans ce contexte, et vise l'élaboration de méthodes automatiques capables d'apprendre des classes sémantiques définies par des experts de la production des cartes d'occupation du sol, et d'annoter automatiquement de nouvelles images à l'aide de cette classification. A partir des cartes issues de la classification CORINE Land Cover, et des images satellitaires multispectrales ayant contribué à la constitution de ces cartes, nous montrons tout d'abord que si les approches classiques de la littérature basées sur le pixel ou la région sont suffisantes pour identifier les classes homogènes d'occupation du sol telles que les champs, elles peinent cependant à retrouver les classes de haut-niveau sémantique, dites de mélange, parce qu'étant composées de différents types de couverture des terres. Pour détecter de telles classes complexes, nous représentons les images sous une forme particulière basée sur les régions ou objets. Cette représentation de l'image, dite en mots visuels, permet d'exploiter des outils de l'analyse de textes qui ont montré leur efficacité dans le domaine de la fouille de données textuelles et en classification d'images multimédia. A l'aide d'approches supervisées et non supervisées, nous exploitons d'une part, la notion de compositionnalité sémantique, en mettant en évidence l'importance des relations spatiales entre les mots visuels dans la détermination des classes de haut-niveau sémantique. D'autre part, nous proposons une méthode d'annotation utilisant un modèle d'analyse statistique de textes : l'Allocation Dirichlet Latente. Nous nous basons sur ce modèle de mélange, qui requiert une représentation de l'image dite en sacs-de-mots visuels, pour modéliser judicieusement les classes riches en sémantique. Les évaluations des approches proposées et des études comparatives menées avec les modèles gaussiens et dérivés, ainsi qu'avec le classificateur SVM, sont illustrées sur des images SPOT et QuickBird entre autres.
4

Leveraging distant supervision for improved named entity recognition

Ghaddar, Abbas 03 1900 (has links)
Les techniques d'apprentissage profond ont fait un bond au cours des dernières années, et ont considérablement changé la manière dont les tâches de traitement automatique du langage naturel (TALN) sont traitées. En quelques années, les réseaux de neurones et les plongements de mots sont rapidement devenus des composants centraux à adopter dans le domaine. La supervision distante (SD) est une technique connue en TALN qui consiste à générer automatiquement des données étiquetées à partir d'exemples partiellement annotés. Traditionnellement, ces données sont utilisées pour l'entraînement en l'absence d'annotations manuelles, ou comme données supplémentaires pour améliorer les performances de généralisation. Dans cette thèse, nous étudions comment la supervision distante peut être utilisée dans un cadre d'un TALN moderne basé sur l'apprentissage profond. Puisque les algorithmes d'apprentissage profond s'améliorent lorsqu'une quantité massive de données est fournie (en particulier pour l'apprentissage des représentations), nous revisitons la génération automatique des données avec la supervision distante à partir de Wikipédia. On applique des post-traitements sur Wikipédia pour augmenter la quantité d'exemples annotés, tout en introduisant une quantité raisonnable de bruit. Ensuite, nous explorons différentes méthodes d'utilisation de données obtenues par supervision distante pour l'apprentissage des représentations, principalement pour apprendre des représentations de mots classiques (statistiques) et contextuelles. À cause de sa position centrale pour de nombreuses applications du TALN, nous choisissons la reconnaissance d'entité nommée (NER) comme tâche principale. Nous expérimentons avec des bancs d’essai NER standards et nous observons des performances état de l’art. Ce faisant, nous étudions un cadre plus intéressant, à savoir l'amélioration des performances inter-domaines (généralisation). / Recent years have seen a leap in deep learning techniques that greatly changed the way Natural Language Processing (NLP) tasks are tackled. In a couple of years, neural networks and word embeddings quickly became central components to be adopted in the domain. Distant supervision (DS) is a well-used technique in NLP to produce labeled data from partially annotated examples. Traditionally, it was mainly used as training data in the absence of manual annotations, or as additional training data to improve generalization performances. In this thesis, we study how distant supervision can be employed within a modern deep learning based NLP framework. As deep learning algorithms gets better when massive amount of data is provided (especially for representation learning), we revisit the task of generating distant supervision data from Wikipedia. We apply post-processing treatments on the original dump to further increase the quantity of labeled examples, while introducing a reasonable amount of noise. Then, we explore different methods for using distant supervision data for representation learning, mainly to learn classic and contextualized word representations. Due to its importance as a basic component in many NLP applications, we choose Named-Entity Recognition (NER) as our main task. We experiment on standard NER benchmarks showing state-of-the-art performances. By doing so, we investigate a more interesting setting, that is, improving the cross-domain (generalization) performances.
5

Induction de lexiques bilingues à partir de corpus comparables et parallèles

Jakubina, Laurent 07 1900 (has links)
No description available.
6

Hypergraphs and information fusion for term representation enrichment : applications to named entity recognition and word sense disambiguation / Hypergraphes et fusion d’information pour l’enrichissement de la représentation de termes : applications à la reconnaissance d’entités nommées et à la désambiguïsation du sens des mots

Soriano-Morales, Edmundo-Pavel 07 February 2018 (has links)
Donner du sens aux données textuelles est une besoin essentielle pour faire les ordinateurs comprendre notre langage. Pour extraire des informations exploitables du texte, nous devons les représenter avec des descripteurs avant d’utiliser des techniques d’apprentissage. Dans ce sens, le but de cette thèse est de faire la lumière sur les représentations hétérogènes des mots et sur la façon de les exploiter tout en abordant leur nature implicitement éparse.Dans un premier temps, nous proposons un modèle de réseau basé sur des hypergraphes qui contient des données linguistiques hétérogènes dans un seul modèle unifié. En d’autres termes, nous introduisons un modèle qui représente les mots au moyen de différentes propriétés linguistiques et les relie ensemble en fonction desdites propriétés. Notre proposition diffère des autres types de réseaux linguistiques parce que nous visons à fournir une structure générale pouvant contenir plusieurstypes de caractéristiques descriptives du texte, au lieu d’une seule comme dans la plupart des représentations existantes.Cette représentation peut être utilisée pour analyser les propriétés inhérentes du langage à partir de différents points de vue, oupour être le point de départ d’un pipeline de tâches du traitement automatique de langage. Deuxièmement, nous utilisons des techniques de fusion de caractéristiques pour fournir une représentation enrichie unique qui exploite la nature hétérogènedu modèle et atténue l’eparsité de chaque représentation. Ces types de techniques sont régulièrement utilisés exclusivement pour combiner des données multimédia.Dans notre approche, nous considérons différentes représentations de texte comme des sources d’information distinctes qui peuvent être enrichies par elles-mêmes. Cette approche n’a pas été explorée auparavant, à notre connaissance. Troisièmement, nous proposons un algorithme qui exploite les caractéristiques du réseau pour identifier et grouper des mots liés sémantiquement en exploitant les propriétés des réseaux. Contrairement aux méthodes similaires qui sont également basées sur la structure du réseau, notre algorithme réduit le nombre de paramètres requis et surtout, permet l’utilisation de réseaux lexicaux ou syntaxiques pour découvrir les groupes de mots, au lieu d’un type unique des caractéristiques comme elles sont habituellement employées.Nous nous concentrons sur deux tâches différentes de traitement du langage naturel: l’induction et la désambiguïsation des sens des mots (en anglais, Word Sense, Induction and Disambiguation, ou WSI/WSD) et la reconnaissance d’entité nommées(en anglais, Named Entity Recognition, ou NER). Au total, nous testons nos propositions sur quatre ensembles de données différents. Nous effectuons nos expériences et développements en utilisant des corpus à accès libre. Les résultats obtenus nous permettent de montrer la pertinence de nos contributions et nous donnent également un aperçu des propriétés des caractéristiques hétérogènes et de leurs combinaisons avec les méthodes de fusion. Plus précisément, nos expériences sont doubles: premièrement, nous montrons qu’en utilisant des caractéristiques hétérogènes enrichies par la fusion, provenant de notre réseau linguistique proposé, nous surpassons la performance des systèmes à caractéristiques uniques et basés sur la simple concaténation de caractéristiques. Aussi, nous analysons les opérateurs de fusion utilisés afin de mieux comprendre la raison de ces améliorations. En général, l’utilisation indépendante d’opérateurs de fusion n’est pas aussi efficace que l’utilisation d’une combinaison de ceux-ci pour obtenir une représentation spatiale finale. Et deuxièmement, nous abordons encore une fois la tâche WSI/WSD, cette fois-ci avec la méthode à base de graphes proposée afin de démontrer sa pertinence par rapport à la tâche. Nous discutons les différents résultats obtenus avec des caractéristiques lexicales ou syntaxiques. / Making sense of textual data is an essential requirement in order to make computers understand our language. To extract actionable information from text, we need to represent it by means of descriptors before using knowledge discovery techniques.The goal of this thesis is to shed light into heterogeneous representations of words and how to leverage them while addressing their implicit sparse nature.First, we propose a hypergraph network model that holds heterogeneous linguistic data in a single unified model. In other words, we introduce a model that represents words by means of different linguistic properties and links them together accordingto said properties. Our proposition differs to other types of linguistic networks in that we aim to provide a general structure that can hold several types of descriptive text features, instead of a single one as in most representations. This representationmay be used to analyze the inherent properties of language from different points of view, or to be the departing point of an applied NLP task pipeline. Secondly, we employ feature fusion techniques to provide a final single enriched representation that exploits the heterogeneous nature of the model and alleviates the sparseness of each representation.These types of techniques are regularly used exclusively to combine multimedia data. In our approach, we consider different text representations as distinct sources of information which can be enriched by themselves. This approach has not been explored before, to the best of our knowledge. Thirdly, we propose an algorithm that exploits the characteristics of the network to identify and group semantically related words by exploiting the real-world properties of the networks. In contrast with similar methods that are also based on the structure of the network, our algorithm reduces the number of required parameters and more importantly, allows for the use of either lexical or syntactic networks to discover said groups of words, instead of the singletype of features usually employed.We focus on two different natural language processing tasks: Word Sense Induction and Disambiguation (WSI/WSD), and Named Entity Recognition (NER). In total, we test our propositions on four different open-access datasets. The results obtained allow us to show the pertinence of our contributions and also give us some insights into the properties of heterogeneous features and their combinations with fusion methods. Specifically, our experiments are twofold: first, we show that using fusion-enriched heterogeneous features, coming from our proposed linguistic network, we outperform the performance of single features’ systems and other basic baselines. We note that using single fusion operators is not efficient compared to using a combination of them in order to obtain a final space representation. We show that the features added by each combined fusion operation are important towards the models predicting the appropriate classes. We test the enriched representations on both WSI/WSD and NER tasks. Secondly, we address the WSI/WSD task with our network-based proposed method. While based on previous work, we improve it by obtaining better overall performance and reducing the number of parameters needed. We also discuss the use of either lexical or syntactic networks to solve the task.Finally, we parse a corpus based on the English Wikipedia and then store it following the proposed network model. The parsed Wikipedia version serves as a linguistic resource to be used by other researchers. Contrary to other similar resources, insteadof just storing its part of speech tag and its dependency relations, we also take into account the constituency-tree information of each word analyzed. The hope is for this resource to be used on future developments without the need to compile suchresource from zero.

Page generated in 0.1424 seconds