• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 11
  • 2
  • Tagged with
  • 14
  • 14
  • 7
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

De nouveaux facteurs pour l'exploitation de la sémantique d'un texte en Recherche d'Information

Mallak, Ihab 11 July 2011 (has links) (PDF)
Les travaux présentés dans ce mémoire se situent dans le contexte de la recherche d'information. Plus précisément, nous proposons de nouveaux facteurs " centralité, fréquence conceptuelle" permettant à notre sens, de mieux caractériser la dimension sémantique du contenu des textes, allant au-delà des méthodes d'indexation classiques basées exclusivement sur les statistiques. Ces facteurs devraient tirer parti de l'identification de différents types de relations telles que -est-une partie-de, liés à, synonymie, domaine, etc.- qui existent entre les mots d'un texte.
2

Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes / Distributional analysis applied to specialised corpora : reduction of data sparsity through context abstraction

Périnet, Amandine 17 March 2015 (has links)
Dans les domaines de spécialité, les applications telles que la recherche d’information ou la traduction automatique, s’appuient sur des ressources terminologiques pour prendre en compte les termes, les relations sémantiques ou les regroupements de termes. Pour faire face au coût de la constitution de ces ressources, des méthodes automatiques ont été proposées. Parmi celles-ci, l’analyse distributionnelle s’appuie sur la redondance d’informations se trouvant dans le contexte des termes pour établir une relation. Alors que cette hypothèse est habituellement mise en oeuvre grâce à des modèles vectoriels, ceux-ci souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte. En corpus de spécialité, ces informations contextuelles redondantes sont d’autant plus dispersées et plus rares que les corpus ont des tailles beaucoup plus petites. De même, les termes complexes sont généralement ignorés étant donné leur faible nombre d’occurrence. Dans cette thèse, nous nous intéressons au problème de la limitation de la dispersion des données sur des corpus de spécialité et nous proposons une méthode permettant de densifier la matrice des contextes en réalisant une abstraction des contextes distributionnels. Des relations sémantiques acquises en corpus sont utilisées pour généraliser et normaliser ces contextes. Nous avons évalué la robustesse de notre méthode sur quatre corpus de tailles, de langues et de domaines différents. L’analyse des résultats montre que, tout en permettant de prendre en compte les termes complexes dans l’analyse distributionnelle, l’abstraction des contextes distributionnels permet d’obtenir des groupements sémantiques de meilleure qualité mais aussi plus cohérents et homogènes. / In specialised domains, the applications such as information retrieval for machine translation rely on terminological resources for taking into account terms or semantic relations between terms or groupings of terms. In order to face up to the cost of building these resources, automatic methods have been proposed. Among those methods, the distributional analysis uses the repeated information in the contexts of the terms to detect a relation between these terms. While this hypothesis is usually implemented with vector space models, those models suffer from a high number of dimensions and data sparsity in the matrix of contexts. In specialised corpora, this contextual information is even sparser and less frequent because of the smaller size of the corpora. Likewise, complex terms are usually ignored because of their very low number of occurrences. In this thesis, we tackle the problem of data sparsity on specialised texts. We propose a method that allows making the context matrix denser, by performing an abstraction of distributional contexts. Semantic relations acquired from corpora are used to generalise and normalise those contexts. We evaluated the method robustness on four corpora of different sizes, different languages and different domains. The analysis of the results shows that, while taking into account complex terms in distributional analysis, the abstraction of distributional contexts leads to defining semantic clusters of better quality, that are also more consistent and more homogeneous.
3

Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

Fabre, Cécile 29 November 2010 (has links) (PDF)
Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières.
4

Recherche de réponses précises à des questions médicales : le système de questions-réponses MEANS

Ben Abacha, Asma 28 June 2012 (has links) (PDF)
La recherche de réponses précises à des questions formulées en langue naturelle renouvelle le champ de la recherche d'information. De nombreux travaux ont eu lieu sur la recherche de réponses à des questions factuelles en domaine ouvert. Moins de travaux ont porté sur la recherche de réponses en domaine de spécialité, en particulier dans le domaine médical ou biomédical. Plusieurs conditions différentes sont rencontrées en domaine de spécialité comme les lexiques et terminologies spécialisés, les types particuliers de questions, entités et relations du domaine ou les caractéristiques des documents ciblés. Dans une première partie, nous étudions les méthodes permettant d'analyser sémantiquement les questions posées par l'utilisateur ainsi que les textes utilisés pour trouver les réponses. Pour ce faire nous utilisons des méthodes hybrides pour deux tâches principales : (i) la reconnaissance des entités médicales et (ii) l'extraction de relations sémantiques. Ces méthodes combinent des règles et patrons construits manuellement, des connaissances du domaine et des techniques d'apprentissage statistique utilisant différents classifieurs. Ces méthodes hybrides, expérimentées sur différents corpus, permettent de pallier les inconvénients des deux types de méthodes d'extraction d'information, à savoir le manque de couverture potentiel des méthodes à base de règles et la dépendance aux données annotées des méthodes statistiques. Dans une seconde partie, nous étudions l'apport des technologies du web sémantique pour la portabilité et l'expressivité des systèmes de questions-réponses. Dans le cadre de notre approche, nous exploitons les technologies du web sémantique pour annoter les informations extraites en premier lieu et pour interroger sémantiquement ces annotations en second lieu. Enfin, nous présentons notre système de questions-réponses, appelé MEANS, qui utilise à la fois des techniques de TAL, des connaissances du domaine et les technologies du web sémantique pour répondre automatiquement aux questions médicales.
5

Structuration automatique de documents audio / Automatic structuring of audio documents

Bouchekif, Abdesselam 03 November 2016 (has links)
La structuration en thèmes est un domaine de recherche très prisé dans le traitement automatique du langage naturel car elle est le point de départ de plusieurs applications comme la recherche d’information, le résumé automatique et la modélisation des thèmes. Dans cette thèse, nous avons proposé un système de structuration automatique des journaux d’informations. Notre système contient deux modules : segmentation thématique et titrage. La segmentation thématique consiste à effectuer un pavage de l’émission en segments thématiquement homogènes. Ces derniers, sont généralement identifiés par des étiquettes anonymes, c’est alors le rôle du module de titrage d’affecter un titre à chaque segment.Ces travaux ont permis plusieurs contributions originales tel que l’exploitation conjointe de la distribution des mots et des locuteurs (cohésion de la parole) ainsi que l’utilisation des relations sémantiques de type diachronique. Après l’étape de segmentation, nous proposons d’apparier chaque segment avec les articles de presse du même jour. Le titre associé au segment est celui de l’article le plus proche thématiquement. Finalement, nous avons proposé deux nouvelles métriques d’évaluation, l’une pour la segmentation thématique et l’autre pour le titrage. Les expériences sont menées sur trois corpus caractérisés par leur richesse et leur diversité. Ils sont constitués de 168 journaux télévisés issus de 10 chaînes françaises transcrits automatiquement. / The topic structuring is an area that has attracted much attention in the Natural Language Processing community. Indeed, topic structuring is considered as the starting point of several applications such as information retrieval, summarization and topic modeling.In this thesis, we proposed a generic topic structuring system i.e. that has the ability to deal with any TV Broadcast News.Our system contains two steps: topic segmentation and title assignment. Topic segmentation consists in splitting the document into thematically homogeneous fragments. The latter are generally identified by anonymous labels and the last step has to assign a title to each segment.Several original contributions are proposed like the use of a joint exploitation of the distribution of speakers and words (speech cohesion) and also the use of diachronic semantic relations. After the topic segmentation step, the generated segments are assigned a title corresponding to an article collected from Google News during the same day. Finally, we proposed the evaluation of two new metrics, the first is dedicated to the topic segmentation and the second to title assignment.The experiments are carried out on three corpora. They consisted of 168 TV Broadcast News from 10 French channels automatically transcribed. Our corpus is characterized by his richness and diversity.
6

Extraction de motifs dans la rédaction collaborative sur les Wikis

Uwatowenimana, Jeanne d'Arc January 2008 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
7

Recherche de réponses précises à des questions médicales : le système de questions-réponses MEANS / Finding precise answers to medical questions : the question-answering system MEANS

Ben Abacha, Asma 28 June 2012 (has links)
La recherche de réponses précises à des questions formulées en langue naturelle renouvelle le champ de la recherche d’information. De nombreux travaux ont eu lieu sur la recherche de réponses à des questions factuelles en domaine ouvert. Moins de travaux ont porté sur la recherche de réponses en domaine de spécialité, en particulier dans le domaine médical ou biomédical. Plusieurs conditions différentes sont rencontrées en domaine de spécialité comme les lexiques et terminologies spécialisés, les types particuliers de questions, entités et relations du domaine ou les caractéristiques des documents ciblés. Dans une première partie, nous étudions les méthodes permettant d’analyser sémantiquement les questions posées par l’utilisateur ainsi que les textes utilisés pour trouver les réponses. Pour ce faire nous utilisons des méthodes hybrides pour deux tâches principales : (i) la reconnaissance des entités médicales et (ii) l’extraction de relations sémantiques. Ces méthodes combinent des règles et patrons construits manuellement, des connaissances du domaine et des techniques d’apprentissage statistique utilisant différents classifieurs. Ces méthodes hybrides, expérimentées sur différents corpus, permettent de pallier les inconvénients des deux types de méthodes d’extraction d’information, à savoir le manque de couverture potentiel des méthodes à base de règles et la dépendance aux données annotées des méthodes statistiques. Dans une seconde partie, nous étudions l’apport des technologies du web sémantique pour la portabilité et l’expressivité des systèmes de questions-réponses. Dans le cadre de notre approche, nous exploitons les technologies du web sémantique pour annoter les informations extraites en premier lieu et pour interroger sémantiquement ces annotations en second lieu. Enfin, nous présentons notre système de questions-réponses, appelé MEANS, qui utilise à la fois des techniques de TAL, des connaissances du domaine et les technologies du web sémantique pour répondre automatiquement aux questions médicales. / With the dramatic growth of digital information, finding precise answers to natural language questions is more and more essential for retrieving domain knowledge in real time. Many research works tackled answer retrieval for factual questions in open domain. Less works were performed for domain-specific question answering such as the medical domain. Compared to the open domain, several different conditions are met in the medical domain such as specialized vocabularies, specific types of questions, different kinds of domain entities and relations. Document characteristics are also a matter of importance, as, for example, clinical texts may tend to use a lot of technical abbreviations while forum pages may use long “approximate” terms. We focus on finding precise answers to natural language questions in the medical field. A key process for this task is to analyze the questions and the source documents semantically and to use standard formalisms to represent the obtained annotations. We propose a medical question-answering approach based on: (i) NLP methods combing domain knowledge, rule-based methods and statistical ones to extract relevant information from questions and documents and (ii) Semantic Web technologies to represent and interrogate the extracted information.
8

Extraction de motifs dans la rédaction collaborative sur les Wikis

Uwatowenimana, Jeanne d'Arc January 2008 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
9

Thematic and functional similarity relations in manipulable artifact knowledge organizations : the role of action / Relations thématiques et de similarité fonctionnelles dans l'organisation des connaissances sur les objets fabriqués manipulables : le rôle de l'action

Pluciennicka, Ewa 06 July 2015 (has links)
L’objectif de ce travail de thèse était d’approfondir les connaissances actuelles sur l’organisation des concepts d’objets fabriqués manipulables. Plus particulièrement, nous nous sommes intéressés au traitement implicite des relations thématiques (e.g., scie-bois) et des relations de similarité fonctionnelle spécifique (e.g., scie-hâche) et générale (e.g., scie-couteau) lors de l’identification des objets fabriqués manipulables. Les stimuli ont été sélectionnés par une tâche de génération de propriétés et le traitement implicite des relations sémantiques a été évalué grâce à l’enregistrement des mouvements oculaires dans le Paradigme du Monde Visuel. Tout d’abord, nous avons évalué le développement du traitement implicite des relations thématiques et de similarité fonctionnelle chez les enfants de 6-, 8- 10- ans et chez l’adulte. Les résultats ont montré que le traitement implicite des relations de similarité fonctionnelle générale évolue progressivement avec l’âge, alors que les relations thématiques sont déjà implicitement traitées dès 6-ans. Ensuite, nous avons testé le rôle de l’action dans le traitement de ces relations. Chez l’adulte, les résultats ont montré que l’action amorce le traitement des relations thématiques différemment en fonction du niveau de représentation de l’action impliqué. Le traitement thématique est facilité par l’action représentée au niveau du geste mais gêné par l’action représentée au niveau de l’intention. Chez l’enfant, les données ont montré que le traitement de relations de similarité fonctionnelle générale est facilité par l’action représentée au niveau de l’intention. Les données préliminaires chez le patient cérébro-lésé renforcent l’idée d’une structure conceptuelle multidéterminée et graduelle. Dans l’ensemble, ce travail démontre que les connaissances sur les objets fabriqués manipulables sont organisées selon des relations sémantiques distinctes qui présentent des trajectoires développementales différentes et correspondent à diffèrent niveaux de représentation d’action. / The general aim of this work was to provide a better understanding of the cognitive mechanisms underlying manipulable artifact object conceptual organization. Specifically, we investigated implicit processing of thematic (e.g., saw-wood) and functional similarity relations at the specific (e.g., saw-axe) and general (e.g., saw-knife) levels during manipulable artifact object identification. Stimuli were selected from property generation and implicit semantic processing was investigated using eye-tracking in the Visual World Paradigm. First, we assessed the development of thematic and functional similarity processing in 6-, 8-, 10- year-old children and adults. Results demonstrated progressive emergence of general function similarity processing with age, while thematic and specific function similarity processing was already present from 6. Findings support a graded involvement of distinct mechanisms in object semantic processing and development. In the second series of experiments, we investigated the role of action in thematic and functional similarity processing by combining action priming with the Visual World Paradigm in adults and 6-year-olds. In adults, action primed thematic processing differently depending on the level of action representation entailed. Thematic processing was facilitated by gesture-level action representations but disturbed by intention-level action representations. In 6-year-olds, intention-level action representations improved general functional similarity relation implicit processing. Findings highlight the role of different action representation levels in manipulable artifact object semantic processing. Finally, preliminary data collected in 8 stroke patients provided additional evidence in favor of a multidetermined and graded manipulable artifact semantic structure. Together, findings demonstrate that knowledge about manipulable artifacts is organized along distinct types of semantic relations that show different developmental trajectories and relate to different levels of action representations.
10

Contribution à l’analyse sémantique des textes arabes

Lebboss, Georges 08 July 2016 (has links)
La langue arabe est pauvre en ressources sémantiques électroniques. Il y a bien la ressource Arabic WordNet, mais il est pauvre en mots et en relations. Cette thèse porte sur l’enrichissement d’Arabic WordNet par des synsets (un synset est un ensemble de mots synonymes) à partir d’un corpus général de grande taille. Ce type de corpus n’existe pas en arabe, il a donc fallu le construire, avant de lui faire subir un certain nombre de prétraitements.Nous avons élaboré, Gilles Bernard et moi-même, une méthode de vectorisation des mots, GraPaVec, qui puisse servir ici. J’ai donc construit un système incluant un module Add2Corpus, des prétraitements, une vectorisation des mots à l’aide de patterns fréquentiels générés automatiquement, qui aboutit à une matrice de données avec en ligne les mots et en colonne les patterns, chaque composante représente la fréquence du mot dans le pattern.Les vecteurs de mots sont soumis au modèle neuronal Self Organizing Map SOM ; la classification produite par SOM construit des synsets. Pour validation, il a fallu créer un corpus de référence (il n’en existe pas en arabe pour ce domaine) à partir d’Arabic WordNet, puis comparer la méthode GraPaVec avec Word2Vec et Glove. Le résultat montre que GraPaVec donne pour ce problème les meilleurs résultats avec une F-mesure supérieure de 25 % aux deux autres. Les classes produites seront utilisées pour créer de nouveaux synsets intégrés à Arabic WordNet / The Arabic language is poor in electronic semantic resources. Among those resources there is Arabic WordNet which is also poor in words and relationships.This thesis focuses on enriching Arabic WordNet by synsets (a synset is a set of synonymous words) taken from a large general corpus. This type of corpus does not exist in Arabic, so we had to build it, before subjecting it to a number of pretreatments.We developed, Gilles Bernard and myself, a method of word vectorization called GraPaVec which can be used here. I built a system which includes a module Add2Corpus, pretreatments, word vectorization using automatically generated frequency patterns, which yields a data matrix whose rows are the words and columns the patterns, each component representing the frequency of a word in a pattern.The word vectors are fed to the neural model Self Organizing Map (SOM) ;the classification produced constructs synsets. In order to validate the method, we had to create a gold standard corpus (there are none in Arabic for this area) from Arabic WordNet, and then compare the GraPaVec method with Word2Vec and Glove ones. The result shows that GraPaVec gives for this problem the best results with a F-measure 25 % higher than the others. The generated classes will be used to create new synsets to be included in Arabic WordNet.

Page generated in 0.1386 seconds