• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 19
  • 7
  • 1
  • Tagged with
  • 26
  • 26
  • 11
  • 10
  • 8
  • 7
  • 7
  • 6
  • 6
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Annotation et recherche contextuelle des documents multimédias socio-personnels

Lajmi, Sonia 11 March 2011 (has links) (PDF)
L'objectif de cette thèse est d'instrumentaliser des moyens, centrés utilisateur, de représentation, d'acquisition, d'enrichissement et d'exploitation des métadonnées décrivant des documents multimédias socio-personnels. Afin d'atteindre cet objectif, nous avons proposé un modèle d'annotation, appelé SeMAT avec une nouvelle vision du contexte de prise de vue. Nous avons proposé d'utiliser des ressources sémantiques externes telles que GeoNames , et Wikipédia pour enrichir automatiquement les annotations partant des éléments de contexte capturés. Afin d'accentuer l'aspect sémantique des annotations, nous avons modélisé la notion de profil social avec des outils du web sémantique en focalisant plus particulièrement sur la notion de liens sociaux et un mécanisme de raisonnement permettant d'inférer de nouveaux liens sociaux non explicités. Le modèle proposé, appelé SocialSphere, construit un moyen de personnalisation des annotations suivant la personne qui consulte les documents (le consultateur). Des exemples d'annotations personnalisées peuvent être des objets utilisateurs (e.g. maison, travail) ou des dimensions sociales (e.g. ma mère, le cousin de mon mari). Dans ce cadre, nous avons proposé un algorithme, appelé SQO, permettant de suggérer au consultateur des dimensions sociales selon son profil pour décrire les acteurs d'un document multimédia. Dans la perspective de suggérer à l'utilisateur des évènements décrivant les documents multimédias, nous avons réutilisé son expérience et l'expérience de son réseau de connaissances en produisant des règles d'association. Dans une dernière partie, nous avons abordé le problème de correspondance (ou appariement) entre requête et graphe social. Nous avons proposé de ramener le problème de recherche de correspondance à un problème d'isomorphisme de sous-graphe partiel. Nous avons proposé un algorithme, appelé h-Pruning, permettant de faire une correspondance rapprochée entre les nœuds des deux graphes : motif (représentant la requête) et social. Pour la mise en œuvre, nous avons réalisé un prototype à deux composantes : web et mobile. La composante mobile a pour objectif de capturer les éléments de contexte lors de la création des documents multimédias socio-personnels. Quant à la composante web, elle est dédiée à l'assistance de l'utilisateur lors de son annotation ou consultation des documents multimédias socio-personnels. L'évaluation a été effectuée en se servant d'une collection de test construite à partir du service de médias sociaux Flickr. Les tests ont prouvé : (i) l'efficacité de notre approche de recherche dans le graphe social en termes de temps d'exécution ; (ii) l'efficacité de notre approche de suggestion des événements (en effet, nous avons prouvé notre hypothèse en démontrant l'existence d'une cooccurrence entre le contexte spatio-temporel et les événements) ; (iii) l'efficacité de notre approche de suggestion des dimensions sociales en termes de temps d'exécution.
12

Systèmes d'Information Scientifique : des modèles conceptuels aux annotations sémantiques Application au domaine de l'archéologie et des sciences du vivant

Savonnet, Marinette 12 September 2013 (has links) (PDF)
Les Systèmes d'Information Scientifique (SIS) sont des Systèmes d'Information (SI) dont le but est de produire de la connaissance et non pas de gérer ou contrôler une activité de production de biens ou de services comme les SI d'entreprise. Les SIS se caractérisent par des domaines de recherche fortement collaboratifs impliquant des équipes pluridisciplinaires et le plus souvent géographiquement éloignées, ils manipulent des données aux structures très variables dans le temps qui vont au-delà de la simple hétérogénéité : nuages de points issus de scanner 3D, modèles numériques de terrain, cartographie, publications, données issues de spectromètre de masse ou de technique de thermoluminescence, données attributaires en très grand volume, etc. Ainsi, contrairement aux bases de données d'entreprise qui sont modélisées avec des structures établies par l'activité qu'elles supportent, les données scientifiques ne peuvent pas se contenter de schémas de données pré-definis puisque la structure des données évolue rapidement de concert avec l'évolution de la connaissance. La gestion de données scientifiques nécessite une architecture de SIS ayant un niveau d'extensibilité plus élevé que dans un SI d'entreprise. Afin de supporter l'extensibilité tout en contrôlant la qualité des données mais aussi l'interopérabilité, nous proposons une architecture de SIS reposant sur : - des données référentielles fortement structurées, identifiables lors de la phase d'analyse et amenées à évoluer rarement ; - des données complémentaires multi-modèles (matricielles, cartographiques, nuages de points 3D, documentaires, etc.). Pour établir les liens entre les données complémentaires et les données référentielles, nous avons utilisé un unique paradigme, l'annotation sémantique. Nous avons proposé un modèle formel d'annotation à base ontologique pour construire des annotations sémantiques dont la cohérence et la consistance peuvent être contrôlées par une ontologie et des règles. Dans ce cadre, les annotations offrent ainsi une contextualisation des données qui permet de vérifier leur cohérence, par rapport à la connaissance du domaine. Nous avons dressé les grandes lignes d'une sémantique du processus d'annotation par analogie avec la sémantique des langages de programmation. Nous avons validé notre proposition, à travers deux collaborations pluridisciplinaires : - le projet ANR CARE (Corpus Architecturae Religiosae Europeae - IV-X saec. ANR-07- CORP-011) dans le domaine de l'archéologie. Son objectif était de développer un corpus numérique de documents multimédia sur l'évolution des monuments religieux du IVe au XIe siècle (http://care.tge-adonis.fr). Un assistant d'annotation a été développé pour assurer la qualité des annotations par rapport à la connaissance représentée dans l'ontologie. Ce projet a donné lieu au développement d'une extension sémantique pour MediaWiki ; - le projet eClims dans le domaine de la protéomique clinique. eClims est un composant clinique d'un LIMS (Laboratory Information Management System) développé pour la plate-forme de protéomique CLIPP. eClims met en oeuvre un outil d'intégration basé sur le couplage entre des modèles représentant les sources et le système protéomique, et des ontologies utilisées comme médiatrices entre ces derniers. Les différents contrôles que nous mettons en place garantissent la validité des domaines de valeurs, la complétude, la consistance des données et leur cohérence. Le stockage des annotations est assuré par une Base de Données orientées colonnes associée à une Base de Données relationnelles.
13

Proposition d’une ontologie de domaine dédiée à l’annotation d’images spatialisées pour le suivi de la conservation du patrimoine culturel bâti / Proposition to a domain ontology dedicated to spatialized images annotations for the building cultural heritage conseravtion monitoring

Messaoudi, Tommy 12 July 2017 (has links)
Les pratiques de conservation et restauration de monuments historiques requièrent l’élaboration de diagnostics impliquant différents intervenants au sein de contextes d’études pluridisciplinaires. L’état de conservation d’un objet patrimonial est ainsi étudié et décrit au moyen d’observations directes, de sources documentaires et de données analytiques de natures différentes. Les avancées des technologies numériques en matière de collecte, traitement et gestion de données, offrent aujourd’hui une opportunité sans précédent pour intégrer les résultats de ces observations et ces données au sein de systèmes innovants de représentation pour la documentation et la connaissance du patrimoine. Cependant, si une panoplie de nouveaux outils est aujourd’hui à disposition de la communauté des scientifiques et des professionnels du patrimoine, le problème d’une corrélation pertinente de ces données et de ces informations hétérogènes reste peu exploré. Tout d’abord, si ces nouveaux outils permettent aux différents experts de mémoriser et d’analyser leurs observations sur différents supports, les données générées par ces différents experts ne sont généralement pas spatialisées autour d’un même référentiel spatial. En effet, même si toutes ces données se réfèrent à un objet physique commun, les liens entre elles ne peuvent que s’établir par des stratégies d’organisation de fichiers ou par des méthodes d’indexation basées sur des mots clés. Parallèlement, si dans les dernières années plusieurs techniques de numérisation 3D ont été expérimentées dans le but de générer des représentations géométriques denses et précises, les méthodes de traitement et de structuration de ces données 3D ne fournissent pas encore de cadres opérationnels pour l’extraction d'informations pertinentes pour l’analyse et l’interprétation de l’état de conservation. En se positionnant à l'intersection entre les domaines de l’acquisition spatialisée 3D et des systèmes d’informations, ce travail de recherche propose une ontologie de domaine dédiée à l’annotation sémantique de représentations 3D d’objets patrimoniaux visant à la constitution d’un environnement numérique pour la description de l’état de conservation des monuments historiques. Par l’interconnexion de descripteurs qualitatifs (reliés à une formalisation des connaissances du domaine) et qualitatifs, cette ontologie constitue l'échafaudage conceptuel structurant un système d’informations multidimensionnelles dédié à la corrélation spatiale, géométrique et sémantique de jeux d’annotations élaborés par des acteurs multiples et en fonction de niveaux de lecture multiples. / The conservation and restauration of historical monuments require a diagnostic analysis carried out by a multidisciplinary team. The elaboration of the diagnosis of a cultural Heritage Object requires direct observations, the examination of documentary sources as well as of diverse types of analytic data. The great advancements in digital processing, management and data collection opened unprecedented opportunities for integrating results, coming from both observations and derivative data, within innovating representation systems for heritage knowledge and documentation. However, if a range of new tools and data is today available to the scientific community and heritage experts, their correlation and integration with internal/external heterogeneous information is an issue that still remain unexplored. While these innovative tools allow different experts to record and analyze their observations with diverse formats, the results are generally not spatialized and referenced together. Indeed, even though all these data refer to a common physical object, the links between them is based only on file organization strategies or by keyword-based indexation methods. In parallel, in recent years, several 3D digitization technics has been used for generating dense and accurate geometrical representations, but the processing and structuration method of these 3D data don’t include yet an operational framework for retrieving relevant information regarding their conservation state and an interpretative analysis. Positioned in the intersection between 3D spatialized acquisition domain and information management, this research work aims to the creation of a digital framework for recording conservation state description of historical monument throughout the introduction of a functional domain ontology for the semantic annotations of heritage objects 3D representations. The proposed ontology comprises both qualitative (related to a domain knowledge formalization) and quantitative descriptors, constituting the necessary conceptual scaffold for structuring a multidimensional information system dedicated to the correlation of spatial, geometrical and semantic multi-actor annotations in relation to multiple observation levels.
14

Stratégie domaine par domaine pour la création d'un FrameNet du français : annotations en corpus de cadres et rôles sémantiques / Domain by domain strategy for creating a French FrameNet : corpus annotationsof semantics frames and roles

Djemaa, Marianne 14 June 2017 (has links)
Dans cette thèse, nous décrivons la création du French FrameNet (FFN), une ressource de type FrameNet pour le français créée à partir du FrameNet de l’anglais (Baker et al., 1998) et de deux corpus arborés : le French Treebank (Abeillé et al., 2003) et le Sequoia Treebank (Candito et Seddah, 2012). La ressource séminale, le FrameNet de l’anglais, constitue un modèle d’annotation sémantique de situations prototypiques et de leurs participants. Elle propose à la fois :a) un ensemble structuré de situations prototypiques, appelées cadres, associées à des caractérisations sémantiques des participants impliqués (les rôles);b) un lexique de déclencheurs, les lexèmes évoquant ces cadres;c) un ensemble d’annotations en cadres pour l’anglais. Pour créer le FFN, nous avons suivi une approche «par domaine notionnel» : nous avons défini quatre «domaines» centrés chacun autour d’une notion (cause, communication langagière, position cognitive ou transaction commerciale), que nous avons travaillé à couvrir exhaustivement à la fois pour la définition des cadres sémantiques, la définition du lexique, et l’annotation en corpus. Cette stratégie permet de garantir une plus grande cohérence dans la structuration en cadres sémantiques, tout en abordant la polysémie au sein d’un domaine et entre les domaines. De plus, nous avons annoté les cadres de nos domaines sur du texte continu, sans sélection d’occurrences : nous préservons ainsi la distribution des caractéristiques lexicales et syntaxiques de l’évocation des cadres dans notre corpus. à l’heure actuelle, le FFN comporte 105 cadres et 873 déclencheurs distincts, qui donnent lieu à 1109 paires déclencheur-cadre distinctes, c’est-à-dire 1109 sens. Le corpus annoté compte au total 16167 annotations de cadres de nos domaines et de leurs rôles. La thèse commence par resituer le modèle FrameNet dans un contexte théorique plus large. Nous justifions ensuite le choix de nous appuyer sur cette ressource et motivons notre méthodologie en domaines notionnels. Nous explicitons pour le FFN certaines notions définies pour le FrameNet de l’anglais que nous avons jugées trop floues pour être appliquées de manière cohérente. Nous introduisons en particulier des critères plus directement syntaxiques pour la définition du périmètre lexical d’un cadre, ainsi que pour la distinction entre rôles noyaux et non-noyaux.Nous décrivons ensuite la création du FFN : d’abord, la délimitation de la structure de cadres utilisée pour le FFN, et la création de leur lexique. Nous présentons alors de manière approfondie le domaine notionnel des positions cognitives, qui englobe les cadres portant sur le degré de certitude d’un être doué de conscience sur une proposition. Puis, nous présentons notre méthodologie d’annotation du corpus en cadres et en rôles. à cette occasion, nous passons en revue certains phénomènes linguistiques qu’il nous a fallu traiter pour obtenir une annotation cohérente ; c’est par exemple le cas des constructions à attribut de l’objet.Enfin, nous présentons des données quantitatives sur le FFN tel qu’il est à ce jour et sur son évaluation. Nous terminons sur des perspectives de travaux d’amélioration et d’exploitation de la ressource créée. / This thesis describes the creation of the French FrameNet (FFN), a French language FrameNet type resource made using both the Berkeley FrameNet (Baker et al., 1998) and two morphosyntactic treebanks: the French Treebank (Abeillé et al., 2003) and the Sequoia Treebank (Candito et Seddah, 2012). The Berkeley FrameNet allows for semantic annotation of prototypical situations and their participants. It consists of:a) a structured set of prototypical situations, called frames. These frames incorporate semantic characterizations of the situations’ participants (Frame Elements, or FEs);b) a lexicon of lexical units (LUs) which can evoke those frames;c) a set of English language frame annotations. In order to create the FFN, we designed a “domain by domain” methodology: we defined four “domains”, each centered on a specific notion (cause, verbal communication, cognitive stance, or commercial transaction). We then sought to obtain full frame and lexical coverage for these domains, and annotated the first 100 corpus occurrences of each LU in our domains. This strategy guarantees a greater consistency in terms of frame structuring than other approaches and is conducive to work on both intra-domain and inter-domains frame polysemy. Our annotating frames on continuous text without selecting particular LU occurrences preserves the natural distribution of lexical and syntactic characteristics of frame-evoking elements in our corpus. At the present time, the FFNincludes 105 distinct frames and 873 distinct LUs, which combine into 1,109 LU-frame pairs (i.e. 1,109 senses). 16,167 frame occurrences, as well as their FEs, have been annotated in our corpus. In this thesis, I first situate the FrameNet model in a larger theoretical background. I then justify our using the Berkeley FrameNet as our resource base and explain why we used a domain-by- domain methodology. I next try to clarify some specific BFN notions that we found too vague to be coherently used to make the FFN. Specifically, I introduce more directly syntactic criteria both for defining a frame’s lexical perimeter and for differentiating core FEs from non-core ones.Then, I describe the FFN creation itself first by delimitating a structure of frames that will be used in the resource and by creating a lexicon for these frames. I then introduce in detail the Cognitive Stances notional domain, which includes frames having to do with a cognizer’s degree of certainty about some particular content. Next, I describe our methodology for annotating a corpus with frames and FEs, and analyze our treatment of several specific linguistic phenomena that required additional consideration (such as object complement constructions).Finally, I give quantified information about the current status of the FFN and its evaluation. I conclude with some perspectives on improving and exploiting the FFN.
15

Un système interactif et itératif extraction de connaissances exploitant l'analyse formelle de concepts / An Interactive and Iterative Knowledge Extraction Process Using Formal Concept Analysis

Tang, My Thao 30 June 2016 (has links)
Dans cette thèse, nous présentons notre méthodologie de la connaissance interactive et itérative pour une extraction des textes - le système KESAM: Un outil pour l'extraction des connaissances et le Management de l’Annotation Sémantique. Le KESAM est basé sur l'analyse formelle du concept pour l'extraction des connaissances à partir de ressources textuelles qui prend en charge l'interaction aux experts. Dans le système KESAM, l’extraction des connaissances et l'annotation sémantique sont unifiées en un seul processus pour bénéficier à la fois l'extraction des connaissances et l'annotation sémantique. Les annotations sémantiques sont utilisées pour formaliser la source de la connaissance dans les textes et garder la traçabilité entre le modèle de la connaissance et la source de la connaissance. Le modèle de connaissance est, en revanche, utilisé afin d’améliorer les annotations sémantiques. Le processus KESAM a été conçu pour préserver en permanence le lien entre les ressources (textes et annotations sémantiques) et le modèle de la connaissance. Le noyau du processus est l'Analyse Formelle de Concepts (AFC) qui construit le modèle de la connaissance, i.e. le treillis de concepts, et assure le lien entre le modèle et les annotations des connaissances. Afin d'obtenir le résultat du treillis aussi près que possible aux besoins des experts de ce domaine, nous introduisons un processus itératif qui permet une interaction des experts sur le treillis. Les experts sont invités à évaluer et à affiner le réseau; ils peuvent faire des changements dans le treillis jusqu'à ce qu'ils parviennent à un accord entre le modèle et leurs propres connaissances ou le besoin de l’application. Grâce au lien entre le modèle des connaissances et des annotations sémantiques, le modèle de la connaissance et les annotations sémantiques peuvent co-évoluer afin d'améliorer leur qualité par rapport aux exigences des experts du domaine. En outre, à l'aide de l’AFC de la construction des concepts avec les définitions des ensembles des objets et des ensembles d'attributs, le système KESAM est capable de prendre en compte les deux concepts atomiques et définis, à savoir les concepts qui sont définis par un ensemble des attributs. Afin de combler l'écart possible entre le modèle de représentation basé sur un treillis de concept et le modèle de représentation d'un expert du domaine, nous présentons ensuite une méthode formelle pour l'intégration des connaissances d’expert en treillis des concepts d'une manière telle que nous pouvons maintenir la structure des concepts du treillis. La connaissance d’expert est codée comme un ensemble de dépendance de l'attribut qui est aligné avec l'ensemble des implications fournies par le concept du treillis, ce qui conduit à des modifications dans le treillis d'origine. La méthode permet également aux experts de garder une trace des changements qui se produisent dans le treillis d'origine et la version finale contrainte, et d'accéder à la façon dont les concepts dans la pratique sont liés à des concepts émis automatiquement à partir des données. Nous pouvons construire les treillis contraints sans changer les données et fournir la trace des changements en utilisant des projections extensives sur treillis. À partir d'un treillis d'origine, deux projections différentes produisent deux treillis contraints différents, et, par conséquent, l'écart entre le modèle de représentation basée sur un treillis de réflexion et le modèle de représentation d'un expert du domaine est rempli avec des projections / In this thesis, we present a methodology for interactive and iterative extracting knowledge from texts - the KESAM system: A tool for Knowledge Extraction and Semantic Annotation Management. KESAM is based on Formal Concept Analysis for extracting knowledge from textual resources that supports expert interaction. In the KESAM system, knowledge extraction and semantic annotation are unified into one single process to benefit both knowledge extraction and semantic annotation. Semantic annotations are used for formalizing the source of knowledge in texts and keeping the traceability between the knowledge model and the source of knowledge. The knowledge model is, in return, used for improving semantic annotations. The KESAM process has been designed to permanently preserve the link between the resources (texts and semantic annotations) and the knowledge model. The core of the process is Formal Concept Analysis that builds the knowledge model, i.e. the concept lattice, and ensures the link between the knowledge model and annotations. In order to get the resulting lattice as close as possible to domain experts' requirements, we introduce an iterative process that enables expert interaction on the lattice. Experts are invited to evaluate and refine the lattice; they can make changes in the lattice until they reach an agreement between the model and their own knowledge or application's need. Thanks to the link between the knowledge model and semantic annotations, the knowledge model and semantic annotations can co-evolve in order to improve their quality with respect to domain experts' requirements. Moreover, by using FCA to build concepts with definitions of sets of objects and sets of attributes, the KESAM system is able to take into account both atomic and defined concepts, i.e. concepts that are defined by a set of attributes. In order to bridge the possible gap between the representation model based on a concept lattice and the representation model of a domain expert, we then introduce a formal method for integrating expert knowledge into concept lattices in such a way that we can maintain the lattice structure. The expert knowledge is encoded as a set of attribute dependencies which is aligned with the set of implications provided by the concept lattice, leading to modifications in the original lattice. The method also allows the experts to keep a trace of changes occurring in the original lattice and the final constrained version, and to access how concepts in practice are related to concepts automatically issued from data. The method uses extensional projections to build the constrained lattices without changing the original data and provide the trace of changes. From an original lattice, two different projections produce two different constrained lattices, and thus, the gap between the representation model based on a concept lattice and the representation model of a domain expert is filled with projections.
16

Intégration des approches ontologiques et d'ingénierie dirigée par les modèles pour la résolution de problèmes d'interopérabilité

Liu, Hui 13 October 2011 (has links) (PDF)
Quand des entreprises collaborent entre elles pour atteindre leurs objectifs métiers, des problèmes d'interopérabilité seront rencontrés. Afin de résoudre ces problèmes, nous étudions les domaines suivants : les processus métier collaboratifs, MDA, SOA, ESB et l'ontologie. Nous proposons alors un cadre intégrant ces cinq domaines pour les solutions TI (technologies de l''information) aux problèmes d'interopérabilité. Pour construire ce cadre, nous proposons une Méthode Basée sur des Processus pour l'Interopérabilité d'Entreprise (MBPIE), qui utilise des processus collaboratifs pour représenter des exigences de collaboration. MBPIE transforme des processus collaboratifs en plusieurs processus d'interopérabilité exécutables par des transformations de modèles. En MBPIE, l'ontologie est utilisée pour annoter les processus collaboratifs. Pendant la transformation des processus, de nouvelles informations ontologiques sont ajoutées dans les processus pour les rendre exécutables. Nous avons conçu un bus de services sémantiques Basé sur l'Ontologie et Dirigé par des Buts (BODB) pour supporter l'exécution des processus d'interopérabilité. Ce bus est basé sur un mécanisme symétrique pour l'invocation de services sémantiques. Ce mécanisme utilise l'extension de SOAP (Simple Object Access Protocol) qui est composée de trois parties : le format des messages BODB, le module BODB et le modèle de traitement BODB. Ce mécanisme a trois propriétés de transparence (emplacement, sémantique et technique) qui sont essentielles à l'exécution des processus d'interopérabilité. Ensemble, MBPIE et le bus constituent une approche fédérée pour résoudre les problèmes d'interopérabilité.
17

Gestion de l'évolution d'un Web sémantique d'entreprise

Luong, Phuc Hiep 14 December 2007 (has links) (PDF)
Le Web Sémantique d'Entreprise (WSE) est une approche particulière de la Gestion des Connaissances d'une entreprise pour la prochaine génération du Web Sémantique. Dans la réalité, les organisations vivent dans un environnement hétérogène, dynamique et en cours d'évolution qui mène souvent à des changements externes et internes requérant l'évolution de leur système de gestion des connaissances. Peu de recherches actuelles font face aux changements du système de gestion des connaissances. L'objectif de cette thèse est de contribuer à lever cette limitation. Dans ce manuscrit, nous présentons une nouvelle approche de la gestion de l'évolution du WSE. Nous nous focalisons en particulier sur l'évolution de l'ontologie et de l'annotation sémantique qui sont deux composants importants du WSE. Nous nous intéressons à deux scénarios d'évolution de l'ontologie : (i) avec trace et (ii) sans trace de changements ontologiques effectués. Ces deux scénarios sont fréquents dans les situations réelles et ils peuvent entraîner des inconsistances au niveau des annotations sémantiques reposant sur cette ontologie modifiée. Pour chacun des contextes d'évolution, nous développons des approches équivalentes : une approche procédurale et une approche basée sur des règles en vue de gérer l'évolution des annotations sémantiques et de détecter et de corriger les annotations sémantiques inconsistantes. Ces propositions ont été implémentées et validées dans le système CoSWEM qui facilite la gestion de l'évolution du WSE. Ce système a été expérimenté dans le cadre des projets PALETTE et E-WOK_HUB sur un ensemble de données réelles et évolutives provenant de ces projets.
18

Analyse sémantique automatique des adverbiaux de localisation temporelle : application à la recherche d'information et à l'acquisition de connaissances

Teissèdre, Charles 22 November 2012 (has links) (PDF)
Cette thèse concerne la question de l'accès aux textes numériques, en particulier de l'accès à leur " contenu informationnel ", vu sous l'angle de l'ancrage temporel. Conciliant une approche linguistique et une approche applicative, ils visent à contribuer à l'élaboration de nouveaux outils pour la fouille de textes, la recherche d'information et la gestion des connaissances - nouveaux outils en mesure de tirer parti de la sémantique des informations relatives au repérage temporel exprimées dans les textes. Il s'agit ainsi à la fois de mettre en œuvre des systèmes d'interaction avec les utilisateurs et de parvenir à modéliser la sémantique des unités textuelles qui contribuent de façon saillante à l'ancrage dans le temps des situations décrites dans les textes : les adverbiaux de localisation temporelle. La représentation formelle que l'on en propose, qui procède d'une analyse linguistique, les décrit sous la forme d'une succession d'opérations sémantiques. Cette représentation permet de pouvoir décrire des informations présentant un certain degré d'indétermination sans en fermer l'interprétation (" jusque vers la fin des années 30 "). Elle permet également d'exprimer des informations en intension (" de février à août, tous les jours sauf le dimanche, de 10h à 19h "). Cette représentation est ainsi plus expressive que les modèles généralement utilisés en ingénierie des connaissances - modèles qui, le plus souvent, représentent un repère temporel sous la forme d'une date ou d'un intervalle de dates. Articulant notre proposition de modélisation avec les modèles standards des intervalles de dates, nous montrons qu'il devient possible d'élaborer de nouveaux systèmes de recherche d'information, susceptibles de traiter des requêtes associant un critère calendaire avec un ensemble de mots-clés, telles que " les universités au début du XIIe siècle " ou " le vote des femmes depuis 1900 ", par exemple. S'appuyant sur les outils développés en ce sens, on montre qu'il devient également possible d'interagir avec des données structurées décrivant des informations temporelles, à la fois pour les interroger et pour les enrichir de façon semi-automatique, afin, par exemple, de constituer des bases de connaissances.
19

Contraintes préférentielles et ordre des mots en français

Thuilier, Juliette 28 September 2012 (has links) (PDF)
Cette thèse propose une approche expérimentale de la linguistique à travers l'étude de la notion de contrainte préférentielle et son application à deux phénomènes d'ordre en français : la position de l'adjectif épithète ainsi que l'ordre relatif des deux compléments sous-catégorisés par le verbe et apparaissant en position postverbale. Les contraintes préférentielles sont définies comme des contraintes qui n'affectent pas la grammaticalité mais l'acceptabilité des phrases. Nous émettons l'hypothèse selon laquelle ces contraintes constituent des propriétés spécifiques à la langue dont il faut rendre compte dans le champ de la linguistique. Sur le plan méthodologique, l'étude de ces contraintes est rendue problématique par leur nature : étant donné qu'elles n'agissent pas sur la grammaticalité des phrases, elles échappent aux méthodes traditionnelles de la syntaxe (introspection et jugement de grammaticalité). Il est donc nécessaire de définir des outils permettant leur description et leur analyse. Les méthodes envisagées sont l'analyse statistique de données de corpus, inspirée des travaux de Bresnan et al. (2007) et de Bresnan & Ford (2010), et, dans une moindre mesure, l'expérimentation psycholinguistique. En ce qui concerne la position de l'adjectif, nous testons la plupart des contraintes rencontrées dans la littérature et nous proposons une analyse statistique de données extraites du corpus French Treebank. Nous montrons notamment l'importance de l'item adjectival ainsi que de l'item nominal avec lequel il se combine. Certaines contraintes syntaxiques concernant la configuration du syntagme adjectival et du syntagme nominal jouent également un rôle dans le choix de la position. Le travail concernant l'ordre relatif des compléments du verbe est mené sur un échantillon de phrases extraites de deux corpus journalistiques (French Treebank et Est-Républicain) et de deux corpus d'oral (ESTER et C-ORAL-ROM). Nous montrons l'importante influence du poids des constituants dans le choix de l'ordre : l'ordre court avant long, caractéristique d'une langue SVO comme le français, est respecté dans plus de 86% des cas. Nous mettons également à jour le rôle fondamental du lemme verbal associé à sa classe sémantique, annotée à partir du dictionnaire de Dubois & Dubois-Charlier (1997). Enfin, en nous appuyant sur l'analyse des données de corpus ainsi que sur deux questionnaires d'élicitation de jugement d'acceptabilité, il semble que ni caractère animé, ni l'opposition 'donné/nouveau' (Prince, 1981) n'ait une influence sur l'ordre des compléments, ce qui semble aller à l'encontre d'observations faites dans d'autres langues comme l'anglais ou l'allemand.
20

Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d'une plateforme logicielle

Amardeilh, Florence 10 May 2007 (has links) (PDF)
Cette thèse aborde les problématiques liées à l'annotation sémantique et au peuplement d'ontologies dans le cadre défini par le Web Sémantique. La représentation explicite des contenus des ressources du Web est possible grâce aux ontologies. Elles modélisent les concepts, leurs attributs et les relations utilisées pour annoter le contenu des documents. Et la base de connaissance, associée à cette ontologie, doit contenir les instances à utiliser pour l'annotation sémantique. L'idée proposée ici est de combiner les outils d'extraction d'information (EI) avec les outils de représentation des connaissances du WS pour les tâches d'annotation et de peuplement. Mais il existe actuellement un fossé entre les formats de représentation utilisés par chacun de ces outils. Cette thèse propose de combler ce fossé en concevant un médiateur capable de transformer les étiquettes générées par les outils d'EI en une représentation plus formelle, que ce soit sous la forme des annotations sémantiques ou des instances d'une ontologie.

Page generated in 0.5013 seconds