1 |
Analyses formelle et relationnelle de concepts pour la construction d'ontologies de domaines à partir de ressources textuelles hétérogènesBendaoud, Rokia 15 July 2009 (has links) (PDF)
Les ontologies sont diversement employées notamment dans les domaines du Web sémantique, de l'ingénierie des connaissances,... En effet, elles permettent de partager, de diffuser et d'actualiser les connaissances d'un domaine. Afin de construire ces ontologies, notre méthodologie utilise tout d'abord des méthodes de Traitement Automatique de la Langue Naturelle (TALN) et d'Extraction d'Information (EI) pour extraire des données préparées à partir de chaque ressource du domaine (corpus de textes, bases de données, thesaurus). Puis, ces données sont fouillées avec les méthodes de fouilles : l'Analyse Formelle de concepts (AFC) et l'Analyse Relationnelle de Concepts (ARC). L'AFC regroupe des objets partageant les mêmes attributs dans des concepts d'un treillis. L'ARC, une extension de l'AFC, permet de regrouper des objets partageant les mêmes attributs, mais aussi les mêmes attributs relationnels. L'apposition de contextes (une propriété de l'AFC) permet d'associer ces attributs et relations à un ensemble de classes prédéfinies et hiérarchisées par les experts du domaine. De cette façon, des définitions étendues sont proposées aux experts du domaine pour ces classes prédéfinies ainsi que de nouvelles classes inexistantes dans la hiérarchie initiale. Ces nouvelles classes peuvent être considérées pertinentes et ajoutées par les experts en tant que nouvelles "unités de connaissances". Les treillis résultant des méthodes de fouille constituent ce que nous appelons schéma d'ontologie. Ce schéma d'ontologie est ensuite représenté par le langage FLE de la famille des logiques de descriptions afin d'avoir une ontologie. Cette ontologie, implémentée en OWL, a permis à notre système de répondre automatiquement à différentes questions proposées par les experts du domaine.<br>Des expériences pratiques ont été menées dans deux domaines d'application : l'astronomie et la microbiologie.
|
2 |
Formalisation des connaissances documentaires et des connaissances conceptuelles à l'aide d'ontologies : application à la description de documents audiovisuelsTroncy, Raphaël 05 March 2004 (has links) (PDF)
La nature temporelle de l'audiovisuel impose de passer par le biais de la description pour enrichir les documents et donc les exploiter. Nous soutenons qu'une représentation de la structure et du contenu des documents est nécessaire. Par structure, nous entendons la structure documentaire c'est-à-dire l'organisation méréologique des éléments qui composent le document, tandis que le contenu est une structure conceptuelle, c'est-à-dire une catégorisation de ces éléments. Après une revue des propositions actuelles de modélisation des documents audiovisuels, issues de l'ingénierie documentaire et de l'ingénierie des connaissances, nous montrons qu'aucun des langages étudiés ne permet de traiter ces deux aspects de manière satisfaisante. Nous proposons alors une architecture générale permettant la représentation formelle de la structure et du contenu des documents audiovisuels, qui engendrera une base de connaissances sur laquelle il est possible d'effectuer des raisonnements. Cette architecture se compose d'une ontologie de l'audiovisuel, dont on traduit une partie dans un langage documentaire pour contrôler la structure logique des documents, et d'une ontologie de domaine pour décrire formellement leur contenu. Nous avons développé l'outil DOE (Differential Ontology Editor), qui implémente la méthodologie de construction d'ontologies utilisée. Nous montrons finalement la pertinence de l'approche à l'aide de deux expérimentations utilisant un corpus de vidéos annoté, illustrant ainsi les types d'inférences possibles.
|
3 |
Intégration de Schémas Large EchelleSaleem, Khalid 27 November 2008 (has links) (PDF)
La mise en correspondance sémantique appliquée à des schémas hétérogènes dans les systèmes de partage de données est une tache fastidieuse et source d'erreurs. La thèse présente une nouvelle méthode automatique et robuste qui intègre un grand nombre de schémas sous forme arborescente et de domaine spécifique. Elle permet de découvrir des correspondances sémantiques entre eux. La méthode crée également les mappings entre des schémas sources et le schéma intégré. Puis, le manuscrit présente une technique pour découvrir d'une manière automatique des correspondances complexes entre deux schémas. <br /><br />Les outils de mise en correspondance existants utilisent des techniques semi-automatiques uniquement entre deux schémas. Dans un scénario à grande échelle, où le partage des données implique un grand nombre de sources de données, ces techniques ne sont pas adaptées. De plus, la mise en correspondance semi-automatique nécessite l'intervention de l'utilisateur pour finaliser les mappings. Bien qu'elle offre la possibilité de découvrir les mappings les plus appropriés, les performances s'en trouvent fortement dégradées. Dans un premier temps, le manuscrit présente en détails l'état de l'art sur la mise en correspondance. Nous expliquons les inconvénients des outils actuellement disponibles pour répondre aux contraintes d'un scénario à grande échelle. Notre approche, PORSCHE (Performance ORiented SCHEma mediation) évite ces inconvénients et ses avantages sont mis en évidence de manière empirique.<br /><br />Le principe de l'algorithme de PORSCHE consiste à regrouper d'abord les nœuds de l'arbre selon la similarité linguistique de leurs labels. Ensuite, des techniques de fouilles d'arbres utilisant les rangs des nœuds calculés au moyen du parcours en profondeur de l'arbre sont appliquées. Cela réduit l'espace de recherche d'un nœud cible et améliore par conséquent les performances, ce qui en fait une technique adaptée au contexte large échelle. PORSCHE implémente une approche hybride, qui crée également en parallèle et de manière incrémentale un schéma intégré qui englobe tous les schémas, tout en définissant les correspondances entre ces derniers et le schéma intégré. L'approche découvre des correspondances 1:1 dans un but d'intégration et de médiation. Finalement, des expérimentations sur des jeux de données réels et synthétiques montrent que PORSCHE passe à l'échelle avec de scénarios de grande échelle. La qualité des correspondances découvertes et l'intégrité du schéma intégré sont également vérifiées par une évaluation empirique.<br /><br />Par ailleurs, nous présentons une technique CMPV ({\bf C}omplex {\bf M}atch {\bf P}roposition et {\bf V}alidation), pour la découverte de correspondances complexes (1:n, n:1 et n:m), entre deux schémas, validée par l'utilisation de mini-taxonomies. Cette partie est une version étendue de l'aspect de mise en correspondance de PORSCHE. Les mini-taxonomies sont extraites d'un vaste ensemble de métadonnées de domaine spécifique représenté comme des structures arborescentes. Nous proposons un cadre, appelé ExSTax ({\bf Ex}tracting {\bf S}tructurally Coherent Mini-{\bf Tax}onomies) basé sur la fouille d'arbres pour appuyer notre idée. C'est l'extension de la méthode fouille d'arbres de PORSCHE. Enfin, on utilise la technique ExSTax pour extraire une taxonomie fiable spécifique à un domaine.
|
4 |
Point de vue ontologique de fonds documentaires territorialisés indexésKergosien, Eric 23 June 2011 (has links) (PDF)
Dans les bibliothèques et les médiathèques, une caractéristique importante des fonds documentaires mis à disposition est qu'ils contiennent d'abondantes références a l'histoire, à la géographie, au patrimoine, en somme au territoire, et il est primordial pour ces centres de valoriser ces spécificités territoriales pour répondre à des objectifs d'information et d'éducation. Dans ce contexte, nous faisons l'hypothèse qu'en utilisant un point de vue géographique pour mod eliser un ensemble de ressources terminologiques utilisées pour indexer un fond documentaire, il est possible de faire émerger une représentation du territoire qui y est implicitement décrite. Concernant la modélisation de la connaissance en géomatique, de nombreux travaux s'appliquent à construire une représentation sémantique structurée géographique de domaines cibles. Cependant, il ne semble pas exister d'approche permettant de construire une représentation d'un territoire à partir de fonds documentaires annotés. Nous proposons donc une méthodologie complète et automatisée permettant de construire une couche conceptuelle de type ontologie d'un territoire, sur la base d'un fonds documentaire indexé par des experts. Nous positionnons nos travaux dans l'extraction et la structuration de la connaissance que nous appliquons dans le domaine de la géomatique en nous appuyant notamment sur des techniques provenant du Traitement Automatique du Langage Naturel. Nous entendons ici par territoire un ensemble de lieux que l'on peut mettre en relation selon un ensemble de thèmes en fonction d'une période donnée. Ainsi, nous présentons un complément original s'appuyant sur le travail d'indexation réalisé par les experts documentalistes sur un fonds documentaire pour faire émerger une ontologie d'un territoire implicitement décrit dans les documents. Une contribution importante de notre travail concerne l'enrichissement de fa con incrémentale de la représentation d'un territoire. Nous proposons pour cela une chaine de TALN qui permet de marquer dans des documents textes annotés un ensemble d'informations spatiales, temporelles et thématiques qui nous sert de base pour l'enrichissement de la représentation d'un territoire. Une perspective à ces travaux est de pouvoir valider notre approche sur plusieurs fonds documentaires d'origines diverses. L'intérêt sera de proposer une méthode qui, sur la base des représentations de territoires obtenues, permettrait d'identifier et de représenter les spécificités de chaque fonds documentaire.
|
Page generated in 0.1302 seconds