Return to search

Enrichissement de réseaux sémantiques par la proximité de concepts

Ces dernières années ont vu le déferlement d'une vague d'information sous forme électronique liée à l'usage croissant du World Wide Web (WWW). Pour beaucoup, le World Wide Web est devenu un moyen essentiel pour mettre à disposition ou rechercher de l'information, conduisant à une forte accumulation de données. La recherche sur Internet dans sa forme présente devient vite exaspérante car les données disponibles peuvent être superficielles et de formes très diverses. Les utilisateurs du Web en ont assez d'obtenir des ensembles gigantesques de réponses à leurs requêtes simples, ce qui les oblige à investir de plus en plus de temps pour analyser les résultats. De nombreux résultats s'avèrent non pertinents et les liens les plus intéressants restent souvent en dehors de l'ensemble des résultats. Le chapitre1 introduit la motivation de notre travail de recherche. L'une des principales explications concernant la difficulté à effectuer une recherche d'information efficace est que les ressources existantes sur le web sont exprimées sous une forme destinée à la compréhension humaine. En d'autres termes, ces données sont difficilement utilisables par la machine et l'intervention humaine s'avère indispensable. Ainsi, l'un des principaux challenges est d'imaginer des outils intelligents fondés sur les concepts et méthodes autour de la représentation et du traitement des connaissances pour créer des données exploitables par la machine et obtenir de meilleurs résultats. Le chapitre 2 évalue et étudie les méthodes existantes et leurs limitations. De nombreux chercheurs ont travaillé sur la problématique de la compréhension des données par la machine et certaines des solutions les plus intéressantes sont les ontologies basées sur le « web sémantique ». Les ontologies permettent une meilleure « compréhension » des documents et facilitent à l'aide d'outils appropriés la qualité des recherches dans l'information existante. L'accent est mis sur la réflexion nécessaire à la construction de la signification du concept relié aux réseaux pour la représentation des connaissances. L'idée est de tendre vers la production semi-automatique voire complètement automatique de résultats de grande qualité. Autrement dit, l'objectif est de minimiser l'intervention humaine est de maximiser la qualité des résultats obtenus. Le chapitre 3 présente la plate-forme ToxNuc-E et le positionnement de notre recherche autour de cette plate-forme. Etant donné l'importance pratique et théorique du développement d'ontologies, il n'est pas surprenant de retrouver un grand nombre de chercheurs, fervents et engagés dans ce domaine de recherche. Dans le cadre de notre travail de recherche nous proposons une approche nouvelle, dite ESN (« Extended Semantic Network »), qui contrairement aux approches classiques, basées sur les mots clés, fonde la construction d'ontologie sur la convergence d'associations entre concepts ou nœuds sémantiques sur un ensemble de thèmes et la proximité des termes dans un ensemble de documents. Notre terrain d'application est le programme de toxicologie nucléaire environnementale français : ToxNuc-E. Le chapitre 4 précise le concept de « réseau de proximité », généré par des modèles mathématiques. L'idée de base de notre approche ESN est de construire efficacement une ontologie adaptée à la recherche d'information dans de larges corpus. La première phase consiste à traiter une grande quantité d'information textuelle en utilisant des modèles mathématiques pour automatiser la construction d'un embryon d'ontologie. L'objectif est d'obtenir un réseau de mots qui peut être assez volumineux. Celui-ci est calculé en utilisant des outils mathématiques venant de l'analyse de données et la classification automatique. Ainsi, la création d'un réseau de proximité repose alors sur la proximité des mots dans un document. Le chapitre 5 présente la construction des « réseaux sémantiques » et introduit notre modèle de conception pour gagner en efficacité. Le réseau sémantique est essentiellement un graphe orienté étiqueté permettant l'utilisation de règles génériques, de l'héritage, et de la représentation orientée objet. Il est souvent utilisé comme une forme de représentation des connaissances, où les concepts représentés par les nœuds sont connectés l'un à l'autre en utilisant les liens relationnels représentés par des arcs. Le réseau sémantique est construit de façon manuelle avec l'aide d'experts de la connaissance possédants la compréhension d'un domaine. Il est donc principalement construit par les hommes, dans notre approche de taille assez réduite, et d'une très bonne précision. Le chapitre 6 détaille le « réseau sémantique étendu ». La deuxième phase de traitement consiste à examiner attentivement et de manière efficace les différentes possibilités d'intégrer les informations issues du modèle mathématique (réseau de proximité) et du modèle cognitif développé manuellement (réseau sémantique). Cette phase se base sur une méthode heuristique développée dans l'extension des réseaux et utilisant les résultats de la méthode mathématique. Cette phase se termine en considérant le modèle humain (développé manuellement) comme le point d'entrée de notre réseau de concepts. L'idée principale est de développer une approche novatrice combinant les caractéristiques humaines et la théorie des concepts utilisée par la machine. Les résultats peuvent présenter un grand intérêt dans différents champs de recherche tels que la représentation des connaissances, la classification, l'extraction, ainsi que le filtrage des données. Le chapitre 7 illustre quelques expérimentations réalisées à l'aide de notre réseau sémantique étendu et ouvre des orientations pour les perspectives d'avenir. Les questions concernant la représentation des connaissances, la gestion, le partage et l'extraction d'information sont passionnantes et complexes. Cet attrait est en toute évidence essentiellement du aux rapports entre l'homme et la machine. Le fait que nous essayons de combiner les résultats de deux aspects différents constitue l'une des caractéristiques les plus intéressantes de notre recherche actuelle. Notre proposition peut faciliter la construction d'ontologies de manière plus rapide et plus simple. Le réseau sémantique étendu peut être utilisé, à la place d'une ontologie plus classique, par des outils comme par exemple : un classificateur de documents. Nous considérons notre résultat comme étant structuré par l'esprit et calculé par la machine. L'une des principales perspectives pour le travail à suivre est de trouver un bon compromis entre concepts du réseau sémantique et graphes de mot issus du réseau de proximité. D'autres perspectives à ce travail consistent à mettre en place des benchmarks dans différents contextes pour mesurer l'efficacité de notre prototype.

Identiferoai:union.ndltd.org:CCSD/oai:pastel.archives-ouvertes.fr:pastel-00005840
Date12 November 2008
CreatorsShetty, Reena
PublisherÉcole Nationale Supérieure des Mines de Paris
Source SetsCCSD theses-EN-ligne, France
LanguageEnglish
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0039 seconds