Spelling suggestions: "subject:"cartesian sémantique""
1 |
Utilisation d'ontologies comme support à la recherche et à la navigation dans une collection de documents / ONTOLOGY BASED INFORMATION RETRIEVALSy, Mohameth François 11 December 2012 (has links)
Les ontologies offrent une modélisation des connaissances d'un domaine basée sur une hiérarchie des concepts clefs de ce domaine. Leur utilisation dans le cadre des Systèmes de Recherche d'Information (SRI), tant pour indexer les documents que pour exprimer une requête, permet notamment d'éviter les ambiguïtés du langage naturel qui pénalisent les SRI classiques. Les travaux de cette thèse portent essentiellement sur l'utilisation d'ontologies lors du processus d'appariement durant lequel les SRI ordonnent les documents d'une collection en fonction de leur pertinence par rapport à une requête utilisateur. Nous proposons de calculer cette pertinence à l'aide d'une stratégie d'agrégation de scores élémentaires entre chaque document et chaque concept de la requête. Cette agrégation, simple et intuitive, intègre un modèle de préférences dépendant de l'utilisateur et une mesure de similarité sémantique associée à l'ontologie. L'intérêt majeur de cette approche est qu'elle permet d'expliquer à l'utilisateur pourquoi notre SRI, OBIRS, estime que les documents qu'il a sélectionnés sont pertinents. Nous proposons de renforcer cette justification grâce à une visualisation originale où les résultats sont représentés par des pictogrammes, résumant leurs pertinences élémentaires, puis disposés sur une carte sémantique en fonction de leur pertinence globale. La Recherche d'Information étant un processus itératif, il est nécessaire de permettre à l'utilisateur d'interagir avec le SRI, de comprendre et d'évaluer les résultats et de le guider dans sa reformulation de requête. Nous proposons une stratégie de reformulation de requêtes conceptuelles basée sur la transposition d'une méthode éprouvée dans le cadre de SRI vectoriels. La reformulation devient alors un problème d'optimisation utilisant les retours faits par l'utilisateur sur les premiers résultats proposés comme base d'apprentissage. Nous avons développé une heuristique permettant de s'approcher d'une requête optimale en ne testant qu'un sous-espace des requêtes conceptuelles possibles. Nous montrons que l'identification efficace des concepts de ce sous-espace découle de deux propriétés qu'une grande partie des mesures de similarité sémantique vérifient, et qui suffisent à garantir la connexité du voisinage sémantique d'un concept.Les modèles que nous proposons sont validés tant sur la base de performances obtenues sur des jeux de tests standards, que sur la base de cas d'études impliquant des experts biologistes. / Domain ontologies provide a knowledge model where the main concepts of a domain are organized through hierarchical relationships. In conceptual Information Retrieval Systems (IRS), where they are used to index documents as well as to formulate a query, their use allows to overcome some ambiguities of classical IRSs based on natural language processes.One of the contributions of this study consists in the use of ontologies within IRSs, in particular to assess the relevance of documents with respect to a given query. For this matching process, a simple and intuitive aggregation approach is proposed, that incorporates user dependent preferences model on one hand, and semantic similarity measures attached to a domain ontology on the other hand. This matching strategy allows justifying the relevance of the results to the user. To complete this explanation, semantic maps are built, to help the user to grasp the results at a glance. Documents are displayed as icons that detail their elementary scores. They are organized so that their graphical distance on the map reflects their relevance to a query represented as a probe. As Information Retrieval is an iterative process, it is necessary to involve the users in the control loop of the results relevancy in order to better specify their information needs. Inspired by experienced strategies in vector models, we propose, in the context of conceptual IRS, to formalize ontology based relevance feedback. This strategy consists in searching a conceptual query that optimizes a tradeoff between relevant documents closeness and irrelevant documents remoteness, modeled through an objective function. From a set of concepts of interest, a heuristic is proposed that efficiently builds a near optimal query. This heuristic relies on two simple properties of semantic similarities that are proved to ensure semantic neighborhood connectivity. Hence, only an excerpt of the ontology dag structure is explored during query reformulation.These approaches have been implemented in OBIRS, our ontological based IRS and validated in two ways: automatic assessment based on standard collections of tests, and case studies involving experts from biomedical domain.
|
2 |
Approche générique d’extraction automatique des événements et leur exploitation / Generic Approach for the Automatic Events Extraction and their ExploitationEl Khelifi, Aymen 08 December 2012 (has links)
Dans le cadre de notre thèse, nous avons proposé une approche générique d’extraction automatique des événements et de leur exploitation. L’approche est organisée en quatre composantes indépendantes et réutilisables. Une première composante de prétraitement, où les textes sont nettoyés et segmentés. Au cours de la seconde étape, les événements sont extraits en sebasant sur notre algorithme AnnotEC qui dispose d’une complexité polynomiale et qui est associé à des cartes sémantiques et des ressources linguistiques dédiées. Nous avons mis en place deux nouvelles mesures de similarité SimCatégoreille et SimEvent pour regrouper les événementssimilaires dans le cadre de la troisième composante de clustering. Les annotations, ajoutées tout au long des trois premières étapes, sont exploitées au niveau de la dernière composante par le bais des fichiers de synthèse paramétrables par l’utilisateur.L’approche a été évaluée sur un corpus issu du Web 2.0. Nous avons comparé les résultats avec des méthodes d’apprentissage automatique et des méthodes linguistiques par compilation et nous avons obtenu de meilleurs résultats. / In the framework of our thesis, we proposed a generic approach for the automatic extraction of events and their exploitation. This approach is divided into four independent and reusable components. The first component of pretreatment, in which texts are cleaned and segmented. During the second stage, events are extracted based on our algorithm AnnotEC which has polynomial complexity. AnnotEC is associated with semantic maps and dedicated linguistic resources. We have proposed two new similarity measures SimCatégoreille and SimEvent to group similar events using clustering algorithms.Annotations, added throughout the first three steps, are used at the last component by summarizing files configurable by users. The approach was evaluated on a corpus of Web 2.0, we compared the obtained results with machine learning methods and linguistic compiling methods and we got good results.
|
3 |
Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle / Knowledge Extraction from texts written in Arabic and French by a linguistico-computational methodBen Salamah, Janan 28 October 2017 (has links)
Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale. / In this thesis, we proposed a multilingual generic approach for the automatic information extraction. Particularly, events extraction of price variation and temporal information extraction linked to temporal referential. Our approach is based on the constitution of several semantic maps by textual analysis in order to formalize the linguistic traces expressed by categories. We created a database for an expert system to identify and annotate information (categories and their characteristics) based on the contextual rule groups. Two algorithms AnnotEC and AnnotEV have been applied in the SemanTAS platform to validate our assumptions. We have obtained a satisfactory result; Accuracy and recall are around 80%. We presented extracted knowledge by a summary file. In order to approve the multilingual aspect of our approach, we have carried out experiments on French and Arabic. We confirmed the scalability level by the annotation of large corpus.
|
Page generated in 0.0936 seconds