Spelling suggestions: "subject:"extraction dde concepts"" "subject:"extraction dee concepts""
1 |
Intégration de la sémantique dans la représentation de documents par les arbres de dépendances syntaxiquesAu, Émilie January 2011 (has links)
De nombreuses applications dans le domaine de la recherche d'information voient leur performance influencée par le modèle de représentation de documents. En effet, théoriquement, meilleure est la modélisation, meilleure sera la performance de l'application qui exploite la modélisation. Or la modélisation"parfaite" d'un document est celle qui utilise l'intégralité des théories linguistiques. Cependant, en pratique, celles-ci sont difficiles à traduire sous forme de traitements informatiques. Néanmoins, il existe des modèles qui s'appuient partiellement sur ces théories comme les modèles vectoriels classiques, les modèles par séquences de mots ou encore les chaînes lexicales. Ces précédents modèles exploitent, soit l'information syntaxique, soit l'information sémantique. D'autres modèles plus raffinés exploitent à la fois l'information syntaxique et sémantique mais sont appliqués dans un contexte spécifique. Dans cette étude, nous proposons une nouvelle modélisation de documents dans un contexte général qui considère simultanément l'information syntaxique et sémantique. Notre modèle est une combinaison de deux composantes, l'une syntaxique représentée par les arbres de dépendances syntaxiques obtenus à l'aide d'un analyseur de dépendances syntaxiques, l'autre sémantique représentée par le sens des mots dans leur contexte obtenu grâce à une méthode de désambiguïsation du sens. Dans ce modèle, chaque document est représenté par un ensemble de concepts fréquents formé de sous-arbres ayant les mêmes dépendances syntaxiques et étant sémantiquement proches. L'extraction de tels concepts est réalisée à l'aide d'un algorithme de forage d'arbres FREQT. Notre modèle sera évalué sur une application de clustering de documents des collections Reuters, 20 newsgroups et Ohsumed. La mesure du cosinus valable pour un modèle vectoriel a été utilisée pour définir la mesure de similarité entre les documents. Contrairement au modèle vectoriel, l'espace vectoriel considéré n'est pas engendré par l'ensemble des mots fréquents mais par l'ensemble des concepts fréquents. Les résultats expérimentaux obtenus montrent que l'intégration de l'information sémantique dans le modèle basé sur les arbres de dépendances syntaxiques contribue à améliorer la qualité des clusters.
|
2 |
Apprentissage statistique pour l'extraction de concepts à partir de textes : application au filtrage d'informations textuellesTurenne, Nicolas 24 November 2000 (has links) (PDF)
Cette thèse présente un modèle de construction automatique et approximatif de la représentation du sens d'un texte. On adapte des techniques de documentation automatique à des bases documentaires non indexées. Les techniques classiques reposent sur une indexation vectorielle. Chaque document est représenté par un descripteur, on définit une distance entre ces descripteurs. L'accès aux documents pertinents est basé sur des calculs de proximité entre ces descripteurs. Une structuration du domaine, couvert par des documents, est obtenue par une classification (en anglais « clustering ») faisant apparaître des thèmes sémantiques. Il faut améliorer les techniques en leur permettant de traiter les documents non indexés, en améliorant les résultats par une adaptation de connaissances linguistiques et une analyse des relations que marquent les cooccurrences entre termes. La quantité grandissante d'informations électroniques permet de constituer des échantillons de données variés et significatifs. Les techniques pour décrire les relations entre termes sont issues de méthodes mathématiques usuellement appliquées aux données structurées non textuelles. Le couplage de connaissances propres aux données avec une méthodologie adaptée aux données textuelles devrait apporter une amélioration des résultats. Nous tentons de justifier : d'une part l'utilisation de mécanismes linguistiques réduisant les biais d'une statisque descriptive des occurrences d'un terme, d'autre part l'utilisation d'une méthode basée sur les graphes dont les motifs permettraient de récupérer les relations conceptuelles entre termes. Dans un troisième temps nous facilitons l'interprétation des résultats émanant de traitements automatiques par la qualification consensuelle du thème représenté par une classe. L'interprétation de classes reste difficile, due aux multiples points de vue qu'un lecteur peut se faire des associations entre termes. Des classes de meilleure qualité facilitent l'interprétation, assistée par un théssaurus, que l'on peut attribuer à la structuration conceptuelle des termes d'un domaine. Le développement d'Internet renforce l'échange de documents électroniques entre les acteurs de différents sites. Le développement de systèmes logiciels d'échanges de documents appelés « workflow » dans les intranets d'entreprise augmente la fluidité des documents entre individus et entre services. Un système qui permet d'apprendre automatiquement des profils d'utilisateur et d'exploiter ces connaissances pour distribuer l'information semble incontournable. Nous essayons de caractériser un centre d'intérêt par des classes de termes.
|
3 |
Rule-based data augmentation for document-level medical concept extractionShao, Qiwei 08 1900 (has links)
L'extraction de concepts médicaux au niveau du document identifie les concepts médicaux distincts dans un document entier, essentielle pour améliorer les modèles de recherche d'information et de question-réponse en comprenant les concepts dans les requêtes et les documents sans necessiter d'annotations manuelles.
Les recherches existantes se sont concentrées sur la reconnaissance d'entités nommées (Named Entity Recognition - NER) ou le liaison d'entités (Entity Linking - EL) séparément, s'appuyant fortement sur des annotations manuelles qui sont souvent indisponibles ou limitées. De plus, la plupart des méthodes de NER et EL sont limitées dans leur capacité de tenir compte du contexte lors de l'association de texte aux concepts, ce qui complique l'identification des termes polysémiques et des noms de concepts non canoniques nécessitant une désambiguïsation contextuelle.
Notre approche aborde trois défis : la rareté des données d'entraînement étiquetées, les noms de concepts non canoniques et la polysémie. Nous traitons l'extraction de concepts au niveau du document comme un problème de match de plongement concept-document. Pour entraîner un modèle de match avec des exemples limités, nous utilisons des pseudo-annotations générées par MetaMapLite pour augmenter les données de nombreux concepts de test. Notre hypothèse est que, malgré que les annotations par MetaMapLite sont bruitées, si la majorité des annotations est correcte, elles peuvent servir à entraîner un meilleur modèle de match.
Nos expériences montrent que notre méthode d'augmentation de données dépasse les modèles de base comme BioBERT, BiomedBERT, BioLinkBERT et SapBERT dans l'extraction générale de concepts et des scénarios spécifiques impliquant des concepts sous-entraînés, des noms non canoniques et des termes polysémiques de 6.8\% à 46.7\%. Notre modèle s'avère robuste à diverses configurations, y compris la quantité et le poids des examples d'entraînement augmentés, les plongements lexicaux et les filtres de pseudo-annotations.
Nous établissons une base solide dans l'extraction de concepts médicaux au niveau du document par l'augmentation des données. Notre étude montre une avenue prometteuse d'exploiter diverses techniques d'augmentation de données pour améliorer l'extraction de concepts au niveau du document. / Document-level medical concept extraction identifies distinct medical concepts across an entire document, crucial for enhancing information retrieval and question-answering models by accurately understanding concepts in queries and documents without needing precise mention annotations.
Traditional research has focused on Named Entity Recognition (NER) or Entity Linking (EL) separately, relying heavily on extensive manual annotations often unavailable in many question-answering datasets. Moreover, most NER and EL methods are limited in taking into account context when matching text to concept IDs, complicating the identification of polysemous terms and non-canonical concept names requiring contextual disambiguation.
Our approach address three challenges: scarcity of labeled training data, non-canonical concept names, and polysemy. We treats document-level concept extraction as a concept-document embedding matching problem, enabling the model to learn from context without extensive manual annotations. We use pseudo-annotations generated by MetaMapLite to tackle the lack of labeled data for many test concepts. The assumption is that while the annotations by MetaMapLite are noisy, if the majority of the annotations are correct, they can provide useful information for training a neural matching model.
Our experiments show that our data augmentation method surpasses baseline models like BioBERT, BiomedBERT, BioLinkBERT, and SapBERT in general concept extraction and specific scenarios involving undertrained concepts, non-canonical names, and polysemous terms by 6.8\% to 46.7\%. Our model proves robust to various configurations, including augmented training sample quantity and weighting, embedding methods, and pseudo-annotation filters.
We establish a solid foundation in document-level medical concept extraction through data augmentation. Our study shows a promising avenue of exploiting diverse data augmentation techniques to improve document-level concept extraction.
|
Page generated in 0.0921 seconds