L'extraction de concepts médicaux au niveau du document identifie les concepts médicaux distincts dans un document entier, essentielle pour améliorer les modèles de recherche d'information et de question-réponse en comprenant les concepts dans les requêtes et les documents sans necessiter d'annotations manuelles.
Les recherches existantes se sont concentrées sur la reconnaissance d'entités nommées (Named Entity Recognition - NER) ou le liaison d'entités (Entity Linking - EL) séparément, s'appuyant fortement sur des annotations manuelles qui sont souvent indisponibles ou limitées. De plus, la plupart des méthodes de NER et EL sont limitées dans leur capacité de tenir compte du contexte lors de l'association de texte aux concepts, ce qui complique l'identification des termes polysémiques et des noms de concepts non canoniques nécessitant une désambiguïsation contextuelle.
Notre approche aborde trois défis : la rareté des données d'entraînement étiquetées, les noms de concepts non canoniques et la polysémie. Nous traitons l'extraction de concepts au niveau du document comme un problème de match de plongement concept-document. Pour entraîner un modèle de match avec des exemples limités, nous utilisons des pseudo-annotations générées par MetaMapLite pour augmenter les données de nombreux concepts de test. Notre hypothèse est que, malgré que les annotations par MetaMapLite sont bruitées, si la majorité des annotations est correcte, elles peuvent servir à entraîner un meilleur modèle de match.
Nos expériences montrent que notre méthode d'augmentation de données dépasse les modèles de base comme BioBERT, BiomedBERT, BioLinkBERT et SapBERT dans l'extraction générale de concepts et des scénarios spécifiques impliquant des concepts sous-entraînés, des noms non canoniques et des termes polysémiques de 6.8\% à 46.7\%. Notre modèle s'avère robuste à diverses configurations, y compris la quantité et le poids des examples d'entraînement augmentés, les plongements lexicaux et les filtres de pseudo-annotations.
Nous établissons une base solide dans l'extraction de concepts médicaux au niveau du document par l'augmentation des données. Notre étude montre une avenue prometteuse d'exploiter diverses techniques d'augmentation de données pour améliorer l'extraction de concepts au niveau du document. / Document-level medical concept extraction identifies distinct medical concepts across an entire document, crucial for enhancing information retrieval and question-answering models by accurately understanding concepts in queries and documents without needing precise mention annotations.
Traditional research has focused on Named Entity Recognition (NER) or Entity Linking (EL) separately, relying heavily on extensive manual annotations often unavailable in many question-answering datasets. Moreover, most NER and EL methods are limited in taking into account context when matching text to concept IDs, complicating the identification of polysemous terms and non-canonical concept names requiring contextual disambiguation.
Our approach address three challenges: scarcity of labeled training data, non-canonical concept names, and polysemy. We treats document-level concept extraction as a concept-document embedding matching problem, enabling the model to learn from context without extensive manual annotations. We use pseudo-annotations generated by MetaMapLite to tackle the lack of labeled data for many test concepts. The assumption is that while the annotations by MetaMapLite are noisy, if the majority of the annotations are correct, they can provide useful information for training a neural matching model.
Our experiments show that our data augmentation method surpasses baseline models like BioBERT, BiomedBERT, BioLinkBERT, and SapBERT in general concept extraction and specific scenarios involving undertrained concepts, non-canonical names, and polysemous terms by 6.8\% to 46.7\%. Our model proves robust to various configurations, including augmented training sample quantity and weighting, embedding methods, and pseudo-annotation filters.
We establish a solid foundation in document-level medical concept extraction through data augmentation. Our study shows a promising avenue of exploiting diverse data augmentation techniques to improve document-level concept extraction.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/33898 |
Date | 08 1900 |
Creators | Shao, Qiwei |
Contributors | Nie, Jian-Yun |
Source Sets | Université de Montréal |
Language | English |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.0027 seconds