Spelling suggestions: "subject:"traitement duu langue naturelles"" "subject:"traitement dud langue naturelles""
1 |
Rule-based data augmentation for document-level medical concept extractionShao, Qiwei 08 1900 (has links)
L'extraction de concepts médicaux au niveau du document identifie les concepts médicaux distincts dans un document entier, essentielle pour améliorer les modèles de recherche d'information et de question-réponse en comprenant les concepts dans les requêtes et les documents sans necessiter d'annotations manuelles.
Les recherches existantes se sont concentrées sur la reconnaissance d'entités nommées (Named Entity Recognition - NER) ou le liaison d'entités (Entity Linking - EL) séparément, s'appuyant fortement sur des annotations manuelles qui sont souvent indisponibles ou limitées. De plus, la plupart des méthodes de NER et EL sont limitées dans leur capacité de tenir compte du contexte lors de l'association de texte aux concepts, ce qui complique l'identification des termes polysémiques et des noms de concepts non canoniques nécessitant une désambiguïsation contextuelle.
Notre approche aborde trois défis : la rareté des données d'entraînement étiquetées, les noms de concepts non canoniques et la polysémie. Nous traitons l'extraction de concepts au niveau du document comme un problème de match de plongement concept-document. Pour entraîner un modèle de match avec des exemples limités, nous utilisons des pseudo-annotations générées par MetaMapLite pour augmenter les données de nombreux concepts de test. Notre hypothèse est que, malgré que les annotations par MetaMapLite sont bruitées, si la majorité des annotations est correcte, elles peuvent servir à entraîner un meilleur modèle de match.
Nos expériences montrent que notre méthode d'augmentation de données dépasse les modèles de base comme BioBERT, BiomedBERT, BioLinkBERT et SapBERT dans l'extraction générale de concepts et des scénarios spécifiques impliquant des concepts sous-entraînés, des noms non canoniques et des termes polysémiques de 6.8\% à 46.7\%. Notre modèle s'avère robuste à diverses configurations, y compris la quantité et le poids des examples d'entraînement augmentés, les plongements lexicaux et les filtres de pseudo-annotations.
Nous établissons une base solide dans l'extraction de concepts médicaux au niveau du document par l'augmentation des données. Notre étude montre une avenue prometteuse d'exploiter diverses techniques d'augmentation de données pour améliorer l'extraction de concepts au niveau du document. / Document-level medical concept extraction identifies distinct medical concepts across an entire document, crucial for enhancing information retrieval and question-answering models by accurately understanding concepts in queries and documents without needing precise mention annotations.
Traditional research has focused on Named Entity Recognition (NER) or Entity Linking (EL) separately, relying heavily on extensive manual annotations often unavailable in many question-answering datasets. Moreover, most NER and EL methods are limited in taking into account context when matching text to concept IDs, complicating the identification of polysemous terms and non-canonical concept names requiring contextual disambiguation.
Our approach address three challenges: scarcity of labeled training data, non-canonical concept names, and polysemy. We treats document-level concept extraction as a concept-document embedding matching problem, enabling the model to learn from context without extensive manual annotations. We use pseudo-annotations generated by MetaMapLite to tackle the lack of labeled data for many test concepts. The assumption is that while the annotations by MetaMapLite are noisy, if the majority of the annotations are correct, they can provide useful information for training a neural matching model.
Our experiments show that our data augmentation method surpasses baseline models like BioBERT, BiomedBERT, BioLinkBERT, and SapBERT in general concept extraction and specific scenarios involving undertrained concepts, non-canonical names, and polysemous terms by 6.8\% to 46.7\%. Our model proves robust to various configurations, including augmented training sample quantity and weighting, embedding methods, and pseudo-annotation filters.
We establish a solid foundation in document-level medical concept extraction through data augmentation. Our study shows a promising avenue of exploiting diverse data augmentation techniques to improve document-level concept extraction.
|
2 |
Local differentially private mechanisms for text privacy protectionMo, Fengran 08 1900 (has links)
Dans les applications de traitement du langage naturel (NLP), la formation d’un modèle
efficace nécessite souvent une quantité massive de données. Cependant, les données textuelles
dans le monde réel sont dispersées dans différentes institutions ou appareils d’utilisateurs.
Leur partage direct avec le fournisseur de services NLP entraîne d’énormes risques pour
la confidentialité, car les données textuelles contiennent souvent des informations sensibles,
entraînant une fuite potentielle de la confidentialité. Un moyen typique de protéger la confidentialité
consiste à privatiser directement le texte brut et à tirer parti de la confidentialité
différentielle (DP) pour protéger le texte à un niveau de protection de la confidentialité quantifiable.
Par ailleurs, la protection des résultats de calcul intermédiaires via un mécanisme
de privatisation de texte aléatoire est une autre solution disponible.
Cependant, les mécanismes existants de privatisation des textes ne permettent pas d’obtenir
un bon compromis entre confidentialité et utilité en raison de la difficulté intrinsèque
de la protection de la confidentialité des textes. Leurs limitations incluent principalement
les aspects suivants: (1) ces mécanismes qui privatisent le texte en appliquant la notion de
dχ-privacy ne sont pas applicables à toutes les métriques de similarité en raison des exigences
strictes; (2) ils privatisent chaque jeton (mot) dans le texte de manière égale en fournissant
le même ensemble de sorties excessivement grand, ce qui entraîne une surprotection; (3) les
méthodes actuelles ne peuvent garantir la confidentialité que pour une seule étape d’entraînement/
d’inférence en raison du manque de composition DP et de techniques d’amplification
DP.
Le manque du compromis utilité-confidentialité empêche l’adoption des mécanismes actuels
de privatisation du texte dans les applications du monde réel. Dans ce mémoire, nous
proposons deux méthodes à partir de perspectives différentes pour les étapes d’apprentissage
et d’inférence tout en ne requérant aucune confiance de sécurité au serveur. La première approche
est un mécanisme de privatisation de texte privé différentiel personnalisé (CusText)
qui attribue à chaque jeton d’entrée un ensemble de sortie personnalisé pour fournir une protection
de confidentialité adaptative plus avancée au niveau du jeton. Il surmonte également
la limitation des métriques de similarité causée par la notion de dχ-privacy, en adaptant
le mécanisme pour satisfaire ϵ-DP. En outre, nous proposons deux nouvelles stratégies de
5
privatisation de texte pour renforcer l’utilité du texte privatisé sans compromettre la confidentialité.
La deuxième approche est un modèle Gaussien privé différentiel local (GauDP)
qui réduit considérablement le volume de bruit calibrée sur la base d’un cadre avancé de
comptabilité de confidentialité et améliore ainsi la précision du modèle en incorporant plusieurs
composants. Le modèle se compose d’une couche LDP, d’algorithmes d’amplification
DP de sous-échantillonnage et de sur-échantillonnage pour l’apprentissage et l’inférence, et
d’algorithmes de composition DP pour l’étalonnage du bruit. Cette nouvelle solution garantit
pour la première fois la confidentialité de l’ensemble des données d’entraînement/d’inférence.
Pour évaluer nos mécanismes de privatisation de texte proposés, nous menons des expériences
étendues sur plusieurs ensembles de données de différents types. Les résultats
expérimentaux démontrent que nos mécanismes proposés peuvent atteindre un meilleur compromis
confidentialité-utilité et une meilleure valeur d’application pratique que les méthodes
existantes. En outre, nous menons également une série d’études d’analyse pour explorer
les facteurs cruciaux de chaque composant qui pourront fournir plus d’informations sur la
protection des textes et généraliser d’autres explorations pour la NLP préservant la confidentialité. / In Natural Language Processing (NLP) applications, training an effective model often
requires a massive amount of data. However, text data in the real world are scattered in
different institutions or user devices. Directly sharing them with the NLP service provider
brings huge privacy risks, as text data often contains sensitive information, leading to potential
privacy leakage. A typical way to protect privacy is to directly privatize raw text
and leverage Differential Privacy (DP) to protect the text at a quantifiable privacy protection
level. Besides, protecting the intermediate computation results via a randomized text
privatization mechanism is another available solution.
However, existing text privatization mechanisms fail to achieve a good privacy-utility
trade-off due to the intrinsic difficulty of text privacy protection. The limitations of them
mainly include the following aspects: (1) those mechanisms that privatize text by applying
dχ-privacy notion are not applicable for all similarity metrics because of the strict requirements;
(2) they privatize each token in the text equally by providing the same and excessively
large output set which results in over-protection; (3) current methods can only guarantee
privacy for either the training/inference step, but not both, because of the lack of DP composition
and DP amplification techniques.
Bad utility-privacy trade-off performance impedes the adoption of current text privatization
mechanisms in real-world applications. In this thesis, we propose two methods from
different perspectives for both training and inference stages while requiring no server security
trust. The first approach is a Customized differentially private Text privatization mechanism
(CusText) that assigns each input token a customized output set to provide more
advanced adaptive privacy protection at the token-level. It also overcomes the limitation
for the similarity metrics caused by dχ-privacy notion, by turning the mechanism to satisfy
ϵ-DP. Furthermore, we provide two new text privatization strategies to boost the utility of
privatized text without compromising privacy. The second approach is a Gaussian-based
local Differentially Private (GauDP) model that significantly reduces calibrated noise power
adding to the intermediate text representations based on an advanced privacy accounting
framework and thus improves model accuracy by incorporating several components. The
model consists of an LDP-layer, sub-sampling and up-sampling DP amplification algorithms
7
for training and inference, and DP composition algorithms for noise calibration. This novel
solution guarantees privacy for both training and inference data.
To evaluate our proposed text privatization mechanisms, we conduct extensive experiments
on several datasets of different types. The experimental results demonstrate that our
proposed mechanisms can achieve a better privacy-utility trade-off and better practical application
value than the existing methods. In addition, we also carry out a series of analyses
to explore the crucial factors for each component which will be able to provide more insights
in text protection and generalize further explorations for privacy-preserving NLP.
|
Page generated in 0.0845 seconds