Global ETD Search

Return to search

Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique

Ce travail porte sur l'anonymisation automatique de comptes rendus cliniques. L'anonymisation consiste à masquer les informations personnelles présentes dans les documents tout en préservant les informations cliniques. Cette étape est obligatoire pour utiliser des documents cliniques en dehors du parcours de soins, qu'il s'agisse de publication de cas d'étude ou en recherche scientifique (mise au point d'outils informatiques de traitement du contenu des dossiers, recherche de cas similaire, etc.). Nous avons défini douze catégories d'informations à traiter : nominatives (noms, prénoms, etc.) et numériques (âges, dates, codes postaux, etc.). Deux approches ont été utilisées pour anonymiser les documents, l'une dite " symbolique ", à base de connaissances d'expert formalisées par des expressions régulières et la projection de lexiques, l'autre par apprentissage statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences ont été menées parmi lesquelles l'utilisation simple ou enchaînée de chacune des deux approches. Nous obtenons nos meilleurs résultats (F-mesure globale=0,922) en enchaînant les deux méthodes avec rassemblement des noms et prénoms en une seule catégorie (pour cette catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse s'accompagne de la production de plusieurs ressources : un guide d'annotation, un corpus de référence de 562 documents dont 100 annotés en double avec adjudication et calculs de taux d'accord inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de 17000 comptes rendus cliniques.

Anonymisation

comptes rendus médicaux

guide d'annotation

méthodes symboliques

apprentissage statistique

traitement automatique des langues

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00848672
Date	26 June 2013
Creators	Grouin, Cyril
Publisher	Université Pierre et Marie Curie - Paris VI
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0106 seconds

Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique

Description

Links & Downloads

Tags

Additional Fields