Global ETD Search

11	De l'usage de la sémantique dans la classification supervisée de textes : application au domaine médical / On the use of semantics in supervised text classification : application in the medical domain Albitar, Shereen 12 December 2013 (has links) Cette thèse porte sur l’impact de l’usage de la sémantique dans le processus de la classification supervisée de textes. Cet impact est évalué au travers d’une étude expérimentale sur des documents issus du domaine médical et en utilisant UMLS (Unified Medical Language System) en tant que ressource sémantique. Cette évaluation est faite selon quatre scénarii expérimentaux d’ajout de sémantique à plusieurs niveaux du processus de classification. Le premier scénario correspond à la conceptualisation où le texte est enrichi avant indexation par des concepts correspondant dans UMLS ; le deuxième et le troisième scénario concernent l’enrichissement des vecteurs représentant les textes après indexation dans un sac de concepts (BOC – bag of concepts) par des concepts similaires. Enfin le dernier scénario utilise la sémantique au niveau de la prédiction des classes, où les concepts ainsi que les relations entre eux, sont impliqués dans la prise de décision. Le premier scénario est testé en utilisant trois des méthodes de classification: Rocchio, NB et SVM. Les trois autres scénarii sont uniquement testés en utilisant Rocchio qui est le mieux à même d’accueillir les modifications nécessaires. Au travers de ces différentes expérimentations nous avons tout d’abord montré que des améliorations significatives pouvaient être obtenues avec la conceptualisation du texte avant l’indexation. Ensuite, à partir de représentations vectorielles conceptualisées, nous avons constaté des améliorations plus modérées avec d’une part l’enrichissement sémantique de cette représentation vectorielle après indexation, et d’autre part l’usage de mesures de similarité sémantique en prédiction. / The main interest of this research is the effect of using semantics in the process of supervised text classification. This effect is evaluated through an experimental study on documents related to the medical domain using the UMLS (Unified Medical Language System) as a semantic resource. This evaluation follows four scenarios involving semantics at different steps of the classification process: the first scenario incorporates the conceptualization step where text is enriched with corresponding concepts from UMLS; both the second and the third scenarios concern enriching vectors that represent text as Bag of Concepts (BOC) with similar concepts; the last scenario considers using semantics during class prediction, where concepts as well as the relations between them are involved in decision making. We test the first scenario using three popular classification techniques: Rocchio, NB and SVM. We choose Rocchio for the other scenarios for its extendibility with semantics. According to experiment, results demonstrated significant improvement in classification performance using conceptualization before indexing. Moderate improvements are reported using conceptualized text representation with semantic enrichment after indexing or with semantic text-to-text semantic similarity measures for prediction. Classification supervisée de texte Sémantique Conceptualisation Enrichissement sémantique Mesures de similarité sémantique Domaine médical UMLS Rocchio NB SVM Supervised text classification Semantics Conceptualization Semantic enrichment Semantic similarity measures Medical domain UMLS Rocchio NB SVM
12	Extraction d'attributs et mesures de similarité basées sur la forme Yang, Mingqiang 03 July 2008 (has links) (PDF) Dans le contexte de la reconnaissance de forme et de l'observation de similarité d'un objet parmi d'autres, les caractéristiques de forme extraites de son image sont des outils puissants. En effet la forme de l'objet est habituellement et fortement liée à sa fonctionnalité et son identité. S'appuyant sur cette forme, un éventail de méthodes par extraction de caractéristiques et mesures de similarité a été proposé dans la littérature. De nombreuses et diverses applications sont susceptibles d'utiliser ces caractéristiques de forme. L'invariance géométrique et la résistance aux déformations sont des propriétés importantes que doivent posséder ces caractéristiques et mesures de similarité. Dans cette thèse, trois nouveaux descripteurs de forme sont développés. Les deux premiers, celui par différence de surfaces et contrôlée par l'échelle (SCAD) et celui correspondant au vecteur de surfaces partielles normalisées (NPAV), sont fondés sur une normalisation "iso-surface" (IAN). SCAD est un vecteur dont les éléments sont les différences de surface entre les principaux segments du contour original et contour filtré. Ces segments sont définis par des ensembles de points entre chaque paire de points de courbure nulle, relative au contour filtré et au contour original. En nous appuyant sur deux théorèmes que nous proposons et en prenant en considération surface partielle, transformée affine et filtrage linéaire, nous avons défini le second descripteur, NPAV. Nous prouvons alors, que pour tout contour filtré linéairement, la surface d'un triangle, dont les sommets sont le barycentre du contour et une paire de points successifs sur le contour normalisé, reste linéaire sous toutes les transformations affines. Ainsi est établie une relation entre filtrage et transformation affine. Les deux descripteurs SCAD et NPAV ont la propriété d'invariance aux transformations affines. Comparant les deux approches SCAD et NPAV, SCAD s'avère plus compact que NPAV mais les performances de NPAV sont meilleures que celles de SCAD. La dernière approche proposée est la représentation par "contexte des cordes". Cette représentation décrit une distribution des longueurs de cordes selon une orientation. L'histogramme représentant ce contexte des cordes est compacté et normalisé dans une matrice caractéristique. Une mesure de similarité est alors définie sur cette matrice. La méthode proposée est insensible à la translation, à la rotation et au changement d'échelle; de plus, elle s'avère robuste aux faibles occultations, aux déformations élastiques et au bruit. En outre, son évaluation sur des objets réels souligne tous ses atouts dans le contexte des applications de la vision. Ces nouveaux descripteurs de forme proposés sont issus d'une recherche et d'études menées sur une quarantaine de techniques de la littérature. Contrairement à la classification traditionnelle, ici, les approches de descripteurs de forme sont classées selon leurs approches de traitement: ceci facilite ainsi le choix du traitement approprié. Une description et une étude de ces approches est ici fournie, et nous reprenons certaines d'entre elles dans une évaluation comparative avec les nôtres et ce sur différentes bases de données Extraction d'attributs mesures de similarité descripteur de forme reconnaissance de formes

Search results

De l'usage de la sémantique dans la classification supervisée de textes : application au domaine médical / On the use of semantics in supervised text classification : application in the medical domain

Extraction d'attributs et mesures de similarité basées sur la forme