Spelling suggestions: "subject:"topic segmentation"" "subject:"oopic segmentation""
1 |
Topic Segmentation and Medical Named Entities Recognition for Pictorially Visualizing Health Record Summary SystemRuan, Wei 03 April 2019 (has links)
Medical Information Visualization makes optimized use of digitized data of medical records, e.g. Electronic Medical Record. This thesis is an extended work of Pictorial Information Visualization System (PIVS) developed by Yongji Jin (Jin, 2016) Jiaren Suo (Suo, 2017) which is a graphical visualization system by picturizing patient’s medical history summary depicting patients’ medical information in order to help patients and doctors to easily capture patients’ past and present conditions. The summary information has been manually entered into the interface where the information can be taken from clinical notes.
This study proposes a methodology of automatically extracting medical information from patients’ clinical notes by using the techniques of Natural Language Processing in order to produce medical history summarization from past medical records. We develop a Named Entities Recognition system to extract the information of the medical imaging procedure (performance date, human body location, imaging results and so on) and medications (medication names, frequency and quantities) by applying the model of conditional random fields with three main features and others: word-based, part-of-speech, Metamap semantic features. Adding Metamap semantic features is a novel idea which raised the accuracy compared to previous studies. Our evaluation shows that our model has higher accuracy than others on medication extraction as a case study.
For enhancing the accuracy of entities extraction, we also propose a methodology of Topic Segmentation to clinical notes using boundary detection by determining the difference of classification probabilities of subsequence sequences, which is different from the traditional Topic Segmentation approaches such as TextTiling, TopicTiling and Beeferman Statistical Model. With Topic Segmentation combined for Named Entities Extraction, we observed higher accuracy for medication extraction compared to the case without the segmentation.
Finally, we also present a prototype of integrating our information extraction system with PIVS by simply building the database of interface coordinates and the terms of human body parts.
|
2 |
Semantic structuring of video collections fromspeech : segmentation and hyperlinking / Structuration sémantique des collections vidéos à partir du discours : segmentation et création d'hyperliensŞimon, Anca-Roxana 02 December 2015 (has links)
Au cours des dernières années, de nouveaux challenges ont émergé avec la transformation très significative du paysage audiovisuel due à l'émergence de la télévision sur Internet. La décision de ce qui est regardé et dans quel ordre n'appartient en effet plus à la chaîne TV concernée mais à l'utilisateur. De nouveaux moyens facilitant l'accès précis et rapide à l'information souhaitée au sein des quantités toujours croissantes de contenus audiovisuels doivent donc être proposés aux utilisateurs : par exemple, pour repérer un événement spécifique, un fragment d'émission contenant une certaine personnalité ou abordant un sujet particulier, voire pour naviguer successivement entre tous les segments de vidéos abordant ce sujet. Ces fonctionnalités nouvelles et variées impliquent le développement de méthodes novatrices de structuration et d'exploitation des contenus audiovisuels, sujet abordé dans cette thèse. Nous proposons d'une part des techniques automatiques de structuration thématique des données audiovisuelles permettant de révéler l'organisation interne de chaque programme. Nous étudions également les implications de la structure produite sur diverses tâches telles que la création d'hyperliens entre vidéos (afin de permettre une navigation entre fragments d'émissions thématiquement proches) ou la création de résumés automatiques. L'ensemble des travaux menés est effectué sur les transcriptions automatiques de la parole prononcée dans les émissions, afin d'obtenir des solutions génériques, non dédiées à un type de programme particulier. / New challenges emerged in the past years as the audiovisual landscape significantly transformed with the emergence of Internet-based TV. The decision of what to watch and in what order no longer belongs to the TV station but the user. New solutions must be offered to users in order to facilitate precise and quick access to the desired information contained in the ever increasing amounts of audiovisual content: for example, to identify a specific event, a TV show fragment containing a certain public person or addressing a particular topic, or to browse sequentially across all segments of videos addressing this topic. These new and varied features imply the development of innovative methods for structuring and exploiting the audiovisual content, which represent the focus of this thesis. We offer automatic topic structuring techniques of audiovisual data to reveal the internal organization of each program. We also study the implications of the structure produced on various tasks such as creating hyperlinks between videos (to allow navigation between TV show fragments that are thematically related) or creating automatic summaries. All the work is carried out on automatic transcripts of the speech pronounced in TV shows, to achieve generic solutions, not dedicated to a particular kind of show.
|
3 |
Structuration automatique de documents audio / Automatic structuring of audio documentsBouchekif, Abdesselam 03 November 2016 (has links)
La structuration en thèmes est un domaine de recherche très prisé dans le traitement automatique du langage naturel car elle est le point de départ de plusieurs applications comme la recherche d’information, le résumé automatique et la modélisation des thèmes. Dans cette thèse, nous avons proposé un système de structuration automatique des journaux d’informations. Notre système contient deux modules : segmentation thématique et titrage. La segmentation thématique consiste à effectuer un pavage de l’émission en segments thématiquement homogènes. Ces derniers, sont généralement identifiés par des étiquettes anonymes, c’est alors le rôle du module de titrage d’affecter un titre à chaque segment.Ces travaux ont permis plusieurs contributions originales tel que l’exploitation conjointe de la distribution des mots et des locuteurs (cohésion de la parole) ainsi que l’utilisation des relations sémantiques de type diachronique. Après l’étape de segmentation, nous proposons d’apparier chaque segment avec les articles de presse du même jour. Le titre associé au segment est celui de l’article le plus proche thématiquement. Finalement, nous avons proposé deux nouvelles métriques d’évaluation, l’une pour la segmentation thématique et l’autre pour le titrage. Les expériences sont menées sur trois corpus caractérisés par leur richesse et leur diversité. Ils sont constitués de 168 journaux télévisés issus de 10 chaînes françaises transcrits automatiquement. / The topic structuring is an area that has attracted much attention in the Natural Language Processing community. Indeed, topic structuring is considered as the starting point of several applications such as information retrieval, summarization and topic modeling.In this thesis, we proposed a generic topic structuring system i.e. that has the ability to deal with any TV Broadcast News.Our system contains two steps: topic segmentation and title assignment. Topic segmentation consists in splitting the document into thematically homogeneous fragments. The latter are generally identified by anonymous labels and the last step has to assign a title to each segment.Several original contributions are proposed like the use of a joint exploitation of the distribution of speakers and words (speech cohesion) and also the use of diachronic semantic relations. After the topic segmentation step, the generated segments are assigned a title corresponding to an article collected from Google News during the same day. Finally, we proposed the evaluation of two new metrics, the first is dedicated to the topic segmentation and the second to title assignment.The experiments are carried out on three corpora. They consisted of 168 TV Broadcast News from 10 French channels automatically transcribed. Our corpus is characterized by his richness and diversity.
|
4 |
Vers des moteurs de recherche "intelligents" : un outil de détection automatique de thèmes : méthode basée sur l'identification automatique des chaînes de référence / Toward "intelligent" search engines : an automatic topic detection tool : method based on automatic reference chains identificationLongo, Laurence 12 December 2013 (has links)
Cette thèse se situe dans le domaine du Traitement Automatique des Langues et vise à optimiser la classification des documents dans les moteurs de recherche. Les travaux se concentrent sur le développement d’un outil de détection automatique des thèmes des documents (ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée allie des techniques statistiques de segmentation thématique à des méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux, les chaînes de référence – séquence d’expressions référentielles se rapportant à la même entité du discours (e.g. Paul…il…cet homme) – ont fait l’objet d’une attention particulière, car elles constituent un indice textuel important dans la détection des thèmes (i.e. ce sont des marqueurs d’introduction, de maintien et de changement thématique). Ainsi, à partir d’une étude des chaînes de référence menée dans un corpus issu de genres textuels variés (analyses politiques, rapports publics, lois européennes,éditoriaux, roman), nous avons développé un module d’identification automatique des chaînes de référence RefGen qui a été évalué suivant les métriques actuelles de la coréférence. / This thesis in the field of Natural Language Processing aims at optimizing documents classification in search engines. This work focuses on the development of a tool that automatically detects documents topics (ATDS-fr). Using poor knowledge, the hybrid method combines statistical techniques for topic segmentation and linguistic methods that identify cohesive markers. Among them, reference chains - sequences of referential expressions referring to the same entity (e.g. Paul ... he ... this man) - have been given special attention as they are important topic markers (i.e. they are markers of topic introduction, maintenance and change). Thus, from a study of reference chains extracted from a corpus composed of various textual genres (newspapers, public reports, European laws, editorials and novel) we developed RefGen, an automatic reference chains identification module, which was evaluated according to current coreference metrics.
|
Page generated in 0.1026 seconds