Spelling suggestions: "subject:"anchorbased"" "subject:"anchoraged""
1 |
Anchor-based Topic Modeling with Human Interpretable Results / Tolkningsbara ämnesmodeller baserade på ankarordAndersson, Henrik January 2020 (has links)
Topic models are useful tools for exploring large data sets of textual content by exposing a generative process from which the text was produced. Anchor-based topic models utilize the anchor word assumption to define a set of algorithms with provable guarantees which recover the underlying topics with a run time practically independent of corpus size. A number of extensions to the initial anchor word-based algorithms, and enhancements made to tangential models, have been proposed which improve the intrinsic characteristics of the model making them more interpretable by humans. This thesis evaluates improvements to human interpretability due to: low-dimensional word embeddings in combination with a regularized objective function, automatic topic merging using tandem anchors, and utilizing word embeddings to synthetically increase corpus density. Results show that tandem anchors are viable vehicles for automatic topic merging, and that using word embeddings significantly improves the original anchor method across all measured metrics. Combining low-dimensional embeddings and a regularized objective results in computational downsides with small or no improvements to the metrics measured.
|
2 |
ENHANCING METHODS FOR ANALYZING AND INTERPRETING PATIENT-REPORTED OUTCOMES IN CLINICAL RESEARCH AND EVIDENCE-BASED DECISION MAKINGDevji, Tahira 23 May 2019 (has links)
In deciding whether to use a particular treatment for conditions such as depression,
arthritis, or heart disease, clinicians and patients must balance the benefits against
the side effects and burden. To make this trade-off, they must understand the likely
degree of benefit in patients’ symptoms and perceived wellbeing, best undertaken
using patient-reported outcomes (PROs). PROs are measures of any aspect of a
patients’ health status that are obtained from direct patient inquiry without
interpretation by a clinician or anyone else. PRO measures (PROMs) are
increasingly used in clinical trials and systematic reviews to evaluate health care
interventions, and information obtained from PROMs can guide clinical decisions
and inform shared-decision making. The use of PROMs, however, involves
challenges, the most important of which is deciding if a particular treatment effect
is trivial, small but important, moderate or large. One way to make this judgment is
to consider the minimal important difference (MID), the smallest change in a
PROM score that is important enough that patients would consider a change in
treatment to achieve that benefit. The number of published studies providing
anchor-based MIDs for PROMs has grown rapidly over the last three decades, and
researchers have proposed several anchor-based methods to derive MID estimates,
each with its own merits and limitations. This thesis begins with the development
of a framework to determine the extent to which the design and conduct of studies
measuring anchor-based MIDs are likely to have protected against misleading
estimates. Subsequently, this thesis presents a comprehensive inventory of
empirically estimated anchor-based MIDs and their associated credibility for all
PROMs published in the medical literature. Further, this thesis highlights critical
issues that key stakeholders should consider, and demonstrates how the use of
credible MIDs may inform the development of a clinical practice guideline in which
PROs were identified as critically important. Finally, this thesis concludes with
insights to improve the methodological quality and transparency for researchers in
the PRO and MID field. / Thesis / Doctor of Philosophy (PhD)
|
3 |
Détermination du sens clinique d'un changement pour les questionnaires de qualité de vie relative à la santé en cancérologie / Determination of the clinical sense of a change for the health related quality of life questionnaires in oncologyOusmen, Ahmad 08 February 2019 (has links)
En cancérologie, la qualité de vie relative à la santé (QdV) est considérée comme second critère de jugement principal dans les essais cliniques en l’absence d’effet sur la survie globale. L’interprétation des scores de QdV et d’une différence de scores cliniquement pertinente entre deux temps de mesure est un problème majeur en QdV. Cette différence peut être significative d’un point de vue statistique sans être cliniquement significative du point de vue du patient. La différence minimale cliniquement importante (DMCI) a ainsi été définie comme la plus petite différence de score de QdV qui serait considérée comme ayant un sens clinique pour le patient. L’analyse longitudinale de la QdV est complexe, en particulier en raison de l’occurrence de l’effet « Response Shift » qui est susceptible de biaiser les résultats d’analyse longitudinal et en particulier les résultats de la DMCI. Dans ce contexte, le premier objectif de ce travail de thèse est une revue de la littérature concernant la détermination de la DMCI selon les méthodes les plus couramment utilisées : les méthodes basées sur l’ancre et les méthodes basées sur la distribution. Deuxièmement, calculer la DMCI par les méthodes basées sur l’ancre et la distribution en appliquant différents critères de distribution et plusieurs ancres différentes. L’objectif est de comparer les résultats obtenus par les différentes méthodes et de les comparer également avec les résultats obtenus par les études antérieures. Enfin, étudier l’impact de l’occurrence de l’effet Response Shift sur la détermination de la DMCI pour les questionnaires de QdV en cancérologie. / In oncology, the health-related quality of life (HRQOL) is generally considered as a second endpoint in the clinical trials. The interpretation of the results of the longitudinal analysis of such data must be made in both statistical and clinical point of view in order to produce meaningful results for both patients and clinicians. The main objective is to assess the impact of the treatment on patient’s HRQOL level over time. The minimal clinically important difference (MCID) was defined as the smallest change between two scores in a treatment outcome that a patient would identify as important. Indeed, the longitudinal analysis of HRQOL remains complex, particularly due to the potential occurrence of a Response Shift effect characterizing the process of adaptation of the patient in relation to the illness and its treatment. Hence, the first objective of this work is a literature review concerning the determination of the MCID by the most commonly used methods: anchor-based and distribution-based methods. Secondly, calculating the MCID using anchor-based and distribution-based methods by applying different distribution criteria and several different anchors. The objective is to compare the results obtained by the different methods and to compare them to others obtained by previous studies. Finally, studying the impact of the Response Shift effect on the determination of MCID for the HRQOL questionnaires in cancer research using several data corresponding to different therapeutic situations and cancer locations.
|
4 |
Algorithmes de comparaison de génomes appliqués aux génomes bactériens / Algorithms for the comparisons of genomic sequences applied to bacterial genomesUricaru, Raluca 14 December 2010 (has links)
Avec plus de 1000 génomes complets disponibles (la grande majorité venant de bactéries), les analyses comparatives de génomes deviennent indispensables pour leurs annotations fonctionnelles, ainsi que pour la compréhension de leur structure et leur évolution, et s'appliquent par exemple en phylogénomique ou au design des vaccins. L'une des approches de plus utilisées pour comparer des génomes est l'alignement de leurs séquences d'ADN, i.e. alignement de génomes complets, c'est à dire identifier les régions de similarité en s'affranchissant de toute annotation. Malgré des améliorations significatives durant les dernières années, des outils performants pour cette approche ainsi que des méthodes pour l'estimation de la qualité des résultats qu'elle produit, en particulier sur les génomes bactériens, restent encore à développer. Outre leurs grandes tailles qui rendent les solutions classiques basées sur la programmation dynamique inutilisables, l'alignement de génomes complets posent des difficultés supplémentaires dues à leur évolution particulière, comprenant: la divergence, qui estompe les similarités entre les séquences, le réordonnancent des portions génomiques (réarrangements), ou l'acquisition de matériel génétique extérieur, qui produit des régions non alignables entres les séquences, e.g. transfert horizontal des gènes, phages. En conséquence, les solutions pour l'alignement de génomes sont des heuristiques, dont la plus commune est appelée stratégie basée sur des ancres. Cette stratégie commence par identifier un ensemble initial de régions de similarité (phase 1). Ensuite une phase de chaînage sélectionne un sous-ensemble (non-chevauchantes et généralement colinéaires) de ces similarités de poids maximal, nommées ancres (phase 2). Les phases 1 et 2 sont appliquées de manière récursive sur les régions encore non-alignées (phase 3). La dernière phase consiste en l'application systématique des outils d'alignement classiques sur toutes les régions courtes qui n'ont pas encore été alignées. Cette thèse adresse plusieurs problèmes liés à l'alignement de génomes complets dont: l'évaluation de la qualité des résultats produits par les outils d'alignement et l'amélioration de la stratégie basée sur des ancres. Premièrement, nous avons créé un protocole pour évaluer la qualité des résultats d'alignement, contenant des mesures de calcul quantitatives et qualitatives, dont certaines basées sur des connaissances biologiques. Une analyse de la qualité des alignements produits par deux des principaux outils existants sur des paires de génomes bactériens intra-espèces révèle leurs limitations: des similarités non détectées et des portions d'alignement incorrectes. À partir de ces résultats, qui suggèrent un manque de sensibilité et spécificité, nous proposons un nouvel outil pour l'alignement deux à deux de génomes complets, YOC, qui implémente une version simplifiée de la stratégie basée sur des ancres, contenant seulement deux phases. Dans la phase 1, YOC améliore la sensibilité en utilisant comme ancres, pour la première fois dans cette stratégie, des similarités locales basées sur des graines espacées, capables de détecter des similarités plus longues dans des régions plus divergentes. Cette phase est suivie par une méthode de chainage adaptée aux similarités locales, un nouveau type de chaînage colinéaire, permettant des chevauchements proportionnels. Nous avons donné une formulation de ce nouveau problème et réalisé un premier algorithme. L'algorithme, qui adopte une approche de programmation dynamique basée sur le paradigme de la ``sweep-line'', donne une solution optimale, i.e. est exacte, et s'exécute en temps quadratique. Nous avons montré que cet algorithme, comparé au chainage colinéaire classique, améliore les résultats sur des génomes bactériens, tout en restant aussi efficace en pratique. / With more than 1000 complete genomes available (among which, the vast majority come from bacteria), comparative genomic analysis become essential for the functional annotation of genomes, the understanding of their structure and evolution and have applications in phylogenomics or vaccine design. One of the main approaches for comparing genomes is by aligning their DNA sequences, i.e. whole genome alignment (WGA), which means identifying the similarity regions without any prior annotation knowledge. Despite the significant improvements during the last years, reliable tools for WGA and methodology for estimating its quality, in particular for bacterial genomes, still need to be designed. Besides their extremely large lengths that make classical dynamic programming alignment methods unsuitable, aligning whole genomes involves several additional difficulties, due to the mechanisms through which genomes evolve: the divergence, which let sequence sim ilarity vanish over time, the reordering of genomic segments (rearrangements), or the acquisition of external genetic material generating regions that are unalignable between sequences, e.g. horizontal gene transfer, phages. Therefore, whole genome alignment tools implement heuristics, among which the most common is the anchor based strategy. It starts by detecting an initial set of similarity regions (phase 1), and, through a chaining phase (phase 2), selects a non-overlapping maximum-weighted, usually collinear, subset of those similarities, called anchors. Phases 1 and 2 are recursively applied on yet unaligned regions (phase 3). The last phase (phase 4) consists in systematically applying classical alignment tools to all short regions still left unaligned.This thesis addresses several problems related to whole genome alignment: the evaluation of the quality of results given by WGA tools and the improvement of the classical anchor based strategy. We first designed a protocol for evaluating the quality of alignment results, based on both computational and biological measures. An evaluation of the results given by two state of the art WGA tools on pairs of intra-species bacterial genomes revealed their shortcomings: the failure of detecting some of the similarities between sequences and the misalignment of some regions. Based on these results, which imply a lack in both sensitivity and specificity, we propose a novel, pairwise whole genome alignment tool, YOC, implementing a simplified two-phase version of the anchor strategy. In phase 1, YOC improves sensitivity by using as anchors, for the first time, local similarities based on spaced seeds that are capable of detecting larger similarity regions in divergent sequences. This ph ase is followed by a chaining method adapted to local similarities, a novel type of collinear chaining, allowing for proportional overlaps. We give a formulation for this novel problem and provide the first algorithm for it. The algorithm, implementing a dynamic programming approach based on the sweep-line paradigm, is exact and runs in quadratic time. We show that, compared to classical collinear chaining, chaining with overlaps improves on real bacterial data, while remaining almost as efficient in practice. Our novel tool, YOC, is evaluated together with other four WGA tools on a dataset composed of 694 pairs of intra-species bacterial genomes. The results show that YOC improves on divergent cases by detecting more distant similarities and by avoiding misaligned regions. In conclusion, YOC should be easier to apply automatically and systematically to incoming genomes, for it does not require a post-filtering step to detect misalignment and is less complex to calibrate.
|
Page generated in 0.0365 seconds