Spelling suggestions: "subject:"dequence clustering"" "subject:"1sequence clustering""
1 |
Model-based data mining methods for identifying patterns in biomedical and health dataHilton, Ross P. 07 January 2016 (has links)
In this thesis we provide statistical and model-based data mining methods for pattern detection with applications to biomedical and healthcare data sets. In particular, we examine applications in costly acute or chronic disease management. In Chapter II,
we consider nuclear magnetic resonance experiments in which we seek to locate and demix smooth, yet highly localized components in a noisy two-dimensional signal. By using
wavelet-based methods we are able to separate components from the noisy background, as well as from other neighboring components. In Chapter III, we pilot methods for identifying
profiles of patient utilization of the healthcare system from large, highly-sensitive, patient-level data. We combine model-based data mining methods with clustering analysis
in order to extract longitudinal utilization profiles. We transform these profiles into simple visual displays that can inform policy decisions and quantify the potential cost savings of
interventions that improve adherence to recommended care guidelines. In Chapter IV, we propose new methods integrating survival analysis models and clustering analysis to profile
patient-level utilization behaviors while controlling for variations in the population’s demographic and healthcare characteristics and explaining variations in utilization due to different state-based Medicaid programs, as well as access and urbanicity measures.
|
2 |
Vyhledávání podobností v síťových bezpečnostních hlášeních / Similarity Search in Network Security AlertsŠtoffa, Imrich January 2020 (has links)
Network monitoring systems generate a high number of alerts reporting on anomalies and suspicious activity of IP addresses. From a huge number of alerts, only a small fraction is high priority and relevant from human evaluation. The rest is likely to be neglected. Assume that by analyzing large sums of these low priority alerts we can discover valuable information, namely, coordinated IP addresses and type of alerts likely to be correlated. This knowledge improves situational awareness in the field of network monitoring and reflects the requirement of security analysts. They need to have at their disposal proper tools for retrieving contextual information about events on the network, to make informed decisions. To validate the assumption new method is introduced to discover groups of coordinated IP addresses that exhibit temporal correlation in the arrival pattern of their events. The method is evaluated on real-world data from a sharing platform that accumulates 2.2 million alerts per day. The results show, that method indeed detected truly correlated groups of IP addresses.
|
3 |
Étude et décontamination du transcriptome de novo du nématode doré Globodera rostochiensisLafond Lapalme, Joël January 2016 (has links)
Le nématode doré, Globodera rostochiensis, est un nématode phytoparasite qui peut infecter des plantes agricoles telles la pomme de terre, la tomate et l’aubergine. En raison des pertes de rendement considérables associées à cet organisme, il est justifiable de quarantaine dans plusieurs pays, dont le Canada. Les kystes du nématode doré protègent les œufs qu’ils contiennent, leur permettant de survivre (en état de dormance) jusqu’à 20 ans dans le sol. L’éclosion des œufs n’aura lieu qu’en présence d’exsudats racinaires d’une plante hôte compatible à proximité. Malheureusement, très peu de connaissances sont disponibles sur les mécanismes moléculaires liés à cette étape-clé du cycle vital du nématode doré.
Dans cet ouvrage, nous avons utilisé la technique RNA-seq pour séquencer tous les ARNm d’un échantillon de kystes du nématode doré afin d’assembler un transcriptome de novo (sans référence) et d’identifier des gènes jouant un rôle dans les mécanismes de survie et d’éclosion. Cette méthode nous a permis de constater que les processus d’éclosion et de parasitisme sont étroitement reliés. Plusieurs effecteurs impliqués dans le mouvement vers la plante hôte et la pénétration de la racine sont induits dès que le kyste est hydraté (avant même le déclenchement de l’éclosion).
Avec l’aide du génome de référence du nématode doré, nous avons pu constater que la majorité des transcrits du transcriptome ne provenaient pas du nématode doré. En effet, les kystes échantillonnés au champ peuvent contenir des contaminants (bactéries, champignons, etc.) sur leur paroi et même à l’intérieur du kyste. Ces contaminants seront donc séquencés et assemblés avec le transcriptome de novo. Ces transcrits augmentent la taille du transcriptome et induisent des erreurs lors des analyses post-assemblages. Les méthodes de décontamination actuelles utilisent des alignements sur des bases de données d’organismes connus pour identifier ces séquences provenant de contaminants. Ces méthodes sont efficaces lorsque le ou les contaminants sont connus (possède un génome de référence) comme la contamination humaine. Par contre, lorsque le ou les contaminants sont inconnus, ces méthodes deviennent insuffisantes pour produire un transcriptome décontaminé de qualité.
Nous avons donc conçu une méthode qui utilise un algorithme de regroupement hiérarchique des séquences. Cette méthode produit, de façon récursive, des sous-groupes de séquences homogènes en fonction des patrons fréquents présents dans les séquences. Une fois les groupes créés, ils sont étiquetés comme contaminants ou non en fonction des résultats d’alignements du sous-groupe. Les séquences ambiguës ayant aucun ou plusieurs alignements différents sont donc facilement classées en fonction de l’étiquette de leur groupe. Notre méthode a été efficace pour décontaminer le transcriptome du nématode doré ainsi que d’autres cas de contamination. Cette méthode fonctionne pour décontaminer un transcriptome, mais nous avons aussi démontré qu’elle a le potentiel de décontaminer de courtes séquences brutes. Décontaminer directement les séquences brutes serait la méthode de décontamination optimale, car elle minimiserait les erreurs d’assemblage.
|
4 |
CLUSTERING AND VISUALIZATION OF GENOMIC DATASutharzan, Sreeskandarajan 26 July 2019 (has links)
No description available.
|
Page generated in 0.113 seconds