1 |
Statistical modelling of spatio-temporal dependencies in NGS dataRanciati, Saverio <1988> January 1900 (has links)
Next-generation sequencing (NGS) has rapidly become the current standard in genetic related analysis. This switch from microarray to NGS required new statistical strategies to address the research questions inherent to the considered phenomena. First and foremost, NGS dataset usually consist of discrete observations characterized by overdispersion - that is, discrepancy between expected and observed variability - and an abundance of zeros, measured across a huge number of regions of the genome. With respect to chromatin immunoprecipitation sequencing (ChIP-Seq), a class of NGS data, it is of primary focus to discover the underlying (unobserved) pattern of `enrichment': more particularly, there is interest in the interactions between genes (or broader regions of the genome) and proteins, as they describe the mechanism of regulation under different conditions such as healthy or damaged tissue. Another interesting research question involves the clustering of these observations into groups that have practical relevance and interpretability, considering in particular that a single unit could potentially be allocated into more than one of these clusters, as it is reasonable to assume that its participation is not exclusive to one and only biological function and/or mechanism. Many of these complex processes, indeed, could also be described by sets of ordinary differential equations (ODE's), which are mathematical representations of the changes of a system through time, following a dynamic that is governed by some parameters we are interested in. In this thesis, we address the aforementioned tasks and research questions employing different statistical strategies, such as model-based clustering, graphical models, penalized smoothing and regression. We propose extensions of the existing approaches to better fit the problem at hand and we elaborate the methodology in a Bayesian environment, with the focus on incorporating the structural dependencies - both spatial and temporal - of the data at our disposal.
|
2 |
Statistical Inference in Open Quantum SystemsNovelli, Marco <1985> January 1900 (has links)
This thesis concerns the statistical analysis of open quantum systems subject to an external and non-stationary perturbation.
In the first paper, a generalization of the explicit-duration hidden Markov models (EDHMM) which takes into account the presence of sparse data is presented. Introducing a kernel estimator in the estimation procedure increases the accuracy of the estimates, and thus allows one to obtain a more reliable information about the evolution of the unobservable system.
A generalization of the Viterbi algorithm to EDHMM is developed.
In the second paper, we develop a Markov Chain Monte Carlo (MCMC) procedure for estimating the EDHMM. We improve the flexibility of our formulation by adopting a Bayesian model selection procedure which allows one to avoid a direct specification of the number of states of the hidden chain.
Motivated by the presence of sparsity, we make use of a non-parametric estimator to obtain more accurate estimates of the model parameters. The formulation presented turns out to be straightforward to implement, robust against the underflow problem and provides accurate estimates of the parameters.
In the third paper, an extension of the Cramér-Rao inequality for quantum discrete parameter models is derived. The latter are models in which the parameter space is restricted to a finite set of points.
In some estimation problems indeed, theory provides us with additional information
that allow us to restrict the parameter space to a finite set of points.
The extension presented sets the ultimate accuracy of an estimator, and determines a discrete counterpart of the quantum Fisher information. This is particularly useful in many experiments in which the parameters can assume only few different values: for example, the direction which the magnetic field points to. We also provide an illustration related to a quantum optics problem.
|
3 |
Statistical Analysis of a Close Von Karman FlowPons, Flavio Maria Emanuele <1986> January 1900 (has links)
This thesis addresses the statistical modeling of turbulence, focusing on three main aspects: the critical transition from laminarity to turbulence, the effects of the so-called intermittency and the energy dynamics of a turbulent flow.
The central part of the thesis consists of six papers, divided into two parts.
In Part I we develop two new indices to quantify the proximity to critical transitions in stochastic dynamical systems, with particular attention to the transition from laminarity to turbulence in fluids (Paper A). The two indices are tested on two toy models and then applied to the detection of critical events in a magnetised fluid and in financial time series.
We define a third index Y, which quantifies the effects of intermittency and does not require very long time series. This index turns out to be effective in recovering the structure of the turbulent flow (Papers B, C). In Paper D we show that Y is also sensitive to the turbulent behavior of financial markets, providing a possible early warning indicator of the proximity to critical events.
In Part II we introduce a new local observable as the arrival times of tracer particles at a particular point in the fluid as a proxy of the turbulent velocity field.
We model the universal self-organising structure of this observable in an effective and parsimonious way.
In the second paper of Part II, we model the continuous-time dynamics of the energy budget of the turbulent field. We show that this observable can be characterised as the exponential of a stochastic integral on a Lévy basis, under the assumption that the energy transmission across time scales is a multiplicative cascade process.
|
4 |
Large Covariance Matrix Estimation by Composite MinimizationFarne', Matteo <1988> January 1900 (has links)
The present thesis concerns large covariance matrix estimation via composite minimization under the assumption of low rank plus sparse structure.
Existing methods like POET (Principal Orthogonal complEment Thresholding) perform estimation
by extracting principal components and then applying a soft thresholding algorithm.
In contrast, our method recovers the low rank plus sparse decomposition of the covariance matrix
by least squares minimization under nuclear norm plus $l_1$ norm penalization.
This non-smooth convex minimization procedure is based on semidefinite programming and subdifferential methods,
resulting in two separable problems solved by a singular value thresholding plus soft thresholding algorithm.
The most recent estimator in literature is called LOREC (Low Rank and sparsE Covariance estimator) and provides non-asymptotic error rates as well as identifiability conditions in the context of algebraic geometry.
Our work shows that the unshrinkage of the estimated eigenvalues of the low rank component improves the performance of LOREC considerably.
The same method also recovers covariance structures with very spiked latent eigenvalues like in the POET setting, thus overcoming the necessary condition $p\leq n$.
In addition, it is proved that our method recovers structures with intermediate degrees of spikiness, obtaining a loss which is bounded accordingly.
Then, an ad hoc model selection criterion which detects the optimal point in terms of composite penalty is proposed. Empirical results coming from a wide original simulation study where various low rank plus sparse settings are simulated according to different parameter values are described outlining in detail the improvements upon existing methods. Two real data-sets are finally explored highlighting the usefulness of our method in practical applications.
|
5 |
Item Response Theory models for the competence evaluation: towards a multidimensional approach in the University guidanceMatteucci, Mariagiulia <1980> 26 March 2007 (has links)
No description available.
|
6 |
Automated Local Linear Embedding with an application to microarray dataGrilli, Elisa <1977> 26 March 2007 (has links)
No description available.
|
7 |
Analisi spaziale della longevità in Emilia-RomagnaMarino, Massimiliano <1973> 02 April 2008 (has links)
Negli ultimi anni la longevità è divenuto un argomento di notevole interesse in
diversi settori scientifici. Le ricerche volte ad indagare i meccanismi che regolano i
fattori della longevità si sono moltiplicate nell’ultimo periodo interessando, in maniera
diversa, alcune regioni del territorio italiano. Lo studio presentato nella tesi ha
l’obiettivo di identificare eventuali aggregazioni territoriali caratterizzate da una
significativa propensione alla longevità nella regione Emilia-Romagna mediante
l’impiego di metodologie di clustering spaziale, alcune delle quali di recente
implementazione.
La popolazione in esame è costituita dagli individui residenti in Emilia-
Romagna nel quinquennio 2000-2004 suddivisa in classi di età, sesso e comune.
L’analisi è di tipo puramente spaziale, in cui l’unità geografica elementare è
identificata dal comune, ed è stata condotta separatamente per i due sessi.
L’identificazione delle aree regionali ad elevata longevità è avvenuta utilizzando
quattro metodologie di clustering spaziale, basate sulla teoria della massima
verosimiglianza, che si differenziano tra loro per la modalità di ricerca dei potenziali
clusters. La differenza consiste nella capacità di identificare aggregazioni territoriali di
forma regolare (spatial scan statistic, Kulldorff e Nagarwalla,1995; Kulldorff,1997,
1999) o dall’andamento geometrico “libero” (flexible scan statistic, Tango e
Takahashi,2005; algoritmo genetico, Duczmal et al.,2007; greedy growth search,
Yiannakoulias et al.,2007). Le caratteristiche di ciascuna metodologia consentono, in
tal modo, di “catturare” le possibili conformazioni geografiche delle aggregazioni
presenti sul territorio e la teoria statistica di base, comune ad esse, consente di
effettuare agevolmente un confronto tra i risultati ottenuti. La persistenza di un’area
caratterizzata da un’elevata propensione alla longevità consente, infatti, di ritenere il
cluster identificato di notevole interesse per approfondimenti successivi. Il criterio
utilizzato per la valutazione della persistenza di un cluster è stato derivato dalla teoria
dei grafi, con particolare riferimento ai multigrafi. L’idea è confrontare, a parità di
parametri di ricerca, i grafi associati alle aggregazioni spaziali identificate con le
diverse metodologie attraverso una valutazione delle occorrenze dei collegamenti
esistenti tra le coppie di vertici.
Alcune valutazioni di carattere demografico ed un esame della letteratura
esistente sugli studi di longevità, hanno indotto alla definizione di una classe (aperta)
di età per rappresentare il fenomeno nella nostra ricerca: sono stati considerati gli
individui con età superiore o uguale a 95 anni (indicata con 95+). La misura di sintesi
utilizzata per descrivere il fenomeno è un indicatore specifico di longevità, mutuato
dalla demografia, indicato con Centenarian Rate (CR) (Robine e Caselli, 2005). Esso
è definito dal rapporto tra la popolazione 95+ e la popolazione residente, nello stesso
comune, al censimento del 1961. L’idea alla base del CR è confrontare gli individui
longevi di un istante temporale con quelli presenti, nella stessa area, circa 40 anni
prima dell’osservazione, ipotizzando che l’effetto migratorio di una popolazione
possa ritenersi trascurabile oltre i 60 anni di età.
La propensione alla longevità coinvolge in maniera diversa le aree del
territorio dell’Emilia-Romagna. Le province della regione caratterizzate da una
maggiore longevità sono Bologna, Ravenna e parte di Forlì-Cesena mentre la
provincia di Ferrara si distingue per un livello ridotto del fenomeno. La distinzione per
sesso non appare netta: gli uomini con età 95+, numericamente inferiori alle donne,
risiedono principalmente nei comuni delle province di Bologna e Ravenna, con
qualche estensione nel territorio forlivese, analogamente a quanto accade per la
popolazione femminile che mostra, tuttavia, una maggiore prevalenza nei territori di
Bologna e Forlì-Cesena, includendo alcune aree del riminese. Le province
occidentali della regione, invece, non risultano interessate significativamente da
questo fenomeno.
Le metodologie di cluster detection utilizzate nello studio hanno prodotto
risultati pressoché simili seppur con criteri di ricerca differenti. La spatial scan
statistic si conferma una metodologia efficace e veloce ma il vincolo geometrico
regolare imposto al cluster condiziona il suo utilizzo, rivelando una scarsa adattabilità
nell’identificazione di aggregazioni irregolari. La metodologia FSC ha evidenziato
buone capacità di ricerca e velocità di esecuzione, completata da una descrizione
chiara e dettagliata dei risultati e dalla possibilità di poter visualizzare graficamente i
clusters finali, anche se con un livello minimo di dettaglio. Il limite principale della
metodologia è la dimensione ridotta del cluster finale: l’eccessivo impegno
computazionale richiesto dalla procedura induce a fissare il limite massimo al di sotto
delle 30 aree, rendendola così utilizzabile solo nelle indagini in cui si ipotizza
un’estensione limitata del fenomeno sul territorio. L’algoritmo genetico GA si rivela
efficace nell’identificazione di clusters di qualsiasi forma ed estensione, seppur con
una velocità di esecuzione inferiore rispetto alle procedure finora descritte. Senza
un’adeguata selezione dei parametri di ricerca,la procedura può individuare clusters
molto irregolari ed estesi, consigliando l’uso di penalizzazione non nulla in fase di
ricerca. La scelta dei parametri di ricerca non è comunque agevole ed immediata e,
spesso, è lasciata all’esperienza del ricercatore. Questo modo di procedere, in
aggiunta alla mancanza di informazioni a priori sul fenomeno, aumenta il grado di
soggettività introdotto nella selezione dei parametri influenzando i risultati finali.
Infine, la metodologia GGS richiede un carico computazionale nettamente superiore
rispetto a quello necessario per le altre metodologie utilizzate e l’introduzione di due
parametri di controllo favorisce una maggiore arbitrarietà nella selezione dei valori di
ricerca adeguati; inoltre, la recente implementazione della procedura e la mancanza
di studi su dati reali inducono ad effettuare un numero maggiore di prove durante la
fase di ricerca dei clusters.
|
8 |
Esperimenti per modelli parzialmente lineari con applicazione ai computer experimentsZagoraiou, Maroussa <1979> 02 April 2008 (has links)
No description available.
|
9 |
Valutazione della persistenza in trattamento antiipertensivo: un’analisi multilivello paziente-medico attraverso modelli con effetti casualiDi Martino, Mirko <1976> 02 April 2008 (has links)
Introduzione
L’importanza clinica, sociale ed economica del trattamento dell’ipertensione
arteriosa richiede la messa in opera di strumenti di monitoraggio dell’uso dei
farmaci antiipertensivi che consentano di verificare la trasferibilità alla pratica
clinica dei dati ottenuti nelle sperimentazioni.
L’attuazione di una adatta strategia terapeutica non è un fenomeno
semplice da realizzare perché le condizioni in cui opera il Medico di Medicina
Generale sono profondamente differenti da quelle che si predispongono
nell’esecuzione degli studi randomizzati e controllati. Emerge, pertanto, la
necessità di conoscere le modalità con cui le evidenze scientifiche trovano reale
applicazione nella pratica clinica routinaria, identificando quei fattori di disturbo
che, nei contesti reali, limitano l’efficacia e l’appropriatezza clinica.
Nell’ambito della terapia farmacologica antiipertensiva, uno di questi
fattori di disturbo è costituito dalla ridotta aderenza al trattamento. Su questo
tema, recenti studi osservazionali hanno individuato le caratteristiche del paziente
associate a bassi livelli di compliance; altri hanno focalizzato l’attenzione sulle
caratteristiche del medico e sulla sua capacità di comunicare ai propri assistiti
l’importanza del trattamento farmacologico.
Dalle attuali evidenze scientifiche, tuttavia, non emerge con chiarezza il
peso relativo dei due diversi attori, paziente e medico, nel determinare i livelli di
compliance nel trattamento delle patologie croniche.
Obiettivi
Gli obiettivi principali di questo lavoro sono: 1) valutare quanta parte della
variabilità totale è attribuibile al livello-paziente e quanta parte della variabilità è
attribuibile al livello-medico; 2) spiegare la variabilità totale in funzione delle
caratteristiche del paziente e in funzione delle caratteristiche del medico.
Materiale e metodi
Un gruppo di Medici di Medicina Generale che dipendono dall’Azienda Unità
Sanitaria Locale di Ravenna si è volontariamente proposto di partecipare allo
studio. Sono stati arruolati tutti i pazienti che presentavano almeno una
misurazione di pressione arteriosa nel periodo compreso fra il 01/01/1997 e il
31/12/2002. A partire dalla prima prescrizione di farmaci antiipertensivi
successiva o coincidente alla data di arruolamento, gli assistiti sono stati osservati
per 365 giorni al fine di misurare la persistenza in trattamento. La durata del
trattamento antiipertensivo è stata calcolata come segue: giorni intercorsi tra la
prima e l’ultima prescrizione + proiezione, stimata sulla base delle Dosi Definite
Giornaliere, dell’ultima prescrizione. Sono stati definiti persistenti i soggetti che
presentavano una durata del trattamento maggiore di 273 giorni.
Analisi statistica
I dati utilizzati per questo lavoro presentano una struttura gerarchica nella quale i
pazienti risultano “annidati” all’interno dei propri Medici di Medicina Generale.
In questo contesto, le osservazioni individuali non sono del tutto indipendenti
poiché i pazienti iscritti allo stesso Medico di Medicina Generale tenderanno ad
essere tra loro simili a causa della “storia comune” che condividono. I test
statistici tradizionali sono fortemente basati sull’assunto di indipendenza tra le
osservazioni. Se questa ipotesi risulta violata, le stime degli errori standard
prodotte dai test statistici convenzionali sono troppo piccole e, di conseguenza, i
risultati che si ottengono appaiono “impropriamente” significativi.
Al fine di gestire la non indipendenza delle osservazioni, valutare
simultaneamente variabili che “provengono” da diversi livelli della gerarchia e al
fine di stimare le componenti della varianza per i due livelli del sistema, la
persistenza in trattamento antiipertensivo è stata analizzata attraverso modelli
lineari generalizzati multilivello e attraverso modelli per l’analisi della
sopravvivenza con effetti casuali (shared frailties model).
Discussione dei risultati
I risultati di questo studio mostrano che il 19% dei trattati con antiipertensivi ha
interrotto la terapia farmacologica durante i 365 giorni di follow-up. Nei nuovi
trattati, la percentuale di interruzione terapeutica ammontava al 28%.
Le caratteristiche-paziente individuate dall’analisi multilivello indicano
come la probabilità di interrompere il trattamento sia più elevata nei soggetti che
presentano una situazione clinica generale migliore (giovane età, assenza di
trattamenti concomitanti, bassi livelli di pressione arteriosa diastolica). Questi
soggetti, oltre a non essere abituati ad assumere altre terapie croniche,
percepiscono in minor misura i potenziali benefici del trattamento antiipertensivo
e tenderanno a interrompere la terapia farmacologica alla comparsa dei primi
effetti collaterali. Il modello ha inoltre evidenziato come i nuovi trattati presentino
una più elevata probabilità di interruzione terapeutica, verosimilmente spiegata
dalla difficoltà di abituarsi all’assunzione cronica del farmaco in una fase di
assestamento della terapia in cui i principi attivi di prima scelta potrebbero non
adattarsi pienamente, in termini di tollerabilità, alle caratteristiche del paziente.
Anche la classe di farmaco di prima scelta riveste un ruolo essenziale nella
determinazione dei livelli di compliance. Il fenomeno è probabilmente legato ai
diversi profili di tollerabilità delle numerose alternative terapeutiche.
L’appropriato riconoscimento dei predittori-paziente di discontinuità (risk
profiling) e la loro valutazione globale nella pratica clinica quotidiana potrebbe
contribuire a migliorare il rapporto medico-paziente e incrementare i livelli di
compliance al trattamento.
L’analisi delle componenti della varianza ha evidenziato come il 18% della
variabilità nella persistenza in trattamento antiipertensivo sia attribuibile al livello
Medico di Medicina Generale. Controllando per le differenze demografiche e
cliniche tra gli assistiti dei diversi medici, la quota di variabilità attribuibile al
livello medico risultava pari al 13%.
La capacità empatica dei prescrittori nel comunicare ai propri pazienti
l’importanza della terapia farmacologica riveste un ruolo importante nel
determinare i livelli di compliance al trattamento. La crescente presenza, nella
formazione dei medici, di corsi di carattere psicologico finalizzati a migliorare il
rapporto medico-paziente potrebbe, inoltre, spiegare la relazione inversa,
particolarmente evidente nella sottoanalisi effettuata sui nuovi trattati, tra età del
medico e persistenza in trattamento.
La proporzione non trascurabile di variabilità spiegata dalla struttura in
gruppi degli assistiti evidenzia l’opportunità e la necessità di investire nella
formazione dei Medici di Medicina Generale con l’obiettivo di sensibilizzare ed
“educare” i medici alla motivazione ma anche al monitoraggio dei soggetti trattati,
alla sistematica valutazione in pratica clinica dei predittori-paziente di
discontinuità e a un appropriato utilizzo della classe di farmaco di prima scelta.
Limiti dello studio
Uno dei possibili limiti di questo studio risiede nella ridotta rappresentatività del
campione di medici (la partecipazione al progetto era su base volontaria) e di
pazienti (la presenza di almeno una misurazione di pressione arteriosa, dettata dai
criteri di arruolamento, potrebbe aver distorto il campione analizzato,
selezionando i pazienti che si recano dal proprio medico con maggior frequenza).
Questo potrebbe spiegare la minore incidenza di interruzioni terapeutiche rispetto
a studi condotti, nella stessa area geografica, mediante database amministrativi di
popolazione.
Conclusioni
L’analisi dei dati contenuti nei database della medicina generale ha consentito di
valutare l’impiego dei farmaci antiipertensivi nella pratica clinica e di stabilire la
necessità di porre una maggiore attenzione nella pianificazione e nell’ottenimento
dell’obiettivo che il trattamento si prefigge. Alla luce dei risultati emersi da questa
valutazione, sarebbe di grande utilità la conduzione di ulteriori studi
osservazionali volti a sostenere il progressivo miglioramento della gestione e del
trattamento dei pazienti a rischio cardiovascolare nell’ambito della medicina
generale.
|
10 |
Analyzing the dependence structure of microarray data: a copula–based approachDi Lascio, Francesca Marta Lilja <1979> 02 April 2008 (has links)
The main aim of this Ph.D. dissertation is the study of clustering dependent data by means of copula
functions with particular emphasis on microarray data. Copula functions are a popular multivariate modeling
tool in each field where the multivariate dependence is of great interest and their use in clustering has not
been still investigated.
The first part of this work contains the review of the literature of clustering methods, copula functions
and microarray experiments. The attention focuses on the K–means (Hartigan, 1975; Hartigan and Wong,
1979), the hierarchical (Everitt, 1974) and the model–based (Fraley and Raftery, 1998, 1999, 2000, 2007)
clustering techniques because their performance is compared. Then, the probabilistic interpretation of the
Sklar’s theorem (Sklar’s, 1959), the estimation methods for copulas like the Inference for Margins (Joe and
Xu, 1996) and the Archimedean and Elliptical copula families are presented. In the end, applications of
clustering methods and copulas to the genetic and microarray experiments are highlighted.
The second part contains the original contribution proposed. A simulation study is performed in order to
evaluate the performance of the K–means and the hierarchical bottom–up clustering methods in identifying
clusters according to the dependence structure of the data generating process. Different simulations are
performed by varying different conditions (e.g., the kind of margins (distinct, overlapping and nested) and
the value of the dependence parameter ) and the results are evaluated by means of different measures of
performance.
In light of the simulation results and of the limits of the two investigated clustering methods, a new
clustering algorithm based on copula functions (‘CoClust’ in brief) is proposed. The basic idea, the iterative
procedure of the CoClust and the description of the written R functions with their output are given. The
CoClust algorithm is tested on simulated data (by varying the number of clusters, the copula models, the
dependence parameter value and the degree of overlap of margins) and is compared with the performance
of model–based clustering by using different measures of performance, like the percentage of well–identified
number of clusters and the not rejection percentage of H0 on .
It is shown that the CoClust algorithm allows to overcome all observed limits of the other investigated
clustering techniques and is able to identify clusters according to the dependence structure of the data
independently of the degree of overlap of margins and the strength of the dependence. The CoClust uses
a criterion based on the maximized log–likelihood function of the copula and can virtually account for
any possible dependence relationship between observations. Many peculiar characteristics are shown for the
CoClust, e.g. its capability of identifying the true number of clusters and the fact that it does not require a
starting classification.
Finally, the CoClust algorithm is applied to the real microarray data of Hedenfalk et al. (2001) both to
the gene expressions observed in three different cancer samples and to the columns (tumor samples) of the
whole data matrix.
|
Page generated in 0.0859 seconds