Mixed Effects Models For Time Series Gene Expression Data

Erkan, Ibrahim 01 December 2011 (has links) (PDF)
The experimental factors such as the cell type and the treatment may have different impact on expression levels of individual genes which are quantitative measurements from microarrays. The measurements can be collected at a few unevenly spaced time points with replicates. The aim of this study is to consider cell type, treatment and short time series attributes and to infer about their effects on individual genes. A mixed effects model (LME) was proposed to model the gene expression data and the performance of the model was validated by a simulation study. Realistic data sets were generated preserving the structure of the sample real life data studied by Nymark et al. (2007). Predictive performance of the model was evaluated by performance measures, such as accuracy, sensitivity and specificity, as well as compared to the competing method by Smyth (2004), namely Limma. Both methods were also compared on real life data. Simulation results showed that the predictive performance of LME is as high as 99%, and it produces False Discovery Rate (FDR) as low as 0.4% whereas Limma has an FDR value of at least 32%. Moreover, LME has almost 99% predictive capability on the continuous time parameter where Limma has only about 67% and even it cannot handle continuous independent variables.

Μελέτη της μακροχρόνιας παραμόρφωσης του φράγματος των Κρεμαστών με βάση ανάλυση γεωδαιτικών δεδομένων και μεταβολών στάθμης ταμιευτήρα / Study of the long-term behaviour of Kremasta dam based on the analysis of geodetic data and reservoir level fluctuations

Πυθαρούλη, Στυλιανή Ι. 23 October 2007 (has links)
Για τέσσερις τουλάχιστον δεκαετίες η παρακολούθηση (monitoring) των φραγμάτων αποτελεί βασική προϋπόθεση για τη διασφάλιση της σωστής λειτουργίας τους και την αποφυγή αστοχιών οι οποίες δεν είναι μεν πολύ συχνές έχουν όμως εξαιρετικά μεγάλη ένταση καταστροφικών αποτελεσμάτων, πρωτογενών και δευτερογενών. Η παρακολούθηση των φραγμάτων είναι ιδιαίτερα σημαντική κατά τη διάρκεια δύο περιόδων αυξημένου κινδύνου αστοχιών: (1) της πρώτης πλήρωσης (που μπορεί να επιτελείται τμηματικά, σε περιόδους που απέχουν μέχρι και δεκαετίες, όπως στην περίπτωση του φράγματος των Κρεμαστών) και (2) της γήρανσης (κατά μέσο όρο μερικές δεκαετίες μετά την πρώτη πλήρωση). Σημαντικό τμήμα της παρακολούθησης αυτής καλύπτουν γεωδαιτικές μέθοδοι που αφορούν την καταγραφή των μετακινήσεων σημείων ελέγχου εγκατεστημένων μόνιμα πάνω στο φράγμα με στόχο την ανίχνευση τυχόν παραμορφώσεων (αλλαγή της γεωμετρίας) στο σώμα του φράγματος αλλά και τυχόν μετατόπισή του από το πεδίο θεμελίωσης. Παρότι η συστηματική παρακολούθηση είναι εξαιρετικά διαδεδομένη, υπάρχει εξαιρετική σπάνις δεδομένων και συστηματικών μελετών σχετικά με τη μακροχρόνια συμπεριφορά των φραγμάτων για διάφορους λόγους (σκόπιμη απόκρυψη στοιχείων, κακή ποιότητα καταγραφών κτλ.). Στην πλειοψηφία τους τα διαθέσιμα στοιχεία αφορούν κυρίως την περίοδο της πρώτης πλήρωσης με τις μετακινήσεις να καλύπτουν διάστημα < 10 ετών. Βασικός στόχος της παρούσας διατριβής ήταν η μελέτη των γεωδαιτικών στοιχείων του Φράγματος Κρεμαστών, ενός από τα μεγαλύτερα χωμάτινα φράγματα στην Ευρώπη (ύψος 160m και μήκος στέψης 456m) και ενός φράγματος σε δυσμενές σεισμοτεκτονικό και γεωλογικό περιβάλλον (έντονη σεισμικότητα, ανομοιογενή θεμέλια, με υλικά διαπερατά και τεκτονισμένα), με σκοπό να διερευνηθούν: (1) Οι λεπτομέρειες της παραμόρφωσης του φράγματος βάσει μακροχρόνιων δεδομένων γεωδαιτικά καταγεγραμμένων μετατοπίσεων (> 30 ετών) (2) Ο συσχετισμός των μετακινήσεων με τη στάθμη της λίμνης, τη βροχόπτωση και μικροαστοχίες ή πλημμύρες που εμφανίστηκαν. Τα διαθέσιμα γεωδαιτικά στοιχεία κάλυπταν τη χρονική περίοδο Ιούνιος 1966 – Μάιος 2003 και περιελάμβαναν τις οριζόντιες αποκλίσεις από ευθυγραμμία και τις κατακόρυφες μετακινήσεις ως προς μια χωροσταθμική αφετηρία 25 σημείων ελέγχου εγκατεστημένων στη στέψη και τα πρανή του φράγματος. Ήταν επίσης διαθέσιμες οι παρατηρήσεις της στάθμης ταμιευτήρα και οι τιμές της βροχόπτωσης στην περιοχή του φράγματος. Οι συνολικές οριζόντιες αποκλίσεις των σημείων ελέγχου στη χρονική περίοδο που εξετάστηκε έφτασαν τα 30cm και οι συνολικές κατακόρυφες μετακινήσεις τα 77cm. Η ακρίβεια των μετακινήσεων εκτιμήθηκε πολύ καλύτερη από 1mm για τις οριζόντιες αποκλίσεις και 1.3mm για τις κατακόρυφες μετακινήσεις. Από την ανάλυση στο πεδίο του χρόνου προέκυψε ότι οι παρατηρήσεις μπορούν να προσεγγιστούν με ένα πολυώνυμο 4ου βαθμού εντός του χρονικού διαστήματος που καλύπτουν οι μετρήσεις. Οι παραμορφώσεις είναι μόνιμες, ενώ παρουσιάζουν τάση για σταθεροποίηση. Το εύρος των μετακινήσεων δεν κρίνεται ανησυχητικό λαμβάνοντας υπόψη την ηλικία του φράγματος (> 40 χρόνων). Ιδιαίτερο ενδιαφέρον παρουσίασε η συνεχής κίνηση προς τα ανάντη πέντε σημείων έλεγχου στο κατάντη πρανές. Πιθανότερη αιτία εκτιμήθηκε ότι αποτελούν οι διαρροές στο φράγμα που συγκεντρώνονται στη σήραγγα αποστράγγισης σε θέση κοντά στα εν λόγω σημεία. Για τη διερεύνηση της επίδρασης της στάθμης ταμιευτήρα και της βροχόπτωσης στις μετακινήσεις του φράγματος εφαρμόστηκε αρχικά φασματική ανάλυση με σκοπό τον προσδιορισμό των κύριων περιόδων των διαθέσιμων παρατηρήσεων. Χρησιμοποιήθηκαν (α) οι μετασχηματισμοί Fourier, όπου το επέτρεπαν οι συνθήκες και (β) το κανονικοποιημένο περιοδόγραμμα Lomb. Για την εφαρμογή του τελευταίου αναπτύχθηκε ειδικό λογισμικό σε γλώσσα προγραμματισμού Fortran. Η φασματική ανάλυση των τιμών της στάθμης του ταμιευτήρα κατέληξε στον προσδιορισμό > 10 κύριων περιόδων με εμφανώς υπερέχουσα την ετήσια. Οι κύριες περίοδοι που εντοπίστηκαν για τις τιμές της βροχόπτωσης αντιστοιχούσαν στην ετήσια και τη χειμερινή συνιστώσα. Όπως ήταν αναμενόμενο, οι μετακινήσεις των σημείων ελέγχου δεν παρουσίαζαν περιοδικότητα. Στη συνέχεια εφαρμόστηκε ανάλυση στο πεδίο χρόνου – συχνοτήτων με εφαρμογή των Μετασχηματισμών Ζ κυματιδίων με βάρη. Η μέθοδος οδήγησε στο συσχετισμό κάποιων από τα μέγιστα που εντοπίστηκαν στο φασματόγραμμα της στάθμης του ταμιευτήρα με συγκεκριμένα συμβάντα όπως π.χ. το άνοιγμα των θυρών των υπερχειλιστών. Με χρήση της μεθόδου γραμμικής συσχέτισης και ενός high-pass φίλτρου προσδιορίστηκαν οι κρίσιμες τιμές (thresholds) για τη στάθμη λίμνης και τη βροχόπτωση πέρα από τις οποίες ο ρυθμός μεταβολής των καθιζήσεων φαίνεται να αυξάνει υπερβολικά. Διαπιστώθηκε ότι για στάθμες λίμνης > 270m και βροχόπτωση > 130mm/μήνα οι καθιζήσεις της στέψης αυξάνονται σημαντικά. Δεδομένου ότι η στάθμη ταμιευτήρα πήρε για πρώτη φορά τη μέγιστη τιμή της 28 χρόνια μετά την ολοκλήρωση της κατασκευής του φράγματος κατέστη δυνατή η μελέτη της απόκρισης του φράγματος σε συνθήκες πρώτης πλήρωσης κάτι που υπό άλλες συνθήκες δεν θα ήταν εφικτό καθώς οι μετρήσεις των μετακινήσεων ξεκίνησαν σχεδόν ένα χρόνο μετά το κλείσιμο της σήραγγας εκτροπής. Διαπιστώθηκε ότι η ανύψωση της στάθμης σε τόσο υψηλά επίπεδα αύξησε σημαντικά το ρυθμό των καθιζήσεων. Το φαινόμενο ήταν περισσότερο έντονο για τα σημεία της στέψης. Εκτός από την ανάλυση των δεδομένων, έγινε μία σχεδόν πλήρης καταγραφή, αξιολόγηση και ταξινόμηση των διαθέσιμων στη διεθνή βιβλιογραφία μελετών φραγμάτων με βάση γεωδαιτικά δεδομένα. Από τη βιβλιογραφική αυτή προσέγγιση προσδιορίστηκε ένα εύρος κρίσιμων τιμών (0.8 – 1%) για την αναμενόμενη καθίζηση της στέψης ως ποσοστό του ύψους του φράγματος. Για την περίπτωση του φράγματος των Κρεμαστών το ποσοστό αυτό είναι ίσο με 0.48% αρκετά χαμηλότερα από το ανώτατο όριο του 1%. Δεδομένου ότι το φράγμα των Κρεμαστών είναι ηλικίας > 40 ετών και επομένως αυξημένης κατά τεκμήριο επικινδυνότητας, προτείνεται η συνέχιση της παρακολούθησης των μετακινήσεών του και η ενίσχυσή τους με όργανα νεότερης τεχνολογίας κυρίως GPS των οποίων έχει γίνει πιλοτική μόνο εφαρμογή. Επιπλέον, λαμβάνοντας υπόψη ότι μέχρι σήμερα δεν έχει επιχειρηθεί η πρώτη πλήρωση του φράγματος στο επίπεδο που προέβλεπε η μελέτη λόγω αύξησης των διαρροών σε μη επιτρεπτά επίπεδα προτείνεται η ανάπτυξη ενός τρισδιάστατου μοντέλου που να προβλέπει την εξέλιξη των μετακινήσεων στο χώρο και τη συμπεριφορά του πυρήνα για υψηλές στάθμες λίμνης. Τα αποτελέσματα της παρούσας διατριβής μπορούν να αποτελέσουν τη βάση για τη δημιουργία ενός τέτοιου μοντέλου. / Monitoring has proved to be crucial for the safety of dams. Geodetic methods play an important role on this. The aim of geodetic monitoring is the detection of any change on the dam geometry as well as any displacements of its foundations. Despite the fact that dams are systematically monitored for the last decades, long-term monitoring records and their analyses are extremely rare in the literature. The majority of available data cover only the period of the first filling or a few years later (< 10 years). The aim of this study was the analysis of the geodetic monitoring record of Kremasta Dam, one of the highest earthfill dams in Europe (160m high and 456m long) for the first time after its construction. The available data cover a period of > 35 years (1966 – 2003) and consist of the horizontal deflections and vertical displacements of 25 control stations established on the crest and the body of the dam relative to reference points on stable ground as well as the reservoir level fluctuations and the rainfall height at the dam area. Maximum horizontal deflection was equal to 30cm while maximum vertical displacements were up to 77cm. The accuracy of the data was found to be better than 1mm for horizontal deflections and 1.3mm for vertical displacements. Analysis in the time domain revealed that displacements can be described by a 4th degree polynomial and have a tendency of stabilization. The amplitude of displacements is normal compared to the age of the dam. On the other hand, a part of the downstream slope was found to move systematically upstream. This phenomenon is possibly due to leakage that can be up to 200lt/sec. Spectral analysis using Fourier Transforms and Lomb Periodogram was applied in order to investigate the effects of reservoir level fluctuations and rainfall on the behaviour of Kremasta dam. A dominant period of 1 year was found present in reservoir level and rainfall timeseries while no periodicity was detected in the values of displacements. Time-frequency analysis using Weighted Wavelet –Z Transforms revealed that there is a relationship between some of the peaks of the obtained spectrogram and specific events e.g. the operation of spillways in 1996. A high-pass filter in combination with linear correlation method was applied in order to define the critical values for (1) reservoir level elevation, (2) rate of reservoir level fluctuations and (3) rainfall rate above which the settlement rate of the crest increases significantly. These thresholds are equal to 270m, 1.3m/month and 130mm/month respectively. Statistical analysis of the crest settlements of > 40 earthfill dams (up to 30 years old) with central clay core revealed that crest settlements of up to 0.8 – 1% of dam height can be considered to be normal. In case of Kremasta Dam this percentage is up to 0.48% which is within safety limits. Kremasta Dam is > 40 years old and thus the continuation of monitoring its displacements is suggested in order to ensure the dam’s safety. Geodesy Laboratory of Patras University and Public Power Corporation are working on the design of a new geodetic monitoring system of Kremasta Dam based on modern instruments like GPS. Results of this study, the first study of the long-term behaviour of Kremasta Dam, could also be used in the development of a 3-D model for prediction of the dam’s displacements and the behaviour of the clay core under high water levels.

Clustering of Unevenly Spaced Mixed Data Time Series / Klustring av ojämnt fördelade tidsserier med numeriska och kategoriska variabler

Sinander, Pierre, Ahmed, Asik January 2023 (has links)
This thesis explores the feasibility of clustering mixed data and unevenly spaced time series for customer segmentation. The proposed method implements the Gower dissimilarity as the local distance function in dynamic time warping to calculate dissimilarities between mixed data time series. The time series are then clustered with k−medoids and the clusters are evaluated with the silhouette score and t−SNE. The study further investigates the use of a time warping regularisation parameter. It is derived that implementing time as a feature has the same effect as penalising time warping, andtherefore time is implemented as a feature where the feature weight is equivalent to a regularisation parameter. The results show that the proposed method successfully identifies clusters in customer transaction data provided by Nordea. Furthermore, the results show a decrease in the silhouette score with an increase in the regularisation parameter, suggesting that the time at which a transaction occurred might not be of relevance to the given dataset. However, due to the method’s high computational complexity, it is limited to relatively small datasets and therefore a need exists for a more scalable and efficient clustering technique. / Denna uppsats utforskar klustring av ojämnt fördelade tidsserier med numeriska och kategoriska variabler för kundsegmentering. Den föreslagna metoden implementerar Gower dissimilaritet som avståndsfunktionen i dynamic time warping för att beräkna dissimilaritet mellan tidsserierna. Tidsserierna klustras sedan med k-medoids och klustren utvärderas med silhouette score och t-SNE. Studien undersökte vidare användningen av en regulariserings parameter. Det härledes att implementering av tid som en egenskap hade samma effekt som att bestraffa dynamic time warping, och därför implementerades tid som en egenskap där dess vikt är ekvivalent med en regulariseringsparameter.  Resultaten visade att den föreslagna metoden lyckades identifiera kluster i transaktionsdata från Nordea. Vidare visades det att silhouette score minskade då regulariseringsparametern ökade, vilket antyder att tiden transaktion då en transaktion sker inte är relevant för det givna datan. Det visade sig ytterligare att metoden är begränsad till reltaivt små dataset på grund av dess höga beräkningskomplexitet, och därför finns det behov av att utforksa en mer skalbar och effektiv klusteringsteknik.

The impact of parsing methods on recurrent neural networks applied to event-based vehicular signal data / Påverkan av parsningsmetoder på återkommande neuronnät applicerade på händelsebaserad signaldata från fordon

Max, Lindblad January 2018 (has links)
This thesis examines two different approaches to parsing event-based vehicular signal data to produce input to a neural network prediction model: event parsing, where the data is kept unevenly spaced over the temporal domain, and slice parsing, where the data is made to be evenly spaced over the temporal domain instead. The dataset used as a basis for these experiments consists of a number of vehicular signal logs taken at Scania AB. Comparisons between the parsing methods have been made by first training long short-term memory (LSTM) recurrent neural networks (RNN) on each of the parsed datasets and then measuring the output error and resource costs of each such model after having validated them on a number of shared validation sets. The results from these tests clearly show that slice parsing compares favourably to event parsing. / Denna avhandling jämför två olika tillvägagångssätt vad gäller parsningen av händelsebaserad signaldata från fordon för att producera indata till en förutsägelsemodell i form av ett neuronnät, nämligen händelseparsning, där datan förblir ojämnt fördelad över tidsdomänen, och skivparsning, där datan är omgjord till att istället vara jämnt fördelad över tidsdomänen. Det dataset som används för dessa experiment är ett antal signalloggar från fordon som kommer från Scania. Jämförelser mellan parsningsmetoderna gjordes genom att först träna ett lång korttidsminne (LSTM) återkommande neuronnät (RNN) på vardera av de skapade dataseten för att sedan mäta utmatningsfelet och resurskostnader för varje modell efter att de validerats på en delad uppsättning av valideringsdata. Resultaten från dessa tester visar tydligt på att skivparsning står sig väl mot händelseparsning.

Estimation of Ocean Flow from Satellite Gravity Data and Contributions to Correlation Analysis / Estimaciones del Flujo Oceánico a partir de Gravedad desde Satélite y Contribuciones al Análisis de Correlaciones

Vargas-Alemañy, Juan A. 29 January 2024 (has links)
This thesis, structured in two parts, addresses a series of problems of relevance in the field of Spatial Geodesy. The first part delves into the application of satellite gravity data to enhance our understanding of water transport dynamics. Here, we present two significant contributions. Both are based on satellite gravity data but stem from different mission concepts with distinct objectives: time-variable gravity monitoring and high-resolution, accurate static geoid modelling. First, the fundamental notions about gravity are introduced and a brief summary is made of the different gravity satellite missions throughout history, with emphasis on the GRACE/GRACE-FO and GOCE missions, whose data are the basis of this work. The first application focuses on estimating water transport and geostrophic circulation in the Southern Ocean by leveraging a GOCE geoid and altimetry data. The Volume Transport across the Antartic Circumpolar Current is analyzed and the resulsts are validated validated using the in-situ data collected during the multiple campaigns in the DP. The second application uses time-variable gravity data from the GRACE and GRACE-FO missions to estimate the water cycle in the Mediterranean and Black Sea system, a critical region for regional climate and global ocean circulation. The analysis delves into the analysis of the different components of the hydrological cycle within this region, including the water flow across the Gibraltar Strait, examining their seasonal variations, climatic patterns, and their connection with the North Atlantic Oscillation Index. The second part of the thesis is more focused on data analysis, with the objective of developing mathematical methods to estimate the cross correlation function between two time series that are both unevenly spaced spaced (the sampling is not uniform over time) and observed at unequal time scales (the set of time points for the first series is not identical to the set of time points of the second series). Such time series are frequently encountered in geodetic surveys, especially when combining data from different sources. The estimation of the the cross correlation function for these time series presents unique challenges and requires the adaptation of traditional analysis methods designed for evenly spaced and synchronized time series. The two main contributions in this context are: (i) the study of the asymptotic properties of the Guassian Kernel estimator, that is the recommended estimator for the cross correlation function when the two time series are observed at unequal time scales; (ii) an extension of the stationary bootstrap that allows to construct bootstrap-based confidence intervals for the cross correlation function for unevenly spaced time series not sampled on identical time points.

