Οι ραγδαίες εξελίξεις στη Φασματομετρία Μάζας και η εισαγωγή νέων πειραματικών τεχνικών ιονισμού, όπως οι τεχνικές Matrix-Assisted Laser Desorption Ionization (MALDI) και Surface-Enhanced Laser Desorption Ionization (SELDI) έχει καταστήσει δυνατή τη μελέτη των επιπέδων της πρωτεϊνικής έκφρασης σε σύνθετα μείγματα πρωτεϊνών από διάφορα βιολογικά δείγματα, όπως serum, πλάσμα και ούρα. Τα δεδομένα που προκύπτουν από αυτές τις τεχνολογίες μπορούν να χρησιμοποιηθούν για την αναγνώριση πρωτεϊνικών προτύπων, τα οποία θα μπορούν επιτυχώς να διαχωρίζουν καταστάσεις (π.χ. υγιής – ασθενής) καθώς και για την ανακάλυψη νέων πιθανών βιοδεικτών (biomarkers). Αυτά τα πρότυπα έχουν υψηλή διαγνωστική σημασία, καθώς μπορούν να χρησιμοποιηθούν για έγκαιρη διάγνωση, πρόγνωση, παρακολούθηση της εξέλιξης μιας ασθένειας ή της απόδοσης μιας συγκεκριμένης θεραπείας. Αυτή η στρατηγική έχει ήδη χρησιμοποιηθεί σε διάφορους τύπους καρκίνου, όπως ωοθηκών, μαστού και προστάτη, δίνοντας πολύ ενδιαφέροντα αποτελέσματα.
Παρόλα αυτά, η σύνθετη φύση των πρωτεϊνικών δεδομένων κάνει την ανάλυση τους αρκετά απαιτητική, καθώς τα αρχικά, ακατέργαστα δεδομένα είναι πολύ δύσκολο να επεξεργαστούν. Πιο συγκεκριμένα, τα δεδομένα που ανακτώνται μετά από ένα πείραμα Φασματομετρίας Μάζας περιέχουν κάποιες εκατοντάδες δείγματα (δηλαδή φάσματα μάζας) και σε κάθε δείγμα αντιστοιχούν δεκάδες χιλιάδες χαρακτηριστικά. Επιπρόσθετα με το πρόβλημα των μεγάλων διαστάσεων και ταυτόχρονα λίγων δειγμάτων, κάθε φάσμα περιέχει σημαντικό ποσοστό θορύβου και τεχνουργημάτων, κυρίως εξαιτίας της υψηλής ευαισθησίας του μηχανήματος, της επιμόλυνση του δείγματος αλλά και διαφόρων ηλεκτρικών πηγών θορύβου. Ένα άλλο κοινό πρόβλημα είναι η λάθος βαθμονόμηση (calibration) των φασμάτων, που καθιστά τα δεδομένα αδύνατον να συγκριθούν. Για όλους αυτούς τους λόγους, είναι παραπάνω από προφανές ότι για να καταφέρουμε να εξάγουμε γνώση σχετικά με τις πραγματικές υποκείμενες βιολογικές διαφοροποιήσεις του πρωτεώματος πρέπει να εκτελέσουμε διάφορα βήματα προεπεξεργασίας.
Ο βασικός στόχος της προεπεξεργασίας είναι η δημιουργία ενός πίνακα που θα περιέχει τα σημαντικά χαρακτηριστικά (δηλαδή τις κορυφές) και τις αντίστοιχες τιμές έντασης, ο οποίος θα αναλυθεί περαιτέρω χρησιμοποιώντας μια ποικιλία υπολογιστικών μεθόδων. Για να επιτύχουμε κάτι τέτοιο, πρέπει αρχικά να αφαιρέσουμε το θόρυβο, τα τεχνουργήματα και τη συστηματική απόκλιση χωρίς απώλεια πληροφορίας και έπειτα να ανιχνεύσουμε και να ποσοτικοποιήσουμε ένα σύνολο κορυφών. Η προεπεξεργασία περιλαμβάνει ένα σύνολο βημάτων τα οποία αλληλεπιδρούν μεταξύ τους και έχει δειχθεί ότι αν δεν εφαρμοστεί προσεκτικά θα είναι πολύ δύσκολο να εξαχθούν συμπεράσματα για την υποκείμενη ασθένεια. Η επιλογή του καλύτερου συνδυασμού μεθόδων είναι ιδιαίτερα δύσκολη, καθώς για κάθε βήμα έχουν προταθεί αρκετές εναλλακτικές μέθοδοι. Επιπλέον, είναι δύσκολο να αποτιμηθεί η απόδοση κάθε μεθόδου και να προταθεί μια μοναδική στρατηγική, καθώς για κάθε σύνολο δεδομένων προκύπτει και διαφορετικός συνδυασμός ως πιο κατάλληλος.
Στα πλαίσια της παρούσας διπλωματικής εργασίας δημιουργήθηκε ένα ολοκληρωμένο σύστημα ανάλυσης πρωτεϊνικών δεδομένων, το οποίο ενσωματώνει μια καινούρια μέθοδο προεπεξεργασίας πρωτεϊνικών δεδομένων. Η μέθοδος αυτή αντιμετωπίζει τα προβληματικά χαρακτηριστικά αυτού του τύπου δεδομένων και εκμεταλλεύεται τα πλεονεκτήματα διάφορων γνωστών μεθόδων. Πιο συγκεκριμένα, η στρατηγική που προτείνουμε εστιάζει σε τρία σημαντικά προβλήματα: τη διόρθωση των λαθών της βαθμονόμησης, την ανίχνευση των κορυφών με ευαίσθητο αλλά και σταθερό τρόπο και την ακριβή ποσοτικοποίηση κάθε κορυφής. Η ανίχνευση κορυφής πραγματοποιήθηκε μέσω μιας μεθόδου βασισμένης στη λογική της χρήσης του μέσου φάσματος, όπου πρώτα ανιχνεύουμε τις κορυφές ανά κατηγορία, έπειτα εφαρμόζουμε διάφορα κριτήρια αποκοπής για να βεβαιώσουμε την αναπαραγωγιμότητα τους και μετά τις συνενώνουμε σε ένα σύνολο κορυφών, κοινό για όλες τις κατηγορίες. Αντί να χρησιμοποιούμε συγκεκριμένες θέσεις για κάθε κορυφή, προτείνουμε τη χρήση διαστημάτων κορυφής, έτσι ώστε να βεβαιώσουμε ότι οι μικρές αποκλίσεις δε δημιουργούν σφάλματα στην ποσοτικοποίηση. Για να αποτιμήσουμε τα αποτελέσματα της μεθόδου μας, στα δεδομένα που προέκυψαν μετά την προεπεξεργασία εφαρμόστηκε ένα τελικό βήμα επιλογής χαρακτηριστικών και ταξινόμησης, με χρήση του αλγορίθμου ταξινόμησης Support Vector Machines.
Η προτεινόμενη μέθοδος μας εφαρμόστηκε σε ένα σύνολο MALDI MS δεδομένων, το οποίο μας παρείχε η Ερευνητική Μονάδα Πρωτεωμικής του Ιδρύματος Ιατροβιολογικών Εφαρμογών Ακαδημίας Αθηνών (ΙΙΒΕΑΑ). Το συγκεκριμένο σύνολο δεδομένων περιέχει 200 περίπου δείγματα από ασθενείς με καρκίνο ουροδόχου κύστεως (υψηλού ή χαμηλού βαθμού) ή καλοήθη ασθένεια. Μετά την εφαρμογή της προτεινόμενης μεθόδου, καταλήξαμε σε έναν πίνακα 456 κορυφών και αντίστοιχων εντάσεων. Η εφαρμογή του βήματος της ταξινόμησης πέτυχε πολύ υψηλά ποσοστά ακρίβειας, ευαισθησίας και ειδικότητας. Επιπλέον, αναγνωρίστηκαν 31 στατιστικά σημαντικά χαρακτηριστικά, μερικά από τα οποία δεν ανιχνεύονται από τις υπάρχουσες μεθόδους. / The rapid developments in mass spectrometry (MS) and the introduction of new experimental ionization methods, like matrix-assisted laser desorption ionization (MALDI) and surface-enhanced laser desorption ionization (SELDI), has made it possible to study protein expression levels in complex mixtures of proteins from various biological samples, like serum plasma and urine. The data generated from these technologies can be used to identify proteomic patterns that can successfully separate states (e.g. normal versus disease) and possibly discover novel disease biomarkers. Those patterns have high diagnostic significance, as they can be used for early diagnosis, prognosis, monitoring disease progression or therapeutic response. This strategy has already been used in various types of cancer, like ovarian, breast and prostate cancer, giving interesting results.
However, the complex nature of proteomics data makes their analysis a challenging task, as the initial raw data are very difficult to handle. More specifically, the data retrieved after an MS experiment contain hundreds of samples (i.e. mass spectra), and in each sample correspond tens of thousands of features. In addition to this high dimensionality – small sample size problem, each spectrum contains a great amount of noise and artifacts, mostly due to the high sensitivity of the instrument, sample contamination and electrical noise. Another common problem is the miscalibration of the spectra that makes the data impossible to compare. For all those reasons, it is more than obvious that in order to extract knowledge about the true underlying biological differences in the proteome, various preprocessing steps need to be applied.
The main goal of preprocessing is to come up with a matrix of important features (i.e. peaks) and their corresponding intensity values, which can be further analyzed using a variety of computational methods. To achieve this, one must first remove noise, artifacts and systematic bias without loss of information and then detect and quantify a set of peaks. Preprocessing involves various steps that are highly interrelated and it has been shown that if those steps are not applied carefully, it will be difficult to extract meaningful conclusions about the underlying disease. For each step, a number of methods have been proposed making the decision about the best combination of methods a very challenging task. Furthermore, it is difficult to evaluate the performance of each method and come up with a standard strategy, as for each dataset a different set of methods appear to be more effective.
This thesis presents a new pipeline method for the analysis of proteomics data, which incorporates a new preprocessing method. This proposed method deals with the problematic characteristics of this type of data and exploits the advantages of various existing methods. More specifically, our proposed strategy focuses on three main problems: correcting the miscalibration of the mass spectra, detecting the peaks in a sensitive yet robust manner and extracting the true intensity values that correspond in each peak. For the peak finding step, we used a method based on the mean spectrum approach, where we first find the peaks per category, then apply certain criteria to ensure their reproducibility and then combine them in a single peak list. Instead of working with peak locations, we propose the use of peak intervals, to ensure that the small shifts present in the data do not interfere with the final results. In order to evaluate the results of our method, a final feature extraction and classification step was applied in the preprocessed data, using the Support Vector Machines classification algorithm.
Our proposed pipeline method was applied in a MALDI MS dataset, obtained by the Proteomics Research Unit of the Biomedical Research Foundation. This particular dataset contained approximately 200 samples, concerning patients with bladder cancer (high or low grade) and benign bladder disease. After the application of the proposed preprocessing method we ended up with a matrix of 456 peak bins and corresponding intensities. The application of the classification algorithm achieved extremely high performance in terms of accuracy, sensitivity and specificity. Furthermore, 31 statistically important peaks were identified, some of which are not detected by existing methods.
Identifer | oai:union.ndltd.org:upatras.gr/oai:nemertes:10889/4151 |
Date | 02 February 2011 |
Creators | Ραψομανίκη, Μαρία Άννα |
Contributors | Τσακαλίδης, Αθανάσιος, Rapsomaniki, Maria Anna, Τσακαλίδης, Αθανάσιος, Λυκοθανάσης, Σπυρίδων, Μαυρουδή, Σεφερίνα |
Source Sets | University of Patras |
Language | gr |
Detected Language | Greek |
Type | Thesis |
Rights | 0 |
Relation | Η ΒKΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου. |
Page generated in 0.0039 seconds