Σκοπός της διδακτορικής διατριβής ήταν η αξιολόγηση ενός αυτόματου συστήματος ποσοτικοποίησης της έκτασης της διάμεσης νόσου με απεικονιστικά κριτήρια, όπως την σύγκριση με την ημιποσοτική αξιολόγηση των ακτινολόγων και με την συνεχή αξιολόγηση από ακτινολόγους βασιζόμενη στον χειρωνακτικό σχεδιασμό των παθολογικών περιοχών.
Τα αποτελέσματα του αυτοματοποιημένου συστήματος συγκρίθηκαν και με την υποβοηθηση από το σύστημα. Για την οπτικοποίηση της διασύγκρισης των συστημάτων μεταξύ τους χρησιμοποιήθηκαν οι καμπύλες συμφωνίας. Τέλος, μελετήθηκε η συσχέτιση του συστήματος και των ημιποσοτικών εκτιμήσεων των ακτινολόγων με εργαστηριακούς απεικονιστικούς δείκτες, τις πνευμονικές δοκιμασίες.
Υλικά και Μέθοδοι
Για την εκπόνηση της διατριβής χρησιμοποιήθηκε μια δεξαμενή 47 περιστατικών με νόσο του κολλαγόνου και 4 φυσιολογικών ασθενών. Από αυτήν 14 περιστατικά χρησιμοποιήθηκαν για την ανάπτυξη και εκπαίδευση του συστήματος και 37 περιστατικά επελέγησαν για την αξιολόγηση του συστήματος, με απεικονιστικά πρότυπα θαμβής υάλου (ggo) και δικτυωτού προτύπου (reticular). Το πρωτόκολλο σάρωσης ήταν χαμηλής δόσης απεικόνιση με MDCT 16 ανιχνευτών, που επέτρεπε την λήψη τρισδιάστατων δεδομένων.
Αρχικά αναπτύχθηκε το αυτόματο σύστημα σε γλώσσα προγραμματισμού MATLAB (ΜΑΤLAB 7.5 R 2007b) και εκπαιδεύτηκε από τους ακτινολόγους ως προς τα διάφορα στάδια ολοκλήρωσης: (1) Προεπεξεργασία (preprocessing): Τμηματοποίηση πνευμονικών πεδίων και αφαίρεση αγγειακού δέντρου, (2) Ταξινόμηση-Αναγνώριση και χαρακτηρισμός προτύπων διάμεσου ιστού. Το σύστημα αξιολογήθηκε σε δείγμα διαφορετικό από της εκπαίδευσης από την πρώτη δεξαμενή περιστατικών με δείκτες απόδοσης Volume Overlap, ΤPF, FPF.
Κατόπιν, το τρισδιάστατο (3D) σύστημα αξιολογήθηκε στο κλινικό δείγμα 37 ασθενών με τις 3D ημιποσοτικές αξιολογήσεις δύο ακτινολόγων (Α΄ Κύκλος Πειραματικού σχεδιασμού). Στην αξιολόγηση αυτή συσχετίστηκαν τα τρισδιάστατα αποτελέσματα ποσοτικοποίησης του CAD ως προς την συνολική έκταση νόσου, την έκταση του ground glass και του reticular προτύπου με τις εκτιμήσεις από δύο ξεχωριστούς έμπειρους ακτινολόγους και του μέσου όρου αυτών ημιποσοτικά στους όγκους των σαρώσεων (περίπου 250 τομές ανά σάρωση ασθενούς) με στατιστική μέθοδο Spearman rank order. Επίσης μελετήθηκαν οι διαφορές μεταξύ των εκτιμήσεων, αναλύθηκαν με Blant –Altman διαγράμματα και boxplots (R1vs. CAD, R2vs.CAD, Rmvs.CAD, R1 vs.R2, R1 vs.R1s). Μετρήθηκε επίσης η συμφωνία ενδο κα μεταξύ των ακτινολόγων.
Για τον B΄ κύκλο πειραματικού σχεδιασμού αξιολογήθηκε το 2D σύστημα σε 185 εγκάρσιες τομές (37 σαρώσεις ασθενών) για το ποσοστό της συνολικής έκτασης και της έκτασης του ground glass και του reticular προτύπου. Σαν βάση αναφοράς χρησιμοποιήθηκε η consensus αξιολόγηση δύο έμπειρων ακτινολόγων με σχεδιασμό των παθολογικών περιοχών σε μια τράπεζα σχεδιασμού (Wacom Intuos 3 Tokyo, Japan) με τη βοήθεια μιας γραφικής επιφάνειας διεπαφής (GUI). Επίσης αναλύθηκαν οι ίδιες τομές και αξιολογήθηκαν ημιποσοτικά in consensus από τους ακτινολόγους. Τέλος αξιολογήθηκε στο ίδιο δείγμα το υποβοηθούμενο CAD ως προς την βάση αναφοράς.
Συσχετίστηκαν οι 2D εκτιμήσεις του συστήματος και των ακτινολόγων in consensus (1) ημιποσοτικά (CADvsSQRcons) και (2) ποσοτικά με σχεδιασμό των παθολογικών περιοχών pixel-wise (CADvsRref). Οι συσχετίσεις πραγματοποιήθηκαν με Intraclass Correlation Coefficient (ICC) και τα αντίστοιχα 95% Confidence Intervals (CI). Μετρήθηκε επίσης η συμφωνία ενδο κα μεταξύ των ακτινολόγων.
Οι διαφορές στην έκταση της νόσου για τις διαφορετικές αξιολογήσεις (CAD - Rref, CAD+Rcons-Rref και SQRcons - Rref) απεικονίστηκαν με Bland-Altman ανάλυση για την συνολική έκταση της νόσου και για τα επιμέρους πρότυπα: το ggo και το reticular. Επίσης υπολογίστηκε η μέση διαφορά (mean difference MD) και το 95% των διαφορών (μέση τιμή±1.96SD), που ονομάζεται όρια συμφωνίας (limits of agreement (LoA95). Για να οπτικοποιηθούν τα αποτελέσματα των αξιολογήσεων της έκτασης νόσου και να διευκολυνθεί η διασύγκριση μεταξύ τους , δημιουργήθηκε μια απεικόνιση με καμπύλες συμφωνίας για κάθε σύστημα αξιολόγησης σε συνάρτηση με την βάση αναφοράς
Τέλος συσχετίστηκαν οι τρισδιάστατοι όγκοι των 37 ασθενών σε ότι αφορά (1) την συνολική έκταση της νόσου (2) την έκταση του ggo και (3) την έκταση του reticular όπως εκτιμώνται από το 3DCAD και με την ημιποσοτική αξιολόγηση των ακτινολόγων 3DSQRconsRcons με τις φυσιολογικές παραμέτρους σπειρομέτρησης. ατόπιν συσχετίστηκαν τα 2D δεδομένα στις 185 εγκάρσιες τομές (μέσες τιμές των 5 τομών ανά σάρωση από τους 37 ασθενείς ) για το 2D CAD και την αντίστοιχη ημιποσοτική αξιολόγηση σε 2D SQ . Συγκρίθηκαν οι συσχετίσεις 2DCADvs2DCAD και 3DSQvs2DSQ. με δείκτες συσχέτισης Pearson correlation coefficient (R).
Αποτελέσματα
Η στατιστική ανάλυση της απόδοσης του συστήματος για την τμηματοποίηση των πνευμονικών πεδίων εκτιμάται ως εξής: (1) Volume overlap: 0.954±0.023, (2)d mean: 1.080±0.364 (3) drms: 1.407±0.735 (4) d max : 4.944±3.492.
Η στατιστική ανάλυση της απόδοσης του συστήματος για την τμηματοποίηση του αγγειακού δέντρου και στα δύο πνευμονικά πεδία εκτιμάται ως εξής: (1) Volume overlap: 0.931±0.027, (2 ) ΤPF:0.935±0.036 (3) FPF:0.074±0.03.
Η απόδοση του συστήματος στην αναγνώριση και χαρακτηρισμό των παθολογικών προτύπων της διάμεσης νόσου στα περιστατικά που χρησιμοποιήθηκαν για την εκπαίδευση είναι: Για το πρότυπο ground glass: (1) Volume overlap : 0.794±0.038, (2) ΤPF:0.812±0.045, (3) FPF: 0.163±0.017. Για το reticular πρότυπο οι δείκτες απόδοσης είναι: 1) Volume overlap: 0.883±0.037, (2) ΤPF:0.972±0.013 (3) FPF :0.0971±0.012.
Οι ανάλογοι δείκτες για την συμφωνία των ακτινολόγων ενδο και μεταξύ- έχουν ως εξής: Για την συμφωνία των ακτινολόγων (ενδο-): Για το πρότυπο ground glass: (1) Volume overlap: 0.47±0.20, (2) ΤPF :0.972±0.01, (3) FPF : 0.0971±0.012. Για το reticular πρότυπο οι δείκτες απόδοσης είναι: (1) Volume overlap : 0.53±0.19, (2)ΤPF: 0.715±0.20, (3)FPF: 1.72±1.05. Για την συνολική έκταση της νόσου, οι αντίστοιχες τιμές είναι: (1) Volume overlap: 0.54 ± 0.18, (2) ΤPF : 0.74 ± 0.18,(3) FPF :1.19±1.85. Για την συμφωνία των ακτινολόγων (μεταξύ-): Για το πρότυπο ground glass: (1) Volume overlap: 0.33±0.22, (2) ΤPF: 0.58±0.27, (3)FPF: 2.48±2,74. Για το reticular πρότυπο οι δείκτες απόδοσης είναι: (1)Volume overlap: 0.51±0.11, (2)ΤPF: 0.72±0.19, (3) FPF:1.36±1.33. Για την συνολική έκταση της νόσου, οι αντίστοιχες τιμές είναι: (1)Volume overlap: 0.51±0.21, (2)ΤPF: 0.69±0.22, (3) FPF: 1.21±0.89.
Για τον Α΄ κύκλο πειραματικού σχεδιασμού σε 3D, τα αποτελέσματα δείχνουν στατιστικά σημαντική συσχέτιση της ποσοτικοποίησης του CAD και των ημιποσοτικών εκτιμήσεων των ακτινολόγων (ως βάση αναφοράς), σε ότι αφορά στην συνολική έκταση της νόσου και την έκταση του reticular προτύπου (R=0.949, p=<0.0001, R= 0.915, p=<0.0001, αντίστοιχα), ενώ μέτρια ήταν η συσχέτιση για το ggo πρότυπο (0.806, p=0.0009).
Οι ανάλογοι δείκτες για την συμφωνία των ακτινολόγων ενδο και μεταξύ- έχουν ως εξής: Για την συμφωνία των ακτινολόγων (ενδο-): Συνολική έκταση της νόσου: R=0.903, p=<0.0001, έκταση του reticular προτύπου: R= 0.966, p=<0.0001 και έκταση του ggo προτύπου: 0.766, p=<0.0001. Για την συμφωνία των ακτινολόγων (μεταξύ-): Συνολική έκταση της νόσου: 0.838, p=0.0018, έκταση του reticular προτύπου: R= 0.895, p=0.0006 και έκταση του ggo προτύπου: R= 0. 655, p=0.0017.
Από την μελέτη των διαφορών όπως απεικονίζονται από τις αναλύσεις Blant Altman και boxplots, οι διαφορές στην έκταση της νόσου μεταξύ ακτινολόγων και CAD (R1 vs.CAD, R2vsCAD, RmvsCAD) και ακτινολόγων μεταξύ τους (R1 vs. R2, R1 vs. R1s) δεν ήταν στατιστικά σημαντικές (two-tailed Wilcoxon signed-rank test, p>0.05). Το εύρος της συσχέτισης κυμαίνεται εντός της μεταβλητής ένδο- και μεταξύ- παρατηρητών, καταδεικνύοντας ένα αξιόπιστο αυτόματο σύστημα ποσοτικοποίησης της διάμεσης νόσου με παρόμοια απόδοση με τους ακτινολόγους. Ωστόσο, η συμπεριφορά των διαφορών CAD vs. R1, CAD vs. R2, CAD vs Rm σε σύγκριση τις διαφορές R1 vs. R2 και R1 vs. R1’ μελετώντας τις median and IQR τιμές δεν είναι όμοια, καταδεικνύοντας ένα αυτόματο σύστημα συμπεριφέρεται με διαφορετικό τρόπο συγκριτικά με την ημιποσοτική εκτίμηση. Οι μέγιστες median and IQR τιμές (3.6% και 32.6%, αντιστοίχως), εμφανίζονται μεταξύ CAD and R2, και αποδίδονται πρωτίστως στην διαφορετική εμπειρία των ακτινολόγων. Τέλος, από τα διαγράμματα Blant Altman παρατηρείται ότι σε όλα τα ζεύγη διαφορών CADvs. R1, CADvsR2, CADvsRm, R1vsR2, R1 vsR1’ οι μεγαλύτερες διαφορές προκύπτουν καθώς αυξάνεται η έκταση της νόσου, ιδίως για έκταση νόσου >20%.
Από τα δύο πρότυπα, το reticular πρότυπο παρουσιάζει την μεγαλύτερη μεταβλητότητα της μέσης τιμής.
Λαμβάνοντας υπόψιν την διαφρορετική συμπεριφορα στην ποσοτικοποίηση της έκτασης της νόσου μεταξύ του συστήματος CAD και της ημιποσοτικής μεθόδου, αναζητήθηκε μια ακριβέστερη βάση αναφοράς , που στηρίχτηκε στον χειρωνακτικό σχεδιασμό των παθολογικών περιοχών οδηγώντας στον Β’ κύκλο του πειραματικού σχεδιασμού.
Για τον B΄ κύκλο πειραματικού σχεδιασμού της διατριβής, το σύστημα παρουσιάζει τόσο με τις ημιποσοτικές όσο και με τις ποσοτικές μετρήσεις, με καλύτερη την συσχέτιση με τις ποσοτικές μετρήσεις που χρησιμοποιήθηκε στην φάση αυτή της διατριβής σαν βάση αναφοράς (ICC =0.809 [0.599-0.894] , 0.851 [0.795-0.891]). Για τα επιμέρους πρότυπα η ποσοτικοποίηση του ground glass από το σύστημα συσχετίζεται λιγότερο με τις εκτιμήσεις των ακτινολόγων ( και με τις δύο μεθόδους, ημιποσοτικά και ποσοτικά) από το reticular. Σε κάθε περίπτωση η ποσοτική αξιολόγηση των ακτινολόγων που θεωρητικά αποτελεί καλύτερη βάση αναφοράς συσχετίζεται σταθερά καλύτερα με το CAD για όλα τα πρότυπα. Η συμφωνία μεταξύ ακτινολόγων είναι παρόμοια και για τις δύο μεθόδους (ICC =0.856 [0.811-0.891], 0.856 [0.806-0.893]). Η ίδια τάση παρατηρείται και για τα δυο πρότυπα (reticular και ground glass).
Από την μελέτη των διαφορών όπως απεικονίζονται από τις αναλύσεις Blant Altman, το σύστημα παρουσιάζει ένα μικρό βαθμό υπερεκτίμησης της έκτασης νόσου συγκριτικά με την βάση αναφοράς: Συνολική έκταση νόσου (MD: 2.5%; LoA95: -14.3%, 19.3%), έκταση ground glass: (MD: 1.3%; LoA95: -10.9%, 13.5%) έκταση reticular: (MD: 1.2%; LoA95: -12.7%, 15.1%) και σημαντική συμφωνία με την νέα βάση αναφοράς: 86.5%, 75.1% και 81.6% αντίστοιχα. Οι ημιποσοτικές μετρήσεις παρουσιάζει μεγαλύτερη υπερεκτίμηση με τη βάση αναφοράς: Συνολική έκταση νόσου MD: 9.2%; LoA95: -12.8%, 31.2%, έκταση ground glass: MD: 4.6%; LoA95: -9.8%, 19.0% και έκταση reticular: MD: 4.6%; LoA95: -10.0%, 19.3% και σαφώς μικρότερη συμφωνία με την βάση αναφοράς (69.2%, 70.8%, 70.3%, αντίστοιχα).
Τέλος η συμφωνία με την βάση αναφοράς βελτιώνεται ελάχιστα με την χρήση υποβοηθούμενου CAD σε σύγκριση με το CAD σύστημα μόνο του, ιδίως για το ground glass πρότυπο (88.1%, 78.4% and 81.6%, αντίστοιχα).
Προτείνεται επίσης στην παρούσα διατριβή η χρήση των καμπυλών συμφωνίας, όπου οπτικοποιείται η διασύγκριση μεταξύ τους, αποδεικνύοντας το υποβοηθούμενο CAD ως το βέλτιστο σύστημα, ακολουθούμενο με μικρή διαφορά από το CAD , ενώ η ημιποσοτικές μετρήσεις διαφέρουν σημαντικά από τα άλλα δύο και από την χειρωνακτική βάση αναφοράς. Oι καμπύλες τονίζουν επίσης την διάσταση των δυο διαφορετικών μεθόδων αξιολόγησης από τους ακτινολόγους ημιποσοτικής-χειρωνακτικού σχεδιασμού, επιβεβαιώνοντας τα αποτελέσματα της πρώτης φάσης της διατριβής. Η εφαρμογή διαφορετικών διαστημάτων διαφορών ±5% ή ±25 % σε συνάφεια με το βήμα ±5% της ημιποσοτικής κλίμακας κατά Desai ή 25% της κλίμακας Likert στην εκτίμηση της έκτασης της νόσου, δείχνουν τα εξής: ‘Οσο πιο λεπτομερές(±5%) είναι το βήμα της ποσοτικοποίησης τόσο μεγαλύτερα τα σφάλματα ποσοτικοποίησης και ιδίως με την ημιποσοτική μέθοδο. Αντίθετα, ενώ για αδρό βήμα 25% οι διαφορετικές μέθοδοι ποσοτικοποίησης συμφωνούν μεταξύ τους και οι μεταξύ τους διαφορές δεν είναι αντιληπτές.
Τέλος, το 3D σύστημα συσχετίζεται αρνητικά με όλους τους πνευμονικούς δείκτες για την συνολική έκταση νόσου με με καλύτερη την συσχέτιση με τους δείκτες FEV1. και DLCO ( R=-0.545 p=<0.0001, R=-0.567 p=<0.0001, αντίστοιχα). Για το reticular η συσχέτιση ήταν μέτρια για όλους τους δείκτες με καλύτερη την συσχέτιση FEV1, TLC και DLCO (R=-0.602p=<0.0001, R=-0.615 p=<0.0001 αντίστοιχα), ενώ για το ggo το σύστημα παρουσιάζει μη στατιστικά σημαντική συσχέτιση για όλους τους δείκτες. Tο 2D σύστημα παρουσιάζει μέτρια αρνητική συσχέτιση με τις πνευμονικές δοκιμασίες για την συνολική έκταση νόσου και το reticular πρότυπο, με καλύτερη την μέτρια αρνητική συσχέτιση με τον DLCΟ (R=-0.485, p= 0.002, R=-0.601 p=<0.001 αντίστοιχα). Για το ggo πρότυπο, το 2D σύστημα παρουσιάζει επίσης μη στατιστικά σημαντική συσχέτιση για όλους τους δείκτες, όπως και το 3D σύστημα.
Οι ημιποσοτικές μετρήσεις των ακτινολόγων για την συνολική έκταση νόσου 3DSQRconsRcons και 2DSQ παρουσιάζουν στατιστικά σημαντική συσχέτιση, ωστόσο ασθενή μόνο με τον δείκτη DLCO (R=-0.382, p= 0.020, R=-0.398,p=<0.02 αντίστοιχα).
Για την 3DSQRcons εκτίμηση στο reticular πρότυπο παρατηρείται στατιστικά σημαντική ασθενής συσχέτιση για όλους τους δείκτες εκτός από τον TLC (FVC: R=-0.331, p= 0.045, FEV1: R=-0.393, p=0.016, DLCO : R=-0.392, p= 0.016).
Για την 2DSQ εκτίμηση στο reticular πρότυπο παρατηρείται στατιστικά σημαντική ασθενής έως μέτρια συσχέτιση για όλους τους δείκτες (FVC: R=-0.360, p= 0.029, FEV1: R=-0.411, p=0.012, TLC : R=-0.326, p= 0.049, DLCO : R=-0.485, p= 0.002). Για το ground glass η συσχέτιση είναι μη στατιστικά σημαντική για όλους τους πνευμονικούς δείκτες τόσο για την 3DSQRcons όσο και για την 2DSQ εκτίμηση.
Συμπεράσματα
Αξιολογήθηκε ένα σύστημα ποσοτικοποίησης της διάμεσης νόσου από CT θώρακος, που βασίζεται σε μεθόδους ανάλυσης υφής, το οποίο ποσοτικοποιεί τα βασικά απεικονιστικά πρότυπα της νόσου, το ggo και το reticular πρότυπο. Αρχικά αξιολογήθηκε σε κάθε βήμα από δύο έμπειρους ακτινολόγους με ικανοποιητική απόδοση. Στη συνέχεια, εφαρμόστηκε ο 3D αλγόριθμος ποσοτικοποίησης σε διαφορετικό κλινικό δείγμα 37 ασθενών, προκειμένου να γίνει και κλινική αξιολόγηση της απόδοσης του με βάση ημιποσοτικές κλίμακες ποσοτικοποίησης, που χρησιμοποιούνται στην βιβλιογραφία, με πολύ καλή συσχέτιση. Με αναλυτικότερη μελέτη προέκυψε μια μεγαλύτερη απόκλιση των τιμών CAD και ημιποσοτικών αξιολογήσεων από τις ημιποσοτικές αξιολογήσεις μεταξύ τους. Το γεγονός αυτό οδήγηση στην περαιτέρω αξιολόγηση του CAD συστήματος με μια χειρωνακτική βάση αναφοράς σε 2D επίπεδο και σύγκριση με τις ημιποσοτικές μετρήσεις. Το σύστημα παρουσίαζε σημαντική συσχέτιση με την βάση αναφοράς και με τις ημιποσοτικές μετρήσεις. Ωστόσο επιβεβαιώθηκε ότι οι ημιποσοτικές μετρήσεις υπολείπονται συγκριτικά με την χειρωνακτική βάση αναφοράς από τους ακτινολόγους στην αξιολόγηση του CAD, όπως είναι φανερό και από τις καμπύλες διασύγκρισης των συστημάτων. Από τη διατριβή αυτή προκύπτει επίσης ένας αριθμός δευτερογενών συμπερασμάτων: Πρώτον, η ποσοτικοποίηση της διάμεσης νόσου παρουσιάζει αυξημένη μεταβλητότητα για όλα τα συστήματα αξιολόγησης , όσο αυξάνεται η έκταση της νόσου. Δεύτερον, από τα δύο πρότυπα, η ποσοτικοποίηση του ggo προτύπου παρουσίαζε τις μεγαλύτερες δυσκολίες. Τρίτον, η αξιολόγηση με υποβοηθηση CAD βελτιώνει ελάχιστα το αποτέλεσμα του συστήματος, και κυρίως διορθώνει το ggo πρότυπο. Τέταρτον, το σύστημα συσχετίζεται με τις πνευμονικές δοκιμασίες, περισσότερο από τις ημιποσοτικές εκτιμήσεις των ακτινολόγων. Ιδίως το reticular πρότυπο μπορεί να χρησιμοποιηθεί από μόνο του ως δείκτης πνευμονικής δυσλειτουργίας.
Συνοψίζοντας, το σύστημα CAD που αναπτύχθηκε είναι ένα αξιόπιστο εργαλείο ποσοτικοποίησης, το οποίο μπορεί να χρησιμοποιηθεί ως βιολογικός δείκτης σταδιοποίησης της διάμεσης νόσου. / The aim of this thesis was the evaluation of an automated system in 3D quantification of interstitial lung disease extent in CT compared to semiquantitative scoring method and with continuous extent assessments by radiologists based on manual segmentations of abnormal areas. The CAD system output was also compared to extent assessments by radiologists assisted by CAD. To facilitate intercomparison among different evaluation assessments curve representations of extent assessments is proposed. Finally the system output semiquantitative assessment by radiologists were correlated with laboratory markers of ILD, meaning pulmonary function tests (PFTs) indexes.
Materials and Methods
A dataset of 47 patients with interstitial lung disease secondary to collagen vascular disease were recruited for this thesis as well as 4 normal patients. Out of the dataset, 14 cases were used to train the system and 37 cases were selected to evaluate the system. The above cases presented with ground glass and reticular patterns. A low-dose MDCT scanner (16 detectors) protocol was utilized to obtain volumetric system output.
Initially, the automated quantification system was developed using MATLAB (ΜΑΤLAB 7.5 R 2007b) and was trained by radiologists in different development stages: (1) Preprocessing: Segmentation of lung fields and vessel tree segmentation, (2) Identification and Classification of interstitial lung disease. The evaluation performance of the system was evaluated in terms of volume overlap, ΤPF, FPF.
Following, the system was evaluated in a case sample of 37 patient scans with semiquantitative scoring by two experienced radiologists (A’ cycle of experimental design). In this evaluation, correlation between 3D system output and 3D semiquantitative evaluations of volumetric scans (approximately 200 slices per patient scan) was performed by two expert radiologists and average of the two evaluations, regarding total disease, ground glass and reticular pattern extent, using Spearman rank order.
The differences in extent assessment (R1vsCAD, R2vsCAD, RmvsCAD, R1vsR2, R1vsR1s) were also analyzed using Blant–Altman plots and box plots. Statistic evaluation was performed using two-tailed Wilcoxon signed-rank test for paired data. Intra and interobserver agreement was also measured.
At the B’ cycle of experimental design the 2D system output was evaluated, out of 185 axial slices (37 patient scans) regarding total disease, ground glass and reticular pattern extent, As reference standard in consensus evaluation by two expert radiologists was used by drawing disease area segments on a drawing tablet (Wacom Intuos 3 Tokyo, Japan), utilizing a home-developed graphical-user interface (GUI). The same slices were also assessed semiquantitatively by radiologists in consensus. Finally, the same slices were assessed with assisted CAD and compared to reference standard.
The 2D CAD output was correlated with semiquantitative evaluation by radiologists (CADvsSQRcons) and quantitatively by drawing disease area segments pixel-wise (CADvsRref). Correlations were performed with Intraclass Correlation Coefficient (ICC) and 95% Confidence Intervals (CI). Intra and interobserver agreement was also measured.
Differences in extent assessment for different evaluations (CAD- Rref, CAD+Rcons -Rref and SQRcons -Rref) were plotted using Bland-Altman analysis were assessed for total disease, ground glass and reticular pattern extent. The mean difference (MD) and 95% of the differences (mean±1.96 standard deviation), called limits of agreement (LoA95), were calculated. A curve representation is proposed to visualize agreement and facilitate agreement inter-comparison for various evaluations, as a function of reference.
Finally, volumetric system output of 37 patient scans were correlated regarding total disease, ground glass and reticular pattern extent (3DCAD) and volumetric semiquantitative evaluation by radiologists (3DSQRcons) were correlated with physiologic parameters, pulmonary function tests, in terms of Pearson correlation (R). The same correlations were performed for 185 axial slices (average of 5 slices per patient scan) for 2DCAD and 2DSQ. Comparison of 3DCAD vs2D CAD and 3DSQvs2DSQ was also performed.
Results
Performance evaluation of segmentation of lung fields was measured: (1) Volume overlap: 0.931±0.027, (2) ΤPF: 0.935±0.036 (3) FPF: 0.074±0.03. Performance evaluation of segmentation of vessel tree was measured: (1) Volume overlap: 0.931 ±0.027, (2) ΤPF: 0.935±0.036 (3)FPF: 0.074±0.03. Performance evaluation in identification and characterization of ILD patterns was measured: For ground glass pattern: (1) Volume overlap: 0.794±0.038, (2) ΤPF: 0.812±0.045 (3) FPF: 0.163±0.017. For reticular patterns: (1) Volume overlap: 0.883 ± 0.037, (2) ΤPF: 0.972±0.013(3) FPF: 0.0971±0.012.
Performance evaluation of intraobserver agreement was: For ground glass pattern: (1) Volume overlap : 0.47±0.20, (2) ΤPF: 0.972±0.013 (3) FPF: 0.0971±0.012. For reticular patterns: (1) Volume overlap: 0.53±0.19, (2) ΤPF: 0.715±0.20
(3) FPF: 1.72±1.05. For total disease extent: (1) Volume overlap: 0.54±0.18, (2) ΤPF: 0.74±0.18(3) FPF: 1.19±1.85.
Performance evaluation of interobserver agreement was: For ground glass pattern: (1) Volume overlap: 0.33±0.22, (2) ΤPF: 0.58±0.27, (3) FPF: 2.48±2,74. For reticular patterns: (1) Volume overlap: 0.51±0.11, (2) ΤPF: 0.72± .19,(3) FPF: 1.36±1.33. For total disease extent: (1)Volume overlap: 0.51±0.21, (2)ΤPF: 0.69±0.220, (3)FPF: 1.21±0.89.
The A’ cycle of experimental design in 3D quantification, results show statistically significant correlation of CAD quantification output and semiquantitative evaluation by radiologists (reference standard), regarding total and reticular disease extent (R=0.949, p=<0.0001, R= 0.915, p=<0.0001, respectively), while moderate correlation regarding ground glass pattern (R=0.806, p=0.0009). Intra and interobserver agreement were as follows: For Intra observer agreement: For total disease extent: R=0.903, p=<0.0001, reticular pattern: R=0.966, p=<0.0001 and ground glass pattern and R : 0.766, p=<0.0001. For Interobserver agreement: For total disease extent: R=: 0.838, p=0.0018, reticular pattern: R= 0.895, p=0.0006 and ground glass pattern: R= 0. 655, p=0.0017.
Observed differences in extent assessment as plotted at Blant Altman και boxplot representation, between radiologists and CAD (R1 vs. CAD, R2 vs. CAD, Rm vs. CAD), radiologists themselves (R1 vs. R2, R1 vs. R1s) were not statistically significant (two-tailed Wilcoxon signed-rank test for paired data, p>0.05).
Results indicate that the CAD tool analyzed demonstrates similar performance to radiologists semiquantitative assessment, ranging within inter- και intra- observer variation and can be considered as a reliable independent reader of lung abnormalities in ILD.
However, differences of extent assessment between radiologists and CAD are (CADvsR1, CADvsR2, CADvsRm ) differ significantly to those obtained between radiologists (R1vsR2 ) and radiologist second opinion (R1vsR1s) in terms of median and IQR values. This implies that the automated system compared to the semiquantitative radiologist assessment, does not behave in an identical manner, as indicated by decreased variability of inter- and intraobserver data. The maximum median and IQR values (3.6% and 32.6%, respectively), were obtained between CAD and R2, probably attributed to experience differences between experts. Finally. Blant Altman plots indicate that in all differences in extent CADvsR1, CADvsR2, CADvsRm, R1vsR2, R1vsR1’ increasing differences occur in increasing extent assessments, especially> 20%. Out of the two patterns, reticular presents greater variability of mean values.
Considering the different behavior in extent assessment between CAD system and semiquantitative scoring, we considered a more accurate reference standard based on manual drawing of abnormal areas, leading to the B’ cycle of experimental design.
In B’ cycle of experimental design, the system shows significant correlation to semiquantitative and quantitative extent assessments (ICC =0.809 [0.599-0.894], 0.851 [0.795-0.891]). Correlation to quantitative extent assessments was slightly better and was used as a reference standard for this phase of thesis. For the constituent patterns quantification of ground glass by CAD system correlates less with radiologists assessments (both semi quantitatively and quantitatively) than reticular pattern. In every case quantitative evaluation by radiologists correlates better in all patterns with CAD system. Interobserver agreement is similar for both evaluation methods (ICC =0.856 [0.811-0.891], 0.856 [0.806-0.893]). The same trend is observed for both patterns (reticular and ground glass).
Analyzing the differences as plotted by Blant Altman, the system depicts a small degree of overestimation of extent assessment as compared to reference standard. Total disease extent: (MD: 2.5%; LoA95: -14.3%, 19.3%), ground glass extent (MD: 1.3%; LoA95: -10.9%, 13.5%), reticular pattern extent (MD: 1.2%; LoA95: -12.7%, 15.1%). The system shows substantial agreement to pixel-wise (reference): 86.5%, 75.1% και 81.6%, for total lung disease, ground glass and reticular pattern, respectively. Semiquantitative scoring demonstrates higher degree of disease extent overestimation to reference: Total disease extent: MD: 9.2%; LoA95: -12.8%, 31.2%, ground glass extent: MD: 4.6%; LoA95: -9.8%, 19.0% and reticular extent: MD: 4.6%; LoA95: -10.0%, 19.3%) and achieves significantly lower agreement to reference (69.2%, 70.8%, 70.3%, respectively). Finally, agreement to reference achieved by assisted CAD, is slightly improved compared to CAD alone, especially for ground glass pattern (88.1%, 78.4% and 81.6%, respectively).
The utilization of curve representation of the degree of agreement is proposed in this thesis, in an effort to visualize agreement of extent assessments and to facilitate agreement inter-comparison. These curves indicate assisted CAD as the best system, presenting with the higher agreement to reference, with CAD alone nearby, while semiquantitative scoring differs significantly from the manually drawn reference. CAD system and assisted CAD. These curves depict distinctively the differences in agreement between the two evaluation approaches by radiologists: semiquantitative and pixel-wise, confirming the observations of the first part of the thesis. On these curves difference interval ±5% ή ±25 % in extent assessment can be applied, according to 5% step used in semiquantitative scoring by Desai et al. or 25% in Likert scaling. Τhe more detailed (±5%) the quantification step is the greater the quantification errors are. Οn the contrary for wider step 25% the different the differences among them are not perceivable
Finally, comparison of volumetric system output (3D) with PFTs yields strong negative correlations for total disease with all indexes, with better correlation with FEV1 and DLCO (R=-0.545 p=<0.0001, R=-0.567 p=<0.0001, respectively). For reticular pattern, correlation was moderate to all PFT indexes with better correlation with FEV1 and DLCO (R=-0.602, p=<0.0001, R=-0.615 p=<0.0001, respectively). For ground glass pattern there is no statistical correlation to neither of PFT indexes. For 2D system output, negative correlation was shown to PFTs for total disease and reticular pattern. Best moderate negative correlation was shown with DLCΟ (R=-0.485, p= 0.002, R=-0.601 p=<0.001 respectively). For ggo pattern, 2D system output showed no statistically significant correlation to all indexes, as in 3D system output.
Semiquantitative scoring 3DSQRconsRcons and 2DSQ showed for total disease statistically significant negative correlations to PFTs, albeit weak, only with index DLCO (R=-0.382, p= 0.020, R=-0.398p=<0.02, respectively).. For 3DSQRcons semiquantitative scoring, reticular pattern showed statistically significant weak negative correlation to PFTs (not included to TLC) (FVC: R=-0.331, p= 0.045, FEV1: R=-0.393, p=0.016, DLCO : R=-0.392, p= 0.016). For 2DSQ semiquantitative scoring, reticular pattern showed statistically significant weak to moderate negative correlation to all PFTs (FVC: R=-0.360, p= 0.029, FEV1: R=-0.411, p=0.012, TLC : R=-0.326, p= 0.049, DLCO: R=-0.485, p= 0.002). For ground glass there was no statistically significant correlation for all indexes regarding 3DSQRcons and 2DSQ valuation.
Conclusions
In conclusion, an automated quantification system for ILD extent in CT was assessed, based on texture features, quantifying the two major imaging patterns of the disease, ggo and reticular pattern. Initially the system was evaluated by two experiences radiologists with performance within interobserver variability. Accordingly, the 3D system output was evaluated in a different dataset of 37 patients in order to evaluate the results with semiquantitative scoring published in literature. The correlation was very good. Further analysis of differences showed greater deviation of CAD and semiquantitative quantification, compared to semiquantitative quantification by radiologists (interobserver agreement). This remark led to further evaluation of CAD with a reference standard in 2D, based on manual drawings by radiologists and comparison with semiquantitative quantification. The 2D system output showed significant correlation to the reference standard and semiquantitative scoring. However semiquantitative quantification are less accurate in assessment of CAD quantification systems than quantitative quantification by manual drawing by radiologists. This is depicted in curve representation of different scoring systems compared to reference. From this thesis a number of secondary conclusion are drawn: First, in all systems, quantification variability augments with augmentation of extent. Second, between the two patterns analyzed quantification of ground glass is more difficult. Moreover, assisted CAD slightly improves the system output and mostly the ground glass pattern is corrected. Finally, the system correlates better to PFTs than semiquantitative quantification by radiologists. Especially reticular pattern by itself can be used as a reliable marker of pulmonary dysfunction.
Overall, the system analysed is a useful disease extent quantification tool, than could act as a biomarker for staging and follow up of interstitial lung disease.
Identifer | oai:union.ndltd.org:upatras.gr/oai:nemertes:10889/6148 |
Date | 09 July 2013 |
Creators | Καζαντζή, Αλεξάνδρα |
Contributors | Κωσταρίδου, Ελένη, Kazantzi, Alexandra, Καλογεροπούλου, Χριστίνα, Παπαδάκη, Ελένη, Πέτσας, Θεόδωρος, Παναγιωτάκης, Γεώργιος, Αντωνόπουλος, Ανδρέας, Δαούσης, Δημήτριος |
Source Sets | University of Patras |
Language | gr |
Detected Language | Greek |
Type | Thesis |
Rights | 12 |
Relation | Η ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. |
Page generated in 0.0048 seconds