Spelling suggestions: "subject:"διαχωριστική ανάλυση"" "subject:"διαχωριστικής ανάλυση""
1 |
Διαχωριστική ανάλυση - λογιστική παλινδρόμησηΧουντής, Βασίλειος 07 July 2010 (has links)
Στην σημερινή εποχή είναι μεγάλη η ανάγκη να κατατάσσουμε παρατηρήσεις σε
γνωστές ομάδες - πληθυσμούς καθώς επίσης και να κάνουμε προβλέψεις. Υπάρχουν
πολλές μέθοδοι που κάνουν ή σκοπό έχουν να κατατάσσουν παρατηρήσεις. Στην
διπλωματική εργασία περιγράφω δυο από τις σημαντικότερες μεθόδους που
χρησιμοποιούνται ευρέως στην στατιστική, την διαχωριστική ανάλυση (discriminant
analysis) και την λογιστική παλινδρόμηση (logistic regression). Στο πρώτο μέρος
αναφέρω τι είναι η διαχωριστική ανάλυση, δίνω συνοπτικά μερικές εφαρμογές της
μεθόδου και περιγράφω την διαφορά από την ανάλυση σε συστάδες. Στην συνέχεια
αναλύω τον διαχωρισμό δυο πληθυσμών που ακολουθούν την κανονική κατανομή
και τα κριτήρια που πρέπει να λάβουμε υπόψη. Στόχος μας είναι να κατασκευάσουμε
μια συνάρτηση που θα διαχωρίζει όσο το δυνατόν καλύτερα τους δυο πληθυσμούς.
Πρέπει να σημειώσουμε ότι δεν υπάρχει τέλειος διαχωρισμός, δηλαδή ενδέχεται η
συνάρτηση να κατατάσσει λανθασμένα μια παρατήρηση σε μια από τις δυο ομάδες.
Για αυτό πρέπει να λάβουμε υπόψη τα κόστη λανθασμένης κατάταξης και τις εκ των
προτέρων πιθανότητες. Ο βέλτιστος διαχωρισμός θα πραγματοποιηθεί αν
καταφέρουμε να ελαχιστοποιήσουμε το κόστος λανθασμένης κατάταξης. Στο τμήμα
3 βρίσκω την συνάρτηση κατάταξης όταν οι δυο πληθυσμοί έχουν ίσους πίνακες
διασποράς (γραμμικός κανόνας κατάταξης) αλλά και όταν έχουν άνισες διασπορές
(τετραγωνικός κανόνας κατάταξης). Εφόσον, έχω φτιάξει την συνάρτηση κατάταξης
το επόμενο βήμα είναι να την αξιολογήσω. Περιγράφω δυο τρόπους αξιολόγησης
(επικύρωσης), τον υπολογισμό του ρυθμού σφάλματος και την holdout διαδικασία.
Στο τμήμα 5 αναφέρω την διαχωριστική ανάλυση του Fisher, τι υποθέσεις έκανε και
πως κατάφερε να φτάσει στην ίδια συνάρτηση κατάταξης. Στην συνέχεια κάνω μια
γενίκευση της διαχωριστικής ανάλυσης αν έχω g πληθυσμούς και δίνω το νέο τύπο
της συνάρτησης κατάταξης όταν έχω ίσους και άνισους πίνακες διασποράς (γραμμικό
– τετραγωνικό διαχωριστικό σκορ). Ερμηνεύω γεωμετρικά το γραμμικό διαχωριστικό
σκορ. Στο τελευταίο τμήμα μελετάω την μέθοδο του Fisher όταν έχω g πληθυσμούς
και αποδεικνύω μερικά θεωρήματα. Στο δεύτερος μέρος της διπλωματικής περιγράφω
μια άλλη διαδικασία κατάταξης, την λογιστική παλινδρόμηση. Δίνω συνοπτικά
μερικές εφαρμογές της μεθόδου και αναλύω πότε χρησιμοποιούμε αυτή την μέθοδο.
Ξεκινώντας από το απλό γραμμικό μοντέλο παλινδρόμησης , αναφέρω τα
προβλήματα που έχουμε τώρα που η μεταβλητή είναι δυαδική και πως τα
αντιμετωπίζουμε, καταλήγοντας στην μορφή που έχει η απλή λογιστική συνάρτηση.
Περιγράφω τις ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης και πως
προσαρμόζουμε το λογιστικό μοντέλο παλινδρόμησης χρησιμοποιώντας τους
εκτιμητές μέγιστης πιθανοφάνειας. Κατόπιν δίνω την ερμηνεία του συντελεστή
παλινδρόμησης και δίνω την μορφή της λογαριθμικής συνάρτησης πιθανοφάνειας
όταν έχω επαναλαμβανόμενες παρατηρήσεις. Στο τμήμα 4 περιγράφω το πολλαπλό
λογιστικό μοντέλο παλινδρόμησης και στο τμήμα 5 πως κατασκευάζεται το μοντέλο.
Ελέγχω αν μπορούμε να παραλείψουμε μερικές προβλέπουσες μεταβλητές,
χρησιμοποιώντας ένα στατιστικό που λέγεται μοντέλο απόκλισης, αλλά και από τον
έλεγχο του λόγου πιθανοφάνειας. Προτού όμως χρησιμοποιήσω το μοντέλο στην
πράξη εξετάζω την καταλληλότητα του, δηλαδή αν ικανοποιεί τις ιδιότητες της
λογιστικής αποκρινόμενης συνάρτησης και αναζητώ τα outliers και τις παρατηρήσεις
που έχουν την μεγαλύτερη επιρροή. Στα τμήματα 7 και 8 περιγράφω τα
συμπεράσματα για τις παραμέτρους της λογιστικής παλινδρόμησης και για τον
αποκρινόμενο μέσο, ενώ στο τμήμα 9 αναφέρω πως γίνεται η πρόβλεψη καινούριων
παρατηρήσεων. Τελειώνοντας αναφέρω την πολύτομη λογιστική παλινδρόμηση και περιγράφω συνοπτικά τις ομοιότητες- διαφορές της διαχωριστικής ανάλυσης και της
λογιστικής παλινδρόμησης. / -
|
2 |
Λογιστική παλινδρόμηση & διαχωριστική ανάλυσηΞενή, Μαρία 26 April 2012 (has links)
Σε αυτή την εργασία ασχοληθήκαμε με δύο μεθόδους, που σκοπός τους είναι να κατατάσσουν τις παρατηρήσεις σε γνωστές ομάδες και στη συνέχεια να κάνουν προβλέψεις για καινούριες παρατηρήσεις. Αυτές οι μέθοδοι είναι η λογιστική παλινδρόμηση (logistic regression) και η διαχωριστική ανάλυση (discriminant analysis).
Στο πρώτο κεφάλαιο αναφέραμε περιληπτικά τα μη γραμμικά μοντέλα παλινδρόμησης (αφού και η λογιστική παλινδρόμηση είναι ένα τέτοιο μοντέλο). Απλά αναφέρουμε τη μορφή που έχουν αυτά τα μοντέλα, με ποιες μεθόδους μπορούμε να εκτιμήσουμε τις παραμέτρους παλινδρόμησης, ποια είναι τα διαστήματα εμπιστοσύνης για τους συντελεστές παλινδρόμησης και τη μορφή που θα έχουν οι έλεγχοι υποθέσεων.
Στο δεύτερο κεφάλαιο περιγράφουμε τη λογιστική παλινδρόμηση. Η λογιστική παλινδρόμηση είναι χρήσιμη σε καταστάσεις στις οποίες επιθυμούμε να προβλέψουμε την ύπαρξη ή την απουσία ενός χαρακτηριστικού ή ενός συμβάντος. Η πρόβλεψη αυτή βασίζεται στην κατασκευή ενός μοντέλου και συγκεκριμένα στον προσδιορισμό των τιμών που παίρνουν οι συντελεστές. Αυτή η μέθοδος είναι μια γενίκευση της απλή γραμμικής παλινδρόμησης για την περίπτωση όπου η εξαρτημένη μεταβλητή είναι δίτιμη (παίρνει την τιμή 0 όταν το χαρακτηριστικό απουσιάζει και την τιμή 1 όταν υπάρχει το χαρακτηριστικό).
Στο τρίτο κεφάλαιο αναλύουμε τη διαχωριστική ανάλυση, η οποία έχει δύο στόχους: να χωρίσει ένα πληθυσμό σε ευδιάκριτες ομάδες και με τη βοήθεια ενός διαχωριστικού κανόνα να κατατάσσει παρατηρήσεις στις ευδιάκριτες ομάδες. Στο τέλος του κεφαλαίου περιγράφουμε τις ομοιότητες και τις διαφορές της διαχωριστικής ανάλυσης και της λογιστικής παλινδρόμησης.
Στο τέταρτο και τελευταίο κεφάλαιο απλά δίνουμε ένα παράδειγμα που το λύνουμε με τη μέθοδο της λογιστικής παλινδρόμησης και ένα παράδειγμα που το λύνουμε με τη μέθοδο της διαχωριστικής ανάλυσης. Αυτό το κάνουμε με τη βοήθεια του στατιστικού πακέτου SPSS. / In this work we dealt with two methods, that their aim are to classify the observations in known teams and afterwards to make forecasts for new observations. These methods are the accountant regression (logistic regression) and the bisector analysis (discriminant analysis).
|
3 |
Προσδιορισμός της ανθρώπινης ή μη προέλευσης του κολοβακτηριδίου που απομονώνεται από το υδάτινο περιβάλλον με καλλιεργητικές και μοριακές τεχνικές / Differentiation of the human or animal origin of Escherichia coli isolated from the aquatic environment by cultural and molecular techniquesΒενιέρη, Δανάη 27 June 2007 (has links)
Η διατήρηση της μικροβιολογικής ποιότητας του υδάτινου περιβάλλοντος είναι υψίστης σημασίας δεδομένων των κινδύνων που ενέχονται για τη δημόσια υγεία. Η αξιολόγηση της μικροβιολογικής ποιότητας των υδάτων πραγματοποιείται με την ανίχνευση της κοπρανώδους μόλυνσης και με τον έλεγχο της παρουσίας και συγκέντρωσης συγκεκριμένων μικροοργανισμών – δεικτών, όπως είναι η Escherichia coli. Ωστόσο, η απλή ανίχνευση κοπρανώδους μόλυνσης δεν επαρκεί για την υπόδειξη τρόπων εξυγίανσης και αντιμετώπισης του εκάστοτε προβλήματος. Οι δύο κύριες ομάδες στις οποίες διακρίνεται η κοπρανώδης μόλυνση είναι η ανθρώπινη και η ζωική, οι οποίες υποδηλώνουν πιθανή παρουσία διαφορετικών κάθε φορά παθογόνων μικροοργανισμών για τον άνθρωπο. Έτσι, προκειμένου να οριοθετηθεί ο κίνδυνος για τη δημόσια υγεία και να καθοριστούν μέτρα αντιμετώπισης της μόλυνσης ενδείκνυται ο προσδιορισμός της ανθρώπινης ή ζωικής προέλευσης της κοπρανώδους μόλυνσης. Στην παρούσα μελέτη αναπτύχθηκαν, εφαρμόστηκαν και αξιολογήθηκαν οι μέθοδοι: α)Έλεγχος πολλαπλής ανθεκτικότητας σε αντιβιοτικά (Multiple Antibiotic Resistance – MAR – φαινοτυπική μέθοδος) και β) PCR με τυχαία ενισχυμένα τμήματα πολυμορφικού DNA - Random Amplified Polymorphic DNA-PCR (RAPD-PCR – γονοτυπική μέθοδος), ως τεχνικές προσδιορισμού και διάκρισης προέλευσης μικροοργανισμών. Κατά το πρώτο στάδιο καθορίστηκαν οι παράμετροι των μεθόδων για το διαχωρισμό στελεχών E. coli γνωστής προέλευσης (60 στελέχη απομονωμένα από ζωικά κόπρανα και 68 στελέχη από ανθρώπινα). Για το διαχωρισμό και κατηγοριοποίηση των στελεχών εφαρμόστηκαν η Ιεραρχική Ανάλυση Κατά Συστάδες και η Διαχωριστική Ανάλυση. Με τη MAR ανάλυση τα στελέχη E. coli εμφάνισαν διαφορετικούς συνδυασμούς ανθεκτικότητας και διαχωρίστηκαν βάσει της προέλευσής τους με μέσο ποσοστό σωστής ταξινόμησης (ARCC) 99,2%. Με την RAPD-PCR χρησιμοποιήθηκαν δύο εκκινητές ξεχωριστά (1254 & 1290) και τα 128 στελέχη E. coli γνωστής προέλευσης διαχωρίστηκαν σε ανθρώπινης και ζωικής πηγής με ARCC 98,4% και με τους δύο εκκινητές. Η διακριτική ικανότητα της RAPD-PCR με τους δύο εκκινητές ήταν D1254=0,97 & D1290=0,90. Επιπλέον, η αξιολόγηση της επαναληψιμότητας της RAPD-PCR και με τους δύο εκκινητές έδωσε ικανοποιητικά αποτελέσματα με την εμφάνιση ίδιων ηλεκτροφορητικών εικόνων για τα ίδια βακτηριακά στελέχη. Στη συνέχεια οι επιλεγμένες τεχνικές εφαρμόστηκαν για την ταξινόμηση και κατηγοριοποίηση στελεχών E. coli άγνωστης προέλευσης εκτιμώντας την ανθρώπινη ή ζωική πηγή τους βάσει του μοντέλου διαχωρισμού των E. coli γνωστής προέλευσης. Οι E. coli άγνωστης προέλευσης (234 στελέχη) απομονώθηκαν από δείγματα πόσιμου νερού δικτύου από 11 περιοχές και δείγματα μη επεξεργασμένων λυμάτων από τις εισόδους τεσσάρων σταθμών βιολογικού καθαρισμού (ΚΕΡΕΦΥΤ – Νομός Αττικής, ΨΥΤΤΑΛΕΙΑ – Νομός Αττικής, ΡΙΟ – Νομός Αχαΐας και ΠΑΤΡΑ - Νομός Αχαΐας). Τα 234 στελέχη με τη MAR ανάλυση ταξινομήθηκαν ως ανθρώπινα και ζωικά σε ποσοστά 46,6% και 53,4% αντίστοιχα. Τα αποτελέσματα ταξινόμησης ήταν διαφορετικά με τη μέθοδο RAPD-PCR. Με τον εκκινητή 1254 τα άγνωστα στελέχη προσδιορίστηκαν ως ανθρώπινα κατά το 64,9% και ως ζωικά κατά το 35,1%. Αντίστοιχα, με τον εκκινητή 1290 τα ποσοστά ήταν 60,3% ανθρώπινα και 39,7% ζωικά. Τα στελέχη του πόσιμου νερού που προέρχονταν από τους σταθμούς δειγματοληψίας που ήταν αστικά κέντρα χαρακτηρίστηκαν εξ ολοκλήρου ως ανθρώπινης προέλευσης. Αντίθετα, στις περιοχές δειγματοληψίας με ανεπτυγμένη κτηνοτροφία βρέθηκαν και στελέχη ζωικής προέλευσης, γεγονός που υποδηλώνει την είσοδο στο δίκτυο κοπρανώδους υλικού προερχόμενου από ζώα των συγκεκριμένων περιοχών, τα οποία ενδεχομένως να έχουν άμεση πρόσβαση στις πηγές και γεωτρήσεις. Όσον αφορά στο χαρακτηρισμό των E. coli που καταλήγουν στους αναφερόμενους βιολογικούς καθαρισμούς, η πλειοψηφία ανίχνευσης ανθρωπίνων στελεχών δηλώνει την πιθανή παρουσία στα ακατέργαστα λύματα πολλών ανθρωπίνων εντερικών παθογόνων σημαντικών για τη δημόσια υγεία. Δεδομένου ότι τα τελευταία χρόνια οι ερευνητές έχουν αποδυθεί σε μια προσπάθεια επαναχρησιμοποίησης επεξεργασμένων λυμάτων επισημαίνεται η ανάγκη επεξεργασίας τους σε διάφορα στάδια για τη διασφάλιση της δημόσιας υγείας. Παρατηρήθηκε συμφωνία αποτελεσμάτων με τη χρήση των δύο εκκινητών καθώς η διαφορά στα ποσοστά δεν ήταν στατιστικά σημαντική (P>0,05). Συγκρίνοντας τα αποτελέσματα που ελήφθησαν με τις δύο μεθόδους, τη φαινοτυπική (MAR ανάλυση) και τη γονοτυπική (RAPD-PCR), υπήρξε στατιστικά σημαντική διαφορά (P<0,05), με συνέπεια να τίθεται θέμα επιλογής της πιο ενδεδειγμένης μεθόδου τυποποίησης και διάκρισης περιβαλλοντικών μικροοργανισμών. H παρούσα μελέτη αναδεικνύει την RAPD-PCR ως μια γονοτυπική μέθοδο με ικανοποιητική διακριτική ικανότητα, ευαισθησία, επαναληψιμότητα υπό αυστηρά καθορισμένες συνθήκες και χαμηλού κόστους. Η ευκολία εφαρμογής για την τυποποίηση μεγάλου αριθμού βακτηριακών στελεχών, χωρίς την απαίτηση γνώσης της νουκλεοτιδικής αλληλουχίας του γενετικού υλικού την καθιστούν ιδιαίτερα προσιτή σε εργαστήρια μοριακής μικροβιολογίας, ως τεχνική διάκρισης προέλευσης της κοπρανώδους μόλυνσης στο υδάτινο περιβάλλον. / Maintenance of the microbiological quality and safety of water systems is imperative, as their faecal contamination may exact high risks to human health as well as result in significant economic losses. The microbiological quality of water systems is evaluated by detecting their faecal pollution and especially specific faecal indicators such as Escherichia coli. Simple detection of faecal pollution is not sufficient in order to apply appropriate management plans to remedy the problem and to prevent any further contamination. Human faecal material is generally perceived as constituting a grater human health risk than animal faecal material, considering that it is more likely to contain human-specific enteric pathogens. Thus, it would be desirable to determine the source of the faecal material, especially for the assessment of risk for public health and for the development of monitoring plans. In the present study the development and assessment of Multiple Antibiotic Resistance Analysis (MAR – phenotypic method) and Randomly Amplified Polymorphic DNA-PCR Analysis (RAPD-PCR – genotypic method) were established as microbial source tracking methods. Firstly, parameters of the two selected methods were determined for the discrimination of E. coli isolates of known source (60 isolates from animal faecal material & 68 isolates from human faecal material). Hierarchical Cluster Analysis and Discriminant Analysis were applied for the classification of the isolates. With MAR analysis E. coli isolates developed different resistance profiles and were discriminated according to their source with an average rate of correct classification (ARCC) of 85.2%. With RAPD-PCR analysis two different 10-nt primers of arbitrary sequence were used (1254 & 1290) and the 128 E. coli isolates of known origin were classified as human and animal with the following ARCC: ARCC1254= 87.5% & ARCC1290= 81.3%. The discriminatory power of RAPD-PCR with the two selected primers was D1254=0.97 & D1290=0.90. Furthermore, the assessment of reproducibility of RAPD-PCR analysis provided satisfactory results with both primers, as RAPD profiles were identical for the same bacterial isolates. The assessment of specificity of the method resulted in the discrimination among RAPD profiles of E. coli isolates and other reference bacteria. The selected methods were applied for the classification and the source tracking of E. coli isolates, derived from tap water and raw sewage samples. In total 234 E. coli strains were isolated from tap water from 11 areas and raw sewage samples from four treatment plants (KEREFYT – prefecture of Attiki, PSITALIA - prefecture of Attiki, RIO - prefecture of Achaia and PATRA - prefecture of Achaia). With MAR analysis the 234 isolates were classified as human and animal in percentages of 46.6% & 53.4%, respectively. Classification results were different with RAPD-PCR analysis. With primer 1254 the classification was: 64.9% of human origin and 35.1% of animal origin and with primer 1290 the classification was: 60.3% of human origin and 39.7% of animal origin. Isolates derived from tap water of urban areas were classified in total as of human origin. On the contrary, in areas with many farm breeders many isolates were classified as of animal origin, indicating presence of faecal material in the water systems derived animal activities. As far as E. coli isolates from raw sewage samples are concerned, the majority of them were classified as of human source, indicating the possible presence of other human enteric pathogens as well. Taking into account the fact that there has been an effort in order to reuse treated sewage, it seems necessary a multi-stage process to renovate wastewater before it re-enters a body of water. There was an agreement of results of classification obtained form the use of the two different primers as the percentages did vary statistically (P>0.05). Comparing results obtained from the two selected methods, the difference was statistically significant (P<0.05), raising a question of the appropriate method for the typing and discrimination of environmental microorganisms. The present study demonstrates RAPD analysis as a simple, cost effective genotypic method with satisfactory discriminatory power, sensitivity and reproducibility. It can be applied for the analysis of a large number of bacterial isolates without the prior knowledge of nucleotide sequence of DNA to be necessary. Finally, it may fulfil environmental for the determination of origin of faecal pollution protecting water resources and public health.
|
Page generated in 0.0499 seconds