• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Text mining : μια νέα προτεινόμενη μέθοδος με χρήση κανόνων συσχέτισης

Νασίκας, Ιωάννης 14 September 2007 (has links)
Η εξόρυξη κειμένου (text mining) είναι ένας νέος ερευνητικός τομέας που προσπαθεί να επιλύσει το πρόβλημα της υπερφόρτωσης πληροφοριών με τη χρησιμοποίηση των τεχνικών από την εξόρυξη από δεδομένα (data mining), την μηχανική μάθηση (machine learning), την επεξεργασία φυσικής γλώσσας (natural language processing), την ανάκτηση πληροφορίας (information retrieval), την εξαγωγή πληροφορίας (information extraction) και τη διαχείριση γνώσης (knowledge management). Στο πρώτο μέρος αυτής της διπλωματικής εργασίας αναφερόμαστε αναλυτικά στον καινούριο αυτό ερευνητικό τομέα, διαχωρίζοντάς τον από άλλους παρεμφερείς τομείς. Ο κύριος στόχος του text mining είναι να βοηθήσει τους χρήστες να εξαγάγουν πληροφορίες από μεγάλους κειμενικούς πόρους. Δύο από τους σημαντικότερους στόχους είναι η κατηγοριοποίηση και η ομαδοποίηση εγγράφων. Υπάρχει μια αυξανόμενη ανησυχία για την ομαδοποίηση κειμένων λόγω της εκρηκτικής αύξησης του WWW, των ψηφιακών βιβλιοθηκών, των ιατρικών δεδομένων, κ.λ.π.. Τα κρισιμότερα προβλήματα για την ομαδοποίηση εγγράφων είναι η υψηλή διαστατικότητα του κειμένου φυσικής γλώσσας και η επιλογή των χαρακτηριστικών γνωρισμάτων που χρησιμοποιούνται για να αντιπροσωπεύσουν μια περιοχή. Κατά συνέπεια, ένας αυξανόμενος αριθμός ερευνητών έχει επικεντρωθεί στην έρευνα για τη σχετική αποτελεσματικότητα των διάφορων τεχνικών μείωσης διάστασης και της σχέσης μεταξύ των επιλεγμένων χαρακτηριστικών γνωρισμάτων που χρησιμοποιούνται για να αντιπροσωπεύσουν το κείμενο και την ποιότητα της τελικής ομαδοποίησης. Υπάρχουν δύο σημαντικοί τύποι τεχνικών μείωσης διάστασης: οι μέθοδοι «μετασχηματισμού» και οι μέθοδοι «επιλογής». Στο δεύτερο μέρος αυτής τη διπλωματικής εργασίας, παρουσιάζουμε μια καινούρια μέθοδο «επιλογής» που προσπαθεί να αντιμετωπίσει αυτά τα προβλήματα. Η προτεινόμενη μεθοδολογία είναι βασισμένη στους κανόνες συσχέτισης (Association Rule Mining). Παρουσιάζουμε επίσης και αναλύουμε τις εμπειρικές δοκιμές, οι οποίες καταδεικνύουν την απόδοση της προτεινόμενης μεθοδολογίας. Μέσα από τα αποτελέσματα που λάβαμε διαπιστώσαμε ότι η διάσταση μειώθηκε. Όσο όμως προσπαθούσαμε, βάσει της μεθοδολογίας μας, να την μειώσουμε περισσότερο τόσο χανόταν η ακρίβεια στα αποτελέσματα. Έγινε μια προσπάθεια βελτίωσης των αποτελεσμάτων μέσα από μια διαφορετική επιλογή των χαρακτηριστικών γνωρισμάτων. Τέτοιες προσπάθειες συνεχίζονται και σήμερα. Σημαντική επίσης στην ομαδοποίηση των κειμένων είναι και η επιλογή του μέτρου ομοιότητας. Στην παρούσα διπλωματική αναφέρουμε διάφορα τέτοια μέτρα που υπάρχουν στην βιβλιογραφία, ενώ σε σχετική εφαρμογή κάνουμε σύγκριση αυτών. Η εργασία συνολικά αποτελείται από 7 κεφάλαια: Στο πρώτο κεφάλαιο γίνεται μια σύντομη ανασκόπηση σχετικά με το text mining. Στο δεύτερο κεφάλαιο περιγράφονται οι στόχοι, οι μέθοδοι και τα εργαλεία που χρησιμοποιεί η εξόρυξη κειμένου. Στο τρίτο κεφάλαιο παρουσιάζεται ο τρόπος αναπαράστασης των κειμένων, τα διάφορα μέτρα ομοιότητας καθώς και μια εφαρμογή σύγκρισης αυτών. Στο τέταρτο κεφάλαιο αναφέρουμε τις διάφορες μεθόδους μείωσης της διάστασης και στο πέμπτο παρουσιάζουμε την δικιά μας μεθοδολογία για το πρόβλημα. Έπειτα στο έκτο κεφάλαιο εφαρμόζουμε την μεθοδολογία μας σε πειραματικά δεδομένα. Η εργασία κλείνει με τα συμπεράσματα μας και κατευθύνσεις για μελλοντική έρευνα. / Text mining is a new searching field which tries to solve the problem of information overloading by using techniques from data mining, natural language processing, information retrieval, information extraction and knowledge management. At the first part of this diplomatic paper we detailed refer to this new searching field, separated it from all the others relative fields. The main target of text mining is helping users to extract information from big text resources. Two of the most important tasks are document categorization and document clustering. There is an increasing concern in document clustering due to explosive growth of the WWW, digital libraries, technical documentation, medical data, etc. The most critical problems for document clustering are the high dimensionality of the natural language text and the choice of features used to represent a domain. Thus, an increasing number of researchers have concentrated on the investigation of the relative effectiveness of various dimension reduction techniques and of the relationship between the selected features used to represent text and the quality of the final clustering. There are two important types of techniques that reduce dimension: transformation methods and selection methods. At the second part of this diplomatic paper we represent a new selection method trying to tackle these problems. The proposed methodology is based on Association Rule Mining. We also present and analyze empirical tests, which demonstrate the performance of the proposed methodology. Through the results that we obtained we found out that dimension has been reduced. However, the more we have been trying to reduce it, according to methodology, the bigger loss of precision we have been taking. There has been an effort for improving the results through a different feature selection. That kind of efforts are taking place even today. In document clustering is also important the choice of the similarity measure. In this diplomatic paper we refer several of these measures that exist to bibliography and we compare them in relative application. The paper totally has seven chapters. At the first chapter there is a brief review about text mining. At the second chapter we describe the tasks, the methods and the tools are used in text mining. At the third chapter we give the way of document representation, the various similarity measures and an application to compare them. At the fourth chapter we refer different kind of methods that reduce dimensions and at the fifth chapter we represent our own methodology for the problem. After that at the sixth chapter we apply our methodology to experimental data. The paper ends up with our conclusions and directions for future research.
2

Αιτιογνωστική και προγνωστική ανάλυση απουσιών σε κοόρτη εργαζομένων στη βιομηχανία / Causative and prognostic analysis of sickness absence in a cohort of employees in heavy industry

Μερεκούλιας, Γεώργιος 05 February 2015 (has links)
Σκοπός της διατριβής ήταν η διερεύνηση του φαινομένου της απουσίας (για λόγους υγείας) από την εργασία στον ιδιωτικό τομέα και ιδίως στη βαριά βιομηχανία, και τη πιθανή επίδραση στην ικανότητα εργασίας. Η παρούσα διδακτορική διατριβή στηρίχτηκε κυρίως στη μελέτη του αρχείου αναρρωτικών αδειών (μιας κοόρτης) εργαζομένων σε ένα από τα μεγαλύτερα ναυπηγεία της χώρας, καθώς και στις ετήσιες στατιστικές αναφορές του Ιδρύματος Κοινωνικών Ασφαλίσεων (ΙΚΑ) της τελευταίας 20ετίας. Τα χαμηλά επίπεδα απουσιασμού ασθενείας στον ιδιωτικό τομέα στην Ελλάδα επιβεβαιώθηκαν από τη μελέτη που έγινε στα πλαίσια αυτής της διατριβής, αν και τα αποτελέσματα υποδεικνύουν ότι ο απουσιασμός ασθενείας στην Ελλάδα είναι ελαφρώς μεγαλύτερος από ότι υποδείκνυαν οι πρόσφατες διεθνείς συγκριτικές μελέτες. Το ποσοστό απουσιασμού (Absenteeism rate) βρέθηκε περίπου 2.5%, από τα χαμηλότερα στην Ευρώπη. Παρόλα αυτά, επειδή περιλαμβάνει τον εργάσιμο χρόνο που διαφέρει από χώρα σε χώρα, δεν χρησιμοποιείται συχνά στις μελέτες αν και ίσως είναι ο πιο έγκυρος δείκτης απουσιασμού. Η μέση διάρκεια απουσίας για κάθε εργαζόμενο ανά έτος ήταν 5.8 ημέρες( μέγιστη τιμή 8 ημέρες προς το τέλος της περιόδου μελέτης) με ένα αντίστοιχο μέσο όρο που ξεπερνούσε κατά πολύ τις 10 ημέρες στην υπόλοιπη Ευρώπη. Ενδιαφέρον εύρημα αποτελεί το γεγονός ότι οι μικρής διάρκειας απουσίες (<4 ημέρες) αντιστοιχούσαν στο 25% της συνολικής διάρκειας των απουσιών, κάτι που μέχρι τώρα δεν μπορούσε να υπολογιστεί από τα εθνικά στατιστικά δεδομένα του ΙΚΑ. Κατά τη μελέτη των δεδομένων του ΙΚΑ τις δυο τελευταίες δεκαετίες, βρέθηκε μια κυματοειδής πορεία του απουσιασμού, επιδεικνύοντας πτωτική πορεία μέχρι τα τέλη τις δεκαετίας του 1990, σε συμφωνία με τις προηγούμενες μελέτες και εν συνεχεία μια ανοδική πορεία, αν και μέχρι το τέλος της περιόδου μελέτης τα επίπεδα παρέμειναν χαμηλότερα από τα αρχικά. Σίγουρα οι παρατηρήσεις αυτής της μελέτης χρήζουν περαιτέρω διερεύνησης, καθώς ο χαμηλός απουσιασμός μόνο μερικώς μπορεί να αποδοθεί στα χαμηλά επίπεδα αποζημίωσης μισθού σε περίπτωση αναρρωτικής άδειας ή τα υψηλά ποσοστά ανεργίας. Βασικός σκοπός πρέπει πάντα να είναι η διατήρηση και προώθηση της καλής υγείας των εργαζομένων, μέσω όσο το δυνατόν καλύτερων εργασιακών συνθηκών. Καθώς τόσο οι εργασιακές συνθήκες όσο και η υγεία των εργαζομένων είναι σε μια δυναμική κατάσταση, χρειάζονται εργαλεία παρακολούθησης. Η μέτρηση του απουσιασμού ασθενείας είναι ένας παράγοντας που πάντα θα πρέπει να εκτιμάται από τον ιατρό εργασίας και τον εργοδότη, χρησιμοποιώντας τους διάφορους δείκτες που έχουν καθιερωθεί. Σαν συμπληρωματικό εργαλείο παρακολούθησης προτείνεται η χρήση του Δείκτη Ικανότητας Εργασίας (Work Ability Index), που είναι ένα ερωτηματολόγιο, το οποίο σταθμίστηκε στα Ελληνικά και εκτιμά γενικά τη λειτουργική ικανότητα των εργαζομένων, όντας άμεσα συνδεδεμένο με τον απουσιασμό ασθενείας. Η ελληνική έκδοση του Δείκτη Ικανότητας Εργασίας έδειξε ικανοποιητικές ψυχομετρικές ιδιότητες και συνοχή, και μπορεί να αποτελέσει μια αξιόπιστη εναλλακτική επιλογή στα εργαλεία αξιολόγησης της ικανότητας εργασίας σε ατομικό και ομαδικό επίπεδο. Ο παράγοντας Bradford είναι ένας ακόμα δείκτης που η προγνωστική του δύναμη όσον άφορα το βραχυπρόθεσμο απουσιασμό φάνηκε σε αυτή τη μελέτη. Προτείνεται επίσης η χρήση και των δυο αυτών δεικτών με την μορφή ενός νέου δείκτη (Δείκτης Πρόβλεψης Πιθανής Απουσίας), για την ανίχνευση εργαζομένων και τομέων εργασίας με αυξημένη πιθανότητα απουσίας για λογούς υγείας τα αμέσως επόμενα χρόνια. Στα πλαίσια της στάθμισης έγινε επίσης φανερό το πρότυπο νοσηρότητας του πληθυσμού των ναυπηγείων, όπου κυριαρχούν οι μυοσκελετικές και αναπνευστικές παθήσεις μαζί με το τραύμα, ενώ τη μεγαλύτερη επίδραση στην ικανότητα εργασίας φαίνεται να έχουν οι καρδιαγγειακές και ψυχικές παθήσεις. Αναδείχτηκε επίσης η υποδιάγνωση των ψυχικών παθήσεων, που είναι ένα γενικότερο πρόβλημα στην Ελλάδα. Οι ραδιοτεχνίτες και οι φλογοχειριστές φαίνονται να εμφανίζουν τα μεγαλύτερα επίπεδα απουσιασμού. Οι παράγοντες που βρέθηκαν να συσχετίζονται θετικά με αυξημένα επίπεδα απουσιασμού είναι η μικρή ηλικία, οι χειρωνακτικές εργασίες, το χαμηλό επίπεδο εκπαίδευσης και η εργασιακή εμπειρία άνω των 3 ετών. Συμπερασματικά, χρειάζονται περαιτέρω μελέτες για να κατανοηθεί πλήρως ο απουσιασμός ασθενείας, σε όλους τους εργασιακούς τομείς και βεβαίως εκπαίδευση του ιατρικού προσωπικού στο θέμα της χορήγησης αναρρωτικών αδειών, όπου θα βοηθούσε η χρήση εργαλείων όπως αυτά που μελετήθηκαν σε αυτή τη διατριβή(πχ Disability Guidelines), και ήδη βρίσκουν εφαρμογή σε άλλες χώρες. / The aim of this study was to estimate the levels and analyse sickness absence in the private sector in Greece, using shipyard and national insurance data. Field data were collected in a cohort of shipyard employees in the period between 1999 and 2006. In addition, national sickness absenteeism data (compensated days) of employees insured at the Social Insurance Institute (IKA, the largest insurance scheme in Greece) were retrieved from the Institute’s annual statistical reports for the period 1987-2006. Low levels of sickness absence in the private sector in Greece have been confirmed by this study, although the findings show that sickness absence in Greece is slightly higher than what the recent international comparative studies indicate. The absenteeism rate was 2.5%, which is one of the lowest in Europe. Nevertheless, due to the fact that it involves working hours which differ from one country to another, it is not often used in the studies despite being the most valid indicator of absence. The average duration of absence for every employee per year was 5.8 days (maximum number was 8 days towards the end of the study). In Europe, the average number of days of sickness absence exceeded 10 days. An interesting finding is the fact that short period absences (<4 days) constituted 25% of the total duration of absences, which could not be calculated until now by the national statistical data of the Social Insurance Institute (IKA). While studying the data of IKA of the last two decades, a sinusoidal-like trend was recorded regarding absenteeism. Declining trend by the end of the 1990s was observed, in accordance with previous studies and then an increasing trend, although at the end of the study period the levels remained lower than those at the beginning. Further research is needed concerning the observations of this study since the low absenteeism levels can only be partially attributed to the low compensation rate in case of sick-leave or to the high levels of unemployment. The primary objective should always be health preservation and promotion of the employees by means of the best possible working conditions. As both working conditions and employees’ health are dynamic situations, monitoring tools are required. Sickness absence should always be monitored by the occupational health physician as well as the employer, using the various established tools. The use of Work Ability Index is recommended as an additional monitoring tool. It is a questionnaire, directly linked to sickness absence, which generally evaluates the employees’ functional ability. The Greek version of Work Ability Index displayed satisfactory psychometric properties and consistency thus constituting an appropriate option for evaluating work ability in both individual and population-based settings. The Bradford factor is another index whose prognostic strength concerning short-term absenteeism was evident in this study. The use of both these tools in the form of one new index (Sickness Absence Probability Factor) is also recommended in order to identify employees and work areas with an increased tendency for sickness absence. During the validation process, the morbidity pattern of the shipyard population also became obvious. Musculoskeletal, respiratory diseases as well as trauma are most prevalent, whereas cardiovascular and mental diseases seem to have the biggest impact on work ability. The underdiagnosis of mental diseases was also revealed, which is a general problem in Greece. Radiomen and flame-cutters seem to have the highest levels of absence, while the factors which were found to be positively linked to high levels of absenteeism are young age, manual labor, low educational level and working experience over 3 years. In conclusion, further research is necessary to fully describe and understand the phenomenon of sickness absence in various work fields. Medical staff training in the area of issuing sick-leave is essential and has already been implemented in other countries. Tools, like the ones studied in this dissertation should be utilized.

Page generated in 0.0279 seconds