Spelling suggestions: "subject:"same antity arecognition"" "subject:"same antity 2recognition""
1 |
Unsupervised Method for Disease Named Entity RecognitionAlmutairi, Abeer N. 06 November 2019 (has links)
Diseases take a central role in biomedical research; many studies aim to enable access to disease information, by designing named entity recognition models to make use of the available information. Disease recognition is a problem that has been tackled by various approaches of which the most famous are the lexical and supervised approaches. However, the aforementioned approaches have many drawbacks as their performance is affected by the amount of human-annotated data set available. Moreover, lexicalapproachescannotdistinguishbetweenrealmentionsofdiseasesand mentionsofotherentitiesthatsharethesamenameoracronym. Thechallengeofthis project is to find a model that can combine the strengths of the lexical approaches and supervised approaches, to design a named entity recognizer. We demonstrate that our model can accurately identify disease name mentions in text, by using word embedding to capture context information of each mention, which enables the model todistinguishifitisarealdiseasementionornot. Weevaluateourmodelusingagold standard data set which showed high precision of 84% and accuracy of 96%. Finally, we compare the performance of our model to different statistical name entity recognition models, and the results show that our model outperforms the unsupervised lexical approaches.
|
2 |
Αναγνώριση και κατάταξη ονομάτων-οντοτήτων σε ελληνικά κείμενα με χρήση τυχαίων δασών / Name entity recognition in Greek texts with random forestsΖαγγανά, Ελένη 08 January 2013 (has links)
Η αναγνώριση και κατηγοριοποίηση ονομάτων οντοτήτων είναι μία ιδιαίτερα χρήσιμη υπό-εργασία σε πολλές εφαρμογές επεξεργασίας φυσικής γλώσσας. Σε αυτήν την εργασία παρουσιάζεται μία προσπάθεια αναγνώρισης και κατηγοριοποίησης ονομάτων προσώπων, ημερομηνιών, περιοχών(πόλεων, χωρών) και οργανισμών(π.χ. Δημόσια Επιχείρηση Ηλεκτρισμού) χρησιμοποιώντας μια νέα μέθοδο επιβλεπόμενης μάθησης για ταξινόμηση δεδομένων, τα «Τυχαία Δάση». Η μέθοδος κατηγοριοποίησης αυτή, χρησιμοποιεί ένα σύνολο δέντρων απόφασης, όπου το κάθε ένα «ψηφίζει» μια κατηγορία. Η τελική και οριστική κατηγοριοποίηση γίνεται με το «τυχαίο δάσος» να διαλέγει την κατηγορία με τις περισσότερες ψήφους.
Σε μια συλλογή ελληνικών κειμένων, εφαρμόστηκαν τεχνικές επεξεργασίας κειμένων για διαχωρισμό και κατηγοριοποίηση των λέξεων, όπου το αποτέλεσμα που προέκυψε ήταν ένα σύνολο χαρακτηριστικών για κάθε λέξη. Το σύνολο των χαρακτηριστικών χωρίστηκε σε ένα «σύνολο εκπαίδευσης» και ένα «σύνολο ελέγχου». Το «σύνολο εκπαίδευσης» χρησιμοποιήθηκε για την εκπαίδευση του «τυχαίου δάσους». Το τελευταίο, θα χρησιμοποιηθεί για την αναγνώριση της κατηγορίας στην οποία ανήκει μια λέξη. Το Τυχαίο Δάσος που αναπτύχθηκε, ελέγχθηκε με βάση το «σύνολο ελέγχου» και προέκυψαν ικανοποιητικά αποτελέσματα, πιο συγκεκριμένα για την κατάταξη ημερομηνιών και οργανισμών η απόδοση ήταν 96% ενώ η ακρίβειά του ήταν 93%. Επιπλέον, για το πρόβλημα που διερευνάται, συγκρίθηκαν τα αποτελέσματα της χρήσης Μηχανών Διανυσμάτων Υποστήριξης και Νευρωνικών Δικτύων με αυτά των Τυχαίων Δασών. / Name entity recognition and categorization is a very important subtask in several natural language processing applications. In this master thesis, we present an attempt to recognize and categorize person names, temporal expressions(i.e. dates), areas (cities/countries), organizations (e.g. Public Electric Company) by using a new supervised learning method for classification, Random Forests. This classification method, uses a group of decision trees where each tree, votes for one classification category. The Random Forest results to the classification category with the most votes.
In a Greek corpus (collection of texts), text processing techniques were applied such as stemming and tokenization. The result obtained was a set of features for each word. The set of features was divided to a “train dataset” and a “test dataset”. The “train dataset” was used in order to train the Random Forest. The latter will classify each word to one of the four categories mentioned before. The Random Forest, was tested against the “test dataset” and the results were very satisfactory, in particular the performance for classifying dates and organizations was 96%, in addition classification accuracy was 93%. Furthermore, for the problem examined, the results of using Support Vector Machines and Neural Networks, where compared with the ones of Random Forests.
|
Page generated in 0.1011 seconds