Μέθοδοι αυτόματης αναγνώρισης περιεχομένου που παράγεται από χρήστες (User Generated Content) στον Παγκόσμιο ιστό

Λάμπος, Βασίλειος 08 May 2013 (has links)
Εκατομμύρια ανθρώπων επιλέγουν καθημερινά να χρησιμοποιήσουν τον Παγκόσμιο Ιστό για ένα ευρύ σύνολο δραστηριοτήτων. Ο αριθμός των χρηστών του διαδικτύου αυξάνεται συνεχώς, όπως επίσης και το σύνολο των διαφορετικών δραστηριοτήτων που μπορούν να εκτελεστούν μέσω ιστοσελίδων και υπηρεσιών του διαδικτύου. Οι χρήστες του Παγκόσμιου Ιστού καθημερινά συμμετέχουν σε διάφορες ψηφιακές δραστηριότητες, οριοθετώντας με αυτόν τον τρόπο τη ψηφιακή τους «ζωή». Κάθε χρήστης μπορεί να στείλει μήνυμα με το ηλεκτρονικό ταχυδρομείο, να επικοινωνήσει και να δημιουργήσει σχέσεις με άλλους χρήστες του Παγκόσμιου Ιστού, να επισκεφτεί ιστότοπους για να ικανοποιήσει τις ενημερωτικές του ανάγκες ή να διατηρεί ένα προσωπικό προφίλ σε έναν ή περισσότερους ιστότοπους κοινωνικής δικτύωσης. Παράλληλα, όλο και περισσότεροι χρήστες του Παγκόσμιου Ιστού χρησιμοποιούν τα ηλεκτρονικά καταστήματα για τις αγορές τους, επιτυγχάνοντας την απευθείας σύνδεση της έρευνας αγοράς με την αγορά προϊόντων ή υπηρεσιών, ενώ ο σχολιασμός και οι απόψεις άλλων χρηστών για προϊόντα και υπηρεσίες αποτελεί άλλο ένα αναμφισβήτητο πλεονέκτημα των ηλεκτρονικών καταστημάτων. Αποτέλεσμα της αυξανόμενης δραστηριοποίησης των χρηστών είναι η συνεχής αύξηση του όγκου των κειμενικών δεδομένων που έχουν παραχθεί από χρήστες (user generated text content - UGTC) στις ιστοσελίδες του Παγκόσμιου Ιστού. Οι δικτυακές κοινότητες αυξάνονται συνεχώς σε μέγεθος και αριθμό, ενώ ταυτόχρονα οι ιστότοποι και οι υπηρεσίες του Παγκόσμιου Ιστού προσφέρουν όλο και περισσότερες δυνατότητες στους χρήστες τους για να δημιουργήσουν, να συντηρήσουν και να δημοσιοποιήσουν περιεχόμενο κειμένου που έχει παραχθεί από τους ίδιους. Αποτέλεσμα της αλληλεπίδρασης των χρηστών αλλά και χρηστών και ιστοσελίδων, είναι ότι ένα αρκετά μεγάλο μέρος της διαδικτυακής πληροφορίας με το οποίο έρχεται σε επαφή ο μέσος χρήστης καθημερινά, έχει παραχθεί από άλλους χρήστες και όχι από τους δημιουργούς του ιστοτόπου. Η μελέτη των χαρακτηριστικών του περιεχομένου που έχει παραχθεί από χρήστες είναι κομβικό σημείο σε μια σειρά ερευνητικών πεδίων. Χαρακτηριστικό παράδειγμα αποτελούν οι μελέτες στα πλαίσια του πεδίου της εξόρυξης άποψης (opinion mining), οι οποίες βασίζονται στο περιεχόμενο των χρηστών για να αλιεύσουν τις απόψεις για ένα θέμα ή ένα προϊόν. Μελέτες, όπως οι παραπάνω, είναι ιδιαίτερα χρήσιμες στην ανάπτυξη σύγχρονων εμπορικών εφαρμογών, που θα προσφέρουν στον καταναλωτή δυνατότητα πληρέστερης ενημέρωσης για τις συναλλαγές που πρόκειται να πραγματοποιήσει. Άλλες περιπτώσεις αφορούν στην ανάλυση των γλωσσολογικών χαρακτηριστικών των κειμενικών δεδομένων που έχουν συνταχθεί από χρήστες. Επίσης, η μελέτη των χαρακτηριστικών του περιεχομένου που έχει παραχθεί από χρήστες του Παγκόσμιου Ιστού είναι ιδιαίτερα σημαντική στη μελέτη του social web, καθώς είναι δυνατόν να προκύψουν χρήσιμα συμπεράσματα τόσο για την εξέλιξή του στο χώρο και στο χρόνο, όσο και για την περαιτέρω εξέλιξη του, προσφέροντας στους χρήστες νέες δυνατότητες μέσα από σύγχρονες εφαρμογές που θα αναπτυχθούν. Σε κάθε περίπτωση, το περιεχόμενο των ιστοσελίδων του Παγκόσμιου Ιστού μπορεί θεωρητικά να κατηγοριοποιηθεί σε δυο κατηγορίες: στα δεδομένα των δημιουργών των ιστοσελίδων και στα δεδομένα που προέκυψαν από τους χρήστες των ιστοσελίδων κατά την αλληλεπίδρασή τους με αυτές. Στόχος της παρούσας μελέτης είναι να μελετήσει το κατά πόσο είναι εφικτή και με ποιόν τρόπο η αυτόματη αναγνώριση ύπαρξης ή μη περιεχομένου κειμένου του Παγκόσμιου Ιστού που έχει παραχθεί από χρήστες. Στα πλαίσια της παρούσας μεταπτυχιακής εργασίας θα εντοπιστούν χαρακτηριστικά, τα οποία θα επιτρέψουν τον αυτόματο εντοπισμό των κειμενικών δεδομένων χρηστών σε μια ιστοσελίδα. Γενικά σε μια ιστοσελίδα υπάρχουν τρεις πηγές πληροφοριών, οι οποίες μπορούν να χρησιμοποιηθούν κατά τη διαδικασία προσδιορσμού του user generated content (UGC): το περιεχόμενο της ιστοσελίδας, το περιβάλλον εμφάνισής της (συνδεσιμότητα με άλλες σελίδες και anchor text) και η δομή της, η οποία περιγράφεται από τα html tags (πχ ο τίτλος της σελίδας, οι λέξεις που παρουσιάζονται με bold κλπ). Η προτεινόμενη μεθοδολογία συνίσταται στην εφαρμογή τεχνικών ανάλυσης της ιστοσελίδας που σκοπό έχουν τον καθορισμό ενός συνόλου χαρακτηριστικών γνωρισμάτων της (features). Το σύνολο των γνωρισμάτων αυτών αποτελείται από τρία επιμέρους είδη χαρακτηριστικών γνωρισμάτων, τα γλωσσολογικά χαρακτηριστικά γνωρίσματα (textual features), τα χαρακτηριστικά γνωρίσματα δομής της ιστοσελίδας (Html tags), και τα χαρακτηριστικά γνωρίσματα απεικόνισης ή εμφάνισης της ιστοσελίδας (Visual and Visually Central Features). Από τα καθορισμένα χαρακτηριστικά θα επιλεγούν πειραματικά εκείνα, τα οποία θα συμμετάσχουν αποδοτικότερα στον αλγόριθμο προσδιορισμού για την ύπαρξη user generated text content σε μια ιστοσελίδα. Η αξιολόγηση των αποτελεσμάτων της προτεινόμενης μεθόδου θα πραγματοποιηθεί βάσει ενός συνόλου δεδομένων ελέγχου. Τα δεδομένα ελέγχου αποτελούνται από μια συλλογή ιστοσελίδων, για τις οποίες έχει γίνει έλεγχος για το αν περιέχουν user generated text content. Η διαδικασία αξιολόγησης συνίσταται στην σύγκριση των αποτελεσμάτων του αλγορίθμου που προτείνουμε με τα αποτελέσματα που έχουν παραχθεί από την επεξεργασία του συνόλου δεδομένων ελέγχου. Τα συμπεράσματα που θα προκύψουν μπορούν να χρησιμοποιηθούν για την περεταίρω βελτίωση του αλγορίθμου προσδιορισμού ύπαρξης user generated text content, καθώς και για την αξιοποίηση τους σε τεχνικές ανάλυσης και επεξεργασίας του user generated text content από ιστοσελίδες του Παγκόσμιου Ιστού. / Millions of people every day use the Web for a wide range of activities. The number of Internet users is continuously growing, as well as all the different activities that can be performed through websites and Internet services. Web users daily participate in various digital activities, delimiting in this way their digital "life." Each user can send an e-mail, communicate and establish relationships with other web users, visit websites in order to satisfy his information needs, or keep a personal profile in one or more social networking sites. At the same time, more and more web users use online shopping for their purchases, achieving direct connection of the market research by buying products or services, while the commentations and the views of other users for goods and services is another undoubted advantage of online shops. The users’ increasing activity has as result the continuous raising of the volume data, generated by users (user generated content - UGTC) in Web pages. On-line communities are growing in size and number, while simultaneously websites and web services offer users more and more options, in order to create, preserve and publish text produced by them. Result of the interaction between users and the website users and websites, is that a large part of the online information, in which the user come daily in contact, is produced by others and not by the creators of the website. The study of the characteristics of the content obtained by users is a key point in a series of searching fields. Typical examples are the studies within the field of mining opinion (opinion mining), which are based on the content of users to catch their opinions on a topic or product. Studies such as the above, are particularly useful in the development of modern commercial applications that can offer the consumer better information for his transactions. Other cases concern the analysis of the linguistic characteristics of textual data compiled by users. Also, the study of the content characteristics generated by users of the World Wide Web is particularly important in the study of the social web, as well as it can yield useful results for both the evolution in space and time, and further development providing users with new capabilities through new applications, which are developed. In any case, the Web content could theoretically be categorized in two categories: data of Web pages creators and the data generated by web users when interacting with them. The aim of this study is to examine whether it is feasible and with which way the automatic recognition of the text content on the Web produced by users. In this thesis, it will be identified characteristics that allow the automatic detection of textual data of users to a website and its separation from the content that has been produced by the creators of the website. During the planning and design of the proposed method it will initially be studied the inherent characteristics of different types of websites, which are indicative of the presence of these text content users. It will also be studied the usefulness of linguistic and visual features for recognition textual data users at the site, in order to separate it from the official content, that is from content creators. Generally in a website there are three sources of information that can be used during the process of identifying user generated content (UGC): website content, setting of development (connectivity with other pages and anchor text) and its structure, which is described by the html tags (eg page title, words presented in bold, etc). The proposed methodology is recommended in applying technical analysis website aimed at defining a part of attributes (features). All these attributes consist of three kinds of features, textual features, features of the site structure (Html tags), and imaging features or appearance of the website (Visual and Visually Central Features). From the defined features it will experimentally be selected those, which will efficiently participate in the identification algorithm for the existence user generated text content on a website. The evaluation results of the proposed method will be held considering specific audit data. The audit data consist of a collection of web pages, which have already been checked whether they contain user generated text content. The process evaluation reccommends comparing the results of the proposed algorithm with the results obtained from processing all audit data. The conclusions can be used to further improvement of the identification algorithm existence of user generated text content, as well as to exploit them in technical analysis and processing of user generated text content from Web pages.

A Model-Based AI-Driven Test Generation System

Santiago, Dionny 09 November 2018 (has links)
Achieving high software quality today involves manual analysis, test planning, documentation of testing strategy and test cases, and development of automated test scripts to support regression testing. This thesis is motivated by the opportunity to bridge the gap between current test automation and true test automation by investigating learning-based solutions to software testing. We present an approach that combines a trainable web component classifier, a test case description language, and a trainable test generation and execution system that can learn to generate new test cases. Training data was collected and hand-labeled across 7 systems, 95 web pages, and 17,360 elements. A total of 250 test flows were also manually hand-crafted for training purposes. Various machine learning algorithms were evaluated. Results showed that Random Forest classifiers performed well on several web component classification problems. In addition, Long Short-Term Memory neural networks were able to model and generate new valid test flows.

