Ζούμε μία εποχή τεχνολογικών εξελίξεων και τεχνολογικών αλμάτων με το Διαδίκτυο να γίνεται ένας από τους βασικότερους εκφραστές των νέων τεχνολογικών τάσεων. Ωστόσο, ο τρόπος λειτουργίας του και δόμησής του παρουσιάζει εξαιρετικά μεγάλη ανομοιογένεια με αποτέλεσμα οι χρήστες να βρίσκονται συχνά μπροστά από αδιέξοδο στην προσπάθεια αναζήτησης πληροφορίας. Άλλωστε η ύπαρξη εκατομμυρίων domains οδηγεί σε δυσκολίες κατά την αναζήτηση πληροφορίας. Η έρευνα που πραγματοποιείται επικεντρώνεται στους δικτυακούς τόπους που αποτελούν πηγές ενημέρωσης και πιο συγκεκριμένα στα ειδησεογραφικά πρακτορεία ειδήσεων, αλλά και στα blogs. Μία απλή αναζήτηση αποκάλυψε περισσότερους από 40 δικτυακούς τόπους από μεγάλα ειδησεογραφικά πρακτορεία στην Αμερική. Αυτό σημαίνει πως στην προσπάθεια αναζήτησης μίας είδησης και δη, όλων των πτυχών της, κάποιος θα πρέπει να επισκεφθεί αν όχι όλους, τους περισσότερους από αυτούς τους δικτυακούς τόπους για να εντοπίσει στοιχεία για το θέμα που τον ενδιαφέρει. Σε αυτό το «πρόβλημα» ή έστω σε αυτή την επίπονη διαδικασία, έχει γίνει προσπάθεια να δοθούν λύσεις μέσα από τη χρήση των καναλιών επικοινωνίας RSS και μέσα από προσωποποιημένους δικτυακούς τόπους που διαθέτουν τα μεγάλα ειδησεογραφικά πρακτορεία ή ακόμα και από τους μηχανισμούς αναζήτησης που αυτοί διαθέτουν. Σε κάθε περίπτωση όμως, υπάρχουν σημαντικά μειονεκτήματα που συχνά οδηγούν και πάλι το χρήστη σε αδιέξοδο. Τα κανάλια επικοινωνίας δε φιλτράρουν πληροφορίες, τροφοδοτώντας τους RSS readers των χρηστών με πληθώρα πληροφοριών που δεν αφορούν τους χρήστες ή ακόμα είναι ενοχλητικές για αυτούς. Για παράδειγμα η προσθήκη δύο (2) μόνον καναλιών από Ελληνικά μεγάλα ειδησεογραφικά portals μας οδήγησε στη λήψη περισσότερων από 1000 ειδήσεων καθημερινά. Από την άλλη, η χρήση των microsites που έχουν οι δικτυακοί τόποι επιβάλει στους χρήστες την επίσκεψη σε όλους τους δικτυακούς τόπους που τους ενδιαφέρουν. Όσον αφορά στη χρήση των μηχανών αναζήτησης, ακόμα και οι πιο μεγάλες από αυτές συχνά επιστρέφουν εκατομμύρια αποτελέσματα στα ερωτήματα των χρηστών ή πληροφορίες που δεν είναι επικαιροποιημένες. Τέλος, επειδή οι δικτυακοί τόποι των ειδησεογραφικών πρακτορείων δεν έχουν κατασκευαστεί για να προσφέρουν εκτενείς υπηρεσίες αναζήτησης ειδήσεων, είναι συχνό το φαινόμενο είτε να μην προσφέρουν καθόλου υπηρεσία αναζήτησης, είτε η υπηρεσία που προσφέρουν να μη μπορεί να απαντήσει με δομημένα αποτελέσματα και αντί να βοηθά τους χρήστες να εντοπίσουν την πληροφορία που αναζητούν, να τους αποπροσανατολίζει. / We live an era of technology advances and huge technological steps where the
Internet becomes a basic place of demonstration of the technology trends. Nevertheless, the way
of operation and construction of the WWW is extremely uneven and this results in dead-ends
when the users are trying to locate information. Besides the existence of billions of domains
leads to difficulties in difficulties in recording all this information. The research that we are
doing, is focused on websites that are sources of information and specifically news portals and
informational blogs. A simple search on the Internet led to more than 40 large scale press agencies
in America. This means that when trying to search for information and more specifically a news
article in all its existences somebody has to visit all the websites. This problem, or at least this
tedious task is of major concern of the research community. Many solutions were proposed in
order to overcome the aforementioned issues with usage of RSS feeds or personalized microsites,
or even analytical search applications. In any occasion there are many disadvantages that lead
the user to a dead-end again. The RSS feeds do not filter information and they feed the user’s
RSS readers with large amounts of information that most of it is not of the user’s concern. For
example, a simple addition of 2 rss feeds from large Greek portals led to receipt of more that 1000
news articles within a day! On the other side, the usage of microsites that many websites support
is a solution if and only if the user visits every single website and of course have and maintain an
account to each one of them. The search engines are an alternative but lately, due to the expansion
of the WWW, the results to simple queries are often million or the first results retrieved are
outdated. Finally, the websites of the major news agencies are not directly constructed to offer
extensive searching facilities and thus they usually offer search results through support of a large
well-known search engine (eg. Google). According to the aforementioned the research that we
are conducting is furthermore focused on the study of techniques and mechanisms that try to give
a solution to the everyday issue of being informed about news and having a spherical opinion
about an issue. The idea is simple and lies on the problem of the Internet: instead of letting the user
do all the search of the news and information that meet their needs we collect all the informationand present them directly to the user, presenting only the information that meet their profile.
This sounds pretty simple and logical, but the implementation we have to think of a number of
prerequisites. The constraints are: the users of the Internet speak different languages and they
want to see the news in their mother language and the users want access to the information from
everywhere. This implies that we need a mechanism that would collect news articles from many
– if not all – news agencies worldwide so that everybody can be informed. The news articles
that we collect should be furthermore analyzed before presented to the users. In parallel we need
to apply text pre-processing techniques, categorization and automatic summarization so that the
news articles can be presented back to the user in a personalized manner. Finally, the mechanism
is able to construct and maintain a user profile and present only articles that meet the profile
of the user and not all the articles collected by the system. As it is obvious this is not a simple
procedure. Substantially it a multilevel modular mechanism that implements and uses advanced
algorithm on every level in order to achieve the required result. We are referring to eight different
mechanisms that lead to the desired result. The systems are:
1. Retrieve news and articles from the Internet –advaRSS system
2. HTML page analysis and useful text extraction – CUTER system.
3. Preprocess and Natural Language Processing in order to extract keywords.
4. Categorization subsystem in order to construct ontologies that assigns texts to categories
5. Article Grouping mechanism (web application level)
6. Automatic Text Summarization
7. Web based User Personalization Mechanism
8. Application based User Personalization Mechanism
The subsystems and system architecture is presented in figure 1: The procedure of fetching
articles and news from the WWW is a procedure that includes algorithms that fetch data of
the large database that is called internet. In this research we have included algorithms for
instant retrieval of articles and the mechanism has furthermore mechanism for fetching HTML
pages that include news articles. As a next step and provided that we own HTML pages with
articles we have procedures for efficient useful text extraction. The HTML pages include the
body of the article and information that are disrelated to the article like advertisements. Our
mechanism introduces algorithms and systems for extraction of the original body of the text
out of the aforementioned pages and omitting any irrelevant information. As a furthermore
procedure of the same mechanism we try and extract multimedia related to the article. The
aforementioned mechanism are communicating directly with the Internet.
Identifer | oai:union.ndltd.org:upatras.gr/oai:nemertes:10889/3904 |
Date | 01 November 2010 |
Creators | Πουλόπουλος, Βασίλειος |
Contributors | Μπούρας, Χρήστος, Γαροφαλάκης, Ιωάννης, Χριστοδουλάκης, Δημήτριος, Μακρής, Χρήστος, Μεγαλοοικονόμου, Βασίλειος, Γαλλόπουλος, Ευστράτιος, Τσακαλίδης, Αθανάσιος, Μπούρας, Χρήστος |
Source Sets | University of Patras |
Language | gr |
Detected Language | English |
Type | Thesis |
Rights | 0 |
Relation | Η ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. |
Page generated in 0.0032 seconds