Spelling suggestions: "subject:"zugeordnet""
31 |
利用WordNet建立證券領域的語意結構游舒帆, Yu,Shu Fan Unknown Date (has links)
本研究主要在探討普林斯頓大學所開發出來的WordNet線上辭典是否適合用在語意結構(Semantic Structure)的表達上,在整個研究中,我們會先將重點放在WordNet架構的討論,接著研究關於WordNet在建立語意結構上的文獻,以在研究前先取得過去研究的狀況,並針對缺點提出改進方案,最後則進行模式的驗證與修改,期望能得出一個較具代表性且完整的WordNet語意結構。
本研究採用Jarmasz, Szpakowicz(2001)的語意距離計算模式併Resnik(1995)的相似度(similarity)計算模式,透過這兩個模式來計算出詞彙的距離,並以此距離來辨別語意的關係,最後透過117道證券考題來實證這個架構的正確性與完整性,並針對不足之處作補強修改,以達到較佳的結果。
本研究的主要限制為下列幾項:
一、無法全盤的將證券業的所有的詞彙及其關係一次含括進來
二、測試的題目無法完整代表所有的問題可能性
三、由於最後結果並非實際架構與修改WordNet系統,僅僅是採用相似度
計算演算法算出結果,因此與實際機上測試難免會有所差距。
四、並沒有針對WordNet中所有的關係都做定義,僅只挑選較具代表性的
幾個詞彙關係做定義,在細部上可能會有所影響。 / This paper is mainly focusing on does the Princeton WordNet fit the Semantic Structure. In this research, we’ll discuss the structure of WordNet, then the reference of WordNet in Semantic Structure. Before we get start, we may collect all the passed data, and study the data more detail. Then we can know the situation and result of passed reseach, so we can modify the model of pass. Finally, we hope we can get a more completed WordNet semantic structure.
This paper uses the Jarmasz, Szpakowicz’s (2001) semantic distance and Resnik’s Similarity calculative model. Through
this two models to calculating the distance between two words, and calculating the similarity.
We collect 117 stock exam questions to verify the correctiveness and the completeness of this structure. And to complement the weakness, so we can have a more strong result.
This research has three constraints:
1.We can’t collect all words of stock domain
2.The 117 questions can’t explain all probability of query
3.We just run an algorithm to calculate the similarity, not
real testing on WordNet system, so it may be some bias.
4.Only identifying some chief words relationship, so it can not cover whole relations.
|
32 |
Os synsets de verbos do português com o SE inerente e os seus equivalentes do inglêsLenharo, Aline Camila [UNESP] 05 May 2009 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:26:50Z (GMT). No. of bitstreams: 0
Previous issue date: 2009-05-05Bitstream added on 2014-06-13T18:55:17Z : No. of bitstreams: 1
lenharo_ac_me_arafcl.pdf: 1132217 bytes, checksum: 7c65f63f3342459c82be2b39b6246e9a (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / Esta dissertação abrange temas de dois domínios complementares: o domínio lingüístico e o domínio lingüístico-computacional. No domínio lingüístico, a pesquisa sistematiza os diferentes tipos de clíticos do português, estabelecendo, assim, um critério heurístico que possibilita a identificação e a seleção de verbos com clítico se inerente. No domínio lingüístico-computacional, a partir da apresentação das redes do tipo wordnet e da descrição dos principais tipos de alinhamento semântico que podem ser estabelecidos entre a base de verbos da WordNet.Br e a base de verbos da WordNet de Princeton, a pesquisa de natureza aplicada propôs um alinhamento dos verbos com clítico se inerente do português com seus correspondentes do inglês. / This thesis discusses the Brazilian Portuguese clitics in two complementary domains: the linguistics domain and the computational-linguistic domain: in the linguistics domain, the research aims to frame the different types of Brazilian Portuguese clitics and to draw heuristics to identify and to select the verbs with inherent clitic se. In the computationallinguistic domain, after presenting wordnet projects and describing the different types of semantic alignment that can be effected between synsets of verbs from different wordnets, the tasks were to construct synsets of Brazilian Portuguese verbs with inherent clitic se in the WordNet.Br database under construction and to align them semantically with the corresponding synsets of English in the Princeton WordNet database.
|
33 |
Polyset: modelo linguístico-computacional para a estruturação de redes de polissemia de nominaisAlves, Isa Mara da Rosa [UNESP] 01 October 2009 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:32:45Z (GMT). No. of bitstreams: 0
Previous issue date: 2009-10-01Bitstream added on 2014-06-13T20:43:56Z : No. of bitstreams: 1
alves_imr_dr_arafcl.pdf: 2416633 bytes, checksum: 3f83a7dad3093f9c7e134f02d1166b24 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Esta pesquisa visa a propor uma representação da polissemia de nominais compatível com sistemas computacionais; mais especificamente, o objetivo deste trabalho é incluir a especificação de relações de polissemia em bases wordnets, em especial, na WordNet.Br (DIAS-DA-SILVA, 1996, 1998, 2003). A metodologia do trabalho está baseada em Diasda- Silva (1996, 1998, 2003, 2006), abrangendo três domínios mutuamente complementares: o linguístico, o linguístico-computacional e o computacional. O domínio linguístico-computacional forneceu o tema para esta pesquisa e articulou a relação entre os domínios linguístico e computacional. Das investigações realizadas no cenário linguístico-computacional, destacamos a relevância da introdução de níveis distintos de generalidade entre os sentidos em uma base de dados de modo a otimizar o processamento lexical a ser realizada pelo sistema. Percebe-se que esse tipo de tarefa é ainda um desafio para as wordnets. Do cenário linguístico, destacamos que a Semântica Lexical Cognitiva foi considerada a teoria mais adequada aos propósitos desta tese. Olhar para o fenômeno do significado múltiplo sob o viés cognitivo possibilitou descrever os sentidos como uma entidade complexa, estruturada em termos de redes. As redes de polissemia sincrônicas, em sua configuração livre e multidimensional, conforme propõem Blank (2003) e Geeraerts (2006), demonstraram ser a estratégia descritiva mais adequada à representação da flexibilidade do sentido para os propósitos desta tese. Respondendo à fase aplicada dos domínios linguístico e linguísticocomputacional, propomos um modelo de representação denominado polyset. Os polysets são constructos estruturados em termos de redes de polissemia, de maneira que possibilitam representar diferentes níveis de generalidade entre os sentidos, diferentes graus de saliência e diferentes tipos... / This research aims at representing noun polysemy so that it can be useful to computational systems; more specifically, the subject of this work is the inclusion of specification of polysemy relations in wordnet bases, particularly in WordNet.Br (DIASDA- SILVA, 1996, 1998, 2003). The methodology has been based on Dias-da-Silva (1996, 1998, 2003, 2006), comprehending three mutually complementary domains: linguistic, computational-linguistic, and computational ones. The computational-linguistic domain has both provided the subject for this research and articulated the relationship between the linguistic domain and the computational domain. From the investigations carried out in the computational-linguistic scene, we have highlighted the relevance of the introduction of distinct levels of generality among meanings in a database, so as to reduce the amount of lexical processing to be carried out by the system. At the same time, that multiple representation provides the necessary information for a system that needs a higher degree of meaning detailing. This kind of task is still a challenge to wordnets. From the linguistic scene, we have highlighted that Cognitive Lexical Semantics has shown to be the most suitable theory for the purposes of this thesis. Regarding the phenomenon of the multiple meaning from the cognitive perspective has allowed for describing meanings as a complex entity, structured in terms of nets. The nets of synchronic polysemy, in their free, multidimensional configuration, as Blank (2003) and Geeraerts (2006) have proposed, have shown to be the most suitable descriptive strategy for the representation of the meaning flexibility for the purposes of this thesis. Answering to the applied phase of both the linguistic and computationallinguistic domains we have proposed a representation model called polyset. Polysets are constructs structured in terms of polysemy nets, allowing... (Complete abstract click electronic access below)
|
34 |
Os synsets de verbos do português com o SE inerente e os seus equivalentes do inglês /Lenharo, Aline Camila. January 2009 (has links)
Orientador: Bento Carlos Dias da Silva / Banca: Rosane de Andrade Berlinck / Banca: Marilza de Oliveira / Resumo: Esta dissertação abrange temas de dois domínios complementares: o domínio lingüístico e o domínio lingüístico-computacional. No domínio lingüístico, a pesquisa sistematiza os diferentes tipos de clíticos do português, estabelecendo, assim, um critério heurístico que possibilita a identificação e a seleção de verbos com clítico se inerente. No domínio lingüístico-computacional, a partir da apresentação das redes do tipo wordnet e da descrição dos principais tipos de alinhamento semântico que podem ser estabelecidos entre a base de verbos da WordNet.Br e a base de verbos da WordNet de Princeton, a pesquisa de natureza aplicada propôs um alinhamento dos verbos com clítico se inerente do português com seus correspondentes do inglês. / Abstract: This thesis discusses the Brazilian Portuguese clitics in two complementary domains: the linguistics domain and the computational-linguistic domain: in the linguistics domain, the research aims to frame the different types of Brazilian Portuguese clitics and to draw heuristics to identify and to select the verbs with inherent clitic se. In the computationallinguistic domain, after presenting wordnet projects and describing the different types of semantic alignment that can be effected between synsets of verbs from different wordnets, the tasks were to construct synsets of Brazilian Portuguese verbs with inherent clitic se in the WordNet.Br database under construction and to align them semantically with the corresponding synsets of English in the Princeton WordNet database. / Mestre
|
35 |
Ontology-Driven Self-Organization of Politically Engaged Social Groups / Ontology-Driven Self-Organization of Politically Engaged Social GroupsBelák, Václav January 2009 (has links)
This thesis deals with the use of knowledge technologies in support of self-organization of people with joint political goals. It first provides a theoretical background for a development of a social-semantic system intended to support self-organization and then it applies this background in the development of a core ontology and algorithms for support of self-organization of people. It also presents a design and implementation of a proof-of-concept social-semantic web application that has been built to test our research. The application stores all data in an RDF store and represents them using the core ontology. Descriptions of content are disambiguated using the WordNet thesaurus. Emerging politically engaged groups can establish themselves into local political initiatives, NGOs, or even new political parties. Therefore, the system may help people easily participate on solutions of issues which are influencing them.
|
36 |
Using WordNet Synonyms and Hypernyms in Automatic Topic DetectionWargärde, Nicko January 2020 (has links)
Detecting topics by extracting keywords from written text using TF-IDF has been studied and successfully used in many applications. Adding a semantic layer to TF-IDF-based topic detection using WordNet synonyms and hypernyms has been explored in document clustering by assigning concepts that describe texts or by adding all synonyms and hypernyms that occurring words have to a list of keywords. A new method where TF-IDF scores are calculated and WordNet synset members’ TF-IDFscores are added together to all occurring synonyms and/or hypernyms is explored in this paper. Here, such an approach is evaluated by comparing extracted keywords using TF-IDF and the new proposed method, SynPlusTF-IDF, against manually assigned keywords in a database of scientific abstracts. As topic detection is widely used in many contexts and applications, improving current methods is of great value as the methods can become more accurate at extracting correct and relevant keywords from written text. An experiment was conducted comparing the two methods and their accuracy measured using precision and recall and by calculating F1-scores.The F1-scores ranged from 0.11131 to 0.14264 for different variables and the results show that SynPlusTF-IDF is not better at topic detection compared to TF-IDF and both methods performed poorly at topic detection with the chosen dataset.
|
37 |
Σχεδιασμός και υλοποίηση ενός συστήματος αποκομιδής ορισμένης πληροφορίας από τον παγκόσμιο ιστό, με τη χρήση σημασιολογικών δικτύων λημμάτων / Design and implementation of a topical-focused web crawler through the use of semantic networksΚοζανίδης, Ελευθέριος 28 February 2013 (has links)
Η συγκεκριμένη διατριβή στοχεύει στον σχεδιασμό της μεθοδολογίας που θα εφαρμοστεί για την υλοποίηση ενός προσκομιστή πληροφορίας από τον Παγκόσμιο Ιστό, ο οποίος θα λειτουργεί λαμβάνοντας υπόψη θεματικά κριτήρια. Τέτοιου είδους προγράμματα ανίχνευσης πληροφορίας, είναι ευρέως γνωστά ως θεματικά εστιασμένοι προσκομιστές ιστοσελίδων. Κατά τη διάρκεια της μελέτης μας, σχεδιάσαμε και υλοποιήσαμε ένα καινοτόμο σύστημα θεματικής κατηγοριοποίησης ιστοσελίδων που κάνει εκτεταμένη χρήση των σημασιολογικών δεδομένων τα οποία περιέχονται στο σημασιολογικό δίκτυο WordNet. Η απόφαση για την αξιοποίηση του WordNet ελήφθη με τη φιλοδοξία να αντιμετωπιστούν αποτελεσματικά φαινόμενα ασάφειας εννοιών που μειώνουν τις επιδόσεις των διαθέσιμων θεματικών κατηγοριοποιητών. Η καταλληλότητα του WordNet για την επίλυση της σημασιολογικής ασάφειας έχει αποδειχθεί στο παρελθόν, αλλά ποτέ δεν εξετάστηκε σε ένα σύστημα εστιασμένης προσκόμισης ιστοσελίδων με τον συγκεκριμένο τρόπο, ενώ ποτέ δεν έχει αξιοποιηθεί στην κατηγοριοποίηση ιστοσελίδων για την ελληνική γλώσσα. Ως εκ τούτου, ο θεματικός κατηγοριοποιητής που υλοποιήσαμε, και κατά συνέπεια, και ο εστιασμένος προσκομιστής στον οποίο ενσωματώνεται ο κατηγοριοποιητής, είναι καινοτόμοι όσο αφορά τον τρόπο με τον οποίο αποσαφηνίζουν έννοιες λέξεων με στόχο την αποτελεσματική ανίχνευση του θεματικού προσανατολισμού μίας ιστοσελίδας .
Ένας προσκομιστής ιστοσελίδων είναι ένα πρόγραμμα που με αφετηρία μία λίστα διευθύνσεων ιστοσελίδων (URLs) αρχικοποίησης προσκομίζει το περιεχόμενο των ιστοσελίδων που συναντά και συνεχίζει ακολουθώντας τους εσωτερικούς τους συνδέσμους με απώτερο σκοπό την προσκόμιση όσο το δυνατό μεγαλύτερου υποσυνόλου δεδομένων του Παγκόσμιου Ιστού (ανάλογα με τους διαθέσιμους πόρους, την χωρητικότητα του δικτύου, κλπ.). Δεδομένου ότι ο όγκος των δεδομένων που είναι διαθέσιμα στον Παγκόσμιο Ιστό αυξάνεται με εκθετικό ρυθμό, είναι πρακτικά αδύνατο να προσκομιστούν όλες οι ζητούμενες πηγές πληροφορίας ανά πάσα στιγμή. Ένας τρόπος για να αντιμετωπίσουμε το συγκεκριμένο πρόβλημα είναι η εκμετάλλευση συστημάτων εστιασμένης προσκόμισης ιστοσελίδων που στοχεύουν στη λήψη ιστοσελίδων συγκεκριμένης θεματολογίας που εκφράζουν κάθε φορά το θεματικό προφίλ του χρήστη, σε αντίθεση με τους προσκομιστές ιστοσελίδων γενικού σκοπού που καταναλώνουν πόρους άσκοπα προσπαθώντας να προσκομίσουν κάθε πιθανή πηγή πληροφορίας που συναντούν. Οι εστιασμένοι προσκομιστές χρησιμοποιούνται εκτενώς, για την κατασκευή θεματικά προσανατολισμένων ευρετηρίων ιστοσελίδων, κάθε ένα από τα οποία έχει την δυνατότητα να εξυπηρετήσει αιτήσεις χρηστών με συγκεκριμένο θεματικό προσανατολισμό. Με αυτό τον τρόπο είναι δυνατόν να αντιμετωπιστεί το πρόβλημα της υπερφόρτωσης πληροφοριών.
Προκειμένου να επιτελέσουμε την συγκεκριμένη εργασία μελετήσαμε εκτενώς υπάρχουσες τεχνικές εστιασμένης προσκόμισης, στις οποίες στηριχθήκαμε ώστε να ορίσουμε την μεθοδολογία που θα ακολουθήσουμε. Το αποτέλεσμα είναι η υλοποίηση ενός θεματικά εστιασμένου πολυνηματικού προσκομιστή, ο οποίος ενσωματώνει τις εξής καινοτομίες: είναι ρυθμισμένος προκειμένου να εκτελεί εστιασμένες προσκομίσεις σε ιστοσελίδες ελληνικού ενδιαφέροντος, αποσαφηνίζει το κείμενο που αντιστοιχεί σε ιστοσελίδες προκειμένου να ανακαλύψει τον θεματικό τους προσανατολισμό. Επιπλέον προτείνουμε μία σειρά υποσυστημάτων τα οποία θα μπορούσαν να ενσωματωθούν στο σύστημα εστιασμένης προσκόμισης προκειμένου να ενισχύσουμε την απόδοσή του. Τέτοια συστήματα είναι το υποσύστημα ανίχνευσης όψεων που αντιστοιχίζονται σε επώνυμες οντότητες καθώς και το υποσύστημα εξαγωγής λέξεων κλειδιών που μπορούν να χρησιμοποιηθούν ως χαρακτηριστικά κατηγοριοποίσης από το αλφαριθμητικό των διευθύνσεων (URL) ιστοσελίδων.
Για να παρουσιάσουμε την αποτελεσματικότητα της προτεινόμενης μεθόδου, διενεργήσαμε μία σειρά πειραματικών μετρήσεων. Συγκεκριμένα αξιολογήσαμε πειραματικά τα ακόλουθα: την αποτελεσματικότητα του αλγορίθμου αποσαφήνισης που ενσωματώσαμε στον προσκομιστή, την απόδοση του θεματικού κατηγοριοποιητή ο οποίος καθορίζει την συμπεριφορά του εστιασμένου προσκομιστή σχετικά με το αν μια σελίδα θα πρέπει να κατέβει ως θεματικά σχετική με το θέμα ενδιαφέροντος ή όχι, την απόδοση του εστιασμένου προσκομιστή καταγράφοντας τον ρυθμό απόκτησης που επιτυγχάνει κατά την διάρκεια της εστιασμένης προσκόμισης χρησιμοποιώντας κάθε φορά διαφορετικά χαρακτηριστικά κατηγοριοποίησης, την καταλληλότητα του υποσυστήματος εξαγωγής λέξεων-κλειδιών από το αλφαριθμητικό URL για την περιγραφή του θεματικού προσανατολισμού της ιστοσελίδας και τέλος τη χρησιμότητα του συστήματος αναγνώρισης επώνυμων οντοτήτων στην οργάνωση ιστοσελίδων των οποίων η σημασιολογία δεν αναπαρίσταται ικανοποιητικά σε σημασιολογικούς πόρους γενικού σκοπού συμπεριλαμβανομένου του σημασιολογικού δικτύου WordNet.
Τα πειραματικά αποτελέσματα επιβεβαιώνουν τη συμβολή του θεματικά εστιασμένου προσκομιστή που προτείνουμε στην προσκόμιση περιεχομένου ειδικού ενδιαφέροντος από τον Παγκόσμιο Ιστό. Παράλληλα αποδεικνύουμε ότι όλες οι μέθοδοι που ενσωματώσαμε στο σύστημα εστιασμένης προσκόμισης είναι δυνατό να συνεργαστούν κατά τρόπο που να βελτιώνει την απόδοση του προσκομιστή .
Τέλος από τα πειραματικά αποτελέσματα αποδεικνύεται ότι η προτεινόμενη τεχνική είναι εξίσου αποτελεσματική για ιστοσελίδες στα αγγλικά και στα ελληνικά. Επιπλέον πιστεύουμε ότι μπορεί να εφαρμοστεί με επιτυχία και σε ιστοσελίδες που περιέχουν κείμενα άλλων φυσικών γλωσσών, με προϋπόθεση την ύπαρξη σημασιολογικών πόρων, αντίστοιχων με το WordNet και διαθέσιμων εργαλείων που θα επιτρέπουν την ανάλυση των δεδομένων κειμένου τους. / This dissertation aims at the specification of an algorithmic methodology that will be applied towards the implementation of a web crawler, which will operate upon thematic criteria. Such crawlers are widely known as topical focused web crawlers. To realize our objective, the utilization of a web page thematic classification system (either existing or newly developed one) is imperative. In the course of our study, we designed and implemented a novel thematic classifier that makes extensive use of the semantic data encoded in WordNet semantic network and such decision was taken with the aspiration of tackling effectively sense ambiguity phenomena that degrade the performance of available classifiers. The suitability of WordNet towards resolving semantic ambiguity has been previously proven but never examined in a focused web crawling application and has never been exploited for the Greek language. Therefore, our thematic classifier and consequently our focused crawler that integrates it are innovative in the way in which they perform word sense disambiguation for achieving the effective detection of the web page topics (themes).
In a broad sense, a web crawler is a program that based on a seed list of URLs it downloads the contents of the web pages it comes across and continues following their internal links with the utmost objective of fetching as much as web data as possible (depending on available resources, network capacity, etc.). Given that the web data grows at exponential rates, it is practically impossible to download all the web sources at any given time. One way to tackle such difficulty is to implement and employ topical focused crawlers that aim at downloading content of specific topics (potentially of interest to the user) rather than waste resources trying to download every single data source that is available on the web. Topically focused crawlers are extensively used for building topical focused indices, each of which can serve specialized user search requests, therefore dealing partially with the information overload problem.
To carry out our work, we have extensively reviewed existing approaches with respect to topically focused crawling techniques upon which we relied for defining our own focused crawling methodology, which resulted into the implementation of a topical focused crawler that incorporates the following innovate features: it is tailored to operate on the Greek web, it disambiguates the web pages in order to uncover their topic and it incorporates numerous features, such as a named entities recognizer, a URL keyword extractor, personalization techniques, etc., in order to maximize its performance.
To demonstrate the effectiveness of our method, we have applied our topical focused crawler on several datasets and experimentally evaluated the following issues: the efficiency of the sense resolution algorithm incorporated into our crawler, the performance of the topical classifier that the crawler consults prior to making a final decision as to whether a page should be downloaded as topically relevant to a subject of interest or not, the suitability of the URL keyword extractor module for judging the subject of a web page based entirely on the analysis of its URL, the usefulness of the named entities recognizer in organizing pages whose semantics are poorly represented within the contents of general-purpose semantic resources (including WordNet semantic network).
Experimental results confirm the contribution of our topically focused crawler in downloading web content of specific interest and show that all the methods and techniques that we have successfully integrated into the crawler can interoperate with its other in a manner that improves the crawling performance while allowing for flexibility in the downloading process at the same time. Last but not least, experimental results showcase that our crawling methodology is equally effective for both English and Greek and we believe that it can be fruitfully applied to other natural languages provided that there the respective semantic resources and tools are available for analyzing their textual data.
|
38 |
A general purpose semantic parser using FrameNet and WordNet®.Shi, Lei 05 1900 (has links)
Syntactic parsing is one of the best understood language processing applications. Since language and grammar have been formally defined, it is easy for computers to parse the syntactic structure of natural language text. Does meaning have structure as well? If it has, how can we analyze the structure? Previous systems rely on a one-to-one correspondence between syntactic rules and semantic rules. But such systems can only be applied to limited fragments of English. In this thesis, we propose a general-purpose shallow semantic parser which utilizes a semantic network (WordNet), and a frame dataset (FrameNet). Semantic relations recognized by the parser are based on how human beings represent knowledge of the world. Parsing semantic structure allows semantic units and constituents to be accessed and processed in a more meaningful way than syntactic parsing, moving the automation of understanding natural language text to a higher level.
|
39 |
Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-NetsBoubekeur, Fatiha 01 July 2008 (has links) (PDF)
Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence).
|
40 |
Improvement Of Corpus-based Semantic Word Similarity Using Vector Space ModelEsin, Yunus Emre 01 July 2009 (has links) (PDF)
This study presents a new approach for finding semantically similar words from corpora using
window based context methods. Previous studies mainly concentrate on either finding
new combination of distance-weight measurement methods or proposing new context methods.
The main difference of this new approach is that this study reprocesses the outputs of
the existing methods to update the representation of related word vectors used for measuring
semantic distance between words, to improve the results further. Moreover, this novel technique
provides a solution to the data sparseness of vectors which is a common problem in
methods which uses vector space model.
The main advantage of this new approach is that it is applicable to many of the existing word
similarity methods using the vector space model. The other and the most important advantage
of this approach is that it improves the performance of some of these existing word similarity
measuring methods.
|
Page generated in 0.0417 seconds