Spelling suggestions: "subject:"dependency genebank"" "subject:"ependency genebank""
1 |
Semantic disambiguation using Distributional Semantics / Semantic disambiguation using Distributional SemanticsProdanovic, Srdjan January 2012 (has links)
Ve statistických modelů sémantiky jsou významy slov pouze na základě jejich distribuční vlastnosti.Základní zdroj je zde jeden slovník, který lze použít pro různé úkoly, kde se význam slov reprezentovány jako vektory v vektorového prostoru, a slovní podoby jako vzdálenosti mezi jejich vektorových osobnosti. Pomocí silných podobnosti, může vhodnost podmínek uvedených zejména v souvislosti se vypočítá a používá pro celou řadu úkolů, jeden z nich je slovo smysl Disambiguation. V této práci bylo vyšetřeno několik různých přístupů k modelům z vektorového prostoru a prováděny tak, aby k překročení vyhodnocení vlastního výkonu na Word Sense disambiguation úkolem Prague Dependency Treebank.
2 |
Dependency based CCG derivation and applicationBrewster, Joshua Blake 21 February 2011 (has links)
This paper presents and evaluates an algorithm to translate a dependency treebank into a Combinatory Categorial Grammar (CCG) lexicon. The dependency relations between a head and a child in a dependency tree are exploited to determine how CCG categories should be derived by making a functional distinction between adjunct and argument relations. Derivations for an English (CoNLL08 shared task treebank) and for an Italian (Turin University Treebank) dependency treebank are performed, each requiring a number of preprocessing steps.
In order to determine the adequacy of the lexicons, dubbed DepEngCCG and DepItCCG, they are compared via two methods to preexisting CCG lexicons derived from similar or equivalent sources (CCGbank and TutCCG). First, a number of metrics are used to compare the state of the lexicon, including category complexity and category growth. Second, to measures the potential applicability of the lexicons in NLP tasks, the derived English CCG lexicon and CCGbank are compared in a sentiment analysis task. While the numeric measurements show promising results for the quality of the lexicons, the sentiment analysis task fails to generate a usable comparison. / text
3 |
Diskurzní konektory v češtině.(Od centra k periferii) / Discourse Connectives in Czech.(From Centre to Periphery)Rysová, Magdaléna January 2015 (has links)
Magdaléna Rysová Discourse Connectives in Czech (From Centre to Periphery) Abstract The thesis focuses on description and analysis of discourse connectives in Czech in broader sense, i.e. by which language means it is possible to express sense relation within a text. The thesis is not limited to any parts of speech (like conjunctions or structuring particles) but it tries to find and describe all language means in Czech with the ability to connect two pieces or units of a text into one coherent complex. The thesis investigates discourse connectives in Czech with respect to the so called secondary connectives (i.e. mainly multiword phrases like to je důvod, proč - that is the reason why; kvůli těmto skutečnostem - due to these facts etc., in opposition to primary connectives like však - however, nebo - or, a - and, ale - but, proto - therefore etc.). Discourse connectives are (in general terms) understood as language expressions that signal semantico-pragmatic relations within a text. However, there are many theories that significantly differ in the concrete description of these expressions. Therefore, there is not a generally accepted and universal definition of discourse connectives and their description and characteristics is still a matter of linguistic discussion. The aim of this thesis is to contribute...
4 |
Sumarizace českých textů z více zdrojů / Multi-source Text Summarization for CzechBrus, Tomáš January 2012 (has links)
This work focuses on the summarization task for a set of articles on the same topic. It discusses several possible ways of summarizations and ways to assess their final quality. The implementation of the described algorithms and their application to selected texts constitutes a part of this work. The input texts come from several Czech news servers and they are represented as deep syntactic trees (the so called tectogrammatical layer).
5 |
Slovesná valence v srovnávacím pohledu / Verbal Valency in a Cross-Linguistic PerspectiveŠindlerová, Jana January 2018 (has links)
Verbal Valency in a Cross-Linguistic Perspective Jana Šindlerová Abstract In the thesis, we look upon differences in argument structure of verbs considering the Czech language and the English language. In the first part, we describe the process of building the CzEngVallex lexicon. In the second part, based on the aligned data of the Prague Czech-English Dependency Treebank, we compare the valencies of verbal translation equivalents and comment of their differences. We classify the differences according to their underlying causes. The causes can be based in the linguistic structure of the languages, they can include translatological reasons, or they can be grounded in the character of the descriptive linguistic theory used.
6 |
Překlad z češtiny do angličtiny / Czech-English TranslationPetrželka, Jiří January 2010 (has links)
Tato diplomová práce popisuje principy statistického strojového překladu a demonstruje, jak sestavit systém pro statistický strojový překlad Moses. V přípravné fázi jsou prozkoumány volně dostupné bilingvní česko-anglické korpusy. Empirická analýza časové náročnosti vícevláknových nástrojů pro zarovnání slov demonstruje, že MGIZA++ může dosáhnout až pětinásobného zrychlení, zatímco PGIZA++ až osminásobného zrychlení (v porovnání s GIZA++). Jsou otestovány tři způsoby morfologického pre-processingu českých trénovacích dat za použití jednoduchých nefaktorových modelů. Zatímco jednoduchá lemmatizace může snížit BLEU, sofistikovanější přístupy většinou BLEU zvyšují. Positivní efekty morfologického pre-processingu se vytrácejí s růstem velikosti korpusu. Vztah mezi dalšími charakteristikami korpusu (velikost, žánr, další data) a výsledným BLEU je empiricky měřen. Koncový systém je natrénován na korpusu CzEng 0.9 a vyhodnocen na testovacím vzorku z workshopu WMT 2010.
Page generated in 0.0622 seconds