L’objectiu d’aquesta tesi és doble: d’una banda, millorar un sistema de traducció automàtica estadística mitjançant la incorporació d’informació lingüística, i de l’altra, ampliar la descripció d’alguns trets de la llengua de signes catalana (LSC). La descripció ha anat associada al procés d’anotació del corpus, i han pres especial rellevància els adverbis bucals, dels quals no hem trobat cap classificació que s’adeqüés a les nostres dades. Els experiments portats a terme tenen en compte aquests adverbis, però també morfemes manuals i marques de tòpic en LSC. Els textos en català inclouen informació de lema i categoria gramatical. A més, considerem la puntuació ortogràfica en totes dues llengües. L’avaluació dels resultats, complementada per una anàlisi estadística, mostra que la informació de l’LSC i la puntuació milloren significativament la traducció, mentre que els factors del català no semblen rellevants. / The aim of this thesis is twofold: on the one hand, to improve a statistical machine translation system by incorporating linguistic information, and on the other hand, to extend the description of some features of Catalan Sign Language (LSC). The description has been associated with the corpus annotation process, where mouth adverbs have taken special relevance, since we did not found any classification that matches our data. The experiments carried out take into account these adverbs, but also manual morphemes and topic markers in LSC. The Catalan texts include lemma and part of speech information. Furthermore, we consider orthographic punctuation in both languages. The evaluation of results, complemented by a statistical analysis, shows that the information in LSC and punctuation significantly improve the translation, while the Catalan factors do not seem relevant.
Identifer | oai:union.ndltd.org:TDX_UPF/oai:www.tdx.cat:10803/97048 |
Date | 18 September 2012 |
Creators | Massó Sanabre, Guillem |
Contributors | Badia i Cardús, Antoni, Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge |
Publisher | Universitat Pompeu Fabra |
Source Sets | Universitat Pompeu Fabra |
Language | Catalan |
Detected Language | Unknown |
Type | info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion |
Format | 239 p., application/pdf |
Source | TDX (Tesis Doctorals en Xarxa) |
Rights | info:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs. |
Page generated in 0.002 seconds