• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • 3
  • 1
  • Tagged with
  • 9
  • 9
  • 4
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Pippi Goes Abroad : A comparative study of the British and American translations of neologisms, nonce words and proper nouns in Pippi Longstocking

Moats, Madelene January 2009 (has links)
The purpose of this study is to analyze two literary translations of Astrid Lindgren’s Pippi Långstrump (Lindgren, 1945) from Swedish into English.  The study compares the British and the American English translations of neologisms, nonce words and proper nouns.  The primary data chosen for this study are the Swedish children’s book Pippi Långstrump (1945), written by Astrid Lindgren, and its 1954 British translation, by Edna Hurup, as well as the 1977 American English translation, by Florence Lamborn.  The method used in this study is qualitative, and consists of an in-depth analysis of representative examples of neologisms, nonce words and proper nouns.  Three research questions aimed at finding out what translation procedures were used, whether there were any differences between the two translations, and whether there were any semantic changes in the two translations.  The conclusion is that the most common translation procedure used is equivalence.  The most distinguishing difference between the two translations is that the American English translation seems to stay more true to the original text, whereas the British translation has a greater respect for the target text reader, in the sense that it is more culturally adapted than the American English translation.  There were no major semantic changes in the samples from the two translations, with the exception of a few examples.  In conclusion, both translators manage to maintain the atmosphere of the original text.
2

Person Name Recognition In Turkish Financial Texts By Using Local Grammar Approach

Bayraktar, Ozkan 01 September 2007 (has links) (PDF)
Named entity recognition (NER) is the task of identifying the named entities (NEs) in the texts and classifying them into semantic categories such as person, organization, and place names and time, date, monetary, and percent expressions. NER has two principal aims: identification of NEs and classification of them into semantic categories. The local grammar (LG) approach has recently been shown to be superior to other NER techniques such as the probabilistic approach, the symbolic approach, and the hybrid approach in terms of being able to work with untagged corpora. The LG approach does not require using any dictionaries and gazetteers, which are lists of proper nouns (PNs) used in NER applications, unlike most of the other NER systems. As a consequence, it is able to recognize NEs in previously unseen texts at minimal costs. Most of the NER systems are costly due to manual rule compilation especially in large tagged corpora. They also require some semantic and syntactic analyses to be applied before pattern generation process, which can be avoided by using the LG approach. In this thesis, we tried to acquire LGs for person names from a large untagged Turkish financial news corpus by using an approach successfully applied to a Reuter&rsquo / s financial English news corpus recently by H. N. Traboulsi. We explored its applicability to Turkish language by using frequency, collocation, and concordance analyses. In addition, we constructed a list of Turkish reporting verbs. It is an important part of this study because there is no major study about reporting verbs in Turkish.
3

<em>Pippi</em> Goes Abroad : A comparative study of the British and American translations of neologisms, nonce words and proper nouns in <em>Pippi Longstocking</em>

Moats, Madelene January 2009 (has links)
<p>The purpose of this study is to analyze two literary translations of Astrid Lindgren’s <em>Pippi Långstrump </em>(Lindgren, 1945)<em> </em>from Swedish into English.  The study compares the British and the American English translations of neologisms, nonce words and proper nouns.  The primary data chosen for this study are the Swedish children’s book <em>Pippi Långstrump </em>(1945), written by Astrid Lindgren, and its 1954 British translation, by Edna Hurup, as well as the 1977 American English translation, by Florence Lamborn.  The method used in this study is qualitative, and consists of an in-depth analysis of representative examples of neologisms, nonce words and proper nouns.  Three research questions aimed at finding out what translation procedures were used, whether there were any differences between the two translations, and whether there were any semantic changes in the two translations.  The conclusion is that the most common translation procedure used is equivalence.  The most distinguishing difference between the two translations is that the American English translation seems to stay more true to the original text, whereas the British translation has a greater respect for the target text reader, in the sense that it is more culturally adapted than the American English translation.  There were no major semantic changes in the samples from the two translations, with the exception of a few examples.  In conclusion, both translators manage to maintain the atmosphere of the original text.<strong></strong></p><p><strong> </strong></p>
4

Gestion et extension automatiques du dictionnaire relationnel multilingues de noms propres Prolexbase : mise à jour multilingues et création d'un volume arabe via la Wikipédia / Automatic management and extension of the multilingual relational dictionary of proper names Prolexbase : multilingual updates and creation of an arabic volume via Wikipedia

Elashter, Mouna 04 July 2017 (has links)
Les bases de données lexicales jouent un grand rôle dans le TAL, mais, elles nécessitent un développement et un enrichissement permanents via l’exploitation des ressources libres du web sémantique, entre autres, l’encyclopédie Wikipédia, DBpedia, Geonames et Yago2. Prolexbase, comporte à ce jour dix langues, trois parmi elles sont bien couvertes : le francais, l’anglais et le polonais. Il a été conçu manuellement et une première tentative semi-automatique a été réalisée par le projet ProlexFeeder (Savary et al. 2013). L’objectif de notre travail était d’élaborer un outil de mise à jour et d’extension automatiques de ce lexique, et l'ajout de la langue arabe. Un système automatique a également été mis en place pour calculer via la Wikipédia l’indice de notoriété des entrées de Prolexbase ; cet indice dépend de la langue et participe, d'une part, à la construction d'un module de Prolexbase pour la langue arabe et, d'autre part, à la révision de la notoriété présente pour les autres langues de la base. / Lexical databases play a significant role in natural language processing (NLP), however, they require permanent development and enrichment through the exploitation of free resources from the semantic web, among others, Wikipedia, DBpedia, Geonames and Yago2. Prolexbase, which issued of numerous studies on NLP, has ten languages, three of which are well covered: French, English and Polish. It was manually designed; the first semiautomatic attempt was made by the ProlexFeeder project (Savary et al., 2013). The objective of our work was to create an automatic updating and extension tool for Prolexbase, and to introduce the Arabic language. In addition, a fully automatic system has been implemented to calculate, via Wikipedia, the notoriety of the entries of Prolexbase. This notoriety is language dependent, is the first step in the construction of an Arabic module of Prolexbase, and it takes a part in the notoriety revision currently present for the other languages in the database.
5

Effective Techniques for Indonesian Text Retrieval

Asian, Jelita, jelitayang@gmail.com January 2007 (has links)
The Web is a vast repository of data, and information on almost any subject can be found with the aid of search engines. Although the Web is international, the majority of research on finding of information has a focus on languages such as English and Chinese. In this thesis, we investigate information retrieval techniques for Indonesian. Although Indonesia is the fourth most populous country in the world, little attention has been given to search of Indonesian documents. Stemming is the process of reducing morphological variants of a word to a common stem form. Previous research has shown that stemming is language-dependent. Although several stemming algorithms have been proposed for Indonesian, there is no consensus on which gives better performance. We empirically explore these algorithms, showing that even the best algorithm still has scope for improvement. We propose novel extensions to this algorithm and develop a new Indonesian stemmer, and show that these can improve stemming correctness by up to three percentage points; our approach makes less than one error in thirty-eight words. We propose a range of techniques to enhance the performance of Indonesian information retrieval. These techniques include: stopping; sub-word tokenisation; and identification of proper nouns; and modifications to existing similarity functions. Our experiments show that many of these techniques can increase retrieval performance, with the highest increase achieved when we use grams of size five to tokenise words. We also present an effective method for identifying the language of a document; this allows various information retrieval techniques to be applied selectively depending on the language of target documents. We also address the problem of automatic creation of parallel corpora --- collections of documents that are the direct translations of each other --- which are essential for cross-lingual information retrieval tasks. Well-curated parallel corpora are rare, and for many languages, such as Indonesian, do not exist at all. We describe algorithms that we have developed to automatically identify parallel documents for Indonesian and English. Unlike most current approaches, which consider only the context and structure of the documents, our approach is based on the document content itself. Our algorithms do not make any prior assumptions about the documents, and are based on the Needleman-Wunsch algorithm for global alignment of protein sequences. Our approach works well in identifying Indonesian-English parallel documents, especially when no translation is performed. It can increase the separation value, a measure to discriminate good matches of parallel documents from bad matches, by approximately ten percentage points. We also investigate the applicability of our identification algorithms for other languages that use the Latin alphabet. Our experiments show that, with minor modifications, our alignment methods are effective for English-French, English-German, and French-German corpora, especially when the documents are not translated. Our technique can increase the separation value for the European corpus by up to twenty-eight percentage points. Together, these results provide a substantial advance in understanding techniques that can be applied for effective Indonesian text retrieval.
6

Skloňování maskulin s tvarotvorným základem zakončeným na obojetnou souhlásku v současné češtině / Declension of masculine nouns ending with "ambiguous" consonants in contemporary Czech

Klimtová, Barbora January 2011 (has links)
The thesis attemps to map the current situation of the variance process in masculines ended with epicene consonants -s and -z. Based on the description of the situation presented in language guides approximately since 1950s and with the help of Retrográdní slovník současné češtiny, the authoress compiled a list of masculines with this type of ending and afterwards she verified each noun via corpus databáze ČNK syn2010. To komplete the corpus results the authoress used the questionary survey on selected nouns. From acquired data there was set together a summary which should describe the current situation of this variance in these nouns.
7

Toward Robust Information Extraction Models for Multimedia Documents

Ebadat, Ali-Reza 17 October 2012 (has links) (PDF)
Au cours de la dernière décennie, d'énormes quantités de documents multimédias ont été générées. Il est donc important de trouver un moyen de gérer ces données, notamment d'un point de vue sémantique, ce qui nécessite une connaissance fine de leur contenu. Il existe deux familles d'approches pour ce faire, soit par l'extraction d'informations à partir du document (par ex., audio, image), soit en utilisant des données textuelles extraites du document ou de sources externes (par ex., Web). Notre travail se place dans cette seconde famille d'approches ; les informations extraites des textes peuvent ensuite être utilisées pour annoter les documents multimédias et faciliter leur gestion. L'objectif de cette thèse est donc de développer de tels modèles d'extraction d'informations. Mais les textes extraits des documents multimédias étant en général petits et bruités, ce travail veille aussi à leur nécessaire robustesse. Nous avons donc privilégié des techniques simples nécessitant peu de connaissances externes comme garantie de robustesse, en nous inspirant des travaux en recherche d'information et en analyse statistique des textes. Nous nous sommes notamment concentré sur trois tâches : l'extraction supervisée de relations entre entités, la découverte de relations, et la découverte de classes d'entités. Pour l'extraction de relations, nous proposons une approche supervisée basée sur les modèles de langues et l'algorithme d'apprentissage des k-plus-proches voisins. Les résultats expérimentaux montrent l'efficacité et la robustesse de nos modèles, dépassant les systèmes état-de-l'art tout en utilisant des informations linguistiques plus simples à obtenir. Dans la seconde tâche, nous passons à un modèle non supervisé pour découvrir les relations au lieu d'en extraire des prédéfinies. Nous modélisons ce problème comme une tâche de clustering avec une fonction de similarité là encore basée sur les modèles de langues. Les performances, évaluées sur un corpus de vidéos de matchs de football, montrnt l'intérêt de notre approche par rapport aux modèles classiques. Enfin, dans la dernière tâche, nous nous intéressons non plus aux relations mais aux entités, source d'informations essentielles dans les documents. Nous proposons une technique de clustering d'entités afin de faire émerger, sans a priori, des classes sémantiques parmi celles-ci, en adoptant une représentation nouvelle des données permettant de mieux tenir compte des chaque occurrence des entités. En guise de conclusion, nous avons montré expérimentalement que des techniques simples, exigeant peu de connaissances a priori, et utilisant des informations linguistique facilement accessibles peuvent être suffisantes pour extraire efficacement des informations précises à partir du texte. Dans notre cas, ces bons résultats sont obtenus en choisissant une représentation adaptée pour les données, basée sur une analyse statistique ou des modèles de recherche d'information. Le chemin est encore long avant d'être en mesure de traiter directement des documents multimédia, mais nous espérons que nos propositions pourront servir de tremplin pour les recherches futures dans ce domaine.
8

Pour l’histoire du « discours bien construit » : le livre I du De contructione d’Apollonius Dyscole et les reprises chez Priscien / For the history of the "well constructed speech" : the first book of the De Constructione by Apollonius Dyscolus and the improvements by Priscian

Callipo, Manuela 15 April 2013 (has links)
Le sujet de ce travail, c'est le De constructione d'Apollonios Dyscole, le premier traité de syntaxe de l'antiquité, et en particulier son premier livre, étudié par rapport au livre XVII de constructione des Institutions grammaticae de Priscien, qui s'est inspiré d'Apollonios au début du VIe siècle ap. J.-C. Le texte grec, imprimé selon l'édition réalisée par G. Uhlig en 1910, à l'occurence modifiée à cause de choix ecdotiques différents de ceux du philologue allemand, est suivi par sa première traduction en langue italienne ; de plus, pour permettre une comparaison avec le traité latin, on a imprimé et traduit en italien les passages correspondants du livre XVII de Priscien. Le commentaire a pour but d'expliquer les choix critiques, mais une attention particulière est aussi dédiée à l'ordre des parties du discours établi par Apollonios et à leurs rapports avec la tradition grammaticale grecque et latine, même sur papyrus. En ce qui concerne Priscien, on a transcrit - pour les parties traduites - le manuscrit Vaticanus lat. 3313, qui permet d'améliorer, ne fût-Ce que dans le détail, le texte de l'édition de Hertz (1855-1859). Textes et traductions sont précédés par une introduction qui, après un excursus sur la méthode analogique d'Apollonios, examine les rapports entre grammaire et philosophie, en particulier stoïcienne et platonicienne, à fin de montrer qu'il n'est pas possible de corriger Apollonios par Priscien et Priscien par Apollonios : l'arrière-Plan néoplatonicien de Prisicen ne semble pas agir chez Apollonios, qui vécut quatre siècles avant. Enfin, on a retracé l'histoire de la tradition manuscrite et des éditions modernes des deux traités De constructione. / The subject of this research is the De constructione by Apollonius Dyscolus, the first treatise on syntax written in classical antiquity, and in particular its first book, studied in comparison with the book XVII de constructione of the Institutiones grammaticae by Priscian, who looked back to Apollonius at the beginning of the VI century. The Greek text, printed according to the edition by G. Uhlig (1910), sometimes modifed because of different textual choices, is followed by its first Italian translation ; furthermore, to allow a comparison with the latin treatise, the corresponding passages of the book XVII by Priscian have been printed and translated too. The commentary aims to explain the critical choices, but particular attention has also been paid to the order of the parts of speech set by Apollonius and to their relationship with Greek and latin grammatical tradition, also on papyrus. With respect to the translated sections of Priscian, a new manuscript, the Vaticanus lat. 3313, has been transcribed ; this made it possible to improve, although only in the details, the text of the edition by Hertz (1855-1859). Texts and translations are preceded by an introduction which, after an excursus about Apollonius' analogical method, analyses the relationship between grammar and philosophy, especially Stoicism and Platonicism, to show that it is not possible to correct Apollonius through Priscian through Apollonius : Priscian's Neoplatonic background seems not to be active in Apollonius, who lived four centuries earlier. Finally, this work offers a short history of manuscript tradition and of modern editions of the two treatises De constructione.
9

Réexamen de la notion d'arbitraire linguistique. Définition et contribution à l'identification de sa problématique / Reconsideration of the notion of arbitrary linguistic. Definition and contribution to the identification of the problem / إعادة النظر في مفهوم الاعتباط اللغوي : تعريفه والإسهام في تشخيص إشكاليته

Al-Hamdani, Hayja 30 March 2013 (has links)
Cette thèse jette la lumière sur la notion d'arbitraire linguistique qui, depuis les premières réflexions sur la nature du langage, ne cesse d'être, plus ou moins, un objet de débat: l'origine du langage est-elle humaine ou divine? Son statut est-il conventionnel ou naturel? La dénomination des choses est-elle fondée sur l'arbitraire humain ou sur sa raison? Par conséquent, le signe linguistique est-il arbitraire ou motivé? Ce débat s'étend depuis l'Antiquité jusqu'à nos jours, dans une proportion d'intensité variable en temps et en lieu. Mais dans tout cela, qu'entendons-nous au juste par arbitraire? Et pourquoi représente-t-il toujours une problématique?Dans ce contexte, nous avons conduit un travail qui parcourt l'histoire, de l'Antiquité à la période actuelle, pour voir comment la question de l'arbitraire a été traitée chez les savants. La globalité de cette étude permet de construire une idée du point de divergence qui fait de l'arbitraire une question autant soutenue que débattue par les savants. Ainsi, cette étude est conçue pour réexaminer la notion de l'arbitraire afin de pouvoir la définir et identifier sa problématique.Conduite dans une méthode de travail qui repose sur l'analyse logique et philosophique des textes, cette étude montre en conclusion que le problème de l'arbitraire réside dans l'ambiguïté de sa notion. Celle-ci est due à la multiplicité des sens qu'il peut renfermer, donc à la multiplicité de sa conception chez les philosophes et linguistes, mais aussi à la multiplicité des points de vue pour déterminer la partie concernée par l'arbitraire dans la théorie du signe. Autrement dit, c'est en terme de l'arbitraire des idées, qu'on peut parler de l'arbitraire du langage.La thèse finit par présenter une position sur le langage et l'arbitraire, construite sur deux questions: i) le fait qu'il existe des lois dans le langage qui gèrent son fonctionnement selon un système propre; ii) le fait qu'il existe un lien pertinent entre la pensée du groupe et sa langue. / This thesis sheds light on the linguistic notion of arbitrariness, which, since the very first reflections on the nature of language, continues – to a greater or lesser extent – to be a subject of debate: is the origin of language human or divine? Is its status conventional or natural? Is the naming of things based on human arbitrariness or human reason? Consequently, is the linguistic sign arbitrary or motivated? This debate extends from antiquity to the present day, in a proportion of variable intensity in time and place. But in all this, what do we mean by arbitrary? And why has it always represented a problematic?In this context, we have conducted a survey which retraces the history of this notion from antiquity to the present day, to see how the question of arbitrariness has been treated by savants. The global nature of this study can enable the construction of an idea of the point of divergence which makes arbitrariness into a matter of such sustained and controversial debate among savants. Thus, this study was designed to review the concept of arbitrariness in order to identify and define the problem.This study has been conducted using a working method based on the logical and philosophical analysis of texts. It conclusively demonstrates that the problem of the arbitrary lies in the ambiguity of the concept. This is due to the multiplicity of meanings that it can contain, that is, the multiplicity of its conceptions among philosophers and linguists, but this is also due to the multiplicity of points of view applied to determining the part affected by the arbitrary within the theory of the sign. In other words, it is in terms of arbitrary ideas that we can speak of the arbitrariness of language.The thesis ends by presenting a position about language and arbitrariness, which has been constructed around two issues: i) the fact that there are laws in the language that manage its working according to an own system; ii) that there is a relevant connection between the thought of a group and its language. / تلقي هذه الأطروحة الضوء على مفهوم الاعتباط اللغوي الذي ما انفك يكون بشكل او بآخر موضوعا للجدل منذ البدايات الأولى للتفكير في طبيعة اللغة : فهل إن أصل اللغة إنسانيّ أم إلهي؟ وهل أنّ تشريعها جاء بشكل اتفاقي أم طبيعي؟ هل جرت التسمية على أساس اعتباطية الإنسان ام على عقلانيته؟ وبالنتيجة فهل ان الإشارة اللغوية اعتباطية ام معللة؟ امتد هذا الجدل منذ العصور القديمة وحتى يومنا هذا بنسب متفاوتة بالشدة في الزمان والمكان. ولكن في كل هذا ، ما الذي نعنيه بالضبط بالاعتباط؟ ولماذا يمثل دائما إشكالية؟في هذا السياق أجرينا بحثا طاف التاريخ برمته منذ العصر القديم حتى يومنا هذا كي نتعرف كيف تمت معالجة هذا الموضوع عند علماء اللغة. ان شمولية هذا العمل تسمح بتكوين فكرة حول نقطة الخلاف الذي جعل من الاعتباط موضوعا قابلا للتأييد والرفض على حد سواء بين العلماء. وعليه فقد صممت هذه الدراسة لإعادة النظر في مفهوم الاعتباط من اجل تعريفه وتحديد اشكاليته.تتألف الأطروحة من أربعة أجزاء فصلت في سياق زمني ، ولكن رتبت على وفق التوزيع ألموضوعاتي. يتناول الجزء الأول مكونات الاعتباط كعناصر تعريفية ، وأنواع الاعتباط ، ويبحث الجزء الثاني في إشكالية الاعتباط من خلال دراسة جذور فكره والحجج التي قدمت في هذا الطرح والطرح الذي عارضه ، الأمر الذي ترك المشكلة بلا حل، إضافة إلى المقترحات التي حاول من خلالها العلماء الخروج من المشكلة. وقد خصص الجزء الثالث حصرا حول ملامح الاعتباط عند سوسير ؛ في حين ناقش الجزء الرابع مفهوم الاعتباط في الفكر الحديث.أجريت هذه الدراسة على وفق منهج بحث استند على التحليل المنطقي والفلسفي للنصوص. وبينت بالنتيجة أن مشكلة الاعتباط تكمن في غموض مفهومه. ويعود ذلك إلى تعدد المعاني التي يمكن ان تحتويه المفردة، وبالتالي تعدد طريقة فهمه عند الفلاسفة وعلماء اللغة ، إضافة إلى تعدد وجهات النظر في تحديد الجانب المعني بالاعتباط في نظرية الإشارة اللغوية. وبعبارة أخرى، يمكننا القول إنّ اعتباطية اللغة تكمن في إطار اعتباطية الأفكار.تقدم الأطروحة في النهاية فكر المؤلف حول اللغة ومسألة الاعتباط اللغوي، وقد بناه على مسألتين: الأولى أن هناك قوانين في اللغة تدير حركته على وفق نظام خاص؛ والثانية أن هناك علاقة وثيقة بين فكر المجموعة ولغتها.

Page generated in 0.082 seconds