• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 14
  • 3
  • 3
  • 2
  • 2
  • 2
  • 1
  • 1
  • Tagged with
  • 25
  • 25
  • 8
  • 7
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Hybrid models for Chinese unknown word resolution

Lu, Xiaofei 12 September 2006 (has links)
No description available.
12

Preserving subsegmental variation in modeling word segmentation (or, the raising of baby Mondegreen)

Rytting, Christopher Anton 05 January 2007 (has links)
No description available.
13

Automatic Segmentation of Swedish Medical Words with Greek and Latin Morphemes : A Computational Morphological Analysis

Lindström, Mathias January 2015 (has links)
Raw text data online has increased the need for designing artificial systems capable of processing raw data efficiently and at a low cost in the field of natural language processing (NLP). A well-developed morphological analysis is an important cornerstone of NLP, in particular when word look-up is an important stage of processing. Morphological analysis has many advantages, including reducing the number of word forms to be stored computationally, as well as being cost-efficient and time-efficient. NLP is relevant in the field of medicine, especially in automatic text analysis, which is a relatively young field in Swedish medical texts. Much of the stored information is highly unstructured and disorganized. Using raw corpora, this paper aims to contribute to automatic morphological segmentation by experimenting with state-of-art-tools for unsupervised and semi-supervised word segmentation of Swedish words in medical texts. The results show that a reasonable segmentation is more dependent on a high number of word types, rather than a special type of corpora. The results also show that semi-supervised word segmentation in the form of annotated training data greatly increases the performance. / Rå textdata online har ökat behovet för artificiella system som klarar av att processa rå data effektivt och till en låg kostnad inom språkteknologi (NLP). En välutvecklad morfologisk analys är en viktig hörnsten inom NLP, speciellt när ordprocessning är ett viktigt steg. Morfologisk analys har många fördelar, bland annat reducerar den antalet ordformer som ska lagras teknologiskt, samt så är det kostnadseffektivt och tidseffektivt. NLP är av relevans för det medicinska ämnet, speciellt inom textanalys som är ett relativt ungt område inom svenska medicinska texter. Mycket av den lagrade informationen är väldigt ostrukturerat och oorganiserat. Genom att använda råa korpusar ämnar denna uppsats att bidra till automatisk morfologisk segmentering genom att experimentera med de för närvarande bästa verktygen för oövervakad och semi-övervakad ordsegmentering av svenska ord i medicinska texter. Resultaten visar att en acceptabel segmentering beror mer på ett högt antal ordtyper, och inte en speciell sorts korpus. Resultaten visar också att semi-övervakad ordsegmentering, dvs. annoterad träningsdata, ökar prestandan markant.
14

Exploring Early Language Acquisition from Different Kinds of Input: The Role of Attention

Schreiner, Melanie Steffi 05 May 2017 (has links)
No description available.
15

Unsupervised word discovery for computational language documentation / Découverte non-supervisée de mots pour outiller la linguistique de terrain

Godard, Pierre 16 April 2019 (has links)
La diversité linguistique est actuellement menacée : la moitié des langues connues dans le monde pourraient disparaître d'ici la fin du siècle. Cette prise de conscience a inspiré de nombreuses initiatives dans le domaine de la linguistique documentaire au cours des deux dernières décennies, et 2019 a été proclamée Année internationale des langues autochtones par les Nations Unies, pour sensibiliser le public à cette question et encourager les initiatives de documentation et de préservation. Néanmoins, ce travail est coûteux en temps, et le nombre de linguistes de terrain, limité. Par conséquent, le domaine émergent de la documentation linguistique computationnelle (CLD) vise à favoriser le travail des linguistes à l'aide d'outils de traitement automatique. Le projet Breaking the Unwritten Language Barrier (BULB), par exemple, constitue l'un des efforts qui définissent ce nouveau domaine, et réunit des linguistes et des informaticiens. Cette thèse examine le problème particulier de la découverte de mots dans un flot non segmenté de caractères, ou de phonèmes, transcrits à partir du signal de parole dans un contexte de langues très peu dotées. Il s'agit principalement d'une procédure de segmentation, qui peut également être couplée à une procédure d'alignement lorsqu'une traduction est disponible. En utilisant deux corpus en langues bantoues correspondant à un scénario réaliste pour la linguistique documentaire, l'un en Mboshi (République du Congo) et l'autre en Myene (Gabon), nous comparons diverses méthodes monolingues et bilingues de découverte de mots sans supervision. Nous montrons ensuite que l'utilisation de connaissances linguistiques expertes au sein du formalisme des Adaptor Grammars peut grandement améliorer les résultats de la segmentation, et nous indiquons également des façons d'utiliser ce formalisme comme outil de décision pour le linguiste. Nous proposons aussi une variante tonale pour un algorithme de segmentation bayésien non-paramétrique, qui utilise un schéma de repli modifié pour capturer la structure tonale. Pour tirer parti de la supervision faible d'une traduction, nous proposons et étendons, enfin, une méthode de segmentation neuronale basée sur l'attention, et améliorons significativement la performance d'une méthode bilingue existante. / Language diversity is under considerable pressure: half of the world’s languages could disappear by the end of this century. This realization has sparked many initiatives in documentary linguistics in the past two decades, and 2019 has been proclaimed the International Year of Indigenous Languages by the United Nations, to raise public awareness of the issue and foster initiatives for language documentation and preservation. Yet documentation and preservation are time-consuming processes, and the supply of field linguists is limited. Consequently, the emerging field of computational language documentation (CLD) seeks to assist linguists in providing them with automatic processing tools. The Breaking the Unwritten Language Barrier (BULB) project, for instance, constitutes one of the efforts defining this new field, bringing together linguists and computer scientists. This thesis examines the particular problem of discovering words in an unsegmented stream of characters, or phonemes, transcribed from speech in a very-low-resource setting. This primarily involves a segmentation procedure, which can also be paired with an alignment procedure when a translation is available. Using two realistic Bantu corpora for language documentation, one in Mboshi (Republic of the Congo) and the other in Myene (Gabon), we benchmark various monolingual and bilingual unsupervised word discovery methods. We then show that using expert knowledge in the Adaptor Grammar framework can vastly improve segmentation results, and we indicate ways to use this framework as a decision tool for the linguist. We also propose a tonal variant for a strong nonparametric Bayesian segmentation algorithm, making use of a modified backoff scheme designed to capture tonal structure. To leverage the weak supervision given by a translation, we finally propose and extend an attention-based neural segmentation method, improving significantly the segmentation performance of an existing bilingual method.
16

The Slaying of Lady Mondegreen, being a Study of French Tonal Association and Alignment and their Role in Speech Segmentation

Welby, Pauline Susan January 2003 (has links)
No description available.
17

轉換年報資料以擷取企業評價模型之非財務性資料項 / A Transformation Approach to Extract Annual Report for Non-Financial Category in Business Valuation

吳思宏, Wu, Szu-Hung Unknown Date (has links)
現今由於之前企業併購熱潮,使得企業到底價值多少?企業是否能夠還有前景?這些問題不僅僅是投資者所關心的問題,也同樣是會計師及企業評價者所關心的問題。又現今已邁入知識經濟時代,企業已從過去以土地、廠房、設備等固定資產來產生企業價值,轉而以服務、品牌、專利等無形資產為主要的企業價值時,企業的價值又要如何來估算。而這些問題都一再的顯示出“企業評價”的重要性。 在進行企業評價之前,企業評價模型中之資料項的取得更是關係著最後評價結果的好壞。在企業評價資料項中,可分為財務性及非財務性。財務性資料項由於定義清楚,所以在資料的收集上較非財務性資料容易。但我們發現過往之資料收集方式並不足以應用在企業評價非財務性資料項的收集上,且現行大多採用人工處理資料的方式,不僅耗費大量時間及成本,又因人工輸入而有資料輸入錯誤之風險,使得資料的正確性大幅降低。故本研究提出一自動化擷取年報中企業評價非財務性資料項之方法,希望藉此方法達到簡化資料收集過程,提高資料的正確性。 / Because of the trend of the business combination, now, more and more people concern about “how much value does a business have?” And “does the business still have any perspectives?” This not only get investors’’ interest, but also the accountant and business valuator. Now we already get into a new economy, called knowledge-based economy. When the businesses are not just use fixed asset, such as facility, factory and land to earn money, but also earn their money by providing services, making brand, or sell patents for live, how to measure the business’s real value and what the real value for the business is. These problems all shows that the importance of “Business Valuation.” Before calculate the business value, the most important thing is to collect the data or data category for business valuation. There are two kinds of business valuation data item. One is financial data item; the other is non-financial data item. Because of the financial data item’s clear definition, the data collection process of financial data item is easier than non-financial data item. And the data collection in the past is not fit for today, and now most valuators use manual way to process these data. This way not only wastes the time and money, but also lowers the correctness and raises the risk of mistype during the process of data collection. In this thesis, we propose an approach to automatic extract business valuation data category from annual report by using the technology of data extraction.
18

Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique

Trabelsi, Chiheb 07 1900 (has links)
Les systèmes statistiques de traduction automatique ont pour tâche la traduction d’une langue source vers une langue cible. Dans la plupart des systèmes de traduction de référence, l'unité de base considérée dans l'analyse textuelle est la forme telle qu’observée dans un texte. Une telle conception permet d’obtenir une bonne performance quand il s'agit de traduire entre deux langues morphologiquement pauvres. Toutefois, ceci n'est plus vrai lorsqu’il s’agit de traduire vers une langue morphologiquement riche (ou complexe). Le but de notre travail est de développer un système statistique de traduction automatique comme solution pour relever les défis soulevés par la complexité morphologique. Dans ce mémoire, nous examinons, dans un premier temps, un certain nombre de méthodes considérées comme des extensions aux systèmes de traduction traditionnels et nous évaluons leurs performances. Cette évaluation est faite par rapport aux systèmes à l’état de l’art (système de référence) et ceci dans des tâches de traduction anglais-inuktitut et anglais-finnois. Nous développons ensuite un nouvel algorithme de segmentation qui prend en compte les informations provenant de la paire de langues objet de la traduction. Cet algorithme de segmentation est ensuite intégré dans le modèle de traduction à base d’unités lexicales « Phrase-Based Models » pour former notre système de traduction à base de séquences de segments. Enfin, nous combinons le système obtenu avec des algorithmes de post-traitement pour obtenir un système de traduction complet. Les résultats des expériences réalisées dans ce mémoire montrent que le système de traduction à base de séquences de segments proposé permet d’obtenir des améliorations significatives au niveau de la qualité de la traduction en terme de le métrique d’évaluation BLEU (Papineni et al., 2002) et qui sert à évaluer. Plus particulièrement, notre approche de segmentation réussie à améliorer légèrement la qualité de la traduction par rapport au système de référence et une amélioration significative de la qualité de la traduction est observée par rapport aux techniques de prétraitement de base (baseline). / Statistical Machine Translation systems have been designed to translate text from a source language into a target one. In most of the benchmark translation systems, the basic unit considered in the textual analysis is the observed textual form of a word. While such a design provides good performance when it comes to translation between two morphologically poor languages, this is not the case when translating into or from a morphologically rich (or complex) language. The purpose of our work is to develop a Statistical Machine Translation (SMT) system as an alternative solution to the many challenges raised by morphological complexity. Our system has the potentials to capture the morphological diversity and hence, to produce efficient translation from a morphologically poor language to a rich one. Several methods have been designed to accomplish such a task. Pre-processing and Post-processing techniques have been built-in to these methods to allow for morphological information to improve translation quality. In this thesis, we first examine several methods of extending traditional SMT models and assess their power of producing better output by comparing them on English-Inuktitut and English-Finnish translation tasks. In a second step we develop a new morphologically aware segmentation algorithm that takes into account information coming from both languages to segment the morphologically rich language. This is done in order to enhance the quality of alignments and consequently the translation itself. This bilingual segmentation algorithm is then incorporated into the phrase-based translation model “PBM” to form our segmentation-based system. Finally we combine the segmentation-based system thus obtained with post-processing algorithms to procure our complete translation system. Our experiments show that the proposed segmentation-based system slightly outperforms the baseline translation system which doesn’t use any preprocessing techniques. It turns out also that our segmentation approach significantly surpasses the preprocessing baseline techniques used in this thesis.
19

基於領域詞典之詞彙-語義網路建構方法研究 - 以財務金融領域詞典為例 / The Construction of a Lexical-semantic Network Based on Domain Dictionary: Dictionary of Finance and Banking as an Example

曾建勛, Tzeng,Jian Shuin Unknown Date (has links)
領域詞典包含許多專業的詞彙以及對詞彙的定義,但詞典中詞彙間的關係是被隱藏起來的,本研究運用自然語言處理的相關技術,提出運用領域詞典找出詞彙間關係建構特定領域語義網路的方法。 / A domain dictionary contains many professional words and their definitions. In general, there are many hidden relations among words in a dictionary. In this thesis, we use techniques of natural language processing to find out these relations, and bring up a method to construct a domain specific lexical semantic network.
20

Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique

Trabelsi, Chiheb 07 1900 (has links)
Les systèmes statistiques de traduction automatique ont pour tâche la traduction d’une langue source vers une langue cible. Dans la plupart des systèmes de traduction de référence, l'unité de base considérée dans l'analyse textuelle est la forme telle qu’observée dans un texte. Une telle conception permet d’obtenir une bonne performance quand il s'agit de traduire entre deux langues morphologiquement pauvres. Toutefois, ceci n'est plus vrai lorsqu’il s’agit de traduire vers une langue morphologiquement riche (ou complexe). Le but de notre travail est de développer un système statistique de traduction automatique comme solution pour relever les défis soulevés par la complexité morphologique. Dans ce mémoire, nous examinons, dans un premier temps, un certain nombre de méthodes considérées comme des extensions aux systèmes de traduction traditionnels et nous évaluons leurs performances. Cette évaluation est faite par rapport aux systèmes à l’état de l’art (système de référence) et ceci dans des tâches de traduction anglais-inuktitut et anglais-finnois. Nous développons ensuite un nouvel algorithme de segmentation qui prend en compte les informations provenant de la paire de langues objet de la traduction. Cet algorithme de segmentation est ensuite intégré dans le modèle de traduction à base d’unités lexicales « Phrase-Based Models » pour former notre système de traduction à base de séquences de segments. Enfin, nous combinons le système obtenu avec des algorithmes de post-traitement pour obtenir un système de traduction complet. Les résultats des expériences réalisées dans ce mémoire montrent que le système de traduction à base de séquences de segments proposé permet d’obtenir des améliorations significatives au niveau de la qualité de la traduction en terme de le métrique d’évaluation BLEU (Papineni et al., 2002) et qui sert à évaluer. Plus particulièrement, notre approche de segmentation réussie à améliorer légèrement la qualité de la traduction par rapport au système de référence et une amélioration significative de la qualité de la traduction est observée par rapport aux techniques de prétraitement de base (baseline). / Statistical Machine Translation systems have been designed to translate text from a source language into a target one. In most of the benchmark translation systems, the basic unit considered in the textual analysis is the observed textual form of a word. While such a design provides good performance when it comes to translation between two morphologically poor languages, this is not the case when translating into or from a morphologically rich (or complex) language. The purpose of our work is to develop a Statistical Machine Translation (SMT) system as an alternative solution to the many challenges raised by morphological complexity. Our system has the potentials to capture the morphological diversity and hence, to produce efficient translation from a morphologically poor language to a rich one. Several methods have been designed to accomplish such a task. Pre-processing and Post-processing techniques have been built-in to these methods to allow for morphological information to improve translation quality. In this thesis, we first examine several methods of extending traditional SMT models and assess their power of producing better output by comparing them on English-Inuktitut and English-Finnish translation tasks. In a second step we develop a new morphologically aware segmentation algorithm that takes into account information coming from both languages to segment the morphologically rich language. This is done in order to enhance the quality of alignments and consequently the translation itself. This bilingual segmentation algorithm is then incorporated into the phrase-based translation model “PBM” to form our segmentation-based system. Finally we combine the segmentation-based system thus obtained with post-processing algorithms to procure our complete translation system. Our experiments show that the proposed segmentation-based system slightly outperforms the baseline translation system which doesn’t use any preprocessing techniques. It turns out also that our segmentation approach significantly surpasses the preprocessing baseline techniques used in this thesis.

Page generated in 0.1154 seconds