Spelling suggestions: "subject:"zugeordnet""
1 |
Semantic Relations in WordNet and the BNCFerschke, Oliver. January 1900 (has links)
Würzburg, Univ., Magister-Arbeit, 2009.
|
2 |
Expansion de requête dans la recherche d'information : comparaison des ressources et des méthodesJin, Fuman January 2002 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
3 |
Unsupervised Clustering and Automatic Language Model Generation for ASRPodder, Sushil January 2004 (has links)
The goal of an automatic speech recognition system is to enable the computer in understanding human speech and act accordingly. In order to realize this goal, language modeling plays an important role. It works as a knowledge source through mimicking human comprehension mechanism in understanding the language. Among many other approaches, statistical language modeling technique is widely used in automatic speech recognition systems. However, the generation of reliable and robust statistical model is very difficult task, especially for a large vocabulary system. For a large vocabulary system, the performance of such a language model degrades as the vocabulary size increases. Hence, the performance of the speech recognition system also degrades due to the increased complexity and mutual confusion among the candidate words in the language model. In order to solve these problems, reduction of language model size as well as minimization of mutual confusion between words are required. In our work, we have employed clustering techniques, using self-organizing map, to build topical language models. Moreover, in order to capture the inherent semantics of sentences, a lexical dictionary, WordNet has been used in the clustering process. This thesis work focuses on various aspects of clustering, language model generation, extraction of task dependent acoustic parameters, and their implementations under the framework of the CMU Sphinx3 speech engine decoder. The preliminary results, presented in this thesis show the effectiveness of the topical language models.
|
4 |
Unsupervised Clustering and Automatic Language Model Generation for ASRPodder, Sushil January 2004 (has links)
The goal of an automatic speech recognition system is to enable the computer in understanding human speech and act accordingly. In order to realize this goal, language modeling plays an important role. It works as a knowledge source through mimicking human comprehension mechanism in understanding the language. Among many other approaches, statistical language modeling technique is widely used in automatic speech recognition systems. However, the generation of reliable and robust statistical model is very difficult task, especially for a large vocabulary system. For a large vocabulary system, the performance of such a language model degrades as the vocabulary size increases. Hence, the performance of the speech recognition system also degrades due to the increased complexity and mutual confusion among the candidate words in the language model. In order to solve these problems, reduction of language model size as well as minimization of mutual confusion between words are required. In our work, we have employed clustering techniques, using self-organizing map, to build topical language models. Moreover, in order to capture the inherent semantics of sentences, a lexical dictionary, WordNet has been used in the clustering process. This thesis work focuses on various aspects of clustering, language model generation, extraction of task dependent acoustic parameters, and their implementations under the framework of the CMU Sphinx3 speech engine decoder. The preliminary results, presented in this thesis show the effectiveness of the topical language models.
|
5 |
Propriedades semânticas e alternâncias sintáticas do verbo : um exercício exploratório de delimitação do significado /Ávila, Maria Carolina. January 2006 (has links)
Orientador: Bento Carlos Dias da Silva / Banca: Maria Helena de Moura Neves / Banca: Rove Luiza de Oliveira Chishman / Resumo: A partir da hipótese de que a estrutura de argumentos projetada pelo verbo reflete aspectos da sua estrutura conceitual, esta dissertação investiga um conjunto de teorias que analisam essa interface sintaxe-semântica com o objetivo de recortar uma representação das dimensões sintática e semântica para essa classe lexical. Do ponto de vista lingüístico, analisam-se as propriedades léxico-semânticas de um conjunto de verbos do português do Brasil, extraído da base de verbos da rede WordNet.Br e nocionalmente correspondente à classe semântica dos verbos do inglês "Verbos de Destitução de Posse-Verbos do Tipo 'Roubar'", isolada por Levin (1993). As representações léxico-semântica e léxico-sintática fundamentam-se, respectivamente, na teoria sobre as Estruturas Conceituais de Jackendoff (1990, 2002) e na teoria sobre a Estrutura de Argumentos de Hale e Keyser (2002). Do ponto de vista lingüístico-computacional, desenvolvem-se uma estratégia de construção e refinamento dos synsets de verbos da rede WordNet.Br e uma proposta de representação formal das dimensões sintáticas e conceitual para os verbos. / Abstract: This thesis presents an inquiry on the lexical-syntactic and the lexical-semantic representation of verbs from the perspective that aspects of verb's argument structure reflect its conceptual structure. In the linguistic domain, the thesis investigates both the lexical-semantic and lexical-syntactic properties of the synset of Brazilian Portuguese verbs extracted from the WordNet.Br lexical database that corresponds to Levin's (1993) class of verbs of Possessional Deprivation-Steal/Rob Verbs. The lexical-semantic and lexical-syntactic representation are grounded in Jackendoff's (1990, 2002) Semantic Structures Theory and Hale and Keyser's (2002) Argument Structure Theory, respectively. In the computational-linguistic domain, it presents both a strategy for constructing and refining the WordNet.Br verb synsets and a formal representation for describing the syntactic and conceptual dimensions of verbs. / Mestre
|
6 |
Adjetivos: uma representação lingüístico-computacionalConteratto, Gabriela Betania Hinrichs January 2009 (has links)
Made available in DSpace on 2013-08-07T19:02:18Z (GMT). No. of bitstreams: 1
000410054-Texto+Completo-0.pdf: 1283010 bytes, checksum: 4163a4a808a0986e0178af14f442c4d0 (MD5)
Previous issue date: 2009 / The main goal of this dissertation is to carry out a descriptive explanatory study of subjectoriented descriptive predicative adjectives, having in mind their utility for the improvement of computational systems that need to process natural language. Firstly, the most relevant studies concerning adjectives in general are taken up, with the aim of showing that they form a class of words with very peculiar syntactic-semantic behavior, especially in contexts of double predication. To better understand the questions implicated in these contexts, this study invests in the description of eventualities denoted by the primary predicate and the descriptive predicative adjective, since this is the path that points towards the relation between the lexicon, syntax and semantics. Semantic approaches that attempt to describe not only the properties of such eventualities, but also the relations between them are examined. To represent the relation between the eventualities denoted by the primary predicate and the descriptive predicative adjective, this study bases itself on approaches which aim not only to model the phenomena of language and their resolution, but also the efficiency necessary for their inclusion in computational applications. Finally, some ways of incorporating the linguistic results obtained in this research into wordnets are suggested. Such an endeavor is shown to be relevant from a linguistic point of view in testing the potential of application of the theories adopted in this research, as well as from the point of view of computation in contributing to the process of enriching this type of lexicon, in addition to the improvement of PLN systems. / A meta principal desta tese é a realização de um estudo descritivo explanatório dos adjetivos predicativos descritivos voltados para o sujeito, tendo em vista a sua utilidade para o aperfeiçoamento de sistemas computacionais que necessitam processar a linguagem natural. Primeiramente, retomam-se os estudos mais relevantes acerca dos adjetivos em geral com intuito de evidenciar que eles formam uma classe de palavras com comportamento sintáticosemântico muito peculiar, em especial, em contextos de dupla predicação. Para melhor compreender as questões implicadas nesses contextos, investe-se na descrição das eventualidades denotadas pelo predicado primário e pelo adjetivo predicativo descritivo por este ser um caminho que aponta a relação entre léxico, sintaxe e semântica. Buscam-se abordagens semânticas que tentam descrever não só as propriedades de tais eventualidades, mas também a relação entre elas. Para representar a relação entre as eventualidades denotadas pelo predicado primário e pelo adjetivo predicativo descritivo, baseia-se em abordagens que não visam apenas configurar os fenômenos da linguagem e sua resolução, mas também à eficiência necessária à sua inclusão em aplicações computacionais. Por fim, sugerem-se formas de incorporar os resultados lingüísticos obtidos nessa pesquisa em wordnets. Tal empreitada se mostra relevante tanto do ponto de vista da lingüística, por testar o potencial de aplicação das teorias adotadas nesta pesquisa, quanto do ponto de vista da computação, por contribuir no processo de enriquecimento desse tipo de léxico, bem como no aperfeiçoamento de sistemas de PLN.
|
7 |
Desambiguação lexical de sentidos para o português por meio de uma abordagem multilíngue mono e multidocumento / Word Sense Disambiguation for portuguese through multilingual mono and multi-documentNóbrega, Fernando Antônio Asevêdo 28 May 2013 (has links)
A ambiguidade lexical é considerada uma das principais barreiras para melhoria de aplicações do Processamento de Língua Natural (PLN). Neste contexto, tem-se a área de Desambiguação Lexical de Sentido (DLS), cujo objetivo é desenvolver e avaliar métodos que determinem o sentido correto de uma palavra em um determinado contexto por meio de um conjunto finito de possíveis significados. A DLS é empregada, principalmente, no intuito de prover recursos e ferramentas para diminuir problemas de ambiguidade e, consequentemente, contribuir para melhorias de resultados em outras áreas do PLN. Para o Português do Brasil, pouco se tem pesquisado nesta área, havendo alguns trabalhos bem específicos de domínio. Outro fator importante é que diversas áreas do PLN engajam-se no cenário multidocumento, onde a computação é efetuada sobre uma coleção de textos, todavia, não há relato de trabalhos de DLS direcionados a este cenário, tampouco experimentos de desambiguação neste domínio. Portanto, neste trabalho de mestrado, objetivou-se o desenvolvimento de métodos de DLS de domínio geral voltado à língua Portuguesa do Brasil e o desenvolvimento de algoritmos de desambiguação que façam uso de informações multidocumento, bem como a experimentação e avaliação destes no cenário multidocumento. Para tanto, a fim de subsidiar experimentos, desenvolvimento e avaliação deste projeto, anotou-se manualmente o córpus CSTNews, caracterizado como um córpus multidocumento, utilizando a WordNet de Princeton como repositório de sentidos, que organiza os significados por meio de conjuntos de sinônimos ( synsets) e relações linguísticas entre estes. Foram desenvolvidos quatro métodos de DLS e algumas variações, sendo: um método heurístico (para aferir valores de baseline); variações do algoritmo de Lesk (1986); adaptação do algoritmo de Mihalcea and Moldovan (1999); e uma variação do método de Lesk para o cenário multidocumento. Foram realizados três experimentos para avaliação dos métodos, cujos objetivos foram: determinar o desempenho geral dos algoritmos em todo o córpus; avaliar a qualidade de desambiguação de palavras mais ambíguas no córpus; e verificar o ganho de qualidade da desambiguação ao empregar informação multidocumento. Após estes experimentos, pôde-se observar que o método heurístico apresenta um melhor resultado geral. Contudo, é importante ressaltar que a maioria das palavras anotadas no córpus tiveram apenas um synset, que, normalmente, era o mais frequente, o que, consequentemente, apresenta um cenário mais propício ao método heurístico. Outro fato importante foi que, neste cenário, a diferença de desempenho entre o método de DLS multidocumento e o heurístico é estatisticamente irrelevante. Já para a desambiguação de palavras mais ambíguas, o método heurístico foi inferior, evidenciando que, para a desambiguação de palavras mais ambíguas, são necessários métodos mais sofisticados de DLS. Por fim, verificou-se que a utilização de informação multidocumento auxilia o processo de desambiguação. As contribuições deste trabalho podem ser agrupadas entre teóricas e técnicas. Nas teóricas, tem-se a investigação e análises da DLS no cenário multidocumento. Entre as contribuições técnicas, foram desenvolvidos métodos de DLS, um córpus anotado e uma ferramenta de anotação direcionados à língua Portuguesa do Brasil, que podem avançar as pesquisas em DLS para o idioma / The lexical ambiguity is considered one of the main barries to improving applications of Natural Language Processing (NLP). In this context, it has benn the area of Word Sense Disambiguation (WSD), whose goal is to develop and evaluate methods to determine the correct sense of a word in a give context by a nite set of possible meanings. The DLS is used mainly in order to provide resources and tools to reduce problems of ambiguity and thus contribute to improved results in other areas of NLP. In the Portuguese of Brazil, little has been researched in this area, with some work and specic domain. Another important factor is that many areas of NLP commit themselves in multidocument scenario, where the computation is performed on a collection of texts, however, there is no report of WSD work directed to this scenario, either disambiguation experiments in this eld. Therefore, this master thesis aimed to develop methods of WSD general domain facing the Portuguese language in Brazil and the development of algorithms that make use of disambiguation multidocument informations, as well as experimentation and evaluation of the multidocument scenario. Therefore, in order to support experiments, development and evaluation of this project, the corpus CSTNews with 50 document collections, was manually annotated by means of synsets of the WordNet Princeton. Four methods were developed: A heuristic method (to measure values fo baseline); variations of the Lesk (1986) algorithm; a adaptation of the Mihalcea and Moldovan (1999) algorithm; and a variation of the Lesk method for multidocument scenario. Three experiments were conducted to evaluate the methods, whose objectives were to determine the general performance algorithms across the corpus; evaluate the quality of disambiguation of most ambiguous words in the corpus, and check the gain quality of disambiguation by employing information multidocumento. After these experiments, it was observed that the heuristic method presents a better overall result. However, it is important to note that most of the words in the annotated corpus had only one synset, which usually was the most frequent, which, in turn, presents a scenario more conducive to the heuristic method. Another important fact was that in this scenario, the performance dierence between the heuristic method and multidocument algorithm was statistically irrelevant. As for the disambiguation of most ambiguous words, the heuristic method was lower, indicating that, for the disambiguation of ambiguous words, more sophisticated WSD methods are needed. Finally, it has been found that the use of multidocument information assists the disambiguation process. The contributions of this work can be divided between theoretical and technical. In theory, there is the research and analysis of WSD in multidocument scenario. Among the techniques contributions, WSD methods have been developed an annotated corpus and annotation tool targeted to the Portuguese language in Brazil that can advance research in WSD for the language
|
8 |
Desambiguación léxica mediante marcas de especificidadMontoyo, Andres 21 June 2002 (has links)
No description available.
|
9 |
Constitution d'une ressource sémantique arabe à partir d'un corpus multilingue aligné / Constitution of a semantic resource for the Arabic language from multilingual aligned corporaAbdulhay, Authoul 23 November 2012 (has links)
Cette thèse vise à la mise en œuvre et à l'évaluation de techniques d'extraction de relations sémantiques à partir d'un corpus multilingue aligné. Ces relations seront extraites par transitivité de l'équivalence traductionnelle, deux lexèmes possédant les mêmes équivalents dans une langue cible étant susceptibles de partager un même sens. D'abord, nos observations porteront sur la comparaison sémantique d'équivalents traductionnels dans des corpus multilingues alignés. A partir des équivalences, nous tâcherons d'extraire des "cliques", ou sous-graphes maximaux complets connexes, dont toutes les unités sont en interrelation, du fait d'une probable intersection sémantique. Ces cliques présentent l'intérêt de renseigner à la fois sur la synonymie et la polysémie des unités, et d'apporter une forme de désambiguïsation sémantique. Elles seront créées à partir de l'extraction automatique de correspondances lexicales, basée sur l'observation des occurrences et cooccurrences en corpus. Le recours à des techniques de lemmatisation sera envisagé. Ensuite nous tâcherons de relier ces cliques avec un lexique sémantique (de type Wordnet) afin d'évaluer la possibilité de récupérer pour les unités arabes des relations sémantiques définies pour des unités en anglais ou en français. Ces relations permettraient de construire automatiquement un réseau utile pour certaines applications de traitement de la langue arabe, comme les moteurs de question-réponse, la traduction automatique, les systèmes d'alignement, la recherche d'information, etc. / This study aims at the implementation and evaluation of techniques for extracting semantic relations from a multilingual aligned corpus. Firstly, our observations will focus on the semantic comparison of translational equivalents in multilingual aligned corpus. From these equivalences, we will try to extract "cliques", which ara maximum complete related sub-graphs, where all units are interrelated because of a probable semantic intersection. These cliques have the advantage of giving information on both the synonymy and polysemy of units, and providing a form of semantic disambiguation. Secondly, we attempt to link these cliques with a semantic lexicon (like WordNet) in order to assess the possibility of recovering, for the Arabic units, a semantic relationships already defined for English, French or Spanish units. These relations would automatically build a semantic resource which would be useful for different applications of NLP, such as Question Answering systems, machine translation, alignment systems, Information Retrieval…etc.
|
10 |
Desambiguação lexical de sentidos para o português por meio de uma abordagem multilíngue mono e multidocumento / Word Sense Disambiguation for portuguese through multilingual mono and multi-documentFernando Antônio Asevêdo Nóbrega 28 May 2013 (has links)
A ambiguidade lexical é considerada uma das principais barreiras para melhoria de aplicações do Processamento de Língua Natural (PLN). Neste contexto, tem-se a área de Desambiguação Lexical de Sentido (DLS), cujo objetivo é desenvolver e avaliar métodos que determinem o sentido correto de uma palavra em um determinado contexto por meio de um conjunto finito de possíveis significados. A DLS é empregada, principalmente, no intuito de prover recursos e ferramentas para diminuir problemas de ambiguidade e, consequentemente, contribuir para melhorias de resultados em outras áreas do PLN. Para o Português do Brasil, pouco se tem pesquisado nesta área, havendo alguns trabalhos bem específicos de domínio. Outro fator importante é que diversas áreas do PLN engajam-se no cenário multidocumento, onde a computação é efetuada sobre uma coleção de textos, todavia, não há relato de trabalhos de DLS direcionados a este cenário, tampouco experimentos de desambiguação neste domínio. Portanto, neste trabalho de mestrado, objetivou-se o desenvolvimento de métodos de DLS de domínio geral voltado à língua Portuguesa do Brasil e o desenvolvimento de algoritmos de desambiguação que façam uso de informações multidocumento, bem como a experimentação e avaliação destes no cenário multidocumento. Para tanto, a fim de subsidiar experimentos, desenvolvimento e avaliação deste projeto, anotou-se manualmente o córpus CSTNews, caracterizado como um córpus multidocumento, utilizando a WordNet de Princeton como repositório de sentidos, que organiza os significados por meio de conjuntos de sinônimos ( synsets) e relações linguísticas entre estes. Foram desenvolvidos quatro métodos de DLS e algumas variações, sendo: um método heurístico (para aferir valores de baseline); variações do algoritmo de Lesk (1986); adaptação do algoritmo de Mihalcea and Moldovan (1999); e uma variação do método de Lesk para o cenário multidocumento. Foram realizados três experimentos para avaliação dos métodos, cujos objetivos foram: determinar o desempenho geral dos algoritmos em todo o córpus; avaliar a qualidade de desambiguação de palavras mais ambíguas no córpus; e verificar o ganho de qualidade da desambiguação ao empregar informação multidocumento. Após estes experimentos, pôde-se observar que o método heurístico apresenta um melhor resultado geral. Contudo, é importante ressaltar que a maioria das palavras anotadas no córpus tiveram apenas um synset, que, normalmente, era o mais frequente, o que, consequentemente, apresenta um cenário mais propício ao método heurístico. Outro fato importante foi que, neste cenário, a diferença de desempenho entre o método de DLS multidocumento e o heurístico é estatisticamente irrelevante. Já para a desambiguação de palavras mais ambíguas, o método heurístico foi inferior, evidenciando que, para a desambiguação de palavras mais ambíguas, são necessários métodos mais sofisticados de DLS. Por fim, verificou-se que a utilização de informação multidocumento auxilia o processo de desambiguação. As contribuições deste trabalho podem ser agrupadas entre teóricas e técnicas. Nas teóricas, tem-se a investigação e análises da DLS no cenário multidocumento. Entre as contribuições técnicas, foram desenvolvidos métodos de DLS, um córpus anotado e uma ferramenta de anotação direcionados à língua Portuguesa do Brasil, que podem avançar as pesquisas em DLS para o idioma / The lexical ambiguity is considered one of the main barries to improving applications of Natural Language Processing (NLP). In this context, it has benn the area of Word Sense Disambiguation (WSD), whose goal is to develop and evaluate methods to determine the correct sense of a word in a give context by a nite set of possible meanings. The DLS is used mainly in order to provide resources and tools to reduce problems of ambiguity and thus contribute to improved results in other areas of NLP. In the Portuguese of Brazil, little has been researched in this area, with some work and specic domain. Another important factor is that many areas of NLP commit themselves in multidocument scenario, where the computation is performed on a collection of texts, however, there is no report of WSD work directed to this scenario, either disambiguation experiments in this eld. Therefore, this master thesis aimed to develop methods of WSD general domain facing the Portuguese language in Brazil and the development of algorithms that make use of disambiguation multidocument informations, as well as experimentation and evaluation of the multidocument scenario. Therefore, in order to support experiments, development and evaluation of this project, the corpus CSTNews with 50 document collections, was manually annotated by means of synsets of the WordNet Princeton. Four methods were developed: A heuristic method (to measure values fo baseline); variations of the Lesk (1986) algorithm; a adaptation of the Mihalcea and Moldovan (1999) algorithm; and a variation of the Lesk method for multidocument scenario. Three experiments were conducted to evaluate the methods, whose objectives were to determine the general performance algorithms across the corpus; evaluate the quality of disambiguation of most ambiguous words in the corpus, and check the gain quality of disambiguation by employing information multidocumento. After these experiments, it was observed that the heuristic method presents a better overall result. However, it is important to note that most of the words in the annotated corpus had only one synset, which usually was the most frequent, which, in turn, presents a scenario more conducive to the heuristic method. Another important fact was that in this scenario, the performance dierence between the heuristic method and multidocument algorithm was statistically irrelevant. As for the disambiguation of most ambiguous words, the heuristic method was lower, indicating that, for the disambiguation of ambiguous words, more sophisticated WSD methods are needed. Finally, it has been found that the use of multidocument information assists the disambiguation process. The contributions of this work can be divided between theoretical and technical. In theory, there is the research and analysis of WSD in multidocument scenario. Among the techniques contributions, WSD methods have been developed an annotated corpus and annotation tool targeted to the Portuguese language in Brazil that can advance research in WSD for the language
|
Page generated in 0.0261 seconds