Spelling suggestions: "subject:"desaminação"" "subject:"disambiguate""
11 |
Uma abordagem híbrida relacional para a desambiguação lexical de sentido na tradução automática / A hybrid relational approach for word sense disambiguation in machine translationSpecia, Lucia 28 September 2007 (has links)
A comunicação multilíngue é uma tarefa cada vez mais imperativa no cenário atual de grande disseminação de informações em diversas línguas. Nesse contexto, são de grande relevância os sistemas de tradução automática, que auxiliam tal comunicação, automatizando-a. Apesar de ser uma área de pesquisa bastante antiga, a Tradução Automática ainda apresenta muitos problemas. Um dos principais problemas é a ambigüidade lexical, ou seja, a necessidade de escolha de uma palavra, na língua alvo, para traduzir uma palavra da língua fonte quando há várias opções de tradução. Esse problema se mostra ainda mais complexo quando são identificadas apenas variações de sentido nas opções de tradução. Ele é denominado, nesse caso, \"ambigüidade lexical de sentido\". Várias abordagens têm sido propostas para a desambiguação lexical de sentido, mas elas são, em geral, monolíngues (para o inglês) e independentes de aplicação. Além disso, apresentam limitações no que diz respeito às fontes de conhecimento que podem ser exploradas. Em se tratando da língua portuguesa, em especial, não há pesquisas significativas voltadas para a resolução desse problema. O objetivo deste trabalho é a proposta e desenvolvimento de uma nova abordagem de desambiguação lexical de sentido, voltada especificamente para a tradução automática, que segue uma metodologia híbrida (baseada em conhecimento e em córpus) e utiliza um formalismo relacional para a representação de vários tipos de conhecimentos e de exemplos de desambiguação, por meio da técnica de Programação Lógica Indutiva. Experimentos diversos mostraram que a abordagem proposta supera abordagens alternativas para a desambiguação multilíngue e apresenta desempenho superior ou comparável ao do estado da arte em desambiguação monolíngue. Adicionalmente, tal abordagem se mostrou efetiva como mecanismo auxiliar para a escolha lexical na tradução automática estatística / Crosslingual communication has become a very imperative task in the current scenario with the increasing amount of information dissemination in several languages. In this context, machine translation systems, which can facilitate such communication by providing automatic translations, are of great importance. Although research in Machine Translation dates back to the 1950\'s, the area still has many problems. One of the main problems is that of lexical ambiguity, that is, the need for lexical choice when translating a source language word that has several translation options in the target language. This problem is even more complex when only sense variations are found in the translation options, a problem named \"sense ambiguity\". Several approaches have been proposed for word sense disambiguation, but they are in general monolingual (for English) and application-independent. Moreover, they have limitations regarding the types of knowledge sources that can be exploited. Particularly, there is no significant research aiming to word sense disambiguation involving Portuguese. The goal of this PhD work is the proposal and development of a novel approach for word sense disambiguation which is specifically designed for machine translation, follows a hybrid methodology (knowledge and corpus-based), and employs a relational formalism to represent various kinds of knowledge sources and disambiguation examples, by using Inductive Logic Programming. Several experiments have shown that the proposed approach overcomes alternative approaches in multilingual disambiguation and achieves higher or comparable results to the state of the art in monolingual disambiguation. Additionally, the approach has shown to effectively assist lexical choice in a statistical machine translation system
|
12 |
LUDI: um framework para desambiguação lexical com base no enriquecimento da semântica de framesMatos, Ely Edison da Silva 27 June 2014 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-02-05T16:40:06Z
No. of bitstreams: 1
elyedisondasilvamatos.pdf: 5520917 bytes, checksum: c9e7d798d96928a6ad4f2ee48d912531 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-02-26T11:51:46Z (GMT) No. of bitstreams: 1
elyedisondasilvamatos.pdf: 5520917 bytes, checksum: c9e7d798d96928a6ad4f2ee48d912531 (MD5) / Made available in DSpace on 2016-02-26T11:51:47Z (GMT). No. of bitstreams: 1
elyedisondasilvamatos.pdf: 5520917 bytes, checksum: c9e7d798d96928a6ad4f2ee48d912531 (MD5)
Previous issue date: 2014-06-27 / Enquanto no âmbito da Sintaxe, as técnicas, os algoritmos e as aplicações em Processamento
da Língua Natural são bem estudados e já estão relativamente bem estabelecidos, no
âmbito da Semântica não é possível observar ainda a mesma maturidade. Visando, então,
contribuir para os estudos em Semântica Computacional, este trabalho busca maneiras de
implementar algumas das ideias e dos insights propostos pela Linguística Cognitiva, que é,
por si, uma alternativa à Linguística Gerativa. A tentativa é reunir algumas das ferramentas
disponíveis, seja no viés computacional (Bancos de Dados, Teoria dos Grafos, Ontologias,
Mecanismos de inferências, Modelos Conexionistas), seja no viés linguístico (Semântica de
Frames e Teoria do Léxico Gerativo), seja no viés de aplicações (FrameNet e ontologia
SIMPLE), a fim de abordar as questões semânticas de forma mais flexível. O objeto de
estudo é o processo de desambiguação de Unidades Lexicais. O resultado da pesquisa
realizada é corporificado na forma de uma aplicação computacional, chamada Framework
LUDI (Lexical Unit Discovery through Inference), composta por algoritmos e estruturas
de dados usados na desambiguação. O framework é uma aplicação de Compreensão da
Língua Natural, que pode ser integrada em ferramentas para recuperação de informação
e sumarização, bem como em processos de Etiquetagem de Papéis Semânticos (SRL -
Semantic Role Labeling). / While in the field of Syntax techniques, algorithms and applications in Natural Language
Processing are well known and relatively well established, the same situation does not
hold for the field of Semantics. Aiming at contributing to the studies in Computational
Semantics, this work implements ideas and insights offered by Cognitive Linguistics,
which is itself an alternative to Generative Linguistics. We attempt to bring together
contributions from the computational domain (Databases, Graph Theory, Ontologies,
inference mechanisms, Connectionists Models), the linguistic domain (Frame Semantics and
the Generative Lexicon), and the application domain (FrameNet and SIMPLE Ontology)
in order to address the semantic issues more flexibly. The object of study is the process of
disambiguation of Lexical Units. The results of the research are embodied in the form of a
computer application, called Framework LUDI (Lexical Unit Discovery through Inference),
and composed of algorithms and data structures used for Lexical Unit disambiguation. The
framework is an application of Natural Language Understanding, which can be integrated
into information retrieval and summarization tools, as well as into processes of Semantic
Role Labeling (SRL).
|
13 |
Análise de sentimento e desambiguação no contexto da tv socialLima, Ana Carolina Espírito Santo 14 December 2012 (has links)
Made available in DSpace on 2016-03-15T19:37:43Z (GMT). No. of bitstreams: 1
Ana Carolina Espirito Santo Lima.pdf: 2485278 bytes, checksum: 9843b9f756f82c023af6a2ee291f2b1d (MD5)
Previous issue date: 2012-12-14 / Fundação de Amparo a Pesquisa do Estado de São Paulo / Social media have become a way of expressing collective interests. People are motivated by the sharing of information and the feedback from friends and colleagues. Among the many social media tools available, the Twitter microblog is gaining popularity as a platform for in-stantaneous communication. Millions of messages are generated daily, from over 100 million users, about the most varied subjects. As it is a rapid communication platform, this microblog spurred a phenomenon called television storytellers, where surfers comment on what they watch on TV while the programs are being transmitted. The Social TV emerged from this integration between social media and television. The amount of data generated on the TV shows is a rich material for data analysis. Broadcasters may use such information to improve their programs and increase interaction with their audience. Among the main challenges in social media data analysis there is sentiment analysis (to determine the polarity of a text, for instance, positive or negative), and sense disambiguation (to determine the right context of polysemic words). This dissertation aims to use machine learning techniques to create a tool to support Social TV, contributing specifically to the automation of sentiment analysis and disambiguation of Twitter messages. / As mídias sociais são uma forma de expressão dos interesses coletivos, as pessoas gostam de compartilhar informações e sentem-se valorizadas por causa disso. Entre as mídias sociais o microblog Twitter vem ganhando popularidade como uma plataforma para comunicação ins-tantânea. São milhões de mensagens geradas todos os dias, por cerca de 100 milhões de usuá-rios, carregadas dos mais diversos assuntos. Por ser uma plataforma de comunicação rápida esse microblog estimulou um fenômeno denominado narradores televisivos, em que os inter-nautas comentam sobre o que assistem na TV no momento em que é transmitido. Dessa inte-gração entre as mídias sociais e a televisão emergiu a TV Social. A quantidade de dados gera-dos sobre os programas de TV formam um rico material para análise de dados. Emissoras podem usar tais informações para aperfeiçoar seus programas e aumentar a interação com seu público. Dentre os principais desafios da análise de dados de mídias sociais encontram-se a análise de sentimento (determinação de polaridade em um texto, por exemplo, positivo ou negativo) e a desambiguação de sentido (determinação do contexto correto de palavras polis-sêmicas). Essa dissertação tem como objetivo usar técnicas de aprendizagem de máquina para a criação de uma ferramenta de apoio à TV Social com contribuições na automatização dos processos de análise de sentimento e desambiguação de sentido de mensagens postadas no Twitter.
|
14 |
Uma abordagem híbrida relacional para a desambiguação lexical de sentido na tradução automática / A hybrid relational approach for word sense disambiguation in machine translationLucia Specia 28 September 2007 (has links)
A comunicação multilíngue é uma tarefa cada vez mais imperativa no cenário atual de grande disseminação de informações em diversas línguas. Nesse contexto, são de grande relevância os sistemas de tradução automática, que auxiliam tal comunicação, automatizando-a. Apesar de ser uma área de pesquisa bastante antiga, a Tradução Automática ainda apresenta muitos problemas. Um dos principais problemas é a ambigüidade lexical, ou seja, a necessidade de escolha de uma palavra, na língua alvo, para traduzir uma palavra da língua fonte quando há várias opções de tradução. Esse problema se mostra ainda mais complexo quando são identificadas apenas variações de sentido nas opções de tradução. Ele é denominado, nesse caso, \"ambigüidade lexical de sentido\". Várias abordagens têm sido propostas para a desambiguação lexical de sentido, mas elas são, em geral, monolíngues (para o inglês) e independentes de aplicação. Além disso, apresentam limitações no que diz respeito às fontes de conhecimento que podem ser exploradas. Em se tratando da língua portuguesa, em especial, não há pesquisas significativas voltadas para a resolução desse problema. O objetivo deste trabalho é a proposta e desenvolvimento de uma nova abordagem de desambiguação lexical de sentido, voltada especificamente para a tradução automática, que segue uma metodologia híbrida (baseada em conhecimento e em córpus) e utiliza um formalismo relacional para a representação de vários tipos de conhecimentos e de exemplos de desambiguação, por meio da técnica de Programação Lógica Indutiva. Experimentos diversos mostraram que a abordagem proposta supera abordagens alternativas para a desambiguação multilíngue e apresenta desempenho superior ou comparável ao do estado da arte em desambiguação monolíngue. Adicionalmente, tal abordagem se mostrou efetiva como mecanismo auxiliar para a escolha lexical na tradução automática estatística / Crosslingual communication has become a very imperative task in the current scenario with the increasing amount of information dissemination in several languages. In this context, machine translation systems, which can facilitate such communication by providing automatic translations, are of great importance. Although research in Machine Translation dates back to the 1950\'s, the area still has many problems. One of the main problems is that of lexical ambiguity, that is, the need for lexical choice when translating a source language word that has several translation options in the target language. This problem is even more complex when only sense variations are found in the translation options, a problem named \"sense ambiguity\". Several approaches have been proposed for word sense disambiguation, but they are in general monolingual (for English) and application-independent. Moreover, they have limitations regarding the types of knowledge sources that can be exploited. Particularly, there is no significant research aiming to word sense disambiguation involving Portuguese. The goal of this PhD work is the proposal and development of a novel approach for word sense disambiguation which is specifically designed for machine translation, follows a hybrid methodology (knowledge and corpus-based), and employs a relational formalism to represent various kinds of knowledge sources and disambiguation examples, by using Inductive Logic Programming. Several experiments have shown that the proposed approach overcomes alternative approaches in multilingual disambiguation and achieves higher or comparable results to the state of the art in monolingual disambiguation. Additionally, the approach has shown to effectively assist lexical choice in a statistical machine translation system
|
15 |
Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos. / Creation of thematic vectors of domains for the polysemic disambiguation of terms.BISPO, Magna Celi Tavares. 01 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-01T17:34:31Z
No. of bitstreams: 1
MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) / Made available in DSpace on 2018-08-01T17:34:31Z (GMT). No. of bitstreams: 1
MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5)
Previous issue date: 2012-11-30 / A ambiguidade de termos é um dos fatores que dificulta o processo de indexação de
documentos e recuperação de informação desejada por um usuário. O presente trabalho
se baseia na hipótese de que parte deste problema pode ser minimizado sabendo-se de
antemão o domínio do documento que contém termos ambíguos. Para determinar este
domínio foram construídos vocabulários temáticos por meio da extração de termos de
documentos de domínios de conhecimento pré-determinados, com o uso de regras
sintáticas. A Wikipédia foi usada como base de consulta, por ser uma enciclopédia
digital contendo as categorias definidas semelhantes à Classificação Decimal Universal
(CDU), e cada categoria com uma vasta quantidade de documentos específicos, sendo
essa característica fundamental para formação de um vocabulário específico do
domínio de um conhecimento. A escolha das categorias foi baseada na CDU, composta
de 10 domínios e seus respectivos subdomínios. Os vocabulários obtidos, denominados
de Vetores Temáticos de Domínio (VTD), serviram de base para a classificação de
novos documentos. Para validação dos VTD's, foram realizados três tipos de
experimentos diferentes, o primeiro foi classificar novos documentos utilizando o
método vetorial, tendo o VTD como base de consulta. O segundo experimento foi uma
classificação utilizando outro classificador, o Intellexer Categorizer, e o terceiro
experimento, criou-se um vetor de termos através do Weka, o qual foi submetido a
servir de base de consulta para classificar novos documentos, utilizando o modelo
vetorial. Os resultados foram satisfatórios, pois mostrou que o VTD obteve uma
melhor classificação em relação aos outros métodos, dos 14 novos documentos,
classificou 10 corretamente e 4 errados, apresentando uma acurácia de 80%, contra a
acurácia de 57% do Intellexer Categorizer e de 50% da classificação utilizando o vetor
de termos criado pelo Weka. / Terms ambiguity is one of the factors that hinders the document indexation and
information retrieval processes desired by a user. This work is based on the hypothesis
that part of this problem can be minimized by knowing beforehand the field of the
document that contains ambiguous terms. To determine this domain, typical
vocabularies were created through the extraction of terms from documents of
predetermined knowledge domains, with the use of syntactical rules. Wikipedia was
used as a consultation base because it is a digital encyclopedia that contains the
categories defined similar to the Universal Decimal Classification (UDC), each
category containing a vast amount of specific documents, being this feature essential
for the formation of a domain-specific vocabulary. The choice of the categories was
based on the UDC, composed of 10 domains and their respective subdomains. The
vocabularies obtained, denominated as Thematic Domain Vectors (TDV), served as
the basis for the classification of new documents. For the validation of the TDVs,
three different types of experiments were performed: the first was to classify new
documents using the vectorial method, with the TDV as a basis of consultation. The
second experiment was a classification using another classifier, the Intellexer
Categorizer. For the third experiment was created a vector of terms through Weka,
which was submitted to serve as a a consultation base to classify new documents using
the vectorial model. The results were satisfactory, because they showed that the TDV
obtained a better classification relative to other methods. Of the 14 new documents,
properly it rated 10 and 4 incorrectly, with an accuracy of 80%, against 57% accuracy
of the Intellexer Categorizer program and 50% of the classification using the Weka
created vector of terms.
|
Page generated in 0.0418 seconds