• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 75
  • 12
  • Tagged with
  • 89
  • 89
  • 50
  • 50
  • 37
  • 29
  • 23
  • 20
  • 18
  • 17
  • 17
  • 15
  • 12
  • 10
  • 10
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Investigando a influência de fatores linguísticos na organização lexical de verbos / Investigating the influence of linguistic factors in the lexical organization of verbs

Germann, Daniel Cerato January 2010 (has links)
Esta dissertação utiliza simulações computacionais visando investigar a influência de alguns fatores lingüísticos na organização lexical de verbos, analisando os processos de aquisição e uso. Os fatores testados são: freqüência de observação na linguagem, polissemia e complexidade sintática. Os dados utilizados foram obtidos por meio de tarefas psicolingüísticas de nomeação de ações, realizadas por crianças e adultos (falantes do Português brasileiro), posteriormente representados como grafos. Com base nos fatores lingüísticos, foram formuladas hipóteses relativas ao desenvolvimento da língua, testadas por meio de simulações computacionais denominadas ‘involuções’. Os testes incluem métricas da teoria dos grafos e medidas de similaridade de conjuntos (coeficiente de Jaccard e suas componentes). Os resultados obtidos apontam para uma confirmação das hipóteses formuladas. Adicionalmente, permitiram verificar algumas características do desenvolvimento lingüístico, como o aumento do vocabulário e uma progressiva especialização. / This dissertation uses computational simulations designed to investigate the influence of three linguistic factors in the lexical organization of verbs, analyzing the process of acquisition and use. The tested factors are: frequency of observation in the language, polysemy and syntactic complexity. The data used were obtained from psycholinguistic action naming tasks performed by children and adults (speakers of Brazilian Portuguese), and subsequently represented as graphs. Based on linguistic factors, hypotheses were formulated concerning the development of language, tested through simulations called ‘involutions’. Tests include graph theory metrics and set similarity measures (Jaccard’s coefficient and its components). Results suggest a confirmation of the given hypotheses. Additionally, allowed verification of some language development features, such as vocabulary growth and a progressive specialization.
42

A verb learning model driven by syntactic constructions / Um modelo de aquisição de verbos guiado por construções sintáticas

Machado, Mario Lúcio Mesquita January 2008 (has links)
Desde a segunda metade do último século, as teorias cognitivas têm trazido algumas visões interessantes em relação ao aprendizado de linguagem. A aplicação destas teorias em modelos computacionais tem duplo benefício: por um lado, implementações computacionais podem ser usaas como uma forma de validação destas teorias; por outro lado, modelos computacionais podem alcançar uma performance melhorada a partir da adoção de estratégias de aprendizado cognitivamente plausíveis. Estruturas sintáticas são ditas fornecer uma pista importante para a aquisição do significado de verbos. Ainda, para um subconjunto particular de verbos muito frequentes e gerais - os assim-chamados light verbs - há uma forte ligação entre as estruturas sintáticas nas quais eles aparecem e seus significados. Neste trabalho, empregamos um modelo computacional para investigar estas propostas, em particular, considerando a tarefa de aquisição como um mapeamento entre um verbo desconhecido e referentes prototípicos para eventos verbais, com base na estrutura sintática na qual o verbo aparece. Os experimentos conduzidos ressaltaram alguns requerimentos para um aprendizado bem-sucedido, em termos de níveis de informação disponível para o aprendiz e da estratégia de aprendizado adotada. / Cognitive theories have been, since the second half of the last century, bringing some interesting views about language learning. The application of these theories on computational models has double benefits: in the one hand, computational implementations can be used as a form of validation of these theories; on the other hand, computational models can earn an improved performance from adopting some cognitively plausible learning strategies. Syntactic structures are said to provide an important cue for the acquisition of verb meaning. Yet, for a particular subset of very frequent and general verbs – the so-called light verbs – there is a strong link between the syntactic structures in which they appear and their meanings. In this work, we used a computational model, to further investigate these proposals, in particular looking at the acquisition task as a mapping between an unknown verb and prototypical referents for verbal events, on the basis of the syntactic structure in which the verb appears. The experiments conducted have highlighted some requirements for a successful learning, both in terms of the levels of information available to the learner and the learning strategies adopted.
43

Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos / Combining content- and citation-based metrics for plagiarism detection in scientific papers

Pertile, Solange de Lurdes January 2015 (has links)
A grande quantidade de artigos científicos disponíveis on-line faz com que seja mais fácil para estudantes e pesquisadores reutilizarem texto de outros autores, e torna mais difícil a verificação da originalidade de um determinado texto. Reutilizar texto sem creditar a fonte é considerado plágio. Uma série de estudos relatam a alta prevalência de plágio no meio acadêmico e científico. Como consequência, inúmeras instituições e pesquisadores têm se dedicado à elaboração de sistemas para automatizar o processo de verificação de plágio. A maioria dos trabalhos existentes baseia-se na análise da similaridade do conteúdo textual dos documentos para avaliar a existência de plágio. Mais recentemente, foram propostas métricas de similaridade que desconsideram o texto e analisam apenas as citações e/ou referências bibliográficas compartilhadas entre documentos. Entretanto, casos em que o autor não referencia a fonte original pode passar despercebido pelas métricas baseadas apenas na análise de referências/citações. Neste contexto, a solução proposta é baseada na hipótese de que a combinação de métricas de similaridade de conteúdo e de citações/referências pode melhorar a qualidade da detecção de plágio. Duas formas de combinação são propostas: (i) os escores produzidos pelas métricas de similaridade são utilizados para ranqueamento dos pares de documentos e (ii) os escores das métricas são utilizados para construir vetores de características que serão usados por algoritmos de Aprendizagem de Máquina para classificar os documentos. Os experimentos foram realizados com conjuntos de dados reais de artigos científicos. A avaliação experimental mostra que a hipótese foi confirmada quando a combinação das métricas de similaridade usando Aprendizagem de Máquina é comparada com a combinação simples. Ainda, ambas as combinações apresentaram ganhos quando comparadas com as métricas aplicadas de forma individual. / The large amount of scientific documents available online makes it easier for students and researchers reuse text from other authors, and makes it difficult to verify the originality of a given text. Reusing text without crediting the source is considered plagiarism. A number of studies have reported on the high prevalence of plagiarism in academia. As a result, many institutions and researchers have developed systems that automate the plagiarism detection process. Most of the existing work is based on the analysis of the similarity of the textual content of documents to assess the existence of plagiarism. More recently, similarity metrics that ignore the text and just analyze the citations and/or references shared between documents have been proposed. However, cases in which the author does not reference the original source may go unnoticed by metrics based only on the references/citations analysis. In this context, the proposed solution is based on the hypothesis that the combination of content similarity metrics and references/citations can improve the quality of plagiarism detection. Two forms of combination are proposed: (i) scores produced by the similarity metrics are used to ranking of pairs of documents and (ii) scores of metrics are used to construct feature vectors that are used by algorithms machine learning to classify documents. The experiments were performed with real data sets of papers. The experimental evaluation shows that the hypothesis was confirmed when the combination of the similarity metrics using machine learning is compared with the simple combining. Also, both compounds showed gains when compared with the metrics applied individually.
44

Verblexpor : um recurso léxico com anotação de papéis semânticos para o português

Zilio, Leonardo January 2015 (has links)
Esta tese propõe um recurso léxico de verbos com anotação de papéis semânticos, denominado VerbLexPor, baseado em recursos como VerbNet, PropBank e FrameNet. As bases teóricas da proposta são interdisciplinares e retiradas da Linguística de Corpus e do Processamento de Linguagem Natural (PLN), visando-se a contribuir para a Linguística e para a Computação. As hipóteses de pesquisa são: a) um mesmo conjunto de papéis semânticos pode ser aplicado a diferentes gêneros textuais; e b) as diferenças entre esses gêneros se destacam no ranqueamento dos papéis semânticos. O desenvolvimento do VerbLexPor se apoia em dois corpora: um especializado, com mais de 1,6 milhão de palavras, composto por artigos científicos de Cardiologia de três periódicos brasileiros; e um não especializado, com mais de 1 milhão de palavras composto por artigos do jornal popular Diário Gaúcho. Os corpora foram anotados com o parser PALAVRAS, e as informações de sentenças, verbos e argumentos foram extraídas e armazenadas em um banco de dados. O VerbLexPor tem 192 verbos e mais de 15 mil argumentos anotados distribuídos em mais de 6 mil sentenças. Observou-se que o corpus do Diário Gaúcho privilegia uma sintaxe direta e pouco uso de voz passiva e adjuntos, enquanto o corpus de Cardiologia apresenta mais voz passiva e um maior uso de INSTRUMENTOS na posição de sujeito, além de uma menor incidência de AGENTES. Foram realizados também alguns experimentos paralelos, como a anotação de papéis semânticos por vários anotadores e o agrupamento automático de verbos. Na tarefa de múltiplos anotadores, cada um anotou exatamente as mesmas 25 orações. Os anotadores receberam um manual de anotação e um treinamento básico (explicação sobre a tarefa e dois exemplos de anotação). Usou-se o cálculo de multi-π para avaliar a concordância entre os anotadores, e o resultado foi de π = 0,25. Os motivos para essa concordância baixa podem estar na falta de um treinamento mais completo. A tarefa de agrupamento de verbos mostrou que a sintaxe e a semântica são igualmente importantes para o agrupamento. Este estudo contribui para a área de Linguística, com um léxico de verbos anotados semanticamente, e também para a Computação, com dados que podem ser consultados e processados para diversas aplicações do PLN, principalmente por estarem disponíveis nos formatos XML e SQL. / This dissertation aims at developing a lexical resource of verbs annotated with semantic roles, called VerbLexPor, and based on other resources, such as VerbNet, PropBank, and FrameNet. The theoretical bases of this study lies in Corpus Linguistics and Natural Language Processing (NLP), so that it aims at contributing to both Linguistics and Computer Science. The hypotheses are: a) one set of semantic roles can be applied to different genres; and b) the differences among genres are shown by the ranking of semantic roles. The development of VerbLexPor has two corpora at the basis: a specialized one, with more than 1.6 million words, composed by scientific papers in the field of Cardiology from three Brazilian journals; and a non-specialized one, with more than 1 million words, composed by newspaper articles from Diário Gaúcho. The corpora were analyzed with the parser PALAVRAS, and sentence, verb and argument information was extracted and stored in a database. VerbLexPor has 192 verbs and more than 15 thousand arguments annotated with semantic roles, distributed among more than 6 thousand sentences. We observed that Diário Gaúcho has a more direct syntax, with less passive voice and adjuncts, while Cardiology has more passive voice and more INSTRUMENTS for subjects, and fewer AGENTS. We also conducted some parallel experiments, such as semantic role labeling with multiple annotators and automatic verbal clustering. In the multiple annotators task, each of them annotated exactly the same 25 sentences. They received an annotation manual and basic training (explanation on the task and two annotation examples). We used multi-π to evaluate agreement among annotators, and results were π = 0,25. Reasons for this low agreement may be a lack of a thoroughly developed training. The verbal clustering task showed that syntax and semantics are equally important for verbal clustering. This study contributes to Linguistics, with a verbal lexicon annotated with semantic roles, and also to Computer Science, with data that can be assessed and processed for various NLP applications, especially because the data are available in both XML and SQL formats.
45

On the application of focused crawling for statistical machine translation domain adaptation

Laranjeira, Bruno Rezende January 2015 (has links)
O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos. / Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes.
46

Designing tactile vocabularies for human-computer interaction / Projetando vocabulários táteis para interação humano-computador

Oliveira, Victor Adriel de Jesus January 2014 (has links)
Esta dissertação apresenta um estudo sobre linguagens táteis em interação humanocomputador e uma nova abordagem de prefixação vibrotátil. Nós pretendemos analisar como as escolhas feitas durante o processo de concepção de vocabulários táteis afetam o desempenho do usuário em uma tarefa interativa. Por isso desenvolvemos e testamos diferentes conjuntos de sinais táteis para suporte à navegação em ambientes virtuais. Isso nos levou a esboçar o conceito de Padrão Tátil Modificador para comunicação vibrotátil que foi testado por meio de experimentos com usuários. Na avaliação dos vocabulários táteis construídos com padrões modificadores foram considerados os efeitos de estimulação multisensorial, fatores relacionados ao processamento de seqüências táteis e o mascaramento causado pela exibição de múltiplos estímulos ao mesmo tempo. Resultados mostram que os participantes que usaram vocabulários construídos com padrões modificadores obtiveram desempenho melhor na tarefa de navegação. Esse e outros resultados relacionados à percepção, aprendizagem e interpretação dos nossos vocabulários atestam a validade do uso de modificadores na construção de linguagens táteis. As conclusões extraídas deste trabalho se mostram úteis no auxílio à concepção de interfaces táteis que sejam usáveis e que demandem expressividade de seus vocabulários. / This thesis presents a study about tactile languages in human-computer interaction and a novel approach for vibrotactile prefixation. We intended to analyse how the choices made during the design process of tactile vocabularies would affect the user performance on an interactive task. Therefore, we have designed and tested different sets of tactile signals for aid navigation in virtual environments. It leaded us to fashion the concept of Modifier Tactile Pattern for vibrotactile communication which was tested through user experiments. In the assessment of the modifier-based vocabularies we attempted to effects of multisensory stimulation, factors related to the processing of tactile sequences and masking caused by multiple stimuli delivered in a same time. Results show that those participants who used modifier-based vocabularies performed better the navigation task. That and others results related to perception, learning and interpretation of our tactile vocabularies show the validity of the use of modifiers on tactile languages. The statements made from this work will be useful for designing usable tactile interfaces that demand expressive vocabularies.
47

Deíticos e anáforas pronominais em diálogos / Deixis and pronominal anaphora in dialogs

Freitas, Sergio Antonio Andrade de January 1993 (has links)
A proposta deste trabalho é implementar um conjunto de elementos do diálogo a decorrer entre dois agentes humanos. As anáforas pronominais e certos pronomes déiticos (eu, você, sua, seu, meu, minha), que eventualmente surgirem durante o diálogo, são resolvidas. Basicamente, este trabalho está dividido em quatro partes: 1. Estudo introdutório da Discourse Representation Theory (DRT) [KAM88, KAM90]. A DRT é um formalismo para a representação do discurso que utiliza modelos na avaliação semântica das estruturas representacionais. Neste estudo são considerados somente os aspectos representacionais, dando enfoque à representação de sentenças simples. 2. Um estudo baseado em [HIR81, CAR87] sobre: tipos de ambigüidades, o que são anáforas, tipos de anáforas etc, visa fornecer ao leitor um conhecimento mínimo sobre o aspecto lingüístico do tratamento das anáforas. Dentro do estudo realizado sobre anáforas destacam-se os seguintes tipos: coespecificação pessoal e colocação em coesão léxica, que são os tipos previstos na implementação. Estes dois tipos de anáforas são enquadrados nos seguintes grupos: coespecificação pessoal no grupo das anáforas pronominais e colocação em coesão léxica no grupo das anáforas nominais. 3. Considerando que a DRT somente representa o discurso, sem contudo resolver as anafóras que surgem no discurso, incorporou-se a Teoria do Foco [SID79, COR92] como ferramenta para a resolução das anáforas pronominais. A Teoria do Foco trabalha com as informações temáticas das sentenças, de maneira a reduzir o universo dos possíveis antecedentes para uma anáfora e prover um conjunto de regras que permita um caminhamento inteligente, dentro deste universo. O algoritmo de focalização aqui utilizado e o proposto por Sophie Cormack [COR92], que foi por sua vez baseado no algoritmo original de Candace Sidner [SID79]. 4. E por último a implementação, que foi realizada em C-Prolog [PER87], onde as principais funções são: (a) Um gerador de DRSs. (b) Algoritmo de focalização. (c) Integração do algoritmo de focalização e do gerador de DRSs. Descrevendo de maneira geral o funcionamento da implementação: as falas (conjunto de sentenças) de cada interlocutor são lidas através do teclado, as sentenças de cada fala são analisadas individualmente pelo analisador sintático, que gera uma árvore de derivação sintática. A árvore gerada é então repassada ao gerador de DRSs, que irá reduzi-la a referentes e condições. Eventualmente, se surgirem anáforas pronominais, é chamado o algoritmo de focalização. Caso surjam pronomes deíticos a resolução é realizada pelo gerador de DRSs. / The proposal of this work is to implement a set of dialog elements expressed by two human agents. The pronominal anaphora and some deixis pronoums (in portuguese: I, you, your, my) that eventually appear during the dialog are resolved. Basically, this work is divided in four parts: 1. An introdutory study of the Discourse Representation Theory (DRT) [KAM88, KAM90]. The DRT is a formalism for discourse representation that uses models for semantic evaluation of the representation structures. This study considers only the representational aspects, looking for single sentences. 2. A study based on [HIR81, CAR87] about: some kinds of ambiguity, what anaphora are, kinds of anaphora etc. This study intends to give the reader the minimal knowledge about the linguistic aspects of anaphora. In this study, we point out two types of anaphora: personal coespecification and lexical placement, this two were the ones that we used in the system. Those two types are in the following groups: personal coespecification in the pronominal anaphora and lexical placement in the nominal anaphora. 3. Considering that DRT only represent the discourse without resolving the anaphora, we used the Focus Theory [SID79, COR92] as a tool for pronominal anaphora resolution. The Focus Theory works on the thematic informations of the sentences. It reduces the universe of the possible antecedents and give some rules to walk throught this universe. We used the focalization algorithm presented by Sophie Cormack [COR92] which is based on the original version of Candace Sidner [SID79]. 4. Finally, the system was implemented in C-Prolog [PER87], and its main functions are: (a) a DRS generator, (b) a focalization algorithm, (c) the integration of the focalization algorithm and the DRS generator. Basically, what the system does is: the discourse of the agent is read in the keyboard, and each sentence of the discourse is analised by the sintatic analyser, generating a parsing tree. Then the DRS generator reduces this tree into referents and DRS-conditions. Eventually, the focalization algorithm will be called when the sentence contain some pronominal anaphora. The deixis resolution is made by the DRS-generator.
48

Avaliando um rotulador estatístico de categorias morfo-sintáticas para a língua portuguesa / Evaluating a stochastic part-of-speech tagger for the portuguese language

Villavicencio, Aline January 1995 (has links)
O Processamento de Linguagem Natural (PLN) é uma área da Ciência da Computação, que vem tentando, ao longo dos anos, aperfeiçoar a comunicação entre o homem e o computador. Varias técnicas tem sido utilizadas para aperfeiçoar esta comunicação, entre elas a aplicação de métodos estatísticos. Estes métodos tem sido usados por pesquisadores de PLN, com um crescente sucesso e uma de suas maiores vantagens é a possibilidade do tratamento de textos irrestritos. Em particular, a aplicação dos métodos estatísticos, na marcação automática de "corpus" com categorias morfo-sintáticas, tem se mostrado bastante promissora, obtendo resultados surpreendentes. Assim sendo, este trabalho descreve o processo de marcação automática de categorias morfo-sintáticas. Inicialmente, são apresentados e comparados os principais métodos aplicados a marcação automática: os métodos baseados em regras e os métodos estatísticos. São descritos os principais formalismos e técnicas usadas para esta finalidade pelos métodos estatísticos. E introduzida a marcação automática para a Língua Portuguesa, algo até então inédito. O objetivo deste trabalho é fazer um estudo detalhado e uma avaliação do sistema rotulador de categorias morfo-sintáticas, a fim de que se possa definir um padrão no qual o sistema apresente a mais alta precisão possível. Para efetuar esta avaliação, são especificados alguns critérios: a qualidade do "corpus" de treinamento, o seu tamanho e a influencia das palavras desconhecidas. A partir dos resultados obtidos, espera-se poder aperfeiçoar o sistema rotulador, de forma a aproveitar, da melhor maneira possível, os recursos disponíveis para a Língua Portuguesa. / Natural Language Processing (NLP) is an area of Computer Sciences, that have been trying to improve communication between human beings and computers. A number of different techniques have been used to improve this communication and among them, the use of stochastic methods. These methods have successfully being used by NLP researchers and one of their most remarkable advantages is that they are able to deal with unrestricted texts. Namely, the use of stochastic methods for part-of-speech tagging has achieving some extremely good results. Thus, this work describes the process of part-of-speech tagging. At first, we present and compare the main tagging methods: the rule-based methods and the stochastic ones. We describe the main stochastic tagging formalisms and techniques for part-of-speech tagging. We also introduce part-of-speech tagging for the Portuguese Language. The main purpose of this work is to study and evaluate a part-of-speech tagger system in order to establish a pattern in which it is possible to achieve the greatest accuracy. To perform this evaluation, several parameters were set: the corpus quality, its size and the relation between unknown words and accuracy. The results obtained will be used to improve the tagger, in order to use better the available Portuguese Language resources.
49

A verb learning model driven by syntactic constructions / Um modelo de aquisição de verbos guiado por construções sintáticas

Machado, Mario Lúcio Mesquita January 2008 (has links)
Desde a segunda metade do último século, as teorias cognitivas têm trazido algumas visões interessantes em relação ao aprendizado de linguagem. A aplicação destas teorias em modelos computacionais tem duplo benefício: por um lado, implementações computacionais podem ser usaas como uma forma de validação destas teorias; por outro lado, modelos computacionais podem alcançar uma performance melhorada a partir da adoção de estratégias de aprendizado cognitivamente plausíveis. Estruturas sintáticas são ditas fornecer uma pista importante para a aquisição do significado de verbos. Ainda, para um subconjunto particular de verbos muito frequentes e gerais - os assim-chamados light verbs - há uma forte ligação entre as estruturas sintáticas nas quais eles aparecem e seus significados. Neste trabalho, empregamos um modelo computacional para investigar estas propostas, em particular, considerando a tarefa de aquisição como um mapeamento entre um verbo desconhecido e referentes prototípicos para eventos verbais, com base na estrutura sintática na qual o verbo aparece. Os experimentos conduzidos ressaltaram alguns requerimentos para um aprendizado bem-sucedido, em termos de níveis de informação disponível para o aprendiz e da estratégia de aprendizado adotada. / Cognitive theories have been, since the second half of the last century, bringing some interesting views about language learning. The application of these theories on computational models has double benefits: in the one hand, computational implementations can be used as a form of validation of these theories; on the other hand, computational models can earn an improved performance from adopting some cognitively plausible learning strategies. Syntactic structures are said to provide an important cue for the acquisition of verb meaning. Yet, for a particular subset of very frequent and general verbs – the so-called light verbs – there is a strong link between the syntactic structures in which they appear and their meanings. In this work, we used a computational model, to further investigate these proposals, in particular looking at the acquisition task as a mapping between an unknown verb and prototypical referents for verbal events, on the basis of the syntactic structure in which the verb appears. The experiments conducted have highlighted some requirements for a successful learning, both in terms of the levels of information available to the learner and the learning strategies adopted.
50

Deíticos e anáforas pronominais em diálogos / Deixis and pronominal anaphora in dialogs

Freitas, Sergio Antonio Andrade de January 1993 (has links)
A proposta deste trabalho é implementar um conjunto de elementos do diálogo a decorrer entre dois agentes humanos. As anáforas pronominais e certos pronomes déiticos (eu, você, sua, seu, meu, minha), que eventualmente surgirem durante o diálogo, são resolvidas. Basicamente, este trabalho está dividido em quatro partes: 1. Estudo introdutório da Discourse Representation Theory (DRT) [KAM88, KAM90]. A DRT é um formalismo para a representação do discurso que utiliza modelos na avaliação semântica das estruturas representacionais. Neste estudo são considerados somente os aspectos representacionais, dando enfoque à representação de sentenças simples. 2. Um estudo baseado em [HIR81, CAR87] sobre: tipos de ambigüidades, o que são anáforas, tipos de anáforas etc, visa fornecer ao leitor um conhecimento mínimo sobre o aspecto lingüístico do tratamento das anáforas. Dentro do estudo realizado sobre anáforas destacam-se os seguintes tipos: coespecificação pessoal e colocação em coesão léxica, que são os tipos previstos na implementação. Estes dois tipos de anáforas são enquadrados nos seguintes grupos: coespecificação pessoal no grupo das anáforas pronominais e colocação em coesão léxica no grupo das anáforas nominais. 3. Considerando que a DRT somente representa o discurso, sem contudo resolver as anafóras que surgem no discurso, incorporou-se a Teoria do Foco [SID79, COR92] como ferramenta para a resolução das anáforas pronominais. A Teoria do Foco trabalha com as informações temáticas das sentenças, de maneira a reduzir o universo dos possíveis antecedentes para uma anáfora e prover um conjunto de regras que permita um caminhamento inteligente, dentro deste universo. O algoritmo de focalização aqui utilizado e o proposto por Sophie Cormack [COR92], que foi por sua vez baseado no algoritmo original de Candace Sidner [SID79]. 4. E por último a implementação, que foi realizada em C-Prolog [PER87], onde as principais funções são: (a) Um gerador de DRSs. (b) Algoritmo de focalização. (c) Integração do algoritmo de focalização e do gerador de DRSs. Descrevendo de maneira geral o funcionamento da implementação: as falas (conjunto de sentenças) de cada interlocutor são lidas através do teclado, as sentenças de cada fala são analisadas individualmente pelo analisador sintático, que gera uma árvore de derivação sintática. A árvore gerada é então repassada ao gerador de DRSs, que irá reduzi-la a referentes e condições. Eventualmente, se surgirem anáforas pronominais, é chamado o algoritmo de focalização. Caso surjam pronomes deíticos a resolução é realizada pelo gerador de DRSs. / The proposal of this work is to implement a set of dialog elements expressed by two human agents. The pronominal anaphora and some deixis pronoums (in portuguese: I, you, your, my) that eventually appear during the dialog are resolved. Basically, this work is divided in four parts: 1. An introdutory study of the Discourse Representation Theory (DRT) [KAM88, KAM90]. The DRT is a formalism for discourse representation that uses models for semantic evaluation of the representation structures. This study considers only the representational aspects, looking for single sentences. 2. A study based on [HIR81, CAR87] about: some kinds of ambiguity, what anaphora are, kinds of anaphora etc. This study intends to give the reader the minimal knowledge about the linguistic aspects of anaphora. In this study, we point out two types of anaphora: personal coespecification and lexical placement, this two were the ones that we used in the system. Those two types are in the following groups: personal coespecification in the pronominal anaphora and lexical placement in the nominal anaphora. 3. Considering that DRT only represent the discourse without resolving the anaphora, we used the Focus Theory [SID79, COR92] as a tool for pronominal anaphora resolution. The Focus Theory works on the thematic informations of the sentences. It reduces the universe of the possible antecedents and give some rules to walk throught this universe. We used the focalization algorithm presented by Sophie Cormack [COR92] which is based on the original version of Candace Sidner [SID79]. 4. Finally, the system was implemented in C-Prolog [PER87], and its main functions are: (a) a DRS generator, (b) a focalization algorithm, (c) the integration of the focalization algorithm and the DRS generator. Basically, what the system does is: the discourse of the agent is read in the keyboard, and each sentence of the discourse is analised by the sintatic analyser, generating a parsing tree. Then the DRS generator reduces this tree into referents and DRS-conditions. Eventually, the focalization algorithm will be called when the sentence contain some pronominal anaphora. The deixis resolution is made by the DRS-generator.

Page generated in 0.1255 seconds