• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 20
  • 11
  • 4
  • 3
  • 1
  • 1
  • Tagged with
  • 45
  • 19
  • 17
  • 17
  • 13
  • 10
  • 10
  • 9
  • 9
  • 8
  • 7
  • 7
  • 6
  • 6
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

[pt] A COMPREENSÃO DE REFLEXIVOS E PRONOMINAIS POR CRIANÇAS FALANTES DE PORTUGUÊS BRASILEIRO / [en] THE COMPREHENSION OF REFLEXIVES AND PRONOMINALS BY BRAZILIAN PORTUGUESE-SPEAKING CHILDREN

MICHELLE FRYDMAN PERELMUTER 20 October 2020 (has links)
[pt] Esta dissertação focaliza a compreensão de reflexivos e pronominais de terceira pessoa por crianças adquirindo o Português Brasileiro (PB), examinando os efeitos das restrições dos princípios A e B da Teoria da Ligação, sob uma perspectiva psicolinguística, que leva em conta a acessibilidade relativa dos possíveis antecedentes dessas formas na memória de trabalho no processamento de sentenças/discurso. Toma-se como referência a teoria da reflexividade de Reinhart e Reuland (1993), por ser compatível com um procedimento de aquisição de formas reflexivas como variáveis ligadas via identificação de predicados reflexivos na interface semântica. A distribuição do reflexivo e de pronominais clíticos/tônicos no PB é considerada. Três experimentos de identificação de imagens com crianças (3-7 anos) e um experimento-piloto com adultos são relatados. Os resultados dos experimentos 1 e 2 sugerem o reconhecimento de se como sinalizador de um predicado reflexivo desde cedo; sua interpretação local em orações encaixadas aos 5 anos; e suscetibilidade à presença de um elemento interveniente no domínio de ligação. Os resultados do experimento 3 (com adultos e crianças) indicam que a marcação de reflexividade fora da grade verbal pela anáfora si, particularmente com o intensificador mesmo(a), e por ele(a) mesmo(a) favorecem a recuperação do sujeito local. Em relação ao tônico ele, o tópico do discurso foi o mais acessível para os adultos, e o sujeito local, para as crianças. Apresenta-se um tratamento teórico que integra a expressão de reflexividade com acessibilidade na interpretação do pronome tônico em posição de objeto no PB. / [en] This dissertation focuses on the comprehension of the 3rd person reflexive and referential pronouns by Brazilian Portuguese-speaking children. The constraints of the Principles A and B of the Biding Theory are considered from a psycholinguistic perspective, which takes into account the relative accessibility of potential antecedents of those forms in the working memory during sentence/discourse processing. The reflexivity theory (Reinhart and Reuland,1993) is a major reference, for being compatible with a language acquisition procedure whereby reflexive forms are represented as bound anaphors via the identification of reflexive predicates at the semantic interface. The distribution of anaphors and clitic/stressed pronominals in BP is considered. Three picture identification experiments with children (3-7 years old) and one with adults are reported. The results of the Experiments 1 and 2 suggest that se is recognized as a reflexivity marker at an early age; that 5 year olds interpret it locally in embedded clauses; and children s susceptibility to the presence of an intervening element in the binding domain. The results of Experiment 3 (with adults and children) suggest that the marking of reflexivity by si (a non-verbal argument anaphor, mainly with the intensifier mesmo), and ele(a) mesmo(a) favor local interpretation. Regarding the stressed pronoun, it was verified the main clause subject is the most accessible antecedent for adults and the local subject is the most accessible antecedent for children. A theoretical account is presented, which integrates reflexivity and the accessibility of the 3rd person object stressed pronoun in in BP.
42

[en] COREFERENCE RESOLUTION USING LATENT TREES WITH CONTEXTUAL EMBEDDING / [pt] RESOLUÇÃO DE CORREFERÊNCIA UTILIZANDO ÁRVORES LATENTES COM REPRESENTAÇÃO CONTEXTUAL

LEONARDO BARBOSA DE OLIVEIRA 19 January 2021 (has links)
[pt] A tarefa de resolução de correferência consiste em identificar e agrupar trechos de um texto de acordo com as entidades do mundo real a que se referem. Apesar de já ter sido abordada em outras conferências, a CoNLL de 2012 é um marco pela qualidade das bases de dados, das métricas e das soluções apresentadas. Naquela edição, o modelo vencedor utilizou um perceptron estruturado para otimizar uma árvore latente de antecedentes, atingindo a pontuação de 63.4 na métrica oficial para o dataset de teste em inglês. Nos anos seguintes, as bases e métricas apresentadas na conferência se tornaram o benchmark para a tarefa de correferência. Com novas técnicas de aprendizado de máquina desenvolvidas, soluções mais elaboradas foram apresentadas. A utilização de redes neurais rasas atingiu a pontuação de 68.8; a adição de representação contextual elevou o estado da arte para 73.0; redes neurais profundas melhoraram o baseline para 76.9 e o estado da arte atual, que é uma combinação de várias dessas técnicas, está em 79.6. Neste trabalho é apresentado uma análise de como as técnicas de representação de palavras Bag of Words, GloVe, BERT e SpanBERT utilizadas com árvores latentes de antecedentes se comparam com o modelo original de 2012. O melhor modelo encontrado foi o que utiliza SpanBERT com uma margem muito larga, o qual atingiu pontuação de 61.3 na métrica da CoNLL 2012, utilizando o dataset de teste. Com estes resultados, mostramos que é possível utilizar técnicas avançadas em estruturas mais simples e ainda obter resultados competitivos na tarefa de correferência. Além disso, melhoramos a performance de um framework de código aberto para correferência, a fim de contemplar soluções com maior demanda de memória e processamento. / [en] The coreference resolution task consists of to identify and group spans of text related to the same real-world entity. Although it has been approached in other conferences, the 2012 CoNLL is a milestone due to the improvement in the quality of its dataset, metrics, and the presented solutions. In that edition, the winning model used a structured perceptron to optimize an antecedent latent tree, achieving 63.4 on the official metric for the English test dataset. During the following years, the metrics and dataset presented in that conference became the benchmark for the coreference task. With new machine learning techniques, more elaborated solutions were presented. The use of shallow neural networks achieved 68.8; adding contextual representation raised the state-of-the-art to 73.0; deep neural networks improved the baseline to 76.9 and the current state-of-the-art, which is a combination of many of these techniques, is at 79.6. This work presents an analysis of how the word embedding mechanisms Bag of Words, GloVe, BERT and SpanBERT, used with antecedent latent trees, are compared to the original model of 2012. The best model found used SpanBERT with a very large margin, achieving 61.3 in the CoNLL 2012 metric using the test dataset. With these results, we show that it is possible to use advanced techniques in simpler structures and still achieve competitive results in the coreference task. Besides that, we improved the performance of an open source framework for coreference, so it can manage solution that demand more memory and processing.
43

[en] COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE / [pt] RESOLUÇÃO DE CO-REFERÊNCIA PARA A LÍNGUA INGLESA

ADRIEL GARCIA HERNANDEZ 28 July 2017 (has links)
[pt] Um dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um. / [en] One of the problems found in natural language processing systems, is the difficulty to identify textual elements referring to the same entity, this task is called coreference. Solving this problem is an integral part of discourse comprehension since it allows language users to connect the pieces of speech information concerning to the same entity. Consequently, coreference resolution is a key task in natural language processing.Despite the large efforts of existing research, the current performance of coreference resolution systems has not reached a satisfactory level yet. In this work, we describe a structure learning system for unrestricted coreferencere solution that explores two techniques: latent coreference trees and automatic entropy-guided feature induction. The latent tree modeling makes the learning problem computationally feasible,since it incorporates are levant hidden structure. Additionally,using an automatic feature induction method, we can efciently build enhanced non-linear models using linear model learning algorithms, namely, the structure dandsparse perceptron algorithm. We evaluate the system on the CoNLL-2012 Shared Task closed track data set, for the English portion. The proposed system obtains a 62.24 per cent value on the competition s official score. This result is be low the 65.73 per cent, the state-of-the-art performance for this task. Nevertheless, our solution significantly reduces the time to obtain the clusters of adocument, since, our system takes 0.35 seconds per document in the testing set, while in the state-of-the-art, it takes 5 seconds for each one.
44

Cognitive Computational Models of Pronoun Resolution / Modèles cognitifs et computationnels de la résolution des pronoms

Seminck, Olga 23 November 2018 (has links)
La résolution des pronoms est le processus par lequel un pronom anaphorique est mis en relation avec son antécédent. Les humains en sont capables sans efforts notables en situation normale. En revanche, les systèmes automatiques ont une performance qui reste loin derrière, malgré des algorithmes de plus en plus sophistiqués, développés par la communauté du Traitement Automatique des Langues. La recherche en psycholinguistique a montré à travers des expériences qu'au cours de la résolution de nombreux facteurs sont pris en compte par les locuteurs. Une question importante se pose : comment les facteurs interagissent et quel poids faut-il attribuer à chacun d'entre eux ? Une deuxième question qui se pose alors est comment les théories linguistiques de la résolution des pronoms incorporent tous les facteurs. Nous proposons une nouvelle approche à ces problématiques : la simulation computationnelle de la charge cognitive de la résolution des pronoms. La motivation pour notre approche est double : d'une part, l'implémentation d'hypothèses par un système computationnel permet de mieux spécifier les théories, d’autre part, les systèmes automatiques peuvent faire des prédictions sur des données naturelles comme les corpus de mouvement oculaires. De cette façon, les modèles computationnels représentent une alternative aux expériences classiques avec des items expérimentaux construits manuellement. Nous avons fait plusieurs expériences afin d'explorer les modèles cognitifs computationnels de la résolution des pronoms. D'abord, nous avons simulé la charge cognitive des pronoms en utilisant des poids de facteurs de résolution appris sur corpus. Ensuite, nous avons testé si les concepts de la Théorie de l’Information sont pertinents pour prédire la charge cognitive des pronoms. Finalement, nous avons procédé à l’évaluation d’un modèle psycholinguistique sur des données issues d’un corpus enrichi de mouvements oculaires. Les résultats de nos expériences montrent que la résolution des pronoms est en effet multi-factorielle et que l’influence des facteurs peut être estimée sur corpus. Nos résultats montrent aussi que des concepts de la Théorie de l’Information sont pertinents pour la modélisation des pronoms. Nous concluons que l’évaluation des théories sur des données de corpus peut jouer un rôle important dans le développement de ces théories et ainsi amener dans le futur à une meilleure prise en compte du contexte discursif. / Pronoun resolution is the process in which an anaphoric pronoun is linked to its antecedent. In a normal situation, humans do not experience much cognitive effort due to this process. However, automatic systems perform far from human accuracy, despite the efforts made by the Natural Language Processing community. Experimental research in the field of psycholinguistics has shown that during pronoun resolution many linguistic factors are taken into account by speakers. An important question is thus how much influence each of these factors has and how the factors interact with each-other. A second question is how linguistic theories about pronoun resolution can incorporate all relevant factors. In this thesis, we propose a new approach to answer these questions: computational simulation of the cognitive load of pronoun resolution. The motivation for this approach is two-fold. On the one hand, implementing hypotheses about pronoun resolution in a computational system leads to a more precise formulation of theories. On the other hand, robust computational systems can be run on uncontrolled data such as eye movement corpora and thus provide an alternative to hand-constructed experimental material. In this thesis, we conducted various experiments. First, we simulated the cognitive load of pronouns by learning the magnitude of impact of various factors on corpus data. Second, we tested whether concepts from Information Theory were relevant to predict the cognitive load of pronoun resolution. Finally, we evaluated a theoretical model of pronoun resolution on a corpus enriched with eye movement data. Our research shows that multiple factors play a role in pronoun resolution and that their influence can be estimated on corpus data. We also demonstrate that the concepts of Information Theory play a role in pronoun resolution. We conclude that the evaluation of hypotheses on corpus data enriched with cognitive data ---- such as eye movement data --- play an important role in the development and evaluation of theories. We expect that corpus based methods will lead to a better modelling of the influence of discourse structure on pronoun resolution in future work.
45

Vers des moteurs de recherche "intelligents" : un outil de détection automatique de thèmes : méthode basée sur l'identification automatique des chaînes de référence / Toward "intelligent" search engines : an automatic topic detection tool : method based on automatic reference chains identification

Longo, Laurence 12 December 2013 (has links)
Cette thèse se situe dans le domaine du Traitement Automatique des Langues et vise à optimiser la classification des documents dans les moteurs de recherche. Les travaux se concentrent sur le développement d’un outil de détection automatique des thèmes des documents (ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée allie des techniques statistiques de segmentation thématique à des méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux, les chaînes de référence – séquence d’expressions référentielles se rapportant à la même entité du discours (e.g. Paul…il…cet homme) – ont fait l’objet d’une attention particulière, car elles constituent un indice textuel important dans la détection des thèmes (i.e. ce sont des marqueurs d’introduction, de maintien et de changement thématique). Ainsi, à partir d’une étude des chaînes de référence menée dans un corpus issu de genres textuels variés (analyses politiques, rapports publics, lois européennes,éditoriaux, roman), nous avons développé un module d’identification automatique des chaînes de référence RefGen qui a été évalué suivant les métriques actuelles de la coréférence. / This thesis in the field of Natural Language Processing aims at optimizing documents classification in search engines. This work focuses on the development of a tool that automatically detects documents topics (ATDS-fr). Using poor knowledge, the hybrid method combines statistical techniques for topic segmentation and linguistic methods that identify cohesive markers. Among them, reference chains - sequences of referential expressions referring to the same entity (e.g. Paul ... he ... this man) - have been given special attention as they are important topic markers (i.e. they are markers of topic introduction, maintenance and change). Thus, from a study of reference chains extracted from a corpus composed of various textual genres (newspapers, public reports, European laws, editorials and novel) we developed RefGen, an automatic reference chains identification module, which was evaluated according to current coreference metrics.

Page generated in 0.0677 seconds