Global ETD Search

31	Investigação de métodos de desambiguação lexical de sentidos de verbos do português do Brasil / Research of word sense disambiguation methods for verbs in brazilian portuguese Cabezudo, Marco Antonio Sobrevilla 28 August 2015 (has links) A Desambiguação Lexical de Sentido (DLS) consiste em determinar o sentido mais apropriado da palavra em um contexto determinado, utilizando-se um repositório de sentidos pré-especificado. Esta tarefa é importante para outras aplicações, por exemplo, a tradução automática. Para o inglês, a DLS tem sido amplamente explorada, utilizando diferentes abordagens e técnicas, contudo, esta tarefa ainda é um desafio para os pesquisadores em semântica. Analisando os resultados dos métodos por classes gramaticais, nota-se que todas as classes não apresentam os mesmos resultados, sendo que os verbos são os que apresentam os piores resultados. Estudos ressaltam que os métodos de DLS usam informações superficiais e os verbos precisam de informação mais profunda para sua desambiguação, como frames sintáticos ou restrições seletivas. Para o português, existem poucos trabalhos nesta área e só recentemente tem-se investigado métodos de uso geral. Além disso, salienta-se que, nos últimos anos, têm sido desenvolvidos recursos lexicais focados nos verbos. Nesse contexto, neste trabalho de mestrado, visou-se investigar métodos de DLS de verbos em textos escritos em português do Brasil. Em particular, foram explorados alguns métodos tradicionais da área e, posteriormente, foi incorporado conhecimento linguístico proveniente da Verbnet.Br. Para subsidiar esta investigação, o córpus CSTNews foi anotado com sentidos de verbos usando a WordNet-Pr como repositório de sentidos. Os resultados obtidos mostraram que os métodos de DLS investigados não conseguiram superar o baseline mais forte e que a incorporação de conhecimento da VerbNet.Br produziu melhorias nos métodos, porém, estas melhorias não foram estatisticamente significantes. Algumas contribuições deste trabalho de mestrado foram um córpus anotado com sentidos de verbos, a criação de uma ferramenta que auxilie a anotação de sentidos, a investigação de métodos de DLS e o uso de informações especificas de verbos (provenientes da VerbNet.Br) na DLS de verbos. / Word Sense Disambiguation (WSD) aims at identifying the appropriate sense of a word in a given context, using a pre-specified sense-repository. This task is important to other applications as Machine Translation. For English, WSD has been widely studied, using different approaches and techniques, however, this task is still a challenge for researchers in Semantics. Analyzing the performance of different methods by the morphosyntactic class, note that not all classes have the same results, and the worst results are obtained for Verbs. Studies highlight that WSD methods use shallow information and Verbs need deeper information for its disambiguation, like syntactic frames or selectional restrictions. For Portuguese, there are few works in WSD and, recently, some works for general purpose. In addition, it is noted that, recently, have been developed lexical resources focused on Verbs. In this context, this master work aimed at researching WSD methods for verbs in texts written in Brazilian Portuguese. In particular, traditional WSD methods were explored and, subsequently, linguistic knowledge of VerbNet.Br was incorporated in these methods. To support this research, CSTNews corpus was annotated with verb senses using the WordNet-Pr as a sense-repository. The results showed that explored WSD methods did not outperform the hard baseline and the incorporation of VerbNet.Br knowledge yielded improvements in the methods, however, these improvements were not statistically significant. Some contributions of this work were the sense-annotated corpus, the creation of a tool for support the sense-annotation, the research of WSD methods for verbs and the use of specific information of verbs (from VerbNet.Br) in the WSD of verbs. Computational linguistics Desambiguação lexical de sentindo Linguística computacional Natural language processing Processamento da linguagem natural Word sense disambiguation
32	Modelagem de discurso para o tratamento da concisão e preservação da idéia central na geração de textos / Discourse modeling for conciseness and gist preservation in text generation Rino, Lucia Helena Machado 26 April 1996 (has links) O foco deste trabalho esta, no processo automático de condensação de uma estrutura complexa de informação e de sua estruturação, para fazê-la apropriada para a expressão textual. A tese principal é que, sem um modelo de discurso, não podemos assegurar a preservação de uma idéia central, pois o processamento do discurso envolve não só a informação, como também metas comunicativas e critérios para ressaltar unidades de informação. Como resultado os métodos para produzir uma estrutura coerente de discurso de um sumário agregam tanto metas comunicativas quanto informações sobre o inter-relacionamentos entre as unidades de informação permitindo a organização do discurso com base em restrições progressivas de planejamento. Esse argumento tem duas implicações: a preservação da idéia central deve ser garantida em nível profundo de processamento e sua proeminência deve ser subordinada aos aspectos comunicativos e retóricos. Portanto, esta investigação se baseia em perspectivas intencionais e retóricas. Propomos um modelo de sumarização dirigido por objetivos, cuja função principal é mapear intenções em relações de coerência, observando ainda a dependência semântica indicada pela estrutura complexa de informação. As estruturas de discurso resultantes devem enfatizar a proposição central a veicular no discurso. Em termos teóricos, o aspecto inovador do modelo está na associação de relações de discurso em três níveis distintos de representação: intencionalidade. coerência e semântica. Em termos práticos, a solução proposta sugere o projeto de um planejador de textos que pode tornar a proposição central de um discurso a informação mais proeminente em uma estrutura de discurso e, assim, assegurar a preservação da idéia central durante a condensação de uma estrutura complexa de informação. Os resultados experimentais da aplicação desse modelo demonstram que é possível selecionar a informação relevante, distinguindo as unidades de conteúdo da estrutura original que são supérfluas ou complementares para a proposição central, e organizá-la coerentemente com o intuito de alcançar um objetivo comunicativo. Propomos a incorporação do modelo a um sumarizador automático cuja arquitetura é sugerida neste trabalho. / The focus of this work is on the automatic process of condensing a. complex information structure and structuring it in such a way as to make it appropriate for textual expression. The main thesis is that without a sound discourse model we cannot guarantee gist preservation because discourse processing comprises not only information, but also communicative goals and criteria to emphasize units of information. As a result, the methods to produce a coherent discourse structure of a summary aggregate both communicative goals and the inter-relationships between information units, allowing for discourse organization by progressively constraining planning decisions. Our thrust has two implications, namely that gist preservation must be guaranteed at the deep level of processing and gist proeminence must be subordinated to communicative and rhetorical settings. The current investigation thus relies on intentional and rhetorical perspectives. A goal-driven summarization model is proposed, whose main function is to map intentions onto coherence relations whilst still observing the semantic dependency indicated by the complex input structure. The resulting discourse structures must highlight the central proposition to be conveyed. In theoretical terms, the innovative contribution of the model relies on the association of discourse relations at three different levels of representation - the intentionality, coherence and semantics. In practical terms, the proposed solution allows for the design of a text planner that can make the central proposition of a discourse the most proeminent information in a discourse structure, thus ensuring the preservation of gist during the condensation of a complex information structure. The results of applying this model show that it is possible to both select relevant information by differentiating content units of the input structure that are superfluous or complementary to the central proposition and organize it coherently by aiming at achieving a communicative goal. The model is proposed to incorporate into an automatic summariser whose architecture suggested in this thesis. Automatic summarization Computational linguistics Linguística computacional Natural language processing Processamento de línguas naturais Sumarização automática
33	Modelagem de contextos para aprendizado automático aplicado à análise morfossintática / Modeling contexts for automatic learning applied to morphosyntactic analysis Kepler, Fábio Natanael 28 May 2010 (has links) A etiquetagem morfossintática envolve atribuir às palavras de uma sentença suas classes morfossintáticas de acordo com os contextos em que elas aparecem. Cadeias de Markov de Tamanho Variável (VLMCs, do inglês \"Variable-Length Markov Chains\") oferecem uma forma de modelar contextos maiores que trigramas sem sofrer demais com a esparsidade de dados e a complexidade do espaço de estados. Mesmo assim, duas palavras do português apresentam um alto grau de ambiguidade: \'que\' e \'a\'. O número de erros na etiquetagem dessas palavras corresponde a um quarto do total de erros cometidos por um etiquetador baseado em VLMCs. Além disso, essas palavras parecem apresentar dois diferentes tipos de ambiguidade: um dependendo de contexto não local e outro de contexto direito. Exploramos maneiras de expandir o modelo baseado em VLMCs através do uso de diferentes modelos e métodos, a fim de atacar esses problemas. As abordagens mostraram variado grau de sucesso, com um método em particular (aprendizado guiado) se mostrando capaz de resolver boa parte da ambiguidade de \'a\'. Discutimos razões para isso acontecer. Com relação a \'que\', ao longo desta tese propusemos e testamos diversos métodos de aprendizado de informação contextual para tentar desambiguá-lo. Mostramos como, em todos eles, o nível de ambiguidade de \'que\' permanece praticamente constante. / Part-of-speech tagging involves assigning to words in a sentence their part-of-speech class based on the contexts they appear in. Variable-Length Markov Chains (VLMCs) offer a way of modeling contexts longer than trigrams without suffering too much from data sparsity and state space complexity. Even so, two words in Portuguese show a high degree of ambiguity: \'que\' and \'a\'. The number of errors tagging these words corresponds to a quarter of the total errors made by a VLMC-based tagger. Moreover, these words seem to show two different types of ambiguity: one depending on non-local context and one on right context. We searched ways of expanding the VLMC-based model with a number of different models and methods in order to tackle these issues. The approaches showed variable degrees of success, with one particular method (Guided Learning) solving much of the ambiguity of \'a\'. We explore reasons why this happened. Rega rding \'que\', throughout this thesis we propose and test various methods for learning contextual information in order to try to disambiguate it. We show how, in all of them, the level of ambiguity shown by \'que\' remains practically c onstant. Cadeias de markov Computational linguistics Etiquetagem morfossintática Linguística computacional Markov chains Part-of-speech tagging
34	Deíticos e anáforas pronominais em diálogos / Deixis and pronominal anaphora in dialogs Freitas, Sergio Antonio Andrade de January 1993 (has links) A proposta deste trabalho é implementar um conjunto de elementos do diálogo a decorrer entre dois agentes humanos. As anáforas pronominais e certos pronomes déiticos (eu, você, sua, seu, meu, minha), que eventualmente surgirem durante o diálogo, são resolvidas. Basicamente, este trabalho está dividido em quatro partes: 1. Estudo introdutório da Discourse Representation Theory (DRT) [KAM88, KAM90]. A DRT é um formalismo para a representação do discurso que utiliza modelos na avaliação semântica das estruturas representacionais. Neste estudo são considerados somente os aspectos representacionais, dando enfoque à representação de sentenças simples. 2. Um estudo baseado em [HIR81, CAR87] sobre: tipos de ambigüidades, o que são anáforas, tipos de anáforas etc, visa fornecer ao leitor um conhecimento mínimo sobre o aspecto lingüístico do tratamento das anáforas. Dentro do estudo realizado sobre anáforas destacam-se os seguintes tipos: coespecificação pessoal e colocação em coesão léxica, que são os tipos previstos na implementação. Estes dois tipos de anáforas são enquadrados nos seguintes grupos: coespecificação pessoal no grupo das anáforas pronominais e colocação em coesão léxica no grupo das anáforas nominais. 3. Considerando que a DRT somente representa o discurso, sem contudo resolver as anafóras que surgem no discurso, incorporou-se a Teoria do Foco [SID79, COR92] como ferramenta para a resolução das anáforas pronominais. A Teoria do Foco trabalha com as informações temáticas das sentenças, de maneira a reduzir o universo dos possíveis antecedentes para uma anáfora e prover um conjunto de regras que permita um caminhamento inteligente, dentro deste universo. O algoritmo de focalização aqui utilizado e o proposto por Sophie Cormack [COR92], que foi por sua vez baseado no algoritmo original de Candace Sidner [SID79]. 4. E por último a implementação, que foi realizada em C-Prolog [PER87], onde as principais funções são: (a) Um gerador de DRSs. (b) Algoritmo de focalização. (c) Integração do algoritmo de focalização e do gerador de DRSs. Descrevendo de maneira geral o funcionamento da implementação: as falas (conjunto de sentenças) de cada interlocutor são lidas através do teclado, as sentenças de cada fala são analisadas individualmente pelo analisador sintático, que gera uma árvore de derivação sintática. A árvore gerada é então repassada ao gerador de DRSs, que irá reduzi-la a referentes e condições. Eventualmente, se surgirem anáforas pronominais, é chamado o algoritmo de focalização. Caso surjam pronomes deíticos a resolução é realizada pelo gerador de DRSs. / The proposal of this work is to implement a set of dialog elements expressed by two human agents. The pronominal anaphora and some deixis pronoums (in portuguese: I, you, your, my) that eventually appear during the dialog are resolved. Basically, this work is divided in four parts: 1. An introdutory study of the Discourse Representation Theory (DRT) [KAM88, KAM90]. The DRT is a formalism for discourse representation that uses models for semantic evaluation of the representation structures. This study considers only the representational aspects, looking for single sentences. 2. A study based on [HIR81, CAR87] about: some kinds of ambiguity, what anaphora are, kinds of anaphora etc. This study intends to give the reader the minimal knowledge about the linguistic aspects of anaphora. In this study, we point out two types of anaphora: personal coespecification and lexical placement, this two were the ones that we used in the system. Those two types are in the following groups: personal coespecification in the pronominal anaphora and lexical placement in the nominal anaphora. 3. Considering that DRT only represent the discourse without resolving the anaphora, we used the Focus Theory [SID79, COR92] as a tool for pronominal anaphora resolution. The Focus Theory works on the thematic informations of the sentences. It reduces the universe of the possible antecedents and give some rules to walk throught this universe. We used the focalization algorithm presented by Sophie Cormack [COR92] which is based on the original version of Candace Sidner [SID79]. 4. Finally, the system was implemented in C-Prolog [PER87], and its main functions are: (a) a DRS generator, (b) a focalization algorithm, (c) the integration of the focalization algorithm and the DRS generator. Basically, what the system does is: the discourse of the agent is read in the keyboard, and each sentence of the discourse is analised by the sintatic analyser, generating a parsing tree. Then the DRS generator reduces this tree into referents and DRS-conditions. Eventually, the focalization algorithm will be called when the sentence contain some pronominal anaphora. The deixis resolution is made by the DRS-generator. Inteligência artificial Linguagem natural Teoria : Foco Linguística computacional Natural language Dialog Discourse representation Anaphora Focus theory
35	Avaliando um rotulador estatístico de categorias morfo-sintáticas para a língua portuguesa / Evaluating a stochastic part-of-speech tagger for the portuguese language Villavicencio, Aline January 1995 (has links) O Processamento de Linguagem Natural (PLN) é uma área da Ciência da Computação, que vem tentando, ao longo dos anos, aperfeiçoar a comunicação entre o homem e o computador. Varias técnicas tem sido utilizadas para aperfeiçoar esta comunicação, entre elas a aplicação de métodos estatísticos. Estes métodos tem sido usados por pesquisadores de PLN, com um crescente sucesso e uma de suas maiores vantagens é a possibilidade do tratamento de textos irrestritos. Em particular, a aplicação dos métodos estatísticos, na marcação automática de "corpus" com categorias morfo-sintáticas, tem se mostrado bastante promissora, obtendo resultados surpreendentes. Assim sendo, este trabalho descreve o processo de marcação automática de categorias morfo-sintáticas. Inicialmente, são apresentados e comparados os principais métodos aplicados a marcação automática: os métodos baseados em regras e os métodos estatísticos. São descritos os principais formalismos e técnicas usadas para esta finalidade pelos métodos estatísticos. E introduzida a marcação automática para a Língua Portuguesa, algo até então inédito. O objetivo deste trabalho é fazer um estudo detalhado e uma avaliação do sistema rotulador de categorias morfo-sintáticas, a fim de que se possa definir um padrão no qual o sistema apresente a mais alta precisão possível. Para efetuar esta avaliação, são especificados alguns critérios: a qualidade do "corpus" de treinamento, o seu tamanho e a influencia das palavras desconhecidas. A partir dos resultados obtidos, espera-se poder aperfeiçoar o sistema rotulador, de forma a aproveitar, da melhor maneira possível, os recursos disponíveis para a Língua Portuguesa. / Natural Language Processing (NLP) is an area of Computer Sciences, that have been trying to improve communication between human beings and computers. A number of different techniques have been used to improve this communication and among them, the use of stochastic methods. These methods have successfully being used by NLP researchers and one of their most remarkable advantages is that they are able to deal with unrestricted texts. Namely, the use of stochastic methods for part-of-speech tagging has achieving some extremely good results. Thus, this work describes the process of part-of-speech tagging. At first, we present and compare the main tagging methods: the rule-based methods and the stochastic ones. We describe the main stochastic tagging formalisms and techniques for part-of-speech tagging. We also introduce part-of-speech tagging for the Portuguese Language. The main purpose of this work is to study and evaluate a part-of-speech tagger system in order to establish a pattern in which it is possible to achieve the greatest accuracy. To perform this evaluation, several parameters were set: the corpus quality, its size and the relation between unknown words and accuracy. The results obtained will be used to improve the tagger, in order to use better the available Portuguese Language resources. Linguística computacional Processamento : Linguagem natural Part-of-speech taggers Corpus Hidden markov models
36	Modelagem lingüística comparada em corpora de desastres naturais : explorando técnicas e métodos Lacerda, Glaucia Dutra January 2012 (has links) Orientador: Margarethe Born Steinberger-Elias / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Engenharia da Informação, 2012 LINGÜÍSTICA DE CORPUS REDES LÉXICO-SEMÂNTICAS LINGUÍSTICA COMPUTACIONAL COMUNICAÇÃO DE DESASTRES
37	Investigação de métodos de desambiguação lexical de sentidos de verbos do português do Brasil / Research of word sense disambiguation methods for verbs in brazilian portuguese Marco Antonio Sobrevilla Cabezudo 28 August 2015 (has links) A Desambiguação Lexical de Sentido (DLS) consiste em determinar o sentido mais apropriado da palavra em um contexto determinado, utilizando-se um repositório de sentidos pré-especificado. Esta tarefa é importante para outras aplicações, por exemplo, a tradução automática. Para o inglês, a DLS tem sido amplamente explorada, utilizando diferentes abordagens e técnicas, contudo, esta tarefa ainda é um desafio para os pesquisadores em semântica. Analisando os resultados dos métodos por classes gramaticais, nota-se que todas as classes não apresentam os mesmos resultados, sendo que os verbos são os que apresentam os piores resultados. Estudos ressaltam que os métodos de DLS usam informações superficiais e os verbos precisam de informação mais profunda para sua desambiguação, como frames sintáticos ou restrições seletivas. Para o português, existem poucos trabalhos nesta área e só recentemente tem-se investigado métodos de uso geral. Além disso, salienta-se que, nos últimos anos, têm sido desenvolvidos recursos lexicais focados nos verbos. Nesse contexto, neste trabalho de mestrado, visou-se investigar métodos de DLS de verbos em textos escritos em português do Brasil. Em particular, foram explorados alguns métodos tradicionais da área e, posteriormente, foi incorporado conhecimento linguístico proveniente da Verbnet.Br. Para subsidiar esta investigação, o córpus CSTNews foi anotado com sentidos de verbos usando a WordNet-Pr como repositório de sentidos. Os resultados obtidos mostraram que os métodos de DLS investigados não conseguiram superar o baseline mais forte e que a incorporação de conhecimento da VerbNet.Br produziu melhorias nos métodos, porém, estas melhorias não foram estatisticamente significantes. Algumas contribuições deste trabalho de mestrado foram um córpus anotado com sentidos de verbos, a criação de uma ferramenta que auxilie a anotação de sentidos, a investigação de métodos de DLS e o uso de informações especificas de verbos (provenientes da VerbNet.Br) na DLS de verbos. / Word Sense Disambiguation (WSD) aims at identifying the appropriate sense of a word in a given context, using a pre-specified sense-repository. This task is important to other applications as Machine Translation. For English, WSD has been widely studied, using different approaches and techniques, however, this task is still a challenge for researchers in Semantics. Analyzing the performance of different methods by the morphosyntactic class, note that not all classes have the same results, and the worst results are obtained for Verbs. Studies highlight that WSD methods use shallow information and Verbs need deeper information for its disambiguation, like syntactic frames or selectional restrictions. For Portuguese, there are few works in WSD and, recently, some works for general purpose. In addition, it is noted that, recently, have been developed lexical resources focused on Verbs. In this context, this master work aimed at researching WSD methods for verbs in texts written in Brazilian Portuguese. In particular, traditional WSD methods were explored and, subsequently, linguistic knowledge of VerbNet.Br was incorporated in these methods. To support this research, CSTNews corpus was annotated with verb senses using the WordNet-Pr as a sense-repository. The results showed that explored WSD methods did not outperform the hard baseline and the incorporation of VerbNet.Br knowledge yielded improvements in the methods, however, these improvements were not statistically significant. Some contributions of this work were the sense-annotated corpus, the creation of a tool for support the sense-annotation, the research of WSD methods for verbs and the use of specific information of verbs (from VerbNet.Br) in the WSD of verbs. Desambiguação lexical de sentindo Linguística computacional Processamento da linguagem natural Computational linguistics Natural language processing Word sense disambiguation
38	A verb learning model driven by syntactic constructions / Um modelo de aquisição de verbos guiado por construções sintáticas Machado, Mario Lúcio Mesquita January 2008 (has links) Desde a segunda metade do último século, as teorias cognitivas têm trazido algumas visões interessantes em relação ao aprendizado de linguagem. A aplicação destas teorias em modelos computacionais tem duplo benefício: por um lado, implementações computacionais podem ser usaas como uma forma de validação destas teorias; por outro lado, modelos computacionais podem alcançar uma performance melhorada a partir da adoção de estratégias de aprendizado cognitivamente plausíveis. Estruturas sintáticas são ditas fornecer uma pista importante para a aquisição do significado de verbos. Ainda, para um subconjunto particular de verbos muito frequentes e gerais - os assim-chamados light verbs - há uma forte ligação entre as estruturas sintáticas nas quais eles aparecem e seus significados. Neste trabalho, empregamos um modelo computacional para investigar estas propostas, em particular, considerando a tarefa de aquisição como um mapeamento entre um verbo desconhecido e referentes prototípicos para eventos verbais, com base na estrutura sintática na qual o verbo aparece. Os experimentos conduzidos ressaltaram alguns requerimentos para um aprendizado bem-sucedido, em termos de níveis de informação disponível para o aprendiz e da estratégia de aprendizado adotada. / Cognitive theories have been, since the second half of the last century, bringing some interesting views about language learning. The application of these theories on computational models has double benefits: in the one hand, computational implementations can be used as a form of validation of these theories; on the other hand, computational models can earn an improved performance from adopting some cognitively plausible learning strategies. Syntactic structures are said to provide an important cue for the acquisition of verb meaning. Yet, for a particular subset of very frequent and general verbs – the so-called light verbs – there is a strong link between the syntactic structures in which they appear and their meanings. In this work, we used a computational model, to further investigate these proposals, in particular looking at the acquisition task as a mapping between an unknown verb and prototypical referents for verbal events, on the basis of the syntactic structure in which the verb appears. The experiments conducted have highlighted some requirements for a successful learning, both in terms of the levels of information available to the learner and the learning strategies adopted. Teoria da computação Linguagem natural Linguística computacional Natural language processing Cognitively based models Mental lexicon
39	On the application of focused crawling for statistical machine translation domain adaptation Laranjeira, Bruno Rezende January 2015 (has links) O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos. / Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes. Linguística computacional Estatística aplicada Focused crawling Statistical machine translation Domain adaptation Comparable corpora
40	Um algoritmo ilustrativo sobre o plural no PB como contribuição para morfologia computacional: capacidades, limitações e perspectivas Conceição, Celso Augusto Nunes da January 2009 (has links) Made available in DSpace on 2013-08-07T19:03:02Z (GMT). No. of bitstreams: 1 000417835-Texto+Completo-0.pdf: 1944989 bytes, checksum: 6c093c4bafa0f7e15e8ae411956cca68 (MD5) Previous issue date: 2009 / This dissertation is a linguistic-computational application based on Artificial Neural Nets (ANN) with an illustrative algorithm on the plural in the Morphology of Brazilian Portuguese (BP): PluralRNA. This is a software created with the objective of making the machine learn rules of number flexing by inserting lexical pairs singular/plural. This learning takes place in the net training phase as soon as the net data base is properly provided with these pairs. By now, other words are typed in the singular so that the program applies the ending learnt by the process. The next step is to analyze the program´s learning potential in order to note its capacities and limitations and suggest perspectives aiming at the scientific contribution to the Computational Morphology of BP. The result is satisfactory as generalizations of inferred rules are perceived and compared to the standard lexicon, having, in most cases, correspondence with normalization. On the other hand, some training cycles reinforcing the plural learning alter, in very rare cases, those which were already taken as right according to grammatical correlation. Therefore, the lexical pairs and the applicability of PluralRNA provide enough material for the Brazilian Portuguese computational morphology studies on flexing and number processing. / Esta tese é uma aplicação lingüístico-computacional baseada em Redes Neurais Artificiais (RNA) com um algoritmo ilustrativo sobre o plural na Morfologia do Português Brasileiro (PB): PluralRNA. Este é um software criado com o objetivo de fazer com que a máquina depreenda regras de flexão de número a partir da inserção de pares lexicais singular/plural. Essa depreensão acontece na fase de treinamento depois de a base de dados da rede estar devidamente provida desses pares. A partir daí, digitam-se outras palavras no singular para que o programa aplique a desinência depreendida pelo processamento. A seguir, analisa-se o potencial de aprendizagem do programa para constatar as suas capacidades e limitações e sugerir perspectivas, pretendendo assim contribuir cientificamente para a Morfologia Computacional do PB. O resultado é satisfatório na medida em que, por um lado, as generalizações das regras depreendidas são percebidas e cotejadas com o léxico padrão, tendo, na maioria dos casos, correspondência com normatização; por outro, alguns ciclos de treinamento reforçam a depreensão das desinências e alteram, em raríssimos casos, aquelas que já eram dadas como certas pela correlação gramatical. Portanto, os pares lexicais e a aplicabilidade do PluralRNA oferecem material suficiente para a continuidade dos estudos do processamento flexional de número para a Morfologia Computacional do PB. LINGUÍSTICA APLICADA LINGUÍSTICA COMPUTACIONAL PORTUGUÊS - MORFOLOGIA PLURAL PORTUGUÊS - GRAMÁTICA REDES NEURAIS (COMPUTAÇÃO) SOFTWARE ALGORITMOS

Search results