Global ETD Search

11	Construção de um corpus anotado para classificação de entidades nomeadas utilizando a Wikipedia e a DBpedia Weber, Cristofer January 2015 (has links) Made available in DSpace on 2015-12-15T01:05:01Z (GMT). No. of bitstreams: 1 000476712-Texto+Completo-0.pdf: 1416751 bytes, checksum: 0b603e0667dd53303efd13181a62d31e (MD5) Previous issue date: 2015 / Some natural language processing tasks can be learned from example corpora, but having enough examples for the task at hands can be a bottleneck. In this work we address how Wikipedia and DBpedia, two freely available language resources, can be used to support Named Entity Recognition, a fundamental task in Information Extraction and a necessary step of other tasks such as Co-reference Resolution and Relation Extraction. / Algumas tarefas de processamento de linguagem natural podem ser aprendidas por algoritmos a partir de corpus de exemplo, mas a obtenção destes exemplos pode ser um gargalo. Neste trabalho nós investigamos como a Wikipedia e a DBpedia, dois recursos de linguagem disponíveis de forma gratuita, podem ser utilizados como corpus para a classificação de entidades nomeadas, uma tarefa fundamental de extração de informações e um passo necessário para outras tarefas como extração de relações e resolução de co-referências. INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGUÍSTICA COMPUTACIONAL
12	Extração de vocabulário multilíngue a partir de documentação de software Hilgert, Lucas Welter January 2014 (has links) Made available in DSpace on 2014-05-06T02:01:52Z (GMT). No. of bitstreams: 1 000457560-Texto+Completo-0.pdf: 1023326 bytes, checksum: f34cdce0dc99790d1770e8e63219e649 (MD5) Previous issue date: 2014 / Real-time machine translation tools and services have been investigated as an alternative approach to the utilization of a common language (lingua franca) during distributed meetings involving teams with differet native languages. However, as presented by different research works, this kind of technologies presents a set of problems that difficults the communication. Among the solution proposed in the literature, the construction of domain specific vocabularies are highlited. This work propose a multilingual vocabulary extraction process for multilingual dicionary entries extraction from software user guides. The process here proposed follows a well stablished set of steps presenting as the main difference the way in wich the domain vocabulary is identified: through the utilization of terminology extraction softwares. A manual evaluation of the dictionaries generated by the process has shown a precision of 81% for simple world translation and 39% for multiword expressions. This values are consistent with the related work. / Ferramentas e serviços de tradução de máquina (automática) em tempo real têm sido investigadas como uma alternativa à utilização de idiomas comum (Lingua Franca) durante reuniões de equipes com diferentes idiomas nativos. No entanto, como demonstrado por diferentes pesquisadores, este tipo de tecnologia ainda apresenta alguns tipos problemas que dificultam a sua utilização neste contexto, dentre os quais destaca-se neste trabalho as traduções inconsistentes (diferentes traduções atribuídas a uma mesma palavra em um mesmo contexto). Dentre as soluções apontadas na literatura para melhorar a qualidade das traduções, destaca-se a construção de vocabulários multilíngues específicos de domínios. Sendo assim, neste trabalho é proposto um processo para a extração de vocabulário multilíngue a partir de documentos de software.O processo proposto seguiu um conjunto de etapas consolidadas na literatura, tendo apresentado, como principal diferencial a forma pela qual o vocabulário de domínio é identificado: mediante a utilização de softwares extratores de terminologia. Uma avaliação manual dos dicionários gerados pelo processo demonstrou uma precisão de 81% na tradução de palavras simples e 39% na tradução de expressões multipalavras. Estes valores demonstraram-se condizentes com os trabalhos relacionados. INFORMÁTICA LINGUÍSTICA COMPUTACIONAL TRADUÇÃO AUTOMÁTICA ENGENHARIA DE SOFTWARE
13	A gramática da sentença em português: uma descrição formal com um "olho" na implementação computacional Othero, Gabriel de Ávila January 2008 (has links) Made available in DSpace on 2013-08-07T19:00:55Z (GMT). No. of bitstreams: 1 000410050-Texto+Completo-0.pdf: 1300754 bytes, checksum: a8930e4fa82c505a7f105c92bb96468b (MD5) Previous issue date: 2008 / We study the syntactic structure of the sentence in Brazilian Portuguese (BP), in its canonical order, SVO. We formulate categorial phrase structure rewrite rules of the sentence and of the phrases in BP (both lexical and functional XPs), using standard X-bar theory. We continue the work we began in Othero (2004), when we analyzed some structures of the simple sentence in BP. Now we also analyze complex sentences, including embedded sentences and sentences with two or more verbs (complex predicate sentences and structures with auxiliary verbs). We formulate grammar rules to describe the structure of the sentence in Portuguese and present a grammar that can be computationally implemented, in a way similar to the one we showed in Othero (2006), for example. / Estudamos a estrutura sintática da sentença do português brasileiro (PB) em sua ordem canônica, SVO, formulando regras de reescrita para a descrição da sentença e dos sintagmas que a formam, tanto sintagmas lexicais quanto funcionais. Adotamos como formalismo sintático uma phrase structure grammar livre de contexto, seguindo de perto alguns princípios fundamentais propostos pela teoria X-barra standard. Damos continuidade ao trabalho de Othero (2004), em sua análise formal da estrutura sintática da sentença simples em PB. Agora, formalizamos também as regras de boa formação de sentenças complexas do PB, incluindo estruturas com sentenças encaixadas, com locuções verbais e com predicados complexos. Propomos regras categoriais de reescrita que descrevem adequadamente a estrutura sintática da frase em PB e que são passíveis de implementação computacional, como demonstrado por Othero (2006), por exemplo. LINGUÍSTICA APLICADA PORTUGUÊS - ANÁLISE SINTÁTICA LINGUÍSTICA COMPUTACIONAL
14	Adjetivos: uma representação lingüístico-computacional Conteratto, Gabriela Betania Hinrichs January 2009 (has links) Made available in DSpace on 2013-08-07T19:02:18Z (GMT). No. of bitstreams: 1 000410054-Texto+Completo-0.pdf: 1283010 bytes, checksum: 4163a4a808a0986e0178af14f442c4d0 (MD5) Previous issue date: 2009 / The main goal of this dissertation is to carry out a descriptive explanatory study of subjectoriented descriptive predicative adjectives, having in mind their utility for the improvement of computational systems that need to process natural language. Firstly, the most relevant studies concerning adjectives in general are taken up, with the aim of showing that they form a class of words with very peculiar syntactic-semantic behavior, especially in contexts of double predication. To better understand the questions implicated in these contexts, this study invests in the description of eventualities denoted by the primary predicate and the descriptive predicative adjective, since this is the path that points towards the relation between the lexicon, syntax and semantics. Semantic approaches that attempt to describe not only the properties of such eventualities, but also the relations between them are examined. To represent the relation between the eventualities denoted by the primary predicate and the descriptive predicative adjective, this study bases itself on approaches which aim not only to model the phenomena of language and their resolution, but also the efficiency necessary for their inclusion in computational applications. Finally, some ways of incorporating the linguistic results obtained in this research into wordnets are suggested. Such an endeavor is shown to be relevant from a linguistic point of view in testing the potential of application of the theories adopted in this research, as well as from the point of view of computation in contributing to the process of enriching this type of lexicon, in addition to the improvement of PLN systems. / A meta principal desta tese é a realização de um estudo descritivo explanatório dos adjetivos predicativos descritivos voltados para o sujeito, tendo em vista a sua utilidade para o aperfeiçoamento de sistemas computacionais que necessitam processar a linguagem natural. Primeiramente, retomam-se os estudos mais relevantes acerca dos adjetivos em geral com intuito de evidenciar que eles formam uma classe de palavras com comportamento sintáticosemântico muito peculiar, em especial, em contextos de dupla predicação. Para melhor compreender as questões implicadas nesses contextos, investe-se na descrição das eventualidades denotadas pelo predicado primário e pelo adjetivo predicativo descritivo por este ser um caminho que aponta a relação entre léxico, sintaxe e semântica. Buscam-se abordagens semânticas que tentam descrever não só as propriedades de tais eventualidades, mas também a relação entre elas. Para representar a relação entre as eventualidades denotadas pelo predicado primário e pelo adjetivo predicativo descritivo, baseia-se em abordagens que não visam apenas configurar os fenômenos da linguagem e sua resolução, mas também à eficiência necessária à sua inclusão em aplicações computacionais. Por fim, sugerem-se formas de incorporar os resultados lingüísticos obtidos nessa pesquisa em wordnets. Tal empreitada se mostra relevante tanto do ponto de vista da lingüística, por testar o potencial de aplicação das teorias adotadas nesta pesquisa, quanto do ponto de vista da computação, por contribuir no processo de enriquecimento desse tipo de léxico, bem como no aperfeiçoamento de sistemas de PLN. LINGUÍSTICA APLICADA LINGUÍSTICA COMPUTACIONAL PORTUGUÊS - ADJETIVO WORDNET
15	Distributional models of multiword expression compositionality prediction / Modelos distribucionais para a predição de composicionalidade de expressões multipalavras Cordeiro, Silvio Ricardo January 2018 (has links) Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte. / Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of multiword expressions (MWEs). For example, a person who is a sitting duck is neither a duck nor necessarily sitting. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful at multiple tasks, especially since the rise of word embedding approaches. However, the representation of MWEs still remains an open problem in the field. In particular, it is unclear how one could predict from corpora whether a given MWE should be treated as an indivisible unit (e.g. nut case) or as some combination of the meaning of its parts (e.g. engine room). This thesis proposes a framework of MWE compositionality prediction based on representations of distributional semantics, which we instantiate under a variety of parameters. We present a thorough evaluation of the impact of these parameters on three new datasets of MWE compositionality, encompassing English, French and Portuguese MWEs. Finally, we present an extrinsic evaluation of the predicted levels of MWE compositionality on the task of MWE identification. Our results suggest that the proper choice of distributional model and corpus parameters can produce compositionality predictions that are comparable to the state of the art. Linguística computacional Linguagem natural Distributional semantics Idiomaticity Compositionality Multiword expressions
16	Estudo e implementação da programação genética para síntese de fala Franzen, Evandro January 2002 (has links) Este trabalho descreve a aplicação da Programação Genética, uma técnica de Computação Evolucionária, ao problema da Síntese de Fala automática. A Programação Genética utiliza as técnicas da evolução humana para descobrir programas bem adaptados a um problema específico. Estes programas, compostos de instruções, variáveis, constantes e outros elementos que compõe uma linguagem de programação, são evoluídos ao longo de um conjunto de gerações. A Síntese de Fala, consiste na geração automática das formas de ondas sonoras a partir de um texto escrito. Uma das atividades mais importantes, é realizada através da conversão de palavras e letras para os sons da fala elementares (fonemas). Muitos sistemas de síntese são implementados através de regras fixas, escritas por programadores humanos. Um dos mais conhecidos sistemas de síntese é o FESTIVAL, desenvolvido pela Universidade de Edimburgh, usando a linguagem de programação funcional LISP e um número fixo de regras. Neste trabalho, nós exploramos a possibilidade da aplicação do paradigma da Programação Genética, para evoluir automaticamente regras que serão adotadas para implementação do idioma Português na ferramenta FESTIVAL, desenvolvido no projeto SPOLTECH (CNPq – NSF cooperação entre UFRGS e Universidade do Colorado). A modelagem do problema, consiste na definição das regras de pronúncia do Português Brasileiro, que a implementação do sistema FESTIVAL pronuncia erradamente, já que o mesmo foi implementado primariamente para o idioma Inglês. A partir destas regras, o sistema de Programação Genética, desenvolvido neste trabalho, evolui programas que constituem boas soluções para a conversão de letras para fonemas. A descrição dos resultados obtidos, cobre detalhes sobre a evolução das soluções, complexidade e regras implementadas, representadas pelas soluções mais bem adaptadas; mostrando que a Programação Genética, apesar de ser complexa, é bastante promissora. Linguística computacional Síntese : Fala Programacao genetica Sistemas evolutivos
17	Combinação de classificadores na categorização de textos Linden, Gustavo Sandini January 2008 (has links) Made available in DSpace on 2013-08-07T18:42:16Z (GMT). No. of bitstreams: 1 000409150-Texto+Completo-0.pdf: 923910 bytes, checksum: 44e59b532fd1e8f249aeacfa7777f126 (MD5) Previous issue date: 2008 / This study presents and evaluates a proposal for Hierarchical Text Categorization combining k- Nearest Neighbors (k-NN) and Support VectorMachines (SVM) classifiers. The study was based on several experiments which made use of Folha-RIcol text collection in Portuguese language. The texts in this collection are hierarchically organized in categories. In the experiments, the performance of k-NN and SVM classifiers was analyzed, individually first, with a variant of hold-out evaluation methodology, and then combined. The proposed combination, referred to as k-NN+SVM, had its performance compared to the individual classifiers and also to the combination by vote. In synthesis, the k-NN+SVM combination did not present better performance to the alternative ones, however the study allowed to observe the classifiers’ behavior and its combined use, the identification of problems and possible solutions, as well as taking into consideration the document collection used. / Este trabalho apresenta e avalia uma proposta para Categorização Hierárquica de Textos com uso combinado dos classificadores k-Nearest Neighbors (k-NN) e Support Vector Machines (SVM). O estudo foi embasado numa série de experimentos os quais fizeram uso da coleção Folha-RIcol de textos em língua portuguesa, que se encontram hierarquicamente organizados em categorias. Nos experimentos realizados, os classificadores k-NN e SVM tiveram seu desempenho analisado, primeiro individualmente, com uma variante da metodologia de avaliação hold-out, e após, de modo combinado. A combinação proposta, denominada k-NN+SVM, teve seu desempenho comparado com aquele dos classificadores individuais e com o da combinação por voto. Em síntese, a combinação k-NN+SVM não apresentou desempenho superior às demais alternativas, todavia o estudo permitiu a observação do comportamento dos classificadores e seu uso combinado, a identificação de problemas e possíveis soluções, bem como algumas considerações sobre a coleção de documentos utilizada. INFORMÁTICA CATEGORIZAÇÃO (LINGUÍSTICA) LINGUÍSTICA COMPUTACIONAL PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) APRENDIZAGEM DE MÁQUINA
18	Resolução de correferência e categorias de entidades nomeadas Moraes, Tatiane Coreixas January 2010 (has links) Made available in DSpace on 2013-08-07T18:42:54Z (GMT). No. of bitstreams: 1 000427028-Texto+Completo-0.pdf: 957635 bytes, checksum: fbedf4df218091e4bc1e919c4ffd808b (MD5) Previous issue date: 2010 / Coreference is defined as the relationship of linguistic expressions with one same entity of the world. Automatic coreference resolution is inserted in a very important context in the area of Natural Language Processing, because many systems require this task. This level of language processing depends on world knowledge, and this is still a challenge for the area. This challenge has stimulated and became the subject of this dissertation. Accordingly, we analyzed the role of categories of named entities and, through machine learning, we checked the conditions for resolution of different categories. The results of the experiments showed that world knowledge, represented by categories of named entities, helps in this task, since the percentage of return of the system based on the categories improved in about 17% when compared to the version without the categories. / Define-se correferência como a relação entre diversos componentes linguísticos com uma mesma entidade de mundo. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural, pois vários sistemas necessitam dessa tarefa. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. Esse desafio estimulou e tornou-se o objeto de estudo desta dissertação. Nesse sentido, analisamos o papel das categorias de entidades nomeadas e, através de aprendizado de máquina, verificamos as condições de resolução em diferentes categorias. Os resultados dos experimentos demonstraram que o conhecimento de mundo, representado nas categorias de entidades nomeadas, auxilia nessa tarefa, pois o percentual de retorno do sistema com base nas categorias teve uma melhora de 17% em comparação com a versão sem as categorias. INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGUÍSTICA COMPUTACIONAL APRENDIZAGEM DE MÁQUINA
19	Expansão de consultas com realimentação e pseudo realimentação de relevantes em um sistema que utiliza o modelo TR+ para indexar e recuperar documentos Borges, Thyago Bohrer January 2009 (has links) Made available in DSpace on 2013-08-07T18:43:05Z (GMT). No. of bitstreams: 1 000416994-Texto+Completo-0.pdf: 2345425 bytes, checksum: 75ba39cb209e96c61f3f88810380759c (MD5) Previous issue date: 2009 / This work presents and debates the results of applying query expansion techniques such as Pseudo Relevance Feedback (PRF) and Relevance Feedback (RF) in an Information Retrieval System (IRS) that uses the information retrieval model TR+. TR+ makes use of terms and Binary Lexical Relationships (BLR) that appear in texts and queries in order to index and retrieve textual documents in Portuguese. The application of the query expansion techniques PRR and RR aims to improve the results provided by the users' queries therefore the documents retrieved are able to fulfill their needs. PRR and RR differ with respect to the users' role: while relevance feedback makes use of the user judgment for defining which documents retrieved by the original query will provide the information for QE, PRF seeks to automate such decision processo The experimental results using PRF and RF did not outperform the baseline results (Gonzalez, 2005). When comparing both techniques, we have noticed PRF was outperformed by RF only once. In the context of this dissertation, we can conclude that the use of BLRs is a more productive option when compared to the use of terms for QE. / Este trabalho apresenta e discute os resultados obtidos com a aplicação das técnicas de expansão de consulta denominadas Pseudo Realimentação de Relevantes (PRR) e Realimentação de Relevantes (RR) em um Sistema de Recuperação de Informação (SRI) que utiliza o modelo de recuperação de informação denominado TR+. TR+ é um modelo de recuperação de informação que emprega, além de termos, Relações Lexicais Binárias (RLB) presentes nos textos e nas consultas, para indexar e recuperar documentos textuais em língua portuguesa. A aplicação das técnicas de expansão de consultas PRR e RR têm como objetivo melhorar os resultados obtidos pelo usuário que realiza uma consulta. As duas técnicas se diferenciam quanto à participação do usuário: enquanto a RR utiliza o julgamento do usuário na definição de quais documentos recuperados pela consulta original fornecerão as informações utilizadas na expansão da consulta, a PRR busca eliminar a participação do usuário durante este processo. Os resultados obtidos pelos experimentos, tanto utilizando PRR quanto RR, não superaram os resultados utilizados como baseline (Gonzalez, 2005). Ao compararmos entre si os resultados dos experimentos com as técnicas PRR e RR, os experimentos com PRR foram superados pela RR somente em uma rodada. No contexto dessa dissertação podemos concluir que a utilização de RLBs ao invés de usar somente termos, é uma opção mais producente. INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGUÍSTICA COMPUTACIONAL
20	Reconhecimento de entidades nomeadas e relações no domínio de privacidade e responsabilização Bruckschen, Mírian January 2010 (has links) Made available in DSpace on 2013-08-07T18:43:36Z (GMT). No. of bitstreams: 1 000434166-Texto+Completo-0.pdf: 1758256 bytes, checksum: cc66addbe46b0c23f53ed7ab0e0c41a8 (MD5) Previous issue date: 2010 / Management of large masses of information is an area growing in interest and research, both in the academic environment and in the industry. Several mechanisms have already been proposed aiming the ease of creation, management and maintenance of knowledge bases, and recently ontologies have been considered as serious candidates for this task. Ontologies are the main mechanism for knowledge representation in technological contexts as the Semantic Web. However, the manual construction of these ontologies is very expensive, due to the amount of information to be processed for the execution of this task. With this motivation, this work proposes that ontology construction, more specifically their population, can be automatized through the task of Named Entity Recognition (NER). The work comprehends different tasks in Natural Language Processing area: Named Entity Recognition, Relations Recognition and Ontology Learning. For the execution of the ontology population task, we developed an ontology on the privacy domain and, after that, a method to populate this ontology using NER. This method comprehends population of the ontology with instances and relations. In order to validate this method, we developed a system that implements it. This system was tested over a corpus assembled by the author of this dissertation. This corpus is composed by documents of privacy and accountability area, and by legislation associated to this subject. In this dissertation we present the method, the developed system, the evaluations carried on for this work and final conclusions on the obtained results. / O gerenciamento de grandes volumes de informação é uma área de crescente interesse e pesquisa, tanto na academia quanto na indústria. Diferentes mecanismos já foram propostos com o objetivo de facilitar a criação, gerenciamento e manutenção de bases de conhecimento, e recentemente ontologias têm despontado como um forte candidato para tal função. Ontologias são o principal mecanismo para representação do conhecimento em contextos tecnológicos atuais como o da Web Semântica. Entretanto, a construção manual destas ontologias é custosa, dado o montante de informação a ser processada para a execução desta tarefa. Com esta motivação, este trabalho propõe que a confecção de ontologias, mais especificamente a sua população, pode ser automatizada pela tarefa de Reconhecimento de Entidades Nomeadas (REN). O trabalho compreende diferentes tarefas da área de Processamento de Linguagem Natural: Reconhecimento de Entidades Nomeadas, Reconhecimento de Relações e Aprendizado de Ontologias. Para a execução da tarefa de população de ontologias, foi construída manualmente uma ontologia do domínio de privacidade e posteriormente desenvolvido um método para executar a sua população através da tarefa de REN. Este método compreende a população da ontologia com instâncias e relações. Para validar este método, foi desenvolvido um sistema que o implementa. Este sistema foi testado sobre um corpus montado pela autora deste trabalho. Este corpus é composto por documentos da área de privacidade e responsabilização, e da legislação associada a este tema. São apresentados neste trabalho o método, o sistema desenvolvido, as avaliações a que este trabalho foi submetido e suas conclusões. INFORMÁTICA LINGUÍSTICA COMPUTACIONAL PROCESSAMENTO DA LINGUAGEM NATURAL ANÁLISE SEMÂNTICA (PROGRAMAÇÃO) ONTOLOGIA

Search results