Spelling suggestions: "subject:"linguagem batural"" "subject:"linguagem datural""
191 |
"SemanticAgent, uma plataforma para desenvolvimento de agentes inteligentes" / SemanticAgent, a platform for development of Intelligent Agents capable of processing restricted natural language.Lucena, Percival Silva de 15 April 2003 (has links)
Agentes inteligentes é um termo guarda-chuva que agrega diversas pesquisas no desenvolvimento de softwares autônomos que utilizam técnicas de Inteligência Artificial a fim de satisfazer metas estabelecidas por seus usuários. A construção de sistemas baseados em agentes inteligentes é uma tarefa complexa que envolve aspectos como comunicação entre agentes, planejamento, divisão de tarefas, coordenação, representação e manipulação de conhecimento e comportamentos, entre outras tarefas. Plataformas para agentes prevêem alguns serviços que permitem a desenvolvedores construir soluções sem a necessidade de se preocupar com todos detalhes da implementação. Um novo modelo para criação de agentes chamado 'agentes atômicos' é proposto com o objetivo de oferecer flexibilidade para o gerenciamento de conhecimento e implementação de comportamentos. A arquitetura Agentes Semânticos provê um framework para a implementação de tal modelo, oferecendo um conjunto de ferramentas para a criação de agentes inteligentes. Um protótipo de plataforma para agentes, baseado em tal arquitetura, foi desenvolvido em Java e permite a criação de aplicações capazes de processar linguagem natural restrita, manipular conhecimento e executar ações úteis. / Intelligent Agents is an umbrella term that aggregates different research on the development of autonomous software that uses Artificial Intelligence techniques in order to satisfy user requests. The construction of systems based on intelligent agents is a complex task that involves aspects such as agent communication, planning, work division, cooperation, epresentation and manipulation of knowledge,among other activities. Agent Platforms provide some services that allow developers to build solutions without the need of worrying about every implementation detail. A new model for creating agents, called 'atomic agents', is proposed with the goal of offering flexible knowledge management and behavior implementation for constructing software agents. The Semantic AgentArchitecture provides a framework for the implementation of such model, offering a set of tools for the creation of intelligent agents. A prototype Agent Platform, based on the architecture, was developed in Java and allows the creation of applications that are able to process restricted natural language, manipulate knowledge and execute useful actions.
|
192 |
Utilização do modelo skip-gram para representação distribuída de palavras no projeto Media Cloud BrasilLopes, Evandro Dalbem 30 June 2015 (has links)
Submitted by Evandro Lopes (dalbem.evandro@gmail.com) on 2016-04-04T03:14:32Z
No. of bitstreams: 1
dissertacao_skip_gram.pdf: 1559216 bytes, checksum: c9487105e0e9341acd30f549c30d4dc9 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-07-19T19:55:35Z (GMT) No. of bitstreams: 1
dissertacao_skip_gram.pdf: 1559216 bytes, checksum: c9487105e0e9341acd30f549c30d4dc9 (MD5) / Approved for entry into archive by Marcia Bacha (marcia.bacha@fgv.br) on 2016-07-25T17:47:32Z (GMT) No. of bitstreams: 1
dissertacao_skip_gram.pdf: 1559216 bytes, checksum: c9487105e0e9341acd30f549c30d4dc9 (MD5) / Made available in DSpace on 2016-07-25T17:47:47Z (GMT). No. of bitstreams: 1
dissertacao_skip_gram.pdf: 1559216 bytes, checksum: c9487105e0e9341acd30f549c30d4dc9 (MD5)
Previous issue date: 2015-06-30 / There is a representation problem when working with natural language processing because once the traditional model of bag-of-words represents the documents and words as single matrix, this one tends to be completely sparse. In order to deal with this problem, there are some methods capable of represent the words using a distributed representation, with a smaller dimension and more compact, including some properties that allow to relate words on the semantic form. The aim of this work is to use a dataset obtained by the Media Cloud Brasil project and apply the skip-gram model to explore relations and search for pattern that helps to understand the content. / Existe um problema de representação em processamento de linguagem natural, pois uma vez que o modelo tradicional de bag-of-words representa os documentos e as palavras em uma unica matriz, esta tende a ser completamente esparsa. Para lidar com este problema, surgiram alguns métodos que são capazes de representar as palavras utilizando uma representação distribuída, em um espaço de dimensão menor e mais compacto, inclusive tendo a propriedade de relacionar palavras de forma semântica. Este trabalho tem como objetivo utilizar um conjunto de documentos obtido através do projeto Media Cloud Brasil para aplicar o modelo skip-gram em busca de explorar relações e encontrar padrões que facilitem na compreensão do conteúdo.
|
193 |
Aplicação do Word2vec e do Gradiente descendente dstocástico em tradução automáticaAguiar, Eliane Martins de 30 May 2016 (has links)
Submitted by Eliane Martins de Aguiar (elianemart@gmail.com) on 2016-08-01T21:03:09Z
No. of bitstreams: 1
dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-08-03T20:29:34Z (GMT) No. of bitstreams: 1
dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2016-08-23T20:12:35Z (GMT) No. of bitstreams: 1
dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) / Made available in DSpace on 2016-08-23T20:12:54Z (GMT). No. of bitstreams: 1
dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5)
Previous issue date: 2016-05-30 / O word2vec é um sistema baseado em redes neurais que processa textos e representa pa- lavras como vetores, utilizando uma representação distribuída. Uma propriedade notável são as relações semânticas encontradas nos modelos gerados. Este trabalho tem como objetivo treinar dois modelos utilizando o word2vec, um para o Português e outro para o Inglês, e utilizar o gradiente descendente estocástico para encontrar uma matriz de tradução entre esses dois espaços.
|
194 |
Descrição de verbos de base adjetiva derivados com os sufixos -ecer e -izar, para o Processamento Automático de Linguagem NaturalPicoli, Larissa 10 March 2015 (has links)
Submitted by Elizabete Silva (elizabete.silva@ufes.br) on 2015-10-07T19:20:22Z
No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
DESCRIÇÃO DE VERBOS DE BASE ADJETIVA DERIVADOS COM OS SUFIXOS -ECER E -IZAR, PARA O PROCESSAMENTO AUTOMÁTICO DE LINGUAGEM NATURAL.pdf: 1557898 bytes, checksum: a5ecdad72923053673ea35aca44385e9 (MD5) / Approved for entry into archive by Morgana Andrade (morgana.andrade@ufes.br) on 2015-11-23T19:06:02Z (GMT) No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
DESCRIÇÃO DE VERBOS DE BASE ADJETIVA DERIVADOS COM OS SUFIXOS -ECER E -IZAR, PARA O PROCESSAMENTO AUTOMÁTICO DE LINGUAGEM NATURAL.pdf: 1557898 bytes, checksum: a5ecdad72923053673ea35aca44385e9 (MD5) / Made available in DSpace on 2015-11-23T19:06:02Z (GMT). No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
DESCRIÇÃO DE VERBOS DE BASE ADJETIVA DERIVADOS COM OS SUFIXOS -ECER E -IZAR, PARA O PROCESSAMENTO AUTOMÁTICO DE LINGUAGEM NATURAL.pdf: 1557898 bytes, checksum: a5ecdad72923053673ea35aca44385e9 (MD5)
Previous issue date: 2015 / Capes / Esta pesquisa apresenta uma descrição sintático-semântica de verbos de base adjetiva derivados com o sufixo –ecer, por exemplo, enriquecer e fortalecer e de verbos de base adjetiva derivados com o sufixo o –izar, como banalizar e suavizar em pares de frases simples do tipo (1) A herança enriqueceu Pedro, (1a) A herança tornou Pedro rico e (2) O aumento da renda banalizou as viagens, (2a) O aumento da renda tornou as viagens banais com intuito de observar a correspondência semântica entre as frases base (1) e (2) e as frases transformadas (1a) e (2a). A descrição dos verbos apoia-se numa lista dos verbos de base adjetiva derivados com os sufixos –ecer e –izar que foram coletados por meio de buscas em dicionários, na web e por introspecção. A partir desses verbos são construídas frases simples para se observar as propriedades sintático-semânticas deles. A análise das propriedades sintático-semânticas desses verbos é respaldada pelo modelo teórico-metodológico do Léxico-Gramática (1975), definido pelo linguista Maurice Gross. Essas propriedades são codificadas por meio de fórmulas sintáticas. A descrição das propriedades das estruturas permite a elaboração de um recurso linguístico no formato de uma tabela do Léxico-Gramática. A tabela é composta por uma lista de 88 verbos de base adjetiva derivados com o sufixo –ecer e 84 verbos de base adjetiva derivados com o sufixo –izar. A descrição codificada das propriedades dos verbos poderá ser incluída em uma base de dados para o processamento automático de linguagem natural (PLN). / This research presents a syntactic-semantic description of verbs derived from adjectives with suffix –ecer, for example, enriquecer “enrich”, amadurecer “ripen” and fortalecer “strengthen”, and with suffix –izar, for example, banalizar “banalize” and suavizar “soften” in pairs of simple sentences like: (1) A herança enriqueceu Pedro “The heritage enriched Pedro”, (1a) A herança tornou Pedro rico “The heritage made Pedro rich” and (2) O aumento da renda banalizou as viagens “Rising incomes trivialized travel”, (2a) O aumento da renda tornou as viagens banais “Rising incomes made the banal travel”, in order to observe the semantic correspondence between base sentences (1) and (2) and transformed sentences (1a) and (2a). The description of the verbs is based on a list of deadjectival verbs in –ecer and –izar collected through searches in dictionaries, in the web and by introspection. From these verbs, simple sentences are built to observe their syntactic-semantic properties. The analysis of syntactic-semantic properties of the verbs is carried out within the theoretical-methodological model of Lexicon-Grammar (1975), defined by linguist Maurice Gross. These properties are encoded through syntactic formulas. The description of the structures’ properties allows for the elaboration of a language resource in the format of a Lexicon-Grammar table. The table is composed of a list of 88 deadjectival verbs with suffix –ecer and 84 verbs with–izar. The encoded description of the properties of verbs can be included in a data base for Automatic Processing of Natural Language (PLN).
|
195 |
RISO - TT - Extração de expressões temporais em textos. / RISO - TT - Extraction of temporal expressions in texts.SANTOS, Adriano Araújo. 26 July 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-07-26T15:09:11Z
No. of bitstreams: 1
ADRIANO ARAÚJO SANTOS - DISSERTAÇÃO PPGCC 2013..pdf: 7720673 bytes, checksum: fdba828ba2c20b709ed7c3efbc93f751 (MD5) / Made available in DSpace on 2018-07-26T15:09:11Z (GMT). No. of bitstreams: 1
ADRIANO ARAÚJO SANTOS - DISSERTAÇÃO PPGCC 2013..pdf: 7720673 bytes, checksum: fdba828ba2c20b709ed7c3efbc93f751 (MD5)
Previous issue date: 2013-04-22 / A necessidade de gerenciar a grande quantidade de documentos digitais existentes
na atualidade, associada à incapacidade humana de analisar todas essas
informações em tempo hábil, fez com que as pesquisas e o desenvolvimento de
sistemas na área de automatização de processos para a gestão de informação
crescessem, no entanto, essa atividade não é trivial. A maioria dos documentos
disponíveis não tem estrutura bem definida (padronizada), o que torna difícil a
criação de mecanismos computacionais que automatizem a análise das informações
e gera a necessidade de se promoverem atividades intermediárias de conversão de
informações em linguagem natural em informações estruturadas. Para isso, são
necessárias atividades de reconhecimento de padrões nominais, temporais e
espaciais. No tocante a essa pesquisa, o objetivo principal foi criar um mecanismo
de reconhecimento de padrões temporais. Heuristicamente, foi criado um dicionário de regras baseadas em associações de padrões temporais e desenvolvido um módulo de marcação e recuperação de padrões temporais em uma arquitetura extensível e flexível, chamado RISO-TT, que implementa esse mecanismo de reconhecimento de padrões temporais. Esse módulo faz parte do projeto de pesquisa RISO (Recuperação da Informação Semântica de Objetos Textuais). Foram realizados dois experimentos para avaliar a eficiência do RISO-TT. O primeiro, com o intuito de verificar a extensibilidade e a
flexibilidade do módulo RISO-TT, e o segundo, para analisar a eficiência da
abordagem proposta com base em uma comparação com duas ferramentas
consolidadas no meio académico (HeidelTime e SuTime). O RISO-TT obteve
resultados superiores aos concorrentes no processo de marcação de expressões
temporais, comprovados por meio de testes estatísticos. / The necessity of managing the large amount of digital existing documents nowadays,
associated to the human inability to analyze ali this information in a fast manner, led
to a growth of research in the area of system development for automation of the
information management process. Nevertheless, this is not a trivial task. Most of the
available documents do not have a standardized structure, hindering the
development of computational schemes that can automate the analysis of
information, thus requiring jobs of information conversion from natural language to
structured information. For such, syntactic, temporal and spatial pattern recognition
tasks are needed. Concerning the present study, the main objective is to create an
advanced temporal pattern recognition mechanism. We created, heurístically, a rules
dictionary of temporal patterns, developing a module in an extendable and flexible
architecture for retrieval and marking. This module, called RISO-TT, implements this
pattern recognition mechanism and is part of the RISO project (Retrieval of Semantic
Information from Textual Objects). Two experiments were carried out in order to
evaluate the efficiency of this approach. The first one was intended to verify the
extendability and flexibility of the RISO-TT architecture and the second one to
analyze the efficiency of the proposed approach, based on a comparison between
the developed module and two Consolidated tools in the academic community
(Heideltime and SuTime). RISO-TT outperformed the rivais in the temporal
expression marking process, which was proved through statistical tests.
|
196 |
Filtragem automática de opiniões falsas: comparação compreensiva dos métodos baseados em conteúdo / Automatic filtering of false opinions: comprehensive comparison of content-based methodsCardoso, Emerson Freitas 04 August 2017 (has links)
Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T17:30:32Z
No. of bitstreams: 1
CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T17:30:45Z (GMT) No. of bitstreams: 1
CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T17:32:37Z (GMT) No. of bitstreams: 1
CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) / Made available in DSpace on 2017-10-09T17:32:49Z (GMT). No. of bitstreams: 1
CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5)
Previous issue date: 2017-08-04 / Não recebi financiamento / Before buying a product or choosing for a trip destination, people often seek other people’s opinions to obtain a vision of the quality of what they want to acquire. Given that, opinions always had great influence on the purchase decision. Following the enhancements of the Internet and a huge increase in the volume of data traffic, social networks were created to help users post and view all kinds of information, and this caused people to also search for opinions on the Web. Sites like TripAdvisor and Yelp make it easier to share online reviews, since they help users to post their opinions from anywhere via smartphones and enable product manufacturers to gain relevant feedback quickly in a centralized way. As a result, most people nowadays trust personal recommendations as much as online reviews. However, competition between service providers and product manufacturers have also increased in social media, leading to the first cases of spam reviews: deceptive opinions published by hired people that try to promote or defame products or businesses. These reviews are carefully written in order to look like authentic ones, making it difficult to be detected by humans or automatic methods. Thus, they are used, in a misleading way, in attempt to control the general opinion, causing financial harm to business owners and users. Several approaches have been proposed for spam review detection and most of them use techniques involving machine learning and natural language processing. However, despite all progress made, there are still relevant questions that remain open, which require a criterious analysis in order to be properly answered. For instance, there is no consensus whether the performance of traditional classification methods can be affected by incremental learning or changes in reviews’ features over time; also, there is no consensus whether there is statistical difference between performances of content-based classification methods. In this scenario, this work offers a comprehensive comparison between traditional machine learning methods applied in spam review detection. This comparison is made in multiple setups, employing different types of learning and data sets. The experiments performed along with statistical analysis of the results corroborate offering appropriate answers to the existing questions. In addition, all results obtained can be used as baseline for future comparisons. / Antes de comprar um produto ou escolher um destino de viagem, muitas pessoas costumam buscar por opiniões alheias para obter uma visão da qualidade daquilo que se deseja adquirir. Assim, as opiniões sempre exerceram grande influência na decisão de compra. Com o avanço da Internet e aumento no volume de informações trafegadas, surgiram redes sociais que possibilitam compartilhar e visualizar informações de todo o tipo, fazendo com que pessoas passassem a buscar também por opiniões na Web. Atualmente, sites especializados, como TripAdvisor e Yelp, oferecem um sistema de compartilhamento de opiniões online (reviews) de maneira fácil, pois possibilitam que usuários publiquem suas opiniões de qualquer lugar através de smartphones, assim como também permitem que fabricantes de produtos e prestadores de serviços obtenham feedbacks relevantes de maneira centralizada e rápida. Em virtude disso, estudos indicam que atualmente a maioria dos usuários confia tanto em recomendações pessoais quanto em reviews online. No entanto, a competição entre prestadores de serviços e fabricantes de produtos também aumentou nas redes sociais, o que levou aos primeiros casos de spam reviews: opiniões enganosas publicadas por pessoas contratadas que tentam promover ou difamar produtos ou serviços. Esses reviews são escritos cuidadosamente para parecerem autênticos, o que dificulta sua detecção por humanos ou por métodos automáticos. Assim, eles são usados para tentar, de maneira enganosa, controlar a opinião geral, podendo causar prejuízos para empresas e usuários. Diversas abordagens para a detecção de spam reviews vêm sendo propostas, sendo que a grande maioria emprega técnicas de aprendizado de máquina e processamento de linguagem natural. No entanto, apesar dos avanços já realizados, ainda há questionamentos relevantes que permanecem em aberto e demandam uma análise criteriosa para serem respondidos. Por exemplo, não há um consenso se o desempenho de métodos tradicionais de classificação pode ser afetado em cenários que demandam aprendizado incremental ou por mudanças nas características dos reviews devido ao fator cronológico, assim como também não há um consenso se existe diferença estatística entre os desempenhos dos métodos baseados no conteúdo das mensagens. Neste cenário, esta dissertação oferece uma análise e comparação compreensiva dos métodos tradicionais de aprendizado de máquina, aplicados na detecção de spam reviews. A comparação é realizada em múltiplos cenários, empregando-se diferentes tipos de aprendizado e bases de dados. Os experimentos realizados, juntamente com análise estatística dos resultados, corroboram a oferecer respostas adequadas para os questionamentos existentes. Além disso, os resultados obtidos podem ser usados como baseline para comparações futuras.
|
197 |
"SemanticAgent, uma plataforma para desenvolvimento de agentes inteligentes" / SemanticAgent, a platform for development of Intelligent Agents capable of processing restricted natural language.Percival Silva de Lucena 15 April 2003 (has links)
Agentes inteligentes é um termo guarda-chuva que agrega diversas pesquisas no desenvolvimento de softwares autônomos que utilizam técnicas de Inteligência Artificial a fim de satisfazer metas estabelecidas por seus usuários. A construção de sistemas baseados em agentes inteligentes é uma tarefa complexa que envolve aspectos como comunicação entre agentes, planejamento, divisão de tarefas, coordenação, representação e manipulação de conhecimento e comportamentos, entre outras tarefas. Plataformas para agentes prevêem alguns serviços que permitem a desenvolvedores construir soluções sem a necessidade de se preocupar com todos detalhes da implementação. Um novo modelo para criação de agentes chamado 'agentes atômicos' é proposto com o objetivo de oferecer flexibilidade para o gerenciamento de conhecimento e implementação de comportamentos. A arquitetura Agentes Semânticos provê um framework para a implementação de tal modelo, oferecendo um conjunto de ferramentas para a criação de agentes inteligentes. Um protótipo de plataforma para agentes, baseado em tal arquitetura, foi desenvolvido em Java e permite a criação de aplicações capazes de processar linguagem natural restrita, manipular conhecimento e executar ações úteis. / Intelligent Agents is an umbrella term that aggregates different research on the development of autonomous software that uses Artificial Intelligence techniques in order to satisfy user requests. The construction of systems based on intelligent agents is a complex task that involves aspects such as agent communication, planning, work division, cooperation, epresentation and manipulation of knowledge,among other activities. Agent Platforms provide some services that allow developers to build solutions without the need of worrying about every implementation detail. A new model for creating agents, called 'atomic agents', is proposed with the goal of offering flexible knowledge management and behavior implementation for constructing software agents. The Semantic AgentArchitecture provides a framework for the implementation of such model, offering a set of tools for the creation of intelligent agents. A prototype Agent Platform, based on the architecture, was developed in Java and allows the creation of applications that are able to process restricted natural language, manipulate knowledge and execute useful actions.
|
198 |
Aperfeiçoamento de um tradutor automático Português-Inglês: tempos verbais / Development of a Portuguese-to-English machine translation system: tensesSilva, Lucia Helena Rozario da 03 August 2010 (has links)
Esta dissertação apresenta o aperfeiçoamento de um sistema de tradução automática português-inglês. Nosso objetivo principal é criar regras de transferência estrutural entre o par de línguas português e inglês e avaliar, através do uso da métrica de avaliação METEOR, o desempenho do sistema. Para isto, utilizamos um corpus teste criado especialmente para esta pesquisa. Tendo como ponto de partida a relevância de uma correta tradução para os tempos verbais de uma sentença, este trabalho priorizou a criação de regras que tratassem a transferência entre os tempos verbais do português brasileiro para o inglês americano. Devido ao fato de os verbos em português estarem distribuídos por três conjugações, criamos um corpus para cada uma dessas conjugações. O objetivo da criação desses corpora é verificar a aplicação das regras de transferência estrutural entre os tempos verbais em todas as três classes de conjugação. Após a criação dos corpora, mapeamos os tempos verbais em português no modo indicativo, subjuntivo e imperativo para os tempos verbais do inglês. Em seguida, iniciamos a construção das regras de transferência estrutural entre os tempos verbais mapeados. Ao final da construção das regras, submetemos os corpora obedecendo as três classes de conjugação à métrica de avaliação automática METEOR. Os resultados da avaliação do sistema após a inserção das regras apresentaram uma regressão quando comparado a avaliação do sistema no estágio inicial da pesquisa. Detectamos, através de análises dos resultados, que a métrica de avaliação automática METEOR não foi sensível às modificações feitas no sistema, embora as regras criadas sigam a gramática tradicional da língua portuguesa e estejam sendo aplicadas a todas as três classes de conjugação. Apresentamos em detalhes o conjunto de regras sintáticas e os corpora utilizados neste estudo, e que acreditamos serem de utilidade geral para quaisquer sistemas de tradução automática entre o português brasileiro e o inglês americano. Outra contribuição deste trabalho está em discutir os valores apresentados pela métrica METEOR e sugerir que novos ajustes sejam feitos a esses parâmetros utilizados pela métrica. / This dissertation presents the development of a Portuguese-to-English Machine Translation system. Our main objective is creating structural transfer rules between this pair of languages, and evaluate the performance of the system using the METEOR evaluation metric. Therefore, we developed a corpus to enable this study. Taking translation relevance as a starting point, we focused on verbal tenses and developed rules that dealt with transfer between verbal tenses from the Brazilian Portuguese to US English. Due to the fact that verbs in Portuguese are distributed in three conjugations, we created one corpus for each of these conjugations. The objective was to verify the application of structural transfer rules between verbal tenses in each conjugation class in isolation. After creating these corpora, we mapped the Portuguese verbal tenses in the indicative, subjunctive and imperative modes to English. Next, we constructed structural transfer rules to these mapped verbal tenses. After constructing these rules, we evaluated our corpora using the METEOR evaluation metric. The results of this evaluation showed lack of improvement after the insertion of these transfer rules, when compared to the initial stage of the system. We detected that the METEOR evaluation metric was not sensible to these modi_cations made to the system, even though they were linguistically sound and were being applied correctly to the sentences. We introduce in details the set of transfer rules and corpora used in this study, and we believe they are general enough to be useful in any rule-based Portuguese-to-English Machine Translation system. Another contribution of this work lies in the discussion of the results presented by the METEOR metric. We suggest adjustments to be made to its parameters, in order to make it more sensible to sentences variation such as those introduced by our rules.
|
199 |
Extractive document summarization using complex networks / Sumarização extractiva de documentos usando redes complexasTohalino, Jorge Andoni Valverde 15 June 2018 (has links)
Due to a large amount of textual information available on the Internet, the task of automatic document summarization has gained significant importance. Document summarization became important because its focus is the development of techniques aimed at finding relevant and concise content in large volumes of information without changing its original meaning. The purpose of this Masters work is to use network theory concepts for extractive document summarization for both Single Document Summarization (SDS) and Multi-Document Summarization (MDS). In this work, the documents are modeled as networks, where sentences are represented as nodes with the aim of extracting the most relevant sentences through the use of ranking algorithms. The edges between nodes are established in different ways. The first approach for edge calculation is based on the number of common nouns between two sentences (network nodes). Another approach to creating an edge is through the similarity between two sentences. In order to calculate the similarity of such sentences, we used the vector space model based on Tf-Idf weighting and word embeddings for the vector representation of the sentences. Also, we make a distinction between edges linking sentences from different documents (inter-layer) and those connecting sentences from the same document (intra-layer) by using multilayer network models for the Multi-Document Summarization task. In this approach, each network layer represents a document of the document set that will be summarized. In addition to the measurements typically used in complex networks such as node degree, clustering coefficient, shortest paths, etc., the network characterization also is guided by dynamical measurements of complex networks, including symmetry, accessibility and absorption time. The generated summaries were evaluated by using different corpus for both Portuguese and English language. The ROUGE-1 metric was used for the validation of generated summaries. The results suggest that simpler models like Noun and Tf-Idf based networks achieved a better performance in comparison to those models based on word embeddings. Also, excellent results were achieved by using the multilayered representation of documents for MDS. Finally, we concluded that several measurements could be used to improve the characterization of networks for the summarization task. / Devido à grande quantidade de informações textuais disponíveis na Internet, a tarefa de sumarização automática de documentos ganhou importância significativa. A sumarização de documentos tornou-se importante porque seu foco é o desenvolvimento de técnicas destinadas a encontrar conteúdo relevante e conciso em grandes volumes de informação sem alterar seu significado original. O objetivo deste trabalho de Mestrado é usar os conceitos da teoria de grafos para o resumo extrativo de documentos para Sumarização mono-documento (SDS) e Sumarização multi-documento (MDS). Neste trabalho, os documentos são modelados como redes, onde as sentenças são representadas como nós com o objetivo de extrair as sentenças mais relevantes através do uso de algoritmos de ranqueamento. As arestas entre nós são estabelecidas de maneiras diferentes. A primeira abordagem para o cálculo de arestas é baseada no número de substantivos comuns entre duas sentenças (nós da rede). Outra abordagem para criar uma aresta é através da similaridade entre duas sentenças. Para calcular a similaridade de tais sentenças, foi usado o modelo de espaço vetorial baseado na ponderação Tf-Idf e word embeddings para a representação vetorial das sentenças. Além disso, fazemos uma distinção entre as arestas que vinculam sentenças de diferentes documentos (inter-camada) e aquelas que conectam sentenças do mesmo documento (intra-camada) usando modelos de redes multicamada para a tarefa de Sumarização multi-documento. Nesta abordagem, cada camada da rede representa um documento do conjunto de documentos que será resumido. Além das medições tipicamente usadas em redes complexas como grau dos nós, coeficiente de agrupamento, caminhos mais curtos, etc., a caracterização da rede também é guiada por medições dinâmicas de redes complexas, incluindo simetria, acessibilidade e tempo de absorção. Os resumos gerados foram avaliados usando diferentes corpus para Português e Inglês. A métrica ROUGE-1 foi usada para a validação dos resumos gerados. Os resultados sugerem que os modelos mais simples, como redes baseadas em Noun e Tf-Idf, obtiveram um melhor desempenho em comparação com os modelos baseados em word embeddings. Além disso, excelentes resultados foram obtidos usando a representação de redes multicamada de documentos para MDS. Finalmente, concluímos que várias medidas podem ser usadas para melhorar a caracterização de redes para a tarefa de sumarização.
|
200 |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. / Knowledge extraction from reports of radiology thoracic using techniques of statistical processing of natural language.Zerbinatti, Leandro 15 April 2010 (has links)
Este trabalho promove um estudo em informática em saúde no qual se analisam laudos de radiologia torácica através de métodos de processamento estatístico de linguagem natural com o intuito de subsidiar a interoperabilidade entre sistemas de saúde. Foram utilizados 2000 laudos de radiologia do tórax para a extração de conhecimento identificando-se as palavras, n-gramas e frases que os compõem. Foi calculado o índice de Zipf e verificou-se que poucas palavras compõem a maioria dos laudos e que a maioria das palavras não tem representatividade estatística A partir dos termos identificados foi realizada a tradução e a comparação da existência desses em um vocabulário médico padronizado com terminologia internacional, o SNOMEDCT. Os termos que tinham uma relação completa e direta com os termos traduzidos foram incorporados nos termos de referência juntamente com a classe à qual o termo pertence e seu identificador. Foram selecionados outros 200 laudos de radiologia de tórax para realizar o experimento de rotulação dos termos em relação à referência. A eficiência obtida neste estágio, que é o percentual de rotulação dos laudos, foi de 45,55%. A partir de então foram incorporados aos termos de referência, sob a classe de conceito de ligação, artigos, preposições e pronomes. É importante ressaltar que esses termos não adicionam conhecimento de saúde ao texto. A eficiência obtida foi de 73,23%, aumentando significativamente a eficiência obtida anteriormente. Finalizamos o trabalho com algumas formas de aplicação dos laudos rotulados para a interoperabilidade de sistemas, utilizando para isto ontologias, o HL7 CDA (Clinical Documents Architecture) e o modelo de arquétipos da Fundação OpenEHR. / This work promotes a study in health informatics technology which analyses reports of chest X-ray through statistical natural language processing methods for the purpose of supporting the interoperability between health systems. Two thousand radiology reports were used for the extraction of knowledge by identifying the words, n-grams and phrases of reports. Zipfs constant was studied and it was determined that few words make up the majority of the reports and that most of the words do not have statistical significance. The translation and comparison with exisiting standardized medical vocabulary with international terminology, called SNOMED-CT, was done based on the terms identified. The terms that had a complete and direct correlation with the translated terms were incorporated into the reference terms along with its class and the word identifier. Another 200 reports of chest x-rays were selected to perform the terms tagging experiment of with respect to the reference. The efficiency obtained, which is the percentage of labeling of the reports, was 45.55%. Subsequentely, articles, prepositions and pronouns were incorporated into the terms of reference under the linkage concept of class. It is important to note that these terms do not carry health knowledge to the text. Thus, the efficiency ratio was 73.23%, significantly increasing the efficiency obtained previously. The study was concluded with some forms of application of the reports tagged for system interoperability, using different ontologies, the HL7 CDA (Clinical Documents Architecture) and the archetypes at OpenEHR Fondation.
|
Page generated in 0.0521 seconds