• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 206
  • 26
  • 6
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 239
  • 239
  • 233
  • 116
  • 115
  • 82
  • 52
  • 51
  • 51
  • 47
  • 47
  • 37
  • 36
  • 35
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Uma abordagem conexionista para resolução de anaforas pronominais

Oliveira, Itamar Leite de January 1997 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnologico / Made available in DSpace on 2012-10-17T02:39:58Z (GMT). No. of bitstreams: 0Bitstream added on 2016-01-08T22:20:53Z : No. of bitstreams: 1 109014.pdf: 2393890 bytes, checksum: 2354242494078046fbd1a7ae16dfce4a (MD5) / Nesta dissertação foram implementadas redes neurais artificiais visando a resolução de um fenômeno lingüístico conhecido como referência anafórica. Foram resolvidas referências anafóricas pronominais com apenas dois pronomes pessoais, a saber: ele e ela. Foram realizados dois experimentos. No primeiro utilizou-se uma rede recorrente simples para determinar a referência corretamente. No segundo foi implementado um modelo composto de duas redes neurais: uma rede recorrente simples (Parser) e uma rede direta (Segmentador). Com este modelo é possível resolver o mesmo problema do primeiro experimento com segmentos de texto compostos de um número arbitrário de sentenças.
42

UMA INTERFACE ROBÓTICA BASEADA EM LINGUAGEM NATURAL

REIS, RICARDO ANDRE OLIVEIRA DOS 06 September 2006 (has links)
Submitted by Diogo Barreiros (diogo.barreiros@ufba.br) on 2017-02-17T16:34:22Z No. of bitstreams: 1 RicardoDissertacaoVersaoBiblioteca.pdf: 1164295 bytes, checksum: 7304acbc48549376d9ad9f44b57df96a (MD5) / Approved for entry into archive by Vanessa Reis (vanessa.jamile@ufba.br) on 2017-02-21T11:49:32Z (GMT) No. of bitstreams: 1 RicardoDissertacaoVersaoBiblioteca.pdf: 1164295 bytes, checksum: 7304acbc48549376d9ad9f44b57df96a (MD5) / Made available in DSpace on 2017-02-21T11:49:32Z (GMT). No. of bitstreams: 1 RicardoDissertacaoVersaoBiblioteca.pdf: 1164295 bytes, checksum: 7304acbc48549376d9ad9f44b57df96a (MD5) / As interfaces entre os seres humanos e as máquinas tornam-se mais amigáveis a cada dia. A evolução tecnológica destas interfaces tende para formas mais humanas de comunicação. Máaquinas com interfaces mais amigáveis têm o intuito de facilitar a sua utilização por usuários sem treinamentos técnicos específicos. / O objetivo deste trabalho ´e a proposi¸c˜ao de uma interface entre seres humanos e robˆos utilizando a linguagem natural escrita no idioma portuguˆes como protocolo de comunica¸c˜ao. Neste contexto, enfatizou-se uma abordagem para a utiliza¸c˜ao de t´ecnicas da Descoberta de Conhecimento em Textos baseada em Conceitos, cujo processo visa extrair padr˜oes interessantes e n˜ao triviais ou conhecimento de documentos textuais. Apesar dos recentes avan¸cos e da diversidade de artigos e pesquisas na ´area, aplica¸c˜oes das t´ecnicas de processamento de linguagem natural ainda se encontram em est´agio incipiente de desenvolvimento. O m´etodo proposto neste trabalho tem por objetivo interpretar o texto escrito e associar comandos de execu¸c˜ao de tarefas a serem realizadas, caracter´ıstica que diferencia a t´ecnica apresentada das t´ecnicas usuais. Exemplos reais de aplica¸c˜ao est˜ao ilustrados neste trabalho e um estudo de caso ´e enfatizado com aplica¸c˜ao em uma interface rob´otica
43

Aquisição de Conhecimento de Mundo para Sistemas de Processamento de Linguagem Natural / World of Knowledge Acquisition for Systems of Natural Language Processing

Silva, José Wellington Franco da January 2013 (has links)
SILVA, J. W. F. Aquisição de Conhecimento de Mundo para Sistemas de Processamento de Linguagem Natural. 2013. 88 f. Dissertação (Mestrado em Ciência da Computação) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2013. / Submitted by Daniel Eduardo Alencar da Silva (dealencar.silva@gmail.com) on 2015-01-23T19:47:08Z No. of bitstreams: 1 2013_dis_jwfsilva.pdf: 3234188 bytes, checksum: 9b5bbdb17bd9bce014a2e05dd96198bc (MD5) / Approved for entry into archive by Rocilda Sales(rocilda@ufc.br) on 2015-09-23T16:29:07Z (GMT) No. of bitstreams: 1 2013_dis_jwfsilva.pdf: 3234188 bytes, checksum: 9b5bbdb17bd9bce014a2e05dd96198bc (MD5) / Made available in DSpace on 2015-09-23T16:29:07Z (GMT). No. of bitstreams: 1 2013_dis_jwfsilva.pdf: 3234188 bytes, checksum: 9b5bbdb17bd9bce014a2e05dd96198bc (MD5) Previous issue date: 2013 / One of the challenges of research in Natural Language Processing(NLP) is to provide semantic and linguistic resources to express knowledge of the world to support tasks such as Information Extraction, Information Retrieval systems, Questions & Answering, Text Summarization, Annotation Semantics of texts, etc. For this challenge this work proposes strategies for acquiring knowledge of the world. We propose two methods. The first is a semi-automatic method that has main idea of using a semantic reasoning process on pre-existing knowledge base semantics. The second is an acquisition method that utilizes automatic Wikipedia for generating semantical content. Wikipedia was used as a source of knowledge because of the reliability, dynamism and scope of its content. In this work we propose a method for acquiring semantic relations between concepts from the texts of Wikipedia articles that makes use of an implicit knowledge that exists in Wikipedia and in hypermedia systems: links between articles. Throughout the descriptive text of a Wikipedia article appear links to other articles that are evidence that there is a relationship between the current article and another article referenced by the link. The proposed method aims to capture the semantic relationship expressed in the text between them (current article and link to another article), no regular expressions identifying similar relationships through a semantic similarity measure. / Um dos desafios das pesquisas na área de Processamento de Linguagem Natural (PLN) é prover recursos semântico-linguísticos que expressem conhecimento de mundo para suportar tarefas como: extração de informação, recuperação de informação, sistemas de perguntas e respostas, sumarização de textos, anotação semântica de textos, dentre outras. Para esse desafio este trabalho propõe estratégias para aquisição de conhecimento de mundo. Propomos dois métodos. O primeiro é um método semiautomático que tem como ideia principal utilizar um processo de raciocínio semântico sobre o conhecimento pré-existente em uma base semântica. O segundo é um método de aquisição automática que utiliza a Wikipédia para a geração de conteúdo semântico. A Wikipédia foi utilizada como fonte de conhecimento devido à confiabilidade, dinamicidade e abrangência de seu conteúdo. Neste trabalho propomos um método para aquisição de relações semânticas entre conceitos a partir de textos de artigos da Wikipédia que faz uso de um conhecimento implícito existente na Wikipédia e em sistemas hipermídia: os links entre artigos. Ao longo do texto descritivo de um artigo da Wikipédia aparecem links para outros artigos que são evidências de que há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar a relação semântica expressa no texto entre eles (artigo corrente e link para outro artigo), sem expressões regulares identificando relações similares através de uma medida de similaridade semântica.
44

Um modelo para extração de perfil de especialista aplicado às ferramentas de expertise location e apoio à Gestão do Conhecimento

Taxweiler, Rudger Nowasky do Nascimento January 2016 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2016. / Made available in DSpace on 2016-10-19T13:24:29Z (GMT). No. of bitstreams: 1 342967.pdf: 3382403 bytes, checksum: 5b1ea8ceb62ea1281bb5c8aff1b15cdf (MD5) Previous issue date: 2016 / As ferramentas de Expertise Location podem ser utilizadas amplamente na Gestão do Conhecimento para apoiar a identificação e o compartilhamento do conhecimento. Porém, manter os dados dos colaboradores de uma organização atualizados nessas ferramentas pode ser desafiador. Muitas vezes, os colaboradores precisam preencher as mesmas informações em diversos sistemas. Como uma abordagem alternativa para simplificar esse processo de atualização dos dados, este trabalho propõe um modelo para a extração automática de perfis de especialistas a partir de seus documentos não estruturados. Assim, realizou-se uma pesquisa aplicada e exploratória com base em uma revisão integrativa da literatura, a qual resultou na identificação das abordagens atuais para a extração de perfil de especialista que permitisse a construção desse modelo. A partir dessas abordagens, foram elaborados um modelo conceitual e um protótipo baseados em Processamento de Linguagem Natural para a tarefa de extração de informações de perfil de especialistas que possam fornecer insumos para a identificação de seus conhecimentos e de suas áreas de interesse. A implementação do protótipo resultou também em uma ferramenta de código aberto. Tal ferramenta é disponibilizada em um site público, em conjunto com o seu código-fonte, e gera uma página de perfil com o uso de componentes de tag cloud e timeline. Com o intuito de verificar a viabilidade do modelo proposto, a partir de documentos de voluntários, foram executados testes comparando os perfis gerados pela ferramenta com os perfis presentes na rede social LinkedIn. Os resultados dos testes demonstraram que o modelo proposto pode representar uma alternativa viável para a geração de perfis de especialistas de forma automática com o objetivo de apoiar as ferramentas de Expertise Location em uma organização. Consequentemente, a adoção desse modelo pode reduzir a necessidade de atualizações constantes dos perfis de especialistas de forma manual.<br> / Abstract : The Expertise Location Tools can be widely used in Knowledge Management in order to support the identification and sharing of the knowledge. However, to keep the data of the employees of an organization updated in those tools can be challenging. From time to time, employees need to fill out the same data in different systems. As an alternative approach to simplify this process of updating the data, this paper proposes a model for the automatic extraction of expert profiles from their own non-structural documents. Thus, an applied and exploratory research based on an integrative literature review was carried out, resulting in the identification of the current approaches to the extraction of an expert profile that could allow the construction of this model. From these approaches were elaborated a conceptual model and a prototype based on Natural Language Processing for the task of extraction of information from expert profiles that could provide inputs to the identification of their expertise and their areas of interest. The prototype implementation has also resulted in an open source tool. This tool is available on a public website together with its source code and it generates a profile page using the tag cloud and timeline components. In order to verify the feasibility of the proposed model, tests from documents of volunteers were performed comparing the profiles generated by the tool with those profiles on LinkedIn social network. The test results demonstrated that the proposed model can represent a viable alternative to the generation of automatically expert profiles in order to support Expertise Location tools in an organization. Consequently, the adoption of this model can reduce the need for constant updates of the expert profiles.
45

Proposta de sistema de diálogo textual independente de aplicação

Souza, Gilberto Corrêa de January 2004 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-graduação em Ciência da Computação / Made available in DSpace on 2012-10-21T16:24:58Z (GMT). No. of bitstreams: 1 209246.pdf: 1535582 bytes, checksum: e071094f8339f424950525996053bb10 (MD5) / Este trabalho propoe uma abordagem para o desenvolvimento de um sistema de dialogo. Trata-se de um sistema computacional, uma interface para humanos interagirem de forma mais natural com aplicaçoes que fornecem serviços diversos, tais como: previsao de tempo, consulta de reservas, dentre outras. Para se entender a base de funcionamento desse tipo de sistema, sao apresentados os conceitos do processamento de linguagem natural, sistema de dialogo generico e alguns exemplos de sistemas de dialogo desenvolvidos, explicitando suas caracteristicas e aplicaçoes. Com base nos conceitos e experiencias comprovadas de sistemas anteriores, apresenta-se a especificaçao de um modelo de dialogo que possui dois componentes-chaves, a saber: um componente capaz de gerenciar o dialogo por meio de principios racionais e cooperativos e outro, cujo uso da noçao computacional de ontologia toma lugar na comunicaçao entre usuarios e aplicaçoes fornecedoras de serviços. Ao final deste trabalho a proposta de um sistema de dialogo e apresentada, entretanto sua implementaçao e apenas sugerida por um exemplo, visto que o desenvolvimento de um sistema de dialogo completo
46

Um modelo de Parser para aplicação em ambientes de projeto de sistemas mecânicos

Santos, Francisco das Chagas Mendes dos January 2002 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-19T17:27:14Z (GMT). No. of bitstreams: 0Bitstream added on 2014-09-26T02:29:19Z : No. of bitstreams: 1 187954.pdf: 2733003 bytes, checksum: 9c353c7f5d50ca5cfe02d1672accf5bd (MD5) / Este trabalho tem como objetivo propor um modelo para implementação de um Parser para ambientes de projeto de produtos com ênfase no projeto de peças, componentes ou sistemas mecânicos. Trata-se de uma proposta de auxílio computacional estruturada a partir do processamento da linguagem natural dos projetistas desses ambientes, baseada na análise da estrutura funcional da peça segundo a sua função global ou as suas funções parciais ou elementares. O modelo pretende analisar e verificar a possibilidade de featurização da intenção morfológica do projetista, o que poderia viabilizar a integração do próprio processo de projeto de peças, componentes ou sistemas mecânicos com sistemas CAD, tendo como suporte bibliotecas ou de bancos de dados de features de domínio específico. A perspectiva desse trabalho é a da superação da abordagem de procedimentos que sugerem o uso excessivo e direcionador de questionários e, principalmente, da limitação da linguagem escrita dos projetistas. Na estrutura do processo de projeto, este trabalho se situa entre as fases de projeto conceitual e preliminar, onde as intenções morfológicas do projetista, em relação às peças, podem ser identificadas, estruturadas e materializadas para o produto, tornando-se um aspecto central e explícito do mesmo.
47

O reconhecimento de entidades nomeadas por meio de conditional Random Fields para a língua portuguesa

Amaral, Daniela Oliveira Ferreira do January 2013 (has links)
Made available in DSpace on 2014-04-25T02:01:57Z (GMT). No. of bitstreams: 1 000457280-Texto+Completo-0.pdf: 1466158 bytes, checksum: 50a287eaebe41a6c016dd9b8f5bac19d (MD5) Previous issue date: 2013 / Many tasks in Natural Language Processing involves the provision of a large number of variables, which depend on each other. Structured prediction methods are essentially a combination of classification and modeling based on graphs. They combine the power of classification methods with the ability of this type of modeling to play compactly, multivariate data. The classification methods perform prediction using a large set of features as input. Conditional Random Fields (CRF) is a probabilistic method for predicting structured and has been widely applied in various areas such as natural language processing, including the Named Entity Recognition (NER), computer vision, and bioinformatics. Therefore, this dissertation proposes the application of CRF to NER for the Portuguese Language and to evaluate their performance based on the HAREM corpus. Finally, comparative tests of similar approaches were performed, illustrating the efficiency and competitiveness of the proposed system. / Muitas tarefas de Processamento da Linguagem Natural envolvem a previsão de um grande número de variáveis, as quais dependem umas das outras. Métodos de predição estruturada são, essencialmente, uma combinação de classificação e de modelagem baseada em grafo. Eles unem a competência dos métodos de classificação com a capacidade desse tipo de modelagem de reproduzir, compactamente, dados multivariados. Os métodos de classificação realizam a predição usando um grande conjunto de features como entrada. Conditional Random Fields (CRF) é um método probabilístico de predição estruturada e tem sido amplamente aplicado em diversas áreas, tais como processamento da linguagem natural, incluindo o Reconhecimento de Entidades Nomeadas (REN), visão computacional e bioinformática. Sendo assim, neste trabalho é proposta a aplicação do CRF para o REN em textos da Língua Portuguesa e, sequencialmente, avaliar o seu desempenho com base no corpus do HAREM. Finalmente, testes comparativos da abordagem determinada versus a similar da literatura foram realizados, ilustrando a competitividade e eficácia do sistema proposto.
48

Resolução de correferências em língua portuguesa: pessoa, local e organização

Fonseca, Evandro Brasil January 2014 (has links)
Made available in DSpace on 2014-06-25T02:02:05Z (GMT). No. of bitstreams: 1 000458767-Texto+Completo-0.pdf: 3173862 bytes, checksum: 0f4ea1ec0b9741e176522697d0d4dd1d (MD5) Previous issue date: 2014 / Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains.These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest. Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability. The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains. Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art. / Resolução de correferências é um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e expressões que remetem a uma mesma entidade. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural (PLN), pois vários sistemas necessitam dessa tarefa, como, por exemplo, a extração de relação entre entidades nomeadas. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a língua portuguesa motivaram trabalhar com essa língua nesta dissertação de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolução de correferências em língua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organização.Optou-se por essas três categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais específicas e de interesse comum. Além disso, são as categorias mais exploradas em trabalhos voltados à resolução de correferência. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a língua portuguesa utilizar recursos proprietários. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada é baseada em aprendizado de máquina supervisionado. Para tal, o uso de features que auxiliem na correta classificação de pares de sintagmas como correferentes ou não-correferentes é fundamental para,posteriormente,agrupá-los, gerando cadeias de correferência. Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta dissertação são animadores, quando comparados indiretamente, por meio de uma mesma métrica, ao atual estado da arte.
49

A solution to extractive summarization based on document type and a new measure for sentence similarity

MELLO, Rafael Ferreira Leite de 20 March 2015 (has links)
Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-02-19T18:25:04Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) TESE Rafael Ferreira Leite de Mello.pdf: 1860839 bytes, checksum: 4d54a6ef5e3c40f8bce57e3cc957a8f4 (MD5) / Made available in DSpace on 2016-02-19T18:25:04Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) TESE Rafael Ferreira Leite de Mello.pdf: 1860839 bytes, checksum: 4d54a6ef5e3c40f8bce57e3cc957a8f4 (MD5) Previous issue date: 2015-03-20 / The Internet is a enormous and fast growing digital repository encompassing billions of documents in a diversity of subjects, quality, reliability, etc. It is increasingly difficult to scavenge useful information from it. Thus, it is necessary to provide automatically techniques that allowing users to save time and resources. Automatic text summarization techniques may offer a way out to this problem. Text summarization (TS) aims at automatically compress one or more documents to present their main ideas in less space. TS platforms receive one or more documents as input to generate a summary. In recent years, a variety of text summarization methods has been proposed. However, due to the different document types (such as news, blogs, and scientific articles) it became difficult to create a general TS application to create expressive summaries for each type. Another related relevant problem is measuring the degree of similarity between sentences, which is used in applications, such as: text summarization, information retrieval, image retrieval, text categorization, and machine translation. Recent works report several efforts to evaluate sentence similarity by representing sentences using vectors of bag of words or a tree of the syntactic information among words. However, most of these approaches do not take in consideration the sentence meaning and the words order. This thesis proposes: (i) a new text summarization solution which identifies the document type before perform the summarization, (ii) the creation of a new sentence similarity measure based on lexical, syntactic and semantic evaluation to deal with meaning and word order problems. The previous identification of the document types allows the summarization solution to select the methods that is more suitable to each type of text. This thesis also perform a detailed assessment with the most used text summarization methods to selects which create more informative summaries for news, blogs and scientific articles contexts.The sentence similarity measure proposed is completely unsupervised and reaches results similar to humans annotator using the dataset proposed by Li et al. The proposed measure was satisfactorily applied to evaluate the similarity between summaries and to eliminate redundancy in multi-document summarization. / Atualmente a quantidade de documentos de texto aumentou consideravelmente principalmente com o grande crescimento da internet. Existem milhares de artigos de notícias, livros eletrônicos, artigos científicos, blog, etc. Com isso é necessário aplicar técnicas automáticas para extrair informações dessa grande massa de dados. Sumarização de texto pode ser usada para lidar com esse problema. Sumarização de texto (ST) cria versões comprimidas de um ou mais documentos de texto. Em outras palavras, palataformas de ST recebem um ou mais documentos como entrada e gera um sumário deles. Nos últimos anos, uma grande quantidade de técnicas de sumarização foram propostas. Contudo, dado a grande quantidade de tipos de documentos (por exemplo, notícias, blogs e artigos científicos) é difícil encontrar uma técnica seja genérica suficiente para criar sumários para todos os tipos de forma eficiente. Além disto, outro tópico bastante trabalhado na área de mineração de texto é a análise de similaridade entre sentenças. Essa similaridade pode ser usada em aplicações como: sumarização de texto, recuperação de infromação, recuperação de imagem, categorização de texto e tradução. Em geral, as técnicas propostas são baseados em vetores de palavras ou árvores sintáticas, com isso dois problemas não são abordados: o problema de significado e de ordem das palavras. Essa tese propõe: (i) Uma nova solução em sumarização de texto que identifica o tipo de documento antes de realizar a sumarização. (ii) A criação de uma nova medida de similaridade entre sentenças baseada nas análises léxica, sintática e semântica. A identificação de tipo de documento permite que a solução de sumarização selecione os melhores métodos para cada tipo de texto. Essa tese também realizar um estudo detalhado sobre os métodos de sumarização para selecinoar os que criam sumários mais informativos nos contextos de notícias blogs e artigos científicos. A medida de similaridade entre sentences é completamente não supervisionada e alcança resultados similarires dos anotadores humanos usando o dataset proposed por Li et al. A medida proposta também foi satisfatoriamente aplicada na avaliação de similaridade entre resumos e para eliminar redundância em sumarização multi-documento.
50

Extração de informação usando integração de componentes de PLN através do framework GATE

de Souza Cabral, Luciano 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:53:11Z (GMT). No. of bitstreams: 2 arquivo1907_1.pdf: 1663192 bytes, checksum: 21a772bd61ef448147054bfaa52598d1 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / A Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura, alcançando um reconhecimento acima de 80% em média. Efetuando uma comparação com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema é mais preciso em relação ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora já processados denotam melhores resultados nas execuções posteriores, em média 6% na precisão, o que sugere que corpora não anotados devem ser processados duas vezes em seqüência para a obtenção de melhor performance na tarefa de extração, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraí-las

Page generated in 0.1426 seconds