Spelling suggestions: "subject:"processamento dda linguagem batural"" "subject:"processamento dda linguagem datural""
31 |
Lexicalização de ontologias : o relacionamento entre conteúdo e significado no contexto da recuperação da informaçãoSchiessl, Marcelo 16 April 2015 (has links)
Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2015. / Investiga as tecnologias da Web Semântica e as técnicas de Processamento de Linguagem Natural para a elaboração semiautomática de uma base léxico-ontológica, em Português, circunscrita ao domínio de risco financeiro que, incorporada ao modelo de recuperação da informação, visa melhorar a precisão. Identifica teorias, ferramentas e técnicas que propiciam a automatização de procedimentos que extraem elementos ontológicos e léxicos de bases estruturadas e não estruturadas. Esses elementos combinados na forma de base de dados apoiam a geração de índice léxico-semântico que fornece insumos para a proposição de modelo de recuperação da informação semântica. A metodologia adotada se apresenta em: levantamento de fundamentos teóricos e metodológicos, ferramentas e bases de dados ontológicas e textuais; construção de ontologia e base léxico-ontológica com foco no risco financeiro; elaboração de modelo de recuperação da informação semântica; avaliação do modelo realizada num corpus de informação relacionada ao risco financeiro que foi indexado nos moldes tradicionais e contemplando a informação semântica para, então, medir a precisão nas duas situações. Os resultados alcançados demonstram a utilização da metodologia, no domínio de risco financeiro em Português, para a elaboração da ontologia OntoRisco, da base léxico-semântica RiscoLex e da proposta de modelo de recuperação da informação semântica que mostrou resultados superiores aos modelos de recuperação da informação tradicionais, nos testes realizados. Conclui que os resultados satisfatórios mostram a aplicabilidade da proposta metodológica para o domínio em questão e aponta para a possibilidade de expandir a outros domínios com as devidas adaptações dos recursos utilizados. O estudo contribui para a área de representação e organização da informação e do conhecimento na medida em que fornece metodologia, aporte teórico e insumos para que profissionais continuem promovendo o desenvolvimento da Ciência da Informação. / This research investigates Semantic Web technologies, and Natural Language Processing techniques in order to semi automatically develop a lexicon-ontological database in Portuguese. This base is intended to improve the precision measurement in the financial risk domain by coupling it into an information retrieval model. It identi This research investigates Semantic Web technologies, and Natural Language Processing techniques in order to semi automatically develop a lexicon-ontological database in Portuguese. This base is intended to improve the precision measurement in the financial risk domain by coupling it into an information retrieval model. It identifies theories, tools and techniques that allow the automation of procedures that extract ontological and lexical elements from structured and non-structured databases. When these lexical and ontological elements are together in a database format, they give support to the generation of lexico-semantic index that can help the creation of semantic information retrieval models. The methodology used is as follows: surveys of methodological and theoretical fundamentals, tools, as well as ontological and textual databases; creation of an ontology and a lexicon-ontology base in the financial risk domain; elaboration of semantic information retrieval model; evaluation of the model using an information corpus related to financial risks – it was indexed by using traditional techniques, i.e. keywords, and also using semantic information; and then the precision of both situations was finally measured. The results achieved demonstrate the methodology used in the financial risk domain to elaborate the ontology, OntoRisco, using the lexico-semantic database, RiscoLex, and the semantic informational retrieval model proposed in this work. In the tests executed, the results were better than those presented by using traditional information retrieval models. It concludes that the results were quite satisfying since they show the applicability of the methodological proposal to the financial risk domain. In addition, it points the possibility of extending the proposal to other domains with only some adaptations.es theories, tools and techniques that allow the automation of procedures that extract ontological and lexical elements from structured and non-structured databases. When these lexical and ontological elements are together in a database format, they give support to the generation of lexico-semantic index that can help the creation of semantic information retrieval models. The methodology used is as follows: surveys of methodological and theoretical fundamentals, tools, as well as ontological and textual databases; creation of an ontology and a lexicon-ontology base in the financial risk domain; elaboration of semantic information retrieval model; evaluation of the model using an information corpus related to financial risks – it was indexed by using traditional techniques, i.e. keywords, and also using semantic information; and then the precision of both situations was finally measured. The results achieved demonstrate the methodology used in the financial risk domain to elaborate the ontology, OntoRisco, using the lexico-semantic database, RiscoLex, and the semantic informational retrieval model proposed in this work. In the tests executed, the results were better than those presented by using traditional information retrieval models. It concludes that the results were quite satisfying since they show the applicability of the methodological proposal to the financial risk domain. In addition, it points the possibility of extending the proposal to other domains with only some adaptations.
|
32 |
Recursos do processamento da língua natural aplicados na recuperação semântica de documentos de caso de usoSilva Júnior, Custódio Gastão da January 2012 (has links)
Made available in DSpace on 2013-08-07T18:42:54Z (GMT). No. of bitstreams: 1
000442334-Texto+Completo-0.pdf: 1018335 bytes, checksum: c77dd540cf5f9308c80ab3c9f7da5374 (MD5)
Previous issue date: 2012 / The Requirements Engineering basically deals with how to discover, analyze, register and verify the functions and restrictions that software must consider. In this process the designer not only concentrates in understanding the necessities, goals and certainties of the interested users but also in changing them into software devices. This process is known as development cycle and it is carried out until the software covers all the requirements of the involved users. This study describes how the resources of the natural language processing were used in the construction for a solution of semantics recovery of use case document and it also presents the reached findings. For the construction of the solution, it is specified a method that organizes the preparation and recovery works in two phases. The first describes the form how the corpus must be prepared and how the terms used in the preparation phase can be used in the definition of the keys concepts of the domain. The second phase explains how the document recovery is carried out and shows how the described relationships in the ontology are used to improve the results of the recovery. The presented findings reveal the described method in this study is efficient, since it presented a covering of 100% in both tests. Related of measure of precision, that presented an inferior result of 50%, it was compensated by the ranking algorithm that sorted the documents of similar form of the manual classification done by the users. / A engenharia de requisitos trata fundamentalmente de como descobrir, analisar, documentar e verificar as funções e restrições que um software deve contemplar. Neste processo o projetista se concentra em entender as necessidades, metas e convicções dos interessados e em como transformá-las em artefatos de software. Isso é conhecido como ciclo de desenvolvimento e é realizado até que o software atenda todos os requisitos dos interessados. Este trabalho descreve como os recursos do processamento da língua natural foram utilizados na construção de uma solução para recuperação semântica de documentos de caso de uso e apresenta os resultados alcançados. Para a construção da solução, foi especificado um método que organiza os trabalhos de preparação e recuperação em duas fases. A primeira descreve a forma como o corpus deve ser preparado e como os termos utilizados na preparação podem ser utilizados na definição das palavras-chave do domínio. A segunda fase explica como a recuperação de documentos é realizada, e mostra como os relacionamentos descritos na ontologia são utilizados para melhorar os resultados da recuperação. Os resultados apresentados mostram que o método descrito neste trabalho é promissor, visto que ele apresentou cobertura de 100% em ambos os testes. Quanto a medida de precisão, que apresentou resultado inferior a 50%, o resultado foi compensado pelo algoritmo de ranking que ordenou os documentos de forma similar a classificação manual feita pelos usuários.
|
33 |
Resolução de correferência e categorias de entidades nomeadasMoraes, Tatiane Coreixas January 2010 (has links)
Made available in DSpace on 2013-08-07T18:42:54Z (GMT). No. of bitstreams: 1
000427028-Texto+Completo-0.pdf: 957635 bytes, checksum: fbedf4df218091e4bc1e919c4ffd808b (MD5)
Previous issue date: 2010 / Coreference is defined as the relationship of linguistic expressions with one same entity of the world. Automatic coreference resolution is inserted in a very important context in the area of Natural Language Processing, because many systems require this task. This level of language processing depends on world knowledge, and this is still a challenge for the area. This challenge has stimulated and became the subject of this dissertation. Accordingly, we analyzed the role of categories of named entities and, through machine learning, we checked the conditions for resolution of different categories. The results of the experiments showed that world knowledge, represented by categories of named entities, helps in this task, since the percentage of return of the system based on the categories improved in about 17% when compared to the version without the categories. / Define-se correferência como a relação entre diversos componentes linguísticos com uma mesma entidade de mundo. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural, pois vários sistemas necessitam dessa tarefa. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. Esse desafio estimulou e tornou-se o objeto de estudo desta dissertação. Nesse sentido, analisamos o papel das categorias de entidades nomeadas e, através de aprendizado de máquina, verificamos as condições de resolução em diferentes categorias. Os resultados dos experimentos demonstraram que o conhecimento de mundo, representado nas categorias de entidades nomeadas, auxilia nessa tarefa, pois o percentual de retorno do sistema com base nas categorias teve uma melhora de 17% em comparação com a versão sem as categorias.
|
34 |
Expansão de consultas com realimentação e pseudo realimentação de relevantes em um sistema que utiliza o modelo TR+ para indexar e recuperar documentosBorges, Thyago Bohrer January 2009 (has links)
Made available in DSpace on 2013-08-07T18:43:05Z (GMT). No. of bitstreams: 1
000416994-Texto+Completo-0.pdf: 2345425 bytes, checksum: 75ba39cb209e96c61f3f88810380759c (MD5)
Previous issue date: 2009 / This work presents and debates the results of applying query expansion techniques such as Pseudo Relevance Feedback (PRF) and Relevance Feedback (RF) in an Information Retrieval System (IRS) that uses the information retrieval model TR+. TR+ makes use of terms and Binary Lexical Relationships (BLR) that appear in texts and queries in order to index and retrieve textual documents in Portuguese. The application of the query expansion techniques PRR and RR aims to improve the results provided by the users' queries therefore the documents retrieved are able to fulfill their needs. PRR and RR differ with respect to the users' role: while relevance feedback makes use of the user judgment for defining which documents retrieved by the original query will provide the information for QE, PRF seeks to automate such decision processo The experimental results using PRF and RF did not outperform the baseline results (Gonzalez, 2005). When comparing both techniques, we have noticed PRF was outperformed by RF only once. In the context of this dissertation, we can conclude that the use of BLRs is a more productive option when compared to the use of terms for QE. / Este trabalho apresenta e discute os resultados obtidos com a aplicação das técnicas de expansão de consulta denominadas Pseudo Realimentação de Relevantes (PRR) e Realimentação de Relevantes (RR) em um Sistema de Recuperação de Informação (SRI) que utiliza o modelo de recuperação de informação denominado TR+. TR+ é um modelo de recuperação de informação que emprega, além de termos, Relações Lexicais Binárias (RLB) presentes nos textos e nas consultas, para indexar e recuperar documentos textuais em língua portuguesa. A aplicação das técnicas de expansão de consultas PRR e RR têm como objetivo melhorar os resultados obtidos pelo usuário que realiza uma consulta. As duas técnicas se diferenciam quanto à participação do usuário: enquanto a RR utiliza o julgamento do usuário na definição de quais documentos recuperados pela consulta original fornecerão as informações utilizadas na expansão da consulta, a PRR busca eliminar a participação do usuário durante este processo. Os resultados obtidos pelos experimentos, tanto utilizando PRR quanto RR, não superaram os resultados utilizados como baseline (Gonzalez, 2005). Ao compararmos entre si os resultados dos experimentos com as técnicas PRR e RR, os experimentos com PRR foram superados pela RR somente em uma rodada. No contexto dessa dissertação podemos concluir que a utilização de RLBs ao invés de usar somente termos, é uma opção mais producente.
|
35 |
Construção de estruturas ontológicas a partir de textos: um estudo baseado no método formal concept analysis e em papéis semânticosMoraes, Sílvia Maria Wanderley January 2012 (has links)
Made available in DSpace on 2013-08-07T18:43:12Z (GMT). No. of bitstreams: 1
000439881-Texto+Completo-0.pdf: 4189361 bytes, checksum: cc72da8cbd69a8a5387851bb140f1b30 (MD5)
Previous issue date: 2012 / This work aims to study conceptual structures based on the Formal Concept Analysis method. We build these structures based on lexico-semantic information extracted from texts, among which we highlight the semantic roles. In our research, we propose ways to include semantic roles in concepts produced by this formal method. We analyze the contribution of semantic roles and verb classes in the composition of these concepts through structural measures. In these studies, we use the Penn Treebank Sample and SemLink 1. 1 corpora, both in English. We test, also for English, the applicability of our proposal in the Finance and Tourism domains with text extracted from the Wikicorpus 1. 0. This applicability was extrinsically analyzed based on the text categorization task, which was evaluated through functional measures traditionally used in this area. We also performed some preliminary studies for a corpus in Portuguese: PLN-BR CATEG. In our studies, we obtained satisfactory results which show that the proposed approach is promising. / Este trabalho tem como propósito estudar estruturas conceituais geradas seguindo o método Formal Concept Analysis. Usamos na construção dessas estruturas informações lexicossemânticas extraídas dos textos, dentre as quais se destacam os papéis semânticos. Em nossa pesquisa, propomos formas de inclusão de tais papéis nos conceitos produzidos por esse método formal. Analisamos a contribuição dos papéis semânticos e das classes de verbos na composição dos conceitos, por meio de medidas de ordem estrutural. Nesses estudos, utilizamos os corpora Penn TreeBank Sample e SemLink 1. 1, ambos em Língua Inglesa. Testamos, também para Língua Inglesa, a aplicabilidade de nossa proposta nos domínios de Finanças e Turismo com textos extraídos do corpus Wikicorpus 1. 0. Essa aplicabilidade foi analisada extrinsecamente com base na tarefa de categorização de textos, a qual foi avaliada a partir de medidas de ordem funcional tradicionalmente usadas nessa área. Realizamos ainda alguns estudos preliminares relacionados à nossa proposta para um corpus em Língua Portuguesa: PLN-BR CATEG. Obtivemos, nos estudos realizados, resultados satisfatórios os quais mostram que a abordagem proposta é promissora.
|
36 |
Reconhecimento de entidades nomeadas e relações no domínio de privacidade e responsabilizaçãoBruckschen, Mírian January 2010 (has links)
Made available in DSpace on 2013-08-07T18:43:36Z (GMT). No. of bitstreams: 1
000434166-Texto+Completo-0.pdf: 1758256 bytes, checksum: cc66addbe46b0c23f53ed7ab0e0c41a8 (MD5)
Previous issue date: 2010 / Management of large masses of information is an area growing in interest and research, both in the academic environment and in the industry. Several mechanisms have already been proposed aiming the ease of creation, management and maintenance of knowledge bases, and recently ontologies have been considered as serious candidates for this task. Ontologies are the main mechanism for knowledge representation in technological contexts as the Semantic Web. However, the manual construction of these ontologies is very expensive, due to the amount of information to be processed for the execution of this task. With this motivation, this work proposes that ontology construction, more specifically their population, can be automatized through the task of Named Entity Recognition (NER). The work comprehends different tasks in Natural Language Processing area: Named Entity Recognition, Relations Recognition and Ontology Learning. For the execution of the ontology population task, we developed an ontology on the privacy domain and, after that, a method to populate this ontology using NER. This method comprehends population of the ontology with instances and relations. In order to validate this method, we developed a system that implements it. This system was tested over a corpus assembled by the author of this dissertation. This corpus is composed by documents of privacy and accountability area, and by legislation associated to this subject. In this dissertation we present the method, the developed system, the evaluations carried on for this work and final conclusions on the obtained results. / O gerenciamento de grandes volumes de informação é uma área de crescente interesse e pesquisa, tanto na academia quanto na indústria. Diferentes mecanismos já foram propostos com o objetivo de facilitar a criação, gerenciamento e manutenção de bases de conhecimento, e recentemente ontologias têm despontado como um forte candidato para tal função. Ontologias são o principal mecanismo para representação do conhecimento em contextos tecnológicos atuais como o da Web Semântica. Entretanto, a construção manual destas ontologias é custosa, dado o montante de informação a ser processada para a execução desta tarefa. Com esta motivação, este trabalho propõe que a confecção de ontologias, mais especificamente a sua população, pode ser automatizada pela tarefa de Reconhecimento de Entidades Nomeadas (REN). O trabalho compreende diferentes tarefas da área de Processamento de Linguagem Natural: Reconhecimento de Entidades Nomeadas, Reconhecimento de Relações e Aprendizado de Ontologias. Para a execução da tarefa de população de ontologias, foi construída manualmente uma ontologia do domínio de privacidade e posteriormente desenvolvido um método para executar a sua população através da tarefa de REN. Este método compreende a população da ontologia com instâncias e relações. Para validar este método, foi desenvolvido um sistema que o implementa. Este sistema foi testado sobre um corpus montado pela autora deste trabalho. Este corpus é composto por documentos da área de privacidade e responsabilização, e da legislação associada a este tema. São apresentados neste trabalho o método, o sistema desenvolvido, as avaliações a que este trabalho foi submetido e suas conclusões.
|
37 |
Inferência de emoções em fragmentos de textos obtidos do Facebook /Medeiros, Richerland Pinto. January 2017 (has links)
Orientador: João Fernando Marar / Banca: Antonio Carlos Sementille / Banca: Rodrigo Holdschip / Resumo: Esta pesquisa tem como objetivo analisar o uso da técnica estatística de aprendizado de máquina Maximização de Entropia, voltado para tarefas de processamento de linguagem natural na inferência de emoções em textos obtidos da rede social Facebook. Foram estudados os conceitos primordiais das tarefas de processamento de linguagem natural, os conceitos inerentes a teoria da informação, bem como o aprofundamento no conceito de um modelo entrópico como classificador de textos. Os dados utilizados na presente pesquisa foram obtidos de textos curtos, ou seja, textos com no máximo 500 caracteres. A técnica em questão foi abordada dentro do aprendizado supervisionado de máquina, logo, parte dos dados coletados foram usados como exemplos marcados dentro de um conjunto de classes predefinidas, a fim de induzir o mecanismo de aprendizado a selecionar a classe de emoção mais provável dado o exemplo analisado. O método proposto obteve índice de assertividade médio de 90%, baseado no modelo de validação cruzada. / Abstract: This research aims to analyze the use of entropy maximization machine learning statistical technique, focused on natural language processing tasks in the inferencing of emotions in short texts from Facebook social network. Were studied the primary concepts of natural language processing tasks, IT intrinsic concepts, as well as deepening the concept of Entropy model as a text classifier. All data used for this research came from short texts found in social networks and had 500 characters or less. The model was used within supervised machine learning, therefore, part of the collected data was used as examples marked within a set of predefined classes in order to induce the learning mechanism to select the most probable emotion class given the analyzed sample. The method has obtained the mean accuracy rate of 90%, based on the cross-validation model. / Mestre
|
38 |
Uma abordagem conexionista para resolução de anaforas pronominaisOliveira, Itamar Leite de January 1997 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnologico / Made available in DSpace on 2012-10-17T02:39:58Z (GMT). No. of bitstreams: 0Bitstream added on 2016-01-08T22:20:53Z : No. of bitstreams: 1
109014.pdf: 2393890 bytes, checksum: 2354242494078046fbd1a7ae16dfce4a (MD5) / Nesta dissertação foram implementadas redes neurais artificiais visando a resolução de um fenômeno lingüístico conhecido como referência anafórica. Foram resolvidas referências anafóricas pronominais com apenas dois pronomes pessoais, a saber: ele e ela. Foram realizados dois experimentos. No primeiro utilizou-se uma rede recorrente simples para determinar a referência corretamente. No segundo foi implementado um modelo composto de duas redes neurais: uma rede recorrente simples (Parser) e uma rede direta (Segmentador). Com este modelo é possível resolver o mesmo problema do primeiro experimento com segmentos de texto compostos de um número arbitrário de sentenças.
|
39 |
UMA INTERFACE ROBÓTICA BASEADA EM LINGUAGEM NATURALREIS, RICARDO ANDRE OLIVEIRA DOS 06 September 2006 (has links)
Submitted by Diogo Barreiros (diogo.barreiros@ufba.br) on 2017-02-17T16:34:22Z
No. of bitstreams: 1
RicardoDissertacaoVersaoBiblioteca.pdf: 1164295 bytes, checksum: 7304acbc48549376d9ad9f44b57df96a (MD5) / Approved for entry into archive by Vanessa Reis (vanessa.jamile@ufba.br) on 2017-02-21T11:49:32Z (GMT) No. of bitstreams: 1
RicardoDissertacaoVersaoBiblioteca.pdf: 1164295 bytes, checksum: 7304acbc48549376d9ad9f44b57df96a (MD5) / Made available in DSpace on 2017-02-21T11:49:32Z (GMT). No. of bitstreams: 1
RicardoDissertacaoVersaoBiblioteca.pdf: 1164295 bytes, checksum: 7304acbc48549376d9ad9f44b57df96a (MD5) / As interfaces entre os seres humanos e as máquinas tornam-se mais amigáveis a cada dia. A evolução tecnológica destas interfaces tende para formas mais humanas de comunicação. Máaquinas com interfaces mais amigáveis têm o intuito de facilitar a sua utilização por usuários sem treinamentos técnicos específicos. / O objetivo deste trabalho ´e a proposi¸c˜ao de uma interface entre seres humanos
e robˆos utilizando a linguagem natural escrita no idioma portuguˆes como protocolo
de comunica¸c˜ao. Neste contexto, enfatizou-se uma abordagem para a utiliza¸c˜ao de
t´ecnicas da Descoberta de Conhecimento em Textos baseada em Conceitos, cujo processo
visa extrair padr˜oes interessantes e n˜ao triviais ou conhecimento de documentos
textuais.
Apesar dos recentes avan¸cos e da diversidade de artigos e pesquisas na ´area,
aplica¸c˜oes das t´ecnicas de processamento de linguagem natural ainda se encontram
em est´agio incipiente de desenvolvimento. O m´etodo proposto neste trabalho tem
por objetivo interpretar o texto escrito e associar comandos de execu¸c˜ao de tarefas
a serem realizadas, caracter´ıstica que diferencia a t´ecnica apresentada das t´ecnicas
usuais. Exemplos reais de aplica¸c˜ao est˜ao ilustrados neste trabalho e um estudo de
caso ´e enfatizado com aplica¸c˜ao em uma interface rob´otica
|
40 |
Aquisição de Conhecimento de Mundo para Sistemas de Processamento de Linguagem Natural / World of Knowledge Acquisition for Systems of Natural Language ProcessingSilva, José Wellington Franco da January 2013 (has links)
SILVA, J. W. F. Aquisição de Conhecimento de Mundo para Sistemas de Processamento de Linguagem Natural. 2013. 88 f. Dissertação (Mestrado em Ciência da Computação) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2013. / Submitted by Daniel Eduardo Alencar da Silva (dealencar.silva@gmail.com) on 2015-01-23T19:47:08Z
No. of bitstreams: 1
2013_dis_jwfsilva.pdf: 3234188 bytes, checksum: 9b5bbdb17bd9bce014a2e05dd96198bc (MD5) / Approved for entry into archive by Rocilda Sales(rocilda@ufc.br) on 2015-09-23T16:29:07Z (GMT) No. of bitstreams: 1
2013_dis_jwfsilva.pdf: 3234188 bytes, checksum: 9b5bbdb17bd9bce014a2e05dd96198bc (MD5) / Made available in DSpace on 2015-09-23T16:29:07Z (GMT). No. of bitstreams: 1
2013_dis_jwfsilva.pdf: 3234188 bytes, checksum: 9b5bbdb17bd9bce014a2e05dd96198bc (MD5)
Previous issue date: 2013 / One of the challenges of research in Natural Language Processing(NLP) is to provide semantic and linguistic resources to express knowledge of the world to support tasks such as Information Extraction, Information Retrieval systems, Questions & Answering, Text Summarization, Annotation Semantics of texts, etc. For this challenge this work proposes strategies for acquiring knowledge of the world. We propose two methods. The first is a semi-automatic method that has main idea of using a semantic reasoning process on pre-existing knowledge base semantics. The second is an acquisition method that utilizes automatic Wikipedia for generating semantical content. Wikipedia was used as a source of knowledge because of the reliability, dynamism and scope of its content. In this work we propose a method for acquiring semantic relations between concepts from the texts of Wikipedia articles that makes use of an implicit knowledge that exists in Wikipedia and in hypermedia systems: links between articles. Throughout the descriptive text of a Wikipedia article appear links to other articles that are evidence that there is a relationship between the current article and another article referenced by the link. The proposed method aims to capture the semantic relationship expressed in the text between them (current article and link to another article), no regular expressions identifying similar relationships through a semantic similarity measure. / Um dos desafios das pesquisas na área de Processamento de Linguagem Natural (PLN) é prover recursos semântico-linguísticos que expressem conhecimento de mundo para suportar tarefas como: extração de informação, recuperação de informação, sistemas de perguntas e respostas, sumarização de textos, anotação semântica de textos, dentre outras. Para esse desafio este trabalho propõe estratégias para aquisição de conhecimento de mundo. Propomos dois métodos. O primeiro é um método semiautomático que tem como ideia principal utilizar um processo de raciocínio semântico sobre o conhecimento pré-existente em uma base semântica. O segundo é um método de aquisição automática que utiliza a Wikipédia para a geração de conteúdo semântico. A Wikipédia foi utilizada como fonte de conhecimento devido à confiabilidade, dinamicidade e abrangência de seu conteúdo. Neste trabalho propomos um método para aquisição de relações semânticas entre conceitos a partir de textos de artigos da Wikipédia que faz uso de um conhecimento implícito existente na Wikipédia e em sistemas hipermídia: os links entre artigos. Ao longo do texto descritivo de um artigo da Wikipédia aparecem links para outros artigos que são evidências de que há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar a relação semântica expressa no texto entre eles (artigo corrente e link para outro artigo), sem expressões regulares identificando relações similares através de uma medida de similaridade semântica.
|
Page generated in 0.105 seconds