Global ETD Search

1	Um método para povoamento de ontologias: extração de textos da web no idioma português Lima, Fabio dos Santos 05 November 2015 (has links) Submitted by Marcio Filho (marcio.kleber@ufba.br) on 2016-05-31T16:37:27Z No. of bitstreams: 1 Dissertação Fabio Dos Santos Lima-corrigida-final.pdf: 2297835 bytes, checksum: 2aade3f62d20fd717c9065135a1c1493 (MD5) / Approved for entry into archive by Alda Lima da Silva (sivalda@ufba.br) on 2016-06-03T23:23:38Z (GMT) No. of bitstreams: 1 Dissertação Fabio Dos Santos Lima-corrigida-final.pdf: 2297835 bytes, checksum: 2aade3f62d20fd717c9065135a1c1493 (MD5) / Made available in DSpace on 2016-06-03T23:23:38Z (GMT). No. of bitstreams: 1 Dissertação Fabio Dos Santos Lima-corrigida-final.pdf: 2297835 bytes, checksum: 2aade3f62d20fd717c9065135a1c1493 (MD5) / A produção e disponibilização de informações não estruturadas na Web aumentam diariamente. Essa abundância de informações desestruturadas representa um grande desafio para a aquisição de conhecimento que seja processado por seres humanos e também por máquinas. Nesse sentido, ao longo dos anos diversas abordagens têm sido propostas para a extração automática de informações a partir de textos escritos em linguagem natural. Contudo, ainda existem poucos estudos que investigam a extração de informações a partir de textos escritos em português. Diante disso, o objetivo deste trabalho é propor e avaliar uma abordagem não supervisionada para o povoamento de ontologias utilizando a Web como grande fonte de informações, no contexto da língua portuguesa. Além disso, apresenta: (i) uma breve discussão sobre medidas de pontuação baseadas na PMI (Pontuação de Informação Mútua); (ii) novas medidas de pontuação com base na PMI e no cálculo de Desvio Padrão; e (iii) uma avaliação das medidas discutidas no contexto de textos em português do Brasil extraídos da web. Os resultados obtidos com os experimentos realizados foram encorajadores e demonstraram que a abordagem proposta obteve uma taxa de precisão média de 70% na extração de instâncias de classes ontológicas. Ciência da Computação Ontologias Povoamento de Ontologias Extração de Informações
2	Um método não supervisionado para o povoamento de ontologias na web Oliveira, Hilário Tomaz Alves de 03 April 2013 (has links) Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:10:59Z No. of bitstreams: 2 Dissertaçao Hilario de Oliveira.pdf: 2168069 bytes, checksum: 2194d73125cc35848dcbff00dfd87929 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:20Z (GMT) No. of bitstreams: 2 Dissertaçao Hilario de Oliveira.pdf: 2168069 bytes, checksum: 2194d73125cc35848dcbff00dfd87929 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:20Z (GMT). No. of bitstreams: 2 Dissertaçao Hilario de Oliveira.pdf: 2168069 bytes, checksum: 2194d73125cc35848dcbff00dfd87929 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-04-03 / A Web Semântica proposta por Berners-Lee tem o objetivo de tornar explícito o significado dos dados disponíveis na Web. Com isso, é possível que esses dados sejam processados tanto por pessoas quanto por agentes inteligentes que passam a ter acesso à semântica dos dados presentes na Web. Entretanto, para que a Web Semântica se torne uma realidade, é necessário que grande parte desses dados estejam anotados semanticamente, algo que não ocorre atualmente. Como forma de solucionar esse problema, é crescente o interesse no desenvolvimento de sistemas capazes de extrair conteúdo semântico automaticamente a partir de fontes de dados não estruturados. Nesse contexto, o objetivo desta dissertação é definir um método automático, não supervisionado e independente de domínio capaz de extrair instâncias de classes ontológicas a partir de fontes de dados não estruturados escritos em linguagem natural disponíveis na Web. A metodologia proposta é guiada por uma ontologia de entrada que define quais conceitos devem ser povoados, e por um conjunto de padrões linguísticos independentes de domínio usados para extrair e classificar os candidatos a instâncias. Com o objetivo de obter uma alta taxa de precisão, neste trabalho é proposto uma Medida de Confiança Combinada (MCC), cujo objetivo é integrar diferentes medidas e heurísticas para classificar os candidatos a instâncias extraídos. Essa medida de confiança combinada foi definida a partir dos resultados de uma exaustiva análise comparativa entre vários parâmetros analisados. O método proposto é capaz ainda de extrair novos padrões linguísticos expandindo o conjunto inicial de padrões adotados. Os resultados obtidos com os experimentos realizados em diferentes domínios indicam que a metodologia proposta é capaz de extrair uma grande quantidade de instâncias de classes, além de integrar novos padrões linguísticos a cada iteração executada. Web semântica Ontologias Povoamento de ontologias
3	APPONTO-PRO: um processo incremental para o aprendizado e povoamento de ontologias de aplicação / APPONTO-PRO: an incremental process for learning and population of ontologies of application Santos, Suzane Carvalho dos 18 August 2014 (has links) Made available in DSpace on 2016-08-17T14:53:28Z (GMT). No. of bitstreams: 1 Suzane Carvalho dos Santos.pdf: 4549168 bytes, checksum: 85d08a343bc93d5bf241da9f6f02f5b4 (MD5) Previous issue date: 2014-08-18 / Ontologies are knowledge representation structures capable of expressing a set of entities of a domain, their relationships and axioms that are being used by modern knowledge based systems (KBS) in the decision making process. However, manual construction of ontology is expensive and subject to errors, thus a viable alternative is the automation of this process. Several techniques and tools have been developed to learn the different components of an ontology from textual sources, named concepts, hierarchies, instances, relationships, properties and axioms. However, these elements are generally acquired in a isolated manner. Due to the lack of approaches to acquire all the elements of an ontology jointly, there is a need to develop a process to make the reuse and the learning of each of the elements of an ontology in a synergistic manner. To attend this need, this work presents Apponto-Pro, an incremental learning process for populating application ontologies from textual information sources that is capable of generating a complete ontology through the integration of different techniques to generate isolated elements of an ontology. The process was evaluated through a case study that consisted in the automatic construction of Family_Law, an application ontology in the field of family law developed with Apponto-ProTool, a software tool to support Apponto-Pro that integrates the approaches that compound the whole process. This evaluation aimed to determine the effectiveness of the ontology constructed with Apponto-ProTool against an ontology manually built by a domain specialist and used as reference ontology. For this reason, the "precision"was calculated for the elements of the ontology automatically generated using the reference ontology. As a result it was found that in some cases the ontology developed with Apponto-ProTool tends to present more suitable results. / As ontologias são estruturas de representação de conhecimento capazes de expressar um conjunto de entidades de um dado domínio, seus relacionamentos e axiomas, sendo utilizadas pelos modernos Sistemas Baseados em Conhecimento (SBC) no processo de tomada de decisões. No entanto, a construção manual de ontologias é cara e sujeita a erros, sendo uma alternativa viável a sua construção de forma automática. Diversas técnicas e ferramentas têm sido desenvolvidas para aprender os diferentes componentes de uma ontologia a partir de fontes textuais, quais sejam conceitos, hierarquias, instâncias, relacionamentos, propriedades e axiomas. Entretanto estes elementos são, em regra, adquidiros de forma isolada. Devido à carência de abordagens que adquirem todos os elementos de uma ontologia de forma conjunta, surgiu a necessidade de desenvolver um processo que faça o reúso e a aprendizagem de cada um dos elementos de uma ontologia de forma completa. Atendendo a esta necessidade, este trabalho apresenta o Apponto-Pro, um processo incremental para o aprendizado e povoamento de ontologias de aplicação a partir de fontes de informação textuais capaz de gerar uma ontologia completa através da integração de diferentes técnicas que geram elementos da ontologia de forma isolada. O processo foi avalizado através de um estudo de caso que consistiu na construção automática da Family_Law, uma ontologia de aplicação no domínio do Direito da Família construída através da aplicação da ferramenta de software Apponto-ProTool, desenvolvida para dar suporte ao processo Apponto-Pro que integrou as ferramentas correspondentes as abordagens contidas no processo. Esta avaliação teve como objetivo verificar a efetividade da ontologia construída pela Apponto-ProTool em relação a uma ontologia construída manualmente por um especialista do domínio e utilizada como ontologia de referência. Para isso foi calculado o valor da medida "precision" para os elementos da ontologia construída utilizando a ontologia de referência. Como resultado verificou-se formalmente que em alguns casos a ontologia desenvolvida pela Apponto-ProTool tende a apresentar resultados mais adequados. Ontologias Aprendizagem de Ontologias Povoamento de Ontologias Integração de Ontologias Ontologies Ontology Learning Ontology population Ontology Integration
4	Ontoilper: an ontology- and inductive logic programming-based method to extract instances of entities and relations from texts Lima, Rinaldo José de, Freitas, Frederico Luiz Gonçalves de 31 January 2014 (has links) Submitted by Nayara Passos (nayara.passos@ufpe.br) on 2015-03-13T12:33:46Z No. of bitstreams: 2 TESE Rinaldo José de Lima.pdf: 8678943 bytes, checksum: e88c290e414329ee00d2d6a35a466de0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:16:54Z (GMT) No. of bitstreams: 2 TESE Rinaldo José de Lima.pdf: 8678943 bytes, checksum: e88c290e414329ee00d2d6a35a466de0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:16:54Z (GMT). No. of bitstreams: 2 TESE Rinaldo José de Lima.pdf: 8678943 bytes, checksum: e88c290e414329ee00d2d6a35a466de0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014 / CNPq, CAPES. / Information Extraction (IE) consists in the task of discovering and structuring information found in a semi-structured or unstructured textual corpus. Named Entity Recognition (NER) and Relation Extraction (RE) are two important subtasks in IE. The former aims at finding named entities, including the name of people, locations, among others, whereas the latter consists in detecting and characterizing relations involving such named entities in text. Since the approach of manually creating extraction rules for performing NER and RE is an intensive and time-consuming task, researchers have turned their attention to how machine learning techniques can be applied to IE in order to make IE systems more adaptive to domain changes. As a result, a myriad of state-of-the-art methods for NER and RE relying on statistical machine learning techniques have been proposed in the literature. Such systems typically use a propositional hypothesis space for representing examples, i.e., an attribute-value representation. In machine learning, the propositional representation of examples presents some limitations, particularly in the extraction of binary relations, which mainly demands not only contextual and relational information about the involving instances, but also more expressive semantic resources as background knowledge. This thesis attempts to mitigate the aforementioned limitations based on the hypothesis that, to be efficient and more adaptable to domain changes, an IE system should exploit ontologies and semantic resources in a framework for IE that enables the automatic induction of extraction rules by employing machine learning techniques. In this context, this thesis proposes a supervised method to extract both entity and relation instances from textual corpora based on Inductive Logic Programming, a symbolic machine learning technique. The proposed method, called OntoILPER, benefits not only from ontologies and semantic resources, but also relies on a highly expressive relational hypothesis space, in the form of logical predicates, for representing examples whose structure is relevant to the information extraction task. OntoILPER automatically induces symbolic extraction rules that subsume examples of entity and relation instances from a tailored graph-based model of sentence representation, another contribution of this thesis. Moreover, this graph-based model for representing sentences also enables the exploitation of domain ontologies and additional background knowledge in the form of a condensed set of features including lexical, syntactic, semantic, and relational ones. Differently from most of the IE methods (a comprehensive survey is presented in this thesis, including the ones that also apply ILP), OntoILPER takes advantage of a rich text preprocessing stage which encompasses various shallow and deep natural language processing subtasks, including dependency parsing, coreference resolution, word sense disambiguation, and semantic role labeling. Further mappings of nouns and verbs to (formal) semantic resources are also considered. OntoILPER Framework, the OntoILPER implementation, was experimentally evaluated on both NER and RE tasks. This thesis reports the results of several assessments conducted using six standard evaluationcorpora from two distinct domains: news and biomedical. The obtained results demonstrated the effectiveness of OntoILPER on both NER and RE tasks. Actually, the proposed framework outperforms some of the state-of-the-art IE systems compared in this thesis. / A área de Extração de Informação (IE) visa descobrir e estruturar informações dispostas em documentos semi-estruturados ou desestruturados. O Reconhecimento de Entidades Nomeadas (REN) e a Extração de Relações (ER) são duas subtarefas importantes em EI. A primeira visa encontrar entidades nomeadas, incluindo nome de pessoas e lugares, entre outros; enquanto que a segunda, consiste na detecção e caracterização de relações que envolvem as entidades nomeadas presentes no texto. Como a tarefa de criar manualmente as regras de extração para realizar REN e ER é muito trabalhosa e onerosa, pesquisadores têm voltado suas atenções na investigação de como as técnicas de aprendizado de máquina podem ser aplicadas à EI a fim de tornar os sistemas de ER mais adaptáveis às mudanças de domínios. Como resultado, muitos métodos do estado-da-arte em REN e ER, baseados em técnicas estatísticas de aprendizado de máquina, têm sido propostos na literatura. Tais sistemas normalmente empregam um espaço de hipóteses com expressividade propositional para representar os exemplos, ou seja, eles são baseado na tradicional representação atributo-valor. Em aprendizado de máquina, a representação proposicional apresenta algums fatores limitantes, principalmente na extração de relações binárias que exigem não somente informações contextuais e estruturais (relacionais) sobre as instâncias, mas também outras formas de como adicionar conhecimento prévio do problema durante o processo de aprendizado. Esta tese visa atenuar as limitações acima mencionadas, tendo como hipótese de trabalho que, para ser eficiente e mais facilmente adaptável às mudanças de domínio, os sistemas de EI devem explorar ontologias e recursos semânticos no contexto de um arcabouço para EI que permita a indução automática de regras de extração de informação através do emprego de técnicas de aprendizado de máquina. Neste contexto, a presente tese propõe um método supervisionado capaz de extrair instâncias de entidades (ou classes de ontologias) e de relações a partir de textos apoiando-se na Programação em Lógica Indutiva (PLI), uma técnica de aprendizado de máquina supervisionada capaz de induzir regras simbólicas de classificação. O método proposto, chamado OntoILPER, não só se beneficia de ontologias e recursos semânticos, mas também se baseia em um expressivo espaço de hipóteses, sob a forma de predicados lógicos, capaz de representar exemplos cuja estrutura é relevante para a tarefa de EI consideradas nesta tese. OntoILPER automaticamente induz regras simbólicas para classificar exemplos de instâncias de entidades e relações a partir de um modelo de representação de frases baseado em grafos. Tal modelo de representação é uma das constribuições desta tese. Além disso, o modelo baseado em grafos para representação de frases e exemplos (instâncias de classes e relações) favorece a integração de conhecimento prévio do problema na forma de um conjunto reduzido de atributos léxicos, sintáticos, semânticos e estruturais. Diferentemente da maioria dos métodos de EI (uma pesquisa abrangente é apresentada nesta tese, incluindo aqueles que também se aplicam a PLI), OntoILPER faz uso de várias subtarefas do Processamento de Linguagem Named entity recognition Relation extraction Ontology population Ontologybased information extraction Inductive logic programming Reconhecimento de entidades nomeadas Extração de relação Povoamento de ontologias Programação em lógica indutiva

1

Page generated in 0.0905 seconds