• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 195
  • 19
  • 6
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 220
  • 220
  • 220
  • 101
  • 100
  • 82
  • 52
  • 51
  • 51
  • 47
  • 47
  • 34
  • 33
  • 32
  • 32
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Learning non-verbal relations under open information extraction paradigm

Xavier, Clarissa Castellã January 2014 (has links)
Made available in DSpace on 2015-03-17T02:01:01Z (GMT). No. of bitstreams: 1 000466321-Texto+Completo-0.pdf: 1994049 bytes, checksum: fbbeef81814a876679c25f4e015925f5 (MD5) Previous issue date: 2014 / The Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability. In order to extend Open IE to extract relationships that are not expressed by verbs from texts in English, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from olive oil, or in adjectivenoun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file, and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the interpretation of NCs and ANs and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE’s feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results show that our solution achieves 89% Precision and demonstrate that CompIE reaches its goal of extending Open IE paradigm extracting relationships within NCs and ANs. / O paradigma Open Information Extraction - Open IE (Extração Aberta de Informações) de extração de relações trabalha com a identificação de relações não definidas previamente, buscando superar as limitações impostas pelos métodos tradicionais de Extração de Informações como a dependência de domínio e a difícil escalabilidade. Visando estender o paradigma Open IE para que sejam extraídas relações não expressas por verbos a partir de textos em inglês, apresentamos CompIE, um componente que aprende relações expressas em compostos nominais (CNs), como (oil, extracted from, olive) - (óleo, extraído da, oliva) - do composto nominal olive oil - óleo de oliva, ou em pares do tipo adjetivo-substantivo (ASs), como (moon, that is, gorgeous) - (lua, que é, linda) - do AS gorgeous moon (linda lua). A entrada do CompIE é um arquivo texto, e sua saída é um conjunto de triplas descrevendo relações binárias. Sua arquitetura é composta por duas tarefas principais: Extrator de CNs e ASs (1) e Interpretador de CNs e ASs (2). A primeira tarefa gera uma lista de CNs e ASs a partir do corpus de entrada. A segunda tarefa realiza a interpretação dos CNs e ASs gerando as triplas que descrevem as relações extraídas do corpus. Para estudar a viabilidade da solução apresentada, realizamos uma avaliação baseada em hipóteses. Um protótipo foi construído com o intuito de validar cada uma das hipóteses. Os resultados obtidos mostram que nossa solução alcança 89% de Precisão e demonstram que o CompIE atinge sua meta de estender o paradigma Open IE extraindo relações expressas dentro dos CNs e ASs.
2

Desambiguação de anotações morfossintáticas feitas por MTMDD

Thiele, Pablo Frederico Oliveira January 2015 (has links)
Made available in DSpace on 2015-10-06T02:08:12Z (GMT). No. of bitstreams: 1 000475518-Texto+Completo-0.pdf: 1065929 bytes, checksum: cf8f71f90f9d278fccf4595fde672a11 (MD5) Previous issue date: 2015 / The Natural Language Processing technologies (PLN) are being used for analysis of huge amounts of data. With the advent of new media and mass adoption of social networking, the flow of information generated every second is the largest in history. The majority of that is multimedia files. Meanwhile, a large portion of the information produced, especially in social network, is textual. Thus, PLN solutions need to be more robust than they ever were, finding processing solutions that might accompany this constant information production or at least provide better results compared to procedures previously used. The labelers or taggers are a major component of PLN. Its function, explored in this work is the ability to observe and catalog the words in a text according to their morphosyntactic functions. The name commonly given to this process is the POST (Part-Of-Speech Tagging). Within the context Part-Of-Speech (POS) is the function to process and identify a group of words by grouping them into pre-defined types. This grouping can occur due to syntactic, morphological or morphosyntactic. Although the processing speed is a worthy feature, when we deal with labelers, the accuracy obtained for its process should be the premise. The concept of obtaining semantic labels from texts evaluations seems simple at first sight, although presents several challenges. One of the major challenges encountered in PLN is the problem of ambiguity. This situation, which occurs in several stages of natural language processing, is complex due to requires comprehensive knowledge from the processing application using that as tools to collaborate in order to implement the most correct choices. It is a classic problem, inherent to natural and existing language since the beginning of the researches of this area. Several possibilities to minimize its consequences have been proposed since then. This paper lists some of the proposals found on the literature by adding the possibility to use MTMDD structures during the process, looking for a substantial performance gain. / Atualmente as tecnologias de Processamento de Linguagem Natural (PLN) estão sendo utilizadas em análises de enormes quantidades de dados. Com o advento das novas mídias e a adoção em massa das redes sociais, o fluxo de informações geradas a cada segundo é o maior da história. Embora isso se concentre, em maior parte, por informações e arquivos de multimídia, uma grande parcela da informação produzida, principalmente nas redes sociais, é textual. Desta forma, as soluções de PLN necessitam ser mais robustas do que jamais foram, encontrando soluções de processamento que possam acompanhar esta geração constante de informações ou pelo menos apresentar resultados melhores se comparados aos procedimentos utilizados anteriormente. Os etiquetadores ou taggers são um dos principais componentes da PLN. Sua função, explorada neste trabalho é a capacidade de observar e catalogar as palavras em um texto de acordo com suas funções morfossintáticas. O nome comumente dado a este processo é o de POST (Part-Of-Speech Tagging).Dentro do contexto Part-Of-Speech (POS) encontra-se a função de processar e identificar um grupo de palavras agrupando-as em tipos pré-definidos. Este agrupamento pode ocorrer em razão sintática, morfológica ou morfossintática. Embora a velocidade de processamento seja uma caraterística digna de nota, quando tratamos de etiquetadores, a acuidade obtida por seu processo deve ser a premissa. O conceito da obtenção de etiquetas semânticas a partir de avaliações dos textos embora pareça simples em um primeiro momento, apresenta vários desafios. Um dos maiores desafios encontrado em PLN é o problema da ambiguidade. Esta situação que ocorre nas mais diversas etapas do processamento de linguagem natural é complexa, devido à necessidade de que a aplicação processadora tenha conhecimentos abrangentes que possam ser utilizados como ferramentas que colaborem no intuito de realizar as escolhas mais corretas. Devido ao fato de se tratar de um problema antigo, inerente à linguagem natural e existente desde o começo das pesquisas da área, diversas possibilidades de minimizar suas consequências foram propostas. O presente trabalho enumera algumas das propostas encontradas, adicionando a possibilidade de uso de estruturas do tipo MTMDD no processo, buscando um ganho substancial de desempenho.
3

Uma proposta para descoberta automática de relações não-taxonômicas a partir de corpus em língua portuguesa

Ferreira, Vinicius Hartmann January 2012 (has links)
Made available in DSpace on 2013-08-07T18:42:43Z (GMT). No. of bitstreams: 1 000446187-Texto+Completo-0.pdf: 2000156 bytes, checksum: d69c6168cd6efd48f1f38ca794de2813 (MD5) Previous issue date: 2012 / The construction of ontologies is a complex process that includes steps such as extraction of domain concepts, as well as the extraction of taxonomic and non-taxonomic relations between these concepts. The step of extracting non-taxonomic relations is the most neglected, specially for texts in portuguese. This dissertation presents a proposal for extracting non-taxonomic relations from texts in portuguese (corpora). These texts are represented by a list of domain concepts and contextual informations extracted by the tool ExATOlp. An application of the proposed process was performed with corpora of five domains and analysis on the relevance of the concepts, the specificity of relations and relations extracted application was made. Through this analysis, the proposed process seemed to be relevant and is considered the main contribution of this dissertation. Additionally, a tool for visualizing the extracted non-taxonomic relations, useful for various linguistic applications, is also proposed. / A construção de ontologias é um processo complexo que compreende etapas como a extração de conceitos de domínio, bem como a extração de relações taxonômicas e não-taxonômicas entre esses conceitos. A etapa de extração de relações não-taxonômicas é a mais negligenciada, especialmente para textos na língua portuguesa. Essa dissertação apresenta uma proposta de extração de relações não-taxonômicas a partir de textos em língua portuguesa (corpora). Esses textos são representados por uma lista de conceitos e informações contextuais automaticamente extraídos pela ferramenta ExATOlp. Uma aplicação do processo proposto foi realizada com corpora de cinco domínios e uma análise sobre a relevância dos conceitos, a especifidade das relações e a aplicação das relações extraídas foi realizada. Através dessa análise o processo proposto mostrou-se relevante, sendo considerado a principal contribuição dessa dissertação. Adicionalmente, uma ferramenta para visualização das relações não-taxonômicas extraídas, útil para diversas aplicações linguísticas, também é proposta.
4

Beck: um chatbot baseado na terapia cognitivo-comportamental para apoiar adolescentes com depressão

ALMEIDA JUNIOR, Oberdan Alves de 04 July 2017 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-09-20T21:07:13Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Oberdan Alves de Almeida Junior.pdf: 7551633 bytes, checksum: 74ec88f33c65120c8747c65ad548ef4f (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-09-21T17:26:45Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Oberdan Alves de Almeida Junior.pdf: 7551633 bytes, checksum: 74ec88f33c65120c8747c65ad548ef4f (MD5) / Made available in DSpace on 2018-09-21T17:26:45Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Oberdan Alves de Almeida Junior.pdf: 7551633 bytes, checksum: 74ec88f33c65120c8747c65ad548ef4f (MD5) Previous issue date: 2017-07-04 / CAPES / A depressão é um dos distúrbios psicológicos mais frequentes no mundo. Esse distúrbio causa um grande impacto na qualidade de vida do indivíduo, compromete as relações sociais e familiares, e pode levar ao suicídio. Na adolescência, a depressão é uma das doenças psicológicas mais comuns. Muitos dos problemas emocionais têm início e pico durante esta fase da vida. No Brasil, entre os jovens, o suicídio representa a terceira principal causa de morte. A Terapia Cognitivo-Comportamental (TCC) tem se mostrado bastante eficaz no tratamento da depressão. Esse tipo de terapia também pode ser realizado através do computador, sem o acompanhamento de um terapeuta. Estudos identificaram vantagens importantes na comunicação mediada por computador em comparação com a interação humana face a face, como na promoção do sentimento de anonimato e no aumento da autorrevelação. Contudo, a maioria dos sistemas atuais baseados em TCC não apresenta um grau satisfatório de interatividade. Neste cenário, os chatbots são uma alternativa para diminuir essa deficiência dos sistemas de terapia via computador. Chatbots são sistemas criados para simular um diálogo real com o usuário, podendo ter a capacidade de analisar e influenciar seus comportamentos. Esse tipo de sistema interage com o usuário através do uso da linguagem natural. Este projeto de mestrado desenvolveu um chatbot, baseado nos princípios da TCC, capaz de conversar com adolescentes que sofrem depressão. Para construir o chatbot Beck, utilizamos o ChatScript, uma linguagem de desenvolvimento desse tipo de sistema, que foi vencedora de vários prêmios. Avaliamos o desempenho e a utilidade de Beck através de um teste de conversação e de um Survey com adolescentes. Os resultados obtidos foram muito satisfatórios. De acordo com os resultados, 85,94% dos adolescentes ficaram satisfeitos com o desempenho de Beck, e em relação à sua utilidade, 92,19% dos adolescentes concordam que o chatbot foi útil para eles. / Depression is one of the most frequent psychological disorders in the world. This disorder has a major impact on the individual’s quality of life, compromises social and family relationships and can lead to suicide. In adolescence, depression is one of the most usual psychological illnesses. Several emotional problems start and peak during this phase of life. In Brazil, for instance, suicide is the third leading cause of death among youngsters. Cognitive-Behavioural Therapy (CBT) has been shown to be effective in treating depression. This type of therapy can also be performed through the computer, without the accompaniment of a therapist. Studies have identified important advantages in computer-mediated communication compared to face-to-face human interaction, such as promoting anonymity and increasing self-disclosure. However, most current CBT-based systems have not shown a satisfactory degree of interactivity. In this scenario, chatbots are an alternative to minor this deficiency of computer based therapy systems. Chatbots are systems created to simulate a real dialogue with users, being able to analyze and influence their behavior. This type of system interacts with the user through the use of natural language. This research project developed a chatbot based on the principles of CBT, whose aim is to dialogue with adolescents who suffer from depression. To build the chatbot Beck, we deployed ChatScript, a computer language tailored for the development of this type of system, which has won several awards. We evaluated the performance and usefulness of our chatbot Beck through a conversation test and a survey conducted with adolescents. The results obtained are very satisfactory: 85.94% of the adolescents answered that they were satisfied with Beck’s performance, and 92.19% of the adolescents agreed that the chatbot was useful for them.
5

Interpretação Automatizada de Textos: Processamento de Anáforas

FREITAS, S. A. A. 11 April 2005 (has links)
Made available in DSpace on 2016-08-29T15:32:42Z (GMT). No. of bitstreams: 1 tese_2376_TeseDoutoradoSergioAntonioAndradedeFreitas.pdf: 1020803 bytes, checksum: 73b2bf94bf90fb5a8311ac7ece3a65b3 (MD5) Previous issue date: 2005-04-11 / Esta tese apresenta uma solução para a interpretação de anáforas nominais definidas. Considere o seguinte texto: (1) a. Mariana comprou um carro novo. b. O motor veio danificado. A frase (1a) apresenta duas entidades: Mariana e um carro novo. Já a frase (1.2b) tem apenas uma entidade - o motor. No processo de interpretação, humano ou computacional, a utilização do artigo definido " o" é um indicativo de que a entidade já havia sido introduzida no discurso, i.e. apresenta um caráter anafórico. Resolver uma anáfora é, a priori, identificar a quem ou a que se refere esta anáfora. Mas no caso acima é mais do que isto: sem dúvida o motor existe no texto por causa da existência de um carro, porém a interpretação do motor deve ir além disto e identificar como este motor está ligado com aquele carro. Isto é uma anáfora nominal definida. A interpretação das anáforas nominais definidas ou de qualquer fenômeno anafórico pode ser generalizada como um processo que atribui valores aos itens da seguinte equação: R(A, T ) (2) onde: A denota a entidade introduzida pela interpretação fora de contexto de um pronome, de uma elipse ou de um sintagma nominal definido, T denota o seu antecedente e R é a relação existente entre A e T . O processo de resolução da equação, que é propriamente o processo de resolução de anáforas, consiste em descobrir T e R dado A. Nesta tese é proposta uma metodologia computacional que interpreta as anáforas nominais definidas cuja relação R é uma dentre: parte de, membro de, subcategorizado por e coreferência. A obtenção das relações é feita por um conjunto de regras pragmáticas [Freitas, Lopes e Menezes 2004, Filho e Freitas 2003] (cap. 3). Caso seja constatado que A não seja anafórica então ela é acomodada no contexto. A metodologia computacional é construída sobre um ambiente de programação em lógica [Damásio, Nejdl e Pereira 1994] que permite raciocinar abdutivamente [Kakas, Kowalski e Toni 1992] sobre a representação semântica do texto [Kamp e Reyle 1993]. A partir da interpretação das entidades é construída a estrutura nominal do discurso [Lopes e Freitas 1994] (cap. 4), a qual permite: (1) fazer o acompanhamento das entidades mais salientes em cada frase [Freitas e Lopes 1994], (2) limitar o universo de escolha de possíveis antecedentes[Freitas e Lopes 1996] e (3) prover um resumo das entidades do discurso. O resultado é uma metodologia que permite, de forma integrada, resolver anáforas e elipses, sendo que a estrutura nominal do discurso pode ser usada na busca de informações.
6

Um ambiente para a analise superficial de linguas baseado em automatos finitos

Cáccamo, Mario José 30 March 1998 (has links)
Orientador: Tomasz Kowaltowski / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-07-23T12:27:31Z (GMT). No. of bitstreams: 1 Caccamo_MarioJose_M.pdf: 2620384 bytes, checksum: f5050f57d7a4e7f0276200dc83121f1c (MD5) Previous issue date: 1998 / Resumo: A análise sintática é uma componente fundamental da maioria dos sistemas de processamento automático de línguas. Tradicionalmente, esta tarefa foi implementada com técnicas derivadas do formalismo das Gramáticas Livres de Contexto. A demanda por sistemas eficientes motivou a pesquisa em busca de outras alternativas para a análise sintática. Alguns sistemas de processamento de línguas naturais não precisam de uma análise completa da estrutura profunda das sentenças (árvores de derivação), senão apenas dispor das relações superficiais entre às palavras de um texto. O objetivo de um analisador-superficial é determinar quais são as sentenças de uma língua, fornecendo apenas a informação sobre alguma característica em particular, evitando entrar em detalhes correspondentes à estrutura profunda. Este tipo de sistemas é mais eficientes e pode substituir uma análise sintática completa em várias aplicações. Nesta dissertação propõe-se um ambiente para implementar a análise superficial de línguas. A proposta consiste em representar as sentenças de uma língua usando seqüências de marcas chamadas de padrões sintáticos. Cada marca é uma categoria de palavras (adjetivos, substantivos, advérbios, etc). A hipótese é que o núcleo das sentenças usadas nos textos de uma língua pode ser capturado com um número computacionalmente tratável de padrões sintáticos. Estruturas de dados baseadas em autômatos finitos foram utilizadas para representar de forma compacta grandes vocabulários de palavras. Os padrões sintáticos são cadeias de símbolos comparáveis, em certo sentido, às palavras de um vocabulário e autômatos mostraram-se adequadas para armazená-los. Além disso, os autômatos permitem a implementação eficiente do algoritmo de reconhecimento proposto, e outros mais complexos, como o conselheiro gramatical apresentado nesta dissertação. Um dos problemas de muitas das propostas para a análise sintática de línguas é a falta de um método ou fonte de informação para construir um sistema que possa modelar um exemplo real. Como uma alternativa, propõe-se aqui a coleta de padrões sintáticos a partir de corpos de texto marcados. / Abstract: Syntactic analysis is an important component of most natural language processing systems. Typically parsers were implemented using techniques derived from Context Free Grammars. The increasing need for efficient systems was one of the reasons to search for new approaches to syntactic analysis. Some natural language applications do not need complete parsing of the deep structure of the sentences (derivation trees). In these cases, a representation of the surface relations among words in a text is enough. The goal of a surface parser is to recognize the natural language sentences providing information only about some particular features. It is not concerned with the deep structure of the sentences. This kind of parsers are more efficient and can replace a parser implementing a complete syntactic analysis in different situations. We propose in this dissertation an environment to implement surface parsing of natural languages. In our approach every sentence is represented by a sequence of part-of-speech tags cal\ed syntactic pattern. The hypothesis underlying our work is that the core of the sentences used in natural language texts can be captured with a computationally tractable number of syntactic patterns. Data structures based on finite-state automata have been used in representing1large word vocabularies. Syntactic patterns are strings of symbols that can be compared in some sense with words. We have shown that finite-state automata are adequate to' store syntactic patterns. Furthermore they allow an efficient implementation of the recognizing algorithms, and other more complex ones, as the agreement adviser presented in this work. One of the problems common to many approaches for syntactic parsing is the lack of a method or information source to build a system capable of mastering a real example. As an option, we propose the collection of syntactic patterns from annotated corpora of texts. / Mestrado / Mestre em Ciência da Computação
7

Mineração de opiniões aplicada a mídias sociais

Souza, Marlo Vieira dos Santos e January 2012 (has links)
Made available in DSpace on 2013-08-07T18:42:17Z (GMT). No. of bitstreams: 1 000448645-Texto+Completo-0.pdf: 990116 bytes, checksum: 3ad832cb853385fcbb55975315370396 (MD5) Previous issue date: 2012 / The competitive environment has become more dynamic in the last few decades due to the great development of information and comunication technologies and to the globalization process. A company manager must, thus, always be well informed about the competitive landscape before making strategic decisions. In this sense, the Competitive Intelligence (CI) emerges as a discipline that aims to systematize the collection and analysis of information in the competitive environment willing to assist decision making. There is, however, an increasing amount of information being produced and released in Internet and traditional media, which become unwieldy. Associated with this, managers still suffer with time constraints to respond to the market stimuli and remain competitive. Thus, it is necessary to maintain a constant staff monitoring the competitive environment to be able to handle the amount of information from this various sources. We believe that the application Text Analysis techniques can help in various stages of such process. This work presents a proposal to use such techniques to aid the process of Competitive Intelligence. We discuss the use of Sentiment Analysis techniques coupled with Named Entity Recognition in texts from social media - especially Twitter - which helps in the analysis of the attitudes of the consumer market towards a brand. We also present a system implementing the proposed techniques, the evaluations made with it and present our conclusions. / O ambiente competitivo se tornou, nas ultimas décadas, mais dinâmico graças às tecnologias de informação e comunicação e à globalização. O gestor, assim, precisa estar sempre bem informado sobre o panorama competitivo antes de tomar decisões estratégicas. Nessa direção, a Inteligência Competitiva (IC) surge como uma disciplina que pretende sistematizar a obtenção e análise de informações do ambiente competitivo com função de auxiliar a tomada de decisão. Há entretanto uma quantidade crescente de informação sendo produzida e disponibilizada em meios como a Internet e mídias tradicionais, as quais se tornam de difícil manejo. Associado a isso, os gestores sofrem ainda com restrições temporais para responder ao estímulo do mercado e manteremse competitivos. Dessa forma, é necessário manter uma equipe de monitoramento constante do ambiente competitivo para que se possa lidar com a quantidade de informação proveniente de diversas fontes. Acreditamos que a aplicação de técnicas de Análise de Texto podem auxiliar nas diversas fases do processo de IC.O presente trabalho apresenta uma proposta de utilização de tais técnicas para auxiliar o processo de Inteligência Competitiva. Discutimos aqui a utilização de um método de Análise de Sentimentos aliado ao Reconhecimento de Entidades Nomeadas em textos provenientes de mídias sociais - particularmente o Twitter - que permitam analisar as atitudes do mercado consumidor quanto a uma determinada marca. São apresentados ainda o sistema desenvolvido, as avaliações realizadas e as conclusões que tiramos.
8

Uma abordagem semi-automática para identificação de estruturas ontológicas a partir de textos na língua portuguesa do Brasil

Baségio, Túlio Lima January 2007 (has links)
Made available in DSpace on 2013-08-07T18:42:32Z (GMT). No. of bitstreams: 1 000413014-Texto+Completo-0.pdf: 1442012 bytes, checksum: 5c452e448ac645ff8803369f1459add6 (MD5) Previous issue date: 2007 / Automatic or semi-automatic ontology building would be extremely useful for several application areas. Semi-automatic approaches for ontology extraction from texts have been proposed in the literature, which suggest knowledge extraction from texts of a certain domain supported by natural language processing techniques. This work proposes an approach to support some phases of the acquisition of ontological structures, more specifically the phases of concept extraction and taxonomic relations extraction, in order to semi-automatize the steps to build ontologies from Brazilian Portuguese texts. The results from these phases represent an initial structure to help the ontology engineer in the ontology building process. The evaluation of this approach was done through a prototype developed with functionalities such as corpus uploading, identification of relevant terms and taxonomic relations among these terms, additionally providing ontological structure generation in OWL. This prototype was used in a case study on the Tourism domain, enabling the evaluation of different aspects of the concepts and relations acquisition process. / Para várias áreas de aplicação, a construção semi-automática ou automática de ontologias seria extremamente útil. Abordagens semi-automáticas para a extração de ontologias a partir de textos têm sido propostas na literatura, as quais sugerem a extração de conhecimento encontrado nos textos de um domínio, com o apoio de técnicas de processamento da língua natural. Este trabalho propõe uma abordagem para suportar algumas fases do processo de aquisição de estruturas ontológicas, mais especificamente as fases de extração de conceitos e relações taxonômicas, de modo a semi-automatizar os passos da construção de ontologias a partir de textos na língua portuguesa do Brasil. O resultado obtido serve como ponto de partida ao engenheiro de ontologia. Para avaliação da abordagem proposta, foi desenvolvido um protótipo que incorpora mecanismos de importação de corpus, identificação de termos relevantes, identificação de relações taxonômicas entre esses termos e geração da estrutura ontológica em OWL. Este protótipo foi utilizado num estudo de caso sobre o domínio do Turismo, possibilitando a avaliação com relação a diferentes aspectos do processo de aquisição de conceitos e relações.
9

SiSe: medida de similaridade semântica entre ontologias em português

Freitas, Juliano Baldez de January 2007 (has links)
Made available in DSpace on 2013-08-07T18:42:46Z (GMT). No. of bitstreams: 1 000393159-Texto+Completo-0.pdf: 2682367 bytes, checksum: de7318c27ade99fcf0f367ee38778cfb (MD5) Previous issue date: 2007 / This work concerns the development of a semantic similarity measure for mapping between Portuguese ontologies. The SiSe (Similaridade Semântica) measure presented in this work is an extension of the proposal known as Taxonomic Overlap proposed by Maedche and Staab [Maedche e Staab 2002]. SiSe makes a comparison on the similarity between terms of distinct ontologies through the analysis of their hierarchies. We use the concepts of Semantic Cotopy and Common Semantic Cotopy, which build a set for each term in question. This set is composed by the term and the subconcepts and superconcepts of this term, all represented by their stems, through the stemmer PortugueseStemmer by Orengo and Huyck [Orengo e Huyck 2001]. Our measure adopts a mapping that considers the languages used in the description of the ontologies (for example, OWL, RFDS, etc), and normalizes them in XML keeping the hierarchic relations of hyponym and hypernym in the ontologies. The SiSe measure compares the similarity between the ontologies through the hierarchic relations that are common among them, and the result is a semantic-structural similarity value. The evaluation of the SiSe measure is carried out through a Golden mapping that consists of the similarity between two ontologies according to human analysis. The SiSe results are compared to this Golden Mapping. This measure helps the mapping between ontologies aiming at the reuse and the information integration. / Este trabalho consiste na adaptação de uma medida de similaridade semântica para o mapeamento entre ontologias em português. A medida SiSe (Similaridade Semântica) apresentada neste trabalho adapta a proposta Mapeamento Taxonômico, de Maedche e Staab [Maedche e Staab 2002]. A medida SiSe faz uma comparação da similaridade entre termos de ontologias distintas através da análise da hierarquia dos mesmos. Utilizamos o conceito de "Semantic Cotopy" e "Common Semantic Cotopy", os quais formam um conjunto para cada um dos termos comparados. Cada conjunto é composto pelo termo, pelos subconceitos e superconceitos deste termo, todos representados por seus stems, através de um recurso de Processamento da Linguagem Natural, o stemmer PortugueseStemmer desenvolvido por Orengo e Huyck [Orengo e Huyck 2001]. Nossa medida adota uma estratégia para o mapeamento entre ontologias que envolve a análise das linguagens utilizadas na descrição das ontologias (OWL, RFDS, etc), abstraindo as sintaxes e normalizando em uma linguagem XML com as relações hierárquicas de hiponímia e hiperonímia das ontologias. A medida de similaridade SiSe compara as ontologias através das relações hierárquicas que as mesmas possuem, desta forma o coeficiente resultante é a similaridade semântico-estrutural entre os termos das ontologias. A avaliação da medida SiSe é realizada através de um "Golden mapping", ou mapeamento dourado, que consiste na avaliação da similaridade de algumas ontologias por humanos confrontando com os resultados da medida SiSe. Esta medida é utilizada para auxiliar no mapeamento entre ontologias visando o reuso e a integração de informação.
10

Extração de estruturas ontológicas de domínio da Wikipédia em língua portuguesa

Xavier, Clarissa Castellã January 2010 (has links)
Made available in DSpace on 2013-08-07T18:43:07Z (GMT). No. of bitstreams: 1 000424692-Texto+Completo-0.pdf: 1937010 bytes, checksum: f88759e6fc1959ff14fdb14bd6afdae7 (MD5) Previous issue date: 2010 / The increasing need for ontologies and the difficulty of its manual creation generates initiatives that propose methods for automatic and semi-automatic ontology construction. Wikipedia has demonstrated to be a very interesting source for ontologies extraction, due to the large amount of organized content in it, being freely available and covering a wide range of issues. In this work we propose a semi-automatic method of domain ontological structures extraction from Wikipedia's categories structure. To validate the method, we have conducted a case study in which we implemented a prototype generating a Tourism ontological structure. The results were evaluated by comparing them with a golden map of the generated ontological structure. The results are promising and comparable to those found in the literature for other languages. / A necessidade crescente por ontologias e a dificuldade em construí-las manualmente vêm gerando iniciativas em busca de métodos para a construção automática e semi-automática de ontologias. A Wikipédia, contendo uma grande quantidade de conteúdo organizado, livremente disponível e cobrindo uma extensa faixa de assuntos, mostra-se uma fonte interessante para extração de estruturas ontológicas. Neste trabalho propomos um método semi-automático para a extração de estruturas ontológicas de domínio a partir da estrutura de categorias da Wikipédia em português. Para validar o método proposto, realizamos um estudo de caso no qual foi implementado um protótipo gerando uma estrutura ontológica do domínio Turismo. Os resultados obtidos foram avaliados através da comparação da estrutura ontológica gerada com um mapeamento de referência, apresentando-se promissores, comparáveis aos encontrados na literatura para outros idiomas.

Page generated in 0.1544 seconds