Global ETD Search

11	Análise de medidas de similaridade semântica na tarefa de reconhecimento de implicação textual / Analysis of Semantic Similarity Measures in the Textual Implication Recognition Task (Inglês) Feitosa, David Barbosa 19 December 2017 (has links) Made available in DSpace on 2019-03-30T00:08:54Z (GMT). No. of bitstreams: 0 Previous issue date: 2017-12-19 / Textual Entailment is one of the topics treated by Natural Language Processing, a subarea of computer science, artifical intelligence and linguistics. The focus of the textual entailment is the directional verification of the similarity relation between two fragments of text that can include syntatic and semantic aspects. Many automated methods for the recognition task have been advanced by virtue of the research and competitions conducted by the community in order to advance the quality of RTE (Recognizing Text Entailment). Challenges have become increasingly complex because of applications where textual entailment is used as Questions and Answers, Information Extraction, Summarization, Machine Translation Evaluation, and so on. This dissertation explores a range of approaches applied to the RTE task, starting with the recent methodologies used in the competitions for the task and proposes a framework with a hybrid approach to introduce semantic knowledge based on textual semantic similarity, ie, application of semantic similarity metrics between terms, generating semantic components - features - for an automatic learning process. In addition to textit framework, this paper analyzes the overlap of terms in two corpus, ASSIN and SNLI, showing the impact of the overlap in the RTE task. Keywords: Computational Linguistics. Artificial Intelligence. Natural Language Process- ing. Textual Entailment. Recognizing Text Entailment Task. Portuguese Language. / Implicação Textual é um dos temas tratados pelo Processamento de Linguagem Natural, uma subárea da ciência da computação, inteligência artificial e da linguística. O foco da implicação textual é a verificação direcional da relação de similaridade entre dois fragmentos de texto que podem incluir aspectos sintáticos e semânticos. Muitos métodos automatizados para a tarefa de reconhecimento tem avançado em virtude das pesquisas e competições realizadas pela comunidade com o intuito de fomentar o avanço qualitativo de RTE (Recognizing Textual Entailment). Os desafios têm se tornado cada vez mais complexos em virtude das aplicações em que a implicação textual é usada como Resposta a Perguntas, Extração de Informação, Sumarização, Avaliação de Tradução por Máquina etc. Esta dissertação explora uma faixa de abordagens aplicada à tarefa de RTE, iniciando com as metodologias recentes utilizadas nas competições para a tarefa, assim como propõe um framework com abordagem híbrida para introduzir conhecimento semântico baseado em similaridade semântica textual, ou seja, aplicação de métricas de similaridade semântica entre os termos, gerando componentes semânticos - features - como entrada para um processo de aprendizagem automática. Além do framework, este trabalho analisa a sobreposição dos termos em dois corpus, ASSIN e SNLI, evidenciando o impacto da sobreposição na tarefa de RTE. Palavras-chave: Linguística Computacional. Inteligência Artificial. Processamento de Linguagem Natural. Implicação Textual. Tarefa de Reconhecimento de Implicação Textual. Língua Portuguesa. Inteligência artificial Linguagem natural Linguística computacional
12	Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos / Hybrid Methodology based on Machine Learning and Integer Linear Programming for Detecting Hedges in Texts (Inglês) Quinho, Marcelo Coelho 11 September 2012 (has links) Made available in DSpace on 2019-03-29T23:33:19Z (GMT). No. of bitstreams: 0 Previous issue date: 2012-09-11 / Identifying unreliable or uncertain information in texts is fundamental for information extraction systems, as only information based on facts, free from uncertainties should be communicated to users. The literature on the detection of uncertainty texts contains many works that use Machine Learning (ML) to identify parts of the text that are not based on facts. The work divides the problem into three subproblems of classification and then applying post-processing with heuristics for removal of inconsistencies of outputs of classifiers. This work proposes a hybrid methodology based on ML and Integer Linear Programming (ILP) to detect uncertainties texts. The methodology consists of three steps: (1) the first step consists in pre-processing text for inclusion of linguistic information, (2) the second step consists in using local classifiers trained using AM; (3) the third step is to combine the results of local classifiers using an inference procedure that exploits the global structure of the problem, ruling out the need for the use of heuristics. The main contribution of the proposed methodology as well as this dissertation is the ILP model proposed in step 3. To verify the feasibility of the methodology, we developed a tool that allowed the application on a case study in biomedicine. The contribution of the combination of the output of the classifiers with the use of ILP is examined based on the comparison results produced when this step is replaced by a set of heuristics. The experimental results showed an improvement of 3.7 points when using the measure F of ILP step instead of heuristics. Keywords: Detection of Uncertainty; Machine Learning; Natural Language Processing; Integer Linear Programming / Identificar informações incertas ou não confiáveis em textos é fundamental para sistemas de extração de informação, pois somente informações baseadas em fatos, livre de incertezas, devem ser transmitidas para os usuários. A literatura sobre detecção de incerteza em textos contém diversos trabalhos que utilizam Aprendizado de Máquina (AM) para identificar partes do texto que não são baseados em fatos. Os trabalhos dividem o problema em três subproblemas de classificação e em seguida aplicam pós-processamento com heurísticas para retirada de inconsistências das saídas dos classificadores. Esta dissertação propõe uma metodologia híbrida baseada em AM e Programação Linear Inteira (PLI) para detectar incertezas em textos. A metodologia proposta é composta de três etapas: (1) a primeira etapa consiste no pré-processamento do texto para inclusão de informações linguísticas; (2) a segunda etapa, consiste em utilizar classificadores locais treinados com o uso de AM; (3) a terceira etapa, consiste em combinar os resultados dos classificadores locais usando um mecanismo de inferência que explora a estrutura global do problema, descartando a necessidade do uso de heurísticas. A principal contribuição da metodologia proposta, bem como desta dissertação, é o modelo de PLI proposto na etapa 3. Para verificar a viabilidade da metodologia, foi desenvolvida uma ferramenta que permitiu a aplicação num estudo de caso da área biomédica. A contribuição da combinação da saída dos classificadores com o uso de PLI é examinada a partir da comparação dos resultados produzidos quando essa etapa é substituída por um conjunto de heurísticas. Os resultados experimentais evidenciam uma melhora de 3,7 pontos na medida F ao utilizar a etapa de PLI ao invés das heurísticas. Palavras-chave: Detecção de Incertezas; Aprendizado de Máquina; Processamento em Linguagem Natural; Programação Linear Inteira Aprendizado computacional Programação linear Linguagem natural
13	Um processo de recuperação de casos usando processamento de linguagem natural : uma aplicação na engenharia de requisitos / eRbc: A Process to Support Requirements Engineering Through Reuse of Experience (Inglês) Carvalho, Thiago Leite E 28 September 2012 (has links) Made available in DSpace on 2019-03-29T23:33:27Z (GMT). No. of bitstreams: 0 Previous issue date: 2012-09-28 / The literature presents studies and highlights the serious consequences of treatment Inadequate problems phases of Requirements Engineering (RE). There consensus is known that many of these problems are recurring, happening repeatedly in the same project or in different projects, and culminating in deviations of time, cost, effort, among other factors leading to the failure of projects software development. We argue that an effective management on the problems, to better retention of knowledge about the causes and consequences of failures as well as the applied solutions, enable reuse of this knowledge in other projects. The literature on the state of the art Knowledge Management applied ER showed both a lack of jobs with the focus at this stage as the lack of approaches to reuse of problems originating in the requirements phase. This work propose a process to support the reuse of experiences in solving problems occurring in the requirements phase - eRbc (engineering requirements with case-based reasoning). The eRbc process advocates a mixed approach based techniques Based Reasoning in (CBR) and Natural Language Processing (NLP), developed in research the area of Artificial Intelligence (AI). The RBC technique is used to model the problems and solutions in a structure called the event and the initial recovery of cases through contextual similarity. The main difference of eRbc process, however, is the use of PLN techniques in a textual attribute that describes the problem. PLN is applied to the recovery activity of similar cases through computer processing of text natural language that describes the problem, and a measure of semantic similarity between texts, proposed in this paper. We conducted an evaluation process with eRbc order to validate how much it contributes to improving the recovery activity of cases compared to the classical approaches of RBC. We have developed a prototype eRbc based tool and built a Base Case from real problems reported in software projects of an enterprise of the Federal Government of Brazil. Analysis the results of tests on two usage scenarios enabled us to identify the process proposed improved accuracy in retrieval of similar cases in 39.6%, with reliability of 95%. As collateral contribution of this research, we emphasize that the use pioneer PLN together with RBC also makes leverage improvements in activities adaptation and learning experiences. The evaluation further identification improvements on the basis of knowledge and conceptual similarity to be used in eRbc process. Keywords: Requirements Engineering, Knowledge Management, Case Based Reasoning, Natural Language Processing ,Reuse of Experiences. / A literatura apresenta estudos e destaca as sérias consequências do tratamento inadequado de problemas relacionados com as fases da Engenharia de Requisitos (ER). Existe um consenso que vários desses problemas são recorrentes, acontecendo repetidamente em um mesmo projeto ou em projetos diferentes, e que culminam em desvios de prazo, custo, esforço dentre outros fatores que levam ao insucesso de projetos de desenvolvimento de software. Argumentamos que uma efetiva gestão sobre os problemas, visando uma melhor retenção do conhecimento sobre as causas e consequências das falhas, bem como sobre as soluções aplicadas, possibilitaria o reuso deste conhecimento em outros projetos. A pesquisa bibliográfica sobre o estado da arte da Gestão de Conhecimento aplicada a ER indicou tanto a carência de trabalhos com o foco nesta fase como a carência de abordagens para reuso de problemas originários da fase de requisitos. Neste trabalho, propomos um processo de apoio ao reuso de experiências na solução de problemas ocorridos na fase de requisitos - eRbc (engenharia de Requisitos com Raciocínio baseado em casos). O processo eRbc preconiza uma abordagem mista baseada em técnicas de Raciocínio Baseado em Casos (RBC) e Processamento de Linguagem Natural (PLN), desenvolvidas em pesquisas da área de Inteligência Artificial (IA). A técnica de RBC é usada para modelar os problemas e soluções em uma estrutura denominada caso e na recuperação inicial de casos através de similaridade contextual. O principal diferencial do processo eRbc, no entanto, é o uso de técnicas de PLN em um atributo textual que descreve o problema. PLN é aplicado na atividade de recuperação de casos similares através do processamento computacional do texto em linguagem natural que descreve o problema, e de uma medida de similaridade semântica entre textos, proposta neste trabalho. Realizamos uma avaliação do processo eRbc com o intuito de validar o quanto este contribui para a melhoria da atividade de recuperação de casos em comparação à abordagens clássicas de RBC. Desenvolvemos um protótipo de uma ferramenta baseada em eRbc e construímos uma Base de Casos a partir de problemas reais relatados em projetos de software de uma empresa do Governo Federal do Brasil. A análise dos resultados dos testes em dois cenários de uso permitiu-nos identificar que o processo proposto melhorou a precisão na recuperação de casos similares em 39,6%, com confiabilidade de 95%. Como contribuição colateral desta pesquisa, destacamos que o uso pioneiro de PLN em conjunto com RBC faz alavancar melhorias também nas atividades de adaptação e aprendizado de experiências. A avaliação realizada permitiu ainda a identificação de melhorias relativas à base de conhecimento e da similaridade conceitual a ser usada no processo eRbc. Palavras-chave:Engenharia de Requisitos, Gerência do Conhecimento, Raciocínio Baseado em Casos, Processamento de Linguagem Natural , Reuso de Experiências. Engenharia de requisitos Linguagem natural Gestão do conhecimento
14	Análise de correferência em textos via comitês de programas genéticos / Coreference analysis using genetic programming ensembles (Inglês) Carvalho, Davi Lopes 17 September 2013 (has links) Made available in DSpace on 2019-03-29T23:38:45Z (GMT). No. of bitstreams: 0 Previous issue date: 2013-09-17 / Identify references in a text and group them into coreference chains is the main purpose of a coreference resolution system. This paper reports a systematic experimental study on the use of an approach based on genetic programming (GP) for automatic resolution of this prominent task of natural language processing (NLP). Although various methods for the identification of references are described in the literature, including those based on machine learning (ML), and for the assessment of results generated by coreference resolution systems through the use of custom metrics, the results obtained until the present moment are still below expectations. Therefore, we investigated the possibility of adopting an evolutionary approach based on GP, since the class of evolutionary algorithms has successfully solved several complex problems of machine learning and text mining. In this particular study, we investigated the impact of the use of different evaluation metrics (MUC, B$^3$, CEAF$_e$ and BLANC) as the fitness function of the individuals (classifiers) generated by GP. Moreover, the performance of different schemes of combination of genetic programs into committee machines was investigated, aimed to increase performance. For validation of the proposed methodology, a comprehensive empirical study was conducted on the English corpus made available in recent international competitions organized by the CoNLL (Conference on Computational Natural Language Learning), which is the main conference on the theme ``AM + PLN". The performance results obtained by the generated ensembles of genetic programs was generally satisfactory, although less significant than those obtained by the best ranked coreference resolution systems in CoNLL contests. On the other hand, the comparative study on the effect of using the different evaluation metrics as the fitness function of GP showed that this choice has an impact on the performance of the genetic programs generated. Besides, there is a strong correlation between the performance profiles generated by some metrics. In particular, the BLANC's capability in differentiating solutions is very similar to the exhibited by the metric used in CoNLL competitions. Keywords: coreference analysis, coreference resolution, genetic programming, genetic programming ensembles. / Identificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos. Linguagem natural Programação genética Aprendizado computacional
15	Um processo para a gestão de incidentes, apoiado por RBC e PLN e aderente ao CMMI para serviços (CMMI-SVC) / A Process for Incident Resolution and Prevention, Supported by CBR and NLP and Adherent to CMMI for Services (CMMI-SVC) (Inglês) Bezerra, Glauber de Tarso Vieira 20 May 2014 (has links) Made available in DSpace on 2019-03-29T23:42:41Z (GMT). No. of bitstreams: 0 Previous issue date: 2014-05-20 / IT Governance aims to help improve the planning and execution of services, reducing problems during the execution of tasks and raising the level of maturity of the company. Given the many problems presented in the areas of IT, particularly with regard to the availability of services , will be presented in this paper a process to address the prevention and resolution of incidents adhering to CMMI for Services ( CMMI - SVC ) , which seeks to treat, prevent and resolve incidents in the IT field . The proposed approach is supported by artificial intelligence techniques: Case Based Reasoning and Natural Language Processing. These techniques are used in activity recovery of similar incidents in a knowledge base. The main objective is to demonstrate that the use of these techniques, together with a process of prevention and resolution of incidents, presents satisfactory with regard to the resolution time of incidents results. In addition, a design approach for the use of RBC and PLN is defined in a database. To assess the approach and the proposed method, a case study was conducted in a company. Keywords: Process. Case-based reasoning.Natural language processing.Knowledge base.Reuse experiences. Incident management / A Governança de TI tem como objetivo ajudar a melhorar o planejamento e execução dos serviços, diminuindo os problemas durante a execução das tarefas e elevando o nível de maturidade da empresa. Diante dos diversos problemas apresentados nas áreas de TI, principalmente no que diz respeito à disponibilidade de serviços, será apresentado neste trabalho um processo para tratar da Prevenção e Resolução de Incidentes aderente ao CMMI para Serviços (CMMI-SVC), que busca tratar, prevenir e solucionar incidentes na área de TI. A abordagem proposta é apoiada pelas técnicas de Inteligência Artificial: Raciocínio Baseado em Casos e Processamento de Linguagem Natural. Estas técnicas são utilizadas na atividade de recuperação de incidentes similares em uma base de conhecimento. O objetivo principal é demonstrar que a utilização destas técnicas, em conjunto com um processo de prevenção e resolução de incidentes, apresenta resultados satisfatórios no que diz respeito ao tempo de resolução dos incidentes. Além disso, foi definida uma abordagem de Planejamento para utilização de RBC e PLN em uma base de dados. Para avaliar a abordagem e o processo proposto, foi realizado um estudo de caso em uma empresa. Palavras-chave: Processo. Raciocínio baseado em casos. Processamento de linguagem natural. Base de conhecimento. Reuso de experiências.Gerenciamento de incidentes. Tecnologia da informação Linguagem natural Inteligência artificial
16	Aspectos do processamento de interfaces em linguagem natural. / Sem título em inglês. João Batista Camargo Júnior 05 September 1989 (has links) Esta dissertação apresenta alguns formalismos usados no tratamento computacional de linguagens naturais, bem como uma proposta de método de processamento para as mesmas, envolvendo as fases de tradução, planejamento e execução. A etapa de tradução consiste da análise, interpretação e determinação do escopo de sentenças interrogativas. Esta etapa traduz sentenças em linguagem natural para uma forma lógica que representa sua semântica. Na etapa de planejamento, a forma lógica, obtida na etapa de tradução, é convertida em uma regra Prolog a se interpretada durante a etapa de execução. A principal etapa no processamento de linguagem natural é a etapa de tradução. Alguns formalismos, tais como a Gramática de Cláusulas Definidas - DCG, e a Gramática de Extraposição - XG, são discutidos em detalhe, para ilustrar os processos usados durante a tradução. Em seguida é apresentado um protótipo que implementa o interfaceamento de uma base de dados em linguagem natural, no caso um sub-conjunto restrito da língua portuguesa. Finalmente são feitos alguns comentários sobre a perspectiva da utilização da linguagem natural em diversos campos da computação, tais como entendimento de texto, programação automática e engenharia de software. / This work presents a methodology and some formalisms to be used in natural language processing. The present proposal manipulates natural languages by appling three processing steps translation, planning and execution. The translation step consists of parsing, interpreting, and determining the scope of the sentences. This step maps natural language sentences into some logical form that represents its semantics. In the planning step the logical form, obtained in the translation step, is converted into a Prolog rule to be interpreted during the execution step. The most important phase of natural language processing is the translation step. Some formalisms, like Definitive Clause Grammar - DCG and Extraposition Grammar - XG are discussed in detail to illustrate the methods used by the translation step. Next, is presented a prototype that implements a natural language interface to a database, by using a restrict subset of Portuguese language. Finally, some comments are made about the perspectives of using natural language in some fields of computation, such as text understanding, automatic programming and software engineering . Processamento de linguagem natural Natural language processing
17	Implementation of a knowledge discovery and enhancement module from structured information gained from unstructured sources of information Costa, Celso Ricardo Martins Maia January 2010 (has links) Tese de mestrado integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto. 2010 Sistema de gestão do conhecimento Linguagem natural Representação semântica
18	Mineração de opiniões aplicada a mídias sociais Souza, Marlo Vieira dos Santos e January 2012 (has links) Made available in DSpace on 2013-08-07T18:42:17Z (GMT). No. of bitstreams: 1 000448645-Texto+Completo-0.pdf: 990116 bytes, checksum: 3ad832cb853385fcbb55975315370396 (MD5) Previous issue date: 2012 / The competitive environment has become more dynamic in the last few decades due to the great development of information and comunication technologies and to the globalization process. A company manager must, thus, always be well informed about the competitive landscape before making strategic decisions. In this sense, the Competitive Intelligence (CI) emerges as a discipline that aims to systematize the collection and analysis of information in the competitive environment willing to assist decision making. There is, however, an increasing amount of information being produced and released in Internet and traditional media, which become unwieldy. Associated with this, managers still suffer with time constraints to respond to the market stimuli and remain competitive. Thus, it is necessary to maintain a constant staff monitoring the competitive environment to be able to handle the amount of information from this various sources. We believe that the application Text Analysis techniques can help in various stages of such process. This work presents a proposal to use such techniques to aid the process of Competitive Intelligence. We discuss the use of Sentiment Analysis techniques coupled with Named Entity Recognition in texts from social media - especially Twitter - which helps in the analysis of the attitudes of the consumer market towards a brand. We also present a system implementing the proposed techniques, the evaluations made with it and present our conclusions. / O ambiente competitivo se tornou, nas ultimas décadas, mais dinâmico graças às tecnologias de informação e comunicação e à globalização. O gestor, assim, precisa estar sempre bem informado sobre o panorama competitivo antes de tomar decisões estratégicas. Nessa direção, a Inteligência Competitiva (IC) surge como uma disciplina que pretende sistematizar a obtenção e análise de informações do ambiente competitivo com função de auxiliar a tomada de decisão. Há entretanto uma quantidade crescente de informação sendo produzida e disponibilizada em meios como a Internet e mídias tradicionais, as quais se tornam de difícil manejo. Associado a isso, os gestores sofrem ainda com restrições temporais para responder ao estímulo do mercado e manteremse competitivos. Dessa forma, é necessário manter uma equipe de monitoramento constante do ambiente competitivo para que se possa lidar com a quantidade de informação proveniente de diversas fontes. Acreditamos que a aplicação de técnicas de Análise de Texto podem auxiliar nas diversas fases do processo de IC.O presente trabalho apresenta uma proposta de utilização de tais técnicas para auxiliar o processo de Inteligência Competitiva. Discutimos aqui a utilização de um método de Análise de Sentimentos aliado ao Reconhecimento de Entidades Nomeadas em textos provenientes de mídias sociais - particularmente o Twitter - que permitam analisar as atitudes do mercado consumidor quanto a uma determinada marca. São apresentados ainda o sistema desenvolvido, as avaliações realizadas e as conclusões que tiramos. INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL RECUPERAÇÃO DA INFORMAÇÃO
19	Uma abordagem semi-automática para identificação de estruturas ontológicas a partir de textos na língua portuguesa do Brasil Baségio, Túlio Lima January 2007 (has links) Made available in DSpace on 2013-08-07T18:42:32Z (GMT). No. of bitstreams: 1 000413014-Texto+Completo-0.pdf: 1442012 bytes, checksum: 5c452e448ac645ff8803369f1459add6 (MD5) Previous issue date: 2007 / Automatic or semi-automatic ontology building would be extremely useful for several application areas. Semi-automatic approaches for ontology extraction from texts have been proposed in the literature, which suggest knowledge extraction from texts of a certain domain supported by natural language processing techniques. This work proposes an approach to support some phases of the acquisition of ontological structures, more specifically the phases of concept extraction and taxonomic relations extraction, in order to semi-automatize the steps to build ontologies from Brazilian Portuguese texts. The results from these phases represent an initial structure to help the ontology engineer in the ontology building process. The evaluation of this approach was done through a prototype developed with functionalities such as corpus uploading, identification of relevant terms and taxonomic relations among these terms, additionally providing ontological structure generation in OWL. This prototype was used in a case study on the Tourism domain, enabling the evaluation of different aspects of the concepts and relations acquisition process. / Para várias áreas de aplicação, a construção semi-automática ou automática de ontologias seria extremamente útil. Abordagens semi-automáticas para a extração de ontologias a partir de textos têm sido propostas na literatura, as quais sugerem a extração de conhecimento encontrado nos textos de um domínio, com o apoio de técnicas de processamento da língua natural. Este trabalho propõe uma abordagem para suportar algumas fases do processo de aquisição de estruturas ontológicas, mais especificamente as fases de extração de conceitos e relações taxonômicas, de modo a semi-automatizar os passos da construção de ontologias a partir de textos na língua portuguesa do Brasil. O resultado obtido serve como ponto de partida ao engenheiro de ontologia. Para avaliação da abordagem proposta, foi desenvolvido um protótipo que incorpora mecanismos de importação de corpus, identificação de termos relevantes, identificação de relações taxonômicas entre esses termos e geração da estrutura ontológica em OWL. Este protótipo foi utilizado num estudo de caso sobre o domínio do Turismo, possibilitando a avaliação com relação a diferentes aspectos do processo de aquisição de conceitos e relações. INFORMÁTICA WEB SEMÂNTICA PROCESSAMENTO DA LINGUAGEM NATURAL ONTOLOGIA
20	SiSe: medida de similaridade semântica entre ontologias em português Freitas, Juliano Baldez de January 2007 (has links) Made available in DSpace on 2013-08-07T18:42:46Z (GMT). No. of bitstreams: 1 000393159-Texto+Completo-0.pdf: 2682367 bytes, checksum: de7318c27ade99fcf0f367ee38778cfb (MD5) Previous issue date: 2007 / This work concerns the development of a semantic similarity measure for mapping between Portuguese ontologies. The SiSe (Similaridade Semântica) measure presented in this work is an extension of the proposal known as Taxonomic Overlap proposed by Maedche and Staab [Maedche e Staab 2002]. SiSe makes a comparison on the similarity between terms of distinct ontologies through the analysis of their hierarchies. We use the concepts of Semantic Cotopy and Common Semantic Cotopy, which build a set for each term in question. This set is composed by the term and the subconcepts and superconcepts of this term, all represented by their stems, through the stemmer PortugueseStemmer by Orengo and Huyck [Orengo e Huyck 2001]. Our measure adopts a mapping that considers the languages used in the description of the ontologies (for example, OWL, RFDS, etc), and normalizes them in XML keeping the hierarchic relations of hyponym and hypernym in the ontologies. The SiSe measure compares the similarity between the ontologies through the hierarchic relations that are common among them, and the result is a semantic-structural similarity value. The evaluation of the SiSe measure is carried out through a Golden mapping that consists of the similarity between two ontologies according to human analysis. The SiSe results are compared to this Golden Mapping. This measure helps the mapping between ontologies aiming at the reuse and the information integration. / Este trabalho consiste na adaptação de uma medida de similaridade semântica para o mapeamento entre ontologias em português. A medida SiSe (Similaridade Semântica) apresentada neste trabalho adapta a proposta Mapeamento Taxonômico, de Maedche e Staab [Maedche e Staab 2002]. A medida SiSe faz uma comparação da similaridade entre termos de ontologias distintas através da análise da hierarquia dos mesmos. Utilizamos o conceito de "Semantic Cotopy" e "Common Semantic Cotopy", os quais formam um conjunto para cada um dos termos comparados. Cada conjunto é composto pelo termo, pelos subconceitos e superconceitos deste termo, todos representados por seus stems, através de um recurso de Processamento da Linguagem Natural, o stemmer PortugueseStemmer desenvolvido por Orengo e Huyck [Orengo e Huyck 2001]. Nossa medida adota uma estratégia para o mapeamento entre ontologias que envolve a análise das linguagens utilizadas na descrição das ontologias (OWL, RFDS, etc), abstraindo as sintaxes e normalizando em uma linguagem XML com as relações hierárquicas de hiponímia e hiperonímia das ontologias. A medida de similaridade SiSe compara as ontologias através das relações hierárquicas que as mesmas possuem, desta forma o coeficiente resultante é a similaridade semântico-estrutural entre os termos das ontologias. A avaliação da medida SiSe é realizada através de um "Golden mapping", ou mapeamento dourado, que consiste na avaliação da similaridade de algumas ontologias por humanos confrontando com os resultados da medida SiSe. Esta medida é utilizada para auxiliar no mapeamento entre ontologias visando o reuso e a integração de informação. INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL ONTOLOGIA SEMÂNTICA

Search results