Global ETD Search

121	Filtragem automática de opiniões falsas: comparação compreensiva dos métodos baseados em conteúdo / Automatic filtering of false opinions: comprehensive comparison of content-based methods Cardoso, Emerson Freitas 04 August 2017 (has links) Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T17:30:32Z No. of bitstreams: 1 CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T17:30:45Z (GMT) No. of bitstreams: 1 CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T17:32:37Z (GMT) No. of bitstreams: 1 CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) / Made available in DSpace on 2017-10-09T17:32:49Z (GMT). No. of bitstreams: 1 CARDOSO_Emerson_2017.pdf: 3299853 bytes, checksum: bda5605a1fb8e64f503215e839d2a9a6 (MD5) Previous issue date: 2017-08-04 / Não recebi financiamento / Before buying a product or choosing for a trip destination, people often seek other people’s opinions to obtain a vision of the quality of what they want to acquire. Given that, opinions always had great influence on the purchase decision. Following the enhancements of the Internet and a huge increase in the volume of data traffic, social networks were created to help users post and view all kinds of information, and this caused people to also search for opinions on the Web. Sites like TripAdvisor and Yelp make it easier to share online reviews, since they help users to post their opinions from anywhere via smartphones and enable product manufacturers to gain relevant feedback quickly in a centralized way. As a result, most people nowadays trust personal recommendations as much as online reviews. However, competition between service providers and product manufacturers have also increased in social media, leading to the first cases of spam reviews: deceptive opinions published by hired people that try to promote or defame products or businesses. These reviews are carefully written in order to look like authentic ones, making it difficult to be detected by humans or automatic methods. Thus, they are used, in a misleading way, in attempt to control the general opinion, causing financial harm to business owners and users. Several approaches have been proposed for spam review detection and most of them use techniques involving machine learning and natural language processing. However, despite all progress made, there are still relevant questions that remain open, which require a criterious analysis in order to be properly answered. For instance, there is no consensus whether the performance of traditional classification methods can be affected by incremental learning or changes in reviews’ features over time; also, there is no consensus whether there is statistical difference between performances of content-based classification methods. In this scenario, this work offers a comprehensive comparison between traditional machine learning methods applied in spam review detection. This comparison is made in multiple setups, employing different types of learning and data sets. The experiments performed along with statistical analysis of the results corroborate offering appropriate answers to the existing questions. In addition, all results obtained can be used as baseline for future comparisons. / Antes de comprar um produto ou escolher um destino de viagem, muitas pessoas costumam buscar por opiniões alheias para obter uma visão da qualidade daquilo que se deseja adquirir. Assim, as opiniões sempre exerceram grande influência na decisão de compra. Com o avanço da Internet e aumento no volume de informações trafegadas, surgiram redes sociais que possibilitam compartilhar e visualizar informações de todo o tipo, fazendo com que pessoas passassem a buscar também por opiniões na Web. Atualmente, sites especializados, como TripAdvisor e Yelp, oferecem um sistema de compartilhamento de opiniões online (reviews) de maneira fácil, pois possibilitam que usuários publiquem suas opiniões de qualquer lugar através de smartphones, assim como também permitem que fabricantes de produtos e prestadores de serviços obtenham feedbacks relevantes de maneira centralizada e rápida. Em virtude disso, estudos indicam que atualmente a maioria dos usuários confia tanto em recomendações pessoais quanto em reviews online. No entanto, a competição entre prestadores de serviços e fabricantes de produtos também aumentou nas redes sociais, o que levou aos primeiros casos de spam reviews: opiniões enganosas publicadas por pessoas contratadas que tentam promover ou difamar produtos ou serviços. Esses reviews são escritos cuidadosamente para parecerem autênticos, o que dificulta sua detecção por humanos ou por métodos automáticos. Assim, eles são usados para tentar, de maneira enganosa, controlar a opinião geral, podendo causar prejuízos para empresas e usuários. Diversas abordagens para a detecção de spam reviews vêm sendo propostas, sendo que a grande maioria emprega técnicas de aprendizado de máquina e processamento de linguagem natural. No entanto, apesar dos avanços já realizados, ainda há questionamentos relevantes que permanecem em aberto e demandam uma análise criteriosa para serem respondidos. Por exemplo, não há um consenso se o desempenho de métodos tradicionais de classificação pode ser afetado em cenários que demandam aprendizado incremental ou por mudanças nas características dos reviews devido ao fator cronológico, assim como também não há um consenso se existe diferença estatística entre os desempenhos dos métodos baseados no conteúdo das mensagens. Neste cenário, esta dissertação oferece uma análise e comparação compreensiva dos métodos tradicionais de aprendizado de máquina, aplicados na detecção de spam reviews. A comparação é realizada em múltiplos cenários, empregando-se diferentes tipos de aprendizado e bases de dados. Os experimentos realizados, juntamente com análise estatística dos resultados, corroboram a oferecer respostas adequadas para os questionamentos existentes. Além disso, os resultados obtidos podem ser usados como baseline para comparações futuras. Spam (Mensagens eletrônicas) Opiniões falsas Classificação Processamento de linguagem natural Aprendizado de máquina Spam (Electronic mail) Spam reviews Classification Natural language processing Machine learning
122	Aperfeiçoamento de um tradutor automático Português-Inglês: tempos verbais / Development of a Portuguese-to-English machine translation system: tenses Silva, Lucia Helena Rozario da 03 August 2010 (has links) Esta dissertação apresenta o aperfeiçoamento de um sistema de tradução automática português-inglês. Nosso objetivo principal é criar regras de transferência estrutural entre o par de línguas português e inglês e avaliar, através do uso da métrica de avaliação METEOR, o desempenho do sistema. Para isto, utilizamos um corpus teste criado especialmente para esta pesquisa. Tendo como ponto de partida a relevância de uma correta tradução para os tempos verbais de uma sentença, este trabalho priorizou a criação de regras que tratassem a transferência entre os tempos verbais do português brasileiro para o inglês americano. Devido ao fato de os verbos em português estarem distribuídos por três conjugações, criamos um corpus para cada uma dessas conjugações. O objetivo da criação desses corpora é verificar a aplicação das regras de transferência estrutural entre os tempos verbais em todas as três classes de conjugação. Após a criação dos corpora, mapeamos os tempos verbais em português no modo indicativo, subjuntivo e imperativo para os tempos verbais do inglês. Em seguida, iniciamos a construção das regras de transferência estrutural entre os tempos verbais mapeados. Ao final da construção das regras, submetemos os corpora obedecendo as três classes de conjugação à métrica de avaliação automática METEOR. Os resultados da avaliação do sistema após a inserção das regras apresentaram uma regressão quando comparado a avaliação do sistema no estágio inicial da pesquisa. Detectamos, através de análises dos resultados, que a métrica de avaliação automática METEOR não foi sensível às modificações feitas no sistema, embora as regras criadas sigam a gramática tradicional da língua portuguesa e estejam sendo aplicadas a todas as três classes de conjugação. Apresentamos em detalhes o conjunto de regras sintáticas e os corpora utilizados neste estudo, e que acreditamos serem de utilidade geral para quaisquer sistemas de tradução automática entre o português brasileiro e o inglês americano. Outra contribuição deste trabalho está em discutir os valores apresentados pela métrica METEOR e sugerir que novos ajustes sejam feitos a esses parâmetros utilizados pela métrica. / This dissertation presents the development of a Portuguese-to-English Machine Translation system. Our main objective is creating structural transfer rules between this pair of languages, and evaluate the performance of the system using the METEOR evaluation metric. Therefore, we developed a corpus to enable this study. Taking translation relevance as a starting point, we focused on verbal tenses and developed rules that dealt with transfer between verbal tenses from the Brazilian Portuguese to US English. Due to the fact that verbs in Portuguese are distributed in three conjugations, we created one corpus for each of these conjugations. The objective was to verify the application of structural transfer rules between verbal tenses in each conjugation class in isolation. After creating these corpora, we mapped the Portuguese verbal tenses in the indicative, subjunctive and imperative modes to English. Next, we constructed structural transfer rules to these mapped verbal tenses. After constructing these rules, we evaluated our corpora using the METEOR evaluation metric. The results of this evaluation showed lack of improvement after the insertion of these transfer rules, when compared to the initial stage of the system. We detected that the METEOR evaluation metric was not sensible to these modi_cations made to the system, even though they were linguistically sound and were being applied correctly to the sentences. We introduce in details the set of transfer rules and corpora used in this study, and we believe they are general enough to be useful in any rule-based Portuguese-to-English Machine Translation system. Another contribution of this work lies in the discussion of the results presented by the METEOR metric. We suggest adjustments to be made to its parameters, in order to make it more sensible to sentences variation such as those introduced by our rules. Articial intelligence Computational linguistics Inteligência artifical Linguística Linguística computacional Linguistics Machine translation Natural language processing Processamento de linguagem natural Tradução automática
123	Extractive document summarization using complex networks / Sumarização extractiva de documentos usando redes complexas Tohalino, Jorge Andoni Valverde 15 June 2018 (has links) Due to a large amount of textual information available on the Internet, the task of automatic document summarization has gained significant importance. Document summarization became important because its focus is the development of techniques aimed at finding relevant and concise content in large volumes of information without changing its original meaning. The purpose of this Masters work is to use network theory concepts for extractive document summarization for both Single Document Summarization (SDS) and Multi-Document Summarization (MDS). In this work, the documents are modeled as networks, where sentences are represented as nodes with the aim of extracting the most relevant sentences through the use of ranking algorithms. The edges between nodes are established in different ways. The first approach for edge calculation is based on the number of common nouns between two sentences (network nodes). Another approach to creating an edge is through the similarity between two sentences. In order to calculate the similarity of such sentences, we used the vector space model based on Tf-Idf weighting and word embeddings for the vector representation of the sentences. Also, we make a distinction between edges linking sentences from different documents (inter-layer) and those connecting sentences from the same document (intra-layer) by using multilayer network models for the Multi-Document Summarization task. In this approach, each network layer represents a document of the document set that will be summarized. In addition to the measurements typically used in complex networks such as node degree, clustering coefficient, shortest paths, etc., the network characterization also is guided by dynamical measurements of complex networks, including symmetry, accessibility and absorption time. The generated summaries were evaluated by using different corpus for both Portuguese and English language. The ROUGE-1 metric was used for the validation of generated summaries. The results suggest that simpler models like Noun and Tf-Idf based networks achieved a better performance in comparison to those models based on word embeddings. Also, excellent results were achieved by using the multilayered representation of documents for MDS. Finally, we concluded that several measurements could be used to improve the characterization of networks for the summarization task. / Devido à grande quantidade de informações textuais disponíveis na Internet, a tarefa de sumarização automática de documentos ganhou importância significativa. A sumarização de documentos tornou-se importante porque seu foco é o desenvolvimento de técnicas destinadas a encontrar conteúdo relevante e conciso em grandes volumes de informação sem alterar seu significado original. O objetivo deste trabalho de Mestrado é usar os conceitos da teoria de grafos para o resumo extrativo de documentos para Sumarização mono-documento (SDS) e Sumarização multi-documento (MDS). Neste trabalho, os documentos são modelados como redes, onde as sentenças são representadas como nós com o objetivo de extrair as sentenças mais relevantes através do uso de algoritmos de ranqueamento. As arestas entre nós são estabelecidas de maneiras diferentes. A primeira abordagem para o cálculo de arestas é baseada no número de substantivos comuns entre duas sentenças (nós da rede). Outra abordagem para criar uma aresta é através da similaridade entre duas sentenças. Para calcular a similaridade de tais sentenças, foi usado o modelo de espaço vetorial baseado na ponderação Tf-Idf e word embeddings para a representação vetorial das sentenças. Além disso, fazemos uma distinção entre as arestas que vinculam sentenças de diferentes documentos (inter-camada) e aquelas que conectam sentenças do mesmo documento (intra-camada) usando modelos de redes multicamada para a tarefa de Sumarização multi-documento. Nesta abordagem, cada camada da rede representa um documento do conjunto de documentos que será resumido. Além das medições tipicamente usadas em redes complexas como grau dos nós, coeficiente de agrupamento, caminhos mais curtos, etc., a caracterização da rede também é guiada por medições dinâmicas de redes complexas, incluindo simetria, acessibilidade e tempo de absorção. Os resumos gerados foram avaliados usando diferentes corpus para Português e Inglês. A métrica ROUGE-1 foi usada para a validação dos resumos gerados. Os resultados sugerem que os modelos mais simples, como redes baseadas em Noun e Tf-Idf, obtiveram um melhor desempenho em comparação com os modelos baseados em word embeddings. Além disso, excelentes resultados foram obtidos usando a representação de redes multicamada de documentos para MDS. Finalmente, concluímos que várias medidas podem ser usadas para melhorar a caracterização de redes para a tarefa de sumarização. Artificial intelligence Automatic summarization Complex networks Inteligência artificial Natural language processing Processamento de linguagem natural Redes complexas Sumarização automática
124	Uma arquitetura de question-answering instanciada no domínio de doenças crônicas / A question-answering architecture instantiated on the domains of chronic disease Almansa, Luciana Farina 08 August 2016 (has links) Nos ambientes médico e de saúde, especificamente no tratamento clínico do paciente, o papel da informação descrita nos prontuários médicos é registrar o estado de saúde do paciente e auxiliar os profissionais diretamente ligados ao tratamento. A investigação dessas informações de estado clínico em pesquisas científicas na área de biomedicina podem suportar o desenvolvimento de padrões de prevenção e tratamento de enfermidades. Porém, ler artigos científicos é uma tarefa que exige tempo e disposição, uma vez que realizar buscas por informações específicas não é uma tarefa simples e a área médica e de saúde está em constante atualização. Além disso, os profissionais desta área, em sua grande maioria, possuem uma rotina estressante, trabalhando em diversos empregos e atendendo muitos pacientes em um único dia. O objetivo deste projeto é o desenvolvimento de um Framework de Question Answering (QA) para suportar o desenvolvimento de sistemas de QA, que auxiliem profissionais da área da saúde na busca rápida por informações, especificamente, em epigenética e doenças crônicas. Durante o processo de construção do framework, estão sendo utilizados dois frameworks desenvolvidos anteriormente pelo grupo de pesquisa da mestranda: o SisViDAS e o FREDS, além de desenvolver os demais módulos de processamento de pergunta e de respostas. O QASF foi avaliado por meio de uma coleção de referências e medidas estatísticas de desempenho e os resultados apontam valores de precisão em torno de 0.7 quando a revocação era 0.3, para ambos o número de artigos recuperados e analisados eram 200. Levando em consideração que as perguntas inseridas no QASF são longas, com 70 termos por pergunta em média, e complexas, o QASF apresentou resultados satisfatórios. Este projeto pretende contribuir na diminuição do tempo gasto por profissionais da saúde na busca por informações de interesse, uma vez que sistemas de QA fornecem respostas diretas e precisas sobre uma pergunta feita pelo usuário / The medical record describes health conditions of patients helping experts to make decisions about the treatment. The biomedical scientific knowledge can improve the prevention and the treatment of diseases. However, the search for relevant knowledge may be a hard task because it is necessary time and the healthcare research is constantly updating. Many healthcare professionals have a stressful routine, because they work in different hospitals or medical offices, taking care many patients per day. The goal of this project is to design a Question Answering Framework to support faster and more precise searches for information in epigenetic, chronic disease and thyroid images. To develop the proposal, we are reusing two frameworks that have already developed: SisViDAS and FREDS. These two frameworks are being exploited to compose a document processing module. The other modules (question and answer processing) are being completely developed. The QASF was evaluated by a reference collection and performance measures. The results show 0.7 of precision and 0.3 of recall for two hundred articles retrieved. Considering that the questions inserted on the framework have an average of seventy terms, the QASF shows good results. This project intends to decrease search time once QA systems provide straight and precise answers in a process started by a user question in natural language Extração de Informação Information Extraction Information Retrieval Natural Language Processing Processamento de Linguagem Natural Question Answering Recuperação de Informação Sistema de Perguntas e Respostas
125	Reescrita sentencial baseada em traços de personalidade / Text rewrite based on psychological profiles Stávracas Neto, Georges Basile 13 March 2018 (has links) Sistemas de Geração de Língua Natural tentam produzir textos de maneira automatizada. Em sistemas desse tipo, é desejável produzir textos de forma realista - ou psicologicamente plausível - como forma de aumentar o engajamento do leitor. Uma das formas de alcançar esse objetivo é gerando textos de modo a refletir uma personalidade-alvo de interesse. Por exemplo, uma pessoa extrovertida usaria palavras mais simples e seus textos teriam mais interjeições e traços de oralidade. Esse trabalho tem o objetivo de desenvolver um modelo de reescrita sentencial para o português brasileiro com base em traços de personalidade de um locutor-alvo. Para isso, foi coletado um córpus de textos e inventários de personalidade e, com base em uma análise preliminar desses dados, foram encontrados fortes indícios de correlação entre os fatores de personalidade e as características observadas dos textos em português brasileiro. Foram gerados três modelos de lexicalização, referentes à adjetivos, substantivos e verbos. Esses modelos de lexicalização, então, foram utilizados na proposta de um modelo de reescrita sentencial para selecionar as palavras mais adequadas à personalidade-alvo. Os resultados demonstram que o uso de personalidade permite que o texto gerado seja mais próximo do desempenho humano se comparado a um sistema de baseline que faz escolhas lexicais mais frequentes / Natural Language Generation Systems attempt to produce texts in an automated fashion. In systems of this kind, it is desired to produce texts realisticaly - or at least psychologically plausible - as a way to increase reader\'s engagement. One way to achieve this goal is generating texts in such a way to reflect a target personality profile. For example, an extroverted individual would use simpler words and its texts would have more interjections and orality traces. This work proposes the development of a Brazilian Portuguese personality-based sentence rewrite model. To this end, a corpus with text samples and personality inventories has been collected, and, based on a preliminary analysis, strong correlations between personality and text features have been found. Three lexicalization models were generated, related to adjectives, nouns and verbs. These models were then used by the sentence rewrite model to select the most appropriate word for the target personality. Results show that the usage of personality allows the generated text to be closer to human performance when compared to a baseline system that makes lexical choices based on frequency Big Five Big Five Natural language processing Processamento de linguagem natural Reescrita de texto Text rewrite Text to text Texto-para-texto
126	Sistema de aplicação unificada de regras linguísticas e ontologias para a extração de informações Araujo, Denis Andrei de 30 August 2013 (has links) Submitted by Mariana Dornelles Vargas (marianadv) on 2015-05-29T14:51:35Z No. of bitstreams: 1 sistema_aplicacao.pdf: 3329376 bytes, checksum: 15eb7bd8bf245f93a6032e0aeec8c11a (MD5) / Made available in DSpace on 2015-05-29T14:51:35Z (GMT). No. of bitstreams: 1 sistema_aplicacao.pdf: 3329376 bytes, checksum: 15eb7bd8bf245f93a6032e0aeec8c11a (MD5) Previous issue date: 2013 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A Extração de Informações é um componente importante do conjunto de ferramentas computacionais que visam a identificação de informação relevante a partir de textos em linguagem natural. Regras de extração de conhecimento, baseadas no tratamento linguístico de aspectos específicos dos documentos textuais, podem contribuir para o alcance de melhores desempenhos nesta tarefa. Este trabalho apresenta um modelo para a Extração da Informação baseada em ontologias, a qual se utiliza de técnicas de Processamento da Linguagem Natural e corpus anotado para a identificação das informações de interesse. São descritos os principais componentes da proposta e apresentado um estudo de caso baseado em documentos jurídicos brasileiros. Os resultados obtidos nos experimentos realizados indicam índices relevantes de acurácia e precisão e boas perspectivas quanto a flexibilidade, expressividade e generalização das regras de extração. / Information extraction is an important part of a broader set of enabling tools to assist on identifying relevant information from natural language texts. Knowledge acquisition rules, based on linguistic treatment of specific aspects of textual documents, can provide an even broader set of possibilities. This work presents a model for addressing information extraction from texts based on ontology, which uses Natural Language Processing techniques and annotated corpus to identify relevant information. The main components of the proposal are described and presented a case study based on Brazilian legal documents. The results achieved on experiments indicate relevant accuracy and precision performance and good prospects regarding flexibility, expressiveness and generalization of the extraction rules. Extração da informação Ontologias Processamento da linguagem natural Information extraction Ontologies Natural language processing
127	Expans?o de consultas com realimenta??o e pseudo realimenta??o de relevantes em um sistema que utiliza o modelo TR+ para indexar e recuperar documentos Borges, Thyago Bohrer 26 January 2009 (has links) Made available in DSpace on 2015-04-14T14:49:10Z (GMT). No. of bitstreams: 1 416994.pdf: 2345425 bytes, checksum: 75ba39cb209e96c61f3f88810380759c (MD5) Previous issue date: 2009-01-26 / Este trabalho apresenta e discute os resultados obtidos com a aplica??o das t?cnicas de expans?o de consulta denominadas Pseudo Realimenta??o de Relevantes (PRR) e Realimenta??o de Relevantes (RR) em um Sistema de Recupera??o de Informa??o (SRI) que utiliza o modelo de recupera??o de informa??o denominado TR+. TR+ ? um modelo de recupera??o de informa??o que emprega, al?m de termos, Rela??es Lexicais Bin?rias (RLB) presentes nos textos e nas consultas, para indexar e recuperar documentos textuais em l?ngua portuguesa. A aplica??o das t?cnicas de expans?o de consultas PRR e RR t?m como objetivo melhorar os resultados obtidos pelo usu?rio que realiza uma consulta. As duas t?cnicas se diferenciam quanto ? participa??o do usu?rio: enquanto a RR utiliza o julgamento do usu?rio na defini??o de quais documentos recuperados pela consulta original fornecer?o as informa??es utilizadas na expans?o da consulta, a PRR busca eliminar a participa??o do usu?rio durante este processo. Os resultados obtidos pelos experimentos, tanto utilizando PRR quanto RR, n?o superaram os resultados utilizados como baseline (Gonzalez, 2005). Ao compararmos entre si os resultados dos experimentos com as t?cnicas PRR e RR, os experimentos com PRR foram superados pela RR somente em uma rodada. No contexto dessa disserta??o podemos concluir que a utiliza??o de RLBs ao inv?s de usar somente termos, ? uma op??o mais producente. INFORM?TICA SISTEMAS DE RECUPERA??O DA INFORMA??O PROCESSAMENTO DA LINGUAGEM NATURAL LING??STICA COMPUTACIONAL
128	Resolu??o de correfer?ncia e categorias de entidades nomeadas Moraes, Tatiane Coreixas 10 March 2010 (has links) Made available in DSpace on 2015-04-14T14:49:27Z (GMT). No. of bitstreams: 1 427028.pdf: 957635 bytes, checksum: fbedf4df218091e4bc1e919c4ffd808b (MD5) Previous issue date: 2010-03-10 / Define-se correfer?ncia como a rela??o entre diversos componentes lingu?sticos com uma mesma entidade de mundo. A resolu??o autom?tica de correfer?ncia textual est? inserida num contexto muito importante na ?rea de Processamento da Linguagem Natural, pois v?rios sistemas necessitam dessa tarefa. O n?vel de processamento lingu?stico depende do conhecimento de mundo, e isso ainda ? um desafio para a ?rea. Esse desafio estimulou e tornou-se o objeto de estudo desta disserta??o. Nesse sentido, analisamos o papel das categorias de entidades nomeadas e, atrav?s de aprendizado de m?quina, verificamos as condi??es de resolu??o em diferentes categorias. Os resultados dos experimentos demonstraram que o conhecimento de mundo, representado nas categorias de entidades nomeadas, auxilia nessa tarefa, pois o percentual de retorno do sistema com base nas categorias teve uma melhora de 17% em compara??o com a vers?o sem as categorias. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGU?STICA COMPUTACIONAL APRENDIZAGEM DE M?QUINA
129	Constru??o de estruturas ontol?gicas a partir de textos : um estudo baseado no m?todo formal concept analysis e em pap?is sem?nticos Moraes, S?lvia Maria Wanderley 30 March 2012 (has links) Made available in DSpace on 2015-04-14T14:49:51Z (GMT). No. of bitstreams: 1 439881.pdf: 4189361 bytes, checksum: cc72da8cbd69a8a5387851bb140f1b30 (MD5) Previous issue date: 2012-03-30 / This work aims to study conceptual structures based on the Formal Concept Analysis method. We build these structures based on lexico-semantic information extracted from texts, among which we highlight the semantic roles. In our research, we propose ways to include semantic roles in concepts produced by this formal method. We analyze the contribution of semantic roles and verb classes in the composition of these concepts through structural measures. In these studies, we use the Penn Treebank Sample and SemLink 1.1 corpora, both in English. We test, also for English, the applicability of our proposal in the Finance and Tourism domains with text extracted from the Wikicorpus 1.0. This applicability was extrinsically analyzed based on the text categorization task, which was evaluated through functional measures traditionally used in this area. We also performed some preliminary studies for a corpus in Portuguese: PLN-BR CATEG. In our studies, we obtained satisfactory results which show that the proposed approach is promising. / Este trabalho tem como prop?sito estudar estruturas conceituais geradas seguindo o m?todo Formal Concept Analysis. Usamos na constru??o dessas estruturas informa??es lexicossem?nticas extra?das dos textos, dentre as quais se destacam os pap?is sem?nticos. Em nossa pesquisa, propomos formas de inclus?o de tais pap?is nos conceitos produzidos por esse m?todo formal. Analisamos a contribui??o dos pap?is sem?nticos e das classes de verbos na composi??o dos conceitos, por meio de medidas de ordem estrutural. Nesses estudos, utilizamos os corpora Penn TreeBank Sample e SemLink 1.1, ambos em L?ngua Inglesa. Testamos, tamb?m para L?ngua Inglesa, a aplicabilidade de nossa proposta nos dom?nios de Finan?as e Turismo com textos extra?dos do corpus Wikicorpus 1.0. Essa aplicabilidade foi analisada extrinsecamente com base na tarefa de categoriza??o de textos, a qual foi avaliada a partir de medidas de ordem funcional tradicionalmente usadas nessa ?rea. Realizamos ainda alguns estudos preliminares relacionados ? nossa proposta para um corpus em L?ngua Portuguesa: PLN-BR CATEG. Obtivemos, nos estudos realizados, resultados satisfat?rios os quais mostram que a abordagem proposta ? promissora. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL AN?LISE SEM?NTICA (PROGRAMA??O) ONTOLOGIA
130	Recursos do processamento da l?ngua natural aplicados na recupera??o sem?ntica de documentos de caso de uso Silva J?nior, Cust?dio Gast?o da 15 December 2009 (has links) Made available in DSpace on 2015-04-14T14:49:53Z (GMT). No. of bitstreams: 1 442334.pdf: 1018335 bytes, checksum: c77dd540cf5f9308c80ab3c9f7da5374 (MD5) Previous issue date: 2009-12-15 / The Requirements Engineering basically deals with how to discover, analyze, register and verify the functions and restrictions that software must consider. In this process the designer not only concentrates in understanding the necessities, goals and certainties of the interested users but also in changing them into software devices. This process is known as development cycle and it is carried out until the software covers all the requirements of the involved users. This study describes how the resources of the natural language processing were used in the construction for a solution of semantics recovery of use case document and it also presents the reached findings. For the construction of the solution, it is specified a method that organizes the preparation and recovery works in two phases. The first describes the form how the corpus must be prepared and how the terms used in the preparation phase can be used in the definition of the keys concepts of the domain. The second phase explains how the document recovery is carried out and shows how the described relationships in the ontology are used to improve the results of the recovery. The presented findings reveal the described method in this study is efficient, since it presented a covering of 100% in both tests. Related of measure of precision, that presented an inferior result of 50%, it was compensated by the ranking algorithm that sorted the documents of similar form of the manual classification done by the users. / A engenharia de requisitos trata fundamentalmente de como descobrir, analisar, documentar e verificar as fun??es e restri??es que um software deve contemplar. Neste processo o projetista se concentra em entender as necessidades, metas e convic??es dos interessados e em como transform?-las em artefatos de software. Isso ? conhecido como ciclo de desenvolvimento e ? realizado at? que o software atenda todos os requisitos dos interessados. Este trabalho descreve como os recursos do processamento da l?ngua natural foram utilizados na constru??o de uma solu??o para recupera??o sem?ntica de documentos de caso de uso e apresenta os resultados alcan?ados. Para a constru??o da solu??o, foi especificado um m?todo que organiza os trabalhos de prepara??o e recupera??o em duas fases. A primeira descreve a forma como o corpus deve ser preparado e como os termos utilizados na prepara??o podem ser utilizados na defini??o das palavras-chave do dom?nio. A segunda fase explica como a recupera??o de documentos ? realizada, e mostra como os relacionamentos descritos na ontologia s?o utilizados para melhorar os resultados da recupera??o. Os resultados apresentados mostram que o m?todo descrito neste trabalho ? promissor, visto que ele apresentou cobertura de 100% em ambos os testes. Quanto a medida de precis?o, que apresentou resultado inferior a 50%, o resultado foi compensado pelo algoritmo de ranking que ordenou os documentos de forma similar a classifica??o manual feita pelos usu?rios. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL SISTEMAS DE RECUPERA??O DA INFORMA??O ENGENHARIA DE REQUISITOS

Search results