• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 206
  • 26
  • 6
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 239
  • 239
  • 233
  • 116
  • 115
  • 82
  • 52
  • 51
  • 51
  • 47
  • 47
  • 37
  • 36
  • 35
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Um estudo sobre interfaces em linguagem natural, com vistas a interação entre usuarios e bases de conhecimento

Tedesco, Gilberto Onofre 14 December 1990 (has links)
Orientador: Furio Damiani / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-13T23:18:04Z (GMT). No. of bitstreams: 1 Tedesco_GilbertoOnofre_M.pdf: 6526059 bytes, checksum: 56913e22c1a26d30f9820d5b5c9ae252 (MD5) Previous issue date: 1990 / Resumo: A finalidade deste trabalho é o estudo e a aplicação de métodos de processamento de linguagem natural para que se possam construir interfaces entre a linguagem do usuário e a linguagem usada em sistemas de computação. Entende-se como linguagem natural a linguagem verbal, mais especificamente, sua representação escrita,com vistas unicamente ao seu processamento computacional. Uma interface em linguagem natural, em grande parte, depende do domínio de conhecimento. Procuramos dar ênfase à sua portabilidade para diferentes domínios de aplicação. Como exemplo, implementamos uma interface para que se possa acessar uma base de conhecimentos constituída de informações sobre os arquivos em discos de um microcomputador PC. A estrutura deste interpretador compõe-se de um conjunto de módulos interativos, tendo como entrada a solicitação do usuário e como saída a resposta a sua consulta ou a execução de algum comando. Um outro aspecto que procuramos salientar é a possibilidade de expansão do dicionário e da base de dados pelo próprio usuário, durante sua interação com o sistema, dispensando a intermediação do profissional da computação para implementar tais modificações / Mestrado / Mestre em Engenharia Elétrica
32

Processamento automático aplicado à análise de requisitos escritos em linguagem natural

Samir Prado Daud 30 October 2009 (has links)
O objetivo deste trabalho é estudar a viabilidade do uso de técnicas de Processamento da Linguagem Natural para o auxilio da análise de requisitos escritos em linguagem natural. Requisitos em Linguagem Natural são amplamente utilizadas na indústria aeronáutica, pelo menos como o primeiro nível de descrição de um sistema. Utilizar linguagens formais para especificar requisitos, apesar de apresentar ganhos relacionados à ausência de ambiguidades inerentes à linguagem natural, gera outros problemas. O processo que conduz a requisitos de qualidade começa com a análise de requisitos escritos em Linguagem Natural e continua por sua formalização e verificação. No intuito de diminuir tais ambigüidades são utilizados padrões de escrita de requisitos. São comparadas diversas abordagens para o processamento da linguagem natural aplicado ao problema estudado. A análise léxica apresenta algumas abordagens inovadoras, e produz resultados bons comparados com a literatura. Na análise sintática é utilizada uma gramática semântica, o que permite a aplicação imediata dos resultados. Durante a análise semântica mostrou-se inviável a detecção de inconsistências em requisitos. Porém os ganhos na qualidade dos requisitos com o uso de uma gramática mais restrita e possibilidades do uso de resultados do processamento da linguagem natural para outras aplicações indicam a viabilidade do uso do processamento da linguagem natural no auxilio a especificação de requisitos.
33

Desambigua??o de anota??es morfossint?ticas feitas por MTMDD

Thiele, Pablo Frederico Oliveira 24 March 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-10-05T19:09:02Z No. of bitstreams: 1 475518 - Texto Completo.pdf: 1065929 bytes, checksum: cf8f71f90f9d278fccf4595fde672a11 (MD5) / Made available in DSpace on 2015-10-05T19:09:02Z (GMT). No. of bitstreams: 1 475518 - Texto Completo.pdf: 1065929 bytes, checksum: cf8f71f90f9d278fccf4595fde672a11 (MD5) Previous issue date: 2015-03-24 / The Natural Language Processing technologies (PLN) are being used for analysis of huge amounts of data. With the advent of new media and mass adoption of social networking, the flow of information generated every second is the largest in history. The majority of that is multimedia files. Meanwhile, a large portion of the information produced, especially in social network, is textual. Thus, PLN solutions need to be more robust than they ever were, finding processing solutions that might accompany this constant information production or at least provide better results compared to procedures previously used. The labelers or taggers are a major component of PLN. Its function, explored in this work is the ability to observe and catalog the words in a text according to their morphosyntactic functions. The name commonly given to this process is the POST (Part-Of-Speech Tagging). Within the context Part-Of-Speech (POS) is the function to process and identify a group of words by grouping them into pre-defined types. This grouping can occur due to syntactic, morphological or morphosyntactic. Although the processing speed is a worthy feature, when we deal with labelers, the accuracy obtained for its process should be the premise. The concept of obtaining semantic labels from texts evaluations seems simple at first sight, although presents several challenges. One of the major challenges encountered in PLN is the problem of ambiguity. This situation, which occurs in several stages of natural language processing, is complex due to requires comprehensive knowledge from the processing application using that as tools to collaborate in order to implement the most correct choices. It is a classic problem, inherent to natural and existing language since the beginning of the researches of this area. Several possibilities to minimize its consequences have been proposed since then. This paper lists some of the proposals found on the literature by adding the possibility to use MTMDD structures during the process, looking for a substantial performance gain. / Atualmente as tecnologias de Processamento de Linguagem Natural (PLN) est?o sendo utilizadas em an?lises de enormes quantidades de dados. Com o advento das novas m?dias e a ado??o em massa das redes sociais, o fluxo de informa??es geradas a cada segundo ? o maior da hist?ria. Embora isso se concentre, em maior parte, por informa??es e arquivos de multim?dia, uma grande parcela da informa??o produzida, principalmente nas redes sociais, ? textual. Desta forma, as solu??es de PLN necessitam ser mais robustas do que jamais foram, encontrando solu??es de processamento que possam acompanhar esta gera??o constante de informa??es ou pelo menos apresentar resultados melhores se comparados aos procedimentos utilizados anteriormente. Os etiquetadores ou taggers s?o um dos principais componentes da PLN. Sua fun??o, explorada neste trabalho ? a capacidade de observar e catalogar as palavras em um texto de acordo com suas fun??es morfossint?ticas. O nome comumente dado a este processo ? o de POST (Part-Of-Speech Tagging). Dentro do contexto Part-Of-Speech (POS) encontra-se a fun??o de processar e identificar um grupo de palavras agrupando-as em tipos pr?-definidos. Este agrupamento pode ocorrer em raz?o sint?tica, morfol?gica ou morfossint?tica. Embora a velocidade de processamento seja uma carater?stica digna de nota, quando tratamos de etiquetadores, a acuidade obtida por seu processo deve ser a premissa. O conceito da obten??o de etiquetas sem?nticas a partir de avalia??es dos textos embora pare?a simples em um primeiro momento, apresenta v?rios desafios. Um dos maiores desafios encontrado em PLN ? o problema da ambiguidade. Esta situa??o que ocorre nas mais diversas etapas do processamento de linguagem natural ? complexa, devido ? necessidade de que a aplica??o processadora tenha conhecimentos abrangentes que possam ser utilizados como ferramentas que colaborem no intuito de realizar as escolhas mais corretas. Devido ao fato de se tratar de um problema antigo, inerente ? linguagem natural e existente desde o come?o das pesquisas da ?rea, diversas possibilidades de minimizar suas consequ?ncias foram propostas. O presente trabalho enumera algumas das propostas encontradas, adicionando a possibilidade de uso de estruturas do tipo MTMDD no processo, buscando um ganho substancial de desempenho.
34

Lexicalização de ontologias : o relacionamento entre conteúdo e significado no contexto da recuperação da informação

Schiessl, Marcelo 16 April 2015 (has links)
Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2015. / Investiga as tecnologias da Web Semântica e as técnicas de Processamento de Linguagem Natural para a elaboração semiautomática de uma base léxico-ontológica, em Português, circunscrita ao domínio de risco financeiro que, incorporada ao modelo de recuperação da informação, visa melhorar a precisão. Identifica teorias, ferramentas e técnicas que propiciam a automatização de procedimentos que extraem elementos ontológicos e léxicos de bases estruturadas e não estruturadas. Esses elementos combinados na forma de base de dados apoiam a geração de índice léxico-semântico que fornece insumos para a proposição de modelo de recuperação da informação semântica. A metodologia adotada se apresenta em: levantamento de fundamentos teóricos e metodológicos, ferramentas e bases de dados ontológicas e textuais; construção de ontologia e base léxico-ontológica com foco no risco financeiro; elaboração de modelo de recuperação da informação semântica; avaliação do modelo realizada num corpus de informação relacionada ao risco financeiro que foi indexado nos moldes tradicionais e contemplando a informação semântica para, então, medir a precisão nas duas situações. Os resultados alcançados demonstram a utilização da metodologia, no domínio de risco financeiro em Português, para a elaboração da ontologia OntoRisco, da base léxico-semântica RiscoLex e da proposta de modelo de recuperação da informação semântica que mostrou resultados superiores aos modelos de recuperação da informação tradicionais, nos testes realizados. Conclui que os resultados satisfatórios mostram a aplicabilidade da proposta metodológica para o domínio em questão e aponta para a possibilidade de expandir a outros domínios com as devidas adaptações dos recursos utilizados. O estudo contribui para a área de representação e organização da informação e do conhecimento na medida em que fornece metodologia, aporte teórico e insumos para que profissionais continuem promovendo o desenvolvimento da Ciência da Informação. / This research investigates Semantic Web technologies, and Natural Language Processing techniques in order to semi automatically develop a lexicon-ontological database in Portuguese. This base is intended to improve the precision measurement in the financial risk domain by coupling it into an information retrieval model. It identi This research investigates Semantic Web technologies, and Natural Language Processing techniques in order to semi automatically develop a lexicon-ontological database in Portuguese. This base is intended to improve the precision measurement in the financial risk domain by coupling it into an information retrieval model. It identifies theories, tools and techniques that allow the automation of procedures that extract ontological and lexical elements from structured and non-structured databases. When these lexical and ontological elements are together in a database format, they give support to the generation of lexico-semantic index that can help the creation of semantic information retrieval models. The methodology used is as follows: surveys of methodological and theoretical fundamentals, tools, as well as ontological and textual databases; creation of an ontology and a lexicon-ontology base in the financial risk domain; elaboration of semantic information retrieval model; evaluation of the model using an information corpus related to financial risks – it was indexed by using traditional techniques, i.e. keywords, and also using semantic information; and then the precision of both situations was finally measured. The results achieved demonstrate the methodology used in the financial risk domain to elaborate the ontology, OntoRisco, using the lexico-semantic database, RiscoLex, and the semantic informational retrieval model proposed in this work. In the tests executed, the results were better than those presented by using traditional information retrieval models. It concludes that the results were quite satisfying since they show the applicability of the methodological proposal to the financial risk domain. In addition, it points the possibility of extending the proposal to other domains with only some adaptations.es theories, tools and techniques that allow the automation of procedures that extract ontological and lexical elements from structured and non-structured databases. When these lexical and ontological elements are together in a database format, they give support to the generation of lexico-semantic index that can help the creation of semantic information retrieval models. The methodology used is as follows: surveys of methodological and theoretical fundamentals, tools, as well as ontological and textual databases; creation of an ontology and a lexicon-ontology base in the financial risk domain; elaboration of semantic information retrieval model; evaluation of the model using an information corpus related to financial risks – it was indexed by using traditional techniques, i.e. keywords, and also using semantic information; and then the precision of both situations was finally measured. The results achieved demonstrate the methodology used in the financial risk domain to elaborate the ontology, OntoRisco, using the lexico-semantic database, RiscoLex, and the semantic informational retrieval model proposed in this work. In the tests executed, the results were better than those presented by using traditional information retrieval models. It concludes that the results were quite satisfying since they show the applicability of the methodological proposal to the financial risk domain. In addition, it points the possibility of extending the proposal to other domains with only some adaptations.
35

Recursos do processamento da língua natural aplicados na recuperação semântica de documentos de caso de uso

Silva Júnior, Custódio Gastão da January 2012 (has links)
Made available in DSpace on 2013-08-07T18:42:54Z (GMT). No. of bitstreams: 1 000442334-Texto+Completo-0.pdf: 1018335 bytes, checksum: c77dd540cf5f9308c80ab3c9f7da5374 (MD5) Previous issue date: 2012 / The Requirements Engineering basically deals with how to discover, analyze, register and verify the functions and restrictions that software must consider. In this process the designer not only concentrates in understanding the necessities, goals and certainties of the interested users but also in changing them into software devices. This process is known as development cycle and it is carried out until the software covers all the requirements of the involved users. This study describes how the resources of the natural language processing were used in the construction for a solution of semantics recovery of use case document and it also presents the reached findings. For the construction of the solution, it is specified a method that organizes the preparation and recovery works in two phases. The first describes the form how the corpus must be prepared and how the terms used in the preparation phase can be used in the definition of the keys concepts of the domain. The second phase explains how the document recovery is carried out and shows how the described relationships in the ontology are used to improve the results of the recovery. The presented findings reveal the described method in this study is efficient, since it presented a covering of 100% in both tests. Related of measure of precision, that presented an inferior result of 50%, it was compensated by the ranking algorithm that sorted the documents of similar form of the manual classification done by the users. / A engenharia de requisitos trata fundamentalmente de como descobrir, analisar, documentar e verificar as funções e restrições que um software deve contemplar. Neste processo o projetista se concentra em entender as necessidades, metas e convicções dos interessados e em como transformá-las em artefatos de software. Isso é conhecido como ciclo de desenvolvimento e é realizado até que o software atenda todos os requisitos dos interessados. Este trabalho descreve como os recursos do processamento da língua natural foram utilizados na construção de uma solução para recuperação semântica de documentos de caso de uso e apresenta os resultados alcançados. Para a construção da solução, foi especificado um método que organiza os trabalhos de preparação e recuperação em duas fases. A primeira descreve a forma como o corpus deve ser preparado e como os termos utilizados na preparação podem ser utilizados na definição das palavras-chave do domínio. A segunda fase explica como a recuperação de documentos é realizada, e mostra como os relacionamentos descritos na ontologia são utilizados para melhorar os resultados da recuperação. Os resultados apresentados mostram que o método descrito neste trabalho é promissor, visto que ele apresentou cobertura de 100% em ambos os testes. Quanto a medida de precisão, que apresentou resultado inferior a 50%, o resultado foi compensado pelo algoritmo de ranking que ordenou os documentos de forma similar a classificação manual feita pelos usuários.
36

Resolução de correferência e categorias de entidades nomeadas

Moraes, Tatiane Coreixas January 2010 (has links)
Made available in DSpace on 2013-08-07T18:42:54Z (GMT). No. of bitstreams: 1 000427028-Texto+Completo-0.pdf: 957635 bytes, checksum: fbedf4df218091e4bc1e919c4ffd808b (MD5) Previous issue date: 2010 / Coreference is defined as the relationship of linguistic expressions with one same entity of the world. Automatic coreference resolution is inserted in a very important context in the area of Natural Language Processing, because many systems require this task. This level of language processing depends on world knowledge, and this is still a challenge for the area. This challenge has stimulated and became the subject of this dissertation. Accordingly, we analyzed the role of categories of named entities and, through machine learning, we checked the conditions for resolution of different categories. The results of the experiments showed that world knowledge, represented by categories of named entities, helps in this task, since the percentage of return of the system based on the categories improved in about 17% when compared to the version without the categories. / Define-se correferência como a relação entre diversos componentes linguísticos com uma mesma entidade de mundo. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural, pois vários sistemas necessitam dessa tarefa. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. Esse desafio estimulou e tornou-se o objeto de estudo desta dissertação. Nesse sentido, analisamos o papel das categorias de entidades nomeadas e, através de aprendizado de máquina, verificamos as condições de resolução em diferentes categorias. Os resultados dos experimentos demonstraram que o conhecimento de mundo, representado nas categorias de entidades nomeadas, auxilia nessa tarefa, pois o percentual de retorno do sistema com base nas categorias teve uma melhora de 17% em comparação com a versão sem as categorias.
37

Expansão de consultas com realimentação e pseudo realimentação de relevantes em um sistema que utiliza o modelo TR+ para indexar e recuperar documentos

Borges, Thyago Bohrer January 2009 (has links)
Made available in DSpace on 2013-08-07T18:43:05Z (GMT). No. of bitstreams: 1 000416994-Texto+Completo-0.pdf: 2345425 bytes, checksum: 75ba39cb209e96c61f3f88810380759c (MD5) Previous issue date: 2009 / This work presents and debates the results of applying query expansion techniques such as Pseudo Relevance Feedback (PRF) and Relevance Feedback (RF) in an Information Retrieval System (IRS) that uses the information retrieval model TR+. TR+ makes use of terms and Binary Lexical Relationships (BLR) that appear in texts and queries in order to index and retrieve textual documents in Portuguese. The application of the query expansion techniques PRR and RR aims to improve the results provided by the users' queries therefore the documents retrieved are able to fulfill their needs. PRR and RR differ with respect to the users' role: while relevance feedback makes use of the user judgment for defining which documents retrieved by the original query will provide the information for QE, PRF seeks to automate such decision processo The experimental results using PRF and RF did not outperform the baseline results (Gonzalez, 2005). When comparing both techniques, we have noticed PRF was outperformed by RF only once. In the context of this dissertation, we can conclude that the use of BLRs is a more productive option when compared to the use of terms for QE. / Este trabalho apresenta e discute os resultados obtidos com a aplicação das técnicas de expansão de consulta denominadas Pseudo Realimentação de Relevantes (PRR) e Realimentação de Relevantes (RR) em um Sistema de Recuperação de Informação (SRI) que utiliza o modelo de recuperação de informação denominado TR+. TR+ é um modelo de recuperação de informação que emprega, além de termos, Relações Lexicais Binárias (RLB) presentes nos textos e nas consultas, para indexar e recuperar documentos textuais em língua portuguesa. A aplicação das técnicas de expansão de consultas PRR e RR têm como objetivo melhorar os resultados obtidos pelo usuário que realiza uma consulta. As duas técnicas se diferenciam quanto à participação do usuário: enquanto a RR utiliza o julgamento do usuário na definição de quais documentos recuperados pela consulta original fornecerão as informações utilizadas na expansão da consulta, a PRR busca eliminar a participação do usuário durante este processo. Os resultados obtidos pelos experimentos, tanto utilizando PRR quanto RR, não superaram os resultados utilizados como baseline (Gonzalez, 2005). Ao compararmos entre si os resultados dos experimentos com as técnicas PRR e RR, os experimentos com PRR foram superados pela RR somente em uma rodada. No contexto dessa dissertação podemos concluir que a utilização de RLBs ao invés de usar somente termos, é uma opção mais producente.
38

Construção de estruturas ontológicas a partir de textos: um estudo baseado no método formal concept analysis e em papéis semânticos

Moraes, Sílvia Maria Wanderley January 2012 (has links)
Made available in DSpace on 2013-08-07T18:43:12Z (GMT). No. of bitstreams: 1 000439881-Texto+Completo-0.pdf: 4189361 bytes, checksum: cc72da8cbd69a8a5387851bb140f1b30 (MD5) Previous issue date: 2012 / This work aims to study conceptual structures based on the Formal Concept Analysis method. We build these structures based on lexico-semantic information extracted from texts, among which we highlight the semantic roles. In our research, we propose ways to include semantic roles in concepts produced by this formal method. We analyze the contribution of semantic roles and verb classes in the composition of these concepts through structural measures. In these studies, we use the Penn Treebank Sample and SemLink 1. 1 corpora, both in English. We test, also for English, the applicability of our proposal in the Finance and Tourism domains with text extracted from the Wikicorpus 1. 0. This applicability was extrinsically analyzed based on the text categorization task, which was evaluated through functional measures traditionally used in this area. We also performed some preliminary studies for a corpus in Portuguese: PLN-BR CATEG. In our studies, we obtained satisfactory results which show that the proposed approach is promising. / Este trabalho tem como propósito estudar estruturas conceituais geradas seguindo o método Formal Concept Analysis. Usamos na construção dessas estruturas informações lexicossemânticas extraídas dos textos, dentre as quais se destacam os papéis semânticos. Em nossa pesquisa, propomos formas de inclusão de tais papéis nos conceitos produzidos por esse método formal. Analisamos a contribuição dos papéis semânticos e das classes de verbos na composição dos conceitos, por meio de medidas de ordem estrutural. Nesses estudos, utilizamos os corpora Penn TreeBank Sample e SemLink 1. 1, ambos em Língua Inglesa. Testamos, também para Língua Inglesa, a aplicabilidade de nossa proposta nos domínios de Finanças e Turismo com textos extraídos do corpus Wikicorpus 1. 0. Essa aplicabilidade foi analisada extrinsecamente com base na tarefa de categorização de textos, a qual foi avaliada a partir de medidas de ordem funcional tradicionalmente usadas nessa área. Realizamos ainda alguns estudos preliminares relacionados à nossa proposta para um corpus em Língua Portuguesa: PLN-BR CATEG. Obtivemos, nos estudos realizados, resultados satisfatórios os quais mostram que a abordagem proposta é promissora.
39

Reconhecimento de entidades nomeadas e relações no domínio de privacidade e responsabilização

Bruckschen, Mírian January 2010 (has links)
Made available in DSpace on 2013-08-07T18:43:36Z (GMT). No. of bitstreams: 1 000434166-Texto+Completo-0.pdf: 1758256 bytes, checksum: cc66addbe46b0c23f53ed7ab0e0c41a8 (MD5) Previous issue date: 2010 / Management of large masses of information is an area growing in interest and research, both in the academic environment and in the industry. Several mechanisms have already been proposed aiming the ease of creation, management and maintenance of knowledge bases, and recently ontologies have been considered as serious candidates for this task. Ontologies are the main mechanism for knowledge representation in technological contexts as the Semantic Web. However, the manual construction of these ontologies is very expensive, due to the amount of information to be processed for the execution of this task. With this motivation, this work proposes that ontology construction, more specifically their population, can be automatized through the task of Named Entity Recognition (NER). The work comprehends different tasks in Natural Language Processing area: Named Entity Recognition, Relations Recognition and Ontology Learning. For the execution of the ontology population task, we developed an ontology on the privacy domain and, after that, a method to populate this ontology using NER. This method comprehends population of the ontology with instances and relations. In order to validate this method, we developed a system that implements it. This system was tested over a corpus assembled by the author of this dissertation. This corpus is composed by documents of privacy and accountability area, and by legislation associated to this subject. In this dissertation we present the method, the developed system, the evaluations carried on for this work and final conclusions on the obtained results. / O gerenciamento de grandes volumes de informação é uma área de crescente interesse e pesquisa, tanto na academia quanto na indústria. Diferentes mecanismos já foram propostos com o objetivo de facilitar a criação, gerenciamento e manutenção de bases de conhecimento, e recentemente ontologias têm despontado como um forte candidato para tal função. Ontologias são o principal mecanismo para representação do conhecimento em contextos tecnológicos atuais como o da Web Semântica. Entretanto, a construção manual destas ontologias é custosa, dado o montante de informação a ser processada para a execução desta tarefa. Com esta motivação, este trabalho propõe que a confecção de ontologias, mais especificamente a sua população, pode ser automatizada pela tarefa de Reconhecimento de Entidades Nomeadas (REN). O trabalho compreende diferentes tarefas da área de Processamento de Linguagem Natural: Reconhecimento de Entidades Nomeadas, Reconhecimento de Relações e Aprendizado de Ontologias. Para a execução da tarefa de população de ontologias, foi construída manualmente uma ontologia do domínio de privacidade e posteriormente desenvolvido um método para executar a sua população através da tarefa de REN. Este método compreende a população da ontologia com instâncias e relações. Para validar este método, foi desenvolvido um sistema que o implementa. Este sistema foi testado sobre um corpus montado pela autora deste trabalho. Este corpus é composto por documentos da área de privacidade e responsabilização, e da legislação associada a este tema. São apresentados neste trabalho o método, o sistema desenvolvido, as avaliações a que este trabalho foi submetido e suas conclusões.
40

Inferência de emoções em fragmentos de textos obtidos do Facebook /

Medeiros, Richerland Pinto. January 2017 (has links)
Orientador: João Fernando Marar / Banca: Antonio Carlos Sementille / Banca: Rodrigo Holdschip / Resumo: Esta pesquisa tem como objetivo analisar o uso da técnica estatística de aprendizado de máquina Maximização de Entropia, voltado para tarefas de processamento de linguagem natural na inferência de emoções em textos obtidos da rede social Facebook. Foram estudados os conceitos primordiais das tarefas de processamento de linguagem natural, os conceitos inerentes a teoria da informação, bem como o aprofundamento no conceito de um modelo entrópico como classificador de textos. Os dados utilizados na presente pesquisa foram obtidos de textos curtos, ou seja, textos com no máximo 500 caracteres. A técnica em questão foi abordada dentro do aprendizado supervisionado de máquina, logo, parte dos dados coletados foram usados como exemplos marcados dentro de um conjunto de classes predefinidas, a fim de induzir o mecanismo de aprendizado a selecionar a classe de emoção mais provável dado o exemplo analisado. O método proposto obteve índice de assertividade médio de 90%, baseado no modelo de validação cruzada. / Abstract: This research aims to analyze the use of entropy maximization machine learning statistical technique, focused on natural language processing tasks in the inferencing of emotions in short texts from Facebook social network. Were studied the primary concepts of natural language processing tasks, IT intrinsic concepts, as well as deepening the concept of Entropy model as a text classifier. All data used for this research came from short texts found in social networks and had 500 characters or less. The model was used within supervised machine learning, therefore, part of the collected data was used as examples marked within a set of predefined classes in order to induce the learning mechanism to select the most probable emotion class given the analyzed sample. The method has obtained the mean accuracy rate of 90%, based on the cross-validation model. / Mestre

Page generated in 0.141 seconds