Global ETD Search

121	Reescrita sentencial baseada em traços de personalidade / Text rewrite based on psychological profiles Stávracas Neto, Georges Basile 13 March 2018 (has links) Sistemas de Geração de Língua Natural tentam produzir textos de maneira automatizada. Em sistemas desse tipo, é desejável produzir textos de forma realista - ou psicologicamente plausível - como forma de aumentar o engajamento do leitor. Uma das formas de alcançar esse objetivo é gerando textos de modo a refletir uma personalidade-alvo de interesse. Por exemplo, uma pessoa extrovertida usaria palavras mais simples e seus textos teriam mais interjeições e traços de oralidade. Esse trabalho tem o objetivo de desenvolver um modelo de reescrita sentencial para o português brasileiro com base em traços de personalidade de um locutor-alvo. Para isso, foi coletado um córpus de textos e inventários de personalidade e, com base em uma análise preliminar desses dados, foram encontrados fortes indícios de correlação entre os fatores de personalidade e as características observadas dos textos em português brasileiro. Foram gerados três modelos de lexicalização, referentes à adjetivos, substantivos e verbos. Esses modelos de lexicalização, então, foram utilizados na proposta de um modelo de reescrita sentencial para selecionar as palavras mais adequadas à personalidade-alvo. Os resultados demonstram que o uso de personalidade permite que o texto gerado seja mais próximo do desempenho humano se comparado a um sistema de baseline que faz escolhas lexicais mais frequentes / Natural Language Generation Systems attempt to produce texts in an automated fashion. In systems of this kind, it is desired to produce texts realisticaly - or at least psychologically plausible - as a way to increase reader\'s engagement. One way to achieve this goal is generating texts in such a way to reflect a target personality profile. For example, an extroverted individual would use simpler words and its texts would have more interjections and orality traces. This work proposes the development of a Brazilian Portuguese personality-based sentence rewrite model. To this end, a corpus with text samples and personality inventories has been collected, and, based on a preliminary analysis, strong correlations between personality and text features have been found. Three lexicalization models were generated, related to adjectives, nouns and verbs. These models were then used by the sentence rewrite model to select the most appropriate word for the target personality. Results show that the usage of personality allows the generated text to be closer to human performance when compared to a baseline system that makes lexical choices based on frequency Big Five Big Five Natural language processing Processamento de linguagem natural Reescrita de texto Text rewrite Text to text Texto-para-texto
122	Sistema de aplicação unificada de regras linguísticas e ontologias para a extração de informações Araujo, Denis Andrei de 30 August 2013 (has links) Submitted by Mariana Dornelles Vargas (marianadv) on 2015-05-29T14:51:35Z No. of bitstreams: 1 sistema_aplicacao.pdf: 3329376 bytes, checksum: 15eb7bd8bf245f93a6032e0aeec8c11a (MD5) / Made available in DSpace on 2015-05-29T14:51:35Z (GMT). No. of bitstreams: 1 sistema_aplicacao.pdf: 3329376 bytes, checksum: 15eb7bd8bf245f93a6032e0aeec8c11a (MD5) Previous issue date: 2013 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A Extração de Informações é um componente importante do conjunto de ferramentas computacionais que visam a identificação de informação relevante a partir de textos em linguagem natural. Regras de extração de conhecimento, baseadas no tratamento linguístico de aspectos específicos dos documentos textuais, podem contribuir para o alcance de melhores desempenhos nesta tarefa. Este trabalho apresenta um modelo para a Extração da Informação baseada em ontologias, a qual se utiliza de técnicas de Processamento da Linguagem Natural e corpus anotado para a identificação das informações de interesse. São descritos os principais componentes da proposta e apresentado um estudo de caso baseado em documentos jurídicos brasileiros. Os resultados obtidos nos experimentos realizados indicam índices relevantes de acurácia e precisão e boas perspectivas quanto a flexibilidade, expressividade e generalização das regras de extração. / Information extraction is an important part of a broader set of enabling tools to assist on identifying relevant information from natural language texts. Knowledge acquisition rules, based on linguistic treatment of specific aspects of textual documents, can provide an even broader set of possibilities. This work presents a model for addressing information extraction from texts based on ontology, which uses Natural Language Processing techniques and annotated corpus to identify relevant information. The main components of the proposal are described and presented a case study based on Brazilian legal documents. The results achieved on experiments indicate relevant accuracy and precision performance and good prospects regarding flexibility, expressiveness and generalization of the extraction rules. Extração da informação Ontologias Processamento da linguagem natural Information extraction Ontologies Natural language processing
123	Expans?o de consultas com realimenta??o e pseudo realimenta??o de relevantes em um sistema que utiliza o modelo TR+ para indexar e recuperar documentos Borges, Thyago Bohrer 26 January 2009 (has links) Made available in DSpace on 2015-04-14T14:49:10Z (GMT). No. of bitstreams: 1 416994.pdf: 2345425 bytes, checksum: 75ba39cb209e96c61f3f88810380759c (MD5) Previous issue date: 2009-01-26 / Este trabalho apresenta e discute os resultados obtidos com a aplica??o das t?cnicas de expans?o de consulta denominadas Pseudo Realimenta??o de Relevantes (PRR) e Realimenta??o de Relevantes (RR) em um Sistema de Recupera??o de Informa??o (SRI) que utiliza o modelo de recupera??o de informa??o denominado TR+. TR+ ? um modelo de recupera??o de informa??o que emprega, al?m de termos, Rela??es Lexicais Bin?rias (RLB) presentes nos textos e nas consultas, para indexar e recuperar documentos textuais em l?ngua portuguesa. A aplica??o das t?cnicas de expans?o de consultas PRR e RR t?m como objetivo melhorar os resultados obtidos pelo usu?rio que realiza uma consulta. As duas t?cnicas se diferenciam quanto ? participa??o do usu?rio: enquanto a RR utiliza o julgamento do usu?rio na defini??o de quais documentos recuperados pela consulta original fornecer?o as informa??es utilizadas na expans?o da consulta, a PRR busca eliminar a participa??o do usu?rio durante este processo. Os resultados obtidos pelos experimentos, tanto utilizando PRR quanto RR, n?o superaram os resultados utilizados como baseline (Gonzalez, 2005). Ao compararmos entre si os resultados dos experimentos com as t?cnicas PRR e RR, os experimentos com PRR foram superados pela RR somente em uma rodada. No contexto dessa disserta??o podemos concluir que a utiliza??o de RLBs ao inv?s de usar somente termos, ? uma op??o mais producente. INFORM?TICA SISTEMAS DE RECUPERA??O DA INFORMA??O PROCESSAMENTO DA LINGUAGEM NATURAL LING??STICA COMPUTACIONAL
124	Resolu??o de correfer?ncia e categorias de entidades nomeadas Moraes, Tatiane Coreixas 10 March 2010 (has links) Made available in DSpace on 2015-04-14T14:49:27Z (GMT). No. of bitstreams: 1 427028.pdf: 957635 bytes, checksum: fbedf4df218091e4bc1e919c4ffd808b (MD5) Previous issue date: 2010-03-10 / Define-se correfer?ncia como a rela??o entre diversos componentes lingu?sticos com uma mesma entidade de mundo. A resolu??o autom?tica de correfer?ncia textual est? inserida num contexto muito importante na ?rea de Processamento da Linguagem Natural, pois v?rios sistemas necessitam dessa tarefa. O n?vel de processamento lingu?stico depende do conhecimento de mundo, e isso ainda ? um desafio para a ?rea. Esse desafio estimulou e tornou-se o objeto de estudo desta disserta??o. Nesse sentido, analisamos o papel das categorias de entidades nomeadas e, atrav?s de aprendizado de m?quina, verificamos as condi??es de resolu??o em diferentes categorias. Os resultados dos experimentos demonstraram que o conhecimento de mundo, representado nas categorias de entidades nomeadas, auxilia nessa tarefa, pois o percentual de retorno do sistema com base nas categorias teve uma melhora de 17% em compara??o com a vers?o sem as categorias. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGU?STICA COMPUTACIONAL APRENDIZAGEM DE M?QUINA
125	Constru??o de estruturas ontol?gicas a partir de textos : um estudo baseado no m?todo formal concept analysis e em pap?is sem?nticos Moraes, S?lvia Maria Wanderley 30 March 2012 (has links) Made available in DSpace on 2015-04-14T14:49:51Z (GMT). No. of bitstreams: 1 439881.pdf: 4189361 bytes, checksum: cc72da8cbd69a8a5387851bb140f1b30 (MD5) Previous issue date: 2012-03-30 / This work aims to study conceptual structures based on the Formal Concept Analysis method. We build these structures based on lexico-semantic information extracted from texts, among which we highlight the semantic roles. In our research, we propose ways to include semantic roles in concepts produced by this formal method. We analyze the contribution of semantic roles and verb classes in the composition of these concepts through structural measures. In these studies, we use the Penn Treebank Sample and SemLink 1.1 corpora, both in English. We test, also for English, the applicability of our proposal in the Finance and Tourism domains with text extracted from the Wikicorpus 1.0. This applicability was extrinsically analyzed based on the text categorization task, which was evaluated through functional measures traditionally used in this area. We also performed some preliminary studies for a corpus in Portuguese: PLN-BR CATEG. In our studies, we obtained satisfactory results which show that the proposed approach is promising. / Este trabalho tem como prop?sito estudar estruturas conceituais geradas seguindo o m?todo Formal Concept Analysis. Usamos na constru??o dessas estruturas informa??es lexicossem?nticas extra?das dos textos, dentre as quais se destacam os pap?is sem?nticos. Em nossa pesquisa, propomos formas de inclus?o de tais pap?is nos conceitos produzidos por esse m?todo formal. Analisamos a contribui??o dos pap?is sem?nticos e das classes de verbos na composi??o dos conceitos, por meio de medidas de ordem estrutural. Nesses estudos, utilizamos os corpora Penn TreeBank Sample e SemLink 1.1, ambos em L?ngua Inglesa. Testamos, tamb?m para L?ngua Inglesa, a aplicabilidade de nossa proposta nos dom?nios de Finan?as e Turismo com textos extra?dos do corpus Wikicorpus 1.0. Essa aplicabilidade foi analisada extrinsecamente com base na tarefa de categoriza??o de textos, a qual foi avaliada a partir de medidas de ordem funcional tradicionalmente usadas nessa ?rea. Realizamos ainda alguns estudos preliminares relacionados ? nossa proposta para um corpus em L?ngua Portuguesa: PLN-BR CATEG. Obtivemos, nos estudos realizados, resultados satisfat?rios os quais mostram que a abordagem proposta ? promissora. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL AN?LISE SEM?NTICA (PROGRAMA??O) ONTOLOGIA
126	Recursos do processamento da l?ngua natural aplicados na recupera??o sem?ntica de documentos de caso de uso Silva J?nior, Cust?dio Gast?o da 15 December 2009 (has links) Made available in DSpace on 2015-04-14T14:49:53Z (GMT). No. of bitstreams: 1 442334.pdf: 1018335 bytes, checksum: c77dd540cf5f9308c80ab3c9f7da5374 (MD5) Previous issue date: 2009-12-15 / The Requirements Engineering basically deals with how to discover, analyze, register and verify the functions and restrictions that software must consider. In this process the designer not only concentrates in understanding the necessities, goals and certainties of the interested users but also in changing them into software devices. This process is known as development cycle and it is carried out until the software covers all the requirements of the involved users. This study describes how the resources of the natural language processing were used in the construction for a solution of semantics recovery of use case document and it also presents the reached findings. For the construction of the solution, it is specified a method that organizes the preparation and recovery works in two phases. The first describes the form how the corpus must be prepared and how the terms used in the preparation phase can be used in the definition of the keys concepts of the domain. The second phase explains how the document recovery is carried out and shows how the described relationships in the ontology are used to improve the results of the recovery. The presented findings reveal the described method in this study is efficient, since it presented a covering of 100% in both tests. Related of measure of precision, that presented an inferior result of 50%, it was compensated by the ranking algorithm that sorted the documents of similar form of the manual classification done by the users. / A engenharia de requisitos trata fundamentalmente de como descobrir, analisar, documentar e verificar as fun??es e restri??es que um software deve contemplar. Neste processo o projetista se concentra em entender as necessidades, metas e convic??es dos interessados e em como transform?-las em artefatos de software. Isso ? conhecido como ciclo de desenvolvimento e ? realizado at? que o software atenda todos os requisitos dos interessados. Este trabalho descreve como os recursos do processamento da l?ngua natural foram utilizados na constru??o de uma solu??o para recupera??o sem?ntica de documentos de caso de uso e apresenta os resultados alcan?ados. Para a constru??o da solu??o, foi especificado um m?todo que organiza os trabalhos de prepara??o e recupera??o em duas fases. A primeira descreve a forma como o corpus deve ser preparado e como os termos utilizados na prepara??o podem ser utilizados na defini??o das palavras-chave do dom?nio. A segunda fase explica como a recupera??o de documentos ? realizada, e mostra como os relacionamentos descritos na ontologia s?o utilizados para melhorar os resultados da recupera??o. Os resultados apresentados mostram que o m?todo descrito neste trabalho ? promissor, visto que ele apresentou cobertura de 100% em ambos os testes. Quanto a medida de precis?o, que apresentou resultado inferior a 50%, o resultado foi compensado pelo algoritmo de ranking que ordenou os documentos de forma similar a classifica??o manual feita pelos usu?rios. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL SISTEMAS DE RECUPERA??O DA INFORMA??O ENGENHARIA DE REQUISITOS
127	O reconhecimento de entidades nomeadas por meio de conditional Random Fields para a l?ngua portuguesa Amaral, Daniela Oliveira Ferreira do 08 March 2013 (has links) Made available in DSpace on 2015-04-14T14:50:10Z (GMT). No. of bitstreams: 1 457280.pdf: 1466158 bytes, checksum: 50a287eaebe41a6c016dd9b8f5bac19d (MD5) Previous issue date: 2013-03-08 / Many tasks in Natural Language Processing involves the provision of a large number of variables, which depend on each other. Structured prediction methods are essentially a combination of classification and modeling based on graphs. They combine the power of classification methods with the ability of this type of modeling to play compactly, multivariate data. The classification methods perform prediction using a large set of features as input. Conditional Random Fields (CRF) is a probabilistic method for predicting structured and has been widely applied in various areas such as natural language processing, including the Named Entity Recognition (NER), computer vision, and bioinformatics. Therefore, this dissertation proposes the application of CRF to NER for the Portuguese Language and to evaluate their performance based on the HAREM corpus. Finally, comparative tests of similar approaches were performed, illustrating the efficiency and competitiveness of the proposed system. / Muitas tarefas de Processamento da Linguagem Natural envolvem a previs?o de um grande n?mero de vari?veis, as quais dependem umas das outras. M?todos de predi??o estruturada s?o, essencialmente, uma combina??o de classifica??o e de modelagem baseada em grafo. Eles unem a compet?ncia dos m?todos de classifica??o com a capacidade desse tipo de modelagem de reproduzir, compactamente, dados multivariados. Os m?todos de classifica??o realizam a predi??o usando um grande conjunto de features como entrada. Conditional Random Fields (CRF) ? um m?todo probabil?stico de predi??o estruturada e tem sido amplamente aplicado em diversas ?reas, tais como processamento da linguagem natural, incluindo o Reconhecimento de Entidades Nomeadas (REN), vis?o computacional e bioinform?tica. Sendo assim, neste trabalho ? proposta a aplica??o do CRF para o REN em textos da L?ngua Portuguesa e, sequencialmente, avaliar o seu desempenho com base no corpus do HAREM. Finalmente, testes comparativos da abordagem determinada versus a similar da literatura foram realizados, ilustrando a competitividade e efic?cia do sistema proposto. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL ONTOLOGIA AN?LISE SEM?NTICA (PROGRAMA??O)
128	Resolu??o de correfer?ncias em l?ngua portuguesa : pessoa, local e organiza??o Fonseca, Evandro Brasil 21 March 2014 (has links) Made available in DSpace on 2015-04-14T14:50:12Z (GMT). No. of bitstreams: 1 458767.pdf: 3173862 bytes, checksum: 0f4ea1ec0b9741e176522697d0d4dd1d (MD5) Previous issue date: 2014-03-21 / Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains. These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest.Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability.The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains.Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art. / Resolu??o de correfer?ncias ? um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e express?es que remetem a uma mesma entidade. A resolu??o autom?tica de correfer?ncia textual est? inserida num contexto muito importante na ?rea de Processamento da Linguagem Natural (PLN), pois v?rios sistemas necessitam dessa tarefa, como, por exemplo, a extra??o de rela??o entre entidades nomeadas. O n?vel de processamento lingu?stico depende do conhecimento de mundo, e isso ainda ? um desafio para a ?rea. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a l?ngua portuguesa motivaram trabalhar com essa l?ngua nesta disserta??o de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolu??o de correfer?ncias em l?ngua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organiza??o. Optou-se por essas tr?s categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais espec?ficas e de interesse comum. Al?m disso, s?o as categorias mais exploradas em trabalhos voltados ? resolu??o de correfer?ncia. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a l?ngua portuguesa utilizar recursos propriet?rios. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada ? baseada em aprendizado de m?quina supervisionado. Para tal, o uso de features que auxiliem na correta classifica??o de pares de sintagmas como correferentes ou n?o-correferentes ? fundamental para,posteriormente,agrup?-los, gerando cadeias de correfer?ncia.Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta disserta??o s?o animadores, quando comparados indiretamente, por meio de uma mesma m?trica, ao atual estado da arte. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGU?STICA COMPUTACIONAL APRENDIZAGEM DE M?QUINA
129	Reconhecimento de traços de personalidade com base em textos / Personality traits recognition through texts Silva, Barbara Barbosa Claudino da 27 February 2018 (has links) Apresentamos uma pesquisa na área de Processamento de Linguagem Natural, para reconhecimento de personalidade com base em textos da língua portuguesa. Neste trabalho utilizamos textos provenientes da rede social Facebook, em conjunto com o modelo de personalidade dos Cinco Grandes Fatores, para construir um córpus rotulado com as personalidades de seus autores e, após a identificação das características mais relevantes para o reconhecimento de personalidade, construir modelos computacionais utilizando essas características. Utilizando-se métodos provenientes de léxicos, como o dicionário LIWC ou atributos psicolinguísticos, e métodos provenientes do próprio texto, como bag of words, representação distribuída de palavras e de documentos foram desenvolvidos modelos para reconhecimento de personalidade sem a necessidade de outros métodos mais comumente utilizados para essa tarefa, como inventários ou entrevistas com psicólogos. Os resultados dos métodos de representação distribuída são ligeiramente superiores do que os resultados utilizando o dicionário LIWC, com a vantagem de não exigirem recursos dependentes de um idioma específico / We present a research proposal in the Natural Language Processing field, to recognize personality through texts in the portuguese language. Using texts from the social network Facebook we built a corpus labeled with authors Big-5 personality traits, and after identifying the most relevant atributes to recognize personality, we built computational models based on those attributes. The model was expected to recognize personality without the help of any other methods commonly used in this task, such as inventories or interviews with psychologists. Using lexical methods such as the LIWC dictionary or psycholinguistic attributes, and methods from the text itself, such as bag of words, distributed representation of words and documents, we obtained models for personality recognition without the need of other methods most commonly used for this task. The results of distributed representation methods are slightly better than the results using the LIWC dictionary, with the advantage of not requiring features dependent on a specific language Big Five Big Five Big five model Modelo dos cinco grandes fatores Natural language processing Personalidade Personality Processamento de linguagem natural
130	Conversão grafema-fone para um sistema de reconhecimento de voz com suporte a grandes vocabulários para o português brasileiro / Conversion grapheme-phone for a system of recognition of voice with support the great vocabularies for the Brazilian Portuguese HOSN, Chadia Nadim Aboul 12 June 2006 (has links) Made available in DSpace on 2011-03-23T21:19:13Z (GMT). No. of bitstreams: 0 / Item created via OAI harvest from source: http://www.bdtd.ufpa.br/tde_oai/oai2.php on 2011-03-23T21:19:13Z (GMT). Item's OAI Record identifier: oai:bdtd.ufpa.br:54 / Speech processing has become a data-driven technology. Hence, the success of research in this area is linked to the existence of public corpora and associated resources, as a phonetic dictionary. In contrast to other languages such as English, one cannot find, in public domain, a Large Vocabulary Continuos Speech Recognition (LVCSR) System for Brazilian Portuguese. This work discusses some efforts within the FalaBrasil initiative [1], developed by researchers, teachers and students of the Signal Processing Laboratory (LaPS) at UFPA, providing an overview of the research and softwares related to Automatic Speech Recognition (ASR) for Brazilian Portuguese. More specifically, the present work discusses the implementation of a large vocabulary ASR for Brazilian Portuguese using the HTK software, which is based on hidden Markov models (HMM). Besides, the work discusses the implementation of a grapheme-phoneme conversion module using machine learning techniques. / O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina. Sistema de processamento de voz Ensino por computador Língua portuguesa

Search results