Global ETD Search

61	O reconhecimento de entidades nomeadas por meio de conditional Random Fields para a língua portuguesa Amaral, Daniela Oliveira Ferreira do January 2013 (has links) Made available in DSpace on 2014-04-25T02:01:57Z (GMT). No. of bitstreams: 1 000457280-Texto+Completo-0.pdf: 1466158 bytes, checksum: 50a287eaebe41a6c016dd9b8f5bac19d (MD5) Previous issue date: 2013 / Many tasks in Natural Language Processing involves the provision of a large number of variables, which depend on each other. Structured prediction methods are essentially a combination of classification and modeling based on graphs. They combine the power of classification methods with the ability of this type of modeling to play compactly, multivariate data. The classification methods perform prediction using a large set of features as input. Conditional Random Fields (CRF) is a probabilistic method for predicting structured and has been widely applied in various areas such as natural language processing, including the Named Entity Recognition (NER), computer vision, and bioinformatics. Therefore, this dissertation proposes the application of CRF to NER for the Portuguese Language and to evaluate their performance based on the HAREM corpus. Finally, comparative tests of similar approaches were performed, illustrating the efficiency and competitiveness of the proposed system. / Muitas tarefas de Processamento da Linguagem Natural envolvem a previsão de um grande número de variáveis, as quais dependem umas das outras. Métodos de predição estruturada são, essencialmente, uma combinação de classificação e de modelagem baseada em grafo. Eles unem a competência dos métodos de classificação com a capacidade desse tipo de modelagem de reproduzir, compactamente, dados multivariados. Os métodos de classificação realizam a predição usando um grande conjunto de features como entrada. Conditional Random Fields (CRF) é um método probabilístico de predição estruturada e tem sido amplamente aplicado em diversas áreas, tais como processamento da linguagem natural, incluindo o Reconhecimento de Entidades Nomeadas (REN), visão computacional e bioinformática. Sendo assim, neste trabalho é proposta a aplicação do CRF para o REN em textos da Língua Portuguesa e, sequencialmente, avaliar o seu desempenho com base no corpus do HAREM. Finalmente, testes comparativos da abordagem determinada versus a similar da literatura foram realizados, ilustrando a competitividade e eficácia do sistema proposto. INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL ONTOLOGIA ANÁLISE SEMÂNTICA (PROGRAMAÇÃO)
62	Resolução de correferências em língua portuguesa: pessoa, local e organização Fonseca, Evandro Brasil January 2014 (has links) Made available in DSpace on 2014-06-25T02:02:05Z (GMT). No. of bitstreams: 1 000458767-Texto+Completo-0.pdf: 3173862 bytes, checksum: 0f4ea1ec0b9741e176522697d0d4dd1d (MD5) Previous issue date: 2014 / Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains.These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest. Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability. The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains. Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art. / Resolução de correferências é um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e expressões que remetem a uma mesma entidade. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural (PLN), pois vários sistemas necessitam dessa tarefa, como, por exemplo, a extração de relação entre entidades nomeadas. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a língua portuguesa motivaram trabalhar com essa língua nesta dissertação de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolução de correferências em língua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organização.Optou-se por essas três categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais específicas e de interesse comum. Além disso, são as categorias mais exploradas em trabalhos voltados à resolução de correferência. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a língua portuguesa utilizar recursos proprietários. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada é baseada em aprendizado de máquina supervisionado. Para tal, o uso de features que auxiliem na correta classificação de pares de sintagmas como correferentes ou não-correferentes é fundamental para,posteriormente,agrupá-los, gerando cadeias de correferência. Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta dissertação são animadores, quando comparados indiretamente, por meio de uma mesma métrica, ao atual estado da arte. INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGUÍSTICA COMPUTACIONAL APRENDIZAGEM DE MÁQUINA
63	Sobre a noção de contexto na interface semântica-pragmática: uma investigação através do texto humorístico de Millôr Fernandes Prado, Maria Cristina Menezes do January 2008 (has links) Made available in DSpace on 2013-08-07T19:01:36Z (GMT). No. of bitstreams: 1 000400378-Texto+Completo-0.pdf: 671898 bytes, checksum: 1b14145c5d40255b1e26f6c6d04b1d81 (MD5) Previous issue date: 2008 / This research investigates the complex notion of context in natural language, which is central in contemporary semantics and pragmatics theories. It is a theoretical study that aims to bring to light the approach of context meaning within the external interface Linguistics-Communication-Cognition and within the internal interface Semantics-Pragmatics through the analysis of the Grice’s Theory of Implicatures (1991), Costa’s Master work (1984), the Relevance Theory, by Sperber & Wilson (1995) and the General Conversational Implicatures Theory, by Levinson (2000). The important data of the non-problematic description carried out here will be checked through the Millôr Fernandes’ humorous text. / O presente trabalho tem como tópico a complexa noção de contexto na linguagem natural, conceito central em teorias semânticas e pragmáticas contemporâneas. Trata-se de um trabalho teórico que visa explicitar a abordagem da significação de contexto na interface externa Lingüística-Comunicação-Cognição, e na interface interna Semântica-Pragmática analisada na Teoria das Implicaturas, de Grice (1991), no Modelo Ampliado de Costa (1984), na Teoria da Relevância, de Sperber & Wilson (1995) e na Teoria das Implicaturas Conversacionais Generalizadas, de Levinson (2000). A aplicabilidade dos principais pontos desta descrição não-problematizada será conferida no texto humorístico de Millôr Fernandes. LINGUÍSTICA SEMÂNTICA PRAGMÁTICA LINGUAGEM NATURAL IMPLICATURAS, TEORIA DAS
64	Distributional models of multiword expression compositionality prediction / Modelos distribucionais para a predição de composicionalidade de expressões multipalavras Cordeiro, Silvio Ricardo January 2018 (has links) Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte. / Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of multiword expressions (MWEs). For example, a person who is a sitting duck is neither a duck nor necessarily sitting. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful at multiple tasks, especially since the rise of word embedding approaches. However, the representation of MWEs still remains an open problem in the field. In particular, it is unclear how one could predict from corpora whether a given MWE should be treated as an indivisible unit (e.g. nut case) or as some combination of the meaning of its parts (e.g. engine room). This thesis proposes a framework of MWE compositionality prediction based on representations of distributional semantics, which we instantiate under a variety of parameters. We present a thorough evaluation of the impact of these parameters on three new datasets of MWE compositionality, encompassing English, French and Portuguese MWEs. Finally, we present an extrinsic evaluation of the predicted levels of MWE compositionality on the task of MWE identification. Our results suggest that the proper choice of distributional model and corpus parameters can produce compositionality predictions that are comparable to the state of the art. Linguística computacional Linguagem natural Distributional semantics Idiomaticity Compositionality Multiword expressions
65	Doroty : um chatterbot para treinamento de profissionais atuantes no gerenciamento de redes de computadores Leonhardt, Michelle Denise January 2005 (has links) O gerenciamento de redes exige dos administradores a disponibilidade de uma grande quantidade de informações sobre os seus equipamentos, as tecnologias envolvidas e os problemas associados a elas. Nesse cenário, administradores de redes devem, cada vez mais, aprofundar o seu conhecimento através de constante treinamento, até que estejam aptos a administrar uma rede de maneira mais eficiente e confiável. Alguns estudos têm sido feitos buscando integrar tecnologias de Inteligência Artificial na área de gerenciamento de redes. Abordagens utilizando sistemas multiagentes, agentes de interface e sistemas especialistas já foram utilizadas com o objetivo de facilitar a tarefa de gerenciamento de rede aos olhos do usuário. Os chatterbots representam um grande potencial para a tarefa de treinamento e gerenciamento de redes já que utilizam linguagem natural e são capazes de ser facilmente integrados em ambientes mais complexos. O principal objetivo deste trabalho é investigar o uso de chatterbots como uma ferramenta de gerenciamento utilizada por administradores menos treinados. O trabalho envolveu a adaptação do chatterbot ALICE para permitir o treinamento e a gerência de redes através da inclusão de módulos que permitem a monitoração de equipamentos de uma rede (através do protocolo SNMP) e módulos que permitam consultar e armazenar histórico de informações da mesma. Desta forma, a grande contribuição da arquitetura proposta é a de prover uma comunicação mais efetiva entre o administrador menos experiente e a rede, através do chatterbot assistente, que recebe consultas em linguagem natural, interpreta os dados coletados e expõe os conceitos envolvidos no processo de gerenciamento. Redes : Computadores Gerencia : Redes : Computadores Linguagem natural Snmp Inteligência artificial
66	COMFALA : modelo computacional do processo de compreensão da fala Muller, Daniel Nehme January 2006 (has links) Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala. Linguística computacional Reconhecimento : Voz Processamento : Linguagem natural Reconhecimento : Fala
67	A solution to extractive summarization based on document type and a new measure for sentence similarity MELLO, Rafael Ferreira Leite de 20 March 2015 (has links) Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-02-19T18:25:04Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) TESE Rafael Ferreira Leite de Mello.pdf: 1860839 bytes, checksum: 4d54a6ef5e3c40f8bce57e3cc957a8f4 (MD5) / Made available in DSpace on 2016-02-19T18:25:04Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) TESE Rafael Ferreira Leite de Mello.pdf: 1860839 bytes, checksum: 4d54a6ef5e3c40f8bce57e3cc957a8f4 (MD5) Previous issue date: 2015-03-20 / The Internet is a enormous and fast growing digital repository encompassing billions of documents in a diversity of subjects, quality, reliability, etc. It is increasingly difficult to scavenge useful information from it. Thus, it is necessary to provide automatically techniques that allowing users to save time and resources. Automatic text summarization techniques may offer a way out to this problem. Text summarization (TS) aims at automatically compress one or more documents to present their main ideas in less space. TS platforms receive one or more documents as input to generate a summary. In recent years, a variety of text summarization methods has been proposed. However, due to the different document types (such as news, blogs, and scientific articles) it became difficult to create a general TS application to create expressive summaries for each type. Another related relevant problem is measuring the degree of similarity between sentences, which is used in applications, such as: text summarization, information retrieval, image retrieval, text categorization, and machine translation. Recent works report several efforts to evaluate sentence similarity by representing sentences using vectors of bag of words or a tree of the syntactic information among words. However, most of these approaches do not take in consideration the sentence meaning and the words order. This thesis proposes: (i) a new text summarization solution which identifies the document type before perform the summarization, (ii) the creation of a new sentence similarity measure based on lexical, syntactic and semantic evaluation to deal with meaning and word order problems. The previous identification of the document types allows the summarization solution to select the methods that is more suitable to each type of text. This thesis also perform a detailed assessment with the most used text summarization methods to selects which create more informative summaries for news, blogs and scientific articles contexts.The sentence similarity measure proposed is completely unsupervised and reaches results similar to humans annotator using the dataset proposed by Li et al. The proposed measure was satisfactorily applied to evaluate the similarity between summaries and to eliminate redundancy in multi-document summarization. / Atualmente a quantidade de documentos de texto aumentou consideravelmente principalmente com o grande crescimento da internet. Existem milhares de artigos de notícias, livros eletrônicos, artigos científicos, blog, etc. Com isso é necessário aplicar técnicas automáticas para extrair informações dessa grande massa de dados. Sumarização de texto pode ser usada para lidar com esse problema. Sumarização de texto (ST) cria versões comprimidas de um ou mais documentos de texto. Em outras palavras, palataformas de ST recebem um ou mais documentos como entrada e gera um sumário deles. Nos últimos anos, uma grande quantidade de técnicas de sumarização foram propostas. Contudo, dado a grande quantidade de tipos de documentos (por exemplo, notícias, blogs e artigos científicos) é difícil encontrar uma técnica seja genérica suficiente para criar sumários para todos os tipos de forma eficiente. Além disto, outro tópico bastante trabalhado na área de mineração de texto é a análise de similaridade entre sentenças. Essa similaridade pode ser usada em aplicações como: sumarização de texto, recuperação de infromação, recuperação de imagem, categorização de texto e tradução. Em geral, as técnicas propostas são baseados em vetores de palavras ou árvores sintáticas, com isso dois problemas não são abordados: o problema de significado e de ordem das palavras. Essa tese propõe: (i) Uma nova solução em sumarização de texto que identifica o tipo de documento antes de realizar a sumarização. (ii) A criação de uma nova medida de similaridade entre sentenças baseada nas análises léxica, sintática e semântica. A identificação de tipo de documento permite que a solução de sumarização selecione os melhores métodos para cada tipo de texto. Essa tese também realizar um estudo detalhado sobre os métodos de sumarização para selecinoar os que criam sumários mais informativos nos contextos de notícias blogs e artigos científicos. A medida de similaridade entre sentences é completamente não supervisionada e alcança resultados similarires dos anotadores humanos usando o dataset proposed por Li et al. A medida proposta também foi satisfatoriamente aplicada na avaliação de similaridade entre resumos e para eliminar redundância em sumarização multi-documento. Ciência da computação Inteligência artificial Mineração de texto Processamento de linguagem natural
68	Extração de informação usando integração de componentes de PLN através do framework GATE de Souza Cabral, Luciano 31 January 2009 (has links) Made available in DSpace on 2014-06-12T15:53:11Z (GMT). No. of bitstreams: 2 arquivo1907_1.pdf: 1663192 bytes, checksum: 21a772bd61ef448147054bfaa52598d1 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / A Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura, alcançando um reconhecimento acima de 80% em média. Efetuando uma comparação com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema é mais preciso em relação ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora já processados denotam melhores resultados nas execuções posteriores, em média 6% na precisão, o que sugere que corpora não anotados devem ser processados duas vezes em seqüência para a obtenção de melhor performance na tarefa de extração, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraí-las Inteligência Artificial Extração de Informação Processamento de Linguagem Natural Ontologias
69	WhatMatter: extração e visualização de características em opiniões sobre serviços SIQUEIRA, Henrique Borges Alencar 31 January 2010 (has links) Made available in DSpace on 2014-06-12T15:58:05Z (GMT). No. of bitstreams: 2 arquivo3250_1.pdf: 3749007 bytes, checksum: 1fa0de20ae4ac4b54782688d5ffa5279 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2010 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O número crescente de blogs, foruns e redes sociais na Web aumentou drasticamente a quantidade de textos contendo não apenas fatos mas também opiniões. Com a popularização do E-commerce, um grande número destas opiniões são resenhas de consumidores sobre produtos e serviços. Esta tendência motivou diversas pesquisas e aplicações comerciais buscando a análise automática das opiniões disponíveis. Claramente, esta informação é crucial para novos consumidores, gerentes e empresários que gostariam de tomar suas decisões baseadas no que outras pessoas opiniaram. Considerando as opiniões dadas sobre serviços como lojas e hotéis, é particularmente dificil identificar de maneira automatizada as características (eg. atendimento, entrega, localização, etc.) que influiram na escolha e na satisfação do consumidor. Neste trabalho apresentamos o WhatMatter, um sistema de Análise de Sentimentos que realiza a identificação, extração, classificação e sumário de características em opiniões através de um processo automatizado inovador. Este processo é formado por cinco passos principais: pré-processamento, identificação de substantivos mais freqüentes, identificação dos substantivos relevantes, mapeamento de indicadores e remoção de substantivos não-relacionados. O protótipo deste sistema foi aplicado em opiniões sobre o serviço prestado por lojas de e-commerce brasileiras com resultados bastante satisfatórios Opiniões Serviço Análise de Sentimentos Processamento de Linguagem Natural Extração de Características WhatMatter
70	NLForSpec : uma ferramenta para geração de especificações formais a partir de casos de teste em linguagem natural LEITÃO, Daniel Almeida January 2006 (has links) Made available in DSpace on 2014-06-12T15:59:28Z (GMT). No. of bitstreams: 2 arquivo5127_1.pdf: 1281889 bytes, checksum: 27f0d0f476fb317baa37e42f70c3bf82 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2006 / Este trabalho propõe NLForSpec, uma ferramenta para geração de especificações formais a partir de casos de teste em Linguagem Natural. NLForSpec é parte de um projeto maior desenvolvido em parceria entre o CIn-UFPE e a Motorola, que tem como objetivo automatizar a seleção, geração e avaliação de casos de teste para aplicações de telefones móveis. Uma das principais tarefas desse projeto é atualizar automaticamente os requisitos a partir de casos de teste mais atuais. Nesse cenário, a ferramenta NLForSpec é responsável por gerar especificações na linguagem formal CSP (Communicating Sequential Processes) a partir de descrições de casos de teste. Essas especificações serão utilizadas como entrada no processo de atualização ou geração de documentos de requisitos a partir de casos de teste mais atuais. NLForSpec foi construída com base na arquitetura simbólica tradicional para interpretação de LN, e contém quatro bases de conhecimento (Léxico, Gramática de Casos, Ontologia e Base de Especificações CSP) e três módulos de processamento (POS-Tagging, Processamento Semântico e Geração de Casos de Teste Formais). NLForSpec apresentou um desempenho satisfatório em um estudo de caso realizado para o domínio de descrições de casos de teste para aplicações de Messaging da Motorola Interpretação de linguagem natural Especificações de casos de teste Inteligência artificial simbólica

Search results