Spelling suggestions: "subject:"linguagem natural"" "subject:"1inguagem natural""
21 |
Extração de estruturas ontológicas de domínio da Wikipédia em língua portuguesaXavier, Clarissa Castellã January 2010 (has links)
Made available in DSpace on 2013-08-07T18:43:07Z (GMT). No. of bitstreams: 1
000424692-Texto+Completo-0.pdf: 1937010 bytes, checksum: f88759e6fc1959ff14fdb14bd6afdae7 (MD5)
Previous issue date: 2010 / The increasing need for ontologies and the difficulty of its manual creation generates initiatives that propose methods for automatic and semi-automatic ontology construction. Wikipedia has demonstrated to be a very interesting source for ontologies extraction, due to the large amount of organized content in it, being freely available and covering a wide range of issues. In this work we propose a semi-automatic method of domain ontological structures extraction from Wikipedia's categories structure. To validate the method, we have conducted a case study in which we implemented a prototype generating a Tourism ontological structure. The results were evaluated by comparing them with a golden map of the generated ontological structure. The results are promising and comparable to those found in the literature for other languages. / A necessidade crescente por ontologias e a dificuldade em construí-las manualmente vêm gerando iniciativas em busca de métodos para a construção automática e semi-automática de ontologias. A Wikipédia, contendo uma grande quantidade de conteúdo organizado, livremente disponível e cobrindo uma extensa faixa de assuntos, mostra-se uma fonte interessante para extração de estruturas ontológicas. Neste trabalho propomos um método semi-automático para a extração de estruturas ontológicas de domínio a partir da estrutura de categorias da Wikipédia em português. Para validar o método proposto, realizamos um estudo de caso no qual foi implementado um protótipo gerando uma estrutura ontológica do domínio Turismo. Os resultados obtidos foram avaliados através da comparação da estrutura ontológica gerada com um mapeamento de referência, apresentando-se promissores, comparáveis aos encontrados na literatura para outros idiomas.
|
22 |
Extração automática de conceitos a partir de textos em língua portuguesaLopes, Lucelene January 2012 (has links)
Made available in DSpace on 2013-08-07T18:43:26Z (GMT). No. of bitstreams: 1
000439085-Texto+Completo-0.pdf: 7508888 bytes, checksum: c69f67a5ec361212f83a17a4407866ce (MD5)
Previous issue date: 2012 / This thesis describes a process to extract concepts from texts in portuguese language. The proposed process starts with linguistic annotated corpora from specific domains, and it generates lists of concepts for each corpus. The proposal of a linguistic oriented extraction procedure based on noun phrase detection, and a set of heuristics to improve the overall quality of concept candidate extraction is made. The improvement in precision and recall of extracted term list is from approximatively from 10% to more more than 60%. A new index (tf-dcf) based on contrastive corpora is proposed to sort the concept candidate terms according to the their relevance to their respective domain. The precision results achieved by this new index are superior to to the results achieved by indices proposed in similar works. Cut-off points are proposed in order to identify, among extracted concept candidate terms sorted according to their relevance, which of them will be considered concepts. A hybrid approach to choose cut-off points delivers reasonable F-measure values, and it brings quality to the concept identification process. Additionally, four applications are proposed in order to facilitate the comprehension, handling, and visualization of extracted terms and concepts. Such applications enlarge this thesis contributions available to a broader community of researchers and users of Natural Language Processing area. The proposed process is described in detail, and experiments empirically evaluate each process step. Besides the scientific contribution made with the process proposal, this thesis also delivers extracted concept lists for five different domain corpora, and the prototype of a software tool (EχATOLP) implementing all steps of the proposed process. / Essa tese descreve um processo para extrair conceitos de textos em língua portuguesa. O processo proposto inicia com corpora de domínio linguisticamente anotados, e gera listas de conceitos dos domínios de cada corpus. Utiliza-se uma abordagem linguística, que baseia-se na identificação de sintagmas nominais e um conjunto de heurísticas que melhoram a qualidade da extração de candidatos a conceitos. Essa melhora é expressa por incrementos aproximadamente de 10% para mais de 60% nos valores de precisão e abrangência das listas de termos extraídas. Propõe-se um novo índice (tf-dcf) baseado na comparação com corpora contrastantes, para ordenar os termos candidatos a conceito extraídos de acordo com suas relevâncias para o corpus de domínio. Os resultados obtidos com esse novo índice são superiores aos resultados obtidos com índices propostos em trabalhos similares. Aplicam-se pontos de corte para identificar, dentre os termos candidatos classificados segundo sua relevância, quais serão considerados conceitos. O uso de uma abordagem híbrida para escolha de pontos de corte fornece valores adequados de medida F, trazendo qualidade ao processo de identificação de conceitos. Adicionalmente. propõem-se quatro aplicações para facilitar a compreensão, manipulação e visualização dos termos e conceitos extraídos. Essas aplicações tornam as contribuições dessa tese acessíveis a um maior número de pesquisadores e usuários da área de Processamento de Linguagem Natural. Todo o processo proposto é descrito em detalhe, e experimentos avaliam empiricamente cada passo. Além das contribuições científicas feitas com a proposta do processo, essa tese também apresenta listas de conceitos extraídos para cinco diferentes corpora de domínio, e o protótipo de numa ferramenta de software (EXATOLP) que implementa todos os passos propostos.
|
23 |
Metodologia Computacional para Identificação de Sintagmas Nominais da Língua PortuguesaMORELLATO, L. V. 08 January 2010 (has links)
Made available in DSpace on 2016-08-29T15:33:12Z (GMT). No. of bitstreams: 1
tese_3340_a13-furia.pdf: 1204054 bytes, checksum: 6bd0535e50d6ecfd469372fbce27e1a1 (MD5)
Previous issue date: 2010-01-08 / Sintagmas são unidades de sentido e com função sintática dentro de uma frase, [Nicola 2008]. De maneira geral, as frases que compõem qualquer enunciado expressam um conteúdo por meio dos elementos e das combinações desses elementos que a língua proporciona. Dessa forma, vão se formando conjuntos e subconjuntos que funcionam como unidades sintáticas dentro da unidade maior que é a frase -- os sintagmas, que podem ser divididos em: sintagmas nominais e verbais. Dentre esses, os nominais representam maior interesse devido ao maior valor semântico contido.
Os sintagmas nominais são utilizados em tarefas de Processamento de Linguagem Natural (PLN), como resolução de correferências (anáforas), construção automática de ontologias, em parses usados em textos médicos para geração de resumos e criação de vocabulário, ou ainda como uma etapa inicial em processos de análise sintática. Em Recuperação de Informação (RI) os sintagmas podem ser aplicados na criação de termos em sistemas de indexação e buscas de documentos, gerando resultados melhores.
Esta dissertação propõe uma metodologia computacional para identificação de sintagmas nominais da língua portuguesa em documentos digitais escritos em linguagem natural. Nesse trabalho, é explicitada a metodologia adotada para identificar e extrair sintagmas nominais por meio do desenvolvimento do SISNOP -- Sistema Identificador de Sintagmas Nominais do Português. O SISNOP é um sistema composto por um conjunto de módulos e programas, capaz de interpretar textos irrestritos disponíveis em linguagem natural, através de análises morfológicas e sintáticas, a fim de recuperar sintagmas nominais. Alem disso, são obtidas informações sintáticas, como gênero, número e grau das palavras contidas nos sintagmas extraídos.
O SISNOP testou, entre outros corpus, o CETENFolha, composto por mais 24 milhões de palavras, e o CETEMPúblico, com aproximadamente 180 milhões de palavras em português europeu, e muito utilizado em trabalhos da área. Foi obtido 98,12% e 94,59% de frases reconhecidas pelo sistema, obtendo mais de 24 milhões de sintagmas identificados. Os módulos do SISNOP: EM Etiquetador Morfológico, ISN Identificador de Sintagmas Nominais e IGNG Identificador de Gênero, Número e Grau, foram testados de maneira individual utilizando um conjunto de dados menor que o anterior, visto que, a análise dos resultados foi feita manualmente. O módulo identificador de sintagmas obteve precisão de 82,45% e abrangência de 69,20%.
|
24 |
Uma interface de linguagem natural para um sistema de administração de capital de giroMontenegro, Fernando Borges January 1991 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina. Centro Tecnologico / Made available in DSpace on 2016-01-08T17:08:54Z (GMT). No. of bitstreams: 1
85048.pdf: 3481998 bytes, checksum: c799ff6fc83850c84aebfc17a69cb03c (MD5)
Previous issue date: 1991 / O objetivo desta dissertação é o de propor uma estrutura de Interface em Linguagem Natural para um Sistema Inteligente de Apoio à Decisão para a Administração do Capital de Giro. Uma interface em linguagem natural propicia uma linguagem de comando para sistemas iterativos baseada em palavras e frases familiares ao usuário. Esta familiaridade incrementa significativamente a produtividade do usuário, facilitando a interação com o sistema. São apresentadas as diversas técnicas conhecidas para o processamento de linguagem natural - gramáticas (para a análise sintática), métodos de análise léxica e de análise semântica. A seguir, é apresentada a estrutura escolhida, julgada mais adquada ao usuário e a tarefa proposta, para a construção dos três constituintes da interface do sistema, os módulos: sintático, léxico e semântico.
|
25 |
Representação de léxicos através de autômatos acíclicos determinísticosStorb, Bernd Heinrich 22 October 2012 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Produção, Florianópolis, 2004. / Made available in DSpace on 2012-10-22T04:38:56Z (GMT). No. of bitstreams: 0Bitstream added on 2013-07-16T19:45:49Z : No. of bitstreams: 1
274145.pdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / O acesso rápido a léxicos eletrônicos é fundamental para muitas aplicações de Processamento de Linguagem Natural. Uma forma de garantir isto é a representação de léxicos grandes através de autômatos finitos determinísticos minimizados, que permitem manter o léxico na memória principal. Em 1991, na sua tese de doutorado, Dominique Revuz apresentou um algoritmo que gera em tempo linear um autômato mínimo acíclico que representa um léxico. Para reduzir o problema da explosão de estados, Revuz apresentou também um algoritmo com reutilização de sufixos, por ele chamado pseudo-minimização, que supõe o léxico em ordem lexicográfica inversa. Em 1998, Maurel & Chauvier apresentaram um algoritmo de pseudo-minimização que não faz exigências de ordenação ao léxico. Jan Daciuk e Stoyan Mihov desenvolveram, independentemente, um algoritmo que mantém o autômato minimal durante a sua geração, por eles chamado de algoritmo incremental. Este algoritmo não utiliza a clonagem de estados, mas exige o léxico em ordem lexicográfica. Além disso, Bruce Watson, também em 1998, apresentou um algoritmo que mantém o autômato, durante a geração, em um tamanho limitado, acima do autômato minimal. Este algoritmo, que exige o léxico em ordem decrescente do tamanho das palavras, foi classificado pelo autor como algoritmo semi-incremental. O presente trabalho apresenta um algoritmo para geração de autômatos mínimos, a partir das características desejáveis dos algoritmos de Revuz, Maurel & Chauvier, Daciuk & Mihov e Watson, resultando num algoritmo semi-incremental com pseudo-minimização que exige o léxico na forma de uma k-partição, sendo esta uma estrutura mais fácil de obter do que a ordem lexicográfica. Para desenvolver este algoritmo, apresenta-se na tese uma versão modificada do algoritmo de Maurel & Chauvier, que divide a palavra em prefixo, meio e sufixo de forma diferente do algoritmo Maurel & Chauvier e que não utiliza a clonagem na inserção do meio da palavra. A tese apresenta uma análise comparativa preliminar dos algoritmos utilizando léxicos em inglês, polonês, francês e português. Esta análise mostra que o algoritmo semi-incremental com pseudo-minimização proposto consegue gerar uma representação de um léxico grande sem necessitar um espaço significativamente maior.
|
26 |
Feature-level sentiment analysis applied to brazilian portuguese reviewsFreitas, Larissa Astrogildo de January 2015 (has links)
Made available in DSpace on 2015-05-22T12:36:36Z (GMT). No. of bitstreams: 1
000468945-Texto+Completo-0.pdf: 990591 bytes, checksum: 7d04b4b3b2f91050851802c6d65349f1 (MD5)
Previous issue date: 2015 / Sentiment Analysis is the field of study that analyzes people’s opinions in texts. In the last decade, humans have come to share their opinions in social media on the Web (e.g., forum discussions and posts in social network sites). Opinions are important because whenever we need to take a decision, we want to know others’ points of view. The interest of industry and academia in this field of study is partly due to its potential applications, such as: marketing, public relations and political campaign. Research in this field often considers English data, while data from other languages are less explored. It is possible realize data analysis in different levels, in this work we choose a finer-grain analysis, at aspect-level. Ontologies can represent aspects, that are “part-of” an object or property of “part-of” an object, we proposed a method for feature-level sentiment analysis using ontologies applied to Brazilian Portuguese reviews. In order to obtain a complete analysis, we recognized features explicit and implicit using ontologies. Relatively less work has been done about implicit feature identification. Finally, determine whether the sentiment in relation to the aspects is positive or negative using sentiment lexicons and linguistic rules. Our method is comprised of four steps: preprocessing, feature identification, polarity identification and summarizing. For evaluate this work, we apply our proposal method to a dataset of accommodation sector. According to our experiments, in general the best results were obtained when using TreeTagger, synsets with polarities from Onto. PT and linguistic rule (adjective position) for negative polarity identification and (baseline) for positive polarity identificatio / Análise de sentimento é o campo de estudo que analisa a opinião de pessoas em textos. Na última década, humanos têm compartilhado suas opiniões em mídias sociais na Web (por exemplo, fóruns de discussão e posts em sites de redes sociais). Opiniões são importantes porque sempre que necessitamos tomar uma decisão, queremos saber o ponto de vista de outras pessoas. O interesse da indústria e da academia neste campo de estudo se deve a aplicações potenciais, tais como: compra/venda, relações públicas e campanhas políticas. Pesquisas neste campo muitas vezes consideram dados em inglês, enquanto dados em outros idiomas são pouco explorados. É possível realizar a análise dos dados em diferentes níveis, neste trabalho optamos pela análise no nível de aspecto, na qual a granularidade é mais fina. Como ontologias podem ser utilizadas para representar aspectos, que são “parte-de” um objeto ou propriedade de “parte-de” um objeto, propomos um método para análise de sentimento aplicado a comentários em português brasileiro, sob o nível de aspecto usando ontologias. A fim de obter uma análise completa, reconhecemos aspectos explícitos e implícitos usando ontologias. Relativamente poucos trabalhos têm sido feitos sobre identificação de aspectos implícitos. Finalmente determinamos se o sentimento em relação aos aspectos é positivo ou negativo usando léxicos de sentimento e regras linguísticas. Nosso método é composto de quatro etapas: pré-processamento, identificação de aspecto, identificação de polaridade e sumarização. Para avaliar este trabalho, aplicamos o método proposto nos comentários do setor hoteleiro. De acordo com nosso experimento, o melhor resultado obtido foi quando utilizamos o TreeTagger, o synset com polaridade do Onto. PT e a regra linguística (posição do adjetivo) na identificação da polaridade negativa e (baseline) na identificação da polaridade positiva
|
27 |
A proposal for an architecture to extract information from sms messages during emergency situationsMonteiro, Douglas Machado January 2015 (has links)
Made available in DSpace on 2015-05-22T12:36:38Z (GMT). No. of bitstreams: 1
000468523-Texto+Completo-0.pdf: 3578868 bytes, checksum: 4d26c3b12a22330579e4b83f7414ebc4 (MD5)
Previous issue date: 2015 / In mass emergencies, a fair amount of information is exchanged via SMS messages. These messages tend to be informal and to contain abbreviations and misspellings, which makes them difficult to treat. This is a problem for current Information Extraction tools, especially for messages in Portuguese. This work proposes an architecture to extract information from SMS messages during emergencies. The architecture comprises four components: Linguistic Processing, Temporal Processing, Event Processing, and Information Fusion. We also defined an SMS corpus building process. From the proposal of this architecture, we conducted a case study, which included building BraCorpSMS, a corpus of SMS messages received by an electric utility company. We built a prototype in Python using NLTK to validate the architecture. The prototype had its Information Extraction components evaluated achieving Precision of 88%, Recall of 59% and balanced F-measure of 71%. The results indicate improvement opportunities, but as this is the first work for Portuguese facing processing SMS messages during emergency situations, it also serves as a roadmap for future work in the area. / Durante situações de emergência, uma grande quantidade de informação é trocada via mensagens SMS. Estas mensagens costumam ter escrita informal e contêm abreviações e erros de grafia, o que dificulta seu processamento. Este é um problema para as ferramentas de Extração de Informação atuais, especialmente para o Português. Este trabalho propõe uma arquitetura de extração de informação de mensagens SMS em situações de emergência. A arquitetura contempla quatro componentes: processamento linguístico, processamento temporal, processamento de eventos e fusão da informação. Também se define um processo para criação de corpus de SMSs. A partir da arquitetura proposta, foi realizado um estudo de caso que incluiu a construção do BraCorpSMS, um corpus de mensagens SMS recebidos por uma companhia de energia elétrica e um protótipo em Python utilizando NLTK para validar a arquitetura. O protótipo teve seus componentes de Extração de Informação avaliados, obtendo 88% de Precisão, 59% de Cobertura e 71% de Medida-F. Os resultados indicam oportunidades de avanços, mas, sendo este o primeiro trabalho para o Português voltado para o processamento de mensagens SMS em situações de emergência, também serve de roteiro para trabalhos futuros nesta área.
|
28 |
Extração de relações hiponímicas em corpora de língua portuguesaMachado, Pablo Neves January 2015 (has links)
Made available in DSpace on 2015-06-09T02:04:19Z (GMT). No. of bitstreams: 1
000470106-Texto+Completo-0.pdf: 1241867 bytes, checksum: fb5ae9bcc63565dabf9bfb2f5c3ed3ad (MD5)
Previous issue date: 2015 / Natural Language Processing (NLP) is a Computer Science area featured by its relevance to the development of applications that process large amounts of text or speech. In this paper we focus on texts in Portuguese, extracting from them hyponymic relations between entities, using a rules-based approach adapted from Hearst to English, and Freitas and Quental and Taba and Caseli to Portuguese. The prototype was executed over a corpus of Portuguese texts and the output was analyzed according to the reference author and rule sets. The evaluation process followed the one proposed by Freitas and Quental with human judgment, and the results are compared to those reported in the main references. The dissertation also studies in detail the most common errors identified. / O Processamento da Linguagem Natural (PLN) é uma área da Ciência da Computação destacada por sua relevância para o desenvolvimento de aplicações em processamento de grandes quantidades de documentos textuais ou orais. Neste trabalho focamos nos textos em língua portuguesa, deles extraindo relações hiponímicas entre entidades, usando uma abordagem baseada em regras adaptadas dos trabalhos de Hearst para o inglês, Freitas e Quental e Taba e Caseli para o português, aqui complementadas. Para validar a proposta foi desenvolvido um protótipo que extrai relações hiponímicas de corpora em língua portuguesa. O protótipo foi executado sobre corpus de textos e os resultados obtidos foram analisados tanto por fonte de referência como por grupos de regras. O processo avaliativo seguiu o proposto por Freitas e Quental com avaliação humana, e as medidas obtidas são comparadas com as relatadas nas principais fontes de referência. A dissertação ainda estuda em detalhe os erros mais frequentes identificados.
|
29 |
Construção de um corpus anotado para classificação de entidades nomeadas utilizando a Wikipedia e a DBpediaWeber, Cristofer January 2015 (has links)
Made available in DSpace on 2015-12-15T01:05:01Z (GMT). No. of bitstreams: 1
000476712-Texto+Completo-0.pdf: 1416751 bytes, checksum: 0b603e0667dd53303efd13181a62d31e (MD5)
Previous issue date: 2015 / Some natural language processing tasks can be learned from example corpora, but having enough examples for the task at hands can be a bottleneck. In this work we address how Wikipedia and DBpedia, two freely available language resources, can be used to support Named Entity Recognition, a fundamental task in Information Extraction and a necessary step of other tasks such as Co-reference Resolution and Relation Extraction. / Algumas tarefas de processamento de linguagem natural podem ser aprendidas por algoritmos a partir de corpus de exemplo, mas a obtenção destes exemplos pode ser um gargalo. Neste trabalho nós investigamos como a Wikipedia e a DBpedia, dois recursos de linguagem disponíveis de forma gratuita, podem ser utilizados como corpus para a classificação de entidades nomeadas, uma tarefa fundamental de extração de informações e um passo necessário para outras tarefas como extração de relações e resolução de co-referências.
|
30 |
Identifying potential conflicts between norms in contractsAires, João Paulo de Souza January 2016 (has links)
Made available in DSpace on 2016-04-19T12:03:44Z (GMT). No. of bitstreams: 1
000478159-Texto+Completo-0.pdf: 962726 bytes, checksum: 42f46ef4c73e4f45496827e72b7fbf27 (MD5)
Previous issue date: 2016 / Contracts formally represent agreements between parties and often involve the exchange of goods and services. In contracts, norms define the expected behaviors of the parties using deontic statements, such as obligations, permissions, and prohibitions. However, norms may conflict invalidating themselves and producing a contract inconsistency. A conflict arises when two or more norms are applied to the same context but have different deontic statements, such as permissions x obligations and prohibitions x obligations. The identification of such conflicts is often made by humans, which makes the task time consuming and error-prone. In order to automate such identification, in this work we propose an approach to identify potential conflicts between norms in contracts written in natural language. We build a two-phase approach that extracts norms and norm elements from contracts, creating a norm representation that we use to compare norms and identify potential conflicts. We evaluated the approach using a corpus of contracts with norm conflicts inserted, and we measured the accuracy for different cases of conflict, which resulted on values higher than 70%. / Contratos são utilizados para formalizar acordos envolvendo troca de bens e serviços entre duas ou mais partes. Eles definem ações esperadas durante o período de vigência do contrato através de normas. Tais normas seguem conceitos baseados em lógica deôntica, definindo permissões, proibições e obrigações. No entanto, conflitos podem ser gerados quando duas normas são aplicadas a um mesmo contexto tendo sentidos deônticos diferentes, como a proibição e a obrigação da realização de uma mesma ação. Estes conflitos invalidam as normas e criam uma inconsistência para o contrato. Para evitá-los é necessário que um revisor leia as normas e encontre quais apresentam elementos conflitantes. Uma vez que contratos podem ser longos e complexos, esta tarefa consome tempo e é passível de erro humano. Para automatizar o processo de identificação de conflitos, neste trabalho criamos uma abordagem que busca identificar potenciais conflitos entre normas através da comparação de suas estruturas. Nossa abordagem é dividida em duas fases: na primeira, identificamos as normas e seus elementos dentro de um contrato; na segunda, utilizamos os elementos extraídos para comparar diferentes normas e identificar quais apresentam características de um conflito normativo. Nós avaliamos a abordagem aplicando-a em contratos contendo conflitos e obtivemos resultados com acurácia superior a 70%.
|
Page generated in 0.0776 seconds