Global ETD Search

51	WhatMatter: extração e visualização de características em opiniões sobre serviços SIQUEIRA, Henrique Borges Alencar 31 January 2010 (has links) Made available in DSpace on 2014-06-12T15:58:05Z (GMT). No. of bitstreams: 2 arquivo3250_1.pdf: 3749007 bytes, checksum: 1fa0de20ae4ac4b54782688d5ffa5279 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2010 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O número crescente de blogs, foruns e redes sociais na Web aumentou drasticamente a quantidade de textos contendo não apenas fatos mas também opiniões. Com a popularização do E-commerce, um grande número destas opiniões são resenhas de consumidores sobre produtos e serviços. Esta tendência motivou diversas pesquisas e aplicações comerciais buscando a análise automática das opiniões disponíveis. Claramente, esta informação é crucial para novos consumidores, gerentes e empresários que gostariam de tomar suas decisões baseadas no que outras pessoas opiniaram. Considerando as opiniões dadas sobre serviços como lojas e hotéis, é particularmente dificil identificar de maneira automatizada as características (eg. atendimento, entrega, localização, etc.) que influiram na escolha e na satisfação do consumidor. Neste trabalho apresentamos o WhatMatter, um sistema de Análise de Sentimentos que realiza a identificação, extração, classificação e sumário de características em opiniões através de um processo automatizado inovador. Este processo é formado por cinco passos principais: pré-processamento, identificação de substantivos mais freqüentes, identificação dos substantivos relevantes, mapeamento de indicadores e remoção de substantivos não-relacionados. O protótipo deste sistema foi aplicado em opiniões sobre o serviço prestado por lojas de e-commerce brasileiras com resultados bastante satisfatórios Opiniões Serviço Análise de Sentimentos Processamento de Linguagem Natural Extração de Características WhatMatter
52	Prototipo de um lexico para o processamento da linguagem natural : o caso dos adjetivos polissemicos Bidarra, Jorge 15 January 2002 (has links) Orientador: Edson Françozo / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-07-31T14:54:37Z (GMT). No. of bitstreams: 1 Bidarra_Jorge_D.pdf: 8505000 bytes, checksum: 46e77365c759661986e5e483061127ca (MD5) Previous issue date: 2001 / Resumo: A maioria das palavras em português revela um alto grau de polissemia. Apesar disso, os modelos de léxicos convencionais não têm se mostrado aptos para lidar adequadamente com o fenômeno. O tratamento que dão às palavras polissêmicas, não raro, é exatamente o mesmo aplicado aos casos de homonímia. Ou seja, para cada significado diferente que a palavra admite, cria-se uma nova entrada no léxico, totalmente desarticulada dos demais sentidos, mesmo que entre eles haja algum tipo de relacionamento semântico estabelecido. A principal implicação desta falta de estruturação é que ao sistema lexical deixa-se pouco ou nenhum recurso para enfrentar situações tais como aquela em que um novo sentido de uma palavra é detectado mas que não encontra correspondência com qualquer das entradas descritas no léxico. Esta tese investiga justamente o problema da representação no léxico de palavras ambíguas, mas em particular no que tange à polissemia adjetival, e propõe um protótipo de léxico semântico para o PLN. O modelo em si resulta da integração de duas importantes teorias gramaticais, quais sejam, a do léxico gerativo de James PUSTEJOVSKY (1991, 1995) e a da HPSG desenvolvida por Carl POLLARD e Ivan A. SAG (1987, 1994). Do ponto de vista da arquitetura, o léxico como aqui é proposto, e que se encontra formalmente especificado, apresenta algumas vantagens (das quais citaremos apenas três) em relação a outras modelagens existentes. Uma delas dizendo respeito a sua capacidade para integrar de uma maneira bastante satisfatória ambos os níveis de representação sintática e semântico-conceitual de qualquer um dos itens a serem lexicalizados. Uma outra vantagem é que, partindo de uma representação lexical interna ricamente estruturada, cujas especificações são feitas com base nas chamadas estruturas de traços tipadas, dá-se ao modelo um alto poder de expressividade, na medida em que pela unificação das estruturas toma-se também possível combinar informações que não só as oriundas do próprio item lexical mas também aquelas obtidas de outros itens que com ele se estruturam para formar uma expressão gramatical mais complexa. A terceira e última vantagem, talvez sendo ela a mais importante de todas, tem a ver com a habilidade do modelo para, a partir de uma única entrada lexical (esta representando a especificação do significado básico e central da palavra polissêmica), capturar cada um dos diferentes sentidos que o item em questão possa admitir quando submetido ao contexto / Abstract: Most words in portuguese display a highest degree of polysemy. Nevertheless the conventional lexical models have not been able to deal with this phenomenon adequately. The treatment given to polysemy is often the same as to homonymy. That is, for each different meaning the word presents, a new lexicon entry is created, unrelated to the others even if there is some kind of semantic relation among them. The most important implication of this lack of structure is that the lexical system finds few or no resources to deal with situations in which a new sense is detected for a given word but this sense does not match any of the listed homonymous senses in the lexicon. This thesis investigates the lexical ambiguity problem but in particular that concerning the adjectival polysemy and proposes a prototypical semantic lexicon for NLP. The model we propose integrates two important grammatical theories, that is, the Generative Lexicon by James PUSTEJOVKSY (1991, 1995), and HPSG by Carl POLLARDand Ivan A. SAG (1987, 1994). From the point of view of its architecture, the lexicon formally specified here, shows some advantages (only three of them are mentioned here) when compared to the other proposed models. The first advantage is certainly its capacity to integrate satisfactorily both syntactical and semantic-conceptuallevels for any item to be inserted in the lexicon. Second, starting with a highly structured lexical representation, the model reaches a high leveI of expression because the unification of structures enables a combination of information obtained not only from the lexical item itself, but also trom other items combined to form a more complex grammatical expression. The last advantage, perhaps the most important one, refers to the model's ability to capture each one of the different senses the word admits when submitted to the context, taking as a start point only one lexical entry (which represents the basic and central meaning specification of the polyssemic word) / Doutorado / Doutor em Linguística Aplicada Ambiguidade Polissemia Inteligência artificial
53	Redes neurais e logica formal em processamento de linguagem natural Rosa, João Luis Garcia 22 September 1993 (has links) Orientador: Marcio Luiz de Andrade Netto / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-18T14:25:22Z (GMT). No. of bitstreams: 1 Rosa_JoaoLuisGarcia_M.pdf: 10533866 bytes, checksum: eff7483f9919f4d2a0a8d1da0a8ad44d (MD5) Previous issue date: 1993 / Resumo: Esta dissertação de mestrado é sobre Processamento de Linguagem Natural (PLN). O PLN consiste de uma série de tarefas que a máquina deve executar para analisar um texto. Na literatura existem vários trabalhos em diversas abordagens. Este trabalho faz uma combinação de abordagens baseadas em lógica e de abordagens conexionistas. O trabalho proposto tem três partes. A primeira parte faz a análise sintática de frases da língua portuguesa. É baseada em lógica. A segunda parte faz a análise semântica, ou a verificação do significado das palavras numa frase. Isto é feito através de redes neurais artificiais, que "aprendem" a representação binária das palavras (suas microcaracterísticas semânticas). Esta abordagem é chamada de conexionismo. Sua grande vantagem é a habilidade de generalização, ou seja, a rede é capaz de reconhecer uma palavra, mesmo que esta não tenha sido mostrada a ela. A terceira, e última, parte deste trabalho trata da utilização de redes recorrentes para análise de frases. Este tipo de rede serve para "ligar" as palavras em uma frase, pois a rede recorrente tem memória. Ela é capaz de "lembrar" da última palavra vista numa seqüência. É útil para ligar as palavras em uma sentença, por exemplo, o sujeito com o objeto, o objeto com o complemento, etc. Isto torna a frase uma entidade única a ser analisada / Abstract: This dissertation is about Natural Language Processing (NLP). NLP consists of a series of tasks the machine should carry out in analysing a texto In literature, there are papers having different approaches. This work combines two approaches: based on logic and connectionism. The proposed work is divided in three parts. The first makes the parsing, or the syntactic analysis of sentences in the Portuguese language, based on logic. The second part takes care of the semantic analysis, or the verification of the meaning of words in a sentence. This is achieved through artificial neural networks that "Iearn" the binary representation of the words (their semantic microfeatures). This approach is called connectionism. Its major advantage is the ability of generalizing, i. e., it is able to recognize a word even it is not presented to the nets. The third, and last, part of this work is about the use of recurrent networks in text analysis. This kind of network is to "Iink" the words in a sentence because the recurrent net is given memory, which makes it able to "remember" the last word seen in a sequence. This is useful to link the words in a sentence like the subject to the object, the object to the complement, etc. This makes a sentence an entire item to be analysed. / Mestrado / Mestre em Engenharia Elétrica Inteligência artificial Redes neurais (Computação)
54	Análise lexicográfica da produção acadêmica da Fiocruz: uma proposta de metodologia Lima, Jefferson da Costa 09 September 2016 (has links) Submitted by Jefferson da Costa Lima (jeffersonlima@gmail.com) on 2016-10-31T15:52:52Z No. of bitstreams: 1 JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-11-07T12:54:12Z (GMT) No. of bitstreams: 1 JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5) / Made available in DSpace on 2016-11-08T17:24:34Z (GMT). No. of bitstreams: 1 JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5) Previous issue date: 2016-09-09 / With the objective to meet the health needs of the population, a huge amount of publications are generated each year. Scientific papers, thesis and dissertations become available digitally, but make them accessible to the user requires an understanding of the indexing process, which is usually made manually. This work proposes an experiment on the feasibility of automatically identify valid descriptors for the documents in the field of health. Are extracted n-grams of the texts and, after comparison with terms of vocabulary Health Sciences Descriptors (DeCS), are identified those who can act as descriptors for the works. We believe that this process can be applied to classification of document sets with deficiencies in their indexing and, even, in supporting the re-indexing processes, improving the precision and recall of the searches, and the possibility of establishing metrics of relevance. / Com o objetivo de atender às demandas de saúde da população, uma quantidade enorme de publicações são geradas a cada ano. Artigos científicos, teses e dissertações tornam-se digitalmente disponíveis, mas torná-los acessíveis aos usuário exige a compreensão do processo de indexação, que em geral é feito manualmente. O presente trabalho propõe um experimento sobre a viabilidade de identificar automaticamente descritores válidos para documentos do campo da saúde. São extraídos n-grams dos textos e, após comparação com termos do vocabulário Descritores em Ciências da Saúde (DeCS), são identificados aqueles que podem atuar como descritores para as obras. Acreditamos que este processo pode ser aplicado na classificação de conjuntos de documentos com deficiências na indexação e, até mesmo, no apoio a processos de reindexação, melhorando a precisão e a revocação das buscas, além da possibilidade de estabelecer métricas de relevância. Processamento de linguagem natural Mineração de textos Descritores em ciências da saúde Matemática Mineração de dados (Computação)
55	Técnicas de processamento de linguagem natural aplicadas às ciências sociais Scarpa, Alice Duarte 24 August 2017 (has links) Submitted by Alice Duarte Scarpa (alicescarpa@gmail.com) on 2017-09-26T15:54:11Z No. of bitstreams: 1 dissertacao (3).pdf: 2075770 bytes, checksum: 4838890c00b2e15a62cffbbbcb4ab5a8 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2017-10-31T11:43:22Z (GMT) No. of bitstreams: 1 dissertacao (3).pdf: 2075770 bytes, checksum: 4838890c00b2e15a62cffbbbcb4ab5a8 (MD5) / Made available in DSpace on 2017-11-10T18:24:46Z (GMT). No. of bitstreams: 1 dissertacao (3).pdf: 2075770 bytes, checksum: 4838890c00b2e15a62cffbbbcb4ab5a8 (MD5) Previous issue date: 2017-08-24 / The vast amount of documents available nowadays presents a great opportunity for advancing Political Sciences. At the same time, this deluge of information poses a problem, because it is no longer feasible for researchers to analyze every document manually. Modern natural language processing techniques have an essential role in helping with this process. The goal of this work is to create a tool based on natural language processing techniques that helps researchers to navigate an important database, Cablegate, which is a corpus of over 250 thousand diplomatic cables sent between US embassies that was published as part of WikiLeaks. This is a very important database that can shed new light at key historical moments of the twenty-first century. / A enorme quantidade de documentos disponíveis atualmente representa um grande potencial de avanço para as Ciências Políticas. Ao mesmo tempo essa riqueza de informações gera um problema, pois não é mais possível que pesquisadores analisem todos os documentos manualmente. Técnicas modernas de processamento de linguagem natural têm um papel essencial a cumprir para auxiliar tal avanço. O objetivo desse trabalho é criar uma ferramenta baseada em processamento de linguagem de natural que ajude pesquisadores a navegar uma base de dados muito importante, o \textit{Cablegate}, que é um conjunto de mais de 250 mil cabos diplomáticos de embaixadas dos Estados Unidos que foi publicado como parte do \textit{WikiLeaks}. Essa é uma base muito importante que pode trazer uma nova luz sobre vários momentos-chave do início do século XXI. Processamento de Linguagem Natural LSI LDA Documentos diplomáticos Natural language processing Diplomatic documents Matemática Linguística - Processamento de dados
56	Avaliando a percepção dos agentes da teoria do seletorado através de processamento de linguagem natural Alqueres, Julio Frederico Hruza 06 April 2015 (has links) Submitted by Julio Frederico Hruza Alqueres (julio.alqueres@gmail.com) on 2015-06-30T15:53:58Z No. of bitstreams: 1 Tese Final - Julio Alqueres.pdf: 5909230 bytes, checksum: 9cda987329a8e563391dae65ea6d53b0 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2015-07-02T13:29:27Z (GMT) No. of bitstreams: 1 Tese Final - Julio Alqueres.pdf: 5909230 bytes, checksum: 9cda987329a8e563391dae65ea6d53b0 (MD5) / Approved for entry into archive by Marcia Bacha (marcia.bacha@fgv.br) on 2015-07-03T16:48:46Z (GMT) No. of bitstreams: 1 Tese Final - Julio Alqueres.pdf: 5909230 bytes, checksum: 9cda987329a8e563391dae65ea6d53b0 (MD5) / Made available in DSpace on 2015-07-03T16:49:01Z (GMT). No. of bitstreams: 1 Tese Final - Julio Alqueres.pdf: 5909230 bytes, checksum: 9cda987329a8e563391dae65ea6d53b0 (MD5) Previous issue date: 2015-04-06 / Nos últimos anos, a relevância da Teoria dos Grafos na descrição da rela ção entre indiví duos cresceu signifi cativamente, contribuindo para a ascensão do fenômeno das redes sociais. Sua importância tem permitido a explora ção polí tico-econômica de informa ções escondidas em sua estrutura. Assumindo que um parlamentar maximiza sua utilidade ao fortalecer o seu partido e o estado que representa, construímos uma rede política baseada no Congresso Brasileiro, o que permite a identificação de elementos da Teoria do Seletorado. Através de técnicas de Processamento de Linguagem Natural aplicadas à diferentes fontes de notícia, é possível atualizar a rede de forma a identificar alterações na estrutura de poder do sistema político brasileiro. Teoria dos grafos Processamento de linguagem natural Centralidade Autovetor Política Congresso Partidos políticos Teoria do seletorado Matemática Teoria do seletorado Teoria dos grafos
57	Análise de sentimentos em reclamações: uma aplicação no maior site de reclamações do Brasil Gonçalves, Cristiano de Andrade 22 July 2016 (has links) Submitted by Cristiano de Andrade Gonçalves (cristianogoncalves@yahoo.com.br) on 2016-07-15T00:18:37Z No. of bitstreams: 1 Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-07-20T12:51:19Z (GMT) No. of bitstreams: 1 Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2016-07-25T13:27:52Z (GMT) No. of bitstreams: 1 Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) / Made available in DSpace on 2016-07-25T13:29:08Z (GMT). No. of bitstreams: 1 Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) Previous issue date: 2016-07-22 / A análise de sentimentos é uma ferramenta com grande potencial, podendo ser aplicada em vários contextos. Esta dissertação tem com o objetivo analisar a viabilidade da aplicação da técnica numa base capturada do site de reclamações mais popular do Brasil, com a aplicação de técnicas de processamento de linguagem natural e de aprendizagem de máquinas é possível identificar padrões na satisfação ou insatisfação dos consumidores. Comportamento do consumidor Análise de sentimentos Processamento de linguagem natural Aprendizagem por máquinas Matemática Mineração de dados (Computação)
58	Análise de sentimento para textos curtos Avila, Gustavo Vianna 10 March 2017 (has links) Submitted by Gustavo Vianna Avila (guavila@gmail.com) on 2017-03-30T18:26:08Z No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2017-04-07T15:10:23Z (GMT) No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Made available in DSpace on 2017-04-12T19:10:52Z (GMT). No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) Previous issue date: 2017-03-10 / A huge number of short informal messages are posted every day in social network sites, discussion forums and customer surveys. Emotions seem to be frequently important in these texts. The challenge of identifying and understanding an emotion present in this type of communication is important in distinguishing the sentiment in the text and also in identifying anomalous and inappropriate behaviors, eventually offering some kind of risk. This work proposes the implementation of a sentiment analysis solution based on machine learning. Using supervised learning techniques, it is desired to discern whether a message has a positive, neutral, or negative sentiment. The messages to be analyzed are IT service satisfaction surveys. Two models were used in the analysis, the first model where only the ”Comment”, a nonstructured text field was considered and the second model, where besides the ”Comment”field, two objective questions were considered. The results obtained indicate that the techniques of machine learning, are not behind the results produced by human-produced baselines. The accuracy obtained was up to 86.8% accuracy for a three class model: ”praise”, ”neutral”and ”complaint”. Accuracy was significantly higher, reaching up to 94.5 % in an alternative model of only two classes: ”praise”and ”non-praise”. / Um grande número de mensagens curtas informais são postadas diariamente em redes sociais, fórums de discussão e pesquisas de satisfação. Emoções parecem ser importantes de forma frequente nesses textos. O desafio de identificar e entender a emoção presente nesse tipo de comunicação é importante para distinguir o sentimento presente no texto e também para identificar comportamentos anômalos e inapropriados, eventualmente oferecendo algum tipo de risco. Este trabalho propõe a implementação de uma solução para a análise de sentimento de textos curtos baseada em aprendizado por máquina. Utilizando técnicas de aprendizado supervisionado, é desejado discernir se uma mensagem possui sentimento positivo, neutro ou negativo. As mensagens a serem analisadas serão pesquisas de satisfação de serviços de TI. Foram utilizados nas análises dois modelos, o primeiro modelo onde apenas o campo de texto livre "Comentário" foi considerado e o segundo modelo, onde além do campo de texto livre "Comentário", foram consideradas, adicionalmente, duas perguntas objetivas da pesquisa de satisfação. Os resultados obtidos indicam que as técnicas utilizadas de aprendizado por máquina, não ficam atrás dos resultados produzidos por aprendizado humano. A acurácia obtida foi de até 86,8% de acerto para um modelo de três classes: "elogio", "neutro" e "reclamação". A acurácia foi significativamente superior, alcançando até 94,5% em um modelo alternativo, de apenas duas classes: "elogio" e "não-elogio". Mineração de dados Processamento da linguagem natural Aprendizado do computador Análise de Sentimentos Tecnologia Mineração de dados (Computação) Aprendizado do computador Modelagem de dados
59	Extração de informações de narrativas clínicas / Clinical reports information retrieval Oleynik, Michel 02 October 2013 (has links) Narrativas clínicas são normalmente escritas em linguagem natural devido a seu poder descritivo e facilidade de comunicação entre os especialistas. Processar esses dados para fins de descoberta de conhecimento e coleta de estatísticas exige técnicas de extração de informações, com alguns resultados já apresentados na literatura para o domínio jornalístico, mas ainda raras no domínio médico. O presente trabalho visa desenvolver um classificador de laudos de anatomia patológica que seja capaz de inferir a topografia e a morfologia de um câncer na Classificação Internacional de Doenças para Oncologia (CID-O). Dados fornecidos pelo A.C. Camargo Cancer Center em São Paulo foram utilizados para treinamento e validação. Técnicas de processamento de linguagem natural (PLN) aliadas a classificadores bayesianos foram exploradas na busca de qualidade da recuperação da informação, avaliada por meio da medida-F2. Valores acima de 74% para o grupo topográfico e de 61% para o grupo morfológico são relatados, com pequena contribuição das técnicas de PLN e suavização. Os resultados corroboram trabalhos similares e demonstram a necessidade de retreinamento das ferramentas de PLN no domínio médico. / Clinical reports are usually written in natural language due to its descriptive power and ease of communication among specialists. Processing data for knowledge discovery and statistical analysis requires information retrieval techniques, already established for newswire texts, but still rare in the medical subdomain. The present work aims at developing an automated classifier of pathology reports, which should be able to infer the topography and the morphology classes of a cancer using codes of the International Classification of Diseases for Oncology (ICD-O). Data provided by the A.C. Camargo Cancer Center located in Sao Paulo was used for training and validation. Techniques of natural language processing (NLP) and Bayes classifiers were used in search for information retrieval quality, evaluated by F2-score. Measures upper than 74% in the topographic group and 61% in the morphologic group are reported, with small contribution from NLP or smoothing techniques. The results agree with similar studies and show that a retraining of NLP tools in the medical domain is necessary. classificação de texto laudos de anatomia patológica natural language processing pathology reports processamento de linguagem natural text classication
60	Investigação de métodos de desambiguação lexical de sentidos de verbos do português do Brasil / Research of word sense disambiguation methods for verbs in brazilian portuguese Cabezudo, Marco Antonio Sobrevilla 28 August 2015 (has links) A Desambiguação Lexical de Sentido (DLS) consiste em determinar o sentido mais apropriado da palavra em um contexto determinado, utilizando-se um repositório de sentidos pré-especificado. Esta tarefa é importante para outras aplicações, por exemplo, a tradução automática. Para o inglês, a DLS tem sido amplamente explorada, utilizando diferentes abordagens e técnicas, contudo, esta tarefa ainda é um desafio para os pesquisadores em semântica. Analisando os resultados dos métodos por classes gramaticais, nota-se que todas as classes não apresentam os mesmos resultados, sendo que os verbos são os que apresentam os piores resultados. Estudos ressaltam que os métodos de DLS usam informações superficiais e os verbos precisam de informação mais profunda para sua desambiguação, como frames sintáticos ou restrições seletivas. Para o português, existem poucos trabalhos nesta área e só recentemente tem-se investigado métodos de uso geral. Além disso, salienta-se que, nos últimos anos, têm sido desenvolvidos recursos lexicais focados nos verbos. Nesse contexto, neste trabalho de mestrado, visou-se investigar métodos de DLS de verbos em textos escritos em português do Brasil. Em particular, foram explorados alguns métodos tradicionais da área e, posteriormente, foi incorporado conhecimento linguístico proveniente da Verbnet.Br. Para subsidiar esta investigação, o córpus CSTNews foi anotado com sentidos de verbos usando a WordNet-Pr como repositório de sentidos. Os resultados obtidos mostraram que os métodos de DLS investigados não conseguiram superar o baseline mais forte e que a incorporação de conhecimento da VerbNet.Br produziu melhorias nos métodos, porém, estas melhorias não foram estatisticamente significantes. Algumas contribuições deste trabalho de mestrado foram um córpus anotado com sentidos de verbos, a criação de uma ferramenta que auxilie a anotação de sentidos, a investigação de métodos de DLS e o uso de informações especificas de verbos (provenientes da VerbNet.Br) na DLS de verbos. / Word Sense Disambiguation (WSD) aims at identifying the appropriate sense of a word in a given context, using a pre-specified sense-repository. This task is important to other applications as Machine Translation. For English, WSD has been widely studied, using different approaches and techniques, however, this task is still a challenge for researchers in Semantics. Analyzing the performance of different methods by the morphosyntactic class, note that not all classes have the same results, and the worst results are obtained for Verbs. Studies highlight that WSD methods use shallow information and Verbs need deeper information for its disambiguation, like syntactic frames or selectional restrictions. For Portuguese, there are few works in WSD and, recently, some works for general purpose. In addition, it is noted that, recently, have been developed lexical resources focused on Verbs. In this context, this master work aimed at researching WSD methods for verbs in texts written in Brazilian Portuguese. In particular, traditional WSD methods were explored and, subsequently, linguistic knowledge of VerbNet.Br was incorporated in these methods. To support this research, CSTNews corpus was annotated with verb senses using the WordNet-Pr as a sense-repository. The results showed that explored WSD methods did not outperform the hard baseline and the incorporation of VerbNet.Br knowledge yielded improvements in the methods, however, these improvements were not statistically significant. Some contributions of this work were the sense-annotated corpus, the creation of a tool for support the sense-annotation, the research of WSD methods for verbs and the use of specific information of verbs (from VerbNet.Br) in the WSD of verbs. Computational linguistics Desambiguação lexical de sentindo Linguística computacional Natural language processing Processamento da linguagem natural Word sense disambiguation

Search results