Spelling suggestions: "subject:"linguagem batural"" "subject:"linguagem datural""
81 |
AquisiÃÃo de Conhecimento de Mundo para Sistemas de Processamento de Linguagem Natural / World of Knowledge Acquisition for Systems of Natural Language ProcessingJosà Wellington Franco da Silva 30 August 2013 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / Um dos desafios das pesquisas na Ãrea de Processamento de Linguagem Natural
(PLN) Ã prover recursos semÃntico-linguÃsticos que expressem conhecimento de mundo para
suportar tarefas como: extraÃÃo de informaÃÃo, recuperaÃÃo de informaÃÃo, sistemas de perguntas e respostas, sumarizaÃÃo de textos, anotaÃÃo semÃntica de textos, dentre outras. Para
esse desafio este trabalho propÃe estratÃgias para aquisiÃÃo de conhecimento de mundo. Propomos dois mÃtodos. O primeiro à um mÃtodo semiautomÃtico que tem como ideia principal
utilizar um processo de raciocÃnio semÃntico sobre o conhecimento prÃ-existente em uma base
semÃntica. O segundo à um mÃtodo de aquisiÃÃo automÃtica que utiliza a WikipÃdia para a
geraÃÃo de conteÃdo semÃntico. A WikipÃdia foi utilizada como fonte de conhecimento devido
à confiabilidade, dinamicidade e abrangÃncia de seu conteÃdo. Neste trabalho propomos um
mÃtodo para aquisiÃÃo de relaÃÃes semÃnticas entre conceitos a partir de textos de artigos da
WikipÃdia que faz uso de um conhecimento implÃcito existente na WikipÃdia e em sistemas
hipermÃdia: os links entre artigos. Ao longo do texto descritivo de um artigo da WikipÃdia aparecem links para outros artigos que sÃo evidÃncias de que hà uma relaÃÃo entre o artigo corrente
e o outro artigo referenciado pelo link. O mÃtodo proposto objetiva capturar a relaÃÃo semÃntica
expressa no texto entre eles (artigo corrente e link para outro artigo), sem expressÃes regulares
identificando relaÃÃes similares atravÃs de uma medida de similaridade semÃntica. / One of the challenges of research in Natural Language Processing(NLP) is to provide
semantic and linguistic resources to express knowledge of the world to support tasks such
as Information Extraction, Information Retrieval systems, Questions & Answering, Text Summarization,
Annotation Semantics of texts, etc. For this challenge this work proposes strategies
for acquiring knowledge of the world. We propose two methods. The first is a semi-automatic
method that has main idea of using a semantic reasoning process on pre-existing knowledge
base semantics. The second is an acquisition method that utilizes automatic Wikipedia for
generating semantical content. Wikipedia was used as a source of knowledge because of the
reliability, dynamism and scope of its content. In this work we propose a method for acquiring
semantic relations between concepts from the texts of Wikipedia articles that makes use of an
implicit knowledge that exists in Wikipedia and in hypermedia systems: links between articles.
Throughout the descriptive text of a Wikipedia article appear links to other articles that are evidence
that there is a relationship between the current article and another article referenced by
the link. The proposed method aims to capture the semantic relationship expressed in the text
between them (current article and link to another article), no regular expressions identifying
similar relationships through a semantic similarity measure.
|
82 |
Tell me why : uma arquitetura para fornecer explicações sobre revisões / Tell me why : an architecture to provide rich review explanationsWoloszyn, Vinicius January 2015 (has links)
O que as outras pessoas pensam sempre foi uma parte importante do processo de tomada de decisão. Por exemplo, as pessoas costumam consultar seus amigos para obter um parecer sobre um livro ou um filme ou um restaurante. Hoje em dia, os usuários publicam suas opiniões em sites de revisão colaborativa, como IMDB para filmes, Yelp para restaurantes e TripAdiviser para hotéis. Ao longo do tempo, esses sites têm construído um enorme banco de dados que conecta usuários, artigos e opiniões expressas por uma classificação numérica e um comentário de texto livre que explicam por que eles gostam ou não gostam de um item. Mas essa vasta quantidade de dados pode prejudicar o usuário a obter uma opinião. Muitos trabalhos relacionados fornecem uma interpretações de revisões para os usuários. Eles oferecem vantagens diferentes para vários tipos de resumos. No entanto, todos eles têm a mesma limitação: eles não fornecem resumos personalizados nem contrastantes comentários escritos por diferentes segmentos de colaboradores. Compreeder e contrastar comentários escritos por diferentes segmentos de revisores ainda é um problema de pesquisa em aberto. Assim, nosso trabalho propõe uma nova arquitetura, chamado Tell Me Why. TMW é um projeto desenvolvido no Laboratório de Informática Grenoble em cooperação com a Universidade Federal do Rio Grande do Sul para fornecer aos usuários uma melhor compreensão dos comentários. Propomos uma combinação de análise de texto a partir de comentários com a mineração de dados estruturado resultante do cruzamento de dimensões do avaliador e item. Além disso, este trabalho realiza uma investigação sobre métodos de sumarização utilizados na revisão de produtos. A saída de nossa arquitetura consiste em declarações personalizadas de texto usando Geração de Linguagem Natural composto por atributos de itens e comentários resumidos que explicam a opinião das pessoas sobre um determinado assunto. Os resultados obtidos a partir de uma avaliação comparativa com a Revisão Mais Útil da Amazon revelam que é uma abordagem promissora e útil na opinião do usuário. / What other people think has been always an important part of the process of decision-making. For instance, people usually consult their friends to get an opinion about a book, or a movie or a restaurant. Nowadays, users publish their opinions on collaborative reviewing sites such as IMDB for movies, Yelp for restaurants and TripAdvisor for hotels. Over the time, these sites have built a massive database that connects users, items and opinions expressed by a numeric rating and a free text review that explain why they like or dislike a specific item. But this vast amount of data can hamper the user to get an opinion. Several related work provide a review interpretations to the users. They offer different advantages for various types of summaries. However, they all have the same limitation: they do not provide personalized summaries nor contrasting reviews written by different segments of reviewers. Understanding and contrast reviews written by different segments of reviewers is still an open research problem. Our work proposes a new architecture, called Tell Me Why, which is a project developed at Grenoble Informatics Laboratory in cooperation with Federal University of Rio Grande do Sul to provide users a better understanding of reviews. We propose a combination of text analysis from reviews with mining structured data resulting from crossing reviewer and item dimensions. Additionally, this work performs an investigation of summarization methods utilized in review domain. The output of our architecture consists of personalized statement using Natural Language Generation that explain people’s opinion about a particular item. The evaluation reveal that it is a promising approach and useful in user’s opinion.
|
83 |
Avaliando a percepção dos agentes da teoria do seletorado através de processamento de linguagem naturalAlqueres, Julio Frederico Hruza 06 April 2015 (has links)
Submitted by Julio Frederico Hruza Alqueres (julio.alqueres@gmail.com) on 2015-06-30T15:53:58Z
No. of bitstreams: 1
Tese Final - Julio Alqueres.pdf: 5909230 bytes, checksum: 9cda987329a8e563391dae65ea6d53b0 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2015-07-02T13:29:27Z (GMT) No. of bitstreams: 1
Tese Final - Julio Alqueres.pdf: 5909230 bytes, checksum: 9cda987329a8e563391dae65ea6d53b0 (MD5) / Approved for entry into archive by Marcia Bacha (marcia.bacha@fgv.br) on 2015-07-03T16:48:46Z (GMT) No. of bitstreams: 1
Tese Final - Julio Alqueres.pdf: 5909230 bytes, checksum: 9cda987329a8e563391dae65ea6d53b0 (MD5) / Made available in DSpace on 2015-07-03T16:49:01Z (GMT). No. of bitstreams: 1
Tese Final - Julio Alqueres.pdf: 5909230 bytes, checksum: 9cda987329a8e563391dae65ea6d53b0 (MD5)
Previous issue date: 2015-04-06 / Nos últimos anos, a relevância da Teoria dos Grafos na descrição da rela ção entre indiví duos cresceu signifi cativamente, contribuindo para a ascensão do fenômeno das redes sociais. Sua importância tem permitido a explora ção polí tico-econômica de informa ções escondidas em sua estrutura. Assumindo que um parlamentar maximiza sua utilidade ao fortalecer o seu partido e o estado que representa, construímos uma rede política baseada no Congresso Brasileiro, o que permite a identificação de elementos da Teoria do Seletorado. Através de técnicas de Processamento de Linguagem Natural aplicadas à diferentes fontes de notícia, é possível atualizar a rede de forma a identificar alterações na estrutura de poder do sistema político brasileiro.
|
84 |
Análise de sentimentos em reclamações: uma aplicação no maior site de reclamações do BrasilGonçalves, Cristiano de Andrade 22 July 2016 (has links)
Submitted by Cristiano de Andrade Gonçalves (cristianogoncalves@yahoo.com.br) on 2016-07-15T00:18:37Z
No. of bitstreams: 1
Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-07-20T12:51:19Z (GMT) No. of bitstreams: 1
Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2016-07-25T13:27:52Z (GMT) No. of bitstreams: 1
Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) / Made available in DSpace on 2016-07-25T13:29:08Z (GMT). No. of bitstreams: 1
Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5)
Previous issue date: 2016-07-22 / A análise de sentimentos é uma ferramenta com grande potencial, podendo ser aplicada em vários contextos. Esta dissertação tem com o objetivo analisar a viabilidade da aplicação da técnica numa base capturada do site de reclamações mais popular do Brasil, com a aplicação de técnicas de processamento de linguagem natural e de aprendizagem de máquinas é possível identificar padrões na satisfação ou insatisfação dos consumidores.
|
85 |
Análise de sentimento para textos curtosAvila, Gustavo Vianna 10 March 2017 (has links)
Submitted by Gustavo Vianna Avila (guavila@gmail.com) on 2017-03-30T18:26:08Z
No. of bitstreams: 1
FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2017-04-07T15:10:23Z (GMT) No. of bitstreams: 1
FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Made available in DSpace on 2017-04-12T19:10:52Z (GMT). No. of bitstreams: 1
FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5)
Previous issue date: 2017-03-10 / A huge number of short informal messages are posted every day in social network sites, discussion forums and customer surveys. Emotions seem to be frequently important in these texts. The challenge of identifying and understanding an emotion present in this type of communication is important in distinguishing the sentiment in the text and also in identifying anomalous and inappropriate behaviors, eventually offering some kind of risk. This work proposes the implementation of a sentiment analysis solution based on machine learning. Using supervised learning techniques, it is desired to discern whether a message has a positive, neutral, or negative sentiment. The messages to be analyzed are IT service satisfaction surveys. Two models were used in the analysis, the first model where only the ”Comment”, a nonstructured text field was considered and the second model, where besides the ”Comment”field, two objective questions were considered. The results obtained indicate that the techniques of machine learning, are not behind the results produced by human-produced baselines. The accuracy obtained was up to 86.8% accuracy for a three class model: ”praise”, ”neutral”and ”complaint”. Accuracy was significantly higher, reaching up to 94.5 % in an alternative model of only two classes: ”praise”and ”non-praise”. / Um grande número de mensagens curtas informais são postadas diariamente em redes sociais, fórums de discussão e pesquisas de satisfação. Emoções parecem ser importantes de forma frequente nesses textos. O desafio de identificar e entender a emoção presente nesse tipo de comunicação é importante para distinguir o sentimento presente no texto e também para identificar comportamentos anômalos e inapropriados, eventualmente oferecendo algum tipo de risco. Este trabalho propõe a implementação de uma solução para a análise de sentimento de textos curtos baseada em aprendizado por máquina. Utilizando técnicas de aprendizado supervisionado, é desejado discernir se uma mensagem possui sentimento positivo, neutro ou negativo. As mensagens a serem analisadas serão pesquisas de satisfação de serviços de TI. Foram utilizados nas análises dois modelos, o primeiro modelo onde apenas o campo de texto livre "Comentário" foi considerado e o segundo modelo, onde além do campo de texto livre "Comentário", foram consideradas, adicionalmente, duas perguntas objetivas da pesquisa de satisfação. Os resultados obtidos indicam que as técnicas utilizadas de aprendizado por máquina, não ficam atrás dos resultados produzidos por aprendizado humano. A acurácia obtida foi de até 86,8% de acerto para um modelo de três classes: "elogio", "neutro" e "reclamação". A acurácia foi significativamente superior, alcançando até 94,5% em um modelo alternativo, de apenas duas classes: "elogio" e "não-elogio".
|
86 |
Alguns aspectos de tratamento de dependências de contexto em linguagem natural empregando tecnologia adaptativa. / Some aspects on natural language context dependencies handling using adaptive technology.Moraes, Miryam de 14 December 2006 (has links)
O tratamento de Linguagens Naturais requer o emprego de formalismos mais complexos que aqueles normalmente empregados para Linguagens Livre de Contexto. A maioria de tais formalismos são difíceis de serem utilizados, não práticos e sobretudo, associados a um desempenho de elevado custo. Autômatos de pilha estruturados são excelentes para se representar linguagens regulares e aspectos livre de contexto encontrados em Linguagem Natural, uma vez que é possível decompo-los em uma camada reguar (implementada com máquina de estados finitos) e uma livre de contexto (representada por uma pilha). Tais dispositivos aceitam linguagens determinísticas e livre de contexto em tempo linear. Dessa forma, trata-se de um dispositivo adequado para ser empregado como mecanismo subjacente para os autômatos adaptativos, que permitem o tratamento - sem perda de simplicidade e eficiência - de linguagens mais complexas que aquelas livres de contexo Nesta tese, dependências de contexto são tratadas com tecnologia adaptativa. Este trabalho mostra como uma regra de Linguagem Natural descrita com uma metalinguagem pode ser convertida em um autômato de pilha adaptativo. Foi possível verificar que problemas complexos em análise de Linguagem Natural, tais como os não-determinismos e ambigüidades presentes em situações de concordância, subcategorização, coordenação podem ser resolvidos com eficiência. De fato, todos os mecanismos adaptativos para solucionar estes problemas apresentam desempenho O(n). Uma arquitetura para processamento em Linguagem Natural é apresentada. / Since low-complexity language formalisms are too weak to handle NL, stronger formalisms are required, most of them resource demanding, hard to use or unpractical. Structured pushdown automata are excellent to represent regular and context-free aspects on NLs by allowing them to be split into regular layer (implemented as finite-state machines) and a context-free one (represented by a pushdown store). Such devices accepts deterministic context-free languages in linear time, and is suitable as un underlying mechanism for adaptive automata, allowing handling - without loss of simplicity and efficiency - languages more complex than context-free ones. In this thesis context dependency is handled with adaptive technology. This work shows as a Natural Language rule described with a metalanguage can be converted into adaptive structured pushdown automata. It was possible to verify that complex problems in Natural Language parsing e.g., nondeterminisms and ambiguities present in agreement, subcategorization, coordination can be solved with efficiency. In fact, all adaptive mechanisms attached to these problems have O(n) performance. An adaptive architecture for NL Language processing is presented.
|
87 |
Extração de informações de narrativas clínicas / Clinical reports information retrievalOleynik, Michel 02 October 2013 (has links)
Narrativas clínicas são normalmente escritas em linguagem natural devido a seu poder descritivo e facilidade de comunicação entre os especialistas. Processar esses dados para fins de descoberta de conhecimento e coleta de estatísticas exige técnicas de extração de informações, com alguns resultados já apresentados na literatura para o domínio jornalístico, mas ainda raras no domínio médico. O presente trabalho visa desenvolver um classificador de laudos de anatomia patológica que seja capaz de inferir a topografia e a morfologia de um câncer na Classificação Internacional de Doenças para Oncologia (CID-O). Dados fornecidos pelo A.C. Camargo Cancer Center em São Paulo foram utilizados para treinamento e validação. Técnicas de processamento de linguagem natural (PLN) aliadas a classificadores bayesianos foram exploradas na busca de qualidade da recuperação da informação, avaliada por meio da medida-F2. Valores acima de 74% para o grupo topográfico e de 61% para o grupo morfológico são relatados, com pequena contribuição das técnicas de PLN e suavização. Os resultados corroboram trabalhos similares e demonstram a necessidade de retreinamento das ferramentas de PLN no domínio médico. / Clinical reports are usually written in natural language due to its descriptive power and ease of communication among specialists. Processing data for knowledge discovery and statistical analysis requires information retrieval techniques, already established for newswire texts, but still rare in the medical subdomain. The present work aims at developing an automated classifier of pathology reports, which should be able to infer the topography and the morphology classes of a cancer using codes of the International Classification of Diseases for Oncology (ICD-O). Data provided by the A.C. Camargo Cancer Center located in Sao Paulo was used for training and validation. Techniques of natural language processing (NLP) and Bayes classifiers were used in search for information retrieval quality, evaluated by F2-score. Measures upper than 74% in the topographic group and 61% in the morphologic group are reported, with small contribution from NLP or smoothing techniques. The results agree with similar studies and show that a retraining of NLP tools in the medical domain is necessary.
|
88 |
Um estudo sobre a Teoria da Predição aplicada à análise semântica de Linguagens Naturais. / A study on the Theory of Prediction applied to the semantical analysis of Natural Languages.Chaer, Iúri 18 February 2010 (has links)
Neste trabalho, estuda-se o aprendizado computacional como um problema de indução. A partir de uma proposta de arquitetura de um sistema de análise semântica de Linguagens Naturais, foram desenvolvidos e testados individualmente os dois módulos necessários para a sua construção: um pré-processador capaz de mapear o conteúdo de textos para uma representação onde a semântica de cada símbolo fique explícita e um módulo indutor capaz de gerar teorias para explicar sequências de eventos. O componente responsável pela indução de teorias implementa uma versão restrita do Preditor de Solomonoff, capaz de tecer hipóteses pertencentes ao conjunto das Linguagens Regulares. O dispositivo apresenta complexidade computacional elevada e tempo de processamento, mesmo para entradas simples, bastante alto. Apesar disso, são apresentados resultados novos interessantes que mostram seu desempenho funcional. O módulo pré-processador do sistema proposto consiste em uma implementação da Análise da Semântica Latente, um método que utiliza correlações estatísticas para obter uma representação capaz de aproximar relações semânticas similares às feitas por seres humanos. Ele foi utilizado para indexar os mais de 470 mil textos contidos no primeiro disco do corpus RCV1 da Reuters, produzindo, a partir de dezenas de variações de parâmetros, 71;5GB de dados que foram utilizados para diversas análises estatísticas. Foi construído também um sistema de recuperação de informações para análises qualitativas do método. Os resultados dos testes levam a crer que o uso desse módulo de pré-processamento leva a ganhos consideráveis no sistema proposto. A integração dos dois componentes em um analisador semântico de Linguagens Naturais se mostra, neste momento, inviável devido ao tempo de processamento exigido pelo módulo indutor e permanece como uma tarefa para um trabalho futuro. No entanto, concluiu-se que a Teoria da Predição de Solomonoff é adequada para tratar o problema da análise semântica de Linguagens Naturais, contanto que sejam concebidas formas de mitigar o problema do seu tempo de computação. / In this work, computer learning is studied as a problem of induction. Starting with the proposal of an architecture for a system of semantic analisys of Natural Languages, the two modules necessary for its construction were built and tested independently: a pre-processor, capable of mapping the contents of texts to a representation in which the semantics of each symbol is explicit, and an inductor module, capable of formulating theories to explain chains of events. The component responsible for the induction of theories implements a restricted version of the Solomonoff Predictor, capable of producing hypotheses pertaining to the set of Regular Languages. Such device presents elevated computational complexity and very high processing time even for very simple inputs. Nonetheless, this work presents new and interesting results showing its functional performance. The pre-processing module of the proposed system consists of an implementation of Latent Semantic Analisys, a method which draws from statistical correlation to build a representation capable of approximating semantical relations made by human beings. It was used to index the more than 470 thousand texts contained in the first disk of the Reuters RCV1 corpus, resulting, through dozens of parameter variations, 71:5GB of data that were used for various statistical analises. The test results are convincing that the use of that pre-processing module leads to considerable gains in the system proposed. The integration of the two components built into a full-fledged semantical analyser of Natural Languages presents itself, at this moment, unachievable due to the processing time required by the inductor module, and remains as a task for future work. Still, Solomonoffs Theory of Prediction shows itself adequate for the treatment of semantical analysis of Natural Languages, provided new ways of palliating its processing time are devised.
|
89 |
Levenshtein distance for information extraction in databases and for natural language processing.Bruno Woltzenlogel Paleo 21 December 2007 (has links)
While performing information extraction or natural language processing tasks, one usually encounters problems when working with data or texts containing noise, typing mistakes or other different kinds of errors. In this thesis we investigate the use of modified Levenshtein edit distances to deal with these problems in two specific tasks. The first one is the record linkage in databases where distinct records can be representing the same entity. For this task we used and extended the WEKA API for Machine Learning and we were able to show that a modified Levenshtein distance provides good precision and recall results in the detection of records representing the same entities. The second task is the search and annotation of occurrences of specified words in texts written in natural language. Our main result in this task was the implementation of an approximate Gazetteer for GATE, the General Architecture for Text Engineering.
|
90 |
ProS4 - provador automático de teoremas para a lógica modal S4Marcelo Rodrigues de Souza 01 August 1993 (has links)
A Logica Modal tem sido utilizada em Ciencia da Computacao no tratamento de crencas, conhecimento, processamento de linguagem natural, analise de sistemas distribuidos, verificacao de programas concorrentes e paralelos, e raciocinio temporal. Estas aplicacoes requerem o desenvolvimento de provadores automaticos de teoremas para os sistemas modais utilizados nas suas formalizacoes. Este trabalho nas suas formalizacoes. Este trabalho apresenta a implementacao de um provador de teoremas para o sistema modal S4, denominado ProS4. Utilizam-se os tableaux semanticos de Fitting, sendo introduzidas novas heuristicas e estruturas de dados que fazemo provador ser eficiente, sem perder a decidibilidade. Na verificacao da validade ou nao de uma formula modal, o provador apresenta a demonstracao ou o modelo falsificador da formula em questao. O ProS4 pode ser extendido a Logica Temporal Linear de Programas, atraves da adicao do operador proximo (next) e linearizacao na geracao de novos mundos.
|
Page generated in 0.0443 seconds