Spelling suggestions: "subject:"processamento : linguagem natural"" "subject:"processamento : 1inguagem natural""
1 |
Metodologia Computacional para Identificação de Sintagmas Nominais da Língua PortuguesaMORELLATO, L. V. 08 January 2010 (has links)
Made available in DSpace on 2016-08-29T15:33:12Z (GMT). No. of bitstreams: 1
tese_3340_a13-furia.pdf: 1204054 bytes, checksum: 6bd0535e50d6ecfd469372fbce27e1a1 (MD5)
Previous issue date: 2010-01-08 / Sintagmas são unidades de sentido e com função sintática dentro de uma frase, [Nicola 2008]. De maneira geral, as frases que compõem qualquer enunciado expressam um conteúdo por meio dos elementos e das combinações desses elementos que a língua proporciona. Dessa forma, vão se formando conjuntos e subconjuntos que funcionam como unidades sintáticas dentro da unidade maior que é a frase -- os sintagmas, que podem ser divididos em: sintagmas nominais e verbais. Dentre esses, os nominais representam maior interesse devido ao maior valor semântico contido.
Os sintagmas nominais são utilizados em tarefas de Processamento de Linguagem Natural (PLN), como resolução de correferências (anáforas), construção automática de ontologias, em parses usados em textos médicos para geração de resumos e criação de vocabulário, ou ainda como uma etapa inicial em processos de análise sintática. Em Recuperação de Informação (RI) os sintagmas podem ser aplicados na criação de termos em sistemas de indexação e buscas de documentos, gerando resultados melhores.
Esta dissertação propõe uma metodologia computacional para identificação de sintagmas nominais da língua portuguesa em documentos digitais escritos em linguagem natural. Nesse trabalho, é explicitada a metodologia adotada para identificar e extrair sintagmas nominais por meio do desenvolvimento do SISNOP -- Sistema Identificador de Sintagmas Nominais do Português. O SISNOP é um sistema composto por um conjunto de módulos e programas, capaz de interpretar textos irrestritos disponíveis em linguagem natural, através de análises morfológicas e sintáticas, a fim de recuperar sintagmas nominais. Alem disso, são obtidas informações sintáticas, como gênero, número e grau das palavras contidas nos sintagmas extraídos.
O SISNOP testou, entre outros corpus, o CETENFolha, composto por mais 24 milhões de palavras, e o CETEMPúblico, com aproximadamente 180 milhões de palavras em português europeu, e muito utilizado em trabalhos da área. Foi obtido 98,12% e 94,59% de frases reconhecidas pelo sistema, obtendo mais de 24 milhões de sintagmas identificados. Os módulos do SISNOP: EM Etiquetador Morfológico, ISN Identificador de Sintagmas Nominais e IGNG Identificador de Gênero, Número e Grau, foram testados de maneira individual utilizando um conjunto de dados menor que o anterior, visto que, a análise dos resultados foi feita manualmente. O módulo identificador de sintagmas obteve precisão de 82,45% e abrangência de 69,20%.
|
2 |
COMFALA : modelo computacional do processo de compreensão da falaMuller, Daniel Nehme January 2006 (has links)
Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.
|
3 |
COMFALA : modelo computacional do processo de compreensão da falaMuller, Daniel Nehme January 2006 (has links)
Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.
|
4 |
COMFALA : modelo computacional do processo de compreensão da falaMuller, Daniel Nehme January 2006 (has links)
Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.
|
5 |
Detecting contrastive sentences for sentiment analysis / Detecção de sentenças contrastantes através de análise de sentimentosVargas, Danny Suarez January 2016 (has links)
A análise de contradições é uma área relativamente nova, multidisciplinar e complexa que tem por objetivo principal identificar pedaços contraditórios de texto. Ela pode ser abordada a partir das perspectivas de diferentes áreas de pesquisa, tais como processamento de linguagem natural, mineração de opinioes, recuperação de informações e extração de Informações. Este trabalho foca no problema de detectar contradições em textos – mais especificamente, nas contradições que são o resultado da diversidade de sentimentos entre as sentenças de um determinado texto. Ao contrário de outros tipos de contradições, a detecção de contradições baseada em sentimentos pode ser abordada como uma etapa de pós-processamento na tarefa tradicional de análise de sentimentos. Neste contexto, este trabalho apresenta duas contribuições principais. A primeira é um estudo exploratório da tarefa de classificação, na qual identificamos e usamos diferentes ferramentas e recursos. A segunda contribuição é a adaptação e a extensão de um framework de análise contradição existente, filtrando seus resultados para remover os comentários erroneamente rotulados como contraditórios. O método de filtragem baseia-se em dois algoritmos simples de similaridade entre palavras. Uma avaliação experimental em comentários sobre produtos reais mostrou melhorias proporcionais de até 30 % na acurácia da classificação e 26 % na precisão da detecção de contradições. / Contradiction Analysis is a relatively new multidisciplinary and complex area with the main goal of identifying contradictory pieces of text. It can be addressed from the perspectives of different research areas such as Natural Language Processing, Opinion Mining, Information Retrieval, and Information Extraction. This work focuses on the problem of detecting sentiment-based contradictions which occur in the sentences of a given review text. Unlike other types of contradictions, the detection of sentiment-based contradictions can be tackled as a post-processing step in the traditional sentiment analysis task. In this context, we make two main contributions. The first is an exploratory study of the classification task, in which we identify and use different tools and resources. Our second contribution is adapting and extending an existing contradiction analysis framework by filtering its results to remove the reviews that are erroneously labeled as contradictory. The filtering method is based on two simple term similarity algorithms. An experimental evaluation on real product reviews has shown proportional improvements of up to 30% in classification accuracy and 26% in the precision of contradiction detection.
|
6 |
Avaliando um rotulador estatístico de categorias morfo-sintáticas para a língua portuguesa / Evaluating a stochastic part-of-speech tagger for the portuguese languageVillavicencio, Aline January 1995 (has links)
O Processamento de Linguagem Natural (PLN) é uma área da Ciência da Computação, que vem tentando, ao longo dos anos, aperfeiçoar a comunicação entre o homem e o computador. Varias técnicas tem sido utilizadas para aperfeiçoar esta comunicação, entre elas a aplicação de métodos estatísticos. Estes métodos tem sido usados por pesquisadores de PLN, com um crescente sucesso e uma de suas maiores vantagens é a possibilidade do tratamento de textos irrestritos. Em particular, a aplicação dos métodos estatísticos, na marcação automática de "corpus" com categorias morfo-sintáticas, tem se mostrado bastante promissora, obtendo resultados surpreendentes. Assim sendo, este trabalho descreve o processo de marcação automática de categorias morfo-sintáticas. Inicialmente, são apresentados e comparados os principais métodos aplicados a marcação automática: os métodos baseados em regras e os métodos estatísticos. São descritos os principais formalismos e técnicas usadas para esta finalidade pelos métodos estatísticos. E introduzida a marcação automática para a Língua Portuguesa, algo até então inédito. O objetivo deste trabalho é fazer um estudo detalhado e uma avaliação do sistema rotulador de categorias morfo-sintáticas, a fim de que se possa definir um padrão no qual o sistema apresente a mais alta precisão possível. Para efetuar esta avaliação, são especificados alguns critérios: a qualidade do "corpus" de treinamento, o seu tamanho e a influencia das palavras desconhecidas. A partir dos resultados obtidos, espera-se poder aperfeiçoar o sistema rotulador, de forma a aproveitar, da melhor maneira possível, os recursos disponíveis para a Língua Portuguesa. / Natural Language Processing (NLP) is an area of Computer Sciences, that have been trying to improve communication between human beings and computers. A number of different techniques have been used to improve this communication and among them, the use of stochastic methods. These methods have successfully being used by NLP researchers and one of their most remarkable advantages is that they are able to deal with unrestricted texts. Namely, the use of stochastic methods for part-of-speech tagging has achieving some extremely good results. Thus, this work describes the process of part-of-speech tagging. At first, we present and compare the main tagging methods: the rule-based methods and the stochastic ones. We describe the main stochastic tagging formalisms and techniques for part-of-speech tagging. We also introduce part-of-speech tagging for the Portuguese Language. The main purpose of this work is to study and evaluate a part-of-speech tagger system in order to establish a pattern in which it is possible to achieve the greatest accuracy. To perform this evaluation, several parameters were set: the corpus quality, its size and the relation between unknown words and accuracy. The results obtained will be used to improve the tagger, in order to use better the available Portuguese Language resources.
|
7 |
Detecting contrastive sentences for sentiment analysis / Detecção de sentenças contrastantes através de análise de sentimentosVargas, Danny Suarez January 2016 (has links)
A análise de contradições é uma área relativamente nova, multidisciplinar e complexa que tem por objetivo principal identificar pedaços contraditórios de texto. Ela pode ser abordada a partir das perspectivas de diferentes áreas de pesquisa, tais como processamento de linguagem natural, mineração de opinioes, recuperação de informações e extração de Informações. Este trabalho foca no problema de detectar contradições em textos – mais especificamente, nas contradições que são o resultado da diversidade de sentimentos entre as sentenças de um determinado texto. Ao contrário de outros tipos de contradições, a detecção de contradições baseada em sentimentos pode ser abordada como uma etapa de pós-processamento na tarefa tradicional de análise de sentimentos. Neste contexto, este trabalho apresenta duas contribuições principais. A primeira é um estudo exploratório da tarefa de classificação, na qual identificamos e usamos diferentes ferramentas e recursos. A segunda contribuição é a adaptação e a extensão de um framework de análise contradição existente, filtrando seus resultados para remover os comentários erroneamente rotulados como contraditórios. O método de filtragem baseia-se em dois algoritmos simples de similaridade entre palavras. Uma avaliação experimental em comentários sobre produtos reais mostrou melhorias proporcionais de até 30 % na acurácia da classificação e 26 % na precisão da detecção de contradições. / Contradiction Analysis is a relatively new multidisciplinary and complex area with the main goal of identifying contradictory pieces of text. It can be addressed from the perspectives of different research areas such as Natural Language Processing, Opinion Mining, Information Retrieval, and Information Extraction. This work focuses on the problem of detecting sentiment-based contradictions which occur in the sentences of a given review text. Unlike other types of contradictions, the detection of sentiment-based contradictions can be tackled as a post-processing step in the traditional sentiment analysis task. In this context, we make two main contributions. The first is an exploratory study of the classification task, in which we identify and use different tools and resources. Our second contribution is adapting and extending an existing contradiction analysis framework by filtering its results to remove the reviews that are erroneously labeled as contradictory. The filtering method is based on two simple term similarity algorithms. An experimental evaluation on real product reviews has shown proportional improvements of up to 30% in classification accuracy and 26% in the precision of contradiction detection.
|
8 |
Investigando a influência de fatores linguísticos na organização lexical de verbos / Investigating the influence of linguistic factors in the lexical organization of verbsGermann, Daniel Cerato January 2010 (has links)
Esta dissertação utiliza simulações computacionais visando investigar a influência de alguns fatores lingüísticos na organização lexical de verbos, analisando os processos de aquisição e uso. Os fatores testados são: freqüência de observação na linguagem, polissemia e complexidade sintática. Os dados utilizados foram obtidos por meio de tarefas psicolingüísticas de nomeação de ações, realizadas por crianças e adultos (falantes do Português brasileiro), posteriormente representados como grafos. Com base nos fatores lingüísticos, foram formuladas hipóteses relativas ao desenvolvimento da língua, testadas por meio de simulações computacionais denominadas ‘involuções’. Os testes incluem métricas da teoria dos grafos e medidas de similaridade de conjuntos (coeficiente de Jaccard e suas componentes). Os resultados obtidos apontam para uma confirmação das hipóteses formuladas. Adicionalmente, permitiram verificar algumas características do desenvolvimento lingüístico, como o aumento do vocabulário e uma progressiva especialização. / This dissertation uses computational simulations designed to investigate the influence of three linguistic factors in the lexical organization of verbs, analyzing the process of acquisition and use. The tested factors are: frequency of observation in the language, polysemy and syntactic complexity. The data used were obtained from psycholinguistic action naming tasks performed by children and adults (speakers of Brazilian Portuguese), and subsequently represented as graphs. Based on linguistic factors, hypotheses were formulated concerning the development of language, tested through simulations called ‘involutions’. Tests include graph theory metrics and set similarity measures (Jaccard’s coefficient and its components). Results suggest a confirmation of the given hypotheses. Additionally, allowed verification of some language development features, such as vocabulary growth and a progressive specialization.
|
9 |
Extração multilíngue de termos multipalavra em corpora comparáveisPrestes, Kassius Vargas January 2015 (has links)
Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês. / This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English.
|
10 |
Identificação e tratamento de expressões multipalavras aplicado à recuperação de informação / Identification and treatment of multiword expressions applied to information retrievalAcosta, Otavio Costa January 2011 (has links)
A vasta utilização de Expressões Multipalavras em textos de linguagem natural requer atenção para um estudo aprofundado neste assunto, para que posteriormente seja possível a manipulação e o tratamento, de forma robusta, deste tipo de expressão. Uma Expressão Multipalavra costuma transmitir precisamente conceitos e ideias que geralmente não podem ser expressos por apenas uma palavra e estima-se que sua frequência, em um léxico de um falante nativo, seja semelhante à quantidade de palavras simples. A maioria das aplicações reais simplesmente ignora ou lista possíveis termos compostos, porém os identifica e trata seus itens lexicais individualmente e não como uma unidade de conceito. Para o sucesso de uma aplicação de Processamento de Linguagem Natural, que envolva processamento semântico, é necessário um tratamento diferenciado para essas expressões. Com o devido tratamento, é investigada a hipótese das Expressões Multipalavras possibilitarem uma melhora nos resultados de uma aplicação, tal como os sistemas de Recuperação de Informação. Os objetivos desse trabalho estão voltados ao estudo de técnicas de descoberta automática de Expressões Multipalavras, permitindo a criação de dicionários, para fins de indexação, em um mecanismo de Recuperação de Informação. Resultados experimentais apontaram melhorias na recuperação de documentos relevantes, ao identificar Expressões Multipalavras e tratá-las como uma unidade de indexação única. / The use of Multiword Expressions (MWE) in natural language texts requires a detailed study, to further support in manipulating and processing, robustly, these kinds of expression. A MWE typically gives concepts and ideas that usually cannot be expressed by a single word and it is estimated that the number of MWEs in the lexicon of a native speaker is similar to the number of single words. Most real applications simply ignore them or create a list of compounds, treating and identifying them as isolated lexical items and not as an individual unit. For the success of a Natural Language Processing (NLP) application, involving semantic processing, adequate treatment for these expressions is required. In this work we investigate the hypothesis that an appropriate identification of Multiword Expressions provide better results in an application, such as Information Retrieval (IR). The objectives of this work are to compare techniques of MWE extraction for creating MWE dictionaries, to be used for indexing purposes in IR. Experimental results show qualitative improvements on the retrieval of relevant documents when identifying MWEs and treating them as a single indexing unit.
|
Page generated in 0.1267 seconds