Spelling suggestions: "subject:"processamento dda linguagem batural"" "subject:"processamento dda linguagem datural""
81 |
Agrupamento semântico de aspectos para mineração de opinião / Semantic clustering of aspects for opinion miningVargas, Francielle Alves 29 November 2017 (has links)
Com o rápido crescimento do volume de informações opinativas na web, extrair e sintetizar conteúdo subjetivo e relevante da rede é uma tarefa prioritária e que perpassa vários domínios da sociedade: político, social, econômico, etc. A organização semântica desse tipo de conteúdo, é uma tarefa importante no contexto atual, pois possibilita um melhor aproveitamento desses dados, além de benefícios diretos tanto para consumidores quanto para organizações privadas e governamentais. A área responsável pela extração, processamento e apresentação de conteúdo subjetivo é a mineração de opinião, também chamada de análise de sentimentos. A mineração de opinião é dividida em níveis de granularidade de análise: o nível do documento, o nível da sentença e o nível de aspectos. Neste trabalho, atuou-se no nível mais fino de granularidade, a mineração de opinião baseada em aspectos, que consiste de três principais tarefas: o reconhecimento e agrupamento de aspectos, a extração de polaridade e a sumarização. Aspectos são propriedades do alvo da opinião e podem ser implícitos e explícitos. Reconhecer e agrupar aspectos são tarefas críticas para mineração de opinião, no entanto, também são desafiadoras. Por exemplo, em textos opinativos, usuários utilizam termos distintos para se referir a uma mesma propriedade do objeto. Portanto, neste trabalho, atuamos no problema de agrupamento de aspectos para mineração de opinião. Para resolução deste problema, optamos por uma abordagem baseada em conhecimento linguístico. Investigou-se os principais fenômenos intrínsecos e extrínsecos em textos opinativos a fim de encontrar padrões linguísticos e insumos acionáveis para proposição de métodos automáticos de agrupamento de aspectos correlatos para mineração de opinião. Nós propomos, implementamos e comparamos seis métodos automáticos baseados em conhecimento linguístico para a tarefa de agrupamento de aspectos explícitos e implícitos. Um método inédito foi proposto para essa tarefa que superou os demais métodos implementados, especialmente o método baseado em léxico de sinônimos (baseline) e o modelo estatístico com base em word embeddings. O método proposto também não é dependente de uma língua ou de um domínio, no entanto, focamos no Português do Brasil e no domínio de produtos da web. / With the growing volume of opinion information on the web, extracting and synthesizing subjective and relevant content from the web has to be shown a priority task that passes through different society domains, such as political, social, economical, etc. The semantic organization of this type of content is very important nowadays since it allows a better use of those data, as well as it benefits customers and both private and governmental organizations. The area responsible for extracting, processing and presenting the subjective content is opinion mining, also known as sentiment analysis. Opinion mining is divided into granularity levels: document, sentence and aspect levels. In this research, the deepest level of granularity was studied, the opinion mining based on aspects, which consists of three main tasks: aspect recognition and clustering, polarity extracting, and summarization. Aspects are the properties and parts of the evaluated object and it may be implicit or explicit. Recognizing and clustering aspects are critical tasks for opinion mining; nonetheless, they are also challenging. For example, in reviews, users use distinct terms to refer to the same object property. Therefore, in this work, the aspect clustering task was the focus. To solve this problem, a linguistic approach was chosen. The main intrinsic and extrinsic phenomena in reviews were investigated in order to find linguistic standards and actionable inputs, so it was possible to propose automatic methods of aspect clustering for opinion mining. In addition, six automatic linguistic-based methods for explicit and implicit aspect clustering were proposed, implemented and compared. Besides that, a new method was suggested for this task, which surpassed the other implemented methods, specially the synonym lexicon-based method (baseline) and a word embeddings approach. This suggested method is also language and domain independent and, in this work, was tailored for Brazilian Portuguese and products domain.
|
82 |
Análise de sentimento contextual em diálogos utilizando aprendizado de máquina /Ribeiro, Luiz Carlos Felix January 2019 (has links)
Orientador: João Paulo Papa / Banca: Helena de Medeiros Caseli / Banca: Aparecido Nilceu Marana / Resumo: A disponibilidade cada vez maior de dados em domínio textual tem motivado o desenvolvimento de técnicas baseadas em Processamento de Linguagem Natural para extrair informações estruturadas desse meio. Particularmente,técnicas de Análise de Sentimento permitem identificar a emoção presente em um fragmento de texto e podem ser utilizadas para diferentes fins, seja priorizar o atendimento de clientes insatisfeitos ou aferir o satisfação do interlocutor durante uma conversa. No que concerne ao uso desse tipo de técnica em diálogos, trabalhos na literatura mostram que considerar informações extraídas de mensagens antecessoras para classificar a atual leva a melhores resultados, seja para a identificação de interlocutores ou intenção das mensagens. Todavia, essa abordagem ainda não tem sido largamente empregada para a Análise de Sentimento e, quando utilizada, a mesma não alia a robustez dos word embeddings, técnica desenvolvida recentemente, com os rótulos preditos no passado, mas considera apenas o histórico de características extraídas anteriormente. O presente trabalho propõe o desenvolvimento de um modelo baseado em aprendizado de máquina para a Análise de Sentimento em conversas no domínio textual ao levar em consideração seu contexto. Essa fonte de informação pode ser explorada ao considerar rótulos de mensagens anteriores, suas características, a identidade dos interlocutores e como as palavras são combinadas em cada mensagem. Resultados experimentais mostram que estes aspectos... / Abstract: The increasing availability of data in the textual domain has motivated the development of techniques based on Natural Language Processing to extract structured information from this domain. More specifically, Sentiment Analysis allows identifying the emotion present in a fragment of text and can be used with different goals, for instance, prioritizing the service of dissatisfied customers and assessing the interlocutor satisfaction in a conversation. Regarding the use of this type of technique in dialogues, works in the literature show that considering information extracted from previous messages when classifying the current sample leads to better results, either for identification of interlocutors or for message intent classification. However, this approach has not been widely adopted on Sentiment Analysis and when used it does not exploit the robustness of there cently developed word embeddings representation along with the labels predicted in the past but only the history of features previously extracted. The present work proposes the development of a machine learning model for Sentiment Analysis on textual conversations that considers their context. This source of information can be exploited by considering labels from previous messages and their features, the identity of the speakers, and how words are combined in each message. Experimental results show that these aspects allow outperforming the current state of the art on four different datasets / Mestre
|
83 |
Identificação de diagnósticos contidos em narrativas clínicas e mapeamento para a classificação internacional de doenças / Hugo Bulegon ; orientadora, Claudia Maria Cabral Moro BarraBulegon, Hugo January 2011 (has links)
Dissertação (mestrado) - Pontifícia Universidade Católica do Paraná, Curitiba, 2011 / Bibliografia: f. 64-67 / Durante o atendimento de pacientes são registradas algumas informações no prontuário na forma de textos, que são denominadas narrativas clínicas. A utilização das informações contidas nestas narrativas é restrita, uma vez que é muito difícil identificá-la / During patient treatment some information are registered in text format into medical records, named clinical narratives. The use of information from these narratives is restrained once it's very difficult to identify them automatically. Diagnoses are one
|
84 |
Métodos de mineração de dados para extração de conhecimento em bioinformática: aplicação em dados de Geminivirus e predição de novas proteínas ribossomais / Data mining methods for knowledge extraction in bioinformatics: Application on Geminivirus data and prediction of new ribosomal pro-teinsCarvalho, Thales Francisco Mota 25 July 2016 (has links)
Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-10T10:24:21Z
No. of bitstreams: 1
texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) / Made available in DSpace on 2017-02-10T10:24:21Z (GMT). No. of bitstreams: 1
texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5)
Previous issue date: 2016-07-25 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A mineração de dados (DM, do inglês data mining) é um processo de des- coberta de padrões que permite extrair informação e conhecimento em grandes volumes de dados. Suas principais técnicas se baseiam em predição, classificação e agrupamento (clustering). Estas técnicas têm sido utilizadas na bioinformá- tica para classificar o perfil de expressão gênica, encontrar padrões em sequências de DNA, avaliar a estrutura do dobramento de proteínas, entre outras aplicações. Neste trabalho, avançadas técnicas de DM foram aplicadas para o desenvolvimento de um Data Warehouse específica para geminivírus (geminivirus.org), a fim de au- xiliar na organização, correção e normalização de dados referentes a geminivírus. Neste Data Warehouse também foram propostas metodologias baseadas em regras e aprendizado de máquina (ML) que classificam as sequências de DNA e seus ge- nes. A família Geminiviridae é composta por pequenos vírus de DNA circular de fita simples que infectam uma grande variedade de plantas e causam sérios danos econômicos ao redor do mundo. O aprimoramento da amplificação do DNA viral e de técnicas de sequenciamento permitiram um enorme crescimento de dados em banco de dados públicos. Simultaneamente, ocorreu o crescimento no volume de publicações relacionadas a esta família. Desta forma, numa segunda linha de tra- balho surgiu a necessidade de aplicar as técnicas de DM, seguindo o processo de KDD (knowledge-discovery in databases) para extrair informações desses dados. Além disso, técnicas de Processamento de Linguagem Natural (NLP) foram utili- zadas para extrair informação em resumos de artigos relacionados a geminivírus. Assim, o acervo científico pode ser explorado de maneira contextualizada. Final- mente, uma terceira frente de trabalho em mineração de dados foi empreendida, desta vez direcionada à descoberta de proteínas ribossomais. Pesquisas recentes têm demonstrado que plantas suprimem o mecanismo global de tradução como uma estratégia de imunidade antiviral. Entretanto, poucas proteínas ribossomais são mencionadas a integrarem vias do mecanismo de defesa das plantas. As pro- teínas ribossomais (RPs) desempenham um papel fundamental em células vivas, pois são o principal componente dos ribossomos. Além disso, estas proteínas estão envolvidas em vários processos fisiológicos e patológicos. Assim, foi desenvolvido um método de aprendizado de máquina capaz de identificar novas proteínas ri- bossomais, designado Rama. O Rama utiliza abordagens inovadoras em relação aos métodos computacionais atualmente existentes. Em experimentos in silico, o Rama obteve resultados médios de precisão, acurácia, sensitividade e especifici- dade de 0.9203, 0.9214, 0.9214 e 0.8236, respectivamente. Ademais, duas proteínas não caracterizadas foram preditas como RPs pelo Rama e experimentos in vitro confirmaram a veracidade do resultado, ao passo que as metodologias atuais não conseguem lograr o mesmo sucesso. / Data mining (DM) is a pattern discovery process that can extract information and knowledge in large volumes of data. Its main techniques are based on prediction, classification, and clustering. These techniques have been used in bioinformatics to identify gene expression profiles, find patterns in DNA sequences, evaluate protein folding structure, among other applications. In this work, advanced techniques of DM were applied to the development of a specific Data Warehouse for geminivi- ruses (geminivirus.org) to assist in organization, correction, and normalization of data related to geminivirus. In this Data Warehouse, we also propose methodo- logies based on rules and machine learning (ML) to classify DNA sequences and their genes. The Geminiviridae family consists of small circular single-stranded DNA viruses which infect a wide variety of plants and cause serious economic losses wordwide. Improvements in amplification of viral DNA and sequencing techniques have led to an enormous growth of public databases. Thus, in a second endeavor in this work, we realized the need to apply DM techniques, following the process of KDD (knowledge-discovery in databases), to extract yet-unknown information. Furthermore, natural language processing techniques (NLP) were used to extract information in abstracts of paper related to geminivirus. In this way, the scientific literature can be explored in a contextualized manner. Finally, a third effort using data mining approaches was carried out, this time directed to the identification of new ribosomal proteins. Recent research has shown that plants suppress the ove- rall mechanism of translation as a strategy for antiviral immunity. However, few ribosomal proteins are referred to integrate pathways of plant defense mechanisms. Ribosomal proteins (RPs) have a fundamental role in living cells, as they are the main component of ribosomes. Furthermore, these proteins are involved in various physiological and pathological processes. Therefore, we developed a ML method to identify new ribosomal proteins, called Rama. Rama uses innovative approaches in comparison to currently existing computational methods. In in silico experiments, Rama presented average results of precision, accuracy, sensitivity, and specificity of 0.9203, 0.9214, 0.9214, and 0.8236, respectively. In addition, two proteins not yet characterized were predicted as RPs by Rama, whereas other methods could not achieve the same success. In vitro experiments confirmed the veracity of our result.
|
85 |
Um método de identificação de emoções em textos curtos para o português do Brasil / Barbara Martinazzo ; orientador, Emerson Cabrera ParaisoMartinazzo, Barbara January 2010 (has links)
Dissertação (mestrado) - Pontifícia Universidade Católica do Paraná, Curitiba, 2010 / Bibliografia: f.[53-57] / Os avanços recentes na análise automática de textos conduziram ao surgimento de uma área responsável por reconhecimento de aspectos subjetivos, tais como opiniões, sentimentos e emoções do autor do texto analisado. Pesquisas nessa área remetem ao desenvol / Recent advances in texts analysis lead to the emergence of a new area responsible for the recognition of subjective aspects, such as opinions, feelings and emotions in texts. Research in this area refer to the development of methods to allow computational
|
86 |
Uma interface de reconhecimento de voz para o sistema de gerenciamento de central de informação de fretesHugo, Marcel January 1995 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnologico / Made available in DSpace on 2016-01-08T19:32:58Z (GMT). No. of bitstreams: 1
101794.pdf: 1760262 bytes, checksum: ae028de8257318f1b36cc1b9a9b36c5b (MD5)
Previous issue date: 1995 / A necessidade da evolução das interfaces homem-máquina gerou uma série de pesquisas na área de reconhecimento de padrões, procurando tornar naturais estas interfaces. A tarefa de reconhecimento de voz, realizada por computadores digitais, vem sendo pesquisada e desenvolvida nas últimas décadas, buscando alcançar o modo mais natural de comunicação humana - a fala. Este trabalho demonstra a viabilidade e potencialidade dos sistemas a um comando falado por um usuário. Ele se utiliza das técnicas de redes neurais artificiais para realizar o reconhecimento das palavras faladas. A interface de voz construída para reconhecer as palavras, que operam um protótipo do sistema gerenciador de central de informação de fretes (SGCIF) em Windows aplica o modelo de rede neural Kohonen, alcançando uma taxa média de acerto de 84,84% no reconhecimento.
|
87 |
Desenvolvimento de uma metodologia de interpretação, recuperaçãoAlexandrini, Fábio January 2005 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-graduação em Engenharia de Produção / Made available in DSpace on 2013-07-16T00:10:40Z (GMT). No. of bitstreams: 1
213863.pdf: 1072993 bytes, checksum: 61e1ce130920cc09bc56dc0eece1546c (MD5) / A rotina médica gera diversos registros para documentar o estado de saúde dos pacientes, em papel ou em sistemas informatizados de hospitais e clínicas que, normalmente, têm maior enfoque no controle administrativo e financeiro, relegando ao segundo plano os dados do prontuário que ficam registrados em arquivos ou em campos de texto, sem estruturação. Atualmente, existem padrões de armazenamento de informações médicas que permitem estruturação e manipulação adequada dos prontuários eletrônicos de paciente que permitem a interoperabilidade de informações. Visando resgatar os registros antigos e estruturá-los em padrões de armazenamento internacionais. Este trabalho centra-se na elaboração de uma metodologia para interpretação, recuperação e codificação inteligente de laudos médicos utilizando técnicas de PLN - Processamento de Linguagem Natural combinadas com terminologias médicas internacionais. Descreve uma ferramenta de software que recupera e interpreta laudos médicos em padrão texto, baseando-se na nomenclatura SNOMED (Systematized Nomeclature of Medicine) para estruturação desses laudos visando à integração com softwares de edição de Laudos Estruturados baseado no DICOM SR-Structured Report.
|
88 |
Uma ferramenta de apoio ao processo de aprendizagem de algoritmosMiranda, Elisangela Maschio de January 2004 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-graduação em Ciência da Computação / Made available in DSpace on 2012-10-21T10:25:32Z (GMT). No. of bitstreams: 1
209429.pdf: 929111 bytes, checksum: 404ea2adc357f0d706056c15195dd9c0 (MD5)
|
89 |
Uma aplicação do processamento de linguagem natural na modelagem conceitual de sistemas de informaçãoDiniz, Paulo Ricardo Torres January 2002 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-20T03:19:03Z (GMT). No. of bitstreams: 1
212914.pdf: 2233475 bytes, checksum: 13e75ff2b3e8bd78e03fc55f786971c3 (MD5) / O início do ensino da disciplina de Banco de Dados mostra-se muitas vezes frustrante, tanto para o aluno quanto para o professor, em virtude da falta de técnicas que auxiliem o discente a formatar textos de levantamento de dados, que se mostram, na maioria das vezes, dúbios e redundantes. Este trabalho visa rever as metodologias e técnicas existentes hoje para este objetivo, culminando em propor a criação de um software de auxilio que possibilite ao aluno desenvolver seu texto de levantamento de dados seguindo especificamente a técnica de Lista-Diagrama e ainda indique possíveis falhas, utilizando para isso a teoria do processamento de linguagem natural.
|
90 |
Polyset: modelo linguístico-computacional para a estruturação de redes de polissemia de nominaisAlves, Isa Mara da Rosa [UNESP] 01 October 2009 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:32:45Z (GMT). No. of bitstreams: 0
Previous issue date: 2009-10-01Bitstream added on 2014-06-13T20:43:56Z : No. of bitstreams: 1
alves_imr_dr_arafcl.pdf: 2416633 bytes, checksum: 3f83a7dad3093f9c7e134f02d1166b24 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Esta pesquisa visa a propor uma representação da polissemia de nominais compatível com sistemas computacionais; mais especificamente, o objetivo deste trabalho é incluir a especificação de relações de polissemia em bases wordnets, em especial, na WordNet.Br (DIAS-DA-SILVA, 1996, 1998, 2003). A metodologia do trabalho está baseada em Diasda- Silva (1996, 1998, 2003, 2006), abrangendo três domínios mutuamente complementares: o linguístico, o linguístico-computacional e o computacional. O domínio linguístico-computacional forneceu o tema para esta pesquisa e articulou a relação entre os domínios linguístico e computacional. Das investigações realizadas no cenário linguístico-computacional, destacamos a relevância da introdução de níveis distintos de generalidade entre os sentidos em uma base de dados de modo a otimizar o processamento lexical a ser realizada pelo sistema. Percebe-se que esse tipo de tarefa é ainda um desafio para as wordnets. Do cenário linguístico, destacamos que a Semântica Lexical Cognitiva foi considerada a teoria mais adequada aos propósitos desta tese. Olhar para o fenômeno do significado múltiplo sob o viés cognitivo possibilitou descrever os sentidos como uma entidade complexa, estruturada em termos de redes. As redes de polissemia sincrônicas, em sua configuração livre e multidimensional, conforme propõem Blank (2003) e Geeraerts (2006), demonstraram ser a estratégia descritiva mais adequada à representação da flexibilidade do sentido para os propósitos desta tese. Respondendo à fase aplicada dos domínios linguístico e linguísticocomputacional, propomos um modelo de representação denominado polyset. Os polysets são constructos estruturados em termos de redes de polissemia, de maneira que possibilitam representar diferentes níveis de generalidade entre os sentidos, diferentes graus de saliência e diferentes tipos... / This research aims at representing noun polysemy so that it can be useful to computational systems; more specifically, the subject of this work is the inclusion of specification of polysemy relations in wordnet bases, particularly in WordNet.Br (DIASDA- SILVA, 1996, 1998, 2003). The methodology has been based on Dias-da-Silva (1996, 1998, 2003, 2006), comprehending three mutually complementary domains: linguistic, computational-linguistic, and computational ones. The computational-linguistic domain has both provided the subject for this research and articulated the relationship between the linguistic domain and the computational domain. From the investigations carried out in the computational-linguistic scene, we have highlighted the relevance of the introduction of distinct levels of generality among meanings in a database, so as to reduce the amount of lexical processing to be carried out by the system. At the same time, that multiple representation provides the necessary information for a system that needs a higher degree of meaning detailing. This kind of task is still a challenge to wordnets. From the linguistic scene, we have highlighted that Cognitive Lexical Semantics has shown to be the most suitable theory for the purposes of this thesis. Regarding the phenomenon of the multiple meaning from the cognitive perspective has allowed for describing meanings as a complex entity, structured in terms of nets. The nets of synchronic polysemy, in their free, multidimensional configuration, as Blank (2003) and Geeraerts (2006) have proposed, have shown to be the most suitable descriptive strategy for the representation of the meaning flexibility for the purposes of this thesis. Answering to the applied phase of both the linguistic and computationallinguistic domains we have proposed a representation model called polyset. Polysets are constructs structured in terms of polysemy nets, allowing... (Complete abstract click electronic access below)
|
Page generated in 0.2796 seconds