Global ETD Search

1	Ambiente de análise de sentimentos baseado em domínio Koblitz, Leonardo Falcão, Instituto de Engenharia Nuclear 12 1900 (has links) Submitted by Marcele Costal de Castro (costalcastro@gmail.com) on 2017-10-10T17:05:05Z No. of bitstreams: 1 LEONARDO FALCAO KOBLITZ _D.pdf: 998698 bytes, checksum: a51748c3ce87730fc510c7a4f4daba34 (MD5) / Made available in DSpace on 2017-10-10T17:05:05Z (GMT). No. of bitstreams: 1 LEONARDO FALCAO KOBLITZ _D.pdf: 998698 bytes, checksum: a51748c3ce87730fc510c7a4f4daba34 (MD5) Previous issue date: 2010-12 / Cada vez mais as pessoas colocam suas opiniões e sentimentos em diversos tipos de serviços disponíveis na Web. Sites de microblogging como o twitter, redes sociais ou fóruns têm se tornado o meio comum para elas se expressarem. Elas colocam de forma espontânea, gratuita e em tempo real, opiniões sobre os mais diferentes assuntos. A análise destes dados constitui uma fonte importante e rica para se entender e se antecipar às expectativas e frustrações das pessoas a respeito de um produto, um serviço ou mesmo sobre pessoas ou fatos. Entretanto, cada domínio ou serviço de Internet tem suas peculiaridades. Jargões específicos de um domínio, gírias ou mesmo características próprias dos serviços para as pessoas colocarem as suas opiniões diferem de maneira significativa, o que compromete a utilização de sistemas de aprendizado de máquina desenvolvidos anteriormente para outros domínios. Com isto em mente, foi proposta uma estratégia para permitir a análise de sentimentos baseada em domínio, a qual estabelece os passos para se montar rapidamente um ambiente de análise de sentimentos e conteúdo de acordo com o domínio sendo examinado. Esta estratégia contempla desde o processo de anotação do corpus, os passos necessários para a criação de anotações de acordo com o domínio, criação de léxicos semânticos e o desenvolvimento e validação dos classificadores. Para testar esta estratégia foi desenvolvido o sistema JULGAR, cujo núcleo está baseado no ambiente computacional GATE utilizado para o processamento de linguagem natural. / More and more people show their opinion and feelings at several available Web services. Microblogging sites, such as the twitter, social networks or forums have become the ordinary media for these people to express themselves. In real time, they say spontaneously and at no cost what they think about different matters. These data analysis is an important resource to understand and to know in advance people's expectations and frustrations about a product, a service and even people or facts. However, each Internet site or service has its own characteristics. Sites' specific jargons, slangs or even specific characteristics of services where persons express their opinions don't have a pattern, making difficult the use of learning systems previously developed for other sites. For this purpose a strategy was proposed a strategy that allows the analysis of feelings based on site and that establishes steps to quickly create an environment for the analysis of feelings according to the site being examined.This strategy comprises making notes on the corpus, the necessary steps for creating annotations according to the site, lexical semantic creation and the development and validation of the classifiers. In order to test this strategy, it was developed the JULGAR system, whose core is based on the computational environment GATE, which is employed for the processing of natural language. Análise de sentimentos Mineração de textos Adaptação de domínio
2	Aspect extraction in sentiment analysis for portuguese language / Extração de aspectos em análise de sentimentos para língua portuguesa Balage Filho, Pedro Paulo 29 August 2017 (has links) Aspect-based sentiment analysis is the field of study which extracts and interpret the sentiment, usually classified as positive or negative, towards some target or aspect in an opinionated text. This doctoral dissertation details an empirical study of techniques and methods for aspect extraction in aspect-based sentiment analysis with the focus on Portuguese. Three different approaches were explored: frequency-based, relation-based and machine learning. In each one, this work shows a comparative study between a Portuguese and an English corpora and the differences found in applying the approaches. In addition, richer linguistic knowledge is also explored by using syntatic dependencies and semantic roles, leading to better results. This work lead to the establishment of new benchmarks for the aspect extraction in Portuguese. / A análise do sentimento orientada a aspectos é o campo de estudo que extrai e interpreta o sentimento, geralmente classificado como positivo ou negativo, em direção a algum alvo ou aspecto em um texto de opinião. Esta tese de doutorado detalha um estudo empírico de técnicas e métodos para extração de aspectos em análises de sentimentos baseadas em aspectos com foco na língua Portuguesa. Foram exploradas três diferentes abordagens: métodos baseados na frequências, métodos baseados na relação e métodos de aprendizagem de máquina. Em cada abordagem, este trabalho mostra um estudo comparativo entre um córpus para o Português e outro para o Inglês e as diferenças encontradas na aplicação destas abordagens. Além disso, o conhecimento linguístico mais rico também é explorado pelo uso de dependências sintáticas e papéis semânticos, levando a melhores resultados. Este trabalho resultou no estabelecimento de novos padrões de avaliação para a extração de aspectos em Português. Análise de Sentimentos Aspect-based sentiment analysis Mineração de Opiniões Opinion mining Sentiment analysis
3	Aspect extraction in sentiment analysis for portuguese language / Extração de aspectos em análise de sentimentos para língua portuguesa Pedro Paulo Balage Filho 29 August 2017 (has links) Aspect-based sentiment analysis is the field of study which extracts and interpret the sentiment, usually classified as positive or negative, towards some target or aspect in an opinionated text. This doctoral dissertation details an empirical study of techniques and methods for aspect extraction in aspect-based sentiment analysis with the focus on Portuguese. Three different approaches were explored: frequency-based, relation-based and machine learning. In each one, this work shows a comparative study between a Portuguese and an English corpora and the differences found in applying the approaches. In addition, richer linguistic knowledge is also explored by using syntatic dependencies and semantic roles, leading to better results. This work lead to the establishment of new benchmarks for the aspect extraction in Portuguese. / A análise do sentimento orientada a aspectos é o campo de estudo que extrai e interpreta o sentimento, geralmente classificado como positivo ou negativo, em direção a algum alvo ou aspecto em um texto de opinião. Esta tese de doutorado detalha um estudo empírico de técnicas e métodos para extração de aspectos em análises de sentimentos baseadas em aspectos com foco na língua Portuguesa. Foram exploradas três diferentes abordagens: métodos baseados na frequências, métodos baseados na relação e métodos de aprendizagem de máquina. Em cada abordagem, este trabalho mostra um estudo comparativo entre um córpus para o Português e outro para o Inglês e as diferenças encontradas na aplicação destas abordagens. Além disso, o conhecimento linguístico mais rico também é explorado pelo uso de dependências sintáticas e papéis semânticos, levando a melhores resultados. Este trabalho resultou no estabelecimento de novos padrões de avaliação para a extração de aspectos em Português. Análise de Sentimentos Mineração de Opiniões Aspect-based sentiment analysis Opinion mining Sentiment analysis
4	Análise de viés em notícias na língua portuguesa / Bias analysis on newswire in portuguese Arruda, Gabriel Domingos de 02 December 2015 (has links) O projeto descrito neste documento propõe um modelo para análise de viés em notícias, procurando identificar o viés dos meios de comunicação em relação a entidades políticas. Foram analisados três tipos de viés: o viés de seleção, que avalia o quanto uma entidade é referenciada pelo meio de comunicação; o viés de cobertura, que avalia quanto destaque é destinado a entidade e, por fim, o viés de afirmação, que avalia se estão falando mal ou bem da entidade. Para tal, foi construído um corpus de notícias sistematicamente extraídas de 5 produtores de notícias e classificadas manualmente em relação à polaridade e entidade alvo. Técnicas de análise de sentimentos baseadas em aprendizado de máquina foram validadas utilizando o corpus criado. Criou-se uma metodologia para identificação de viés, utilizando o conceito de outliers, a partir de métricas indicadoras. A partir da metodologia proposta, foi analisado o viés em relação aos candidatos ao governo de São Paulo e à presidência a partir do corpus criado, em que se identificou os três tipos de viés em dois produtores de notícias / The project described here proposes a model to study bias on newswire texts, related to political entities. Three types of bias are analysed: selection bias, which refers to the amount of times an entity is referenced by the media outlet; coverage bias, which assesses the amount of coverage given to an entity and, finally, the assertion bias, which analyses whether the news is a positive or negative report of an entity. To accomplish this, a corpus was systematically built by extracting news from 5 different newswires. These texts were manually classified according to their polarity alignment and associated entity. Sentiment Analysis techniques were applied and evaluated using the corpus. Based on the concept of outliers, a methodology for bias detection was created. Bias was analysed using the proposed methodology on the generated corpus for candidates to the government of the state of São Paulo and to presidency, being identified in two newswires for the three above-defined types Análise de sentimentos Bias Detecção de outliers Outliers detection Sentiment analysis Viés
5	Análise de viés em notícias na língua portuguesa / Bias analysis on newswire in portuguese Gabriel Domingos de Arruda 02 December 2015 (has links) O projeto descrito neste documento propõe um modelo para análise de viés em notícias, procurando identificar o viés dos meios de comunicação em relação a entidades políticas. Foram analisados três tipos de viés: o viés de seleção, que avalia o quanto uma entidade é referenciada pelo meio de comunicação; o viés de cobertura, que avalia quanto destaque é destinado a entidade e, por fim, o viés de afirmação, que avalia se estão falando mal ou bem da entidade. Para tal, foi construído um corpus de notícias sistematicamente extraídas de 5 produtores de notícias e classificadas manualmente em relação à polaridade e entidade alvo. Técnicas de análise de sentimentos baseadas em aprendizado de máquina foram validadas utilizando o corpus criado. Criou-se uma metodologia para identificação de viés, utilizando o conceito de outliers, a partir de métricas indicadoras. A partir da metodologia proposta, foi analisado o viés em relação aos candidatos ao governo de São Paulo e à presidência a partir do corpus criado, em que se identificou os três tipos de viés em dois produtores de notícias / The project described here proposes a model to study bias on newswire texts, related to political entities. Three types of bias are analysed: selection bias, which refers to the amount of times an entity is referenced by the media outlet; coverage bias, which assesses the amount of coverage given to an entity and, finally, the assertion bias, which analyses whether the news is a positive or negative report of an entity. To accomplish this, a corpus was systematically built by extracting news from 5 different newswires. These texts were manually classified according to their polarity alignment and associated entity. Sentiment Analysis techniques were applied and evaluated using the corpus. Based on the concept of outliers, a methodology for bias detection was created. Bias was analysed using the proposed methodology on the generated corpus for candidates to the government of the state of São Paulo and to presidency, being identified in two newswires for the three above-defined types Análise de sentimentos Detecção de outliers Viés Bias Outliers detection Sentiment analysis
6	Uma abordagem de análise de sentimentos espaço-temporal em microtextos. ALVES, André Luiz Firmino. 01 December 2017 (has links) Submitted by Dilene Paulo (dilene.fatima@ufcg.edu.br) on 2017-12-01T15:44:03Z No. of bitstreams: 1 ANDRÉ LUIZ FIRMINO ALVES - DISSERTAÇÃO PPGCC 2014.pdf: 8491551 bytes, checksum: 9c049bdf4b551742efcd94bdc4c8c020 (MD5) / Made available in DSpace on 2017-12-01T15:44:03Z (GMT). No. of bitstreams: 1 ANDRÉ LUIZ FIRMINO ALVES - DISSERTAÇÃO PPGCC 2014.pdf: 8491551 bytes, checksum: 9c049bdf4b551742efcd94bdc4c8c020 (MD5) Previous issue date: 2014 / Capes / A proliferação dos meios de comunicação social na Web, tais como blogs, fóruns de discussões, sites de avaliação de produtos, microblogs e redes sociais, proporcionou um volume de dados opinativos armazenados em formato digital nunca visto na história da humanidade. Esta quantidade de dados, em sua grande maioria não estruturados, tem trazido vários desafios e oportunidades para a comunidade acadêmica e o mundo dos negócios, haja vista a necessidade de compreender, de forma automática, os sentimentos das pessoas a respeito de um produto, um serviço ou mesmo sobre pessoas ou fatos, para auxiliar no processo de tomada de decisão. Nos últimos anos, surgiram várias contribuições científicas para resolver problemas relacionados à análise de sentimentos. No entanto, poucas propostas consideram o fator espaço-temporal, isto é, a localização geográfica da fonte de informação ou da própria informação, bem como as possíveis mudanças de opinião ao longo do tempo. Os trabalhos que consideram o fator espacial tomam como base mensagens já geocodificadas, contudo, são poucas as fontes de informações que dispõem de mensagens georeferenciadas. Neste contexto, este trabalho propõe uma abordagem de análise de sentimentos que explora os fatores espaço-temporal para melhor sumarizar o sentimento detectado em uma grande quantidade de microtextos obtidos daWeb. A abordagem utiliza técnicas de Recuperação da Informação Geográfica (GIR) e técnicas de Análise de Sentimentos para detectar localizações geográficas e a polaridade dos sentimentos através de evidências textuais contidas nos microtextos, oferecendo mecanismos de visualização espacial do sentimento em diversas regiões geográficas. A análise espaço-temporal possibilita visualizar mudanças de sentimento ocorridas em diversas regiões geográficas ao longo do período analisado. / The dissemination of social communication means on the Web, such as blogs, discussion forums, product evaluation sites, microblogs and social networks, provides a never before seen volume of opinionative data in digital format. Not structured in its majority, this amount of data, has brought several challenges and opportunities for the academic community and the business world, considering the need for understanding, in an automatic form, people’s sentiments concerning a product, a service or even other people or facts, in order to facilitate the decision making process. In the recent years, several scientific contributions to solve sentiment analysis related problems were suggested. However, only a few of them consider the spatial-temporal factor, which is the geographical location of the information source or even of the information itself, as well as the possible opinion changes throughout time. The works that consider the spatial factor often assume the messages are already geocoded. However, it could be a problem, since only a few information sources provide georeferenced messages. In this context, this work proposes a sentiment analysis approach which explores the spatial-temporal factor in order to better summarize the sentiments detected in a great amount of microtexts obtained from the Web. The approach uses Geographic Information Retrieval (GIR) and Sentiment Analysis techniques for the detection of geographic locations and sentiment polarity through textual evidences contained in the microtexts. The spatialtemporal analysis enables the visualization of sentiment changes which occurred in several geographic regions throughout the analyzed time period. Ciência da Computação Micro-Blogging Análise de Sentimentos Análise Espaço- Temporal
7	WhatMatter: extração e visualização de características em opiniões sobre serviços SIQUEIRA, Henrique Borges Alencar 31 January 2010 (has links) Made available in DSpace on 2014-06-12T15:58:05Z (GMT). No. of bitstreams: 2 arquivo3250_1.pdf: 3749007 bytes, checksum: 1fa0de20ae4ac4b54782688d5ffa5279 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2010 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O número crescente de blogs, foruns e redes sociais na Web aumentou drasticamente a quantidade de textos contendo não apenas fatos mas também opiniões. Com a popularização do E-commerce, um grande número destas opiniões são resenhas de consumidores sobre produtos e serviços. Esta tendência motivou diversas pesquisas e aplicações comerciais buscando a análise automática das opiniões disponíveis. Claramente, esta informação é crucial para novos consumidores, gerentes e empresários que gostariam de tomar suas decisões baseadas no que outras pessoas opiniaram. Considerando as opiniões dadas sobre serviços como lojas e hotéis, é particularmente dificil identificar de maneira automatizada as características (eg. atendimento, entrega, localização, etc.) que influiram na escolha e na satisfação do consumidor. Neste trabalho apresentamos o WhatMatter, um sistema de Análise de Sentimentos que realiza a identificação, extração, classificação e sumário de características em opiniões através de um processo automatizado inovador. Este processo é formado por cinco passos principais: pré-processamento, identificação de substantivos mais freqüentes, identificação dos substantivos relevantes, mapeamento de indicadores e remoção de substantivos não-relacionados. O protótipo deste sistema foi aplicado em opiniões sobre o serviço prestado por lojas de e-commerce brasileiras com resultados bastante satisfatórios Opiniões Serviço Análise de Sentimentos Processamento de Linguagem Natural Extração de Características WhatMatter
8	Análise de sentimentos em textos curtos provenientes de redes sociais / Sentiment analysis in short texts from social networks Silva, Nadia Felix Felipe da 22 February 2016 (has links) A análise de sentimentos é um campo de estudo com recente popularização devido ao crescimento da Internet e do conteúdo que é gerado por seus usuários, principalmente nas redes sociais, nas quais as pessoas publicam suas opiniões em uma linguagem coloquial e em muitos casos utilizando de artifícios gráficos para tornar ainda mais sucintos seus diálogos. Esse cenário é observado no Twitter, uma ferramenta de comunicação que pode facilmente ser usada como fonte de informação para várias ferramentas automáticas de inferência de sentimentos. Esforços de pesquisas têm sido direcionados para tratar o problema de análise de sentimentos em redes sociais sob o ponto de vista de um problema de classificação, com pouco consenso sobre qual é o classificador com melhor poder preditivo, bem como qual é a configuração fornecida pela engenharia de atributos que melhor representa os textos. Outro problema é que em um cenário supervisionado, para a etapa de treinamento do modelo de classificação, é imprescindível se dispor de exemplos rotulados, uma tarefa árdua e que demanda esforço humano em grande parte das aplicações. Esta tese tem por objetivo investigar o uso de agregadores de classificadores (classifier ensembles), explorando a diversidade e a potencialidade de várias abordagens supervisionadas quando estas atuam em conjunto, além de um estudo detalhado da fase que antecede a escolha do classificador, a qual é conhecida como engenharia de atributos. Além destes aspectos, um estudo mostrando que o aprendizado não supervisionado pode fornecer restrições complementares úteis para melhorar a capacidade de generalização de classificadores de sentimento é realizado, fornecendo evidências de que ganhos já observados em outras áreas do conhecimento também podem ser obtidos no domínio em questão. A partir dos promissores resultados experimentais obtidos no cenário de aprendizado supervisionado, alavancados pelo uso de técnicas não supervisionadas, um algoritmo existente, denominado de C3E (Consensus between Classification and Clustering Ensembles) foi adaptado e estendido para o cenário semissupervisionado. Este algoritmo refina a classificação de sentimentos a partir de informações adicionais providas pelo agrupamento em um procedimento de autotreinamento (self-training). Tal abordagem apresenta resultados promissores e competitivos com abordagens que representam o estado da arte em outros domínios. / Sentiment analysis is a field of study that shows recent popularization due to the growth of Internet and the content that is generated by its users. More recently, social networks have emerged, where people post their opinions in colloquial and compact language. This is what happens in Twitter, a communication tool that can easily be used as a source of information for various automatic tools of sentiment inference. Research efforts have been directed to deal with the problem of sentiment analysis in social networks from the point of view of a classification problem, where there is no consensus about what is the best classifier, and what is the best configuration provided by the feature engineering process. Another problem is that in a supervised setting, for the training stage of the classification model, we need labeled examples, which are hard to get in the most of applications. The objective of this thesis is to investigate the use of classifier ensembles, exploring the diversity and the potential of various supervised approaches when these work together, as well as to provide a study about the phase that precedes the choice of the classifier, which is known as feature engineering. In addition to these aspects, a study showing that unsupervised learning techniques can provide useful and additional constraints to improve the ability of generalization of the classifiers is also carried out. Based on the promising results got in supervised learning settings, an existing algorithm called C3E (Consensus between Classification and Clustering Ensembles) was adapted and extended for the semi-supervised setting. This algorithm refines the sentiment classification from additional information provided by clusters of data, in a self-training procedure. This approach shows promising results when compared with state of the art algorithms. Análise de sentimentos em textos curtos Análise de sentimentos em tweets Classificação de sentimentos Semi-supervised sentiment analysis Sentiment classification Tweet sentiment analysis
9	Análise de sentimentos em textos curtos provenientes de redes sociais / Sentiment analysis in short texts from social networks Nadia Felix Felipe da Silva 22 February 2016 (has links) A análise de sentimentos é um campo de estudo com recente popularização devido ao crescimento da Internet e do conteúdo que é gerado por seus usuários, principalmente nas redes sociais, nas quais as pessoas publicam suas opiniões em uma linguagem coloquial e em muitos casos utilizando de artifícios gráficos para tornar ainda mais sucintos seus diálogos. Esse cenário é observado no Twitter, uma ferramenta de comunicação que pode facilmente ser usada como fonte de informação para várias ferramentas automáticas de inferência de sentimentos. Esforços de pesquisas têm sido direcionados para tratar o problema de análise de sentimentos em redes sociais sob o ponto de vista de um problema de classificação, com pouco consenso sobre qual é o classificador com melhor poder preditivo, bem como qual é a configuração fornecida pela engenharia de atributos que melhor representa os textos. Outro problema é que em um cenário supervisionado, para a etapa de treinamento do modelo de classificação, é imprescindível se dispor de exemplos rotulados, uma tarefa árdua e que demanda esforço humano em grande parte das aplicações. Esta tese tem por objetivo investigar o uso de agregadores de classificadores (classifier ensembles), explorando a diversidade e a potencialidade de várias abordagens supervisionadas quando estas atuam em conjunto, além de um estudo detalhado da fase que antecede a escolha do classificador, a qual é conhecida como engenharia de atributos. Além destes aspectos, um estudo mostrando que o aprendizado não supervisionado pode fornecer restrições complementares úteis para melhorar a capacidade de generalização de classificadores de sentimento é realizado, fornecendo evidências de que ganhos já observados em outras áreas do conhecimento também podem ser obtidos no domínio em questão. A partir dos promissores resultados experimentais obtidos no cenário de aprendizado supervisionado, alavancados pelo uso de técnicas não supervisionadas, um algoritmo existente, denominado de C3E (Consensus between Classification and Clustering Ensembles) foi adaptado e estendido para o cenário semissupervisionado. Este algoritmo refina a classificação de sentimentos a partir de informações adicionais providas pelo agrupamento em um procedimento de autotreinamento (self-training). Tal abordagem apresenta resultados promissores e competitivos com abordagens que representam o estado da arte em outros domínios. / Sentiment analysis is a field of study that shows recent popularization due to the growth of Internet and the content that is generated by its users. More recently, social networks have emerged, where people post their opinions in colloquial and compact language. This is what happens in Twitter, a communication tool that can easily be used as a source of information for various automatic tools of sentiment inference. Research efforts have been directed to deal with the problem of sentiment analysis in social networks from the point of view of a classification problem, where there is no consensus about what is the best classifier, and what is the best configuration provided by the feature engineering process. Another problem is that in a supervised setting, for the training stage of the classification model, we need labeled examples, which are hard to get in the most of applications. The objective of this thesis is to investigate the use of classifier ensembles, exploring the diversity and the potential of various supervised approaches when these work together, as well as to provide a study about the phase that precedes the choice of the classifier, which is known as feature engineering. In addition to these aspects, a study showing that unsupervised learning techniques can provide useful and additional constraints to improve the ability of generalization of the classifiers is also carried out. Based on the promising results got in supervised learning settings, an existing algorithm called C3E (Consensus between Classification and Clustering Ensembles) was adapted and extended for the semi-supervised setting. This algorithm refines the sentiment classification from additional information provided by clusters of data, in a self-training procedure. This approach shows promising results when compared with state of the art algorithms. Análise de sentimentos em textos curtos Análise de sentimentos em tweets Classificação de sentimentos Semi-supervised sentiment analysis Sentiment classification Tweet sentiment analysis
10	Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado / Extending sentiment analysis resources using semi-supervised learning Brum, Henrico Bertini 23 March 2018 (has links) O grande volume de dados que temos disponíveis em ambientes virtuais pode ser excelente fonte de novos recursos para estudos em diversas tarefas de Processamento de Linguagem Natural, como a Análise de Sentimentos. Infelizmente é elevado o custo de anotação de novos córpus, que envolve desde investimentos financeiros até demorados processos de revisão. Nossa pesquisa propõe uma abordagem de anotação semissupervisionada, ou seja, anotação automática de um grande córpus não anotado partindo de um conjunto de dados anotados manualmente. Para tal, introduzimos o TweetSentBR, um córpus de tweets no domínio de programas televisivos que possui anotação em três classes e revisões parciais feitas por até sete anotadores. O córpus representa um importante recurso linguístico de português brasileiro, e fica entre os maiores córpus anotados na literatura para classificação de polaridades. Além da anotação manual do córpus, realizamos a implementação de um framework de aprendizado semissupervisionado que faz uso de dados anotados e, de maneira iterativa, expande o mesmo usando dados não anotados. O TweetSentBR, que possui 15:000 tweets anotados é assim expandido cerca de oito vezes. Para a expansão, foram treinados modelos de classificação usando seis classificadores de polaridades, assim como foram avaliados diferentes parâmetros e representações a fim de obter um córpus confiável. Realizamos experimentos gerando córpus expandidos por cada classificador, tanto para a classificação em três polaridades (positiva, neutra e negativa) quanto para classificação binária. Avaliamos os córpus gerados usando um conjunto de held-out e comparamos a FMeasure da classificação usando como treinamento os córpus anotados manualmente e semiautomaticamente. O córpus semissupervisionado que obteve os melhores resultados para a classificação em três polaridades atingiu 62;14% de F-Measure média, superando a média obtida com as avaliações no córpus anotado manualmente (61;02%). Na classificação binária, o melhor córpus expandido obteve 83;11% de F1-Measure média, superando a média obtida na avaliação do córpus anotado manualmente (79;80%). Além disso, simulamos nossa expansão em córpus anotados da literatura, medindo o quão corretas são as etiquetas anotadas semi-automaticamente. Nosso melhor resultado foi na expansão de um córpus de reviews de produtos que obteve FMeasure de 93;15% com dados binários. Por fim, comparamos um córpus da literatura obtido por meio de supervisão distante e nosso framework semissupervisionado superou o primeiro na classificação de polaridades binária em cross-domain. / The high volume of data available in the Internet can be a good resource for studies of several tasks in Natural Language Processing as in Sentiment Analysis. Unfortunately there is a high cost for the annotation of new corpora, involving financial support and long revision processes. Our work proposes an approach for semi-supervised labeling, an automatic annotation of a large unlabeled set of documents starting from a manually annotated corpus. In order to achieve that, we introduced TweetSentBR, a tweet corpora on TV show programs domain with annotation for 3-point (positive, neutral and negative) sentiment classification partially reviewed by up to seven annotators. The corpus is an important linguistic resource for Brazilian Portuguese language and it stands between the biggest annotated corpora for polarity classification. Beyond the manual annotation, we implemented a semi-supervised learning based framework that uses this labeled data and extends it using unlabeled data. TweetSentBR corpus, containing 15:000 documents, had its size augmented in eight times. For the extending process, we trained classification models using six polarity classifiers, evaluated different parameters and representation schemes in order to obtain the most reliable corpora. We ran experiments generating extended corpora for each classifier, both for 3-point and binary classification. We evaluated the generated corpora using a held-out subset and compared the obtained F-Measure values with the manually and the semi-supervised annotated corpora. The semi-supervised corpus that obtained the best values for 3-point classification achieved 62;14% on average F-Measure, overcoming the results obtained by the same classification with the manually annotated corpus (61;02%). On binary classification, the best extended corpus achieved 83;11% on average F-Measure, overcoming the results on the manually corpora (79;80%). Furthermore, we simulated the extension of labeled corpora in literature, measuring how well the semi-supervised annotation works. Our best results were in the extension of a product review corpora, achieving 93;15% on F1-Measure. Finally, we compared a literature corpus which was labeled by using distant supervision with our semi-supervised corpus, and this overcame the first in binary polarity classification on cross-domain data. Análise de sentimentos Anotação de córpus Aprendizado semisupervisionado Corpus annotation Semi-supervised learning Sentiment analysis

Search results