Global ETD Search

11	Sobre normalização e classificação de polaridade de textos opinativos na web / On normalization and polarity classification of opinion texts on the web Lucas Vinicius Avanço 25 August 2015 (has links) A área de Análise de Sentimentos ou Mineração de Opiniões tem como um dos objetivos principais analisar computacionalmente opiniões, sentimentos e subjetividade presentes em textos. Por conta da crescente quantidade de textos opinativos nas mídias sociais da web, e também pelo interesse de empresas e governos em insumos que auxiliem a tomada de decisões, esse tópico de pesquisa tem sido amplamente estudado. Classificar opiniões postadas na web, usualmente expressas em textos do tipo conteúdo gerado por usuários, ou UGC (user-generated content), é uma tarefa bastante desafiadora, já que envolve o tratamento de subjetividade. Além disso, a linguagem utilizada em textos do tipo UGC diverge, de várias maneiras, da norma culta da língua, o que impõe ainda mais dificuldade ao seu processamento. Este trabalho relata o desenvolvimento de métodos e sistemas que visam (a) a normalização de textos UGC, isto é, o tratamento do texto com correção ortográfica, substituição de internetês, e normalização de caixa e de pontuação, e (b) a classificação de opiniões, particularmente de avaliações de produtos, em nível de texto, para o português brasileiro. O método proposto para a normalização é predominantemente simbólico, uma vez que usa de forma explícita conhecimentos linguísticos. Já para a classificação de opiniões, que nesse trabalho consiste em atribuir ao texto um valor de polaridade, positivo ou negativo, foram utilizadas abordagens baseadas em léxico e em aprendizado de máquina, bem como a combinação de ambas na construção de um método híbrido original. Constatamos que a normalização melhorou o resultado da classificação de opiniões, pelo menos para métodos baseados em léxico. Também verificamos extrinsecamente a qualidade de léxicos de sentimentos para o português. Fizemos, ainda, experimentos avaliando a confiabilidade das notas dadas pelos autores das opiniões, já que as mesmas são utilizadas para a rotulação de exemplos, e verificamos que, de fato, elas impactam significativamente o desempenho dos classificadores de opiniões. Por fim, obtivemos classificadores de opiniões para o português brasileiro com valores de medida F1 que chegam a 0,84 (abordagem baseada em léxico) e a 0,95 (abordagem baseada em AM), e que são similares aos sistemas para outras línguas, que representam o estado da arte no domínio de avaliação de produtos. / Sentiment Analysis or Opinion Mining has as a main goal to process opinions, feelings and subjectivity expressed in texts. The large number of opinions in social media has increased the interest of companies and governments, who have changed their decisionmaking systems. This has caused a great interest in this research area. Opinions are usually expressed by subjective text, and their processing is a hard task. Moreover, reviews posted on the web are of a especial text type, also called user-generated content (UGC), whose processing is a very challenging task, since they differ in many ways from the standard language. This work describes the design of methods and systems aimed at (a) the normalization of UGC texts, through the use of spell checking, substitution of web slangs, case and punctuation correction, and (b) the classification of opinions at document level, especially for reviews of products in Brazilian Portuguese. The method proposed for normalization of UGC is linguistically motivated. For the classification of opinions, which, in this work, consists in assigning a polarity value (positive or negative) to a opinion text, some lexicon-based and machine learning approaches, as well as a combination of both in a new hybrid manner have been implemented and evaluated. We noticed that the text normalization has improved the results of opinion classification for lexicon-based methods. The quality of the sentiment lexicons for Portuguese was extrinsically evaluated. The reliability of the opinions authors was verified, since they are used for labeling samples. We concluded that they significantly impact the performance of the opinion classifiers. Finally, we proposed some opinion classifiers for Brazilian Portuguese whose F1-measures values reach 0.84 (lexicon-based approach) and 0.95 (machine learning approach), which are analogous to the the similar systems for other languages, which represent the state of the art in the domain of reviews of products. Análise de sentimentos Classificação de opiniões Normalização de UGC Opinion classification Sentiment analysis UGC normalization
12	Sobre normalização e classificação de polaridade de textos opinativos na web / On normalization and polarity classification of opinion texts on the web Avanço, Lucas Vinicius 25 August 2015 (has links) A área de Análise de Sentimentos ou Mineração de Opiniões tem como um dos objetivos principais analisar computacionalmente opiniões, sentimentos e subjetividade presentes em textos. Por conta da crescente quantidade de textos opinativos nas mídias sociais da web, e também pelo interesse de empresas e governos em insumos que auxiliem a tomada de decisões, esse tópico de pesquisa tem sido amplamente estudado. Classificar opiniões postadas na web, usualmente expressas em textos do tipo conteúdo gerado por usuários, ou UGC (user-generated content), é uma tarefa bastante desafiadora, já que envolve o tratamento de subjetividade. Além disso, a linguagem utilizada em textos do tipo UGC diverge, de várias maneiras, da norma culta da língua, o que impõe ainda mais dificuldade ao seu processamento. Este trabalho relata o desenvolvimento de métodos e sistemas que visam (a) a normalização de textos UGC, isto é, o tratamento do texto com correção ortográfica, substituição de internetês, e normalização de caixa e de pontuação, e (b) a classificação de opiniões, particularmente de avaliações de produtos, em nível de texto, para o português brasileiro. O método proposto para a normalização é predominantemente simbólico, uma vez que usa de forma explícita conhecimentos linguísticos. Já para a classificação de opiniões, que nesse trabalho consiste em atribuir ao texto um valor de polaridade, positivo ou negativo, foram utilizadas abordagens baseadas em léxico e em aprendizado de máquina, bem como a combinação de ambas na construção de um método híbrido original. Constatamos que a normalização melhorou o resultado da classificação de opiniões, pelo menos para métodos baseados em léxico. Também verificamos extrinsecamente a qualidade de léxicos de sentimentos para o português. Fizemos, ainda, experimentos avaliando a confiabilidade das notas dadas pelos autores das opiniões, já que as mesmas são utilizadas para a rotulação de exemplos, e verificamos que, de fato, elas impactam significativamente o desempenho dos classificadores de opiniões. Por fim, obtivemos classificadores de opiniões para o português brasileiro com valores de medida F1 que chegam a 0,84 (abordagem baseada em léxico) e a 0,95 (abordagem baseada em AM), e que são similares aos sistemas para outras línguas, que representam o estado da arte no domínio de avaliação de produtos. / Sentiment Analysis or Opinion Mining has as a main goal to process opinions, feelings and subjectivity expressed in texts. The large number of opinions in social media has increased the interest of companies and governments, who have changed their decisionmaking systems. This has caused a great interest in this research area. Opinions are usually expressed by subjective text, and their processing is a hard task. Moreover, reviews posted on the web are of a especial text type, also called user-generated content (UGC), whose processing is a very challenging task, since they differ in many ways from the standard language. This work describes the design of methods and systems aimed at (a) the normalization of UGC texts, through the use of spell checking, substitution of web slangs, case and punctuation correction, and (b) the classification of opinions at document level, especially for reviews of products in Brazilian Portuguese. The method proposed for normalization of UGC is linguistically motivated. For the classification of opinions, which, in this work, consists in assigning a polarity value (positive or negative) to a opinion text, some lexicon-based and machine learning approaches, as well as a combination of both in a new hybrid manner have been implemented and evaluated. We noticed that the text normalization has improved the results of opinion classification for lexicon-based methods. The quality of the sentiment lexicons for Portuguese was extrinsically evaluated. The reliability of the opinions authors was verified, since they are used for labeling samples. We concluded that they significantly impact the performance of the opinion classifiers. Finally, we proposed some opinion classifiers for Brazilian Portuguese whose F1-measures values reach 0.84 (lexicon-based approach) and 0.95 (machine learning approach), which are analogous to the the similar systems for other languages, which represent the state of the art in the domain of reviews of products. Análise de sentimentos Classificação de opiniões Normalização de UGC Opinion classification Sentiment analysis UGC normalization
13	Análise de sentimentos para o auxílio na gestão das cidades inteligentes. / Sentiment analysis for the aid in the smart cities management. Rossi, Rosa Helena Peccinini Silva 27 June 2019 (has links) Esta Tese tem como objetivo geral inserir a Análise de Sentimentos na gestão das Cidades Inteligentes, possibilitando a implementação de uma ferramenta que disponibilize informações que auxiliem na supervisão e gestão dessas cidades. Dentre os possíveis auxílios que podem ser prestados está a identificação de ações, meios de prevenção e predição de possíveis adversidades nos diversos Domínios de Interesse, além da busca por melhorias na qualidade vida da população, que pode ser feita por meio dessa análise, permitindo que os gestores dessas cidades possam tomar as melhores decisões de acordo com cada cenário. Este trabalho contribui com um novo método cujo o objetivo é o desenvolvimento de um Sistema de Análise de Sentimentos para Auxílio na Gestão das Cidades Inteligentes (ASCI). Esse Sistema é capaz de captar, tratar, processar, filtrar por Domínio de Interesse e avaliar os sentimentos contidos nas informações provenientes dos cidadãos de uma Cidade Inteligente. O método utiliza duas Fases de Mineração de Dados, uma para a classificação dos Domínios de Interesse e outra para a Análise de Sentimentos. Para o estudo de caso foi implementado o método ASCI por meio do qual são captadas informações provenientes da população de uma determinada região da cidade de São Paulo, por meio da Rede Social Twitter. Também foi realizado um estudo de classificação de sentimentos no Domínio específico do Transporte, no qual também foram utilizados, e tiveram seu desempenho avaliado, os classificadores do tipo Linear SVC, Logistic Regression, Multinomial Naive Bayes e Random Forest Classifier para identificar os sentimentos positivos, neutros e negativos dos tweets captados. Os dados foram avaliados usando duas técnicas de extração de características de texto: Bag of Words e TF-IDF. O método ASCI desenvolvido nesta Tese contribui de maneira relevante para a área de Análise de Sentimentos, uma vez que os resultados obtidos foram satisfatórios quando aplicado em cenários de Domínios de Interesse das Cidades Inteligentes. / The main objective of this work is to insert the Sentiment Analysis in the management of Smart Cities, enabling the implementation of a supervision and management tool in these cities. Among the possible aid services that can be applied, there is the identification of actions, ways of prevention and prediction of possible adversities in the various Domains of Interest, and also the search for improvements in the quality of life of the population. This can be done through this analysis, allowing the best decisions according to each scenario by the city managers. This work contributes to a new method whose objective is the development of a Sentiment Analysis System to Assist in the Management of Smart Cities (ASCI). This System is capable of capturing, classifying, processing, filtering by Domain of Interest and evaluating the sentiments of Smart City citizens. The method uses two Data Mining phases, one for the classification of Domains of Interest and the other for Sentiment Analysis. For the case study, the ASCI method was implemented, through which information was collected from a regional population in São Paulo city through Twitter Social Network data. A study of Sentiment Analysis in specific Domain of Interest Transport was also carried out, in which Linear SVC, Logistic Regression, Multinomial Naive Bayes and Random Forest classifiers were used to identify the positive, neutral and negative sentiments of collected tweets. The data were evaluated using two techniques of extraction of text characteristics: Bag of Words and TF-IDF. The ASCI method developed in this Thesis contributes significantly to the area of Sentiment Analysis and the results obtained were satisfactory when applied in Smart City Domain of Interest scenarios. Algoritmos (Classificação) Análise de sentimentos Cidades inteligentes Classification algorithms Data mining Mineração de dados Sentiment analysis Smart cities
14	Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado / Extending sentiment analysis resources using semi-supervised learning Henrico Bertini Brum 23 March 2018 (has links) O grande volume de dados que temos disponíveis em ambientes virtuais pode ser excelente fonte de novos recursos para estudos em diversas tarefas de Processamento de Linguagem Natural, como a Análise de Sentimentos. Infelizmente é elevado o custo de anotação de novos córpus, que envolve desde investimentos financeiros até demorados processos de revisão. Nossa pesquisa propõe uma abordagem de anotação semissupervisionada, ou seja, anotação automática de um grande córpus não anotado partindo de um conjunto de dados anotados manualmente. Para tal, introduzimos o TweetSentBR, um córpus de tweets no domínio de programas televisivos que possui anotação em três classes e revisões parciais feitas por até sete anotadores. O córpus representa um importante recurso linguístico de português brasileiro, e fica entre os maiores córpus anotados na literatura para classificação de polaridades. Além da anotação manual do córpus, realizamos a implementação de um framework de aprendizado semissupervisionado que faz uso de dados anotados e, de maneira iterativa, expande o mesmo usando dados não anotados. O TweetSentBR, que possui 15:000 tweets anotados é assim expandido cerca de oito vezes. Para a expansão, foram treinados modelos de classificação usando seis classificadores de polaridades, assim como foram avaliados diferentes parâmetros e representações a fim de obter um córpus confiável. Realizamos experimentos gerando córpus expandidos por cada classificador, tanto para a classificação em três polaridades (positiva, neutra e negativa) quanto para classificação binária. Avaliamos os córpus gerados usando um conjunto de held-out e comparamos a FMeasure da classificação usando como treinamento os córpus anotados manualmente e semiautomaticamente. O córpus semissupervisionado que obteve os melhores resultados para a classificação em três polaridades atingiu 62;14% de F-Measure média, superando a média obtida com as avaliações no córpus anotado manualmente (61;02%). Na classificação binária, o melhor córpus expandido obteve 83;11% de F1-Measure média, superando a média obtida na avaliação do córpus anotado manualmente (79;80%). Além disso, simulamos nossa expansão em córpus anotados da literatura, medindo o quão corretas são as etiquetas anotadas semi-automaticamente. Nosso melhor resultado foi na expansão de um córpus de reviews de produtos que obteve FMeasure de 93;15% com dados binários. Por fim, comparamos um córpus da literatura obtido por meio de supervisão distante e nosso framework semissupervisionado superou o primeiro na classificação de polaridades binária em cross-domain. / The high volume of data available in the Internet can be a good resource for studies of several tasks in Natural Language Processing as in Sentiment Analysis. Unfortunately there is a high cost for the annotation of new corpora, involving financial support and long revision processes. Our work proposes an approach for semi-supervised labeling, an automatic annotation of a large unlabeled set of documents starting from a manually annotated corpus. In order to achieve that, we introduced TweetSentBR, a tweet corpora on TV show programs domain with annotation for 3-point (positive, neutral and negative) sentiment classification partially reviewed by up to seven annotators. The corpus is an important linguistic resource for Brazilian Portuguese language and it stands between the biggest annotated corpora for polarity classification. Beyond the manual annotation, we implemented a semi-supervised learning based framework that uses this labeled data and extends it using unlabeled data. TweetSentBR corpus, containing 15:000 documents, had its size augmented in eight times. For the extending process, we trained classification models using six polarity classifiers, evaluated different parameters and representation schemes in order to obtain the most reliable corpora. We ran experiments generating extended corpora for each classifier, both for 3-point and binary classification. We evaluated the generated corpora using a held-out subset and compared the obtained F-Measure values with the manually and the semi-supervised annotated corpora. The semi-supervised corpus that obtained the best values for 3-point classification achieved 62;14% on average F-Measure, overcoming the results obtained by the same classification with the manually annotated corpus (61;02%). On binary classification, the best extended corpus achieved 83;11% on average F-Measure, overcoming the results on the manually corpora (79;80%). Furthermore, we simulated the extension of labeled corpora in literature, measuring how well the semi-supervised annotation works. Our best results were in the extension of a product review corpora, achieving 93;15% on F1-Measure. Finally, we compared a literature corpus which was labeled by using distant supervision with our semi-supervised corpus, and this overcame the first in binary polarity classification on cross-domain data. Análise de sentimentos Anotação de córpus Aprendizado semisupervisionado Corpus annotation Semi-supervised learning Sentiment analysis
15	Contribuições da relação de oposição adjetival para o mapeamento de sentimentos em plataformas online de ensino Haas, Daniela Deitos 17 March 2015 (has links) Submitted by Maicon Juliano Schmidt (maicons) on 2015-06-15T14:23:37Z No. of bitstreams: 1 Daniela Deitos Haas.pdf: 2265336 bytes, checksum: 0f36508aa2d3eff2a2b12c951ccbe6b2 (MD5) / Made available in DSpace on 2015-06-15T14:23:37Z (GMT). No. of bitstreams: 1 Daniela Deitos Haas.pdf: 2265336 bytes, checksum: 0f36508aa2d3eff2a2b12c951ccbe6b2 (MD5) Previous issue date: 2015-03-17 / Milton Valente / O objetivo da dissertação foi descrever semanticamente a oposição de adjetivos do domínio dos sentimentos no contexto da Educação a Distância. Pretendeu-se contribuir para enriquecer um léxico de emoção que será utilizado como base de dados para um analisador de sentimentos que identifique automaticamente os sentimentos expressos pelos alunos no ambiente virtual Moodle. Uma das justificativas para a construção de um analisador de sentimentos aplicado ao contexto de ensino a distância é a crença de que um dos fatores que contribuem para o sucesso da Educação a Distância (EaD) está na capacidade de o professor/tutor identificar rapidamente como os alunos estão se sentindo no ambiente e, por essas declarações estarem dispersas nas várias ferramentas que compõem o ambiente virtual, as tarefas de identificação e de resposta rápida ao aluno são prejudicadas, fato que pode influenciar na evasão de cursos e de disciplinas a distância. Esse estudo é interdisciplinar, ancorado na Linguística Cognitiva (Cruse, 1986; 2000) em interface com a área do Processamento Automático de Língua Natural (PLN), a partir das teorias da Semântica Lexical Computacional na área da Análise de Sentimentos (Pang e Lee, 2008; Liu, 2012). Por ser interdisciplinar, a metodologia adotada abrange três domínios que se complementam: o linguístico, o linguístico-computacional e o computacional (Dias-da-Silva 1996; 1998; 2003). No domínio linguístico foram estudados a emoção à luz da abordagem componencial psicológica de Scherer (1994; 2000; 2005), a Roda da Emoção (Scherer, 2005) e o fenômeno linguístico da oposição (Lyons, 1977; Cruse, 1986; 2000; Murphy, 2003). Com vistas ao domínio linguístico-computacional foi proposta uma descrição formalizável dos adjetivos tendo em vista a teoria da oposição estudada e a Roda da Emoção. O domínio computacional será realizado por uma equipe de informatas da Unisinos, parceiros do projeto “MAS-EaD: Mapeamento automático de sentimentos na EaD: a construção de um léxico de emoção”, financiado pela FAPERGS. Os resultados da investigação revelam que a literatura apresenta dois tipos de oposição, a complementar e a antonímia, sendo que somente casos de antonímia foram encontrados em nosso corpus. Desse modo, a relação de oposição é a principal relação para a Análise de Sentimentos, uma vez que esta identifica sentimentos contrários. Além disso, a relação de oposição se mostrou importante para organizar as polaridades dos sentimentos da Roda da Emoção de Scherer. / The aim of this dissertation was to describe semantically adjectives opposition of sentiments domain in the Distance Education context. The purpose was to enrich an emotion lexicon which will be used as a database for a sentiment analyzer to identify automatically sentiments expressed by students on the open source learning platform Moodle. One of the justifications for building a sentiment analyzer applied to the distance education context is the belief that one of the factors that contribute to its success is the capacity of the teacher/tutor to identify as quickly as possible how students are feeling using the platform. Students’ declarations are diffused in several tolls in the platform and for this reason their identification and a quick response to students are less effective what can influence the evasion in courses and disciplines on a distance basis. This study is interdisciplinary, founded in Cognitive Linguistics (Cruse, 1986; 2000), interaction with Automatic Processing of Natural Language, from the Computacional Lexical Semantic Theory in the Sentiment Analysis (Pang e Lee, 2008; Liu, 2012). As an interdisciplinary study, the methodology comprehend three domains which complement one another: linguistic, computational-linguistic and computational (Dias-da-Silva, 1996; 1998; 2003). At regarding linguistic domains the emotion according to the componential psychologic approach from Scherer (1994; 2000; 2005; 2013), the Geneva Emotion Wheel (Scherer, 2005) and the linguistic phenomenon of opposition (Lyons, 1977; Cruse, 1986; 2000; Murphy, 2003) were studied. At concerning the computational linguistic domain a formalizable description of adjectives was proposed with respect to the opposition theory studied and the Geneva Emotion Wheel. The computational domain will be done by a computer science team from Unisinos, who are working with us in the project “MAS-EaD: Automatic sentiment mining in distance education: building an emotion lexicon”, defrayed by FAPERGS. The findings of this investigation showed that the literature presents two types of opposition, complementary and antonym, but only antonym cases were found in our corpus. Thereby, the opposition relation is the main relation for the Sentiment Analysis, because it identifies opposite sentiments. Besides, the opposition relation is important to organize sentiment polarities of the Geneva Emotion Wheel of Scherer. EaD Análise de sentimentos Roda da emoção Oposição Distance education Sentiment analysis Geneva emotion wheel Opposition
16	Mineração de opiniões baseada em aspectos para revisões de produtos e serviços / Aspect-based Opinion Mining for Reviews of Products and Services Yugoshi, Ivone Penque Matsuno 27 April 2018 (has links) A Mineração de Opiniões é um processo que tem por objetivo extrair as opiniões e suas polaridades de sentimentos expressas em textos em língua natural. Essa área de pesquisa tem ganhado destaque devido ao volume de opiniões que os usuários compartilham na Internet, como revisões em sites de e-commerce, rede sociais e tweets. A Mineração de Opiniões baseada em Aspectos é uma alternativa promissora para analisar a polaridade do sentimento em um maior nível de detalhes. Os métodos tradicionais para extração de aspectos e classificação de sentimentos exigem a participação de especialistas de domínio para criar léxicos ou definir regras de extração para diferentes idiomas e domínios. Além disso, tais métodos usualmente exploram algoritmos de aprendizado supervisionado, porém exigem um grande conjunto de dados rotulados para induzir um modelo de classificação. Os desafios desta tese de doutorado estão relacionados a como diminuir a necessidade de grande esforço humano tanto para rotular dados, quanto para tratar a dependência de domínio para as tarefas de extração de aspectos e classificação de sentimentos dos aspectos para Mineração de Opiniões. Para reduzir a necessidade de grande quantidade de exemplos rotulados foi proposta uma abordagem semissupervisionada, denominada por Aspect-based Sentiment Propagation on Heterogeneous Networks (ASPHN) em que são propostas representações de textos nas quais os atributos linguísticos, os aspectos candidatos e os rótulos de sentimentos são modelados por meio de redes heterogêneas. Para redução dos esforços para construir recursos específicos de domínio foi proposta uma abordagem baseada em aprendizado por transferência entre domínios denominada Cross-Domain Aspect Label Propagation through Heterogeneous Networks (CD-ALPHN) que utiliza dados rotulados de outros domínios para suportar tarefas de aprendizado em domínios sem dados rotulados. Nessa abordagem são propostos uma representação em uma rede heterogênea e um método de propagação de rótulos. Os vértices da rede são os aspectos rotulados do domínio de origem, os atributos linguísticos e os candidatos a aspectos do domínio alvo. Além disso, foram analisados métodos de extração de aspectos e propostas algumas variações para considerar cenários nãosupervisionados e independentes de domínio. As soluções propostas nesta tese de doutorado foram avaliadas e comparadas as do estado-da-arte utilizando coleções de revisões de diferentes produtos e serviços. Os resultados obtidos nas avaliações experimentais são competitivos e demonstram que as soluções propostas são promissoras. / Opinion Mining is a process that aims to extract opinions and their sentiment polarities expressed in natural language texts. This area of research has been in the highlight because of the volume of opinions that users share on the available visualization means on the Internet (reviews on e-commerce sites, social networks, tweets, others). Aspect-based Opinion Mining is a promising alternative for analyzing the sentiment polarity on a high level of detail. The traditional methods for aspect extraction and sentiment classification require the participation of domain experts to create lexicons or define extraction rules for different languages and domains. In addition, such methods usually exploit supervised machine learning algorithms, but require a large set of labeled data to induce a classification model. The challenges of this doctoral thesis are related on to how to reduce the need for great human effort both: (i) to label data; and (ii) to treat domain dependency for the tasks of aspect extraction and aspect sentiment classification for Opinion Mining. In order to reduce the need for a large number of labeled examples, a semi-supervised approach was proposed, called Aspect-based Sentiment Propagation on Heterogeneous Networks (ASPHN). In this approach, text representations are proposed in which linguistic attributes, candidate aspects and sentiment labels are modeled by heterogeneous networks. Also, a cross-domain learning approach called Cross-Domain Aspect Label Propagation through Heterogeneous Networks (CD-ALPHN) is proposed in order to reduce efforts to build domain-specific resources, This approach uses labeled data from other domains to support learning tasks in domains without labeled data. A representation in a heterogeneous network and a label propagation method are proposed in this cross-domain learning approach. The vertices of the network are the labeled aspects of the source domain, the linguistic attributes, and the candidate aspects of the target domain. In addition, aspect extraction methods were analyzed and some variations were proposed to consider unsupervised and domain independent scenarios. The solutions proposed in this doctoral thesis were evaluated and compared to the state-of-the-art solutions using collections of different product and service reviews. The results obtained in the experimental evaluations are competitive and demonstrate that the proposed solutions are promising. Análise de sentimentos Aprendizado semissupervisionado Aspect extraction Cross-domain transfer learning Extração de aspectos Mineração de opiniões Opinion mining Semi-supervised learning Sentiment analysis
17	Reflexões sobre uma experiência com a produção de textos on-line: uma análise das emoções expressas por alunos de ensino fundamental Silva, Leandro Coimbra da 29 February 2016 (has links) Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2016-11-01T12:08:09Z No. of bitstreams: 1 Leandro Coimbra da Silva_.pdf: 3140075 bytes, checksum: c4d33da9807ccf22dd0841313010a4d6 (MD5) / Made available in DSpace on 2016-11-01T12:08:09Z (GMT). No. of bitstreams: 1 Leandro Coimbra da Silva_.pdf: 3140075 bytes, checksum: c4d33da9807ccf22dd0841313010a4d6 (MD5) Previous issue date: 2016-02-29 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / FAPERGS - Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul / Neste trabalho, pretendo identificar como os alunos de uma turma de 6º ano de uma escola pública de Novo Hamburgo expressam linguisticamente a percepção de sua primeira experiência de produção de textos a partir do Moodle. Assim, busco refletir sobre as implicações de tal percepção para o processo de ensino e aprendizagem visando ao letramento digital. Nesse cenário, então, propusemos cinco aulas em uma turma institucional do Moodle entre junho e julho de 2014. As aulas foram orientadas a partir do programa da Olimpíada Brasileira de Língua Portuguesa e as postagens dos diários do ambiente virtual compõem o nosso corpus de pesquisa. Com isso, busquei construir caminhos para entender a tríade ensino on-line/cibercultura/letramento digital através da fundamentação teórica que parte do Sistema da Avaliatividade (MARTIN; WHITE, 2005) auxiliado pela abordagem da Psicologia Cognitiva (SCHERER, 2005), na intersecção entre letramento digital (SOARES, 2002; COSCARELLI, 2014) e multiletramentos (ROJO, 2009; 2012) e nas problemáticas atinentes à cibercultura/ciberespaço (LÉVY, 1999; LEMOS, 2000-2008). A metodologia de análise está amparada nas categorias conceituais do Sistema de Avaliatividade e nas problemáticas norteadoras trazidas pela tríade em Rojo (2009), Soares (2002, 2003, 2010), Coscarelli e Santos (2007), Coscarelli (2014) Franciosi, Medeiros e Cola (2003), Tori (2009), Lemos (2000), Lévy (1999), Dias (1999), Freitas (2010) e Santaella (2013). Nesse processo, os dados foram organizados a partir da concepção de Grupos de Avaliação (GAs) (WHITELAW, GARG; ARGAMON, 2005), que são grupos coerentes de palavras que expressam em conjunto uma atitude particular. Os resultados mostram a ocorrência de 183 adjetivos distribuídos em 163 GAs, de onde extraímos para reflexão as categorias de análise (1) aula, (2) Moodle, (3) produção, (4) experiência e (5) avaliador. Nossa análise mostra que o Sistema de Avaliatividade é um método eficaz tanto de avaliação do ambiente digital, consolidando-se como lugar de ensino aprendizagem no ensino fundamental, como para o mapeamento do léxico da emoção da faixa etária que compõe o grupo analisado. Mais que isso, mostra a possibilidade de um cenário de satisfação do aluno de ensino fundamental para com o processo de letramento digital a partir do ambiente virtual de aprendizagem / This work aims to identify how students from a 6th grade class at a public school in Novo Hamburgo, Brazil, linguistically express the perception of their first text production experience from Moodle. Thus, I tried to reflect on the implications of this perception to the process of teaching and learning aiming at the digital literacy. In this setting, then, we proposed five classes in a Moodle institutional group from June to July, 2014. The classes were driven from the Brazilian Olympiad of Portuguese Language program, and the daily postings of the virtual environment constitute our research corpus. Having that, I sought to build pathways to understand the triad on-line teaching/cyberculture/digital literacy through a theoretical background which considers the Appraisal Theory (MARTIN; WHITE, 2005) aided by the approach of Cognitive Psychology (SCHERER, 2005), at the intersection between digital literacy (SOARES, 2002; COSCARELLI, 2014) and multiliteracies (ROJO, 2009; 2012), and the issues relating to cyberculture/cyberspace (LÉVY, 1999; LEMOS, 2000-2008). The analysis methodology is supported on the conceptual categories of the Appraisal Theory and on the guiding questions brought by the triad at Rojo (2009), Soares (2002, 2003, 2010), Coscarelli and Santos (2007), Coscarelli (2014) Franciosi, Medeiros and Cola (2003), Tori (2009), Lemos (2000), Lévy (1999), Dias (1999), Freitas (2010) and Santaella (2013). In this process, data is organized from the Appraisal Groups (AGs) design (WHITELAW, GARG; ARGAMON, 2005), which are coherent groups of words that together express a particular attitude. The results show the occurrence of 183 adjectives distributed in 163 AGs, from which we extract to reflect the categories of analysis (1) class, (2) Moodle, (3) production, (4) experience and (5) evaluator. Our analysis shows that the Appraisal Theory is an effective method both to evaluate the digital environment, consolidating its position as a teaching-learning place in primary education, and for the emotion lexical mapping of the age group that constitutes the analyzed group. Moreover, it shows the possibility of a satisfaction setting of an elementary school student to the process of digital literacy from the virtual learning environment. Letramento digital Sistema da avaliatividade Análise de sentimentos Cibercultura Blended learning Digital literacy Appraisal theory Sentiment analysis Blended learning Cyberculture
18	Análise de sentimentos em reclamações: uma aplicação no maior site de reclamações do Brasil Gonçalves, Cristiano de Andrade 22 July 2016 (has links) Submitted by Cristiano de Andrade Gonçalves (cristianogoncalves@yahoo.com.br) on 2016-07-15T00:18:37Z No. of bitstreams: 1 Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-07-20T12:51:19Z (GMT) No. of bitstreams: 1 Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2016-07-25T13:27:52Z (GMT) No. of bitstreams: 1 Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) / Made available in DSpace on 2016-07-25T13:29:08Z (GMT). No. of bitstreams: 1 Dissertação Cristiano Gonçalves completa.pdf: 793794 bytes, checksum: 25b9c77cb59d14b9ecddf59b69643200 (MD5) Previous issue date: 2016-07-22 / A análise de sentimentos é uma ferramenta com grande potencial, podendo ser aplicada em vários contextos. Esta dissertação tem com o objetivo analisar a viabilidade da aplicação da técnica numa base capturada do site de reclamações mais popular do Brasil, com a aplicação de técnicas de processamento de linguagem natural e de aprendizagem de máquinas é possível identificar padrões na satisfação ou insatisfação dos consumidores. Comportamento do consumidor Análise de sentimentos Processamento de linguagem natural Aprendizagem por máquinas Matemática Mineração de dados (Computação)
19	Análise de sentimento para textos curtos Avila, Gustavo Vianna 10 March 2017 (has links) Submitted by Gustavo Vianna Avila (guavila@gmail.com) on 2017-03-30T18:26:08Z No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2017-04-07T15:10:23Z (GMT) No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Made available in DSpace on 2017-04-12T19:10:52Z (GMT). No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) Previous issue date: 2017-03-10 / A huge number of short informal messages are posted every day in social network sites, discussion forums and customer surveys. Emotions seem to be frequently important in these texts. The challenge of identifying and understanding an emotion present in this type of communication is important in distinguishing the sentiment in the text and also in identifying anomalous and inappropriate behaviors, eventually offering some kind of risk. This work proposes the implementation of a sentiment analysis solution based on machine learning. Using supervised learning techniques, it is desired to discern whether a message has a positive, neutral, or negative sentiment. The messages to be analyzed are IT service satisfaction surveys. Two models were used in the analysis, the first model where only the ”Comment”, a nonstructured text field was considered and the second model, where besides the ”Comment”field, two objective questions were considered. The results obtained indicate that the techniques of machine learning, are not behind the results produced by human-produced baselines. The accuracy obtained was up to 86.8% accuracy for a three class model: ”praise”, ”neutral”and ”complaint”. Accuracy was significantly higher, reaching up to 94.5 % in an alternative model of only two classes: ”praise”and ”non-praise”. / Um grande número de mensagens curtas informais são postadas diariamente em redes sociais, fórums de discussão e pesquisas de satisfação. Emoções parecem ser importantes de forma frequente nesses textos. O desafio de identificar e entender a emoção presente nesse tipo de comunicação é importante para distinguir o sentimento presente no texto e também para identificar comportamentos anômalos e inapropriados, eventualmente oferecendo algum tipo de risco. Este trabalho propõe a implementação de uma solução para a análise de sentimento de textos curtos baseada em aprendizado por máquina. Utilizando técnicas de aprendizado supervisionado, é desejado discernir se uma mensagem possui sentimento positivo, neutro ou negativo. As mensagens a serem analisadas serão pesquisas de satisfação de serviços de TI. Foram utilizados nas análises dois modelos, o primeiro modelo onde apenas o campo de texto livre "Comentário" foi considerado e o segundo modelo, onde além do campo de texto livre "Comentário", foram consideradas, adicionalmente, duas perguntas objetivas da pesquisa de satisfação. Os resultados obtidos indicam que as técnicas utilizadas de aprendizado por máquina, não ficam atrás dos resultados produzidos por aprendizado humano. A acurácia obtida foi de até 86,8% de acerto para um modelo de três classes: "elogio", "neutro" e "reclamação". A acurácia foi significativamente superior, alcançando até 94,5% em um modelo alternativo, de apenas duas classes: "elogio" e "não-elogio". Mineração de dados Processamento da linguagem natural Aprendizado do computador Análise de Sentimentos Tecnologia Mineração de dados (Computação) Aprendizado do computador Modelagem de dados
20	Using supervised machine learning and sentiment analysis techniques to predict homophobia in portuguese tweets Pereira, Vinicius Gomes 16 April 2018 (has links) Submitted by Vinicius Pereira (viniciusgomespe@gmail.com) on 2018-06-26T20:56:26Z No. of bitstreams: 1 DissertacaoFinal.pdf: 2029614 bytes, checksum: 3eda3dc97f25c0eecd86608653150d82 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2018-07-11T12:40:51Z (GMT) No. of bitstreams: 1 DissertacaoFinal.pdf: 2029614 bytes, checksum: 3eda3dc97f25c0eecd86608653150d82 (MD5) / Made available in DSpace on 2018-07-16T17:48:51Z (GMT). No. of bitstreams: 1 DissertacaoFinal.pdf: 2029614 bytes, checksum: 3eda3dc97f25c0eecd86608653150d82 (MD5) Previous issue date: 2018-04-16 / Este trabalho estuda a identificação de tweets homofóbicos, utilizando uma abordagem de processamento de linguagem natural e aprendizado de máquina. O objetivo é construir um modelo preditivo que possa detectar, com razoável precisão, se um Tweet contém conteúdo ofensivo a indivı́duos LGBT ou não. O banco de dados utilizado para treinar os modelos preditivos foi construı́do agregando tweets de usuários que interagiram com polı́ticos e/ou partidos polı́ticos no Brasil. Tweets contendo termos relacionados a LGBTs ou que têm referências a indivı́duos LGBT foram coletados e classificados manualmente. Uma grande parte deste trabalho está na construção de features que capturam com precisão não apenas o texto do tweet, mas também caracterı́sticas especı́ficas dos usuários e de expressões coloquiais do português. Em particular, os usos de palavrões e vocabulários especı́ficos são um forte indicador de tweets ofensivos. Naturalmente, n-gramas e esquemas de frequência de termos também foram considerados como caracterı́sticas do modelo. Um total de 12 conjuntos de recursos foram construı́dos. Uma ampla gama de técnicas de aprendizado de máquina foi empregada na tarefa de classificação: Naive Bayes, regressões logı́sticas regularizadas, redes neurais feedforward, XGBoost (extreme gradient boosting), random forest e support vector machines. Depois de estimar e ajustar cada modelo, eles foram combinados usando voting e stacking. Voting utilizando 10 modelos obteve o melhor resultado, com 89,42% de acurácia. / This work studies the identification of homophobic tweets from a natural language processing and machine learning approach. The goal is to construct a predictive model that can detect, with reasonable accuracy, whether a Tweet contains offensive content to LGBT or not. The database used to train the predictive models was constructed aggregating tweets from users that have interacted with politicians and/or political parties in Brazil. Tweets containing LGBT-related terms or that have references to open LGBT individuals were collected and manually classified. A large part of this work is in constructing features that accurately capture not only the text of the tweet but also specific characteristics of the users and language choices. In particular, the uses of swear words and strong vocabulary is a quite strong predictor of offensive tweets. Naturally, n-grams and term weighting schemes were also considered as features of the model. A total of 12 sets of features were constructed. A broad range of machine learning techniques were employed in the classification task: naive Bayes, regularized logistic regressions, feedforward neural networks, extreme gradient boosting (XGBoost), random forest and support vector machines. After estimating and tuning each model, they were combined using voting and stacking. Voting using 10 models obtained the best result, with 89.42% accuracy. Sentiment Analysis Machine Learning Supervised learning Ensemble Methods Homophobia Análise de sentimentos Aprendizagem de máquina Aprendizagem supervisionada Mineração de dados (Computação) Aprendizado do computador Modelagem de dados Homofobia

Search results