1 |
PairClassif - Um Método para Classificação de Sentimentos Baseado em ParesSILVA, Nelson Gutemberg Rocha da 28 January 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-09T13:49:25Z
No. of bitstreams: 2
dissertacao_nelson.pdf: 1959923 bytes, checksum: ebe6bba80aefc9ee445580dddc4e9fd1 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T13:49:25Z (GMT). No. of bitstreams: 2
dissertacao_nelson.pdf: 1959923 bytes, checksum: ebe6bba80aefc9ee445580dddc4e9fd1 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-01-28 / Na última década, a Internet tem crescido de forma surpreendente, tornando-se uma das maiores bases de informações do mundo. Com o surgimento e o rápido cresci-mento de Blogs, Fóruns e Redes Sociais, milhões de usuários tornam públicas suas opi-niões sobre os mais diversos assuntos.
Esse tipo de informação é de grande auxílio para pessoas e empresas na hora de tomar uma decisão. Contudo, toda essa informação está dispersa na Web, em formato livre, tornando impraticável a análise manual dessas opiniões com o objetivo de se obter o “sentimento geral” acerca de um produto ou serviço. Automatizar essa tarefa é a me-lhor alternativa. Porém, interpretar textos em formato livre não é uma tarefa trivial para o computador, devido às irregularidades e à ambiguidade inerentes às línguas naturais.
Nesse contexto, estão surgindo sistemas que tratam as opiniões de forma auto-mática utilizando-se dos conceitos da área de Análise de Sentimentos (AS), também conhecido por Mineração de Opinião. A AS se preocupa em classificar opiniões expres-sas em textos, com respeito a um determinado produto ou serviço, como positivas ou negativas.
Muitos trabalhos foram propostos na área de Análise Sentimentos, porém, a maioria destes provê uma avaliação global para o sentimento expresso no texto. O Tra-balho aqui proposto busca realizar uma análise mais refinada, que é conhecida como Classificação em Nível de Característica. Nesse nível busca-se classificar a polaridade das opiniões sobre cada característica do objeto sendo monitorado.
O processo proposto classifica pares (característica, palavra opinativa), uma vez que alguns adjetivos mudam de polaridade a depender do substantivo que eles qua-lificam (e.g., “cerveja quente”, “pizza quente”). Utilizamos aqui técnicas baseadas em Estatística e Linguística, com apoio da ferramenta SentiWordNet [ESULI & SEBASTI-ANI, 2006]. Resultados experimentais mostraram que o processo tem alta eficácia, su-perando outros métodos existentes.
|
2 |
ADSP: um processo de análise de sentimento em debates polarizados não ideológicosRICARTE NETO, Francisco Assis 18 February 2014 (has links)
Submitted by Luiz Felipe Barbosa (luiz.fbabreu2@ufpe.br) on 2015-03-09T13:24:26Z
No. of bitstreams: 2
DISSERTAÇÃO Francisco Assis Ricarte Neto.pdf: 2704308 bytes, checksum: 7cdf74d63f92dd20ed995f23cefdd07a (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T13:24:26Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Francisco Assis Ricarte Neto.pdf: 2704308 bytes, checksum: 7cdf74d63f92dd20ed995f23cefdd07a (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-02-18 / Cada vez mais, pessoas recorrem a reviews, fóruns ou redes sociais em busca de opiniões
sobre produtos e serviços, para embasar suas decisões. Contudo, a análise manual dessas
opiniões não é um processo trivial, devido à enorme quantidade de informações disponíveis.
Outro problema comum são as opiniões falsas, ou propositadamente tendenciosas
sobre algum produto. Nestes casos, para se obter uma posição “confiável” dos usuário
acerca de algum item, é necessário buscar e analisar uma grande quantidade de opiniões.
Neste contexto, a Mineração de Opinião ou Análise de Sentimento (AS), vem auxiliar
os usuários que buscam opiniões na Web. A AS é a área de estudo que analisa opiniões,
sentimentos e emoções de pessoas acerca de algum tópico (produto, serviço, evento).
Este trabalho de Mestrado teve como objetivo principal a Análise de Sentimentos em
Debates Polarizados (e.g., iPhone x Blackberry), um domínio ainda pouco explorado pela
AS. O foco central é a classificação da postura dos participantes do debate (i.e., se apóiam
o produto A ou B). A partir dos resultados dessa análise, pode-se identificar, por exemplo,
que produto é o preferido no mercado. Contudo, esta é uma tarefa complexa, pois esses
debates são longos, e apresentam elementos que dificultam a classificação automática do
sentimento, tais como ironias ou ofensas direcionadas a outros participantes ou produtos.
Apresentamos aqui o ASDP, um Processo de Análise de Sentimento em Debates
Polarizados, com foco nos debates não ideológicos. Aqui, a classificação da postura dos
posts é feita com base na identificação de padrões linguísticos que foram observados
em corpora de debates polarizados. Esses padrões recuperam triplas do tipo <produto,
palavra opinativa, sentença>, que consideram o contexto de ocorrência dos termos para a
atribuição da classe do post. O ASDP também trata a ocorrência de referências anafóricas
e de concessões. O protótipo implementado conta ainda com um módulo para a criação
e análise de uma rede de replies em forma de grafo, a fim de auxiliar no processo de
classificação final da postura dos posts. Os resultados dos experimentos revelam taxas de
73,91% de acerto na classificação dos posts.
Os padrões linguísticos implementados neste trabalho foram desenvolvidos dentro da
abordagem de Sistemas Baseados em Conhecimento, o que torna fácil a reusabilidade
desta técnica em outros domínios, bem como garante uma fácil extensibilidade dos
padrões. Também foram desenvolvidas e utilizadas técnicas Linguísticas para auxiliar a
classificação dos posts dos debates.
|
3 |
Uma abordagem não supervisionada para classificação de opinião usando o recurso léxico SentiWordNetCAVALCANTI, Diana Cabral 31 January 2011 (has links)
Made available in DSpace on 2014-06-12T15:49:49Z (GMT). No. of bitstreams: 2
arquivo1261_1.pdf: 2414749 bytes, checksum: c01ef58dbd0f4ac1de0693518c0b51f4 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Mineração de Opinião, também chamada de Análise de Sentimento, explora o estudo computacional de opiniões, sentimentos e emoções expressadas em fontes como textos não estruturados. Com a crescente popularidade e disponibilidade de recursos para se veicular opiniões na Web, os internautas passaram a ser não só um mero consumidor de um produto já pronto, mas também um gerador de conteúdo na Web. A classificação de sentimento tem o desafio de automatizar a análise de opiniões na Web, a fim de colaborar na forma como as pessoas podem, fazem e usam ativamente as tecnologias de informação para buscar e compreender as opiniões dos outros. Diversas pesquisas têm explorado métodos supervisionados e não supervisionados para classificação de sentimento que abrangem técnicas de processamento de linguagem natural, recuperação da informação e recursos léxicos. Este trabalho propõe o uso do recurso Léxico SentiWordNet, com um método não supervisionado, que realiza a seleção de termos unigrama nas classes gramaticais adjetivo, advérbio, substantivo e verbo, para classificar a polaridade, se negativa, positiva ou neutra, de termos e documentos. A fim de avaliar o desempenho do método, experimentos foram realizados em duas bases de dados, que abrangem comentários extraídos do Amazon.com e citações em artigos científicos. Os resultados obtidos experimentalmente mostraram que o SentiWordNet atingiu uma média de 76% para o total de termos distintos extraídos, a maior taxa de acerto global foi 58% para a base de documentos do Amazon.com e 18.83% para a base de artigos científicos
|
4 |
Deep active learning using Monte Carlo Dropout / Aprendizado ativo profundo usando Monte Carlo DropoutMoura, Lucas Albuquerque Medeiros de 14 November 2018 (has links)
Deep Learning models rely on a huge amount of labeled data to be created. However, there are a number of areas where labeling data is a costly process, making Deep Learning approaches unfeasible. One way to handle that situation is by using the Active Learning technique. Initially, it creates a model with the available labeled data. After that, it incrementally chooses new unlabeled data that will potentially increase the model accuracy, if added to the training data. To select which data will be labeled next, this technique requires a measurement of uncertainty from the model prediction, which is usually not computed for Deep Learning methods. A new approach has been proposed to measure uncertainty in those models, called Monte Carlo Dropout . This technique allowed Active Learning to be used together with Deep Learning for image classification. This research will evaluate if modeling uncertainty on Deep Learning models with Monte Carlo Dropout will make the use of Active Learning feasible for the task of sentiment analysis, an area with huge amount of data, but few of them labeled. / Modelos de Aprendizado Profundo necessitam de uma vasta quantidade de dados anotados para serem criados. Entretanto, existem muitas áreas onde obter dados anotados é uma tarefa custosa. Neste cenário, o uso de Aprendizado Profundo se torna bastante difícil. Uma maneira de lidar com essa situação é usando a técnica de Aprendizado Ativo. Inicialmente, essa técnica cria um modelo com os dados anotados disponíveis. Depois disso, ela incrementalmente escolhe dados não anotados que irão, potencialmente, melhorar à acurácia do modelo, se adicionados aos dados de treinamento. Para selecionar quais dados serão anotados, essa técnica necessita de uma medida de incerteza sobre as predições geradas pelo modelo. Entretanto, tal medida não é usualmente realizada em modelos de Aprendizado Profundo. Uma nova técnica foi proposta para lidar com a problemática de medir a incerteza desses modelos, chamada de Monte Carlo Dropout . Essa técnica permitiu o uso de Aprendizado Ativo junto com Aprendizado Profundo para tarefa de classificação de imagens. Essa pesquisa visa averiguar se ao modelarmos a incerteza em modelos de Aprendizado Profundo com a técnica de Monte Carlo Dropout , será possível usar a técnica de Aprendizado Ativo para tarefa de análise de sentimento, uma área com uma vasta quantidade de dados, mas poucos deles anotados.
|
5 |
Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde / Sentiment analysis of Twitter’s messages in brazilian portuguese about health topics.Araujo, Gabriela Denise 31 July 2014 (has links) (PDF)
Submitted by Gabriela Araujo (gabriela.denise@unifesp.br) on 2017-09-12T21:02:52Z
No. of bitstreams: 1
DISSERTAÇÃO - GABRIELA DENISE DE ARAUJO.pdf: 1482312 bytes, checksum: 96da3bfe95afe2bd4424ada9c8c7b89a (MD5) / Approved for entry into archive by Diogo Misoguti (diogo.misoguti@gmail.com) on 2017-09-20T14:18:49Z (GMT) No. of bitstreams: 1
DISSERTAÇÃO - GABRIELA DENISE DE ARAUJO.pdf: 1482312 bytes, checksum: 96da3bfe95afe2bd4424ada9c8c7b89a (MD5) / Made available in DSpace on 2017-09-20T14:18:49Z (GMT). No. of bitstreams: 1
DISSERTAÇÃO - GABRIELA DENISE DE ARAUJO.pdf: 1482312 bytes, checksum: 96da3bfe95afe2bd4424ada9c8c7b89a (MD5)
Previous issue date: 2014-07-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Objetivo: Construir um método de classificação de sentimento, aqui denominado Sentiment Descriptor Indexing (SDI) ou Indexador de Descritores Sentimentais, para ser aplicado em mensagens do Twitter em português brasileiro relacionadas a temas de saúde possibilitando oferecer uma análise de sentimento com caracterização de aspectos da popularidade e repercussão dos temas. Métodos: A primeira etapa considerou a construção do algoritmo SDI que se baseia na coocorrência de termos do Twitter com descritores do vocabulário ANEW-BR. Emoticons e tratamento de negação foram incorporados no SDI. Na segunda etapa foi realizada uma avaliação do desempenho do algoritmo SDI para mensagens sobre o tema “câncer” de um pe-ríodo de três semanas. As mensagens foram classificadas por voluntários como sa-úde ou não saúde, e positiva, negativa ou neutra e em paralelo pelo SDI. As classifi-cações foram pareadas gerando uma avaliação de desempenho. Também foram geradas análise de sentimento e nuvem de termos. Na terceira etapa foi realizado um experimento de análise de sentimento para os temas “câncer” e “diabetes” em um período de seis meses, com análises de repercussão e popularidade. Resulta-dos: As classificações humana e SDI concordaram na classificação majoritária posi-tiva. Os valores de precisão e revocação resultaram 0,68 e 0,67 respectivamente, gerando melhor desempenho com f0,5-measure 0,68. No experimento coletou-se um total de 25.230 mensagens sobre o tema "câncer" com classificação de sentimento positiva (71%). Pela nuvem de palavras foi possível observar que celebridades, insti-tutos, hospitais, campanhas de saúde e tipos de câncer são assuntos populares so-bre o tema. Para o tema "diabetes" 3.328 mensagens foram coletadas com classifi-cação de sentimento positiva (78%). Para este tema as palavras mais frequentes, indicadas na nuvem de palavras, estavam relacionadas a alimentos e doenças como obesidade e hipertensão. Conclusão: Os resultados obtidos na etapa de avaliação do classificador SDI mostrou que o SDI teve um bom desempenho na tarefa de clas-sificar mensagens do Twitter sobre saúde comparada a classificação realizada por humanos. Entretanto, o tema escolhido retornou mensagens difíceis de serem rotu-ladas até mesmo pelos humanos, gerando discordâncias nas classificações. As con-tribuições deste trabalho visam suprir a falta de métodos de análise de sentimentos para a língua portuguesa brasileira bem como incentivar sua aplicação na melhoria de outras atividades em processamento de linguagem natural. / Objective: Build a sentiment classification method, named Sentiment Descriptor In-dexing (SDI), to be applied in Twitter’s messages in brazilian portuguese related to health topics, providing sentiment analysis with characterization of aspects of the popularity and impact of issues. Methods: The first step regarded the SDI algorithm construction that it is based on the cooccurence of Twitter's terms with descriptors of ANEW-BR vocabulary. Emoticons and deny treatment were embedded in the SDI. In the second step, an evaluation was performed in the algorithm SDI for messages related the topic "cancer" collected in a period of three weeks. The messages were classified by volunteers in topic about health or not health, and positive, negative or neutral and in parallel by the SDI. The ratings were paired generating a performance evaluation, sentiment analysis and cloud of terms. In the third step an experiment of sentiment analysis was performed for the topics "cancer" and "diabetes" in a period of six months, with analysis of impact and popularity. Results: The human and SDI classifications agreed in positive majority classification. The values of precision and recall resulted 0.68 and 0.67 respectively, the best performance was in f0,5-measure 0,68. In experiment, it was collected a total of 25,230 messages on "cancer" and the sentiment classification of these messages was positive (71%). Through the cloud of words was possible to observe that celebrities, institutes, hospitals, health campaigns and types of cancers are popular subjects on the topic. For the topic "diabetes", 3,328 messages were collected and the sentimental classification was positive (78%). For this topic the most frequent words, given the cloud of words were related to food and diseases such as obesity and hypertension. Conclusions: The results obtained in the evaluation step showed that the SDI had a good performance in the task of classifying Twitter’s messages about health topics compared the classification performed by humans. However, the topic chosen brought messages difficult to be labeled even by humans, causing disagreements in the classifications among them. The contributions of this work aims to meet the lack of sentiment analysis methods for the brazilian portuguese language and encourage its application in improving oth-er activities in natural language processing.
|
6 |
SentiHealth-Cancer: uma ferramenta de análise de sentimento para ajudar a detectar o humor de pacientes de câncer em uma rede social online / SentiHealth-Cancer: a sentiment analysis tool to help detecting mood of cancer patients in online social networkRodrigues, Ramon Gouveia 26 April 2016 (has links)
Submitted by Cássia Santos (cassia.bcufg@gmail.com) on 2016-08-10T13:36:21Z
No. of bitstreams: 2
Dissertação - Ramon Gouveia Rodrigues - 2016.pdf: 1747013 bytes, checksum: c84129f95e549109990ae9dbec6bc09f (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-08-10T13:46:59Z (GMT) No. of bitstreams: 2
Dissertação - Ramon Gouveia Rodrigues - 2016.pdf: 1747013 bytes, checksum: c84129f95e549109990ae9dbec6bc09f (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-08-10T13:46:59Z (GMT). No. of bitstreams: 2
Dissertação - Ramon Gouveia Rodrigues - 2016.pdf: 1747013 bytes, checksum: c84129f95e549109990ae9dbec6bc09f (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2016-04-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Cancer is a critical disease that affects millions of people and families around the world.
In 2012 about 14.1 million new cases of cancer occurred globally. Because of many
reasons like the severity of some cases, the side effects of some treatments and death
of other patients, cancer patients tend to be affected by serious emotional disorders,
like depression. Thus, the use of a behavioral tool that assists the detection of the
people mood can contribute to the monitoring of patients and family members during
treatment. Therefore, the objective of this work is to develop a Sentiment Analysis tool,
named SentiHealth-Cancer (SHC), to assist the detection of the emotional state of people
members of Brazilian virtual communities for support cancer patients. We conducted
a comparative study of the proposed method and a set of general-purpose Sentiment
Analysis tools. For this, we collected 789 messages of 8 Facebook communities and
considered 2.574 reviews of volunteers about the real sentiments expressed in these
messages. Thus, the performance of the tools were tested in each community, with
psychologists and non psychologists reviews and, where possible, with texts in Portuguese
and translated into English. The results showed that, overall, the proposed method
performance in this work is superior to other tools, both analyzing texts in Portuguese and
English. For example, its accuracy (56.64%) analyzing all messages shows a significant
increase of 11.78% compared to the greater accuracy (50.67%) presented by other tools. / O câncer é uma doença crítica que afeta milhões de pessoas e famílias em todo o mundo.
Em 2012, cerca de 14,1 milhões de novos casos de câncer ocorreram no mundo. Devido
a muitas razões, como a gravidade de alguns casos, os efeitos colaterais de alguns
tratamentos e morte de alguns pacientes, pessoas com câncer tendem a ser afetados
por graves distúrbios emocionais, por exemplo, a depressão. Assim, o uso de uma
ferramenta comportamental que auxilie a detecção do humor das pessoas pode contribuir
para o acompanhamento de pacientes e familiares durante o tratamento. Portanto, o
objetivo deste trabalho é desenvolver uma ferramenta de Análise de Sentimento, chamada
SentiHealth-Cancer (SHC), para auxiliar a detecção do estado emocional de pessoas
membros de comunidades virtuais brasileiras de apoio a pacientes de câncer. Foi realizado
um estudo comparativo entre a ferramenta proposta e outras quatro de ferramentas de
propósito geral de Análise de Sentimento. Para isso, foram coletadas 789 mensagens
de 8 comunidades do Facebook e consideradas 2.574 avaliações de voluntários sobre os
sentimentos reais expressos nessas mensagens. Com isso, foram testados os desempenhos
das ferramentas em cada comunidade, com avaliações de psicólogos e não psicólogos
e, quando possível, com textos em português e traduzidos para o inglês. Os resultados
demonstraram que, no geral, o desempenho do método proposto neste trabalho é superior
às outras ferramentas, tanto elas analisando textos em português quanto em inglês. Por
exemplo, sua acurácia (56.64%) analisando todas as mensagens apresenta um aumento
significativo de 11.78% em relação à maior acurácia (50.67%) apresentada pelas outras
ferramentas.
|
7 |
Uma proposta de representação linguístico-computacional da negação com vistas à análise de sentimentos em contexto de ensino e aprendizagem on-lineBelau, Francini Scipioni 11 January 2017 (has links)
Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2017-03-15T16:53:11Z
No. of bitstreams: 1
Francini Scipioni Belau_.pdf: 2278562 bytes, checksum: 806e6ee479b7b02ba595eb0759a37f05 (MD5) / Made available in DSpace on 2017-03-15T16:53:11Z (GMT). No. of bitstreams: 1
Francini Scipioni Belau_.pdf: 2278562 bytes, checksum: 806e6ee479b7b02ba595eb0759a37f05 (MD5)
Previous issue date: 2017-01-11 / Gvdasa - Inteligência Educacional / A temática deste trabalho estabelece um diálogo entre as áreas da educação a distância, linguística e processamento automático das línguas naturais (PLN). A proposta é responder às seguintes questões norteadoras: (i) como a negação da emoção se manifesta na superfície da língua? E (ii) que regras computacionais expressam a negação da emoção?. A metodologia do trabalho segue o proposto por Dias-da-Silva (2006), que organiza os trabalhos em PLN em três domínios de investigação complementares: (i) linguístico, (ii) linguístico-computacional e (iii) computacional. No primeiro domínio, o linguístico, descreve-se o fenômeno da negação e o seu uso. No domínio linguístico-computacional, vamos representar os padrões percebidos para orientar os especialistas a codificarem essas regras em uma linguagem computacional. Para propor a descrição linguístico-computacional dos modos de expressão da negação, a partir de um corpus construído em contexto de ensino a distância com base nos relatos diários e fóruns dos alunos, utilizamos como base a teoria abordada por Maria Helena de Moura Neves (2011). A etapa computacional, que prevê a implementação do sistema, é própria do informata e não será contemplada neste trabalho, será realizada por grupo de pesquisa parceiro em colaboração com a empresa GVDasa. Ao todo foram criadas 11 regras linguístico-computacionais que possibilita dar conta das propriedades linguísticas identificadas ao responder a questão (i) de pesquisa. As regras visam a contribuir para que um sistema computacional possa localizar os fenômenos da negação em textos e verificar a existência de inversões de polaridade e emoção. / The thematic of this work establishes a dialogue between the fields of distance learning, linguistics, and natural language processing (NLP). The proposal is to answer the following guiding questions: (i) how does the negation of emotion manifest itself on the surface of the language? and (ii) which computational rules express the negation of emotion? The methodology of this work follows the proposed by Dias-da-Silva (2006), who organizes the works in NLP in three complementary domains of investigation: (i) linguistics, (ii) computational-linguistics, and (iii) computational. In the first domain, the linguistic domain, the phenomenon of denial and its use is described. In the linguistic-computational domain, we will represent the perceived patterns in order to guide the experts to encode these rules in computational language. In order to propose the linguistic-computational description of the forms of expression of negation, through a corpus built in a distance learning context based on daily reports and students’ forums, we take as a base the theory approached by Maria Helena de Moura Neves (2011). The computational phase which forecasts the implementation of the system is pertinent to the computing technician and it will not be contemplated in this work, but it will be performed by a partner research group in collaboration with the GVDasa company. Altogether, 11 linguistic-computational rules were created that make it possible to account for the linguistic properties identified when answering the research question (i). The rules aim to contribute with a computational system to locate the phenomenon of negation in texts and verify the existence of inversions of polarity and emotion.
|
8 |
Filtragem baseada em conteúdo auxiliada por métodos de indexação colaborativa / Content-based filtering aided by collaborative indexing methodsD\'Addio, Rafael Martins 10 June 2015 (has links)
Sistemas de recomendação surgiram da necessidade de selecionar e apresentar conteúdo relevante a usuários de acordo com suas preferências. Dentre os diversos métodos existentes, aqueles baseados em conteúdo faz em uso exclusivo da informação inerente aos itens. Estas informações podem ser criadas a partir de técnicas de indexação automática e manual. Enquanto que as abordagens automáticas necessitam de maiores recursos computacionais e são limitadas á tarefa específica que desempenham, os métodos manuais são caros e propensos a erros. Por outro lado, com a expansão da Web e a possibilidade de usuários comuns criarem novos conteúdos e anotações sobre diferentes itens e produtos, uma alternativa é obter esses metadados criados colaborativamente pelos próprios usuários. Entretanto, essas informações, em especial revisões e comentários, podem conter ruídos, além de estarem em uma forma desestruturada. Deste modo, este trabalho1 tem como objetivo desenvolver métodos de construção de representações de itens baseados em descrições colaborativas para um sistema de recomendação. Objetiva-se analisar o impacto que diferentes técnicas de extração de características, aliadas à análise de sentimento, causam na precisão da geração de sugestões, avaliando-se os resultados em dois cenários de recomendação: predição de notas e geração de ranques. Dentre as técnicas analisadas, observa-se que a melhor apresenta um ganho no poder descritivo dos itens, ocasionando uma melhora no sistema de recomendação. / Recommender systems arose from the need to select and present relevant content to users according to their preferences. Among several existent methods, those based on content make exclusive use of information inherent to the items. This information can be created through automatic and manual indexing techniques. While automa-tic approaches require greater computing resources and are limited to the specific task they perform, manual methods are expensive and prone to errors. On the other hand, with the expansion of theWeb and the possibility of common users to create new content and descriptions about different items and products, an alternative is to get these metadata created collaboratively by the users. However, this information, especially reviews and comments, may contain noise, be- sides being in a unstructured fashion. Thus, this study aims to develop methods for the construction of items representations based on collaborative descriptions for a recommender system. This study aims to analyze the impact that different feature extraction techniques, combined with sentiment analysis, caused in the accuracy of the generated suggestions, evaluating the results in both recommendations cenarios: rating prediction and ranking generation. Among the analyzed techniques, it is observed that the best is able to describe items in a more effcient manner, resulting in an improvement in the recommendation system.
|
9 |
Uma arquitetura de pré-processamento para análise de sentimento em mídias sociais em português brasileiro / A pre-processing architecture for feeling in social media in Brazilian PortugueseCIRQUEIRA, Douglas da Rocha 23 August 2018 (has links)
Submitted by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:22:50Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) / Approved for entry into archive by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:23:19Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) / Made available in DSpace on 2018-10-31T16:23:20Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5)
Previous issue date: 2018-08-23 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A Web 2.0 e a evolução nas Tecnologias da Informação e Comunicação, têm impulsionado novos meios de interação e relacionamento. Neste contexto, as Redes Sociais Online (RSO) são um exemplo, como plataformas que permitem a interação e o compartilhamento de informações entre pessoas. Além disso, é possível observar que RSO passaram a ser adotadas como canal de desabafo de consumidores, por meio de opiniões sobre produtos e experiências. Este cenário apresenta uma ótima oportunidade para que empresas possam melhorar produtos, serviços e estratégias de mercado, já que as RSO são poderosas fontes massivas de dados não-estruturados gerados pelo consumidor (do inglês, User- Generated Content - UGC), com opiniões e avaliações sobre ofertas em plataformas tais como Facebook, Twitter e Instagram. O Brasil é um grande exemplo onde esse fenômeno pode ser observado e apresenta potencial oportunidade de exploração de mercado, dado que a população brasileira é uma das nações que mais utiliza RSO no mundo. Neste âmbito, técnicas computacionais de Mineração de Opinião (MO) ou Análise de Sentimento (AS) são aplicadas com o intuito de inferir a polaridade dominante (positivo, negativo, neutro) quanto ao sentimento associado a textos, e, podem ser aplicadas em dados de RSO a fim de avaliar o feedback do público-alvo. Apesar das diversas estratégias de AS reportadas na literatura, ainda há vários desafios enfrentados na aplicação de AS em textos oriundos de RSO, devido às características da linguagem utilizada em tais plataformas. O estado da arte de AS é voltado para a língua inglesa e as propostas existentes para Português Brasileiro (PT_Br) não apresentam uma metodologia padronizada nas tarefas de pré-processamento. Neste âmbito, esta pesquisa investiga uma metodologia sem tradução e propõe uma nova arquitetura expandida de pré-processamento de AS voltada para o PT_Br, a fim de prover atributos enriquecidos para os algoritmos de AS. A proposta foi comparada com modelos bem estabelecidos na literatura, e resultados obtidos indicam que esta pode superar o estado da arte em até 3% de revocação, para 6 de 7 bases de dados avaliadas. / The Web 2.0 and the evolution of Information Technologies have brought novel interaction and relationship channels. In this context, the Online Social Networks (OSN) are an example as platforms which allow interactions and sharing of information between people. In this scenario, it is possible to observe the adoption of OSN as a channel for posting opinions regarding products and experience. This scene presents an excellent opportunity for companies that aim to improve products, services and marketing strategies, given OSNs are powerful sources of massive unstructured data generated by consumers (UGC), with opinions and reviews concerning offers, in platforms such as Facebook, Twitter and Instagram. Brazil is a highlight in this scenario, where this phenomenon can be observed, as the Brazilian population is one of the most active in social media platforms in the world. This makes it a country full of opportunities to market exploitation. In this context, computational techniques of Opinion Mining and Sentiment Analysis (SA) are applied aiming to infer the polarity (positive, negative, neutral) regarding a sentiment associated to texts, and can also be applied in data from OSN to evaluate the feedback from a target audience. Although the existing diversity of SA strategies reported in the literature, there are still challenges faced in the application of SA in text data from OSN, given the characteristics of the language adopted in such platforms. The state of art is focused on SA towards the English language, and the existing proposals for Brazilian Portuguese do not have a standardized methodology for preprocessing steps. In this context, this research investigates an approach with no translation, and proposes a novel preprocessing architecture for SA towards Brazilian Portuguese, aiming to provide enriched features to SA algorithms. The proposal was compared with well-established baselines from the literature, and the obtained results indicate that this architecture can overcome the state of art recall in at least 3% , for 6 out of 7 datasets evaluated.
|
10 |
Um framework para reconhecimento de opinião utilizando Sistema de Informação Geográfica (SIG): um estudo de caso na geração de mapas / A framework for opinion recognition using the Geographic Information System (GIS): a case study in the generation of mapsNunes Neto, Gilberto 19 August 2016 (has links)
Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-07-03T18:15:15Z
No. of bitstreams: 1
GilbertoNunes.pdf: 2115811 bytes, checksum: 7e6f22622b699f30f43f51d50a8be819 (MD5) / Made available in DSpace on 2017-07-03T18:15:15Z (GMT). No. of bitstreams: 1
GilbertoNunes.pdf: 2115811 bytes, checksum: 7e6f22622b699f30f43f51d50a8be819 (MD5)
Previous issue date: 2016-08-19 / With the globalization of the Internet, the number of users using the means of social communication
it is each time bigger. The social network Twitter is a good example. Twitter is often used
to post comments on all kinds of subjects, such as artists, products, public health, among others.
The spread of information in these media is very important because it can reach people from
social class, anytime and anywhere in the world. Twitter supports geo-referenced comments.
This feature allows georeferenced tweets. One can use the comments obtained from Twitter to
evaluate how the reality of social network reflects the real world. In this sense, the present work
proposes a generic Framework that besides evaluating concepts related to the opinion mining,
describes the accomplishment of case studies, which analyze sources of textual opinions and
proposes to mine opinions at the level of aspect, using as sources of opinion Twitter comments.
A prototype extends and implements the proposed Framework to enable the process of opinion
mining in social networks. The results show the feasibility of using this Framework to support
decision making by its users. / Com a globalização da Internet, o número de usuários utilizando os meios de comunicação
social é cada vez maior. A Rede Social Twitter é um bom exemplo disso. Frequentemente, o
Twitter é utilizado para postar comentários sobre os mais variados tipos de assuntos, como:
artistas, produtos, saúde pública, dentre outros. A propagação da informação nesses meios
de comunicação é muito relevante, pois pode atingir pessoas de todas as classes sociais, a
qualquer hora e lugar do mundo. O Twitter, além de apresentar tamanha abrangência, permite
a postagem de comentários georreferenciados, ou seja, possibilita a localização de onde as
postagens foram feitas. Diversos estudos propõem a utilização das postagens obtidas a partir do
Twitter, para avaliar o quão esses meios de comunicação refletem o mundo real. Nesse sentido,
o presente trabalho propõe um Framework genérico que, além de avaliar conceitos relacionados
à mineração de opiniões, descreve a realização de estudos de caso, os quais analisam fontes
de opiniões textuais e propõe minerar opiniões em nível de aspecto, utilizando como fontes de
opinião comentários do Twitter. Um protótipo estende e implementa o Framework proposto
para viabilizar o processo de mineração de opinião em redes sociais. Os resultados obtidos
mostram a viabilidade da utilização desse Framework para suporte à tomada de decisão por
parte de seus usuários.
|
Page generated in 0.0353 seconds