Este trabalho tem como objetivo discutir o estado da arte e propor melhorias em uma área de grande potencial e de crescimento recente na computação: a análise do estado emocional do usuário de um sistema de informação e a aplicação dessa observação em cenários ricos de interação homem-máquina. Para foco em um escopo tratável, escolheu-se o estudo das técnicas atuais de captação afetiva através de três sensores diferentes (expressões faciais, expressões vocais e contexto semântico) e de como sua combinação poderia resultar em dados mais robustos sobre o estado emocional do usuário, em uma aplicação conhecida como Fusão Multimodal. Nesse sentido, o trabalho levanta não apenas a bibliografia recente sobre o estado da arte da aquisição de dados nas três áreas e em fusão, mas também aplica algumas das ferramentas existentes (tanto comerciais como abertas) para melhor compreensão do nível atual da tecnologia acessível ao público acadêmico. Dada a inexistência de uma aplicação facilmente disponível para análise de emoções no contexto semântico, desenvolveu-se uma ferramenta dedicada à pesquisa, nomeada emoCrawler, a qual utiliza redes sociais para avaliação do caráter emocional que palavras indiretamente podem acarretar em uma discussão. O emoCrawler busca avaliar as emoções evocadas em usuários de Twitter e as compara com um dicionário emocional conhecido, baseado em contribuições acadêmicas diversas, gerando um resultado quantitativo útil ao escopo do trabalho. Por fim, o trabalho lançou mão da ferramenta emoCrawler e das outras ferramentas selecionadas para análise de expressões faciais e vocais na criação de um sistema de fusão sensorial que aumente a confiabilidade global da emoção detectada. Para isso, inicialmente um corpus de áudio e vídeo disponível foi tratado e reduzido para o escopo da pesquisa. Em seguida, diferentes técnicas de fusão baseadas em algoritmos de classificação foram aplicadas (redes neurais, Naive Bayes e Support Vector Machine), com abordagens distintas de treinamento para busca de resultados melhores dos que os encontrados nas aplicações unimodais. Os resultados verificados de fato indicam para uma melhor taxa de detecção quando é aplicado o algoritmo de fusão. Nesse processo, a presença de dados fornecidos pelo emoCrawler parece ter contribuído positivamente. / This work aims at discussing the state of the art and proposing improvements in a field of great potential and recent growth in computing: the analysis of the emotional state of the user of an information system and the application of such observations in rich scenarios of human-machine interaction. In a tractable scope of research, this work evaluates the current techniques of affective observation applied on three different inputs (facial expressions, speech features and semantic context) and comprehends how their combination can result in more robust affirmations on the actual emotional status of the user an application called Multimodal Fusion. In this sense, the work presents not only the recent literature on the state of the art in data acquisition in the three aforementioned areas and in fusion, but also applies some of the existing tools (both commercial and open) for a better understanding of the current level of technology available to the academic audience. Given the lack of an application readily available for the analysis of semantic context in emotions, a dedicated piece of software to the research was developed, entitled emoCrawler, which uses social networks as a means to evaluate the emotional signature that words may leave in a discussion. emoCrawler aims at evaluating emotions evoked in Twitter users and comparing them with an emotion dictionary built around academic contributions, generating a quantitative result useful to this research. Finally, this work made use of emoCrawler and the other selected tools for both facial and speech expressions in the creation of a sensor fusion system to enhance the global reliability of the affective detection. To achieve this, an audiovisual database was initially processed and condensed. Then, different fusion techniques based on classification algorithms with distinct learning approaches (neural networks, naïve Bayes and Support Vector Machine) were applied in the pursuit of better outcomes than the unimodal applications. The final results indeed point to a better rate of detection when fusion algorithms are applied. In this process, the data provided by emoCrawler seems to have contributed positively.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-06072014-222834 |
Date | 23 May 2013 |
Creators | Cueva, Diego Ruivo |
Contributors | Cozman, Fabio Gagliardi |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.002 seconds