1 |
[en] MACHINE LEARNING FOR SENTIMENT CLASSIFICATION / [pt] APRENDIZADO DE MÁQUINA PARA O PROBLEMA DE SENTIMENT CLASSIFICATIONPEDRO OGURI 18 May 2007 (has links)
[pt] Sentiment Analysis é um problema de categorização de texto
no qual deseja-se identificar opiniões favoráveis e
desfavoráveis com relação a um tópico.
Um exemplo destes tópicos de interesse são organizações e
seus produtos. Neste problema, documentos são
classificados pelo sentimento, conotação,
atitudes e opiniões ao invés de se restringir aos fatos
descritos neste. O principal desafio em Sentiment
Classification é identificar como sentimentos são
expressados em textos e se tais sentimentos indicam uma
opinião positiva (favorável) ou negativa (desfavorável)
com relação a um tópico. Devido ao crescente volume de
dados disponível na Web, onde todos tendem
a ser geradores de conteúdo e expressarem opiniões sobre
os mais variados assuntos, técnicas de Aprendizado de
Máquina vem se tornando cada vez mais atraentes.
Nesta dissertação investigamos métodos de Aprendizado de
Máquina para Sentiment Analysis. Apresentamos alguns
modelos de representação de documentos como saco de
palavras e N-grama. Testamos os classificadores
SVM (Máquina de Vetores Suporte) e Naive Bayes com
diferentes modelos de representação textual e comparamos
seus desempenhos. / [en] Sentiment Analysis is a text categorization problem in
which we want to
identify favorable and unfavorable opinions towards a
given topic. Examples
of such topics are organizations and its products. In this
problem, docu-
ments are classifed according to their sentiment,
connotation, attitudes and
opinions instead of being limited to the facts described
in it.
The main challenge in Sentiment Classification is
identifying how sentiments
are expressed in texts and whether they indicate a
positive (favorable) or
negative (unfavorable) opinion towards a topic. Due to the
growing volume
of information available online in an environment where we
all tend to be
content generators and express opinions on a variety of
subjects, Machine
Learning techniques have become more and more attractive.
In this dissertation, we investigate Machine Learning
methods applied to
Sentiment Analysis. We present document representation
models such as
bag-of-words and N-grams.We compare the performance of the
Naive Bayes
and the Support Vector Machine classifiers for each
proposed model
|
2 |
[en] REAL TIME EMOTION RECOGNITION BASED ON IMAGES USING ASM AND SVM / [pt] RECONHECIMENTO DE EMOÇÕES ATRAVÉS DE IMAGENS EM TEMPO REAL COM O USO DE ASM E SVMGUILHERME CARVALHO CUNHA 09 July 2014 (has links)
[pt] As expressões faciais transmitem muita informação sobre um indivíduo, tornando a capacidade de interpretá-las uma tarefa muito importante, com aplicações em diversas áreas, tais como Interação Homem Máquina, Jogos Digitais, storytelling interativo e TV/Cinema digital. Esta dissertação discute o processo de reconhecimento de emoções em tempo real usando ASM (Active Shape Model) e SVM (Support Vector Machine) e apresenta uma comparação entre duas formas comumente utilizadas na etapa de extração de atributos: faces neutra e média. Como não existe tal comparação na literatura, os resultados apresentados são valiosos para o desenvolvimento de aplicações envolvendo expressões de emoção em tempo real. O presente trabalho considera seis tipos de emoções: felicidade, tristeza, raiva, medo, surpresa e desgosto. / [en] The facial expressions provide a high amount of information about a person, making the ability to interpret them a high valued task that can be used in several fields of Informatics such as Human Machine Interface, Digital Games, interactive storytelling and digital TV/Cinema. This dissertation discusses the process of recognizing emotions in real time using ASM (Active Shape Model) and SVM (Support Vector Machine) and
presents a comparison between two commonly used ways when extracting the attributes: neutral face and average. As such comparison can not be found in the literature, the results presented are valuable to the development of applications that deal with emotion expression in real time. The current study considers six types of emotions: happiness, sadness, anger, fear, surprise and disgust.
|
3 |
[en] SEMANTIC ROLE-LABELING FOR PORTUGUESE / [pt] ANOTADOR DE PAPEIS SEMÂNTICOS PARA PORTUGUÊSARTHUR BELTRAO CASTILHO NETO 23 June 2017 (has links)
[pt] A anotação de papeis semânticos (APS) é uma importante tarefa do processamento de linguagem natural (PLN), que possibilita estabelecer uma relação de significado entre os eventos descritos em uma sentença e seus participantes. Dessa forma, tem o potencial de melhorar o desempenho de inúmeros outros sistemas, tais como: tradução automática, correção ortográfica, extração e recuperação de informações e sistemas de perguntas e respostas, uma vez que reduz as ambiguidades existentes no texto de entrada. A grande maioria dos sistemas de APS publicados no mundo realiza a tarefa empregando técnicas de aprendizado supervisionado e, para obter melhores resultados, usam corpora manualmente revisados de tamanho considerável. No caso do Brasil, o recurso lexical que possui anotações semânticas (Propbank.br) é muito menor. Por isso, nos últimos anos, foram feitas tentativas de melhorar esse resultado utilizando técnicas de aprendizado semisupervisionado ou não-supervisionado. Embora esses trabalhos tenham contribuido direta e indiretamente para a área de PLN, não foram capazes de superar o desempenho dos sistemas puramente supervisionados. Este trabalho apresenta uma abordagem ao problema de anotação de papéis semânticos no idioma português. Utilizamos aprendizado supervisionado sobre um conjunto de 114 atributos categóricos e empregando duas técnicas de regularização de domínio, combinadas para reduzir o número de atributos binários em 96 por cento. O modelo gerado usa uma support vector machine com solver L2-loss dual support vector classification e é testado na base PropBank.br, apresentando desempenho ligeiramente superior ao estado-da-arte. O sistema é avaliado empiricamente pelo script oficial da CoNLL 2005 Shared Task, obtendo 82,17 por cento de precisão, 82,88 por cento de cobertura e 82,52 por cento de F1 ao passo que o estado-da-arte anterior atinge 83,0 por cento de precisão, 81,7 por cento de cobertura e 82,3 por cento de F1. / [en] Semantic role-labeling (SRL) is an important task of natural language processing (NLP) which allows establishing meaningful relationships between events described in a given sentence and its participants. Therefore, it can potentially improve performance on a large number of NLP systems such as automatic translation, spell correction, information extraction and retrieval and question answering, as it decreases ambiguity in the input text. The vast majority of SRL systems reported so far employed supervised learning techniques to perform the task. For better results, large sized manually reviewed corpora are used. The Brazilian semantic role labeled lexical resource (Propbank.br) is much smaller. Hence, in recent years, attempts have been made to improve performance using semi supervised and unsupervised learning. Even making several direct and indirect contributions to NLP, those studies were not able to outperform exclusively supervised systems. This paper presents an approach to the SRL task in Portuguese language using supervised learning over a set of 114 categorical features. Over those, we apply a combination of two domain regularization methods to cut binary features down to 96 percent. We test a SVM model (L2-loss dual support vector classification) on PropBank.Br dataset achieving results slightly better than state-of-the-art. We empirically evaluate the system using official CoNLL 2005 Shared Task script pulling 82.17 percent precision, 82.88 percent coverage and 82.52 percent F1. The previous state-of-the-art Portuguese SRL system scores 83.0 percent precision, 81.7 percent coverage and 82.3 percent F1.
|
4 |
[en] REMOTE SENSING IMAGE CLASSIFICATION USING SVM / [pt] CLASSIFICAÇÃO DE IMAGENS DE SENSORIAMENTO REMOTO USANDO SVMRAPHAEL BELO DA SILVA MELONI 14 September 2017 (has links)
[pt] Classificação de imagens é o processo de extração de informação em imagens digitais para reconhecimento de padrões e objetos homogêneos, que em sensoriamento remoto propõe-se a encontrar padrões entre os pixels pertencentes a uma imagem digital e áreas da superfície terrestre, para uma análise posterior por um especialista. Nesta dissertação, utilizamos a metodologia de aprendizado de máquina support vector machines para o problema de classificação de imagens, devido a possibilidade de trabalhar com grande quantidades de características. Construímos classificadores para o problema, utilizando imagens distintas que contém as informações de espaços de cores RGB e HSB, dos valores altimétricos e do canal infravermelho de uma região. Os valores de relevo ou altimétricos contribuíram de forma excelente nos
resultados, uma vez que esses valores são características fundamentais de uma região e os mesmos não tinham sido analisados em classificação de imagens de sensoriamento remoto. Destacamos o resultado final, do problema de classificação de imagens, para o problema de identificação de piscinas com vizinhança dois. Os resultados obtidos são 99 por cento de acurácia, 100 por cento de precisão, 93,75 por cento de recall, 96,77 por cento de F-Score e 96,18 por cento de índice Kappa. / [en] Image Classification is an information extraction process in digital images for pattern and homogeneous objects recognition. In remote sensing it aims to find patterns from digital images pixels, covering an area of earth surface, for subsequent analysis by a specialist. In this dissertation, to this images classification problem we employ Support Vector Machines, a machine learning methodology, due the possibility of working with large quantities of features. We built classifiers to the problem using different image information, such as RGB and HSB color spaces, altimetric values and infrared channel of a region. The altimetric values contributed to excellent results, since these values are fundamental characteristics of a region and they were not previously considered in remote sensing images classification. We highlight the final result, for the identifying swimming pools problem, when neighborhood is two. The results have 99 percent accuracy, 100 percent precision, 93.75 percent of recall, 96.77 percent F-Score and 96.18 percent of Kappa index.
|
Page generated in 0.0469 seconds