11 |
[en] CLASSIFICATION OF HEMATITES IN IRON ORE: OPTIMIZATION OF IMAGE ACQUISITION AND PROCESSING / [pt] CLASSIFICAÇÃO DE HEMATITAS EM MINÉRIO DE FERRO: OTIMIZAÇÃO DE AQUISIÇÃO E PROCESSAMENTO DE IMAGENSLILI EDITH DAZA DURAND 13 May 2016 (has links)
[pt] O minério de ferro é um material policristalino oriundo de processos naturais
complexos. Os minerais mais comuns que o compõem (hematita, magnetita,
goethita, etc.) podem ser identificados no microscópio ótico de luz refletida,
através de suas refletâncias distintas. A importância do estudo das hematitas,
especificamente, surge porque os maiores depósitos de minério de ferro, no Brasil,
são praticamente todos do tipo hematítico, com altos teores de ferro. A hematita é
um mineral fortemente anisotrópico que apresenta pleocroísmo de reflexão. Isto
faz com que o brilho na imagem mude com diferentes orientações dos cristais.
Assim, quando se utiliza luz polarizada, o contraste entre os cristais aumenta o
suficiente para diferenciá-los. Tradicionalmente, as hematitas são classificadas
em tipos texturais identificados como hematita microcristalina (Mc), martita (Ma),
e partículas policristalinas compactas (Co) formadas, por sua vez, de cristais dos
tipos: granular (Gr), lamelar (La), lobular (Lo). Em trabalhos anteriores foi
desenvolvida uma rotina de classificação automática para os diferentes tipos de
hematitas. Esta rotina utiliza como entrada duas imagens de uma mesma região,
a primeira em campo claro (CC) e a segunda polarizada circularmente (CPOL).
Neste trabalho foram implementadas modificações nas etapas de aquisição das
imagens CPOL e no processamento de ruído, visando melhorar as etapas de
classificação. Assim, a imagem CPOL, que apresenta problemas característicos
de iluminação, passou a ser capturada utilizando o recurso de sub-quadros
(subframe), o que elimina a necessidade de correção de fundo, melhorando a
qualidade dos mosaicos de imagens capturados. Em seguida, explorou-se recurso
de saturação digital da câmera, de forma a melhorar, substancialmente, o
contraste entre os cristais de hematita. Finalmente, testou-se o impacto do uso de
um novo filtro de redução de ruído – Non-Local Means (MNL) – sobre a
segmentação de cristais. Os resultados mostraram uma melhora substancial na
identificação dos tipos texturais de hematita com relação aos métodos anteriores
e também superiores à tradicional identificação visual por operador treinado. / [en] Iron ore is a polycrystalline material originated from complex natural processes. Its main composing minerals (hematite, magnetite, goethite, etc.) can be identified with the reflected light optical microscope through their distinctive reflectances. The relevance of studying hematite, specifically, originates from the fact that the largest Brazilian iron deposits are mostly of the hematitic type, with high iron content. Hematite is a strongly anisotropic mineral that presents reflectance pleocroism. Thus, different crystal orientations produce different brightness and, when using polarized light, the contrast between crystals is strong enough to allow their discrimination. Traditionally, hematites are classified in textural types identified as microcrystalline (Mc), martite (Ma) and compact polycristalline (Co), composed of granula (Gr), lamellar (La) and lobular (Lo) crystals. An automatic classification routine for hematite types was developed in previous works. This routine takes as input two images of the same region, one in Bright Field and the second in Circular Polarization (CPOL). In this work, modifications in the CPOL image acquisition and in noise filtering were implemented, in order to improve the classification step. Thus, the CPOL images, which present a characteristic background problem, were acquired employing the subframe method, what eliminates the need for background correction, improving the quality of image mosaics. Then, the digital saturation of the camera was optimized to improve substantially the contrast between hematite types. Finally, the impact of a new noise reduction filter – the Non-Local Means Filter – on crystal segmentation was evaluated. The results showed a substantial improvement in the identification of hematite textural types as compared to the previous method, and also superior to the traditional visual identification by an operator.
|
12 |
[en] QUANTITATIVE SEISMIC INTERPRETATION USING GENETIC PROGRAMMING / [pt] INTERPRETAÇÃO SÍSMICA QUANTITATIVA COM USO DE PROGRAMAÇÃO GENÉTICAERIC DA SILVA PRAXEDES 19 June 2015 (has links)
[pt] Uma das tarefas mais importantes na indústria de exploração e produção de
petróleo é a discriminação litológica. Uma das principais fontes de informação
para subsidiar a discriminação e caracterização litológica é a perfilagem que é
corrida no poço. Porém, na grande maioria dos trabalhos os perfis utilizados na
discriminação litológica são apenas aqueles disponíveis no domínio dos poços.
Para que modelos de discriminação litológica possam ser extrapolados para além
do domínio dos poços, faz-se necessário a utilização de características que estejam
presentes tanto nos poços como fora deles. As características mais utilizadas para
realizar esta integração rocha-perfil-sísmica são os atributos elásticos. Dentre os
atributos elásticos o que mais se destaca é a impedância. O objetivo desta
dissertação foi a utilização da programação genética como modelo classificador
de atributos elásticos para a discriminação litológica. A proposta se justifica pela
característica da programação genética de seleção e construção automática dos
atributos ou características utilizadas. Além disso, a programação genética permite
a interpretação do classificador, uma vez que é possível customizar o formalismo
de representação. Esta classificação foi empregada como parte integrante do fluxo
de trabalho estatístico e de física de rochas, metodologia híbrida que integra os
conceitos da física de rochas com técnicas de classificação. Os resultados
alcançados demonstram que a programação genética atingiu taxas de acertos
comparáveis e em alguns casos superiores a outros métodos tradicionais de
classificação. Estes resultados foram melhorados com a utilização da técnica de
substituição de fluídos de Gassmann da física de rochas. / [en] One of the most important tasks in the oil exploration and production
industry is the lithological discrimination. A major source of information to
support discrimination and lithological characterization is the logging raced into
the well. However, in most studies the logs used in the lithological discrimination
are only those available in the wells. For extrapolating the lithology
discrimination models beyond the wells, it is necessary to use features that are
present both inside and outside wells. One of the features used to conduct this
rock-log-seismic integration are the elastic attributes. The impedance is the elastic
attribute that most stands out. The objective of this work was the utilization of
genetic programming as a classifier model of elastic attributes for lithological
discrimination. The proposal is justified by the characteristic of genetic
programming for automatic selection and construction of features. Furthermore,
genetic programming allows the interpretation of the classifier once it is possible
to customize the representation formalism. This classification was used as part of
the statistical rock physics workflow, a hybrid methodology that integrates rock
physics concepts with classification techniques. The results achieved demonstrate
that genetic programming reached comparable hit rate and in some cases superior
to other traditional methods of classification. These results have been improved
with the use of Gassmann fluid substitution technique from rock physics.
|
13 |
[en] NEW TECHNIQUES OF PATTERN CLASSIFICATION BASED ON LOCAL-GLOBAL METHODS / [pt] NOVAS TÉCNICAS DE CLASSIFICAÇÃO DE PADRÕES BASEADAS EM MÉTODOS LOCAL-GLOBALRODRIGO TOSTA PERES 13 January 2009 (has links)
[pt] O foco desta tese está direcionado a problemas de
Classificação de Padrões. A proposta central é desenvolver
e testar alguns novos algoritmos para
ambientes supervisionados, utilizando um enfoque local-
global. As principais contribuições são: (i)
Desenvolvimento de método baseado em quantização
vetorial com posterior classificação supervisionada local.
O objetivo é resolver o problema de classificação estimando
as probabilidades posteriores em regiões
próximas à fronteira de decisão; (ii) Proposta do que
denominamos Zona de Risco Generalizada, um método
independente de modelo, para encontrar as observações
vizinhas à fronteira de decisão; (iii) Proposta de método
que denominamos Quantizador Vetorial das Fronteiras de
Decisão, um método de classificação que utiliza protótipos,
cujo objetivo é construir uma aproximação quantizada das
regiões vizinhas à fronteira de decisão. Todos os métodos
propostos foram testados em bancos de dados, alguns
sintéticos e outros publicamente disponíveis. / [en] This thesis is focused on Pattern Classification problems.
The objective is to develop and test new supervised
algorithms with a local-global approach. The main
contributions are: (i) A method based on vector
quantization with posterior supervised local
classification. The classification problem is solved by the
estimation of the posterior probabilities near the decision
boundary; (ii) Propose of what we call Zona de Risco
Generalizada, an independent model method to find
observations near the decision boundary; (iii) Propose of
what we call Quantizador Vetorial das Fronteiras de
Decisão, a classification method based on prototypes that
build a quantized approximation of the decision boundary.
All methods were tested in synthetics or real datasets.
|
14 |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES / [pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEBTHORAN ARAGUEZ RODRIGUES 20 July 2009 (has links)
[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta
proliferação aumente as chances de que o tema sendo buscado por um usuário
esteja presente na rede, ela também torna encontrar a informação desejada mais
difícil. A classificação automática de páginas é, portanto, uma importante
ferramenta na organização de conteúdo da Web, com aplicações específicas na
melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi
realizado um estudo comparativo de diferentes conjuntos de atributos e métodos
de classificação aplicados ao problema da classificação funcional de páginas web,
com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao
longo dos experimentos, foi possível constatar que a melhor abordagem para esta
tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas.
Foi apresentada também uma estratégia nova de construção de conjuntos de
atributos de texto, que leva em consideração os diferentes estilos de escrita das
classes de páginas. / [en] The amount of information on the Internet increases every day. Even though
this proliferation increases the chances that the subject being searched for by an
user is on the Web, it also makes finding the desired information much harder.
The automated classification of pages is, therefore, an important tool for
organizing Web content, with specific applications on the improvement of results
displayed by search engines. In this dissertation, a comparative study of different
attribute sets and classification methods for the functional classification of web
pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and
News. Throughout the experiments, it became evident the best approach for this
task is to employ attributes that come both from the structure and the text of the
web pages. We also presented a new strategy for extracting and building text
attribute sets, that takes into account the different writing styles for each page
class.
|
15 |
[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING / [pt] UMA ABORDAGEM POR CLASSIFICAÇÃO TOKEN-A-TOKEN PARA O PARSING DE DEPENDÊNCIACARLOS EDUARDO MEGER CRESTANA 13 October 2010 (has links)
[pt] Uma das tarefas mais importantes em Processamento de Linguagem Natural é
a análise sintática, onde a estrutura de uma sentença é determinada de acordo
com uma dada gramática, informando o significado de uma sentença a partir do
significado das palavras nela contidas. A Análise Sintática baseada em Gramáticas
de Dependência consiste em identificar para cada palavra a outra palavra na
sentença que a governa. Assim, a saída de um analisador sintático de dependência
é uma árvore onde os nós são as palavras da sentença. Esta estrutura simples,
mas rica, é utilizada em uma grande variedade de aplicações, entre elas Sistemas
de Pergunta-Resposta, Tradução Automática, Extração de Informação, e Identificação
de Papéis Semânticos. Os sistemas estado-da-arte em análise sintática
de dependência utilizam modelos baseados em transições ou modelos baseados
em grafos. Essa dissertação apresenta uma abordagem por classificação tokena-
token para a análise sintática de dependência ao criar um conjunto especial de
classes que permitem a correta identificação de uma palavra na sentença. Usando
esse conjunto de classes, qualquer algoritmo de classificação pode ser treinado
para identificar corretamente a palavra governante de cada palavra na sentença.
Além disso, este conjunto de classes permite tratar igualmente relações de dependência
projetivas e não-projetivas, evitando abordagens pseudo-projetivas.
Para avaliar a sua eficácia, aplicamos o algoritmo Entropy Guided Transformation
Learning aos corpora disponibilizados publicamente na tarefa proposta durante
a CoNLL 2006. Esses experimentos foram realizados em três corpora de
diferentes idiomas: dinamarquês, holandês e português. Para avaliação de desempenho
foi utilizada a métrica de Unlabeled Attachment Score. Nossos resultados
mostram que os modelos gerados atingem resultados acima da média dos sistemas
do CoNLL. Ainda, nossos resultados indicam que a abordagem por classificação
token-a-token é uma abordagem promissora para o problema de análise
sintática de dependência. / [en] One of the most important tasks in Natural Language Processing is syntactic
parsing, where the structure of a sentence is inferred according to a given grammar.
Syntactic parsing, thus, tells us how to determine the meaning of the sentence
fromthemeaning of the words in it. Syntactic parsing based on dependency
grammars is called dependency parsing. The Dependency-based syntactic parsing
task consists in identifying a head word for each word in an input sentence.
Hence, its output is a rooted tree, where the nodes are the words in the sentence.
This simple, yet powerful, structure is used in a great variety of applications, like
Question Answering,Machine Translation, Information Extraction and Semantic
Role Labeling. State-of-the-art dependency parsing systems use transition-based
or graph-based models. This dissertation presents a token classification approach
to dependency parsing, by creating a special tagging set that helps to correctly
find the head of a token. Using this tagging style, any classification algorithm can
be trained to identify the syntactic head of each word in a sentence. In addition,
this classification model treats projective and non-projective dependency graphs
equally, avoiding pseudo-projective approaches. To evaluate its effectiveness, we
apply the Entropy Guided Transformation Learning algorithm to the publicly
available corpora from the CoNLL 2006 Shared Task. These computational experiments
are performed on three corpora in different languages, namely: Danish,
Dutch and Portuguese. We use the Unlabelled Attachment Score as the accuracy
metric. Our results show that the generated models are above the average
CoNLL system performance. Additionally, these findings also indicate that the
token classification approach is a promising one.
|
16 |
[en] SOVEREIGN RISK INDEX: AN ALTERNATIVE TO CURRENT INDICATORS / [es] ÍNDICE DE RIESGO SOBERANO UNA ALTERNATIVA A LOS ACTUALES INDICADORES / [pt] ÍNDICE DE RISCO SOBERANO: UMA ALTERNATIVA AOS ATUAIS INDICADORES30 November 2001 (has links)
[pt] O presente estudo tem por objetivo construir um modelo que
permita a categorização dos fatores que geram o conceito de
Risco Soberano e que defina as variáveis que compõem cada
um deles. Para isso, usam-se os métodos estatísticos
conhecidos como Análise Fatorial e Análise dos Componentes
Principais. Apresenta-se como resultado do trabalho um
modelo que é simultaneamente conciso - pelo pequeno número
de variáveis que o compõem, em contraposição ao número
elevado citado na literatura sobre o tema - e eficiente -
uma vez que ele permite montar um Índice de Risco Soberano
compatível com os ratings das principais agências
internacionais e com os retornos de títulos soberanos.
Utilizou-se o Coeficiente de Correlação de Postos de
Spearman para proceder a comparação entre a ordenação de
países pelo índice proposto e as ordenações derivadas dos
ratings e dos retornos dos títulos. / [en] This study is designed to build a model which enables the
categorization of factors that not only originates the
concept of Sovereign Risk but also defines the variables
that compound each factor. To fulfill such an objective,
statistical methods known as Factor Analysis and Principal
Component Analysis are employed. As result of this work, a
model is presented that is simultaneously concise - given
its small number of variables, in contrast to the large
number of variables mentioned on the literature about this
theme - and efficient - since it permits the creation of a
Sovereign Risk Index that is compatible both with ratings
of the major international agencies and with sovereign bond
yields. In order to compare the countries ranking based on
the Index to the rankings derived from ratings and bond
yields, Spearman`s Ranking Correlation Coefficient is used. / [es] EL presente estudio tiene como objetivo construir un modelo
que permita la categorización de los factores que generan
el concepto de Riesgo Soberano y que defina las variables
que lo componen. Para eso, se utilizan conocidos métodos
estadísticos como Análisis Factorial y Análisis de
Componentes Principales. Como resultado del trabajo se
presenta un modelo que es simultáneamente conciso - por el
pequeño número de variables que lo componen, en
contraposición con el elevado número que es citado en la
literatura sobre el tema - y eficiente - una vez que
permite montar un Índice de Riesgo Soberano compatíble con
los ratings de las principales agencias internacionales y
con los retornos de títulos soberanos. Se utilizó el
Coeficiente de Correlación de Spearman para comparar el
orden de países por el índice propuesto y el orden derivado
de los ratings y de los retornos de los títulos.
|
17 |
[pt] APRENDIZADO SEMI E AUTO-SUPERVISIONADO APLICADO À CLASSIFICAÇÃO MULTI-LABEL DE IMAGENS DE INSPEÇÕES SUBMARINAS / [en] SEMI AND SELF-SUPERVISED LEARNING APPLIED TO THE MULTI-LABEL CLASSIFICATION OF UNDERWATER INSPECTION IMAGEAMANDA LUCAS PEREIRA 11 July 2023 (has links)
[pt] O segmento offshore de produção de petróleo é o principal produtor nacional desse insumo. Nesse contexto, inspeções submarinas são cruciais para a
manutenção preventiva dos equipamentos, que permanecem toda a vida útil
em ambiente oceânico. A partir dos dados de imagem e sensor coletados nessas
inspeções, especialistas são capazes de prevenir e reparar eventuais danos. Tal
processo é profundamente complexo, demorado e custoso, já que profissionais especializados têm que assistir a horas de vídeos atentos a detalhes. Neste
cenário, o presente trabalho explora o uso de modelos de classificação de imagens projetados para auxiliar os especialistas a encontrarem o(s) evento(s) de
interesse nos vídeos de inspeções submarinas. Esses modelos podem ser embarcados no ROV ou na plataforma para realizar inferência em tempo real, o que
pode acelerar o ROV, diminuindo o tempo de inspeção e gerando uma grande
redução nos custos de inspeção. No entanto, existem alguns desafios inerentes
ao problema de classificação de imagens de inspeção submarina, tais como:
dados rotulados balanceados são caros e escassos; presença de ruído entre os
dados; alta variância intraclasse; e características físicas da água que geram certas especificidades nas imagens capturadas. Portanto, modelos supervisionados
tradicionais podem não ser capazes de cumprir a tarefa. Motivado por esses
desafios, busca-se solucionar o problema de classificação de imagens submarinas a partir da utilização de modelos que requerem menos supervisão durante
o seu treinamento. Neste trabalho, são explorados os métodos DINO (Self-DIstillation with NO labels, auto-supervisionado) e uma nova versão multi-label proposta para o PAWS (Predicting View Assignments With Support Samples, semi-supervisionado), que chamamos de mPAWS (multi-label PAWS). Os
modelos são avaliados com base em sua performance como extratores de features para o treinamento de um classificador simples, formado por uma camada
densa. Nos experimentos realizados, para uma mesma arquitetura, se obteve
uma performance que supera em 2.7 por cento o f1-score do equivalente supervisionado. / [en] The offshore oil production segment is the main national producer of this input. In this context, underwater inspections are crucial for the preventive maintenance of equipment, which remains in the ocean environment for its entire useful life. From the image and sensor data collected in these inspections,experts are able to prevent and repair damage. Such a process is deeply complex, time-consuming and costly, as specialized professionals have to watch hours of videos attentive to details. In this scenario, the present work explores the use of image classification models designed to help experts to find the event(s) of interest in under water inspection videos. These models can be embedded in the ROV or on the platform to perform real-time inference,which can speed up the ROV, monitor notification time, and greatly reduce verification costs. However, there are some challenges inherent to the problem of classification of images of armored submarines, such as: balanced labeled data are expensive and scarce; the presence of noise among the data; high intraclass variance; and some physical characteristics of the water that achieved certain specificities in the captured images. Therefore, traditional supervised models may not be able to fulfill the task. Motivated by these challenges, we seek to solve the underwater image classification problem using models that require less supervision during their training. In this work, they are explorers of the DINO methods (Self-Distillation with NO labels, self-supervised) anda new multi-label version proposed for PAWS (Predicting View AssignmentsWith Support Samples, semi-supervised), which we propose as mPAWS (multi-label PAWS). The models are evaluated based on their performance as features extractors for training a simple classifier, formed by a dense layer. In the experiments carried out, for the same architecture, a performance was obtained that exceeds by 2.7 percent the f1-score of the supervised equivalent.
|
18 |
[en] EFFECTS OF LATIN AMERICA SOVEREIGN RATINGS CHANGES OVER THE BRAZILIAN STOCK MARKET / [pt] EFEITOS DE MUDANÇAS DE RATINGS DE PAÍSES DA AMÉRICA LATINA NO MERCADO ACIONÁRIO BRASILEIROANA CAROLINA MINSKY BITTENCOURT 03 November 2008 (has links)
[pt] O papel deste estudo foi investigar se as alterações de
ratings de países da América Latina produzem impactos
significativos no mercado acionário brasileiro. Por ser
tratar de teste de hipótese semiforte de eficiência de
mercado, o estudo foi conduzido através de teste
estatístico paramétrico. Os resultados encontrados
corroboram com hipótese de efeito contágio no mercado
acionário brasileiro, através do índice IBX. O estudo
também conclui que a intensidade do impacto também depende
do tipo de informação incorporada nos anúncios de
mudanças de classificações soberanas. / [en] The objective of this study was to investigate if sovereign
rating changes for Latin America affect the Brazilian stock
market. To measure this potential impact, the parametrical
statistical test of event study was adopted, commonly used
in semi-strong market efficiency tests. The results support
the idea of contagion effects in the Brazilian Market
through the IBX index. This study also concludes
that the impact depends on the type of announcement of
ratings changes.
|
19 |
[en] CLASSIFICATION AND SEGMENTATION OF MPEG AUDIO BASED ON SCALE FACTORS / [pt] CLASSIFICAÇÃO E SEGMENTAÇÃO DE ÁUDIO A PARTIR DE FATORES DE ESCALA MPEGFERNANDO RIMOLA DA CRUZ MANO 06 May 2008 (has links)
[pt] As tarefas de segmentação e classificação automáticas de
áudio vêm se tornando cada vez mais importantes com o
crescimento da produção e armazenamento de mídia digital.
Este trabalho se baseia em características do padrão MPEG,
que é considerado o padrão para acervos digitais, para gerir
algoritmos de grande eficiência para realizar essas arefas.
Ao passo que há muitos estudos trabalhando a partir do
vídeo, o áudio ainda é pouco utilizado de forma eficiente
para auxiliar nessas tarefas. Os algoritmos sugeridos
partem da leitura apenas dos fatores de escala presentes no
Layer 2 do áudio MPEG para ambas as tarefas. Com isso, é
necessária a leitura da menor quantidade possível de
informações, o que diminui significativamente o volume de
dados manipulado durante a análise e torna seu desempenho
excelente em termos de tempo de processamento. O algoritmo
proposto para a classificação divide o áudio em quatro
possíveis tipos: silêncio, fala, música e aplausos. Já o
algoritmo de segmentação encontra as mudanças ignificativas
de áudio, que são indícios de segmentos e mudanças de cena.
Foram realizados testes com diferentes tipos de vídeos, e
ambos os algoritmos mostraram bons resultados. / [en] With the growth of production and storing of digital media,
audio segmentation and classification are becoming
increasingly important. This work is based on
characteristics of the MPEG standard, considered to be the
standard for digital media storage and retrieval, to
propose efficient algorithms to perform
these tasks. While there are many studies based on video
analysis, the audio information is still not widely used in
an efficient way. The suggested algorithms
for both tasks are based only on the scale factors present
on layer 2 MPEG audio. That allows them to read the
smallest amount of information possible, significantly
diminishing the amount of data manipulated during the
analysis and making their performance excellent in terms of
processing time. The algorithm proposed for audio
classification divides audio in four possible types: silent,
speech, music and applause. The segmentation algorithm
finds significant changes on the audio signal that
represent clues of audio segments and scene changes.
Tests were made with a wide range of types of video, and
both algorithms show good results.
|
20 |
[en] USING MACHINE LEARNING TO BUILD A TOOL THAT HELPS COMMENTS MODERATION / [pt] UTILIZANDO APRENDIZADO DE MÁQUINA PARA CONSTRUÇÃO DE UMA FERRAMENTA DE APOIO A MODERAÇÃO DE COMENTÁRIOSSILVANO NOGUEIRA BUBACK 05 March 2012 (has links)
[pt] Uma das mudanças trazidas pela Web 2.0 é a maior participação dos
usuários na produção do conteúdo, através de opiniões em redes sociais ou
comentários nos próprios sites de produtos e serviços. Estes comentários são
muito valiosos para seus sites pois fornecem feedback e incentivam a participação
e divulgação do conteúdo. Porém excessos podem ocorrer através de comentários
com palavrões indesejados ou spam. Enquanto para alguns sites a própria
moderação da comunidade é suficiente, para outros as mensagens indesejadas
podem comprometer o serviço. Para auxiliar na moderação dos comentários foi
construída uma ferramenta que utiliza técnicas de aprendizado de máquina para
auxiliar o moderador. Para testar os resultados, dois corpora de comentários
produzidos na Globo.com foram utilizados, o primeiro com 657.405 comentários
postados diretamente no site, e outro com 451.209 mensagens capturadas do
Twitter. Nossos experimentos mostraram que o melhor resultado é obtido quando
se separa o aprendizado dos comentários de acordo com o tema sobre o qual está
sendo comentado. / [en] One of the main changes brought by Web 2.0 is the increase of user
participation in content generation mainly in social networks and comments in
news and service sites. These comments are valuable to the sites because they
bring feedback and motivate other people to participate and to spread the content.
On the other hand these comments also bring some kind of abuse as bad words
and spam. While for some sites their own community moderation is enough, for
others this impropriate content may compromise its content. In order to help
theses sites, a tool that uses machine learning techniques was built to mediate
comments. As a test to compare results, two datasets captured from Globo.com
were used: the first one with 657.405 comments posted through its site and the
second with 451.209 messages captured from Twitter. Our experiments show that
best result is achieved when comment learning is done according to the subject
that is being commented.
|
Page generated in 0.0483 seconds