• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 69
  • 13
  • Tagged with
  • 82
  • 82
  • 70
  • 27
  • 21
  • 19
  • 17
  • 15
  • 15
  • 15
  • 15
  • 12
  • 10
  • 10
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

[en] CLASSIFICATION OF HEMATITES IN IRON ORE: OPTIMIZATION OF IMAGE ACQUISITION AND PROCESSING / [pt] CLASSIFICAÇÃO DE HEMATITAS EM MINÉRIO DE FERRO: OTIMIZAÇÃO DE AQUISIÇÃO E PROCESSAMENTO DE IMAGENS

LILI EDITH DAZA DURAND 13 May 2016 (has links)
[pt] O minério de ferro é um material policristalino oriundo de processos naturais complexos. Os minerais mais comuns que o compõem (hematita, magnetita, goethita, etc.) podem ser identificados no microscópio ótico de luz refletida, através de suas refletâncias distintas. A importância do estudo das hematitas, especificamente, surge porque os maiores depósitos de minério de ferro, no Brasil, são praticamente todos do tipo hematítico, com altos teores de ferro. A hematita é um mineral fortemente anisotrópico que apresenta pleocroísmo de reflexão. Isto faz com que o brilho na imagem mude com diferentes orientações dos cristais. Assim, quando se utiliza luz polarizada, o contraste entre os cristais aumenta o suficiente para diferenciá-los. Tradicionalmente, as hematitas são classificadas em tipos texturais identificados como hematita microcristalina (Mc), martita (Ma), e partículas policristalinas compactas (Co) formadas, por sua vez, de cristais dos tipos: granular (Gr), lamelar (La), lobular (Lo). Em trabalhos anteriores foi desenvolvida uma rotina de classificação automática para os diferentes tipos de hematitas. Esta rotina utiliza como entrada duas imagens de uma mesma região, a primeira em campo claro (CC) e a segunda polarizada circularmente (CPOL). Neste trabalho foram implementadas modificações nas etapas de aquisição das imagens CPOL e no processamento de ruído, visando melhorar as etapas de classificação. Assim, a imagem CPOL, que apresenta problemas característicos de iluminação, passou a ser capturada utilizando o recurso de sub-quadros (subframe), o que elimina a necessidade de correção de fundo, melhorando a qualidade dos mosaicos de imagens capturados. Em seguida, explorou-se recurso de saturação digital da câmera, de forma a melhorar, substancialmente, o contraste entre os cristais de hematita. Finalmente, testou-se o impacto do uso de um novo filtro de redução de ruído – Non-Local Means (MNL) – sobre a segmentação de cristais. Os resultados mostraram uma melhora substancial na identificação dos tipos texturais de hematita com relação aos métodos anteriores e também superiores à tradicional identificação visual por operador treinado. / [en] Iron ore is a polycrystalline material originated from complex natural processes. Its main composing minerals (hematite, magnetite, goethite, etc.) can be identified with the reflected light optical microscope through their distinctive reflectances. The relevance of studying hematite, specifically, originates from the fact that the largest Brazilian iron deposits are mostly of the hematitic type, with high iron content. Hematite is a strongly anisotropic mineral that presents reflectance pleocroism. Thus, different crystal orientations produce different brightness and, when using polarized light, the contrast between crystals is strong enough to allow their discrimination. Traditionally, hematites are classified in textural types identified as microcrystalline (Mc), martite (Ma) and compact polycristalline (Co), composed of granula (Gr), lamellar (La) and lobular (Lo) crystals. An automatic classification routine for hematite types was developed in previous works. This routine takes as input two images of the same region, one in Bright Field and the second in Circular Polarization (CPOL). In this work, modifications in the CPOL image acquisition and in noise filtering were implemented, in order to improve the classification step. Thus, the CPOL images, which present a characteristic background problem, were acquired employing the subframe method, what eliminates the need for background correction, improving the quality of image mosaics. Then, the digital saturation of the camera was optimized to improve substantially the contrast between hematite types. Finally, the impact of a new noise reduction filter – the Non-Local Means Filter – on crystal segmentation was evaluated. The results showed a substantial improvement in the identification of hematite textural types as compared to the previous method, and also superior to the traditional visual identification by an operator.
12

[en] QUANTITATIVE SEISMIC INTERPRETATION USING GENETIC PROGRAMMING / [pt] INTERPRETAÇÃO SÍSMICA QUANTITATIVA COM USO DE PROGRAMAÇÃO GENÉTICA

ERIC DA SILVA PRAXEDES 19 June 2015 (has links)
[pt] Uma das tarefas mais importantes na indústria de exploração e produção de petróleo é a discriminação litológica. Uma das principais fontes de informação para subsidiar a discriminação e caracterização litológica é a perfilagem que é corrida no poço. Porém, na grande maioria dos trabalhos os perfis utilizados na discriminação litológica são apenas aqueles disponíveis no domínio dos poços. Para que modelos de discriminação litológica possam ser extrapolados para além do domínio dos poços, faz-se necessário a utilização de características que estejam presentes tanto nos poços como fora deles. As características mais utilizadas para realizar esta integração rocha-perfil-sísmica são os atributos elásticos. Dentre os atributos elásticos o que mais se destaca é a impedância. O objetivo desta dissertação foi a utilização da programação genética como modelo classificador de atributos elásticos para a discriminação litológica. A proposta se justifica pela característica da programação genética de seleção e construção automática dos atributos ou características utilizadas. Além disso, a programação genética permite a interpretação do classificador, uma vez que é possível customizar o formalismo de representação. Esta classificação foi empregada como parte integrante do fluxo de trabalho estatístico e de física de rochas, metodologia híbrida que integra os conceitos da física de rochas com técnicas de classificação. Os resultados alcançados demonstram que a programação genética atingiu taxas de acertos comparáveis e em alguns casos superiores a outros métodos tradicionais de classificação. Estes resultados foram melhorados com a utilização da técnica de substituição de fluídos de Gassmann da física de rochas. / [en] One of the most important tasks in the oil exploration and production industry is the lithological discrimination. A major source of information to support discrimination and lithological characterization is the logging raced into the well. However, in most studies the logs used in the lithological discrimination are only those available in the wells. For extrapolating the lithology discrimination models beyond the wells, it is necessary to use features that are present both inside and outside wells. One of the features used to conduct this rock-log-seismic integration are the elastic attributes. The impedance is the elastic attribute that most stands out. The objective of this work was the utilization of genetic programming as a classifier model of elastic attributes for lithological discrimination. The proposal is justified by the characteristic of genetic programming for automatic selection and construction of features. Furthermore, genetic programming allows the interpretation of the classifier once it is possible to customize the representation formalism. This classification was used as part of the statistical rock physics workflow, a hybrid methodology that integrates rock physics concepts with classification techniques. The results achieved demonstrate that genetic programming reached comparable hit rate and in some cases superior to other traditional methods of classification. These results have been improved with the use of Gassmann fluid substitution technique from rock physics.
13

[en] NEW TECHNIQUES OF PATTERN CLASSIFICATION BASED ON LOCAL-GLOBAL METHODS / [pt] NOVAS TÉCNICAS DE CLASSIFICAÇÃO DE PADRÕES BASEADAS EM MÉTODOS LOCAL-GLOBAL

RODRIGO TOSTA PERES 13 January 2009 (has links)
[pt] O foco desta tese está direcionado a problemas de Classificação de Padrões. A proposta central é desenvolver e testar alguns novos algoritmos para ambientes supervisionados, utilizando um enfoque local- global. As principais contribuições são: (i) Desenvolvimento de método baseado em quantização vetorial com posterior classificação supervisionada local. O objetivo é resolver o problema de classificação estimando as probabilidades posteriores em regiões próximas à fronteira de decisão; (ii) Proposta do que denominamos Zona de Risco Generalizada, um método independente de modelo, para encontrar as observações vizinhas à fronteira de decisão; (iii) Proposta de método que denominamos Quantizador Vetorial das Fronteiras de Decisão, um método de classificação que utiliza protótipos, cujo objetivo é construir uma aproximação quantizada das regiões vizinhas à fronteira de decisão. Todos os métodos propostos foram testados em bancos de dados, alguns sintéticos e outros publicamente disponíveis. / [en] This thesis is focused on Pattern Classification problems. The objective is to develop and test new supervised algorithms with a local-global approach. The main contributions are: (i) A method based on vector quantization with posterior supervised local classification. The classification problem is solved by the estimation of the posterior probabilities near the decision boundary; (ii) Propose of what we call Zona de Risco Generalizada, an independent model method to find observations near the decision boundary; (iii) Propose of what we call Quantizador Vetorial das Fronteiras de Decisão, a classification method based on prototypes that build a quantized approximation of the decision boundary. All methods were tested in synthetics or real datasets.
14

[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES / [pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEB

THORAN ARAGUEZ RODRIGUES 20 July 2009 (has links)
[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta proliferação aumente as chances de que o tema sendo buscado por um usuário esteja presente na rede, ela também torna encontrar a informação desejada mais difícil. A classificação automática de páginas é, portanto, uma importante ferramenta na organização de conteúdo da Web, com aplicações específicas na melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi realizado um estudo comparativo de diferentes conjuntos de atributos e métodos de classificação aplicados ao problema da classificação funcional de páginas web, com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao longo dos experimentos, foi possível constatar que a melhor abordagem para esta tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas. Foi apresentada também uma estratégia nova de construção de conjuntos de atributos de texto, que leva em consideração os diferentes estilos de escrita das classes de páginas. / [en] The amount of information on the Internet increases every day. Even though this proliferation increases the chances that the subject being searched for by an user is on the Web, it also makes finding the desired information much harder. The automated classification of pages is, therefore, an important tool for organizing Web content, with specific applications on the improvement of results displayed by search engines. In this dissertation, a comparative study of different attribute sets and classification methods for the functional classification of web pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and News. Throughout the experiments, it became evident the best approach for this task is to employ attributes that come both from the structure and the text of the web pages. We also presented a new strategy for extracting and building text attribute sets, that takes into account the different writing styles for each page class.
15

[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING / [pt] UMA ABORDAGEM POR CLASSIFICAÇÃO TOKEN-A-TOKEN PARA O PARSING DE DEPENDÊNCIA

CARLOS EDUARDO MEGER CRESTANA 13 October 2010 (has links)
[pt] Uma das tarefas mais importantes em Processamento de Linguagem Natural é a análise sintática, onde a estrutura de uma sentença é determinada de acordo com uma dada gramática, informando o significado de uma sentença a partir do significado das palavras nela contidas. A Análise Sintática baseada em Gramáticas de Dependência consiste em identificar para cada palavra a outra palavra na sentença que a governa. Assim, a saída de um analisador sintático de dependência é uma árvore onde os nós são as palavras da sentença. Esta estrutura simples, mas rica, é utilizada em uma grande variedade de aplicações, entre elas Sistemas de Pergunta-Resposta, Tradução Automática, Extração de Informação, e Identificação de Papéis Semânticos. Os sistemas estado-da-arte em análise sintática de dependência utilizam modelos baseados em transições ou modelos baseados em grafos. Essa dissertação apresenta uma abordagem por classificação tokena- token para a análise sintática de dependência ao criar um conjunto especial de classes que permitem a correta identificação de uma palavra na sentença. Usando esse conjunto de classes, qualquer algoritmo de classificação pode ser treinado para identificar corretamente a palavra governante de cada palavra na sentença. Além disso, este conjunto de classes permite tratar igualmente relações de dependência projetivas e não-projetivas, evitando abordagens pseudo-projetivas. Para avaliar a sua eficácia, aplicamos o algoritmo Entropy Guided Transformation Learning aos corpora disponibilizados publicamente na tarefa proposta durante a CoNLL 2006. Esses experimentos foram realizados em três corpora de diferentes idiomas: dinamarquês, holandês e português. Para avaliação de desempenho foi utilizada a métrica de Unlabeled Attachment Score. Nossos resultados mostram que os modelos gerados atingem resultados acima da média dos sistemas do CoNLL. Ainda, nossos resultados indicam que a abordagem por classificação token-a-token é uma abordagem promissora para o problema de análise sintática de dependência. / [en] One of the most important tasks in Natural Language Processing is syntactic parsing, where the structure of a sentence is inferred according to a given grammar. Syntactic parsing, thus, tells us how to determine the meaning of the sentence fromthemeaning of the words in it. Syntactic parsing based on dependency grammars is called dependency parsing. The Dependency-based syntactic parsing task consists in identifying a head word for each word in an input sentence. Hence, its output is a rooted tree, where the nodes are the words in the sentence. This simple, yet powerful, structure is used in a great variety of applications, like Question Answering,Machine Translation, Information Extraction and Semantic Role Labeling. State-of-the-art dependency parsing systems use transition-based or graph-based models. This dissertation presents a token classification approach to dependency parsing, by creating a special tagging set that helps to correctly find the head of a token. Using this tagging style, any classification algorithm can be trained to identify the syntactic head of each word in a sentence. In addition, this classification model treats projective and non-projective dependency graphs equally, avoiding pseudo-projective approaches. To evaluate its effectiveness, we apply the Entropy Guided Transformation Learning algorithm to the publicly available corpora from the CoNLL 2006 Shared Task. These computational experiments are performed on three corpora in different languages, namely: Danish, Dutch and Portuguese. We use the Unlabelled Attachment Score as the accuracy metric. Our results show that the generated models are above the average CoNLL system performance. Additionally, these findings also indicate that the token classification approach is a promising one.
16

[en] SOVEREIGN RISK INDEX: AN ALTERNATIVE TO CURRENT INDICATORS / [es] ÍNDICE DE RIESGO SOBERANO UNA ALTERNATIVA A LOS ACTUALES INDICADORES / [pt] ÍNDICE DE RISCO SOBERANO: UMA ALTERNATIVA AOS ATUAIS INDICADORES

30 November 2001 (has links)
[pt] O presente estudo tem por objetivo construir um modelo que permita a categorização dos fatores que geram o conceito de Risco Soberano e que defina as variáveis que compõem cada um deles. Para isso, usam-se os métodos estatísticos conhecidos como Análise Fatorial e Análise dos Componentes Principais. Apresenta-se como resultado do trabalho um modelo que é simultaneamente conciso - pelo pequeno número de variáveis que o compõem, em contraposição ao número elevado citado na literatura sobre o tema - e eficiente - uma vez que ele permite montar um Índice de Risco Soberano compatível com os ratings das principais agências internacionais e com os retornos de títulos soberanos. Utilizou-se o Coeficiente de Correlação de Postos de Spearman para proceder a comparação entre a ordenação de países pelo índice proposto e as ordenações derivadas dos ratings e dos retornos dos títulos. / [en] This study is designed to build a model which enables the categorization of factors that not only originates the concept of Sovereign Risk but also defines the variables that compound each factor. To fulfill such an objective, statistical methods known as Factor Analysis and Principal Component Analysis are employed. As result of this work, a model is presented that is simultaneously concise - given its small number of variables, in contrast to the large number of variables mentioned on the literature about this theme - and efficient - since it permits the creation of a Sovereign Risk Index that is compatible both with ratings of the major international agencies and with sovereign bond yields. In order to compare the countries ranking based on the Index to the rankings derived from ratings and bond yields, Spearman`s Ranking Correlation Coefficient is used. / [es] EL presente estudio tiene como objetivo construir un modelo que permita la categorización de los factores que generan el concepto de Riesgo Soberano y que defina las variables que lo componen. Para eso, se utilizan conocidos métodos estadísticos como Análisis Factorial y Análisis de Componentes Principales. Como resultado del trabajo se presenta un modelo que es simultáneamente conciso - por el pequeño número de variables que lo componen, en contraposición con el elevado número que es citado en la literatura sobre el tema - y eficiente - una vez que permite montar un Índice de Riesgo Soberano compatíble con los ratings de las principales agencias internacionales y con los retornos de títulos soberanos. Se utilizó el Coeficiente de Correlación de Spearman para comparar el orden de países por el índice propuesto y el orden derivado de los ratings y de los retornos de los títulos.
17

[pt] APRENDIZADO SEMI E AUTO-SUPERVISIONADO APLICADO À CLASSIFICAÇÃO MULTI-LABEL DE IMAGENS DE INSPEÇÕES SUBMARINAS / [en] SEMI AND SELF-SUPERVISED LEARNING APPLIED TO THE MULTI-LABEL CLASSIFICATION OF UNDERWATER INSPECTION IMAGE

AMANDA LUCAS PEREIRA 11 July 2023 (has links)
[pt] O segmento offshore de produção de petróleo é o principal produtor nacional desse insumo. Nesse contexto, inspeções submarinas são cruciais para a manutenção preventiva dos equipamentos, que permanecem toda a vida útil em ambiente oceânico. A partir dos dados de imagem e sensor coletados nessas inspeções, especialistas são capazes de prevenir e reparar eventuais danos. Tal processo é profundamente complexo, demorado e custoso, já que profissionais especializados têm que assistir a horas de vídeos atentos a detalhes. Neste cenário, o presente trabalho explora o uso de modelos de classificação de imagens projetados para auxiliar os especialistas a encontrarem o(s) evento(s) de interesse nos vídeos de inspeções submarinas. Esses modelos podem ser embarcados no ROV ou na plataforma para realizar inferência em tempo real, o que pode acelerar o ROV, diminuindo o tempo de inspeção e gerando uma grande redução nos custos de inspeção. No entanto, existem alguns desafios inerentes ao problema de classificação de imagens de inspeção submarina, tais como: dados rotulados balanceados são caros e escassos; presença de ruído entre os dados; alta variância intraclasse; e características físicas da água que geram certas especificidades nas imagens capturadas. Portanto, modelos supervisionados tradicionais podem não ser capazes de cumprir a tarefa. Motivado por esses desafios, busca-se solucionar o problema de classificação de imagens submarinas a partir da utilização de modelos que requerem menos supervisão durante o seu treinamento. Neste trabalho, são explorados os métodos DINO (Self-DIstillation with NO labels, auto-supervisionado) e uma nova versão multi-label proposta para o PAWS (Predicting View Assignments With Support Samples, semi-supervisionado), que chamamos de mPAWS (multi-label PAWS). Os modelos são avaliados com base em sua performance como extratores de features para o treinamento de um classificador simples, formado por uma camada densa. Nos experimentos realizados, para uma mesma arquitetura, se obteve uma performance que supera em 2.7 por cento o f1-score do equivalente supervisionado. / [en] The offshore oil production segment is the main national producer of this input. In this context, underwater inspections are crucial for the preventive maintenance of equipment, which remains in the ocean environment for its entire useful life. From the image and sensor data collected in these inspections,experts are able to prevent and repair damage. Such a process is deeply complex, time-consuming and costly, as specialized professionals have to watch hours of videos attentive to details. In this scenario, the present work explores the use of image classification models designed to help experts to find the event(s) of interest in under water inspection videos. These models can be embedded in the ROV or on the platform to perform real-time inference,which can speed up the ROV, monitor notification time, and greatly reduce verification costs. However, there are some challenges inherent to the problem of classification of images of armored submarines, such as: balanced labeled data are expensive and scarce; the presence of noise among the data; high intraclass variance; and some physical characteristics of the water that achieved certain specificities in the captured images. Therefore, traditional supervised models may not be able to fulfill the task. Motivated by these challenges, we seek to solve the underwater image classification problem using models that require less supervision during their training. In this work, they are explorers of the DINO methods (Self-Distillation with NO labels, self-supervised) anda new multi-label version proposed for PAWS (Predicting View AssignmentsWith Support Samples, semi-supervised), which we propose as mPAWS (multi-label PAWS). The models are evaluated based on their performance as features extractors for training a simple classifier, formed by a dense layer. In the experiments carried out, for the same architecture, a performance was obtained that exceeds by 2.7 percent the f1-score of the supervised equivalent.
18

[en] EFFECTS OF LATIN AMERICA SOVEREIGN RATINGS CHANGES OVER THE BRAZILIAN STOCK MARKET / [pt] EFEITOS DE MUDANÇAS DE RATINGS DE PAÍSES DA AMÉRICA LATINA NO MERCADO ACIONÁRIO BRASILEIRO

ANA CAROLINA MINSKY BITTENCOURT 03 November 2008 (has links)
[pt] O papel deste estudo foi investigar se as alterações de ratings de países da América Latina produzem impactos significativos no mercado acionário brasileiro. Por ser tratar de teste de hipótese semiforte de eficiência de mercado, o estudo foi conduzido através de teste estatístico paramétrico. Os resultados encontrados corroboram com hipótese de efeito contágio no mercado acionário brasileiro, através do índice IBX. O estudo também conclui que a intensidade do impacto também depende do tipo de informação incorporada nos anúncios de mudanças de classificações soberanas. / [en] The objective of this study was to investigate if sovereign rating changes for Latin America affect the Brazilian stock market. To measure this potential impact, the parametrical statistical test of event study was adopted, commonly used in semi-strong market efficiency tests. The results support the idea of contagion effects in the Brazilian Market through the IBX index. This study also concludes that the impact depends on the type of announcement of ratings changes.
19

[en] CLASSIFICATION AND SEGMENTATION OF MPEG AUDIO BASED ON SCALE FACTORS / [pt] CLASSIFICAÇÃO E SEGMENTAÇÃO DE ÁUDIO A PARTIR DE FATORES DE ESCALA MPEG

FERNANDO RIMOLA DA CRUZ MANO 06 May 2008 (has links)
[pt] As tarefas de segmentação e classificação automáticas de áudio vêm se tornando cada vez mais importantes com o crescimento da produção e armazenamento de mídia digital. Este trabalho se baseia em características do padrão MPEG, que é considerado o padrão para acervos digitais, para gerir algoritmos de grande eficiência para realizar essas arefas. Ao passo que há muitos estudos trabalhando a partir do vídeo, o áudio ainda é pouco utilizado de forma eficiente para auxiliar nessas tarefas. Os algoritmos sugeridos partem da leitura apenas dos fatores de escala presentes no Layer 2 do áudio MPEG para ambas as tarefas. Com isso, é necessária a leitura da menor quantidade possível de informações, o que diminui significativamente o volume de dados manipulado durante a análise e torna seu desempenho excelente em termos de tempo de processamento. O algoritmo proposto para a classificação divide o áudio em quatro possíveis tipos: silêncio, fala, música e aplausos. Já o algoritmo de segmentação encontra as mudanças ignificativas de áudio, que são indícios de segmentos e mudanças de cena. Foram realizados testes com diferentes tipos de vídeos, e ambos os algoritmos mostraram bons resultados. / [en] With the growth of production and storing of digital media, audio segmentation and classification are becoming increasingly important. This work is based on characteristics of the MPEG standard, considered to be the standard for digital media storage and retrieval, to propose efficient algorithms to perform these tasks. While there are many studies based on video analysis, the audio information is still not widely used in an efficient way. The suggested algorithms for both tasks are based only on the scale factors present on layer 2 MPEG audio. That allows them to read the smallest amount of information possible, significantly diminishing the amount of data manipulated during the analysis and making their performance excellent in terms of processing time. The algorithm proposed for audio classification divides audio in four possible types: silent, speech, music and applause. The segmentation algorithm finds significant changes on the audio signal that represent clues of audio segments and scene changes. Tests were made with a wide range of types of video, and both algorithms show good results.
20

[en] USING MACHINE LEARNING TO BUILD A TOOL THAT HELPS COMMENTS MODERATION / [pt] UTILIZANDO APRENDIZADO DE MÁQUINA PARA CONSTRUÇÃO DE UMA FERRAMENTA DE APOIO A MODERAÇÃO DE COMENTÁRIOS

SILVANO NOGUEIRA BUBACK 05 March 2012 (has links)
[pt] Uma das mudanças trazidas pela Web 2.0 é a maior participação dos usuários na produção do conteúdo, através de opiniões em redes sociais ou comentários nos próprios sites de produtos e serviços. Estes comentários são muito valiosos para seus sites pois fornecem feedback e incentivam a participação e divulgação do conteúdo. Porém excessos podem ocorrer através de comentários com palavrões indesejados ou spam. Enquanto para alguns sites a própria moderação da comunidade é suficiente, para outros as mensagens indesejadas podem comprometer o serviço. Para auxiliar na moderação dos comentários foi construída uma ferramenta que utiliza técnicas de aprendizado de máquina para auxiliar o moderador. Para testar os resultados, dois corpora de comentários produzidos na Globo.com foram utilizados, o primeiro com 657.405 comentários postados diretamente no site, e outro com 451.209 mensagens capturadas do Twitter. Nossos experimentos mostraram que o melhor resultado é obtido quando se separa o aprendizado dos comentários de acordo com o tema sobre o qual está sendo comentado. / [en] One of the main changes brought by Web 2.0 is the increase of user participation in content generation mainly in social networks and comments in news and service sites. These comments are valuable to the sites because they bring feedback and motivate other people to participate and to spread the content. On the other hand these comments also bring some kind of abuse as bad words and spam. While for some sites their own community moderation is enough, for others this impropriate content may compromise its content. In order to help theses sites, a tool that uses machine learning techniques was built to mediate comments. As a test to compare results, two datasets captured from Globo.com were used: the first one with 657.405 comments posted through its site and the second with 451.209 messages captured from Twitter. Our experiments show that best result is achieved when comment learning is done according to the subject that is being commented.

Page generated in 0.0483 seconds