Global ETD Search

71	[en] ECONOMETRIC GENETIC PROGRAMMING: A NEW APPROACH FOR REGRESSION AND CLASSIFICATION PROBLEMS IN CROSS-SECTIONAL DATASETS / [pt] PROGRAMAÇÃO GENÉTICA ECONOMÉTRICA: UMA NOVA ABORDAGEM PARA PROBLEMAS DE REGRESSÃO E CLASSIFICAÇÃO EM CONJUNTOS DE DADOS SECCIONAIS ANDRE LUIZ FARIAS NOVAES 26 October 2015 (has links) [pt] Esta dissertação propõe modelos parcimoniosos para tarefas de regressão e classificação em conjuntos de dados exclusivamente seccionais, mantendo-se a hipótese de amostragem aleatória. Os modelos de regressão são lineares, estimados por Mínimos Quadrados Ordinários resolvidos pela Decomposição QR, apresentando solução única sob posto cheio ou não da matriz de regressores. Os modelos de classificação são não lineares, estimados por Máxima Verossimilhança utilizando uma variante do Método de Newton, nem sempre apresentando solução única. A parcimônia dos modelos de regressão é fundamentada na prova matemática de que somente agregará acurácia ao modelo o regressor que apresentar módulo da estatística de teste, em um teste de hipótese bicaudal, superior à unidade. A parcimônia dos modelos de classificação é fundamentada em significância estatística e embasada intuitivamente no resultado teórico da existência de classificadores perfeitos. A Programação Genética (PG) realiza o processo de evolução de modelos, explorando o espaço de busca de possíveis modelos, constituídos de distintos regressores. Os resultados obtidos via Programação Genética Econométrica (PGE) – nome dado ao algoritmo gerador de modelos – foram comparados aos proporcionados por benchmarks em oito distintos conjuntos de dados, mostrando-se competitivos em termos de acurácia na maior parte dos casos. Tanto sob o domínio da PG quanto sob o domínio da econometria, a PGE mostrou benefícios, como o auxílio na identificação de introns, o combate ao bloat por significância estatística e a geração de modelos econométricos de elevada acurácia, entre outros. / [en] This dissertation proposes parsimonious models for regression and classification tasks in cross-sectional datasets under random sample hypothesis. Regression models are linear in parameters, estimated by Ordinary Least Squares solved by QR Decomposition, presenting a unique solution under full rank of the regressor matrix or not. Classification models are nonlinear in parameters, estimated by Maximum Likelihood, not always presenting a unique solution. Parsimony in regression models is based on the mathematical proof that accuracy will be added to models only by the regressor that presents a test statistic module higher than a predefined value in a two-sided hypothesis test. Parsimony in classification models is based on statistical significance and, intuitively, on the theoretical result about the existence of perfect classifiers. Genetic Programming performs the evolution process of models, being responsible for exploring the search space of possible regressors and models. The results obtained with Econometric Genetic Programming – name of the algorithm in this dissertation – was compared with those from benchmarks in eight distinct cross-sectional datasets, showing competitive results in terms of accuracy in most cases. Both in the field of Genetic Programming and in that of econometrics, Econometric Genetic Programming has shown benefits such as help on introns identification, combat to bloat by statistical significance and generation of high level accuracy models, among others. [pt] PROGRAMACAO GENETICA [pt] REGRESSAO E CLASSIFICACAO [pt] ECONOMETRIA EM DADOS SECCIONAIS [en] GENETIC PROGRAMMING
72	[pt] APRENDIZADO SEMI E AUTO-SUPERVISIONADO APLICADO À CLASSIFICAÇÃO MULTI-LABEL DE IMAGENS DE INSPEÇÕES SUBMARINAS / [en] SEMI AND SELF-SUPERVISED LEARNING APPLIED TO THE MULTI-LABEL CLASSIFICATION OF UNDERWATER INSPECTION IMAGE AMANDA LUCAS PEREIRA 11 July 2023 (has links) [pt] O segmento offshore de produção de petróleo é o principal produtor nacional desse insumo. Nesse contexto, inspeções submarinas são cruciais para a manutenção preventiva dos equipamentos, que permanecem toda a vida útil em ambiente oceânico. A partir dos dados de imagem e sensor coletados nessas inspeções, especialistas são capazes de prevenir e reparar eventuais danos. Tal processo é profundamente complexo, demorado e custoso, já que profissionais especializados têm que assistir a horas de vídeos atentos a detalhes. Neste cenário, o presente trabalho explora o uso de modelos de classificação de imagens projetados para auxiliar os especialistas a encontrarem o(s) evento(s) de interesse nos vídeos de inspeções submarinas. Esses modelos podem ser embarcados no ROV ou na plataforma para realizar inferência em tempo real, o que pode acelerar o ROV, diminuindo o tempo de inspeção e gerando uma grande redução nos custos de inspeção. No entanto, existem alguns desafios inerentes ao problema de classificação de imagens de inspeção submarina, tais como: dados rotulados balanceados são caros e escassos; presença de ruído entre os dados; alta variância intraclasse; e características físicas da água que geram certas especificidades nas imagens capturadas. Portanto, modelos supervisionados tradicionais podem não ser capazes de cumprir a tarefa. Motivado por esses desafios, busca-se solucionar o problema de classificação de imagens submarinas a partir da utilização de modelos que requerem menos supervisão durante o seu treinamento. Neste trabalho, são explorados os métodos DINO (Self-DIstillation with NO labels, auto-supervisionado) e uma nova versão multi-label proposta para o PAWS (Predicting View Assignments With Support Samples, semi-supervisionado), que chamamos de mPAWS (multi-label PAWS). Os modelos são avaliados com base em sua performance como extratores de features para o treinamento de um classificador simples, formado por uma camada densa. Nos experimentos realizados, para uma mesma arquitetura, se obteve uma performance que supera em 2.7 por cento o f1-score do equivalente supervisionado. / [en] The offshore oil production segment is the main national producer of this input. In this context, underwater inspections are crucial for the preventive maintenance of equipment, which remains in the ocean environment for its entire useful life. From the image and sensor data collected in these inspections,experts are able to prevent and repair damage. Such a process is deeply complex, time-consuming and costly, as specialized professionals have to watch hours of videos attentive to details. In this scenario, the present work explores the use of image classification models designed to help experts to find the event(s) of interest in under water inspection videos. These models can be embedded in the ROV or on the platform to perform real-time inference,which can speed up the ROV, monitor notification time, and greatly reduce verification costs. However, there are some challenges inherent to the problem of classification of images of armored submarines, such as: balanced labeled data are expensive and scarce; the presence of noise among the data; high intraclass variance; and some physical characteristics of the water that achieved certain specificities in the captured images. Therefore, traditional supervised models may not be able to fulfill the task. Motivated by these challenges, we seek to solve the underwater image classification problem using models that require less supervision during their training. In this work, they are explorers of the DINO methods (Self-Distillation with NO labels, self-supervised) anda new multi-label version proposed for PAWS (Predicting View AssignmentsWith Support Samples, semi-supervised), which we propose as mPAWS (multi-label PAWS). The models are evaluated based on their performance as features extractors for training a simple classifier, formed by a dense layer. In the experiments carried out, for the same architecture, a performance was obtained that exceeds by 2.7 percent the f1-score of the supervised equivalent. [pt] CLASSIFICACAO DE IMAGEM [pt] APRENDIZADO AUTO-SUPERVISIONADO [pt] CLASSIFICACAO MULTI-LABEL [pt] INSPECOES SUBAMRINAS [pt] APRENDIZADO SEMI-SUPERVISIONADO [en] IMAGE CLASSIFICATION [en] SELF-SUPERVISED LEARNING [en] MULTI-LABEL CLASSIFICATION [en] UNDERWATER INSPECTIONS [en] SEMI-SUPERVISED LEARNING
73	[en] EFFECTS OF LATIN AMERICA SOVEREIGN RATINGS CHANGES OVER THE BRAZILIAN STOCK MARKET / [pt] EFEITOS DE MUDANÇAS DE RATINGS DE PAÍSES DA AMÉRICA LATINA NO MERCADO ACIONÁRIO BRASILEIRO ANA CAROLINA MINSKY BITTENCOURT 03 November 2008 (has links) [pt] O papel deste estudo foi investigar se as alterações de ratings de países da América Latina produzem impactos significativos no mercado acionário brasileiro. Por ser tratar de teste de hipótese semiforte de eficiência de mercado, o estudo foi conduzido através de teste estatístico paramétrico. Os resultados encontrados corroboram com hipótese de efeito contágio no mercado acionário brasileiro, através do índice IBX. O estudo também conclui que a intensidade do impacto também depende do tipo de informação incorporada nos anúncios de mudanças de classificações soberanas. / [en] The objective of this study was to investigate if sovereign rating changes for Latin America affect the Brazilian stock market. To measure this potential impact, the parametrical statistical test of event study was adopted, commonly used in semi-strong market efficiency tests. The results support the idea of contagion effects in the Brazilian Market through the IBX index. This study also concludes that the impact depends on the type of announcement of ratings changes. [pt] CLASSIFICACAO DE RISCO [en] RISK RATING [pt] AMERICA LATINA [en] LATIN AMERICA [pt] EFICIENCIA DE MERCADO [en] MARKET EFFICIENCY [pt] ESTUDO DE EVENTOS [en] EVENT STUDY
74	[en] CLASSIFICATION AND SEGMENTATION OF MPEG AUDIO BASED ON SCALE FACTORS / [pt] CLASSIFICAÇÃO E SEGMENTAÇÃO DE ÁUDIO A PARTIR DE FATORES DE ESCALA MPEG FERNANDO RIMOLA DA CRUZ MANO 06 May 2008 (has links) [pt] As tarefas de segmentação e classificação automáticas de áudio vêm se tornando cada vez mais importantes com o crescimento da produção e armazenamento de mídia digital. Este trabalho se baseia em características do padrão MPEG, que é considerado o padrão para acervos digitais, para gerir algoritmos de grande eficiência para realizar essas arefas. Ao passo que há muitos estudos trabalhando a partir do vídeo, o áudio ainda é pouco utilizado de forma eficiente para auxiliar nessas tarefas. Os algoritmos sugeridos partem da leitura apenas dos fatores de escala presentes no Layer 2 do áudio MPEG para ambas as tarefas. Com isso, é necessária a leitura da menor quantidade possível de informações, o que diminui significativamente o volume de dados manipulado durante a análise e torna seu desempenho excelente em termos de tempo de processamento. O algoritmo proposto para a classificação divide o áudio em quatro possíveis tipos: silêncio, fala, música e aplausos. Já o algoritmo de segmentação encontra as mudanças ignificativas de áudio, que são indícios de segmentos e mudanças de cena. Foram realizados testes com diferentes tipos de vídeos, e ambos os algoritmos mostraram bons resultados. / [en] With the growth of production and storing of digital media, audio segmentation and classification are becoming increasingly important. This work is based on characteristics of the MPEG standard, considered to be the standard for digital media storage and retrieval, to propose efficient algorithms to perform these tasks. While there are many studies based on video analysis, the audio information is still not widely used in an efficient way. The suggested algorithms for both tasks are based only on the scale factors present on layer 2 MPEG audio. That allows them to read the smallest amount of information possible, significantly diminishing the amount of data manipulated during the analysis and making their performance excellent in terms of processing time. The algorithm proposed for audio classification divides audio in four possible types: silent, speech, music and applause. The segmentation algorithm finds significant changes on the audio signal that represent clues of audio segments and scene changes. Tests were made with a wide range of types of video, and both algorithms show good results. [pt] SEGMENTACAO [en] SEGMENTATION [pt] CLASSIFICACAO [en] CLASSIFICATION [pt] MPEG [en] MPEG [pt] ANALISE DO AUDIO [en] AUDIO ANALYSIS [pt] FATORES DE ESCALA [en] SCALE FACTORS
75	[en] INTELLIGENT SYSTEMS APPLIED TO FRAUD ANALYSIS IN THE ELECTRICAL POWER INDUSTRIES / [pt] SISTEMAS INTELIGENTES NO ESTUDO DE PERDAS COMERCIAIS DO SETOR DE ENERGIA ELÉTRICA JOSE EDUARDO NUNES DA ROCHA 25 March 2004 (has links) [pt] Esta dissertação investiga uma nova metodologia, baseada em técnicas inteligentes, para a redução das perdas comerciais relativas ao fornecimento de energia elétrica. O objetivo deste trabalho é apresentar um modelo de inteligência computacional capaz de identificar irregularidades na medição de demanda e consumo de energia elétrica, considerando as características sazonais não lineares das curvas de carga das unidades consumidoras, características essas que são difíceis de se representar em modelos matemáticos. A metodologia é baseada em três etapas: categorização, para agrupar unidades consumidoras em classes similares; classificação para descobrir relacionamentos que expliquem o perfil da irregularidade no fornecimento de energia elétrica e que permitam prever a classe de um padrão desconhecido; e extração de conhecimento sob a forma de regras fuzzy interpretáveis. O modelo resultante foi denominado Sistema de Classificação de Unidades Consumidoras de Energia Elétrica. O trabalho consistiu em três partes: um estudo sobre os principais métodos de categorização e classificação de padrões; definição e implementação do Sistema de Classificação de Unidades Consumidoras de Energia Elétrica; e o estudo de casos. No estudo sobre os métodos de categorização foi feito um levantamento bibliográfico da área, resultando em um resumo das principais técnicas utilizadas para esta tarefa, as quais podem ser divididas em algoritmos de categorização hierárquicos e não hierárquicos. No estudo sobre os métodos de classificação foram feitos levantamentos bibliográficos dos sistemas Neuro-Fuzzy que resultaram em um resumo sobre as arquiteturas, algoritmos de aprendizado e extração de regras fuzzy de cada modelo analisado. Os modelos Neuro-Fuzzy foram escolhidos devido a sua capacidade de geração de regras lingüísticas. O Sistema de Classificação de Unidades Consumidoras de Energia Elétrica foi definido e implementado da seguinte forma: módulo de categorização, baseado no algoritmo Fuzzy C-Means (FCM); e módulo de classificação baseado nos Sistemas Neuro-Fuzzy NEFCLASS e NFHB-Invertido. No primeiro módulo, foram utilizadas algumas medidas de desempenho como o FPI (Fuzziness Performance Index), que estima o grau de nebulosidade (fuziness) gerado por um número específico de clusters, e a MPE (Modified Partition Entropy), que estima o grau de desordem gerado por um número específico de clusters. Para validação do número ótimo de clusters, aplicou-se o critério de dominância segundo o método de Pareto. No módulo de classificação de unidades consumidoras levou-se em consideração a peculiaridade de cada sistema neuro-fuzzy, além da análise de desempenho comparativa (benchmarking) entre os modelos. Além do objetivo de classificação de padrões, os Sistemas Neuro-Fuzzy são capazes de extrair conhecimento em forma de regras fuzzy interpretáveis expressas como: SE x é A e y é B então padrão pertence à classe Z. Realizou-se um amplo estudo de casos, abrangendo unidades consumidoras de atividades comerciais e industriais supridas em baixa e média tensão. Os resultados encontrados na etapa de categorização foram satisfatórios, uma vez que as unidades consumidoras foram agrupadas de forma natural pelas suas características de demanda máxima e consumo de energia elétrica. Conforme o objetivo proposto, esta categorização gerou um número reduzido de agrupamentos (clusters) no espaço de busca, permitindo que o treinamento dos sistemas Neuro-Fuzzy fosse direcionado para o menor número possível de grupos, mas com elevada representatividade sobre os dados. Os resultados encontrados com os modelos NFHB-Invertido e NEFCLASS mostraram-se, na maioria dos casos, superiores aos melhores resultados encontrados pelos modelos matemáticos comumente utilizados. O desempenho dos modelos NFHB-Invertido e NEFCLASS, em relação ao te / [en] This dissertation investigates a new methodology based on intelligent techniques for commercial losses reduction in electrical energy supply. The objective of this work is to present a model of computational intelligence able to identify irregularities in consumption and demand electrical measurements, regarding the non-linearity of the consumers seasonal load curve which is hard to represent by mathematical models. The methodology is based on three stages: clustering, to group consumers of electric energy into similar classes; patterns classification, to discover relationships that explain the irregularities profile and that determine the class for an unknown pattern; and knowledge extraction in form of interpretable fuzzy rules. The resulting model was entitled Electric Energy Consumers Classification System. The work consisted of three parts: a bibliographic research about main methods for clustering and patterns classification; definition and implementation of the Electric Energy Consumers Classification System; and case studies. The bibliographic research of clustering methods resulted in a survey of the main techniques used for this task, which can be divided into hierarchical and non-hierarchical clustering algorithms. The bibliographic research of classification methods provided a survey of the architectures, learning algorithms and rules extraction of the neuro-fuzzy systems. Neuro-fuzzy models were chosen due to their capacity of generating linguistics rules. The Electric Energy Consumers Classification System was defined and implemented in the following way: a clustering module, based on the Fuzzy CMeans (FCM) algorithm; and classification module, based on NEFCLASS and Inverted-NFHB neuro-fuzzy sytems. In the first module, some performance metrics have been used such as the FPI (Fuzziness Performance Index), which estimates the fuzzy level generated by a specific number of clusters; and the MPE (Modified Partition Entropy) that estimates disorder level generated by a specific number of clusters. The dominance criterion of Pareto method was used to validate optimal number of clusters. In the classification module, the peculiarities of each neuro-fuzzy system as well as performance comparison of each model were taken into account. Besides the patterns classification objective, the neuro-Fuzzy systems were able to extract knowledge in form of interpretable fuzzy rules. These rules are expressed by: IF x is A and y is B then the pattern belongs to Z class. The cases studies have considered industrial and commercial consumers of electric energy in low and medium tension. The results obtained in the clustering step were satisfactory, since consumers have been clustered in a natural way by their electrical consumption and demand characteristics. As the proposed objective, the system has generated an optimal low number of clusters in the search space, thus directing the learning step of the neuro-fuzzy systems to a low number of groups with high representation over data. The results obtained with Inverted-NFHB and NEFCLASS models, in the majority of cases, showed to be superior to the best results found by the mathematical methods commonly used. The performance of the Inverted-NFHB and NEFCLASS models concerning to processing time was also very good. The models converged to an optimal classification solution in a processing time inferior to a minute. The main objective of this work, that is the non- technical power losses reduction, was achieved by the assertiveness increases in the identification of the cases with measuring irregularities. This fact made possible some reduction in wasting with workers and effectively improved the billing. [pt] PERDAS NAO TECNICAS [en] NON TECHNICAL LOSSES [pt] PERDAS COMERCIAIS [en] COMMERCIAL LOSSES [en] NEURO-FUZZY CLASSIFICATION SYSTEMS
76	Comparação de métodos de mapeamento digital de solos através de variáveis geomorfométricas e sistemas de informações geográficas Coelho, Fabrício Fernandes January 2010 (has links) Mapas pedológicos são fontes de informações primordiais para planejamento e manejo de uso do solo, porém apresentam altos custos de produção. A fim de produzir mapas de solos a partir de mapas existentes, o presente trabalho objetiva testar e comparar métodos de classificação em estágio único (regressões logísticas múltiplas multinomiais e Bayes) e em estágios múltiplos (CART, J48 e LMT) com utilização de sistemas de informações geográficas e de variáveis geomorfométricas para produção de mapas pedológicos com legenda original e simplificada. A base de dados foi gerenciada em ambiente ArcGis onde as variáveis e o mapa original foram relacionados através de amostras de treinamento para os algoritmos. O resultado dos algoritmos obtidos no software Weka foram implementados no ArcGis para a confecção dos mapas. Foram gerados matrizes de erros para análise de acurácias dos mapas. As variáveis geomorfométricas de declividade, perfil e plano de curvatura, elevação e índice de umidade topográfica são aquelas que melhor explicam a distribuição espacial das classes de solo. Os métodos de classificação em estágio múltiplo apresentaram sensíveis melhoras nas acurácias globais, porém significativas melhoras nos índices Kappa. A utilização de legenda simplificada aumentou significativamente as acurácias do produtor e do usuário, porém sensível melhora na acurácia global e índice Kappa. / Soil maps are sources of important information for land planning and management, but are expensive to produce. This study proposes testing and comparing single stage classification methods (multiple multinomial logistic regression and Bayes) and multiple stage classification methods (CART, J48 and LMT) using geographic information system and terrain parameters for producing soil maps with both original and simplified legend. In ArcGis environment terrain parameters and original soil map were sampled for training algoritms. The results from statistical software Weka were implemented in ArcGis environment to generate digital soil maps. Error matrices were genereted for analysis accuracies of the maps.The terrain parameters that best explained soil distribution were slope, profile and planar curvature, elevation, and topographic wetness index. The multiple stage classification methods showed small improvements in overall accuracies and large improvements in the Kappa index. Simplification of the original legend significantly increased the producer and user accuracies, however produced small improvements in overall accuracies and Kappa index. Classificacao do solo Geomorfologia Mapeamento digital Sensoriamento remoto Sistema de informação geográfica Digital elevation model Terrain parameters Single stage classification Classification trees
77	Mapeamento digital de solos e o mapa de solos como ferramenta para classificação de aptidão de uso das terras / Digital soil mapping and soil map as a tool for classification of land suitability Höfig, Pedro January 2014 (has links) No Brasil, a execução de mapeamento de solos em todo o território nacional é uma demanda permanente das instituições de pesquisa e por órgãos de planejamento, dado que é uma importante ferramenta para o planejamento da ocupação racional das terras. O Mapeamento Digital de Solo (MDS) surge como alternativa para aumentar a viabilidade de execução de levantamentos de solos, utilizando-se de informações relacionadas ao relevo para mapear os solos. Este estudo objetiva testar metodologias de MDS com extrapolação para área fisiografimente semelhante e reclassificar o mapa pedológico gerado por MDS para criar um mapa de aptidão agrícola das terras e compará-lo com o mapa interpretativo gerado a partir do mapa convencional. Tendo em vista a escassez de dados existentes na Encosta do Sudeste do Rio Grande do Sul, o trabalho foi realizado em Sentinela do Sul e Cerro Grande do Sul. O MDS usou como modelos preditores um modelo geral de árvore de decisão (AD), testando-se um modelo para toda área e também o uso conjunto de dois modelos de predição. Uma vez que o MDS mapeia normalmente classes e propriedades dos solos e que desconhece-se o uso de tal técnica para gerar mapas de aptidão agrícola das terras, parte-se da hipótese que estes mapas possam ser criados a partir da reclassificação do mapa de solos gerados por MDS. O uso de modelos conjuntos de AD gerou modelos com mais acertos e maior capacidade de reprodução do mapa convencional de solos. A extrapolação para o município de Cerro Grande do Sul se mostrou eficiente. Ao classificar a aptidão agrícola das terras, a concordância entre o mapa convencional e os mapas preditos foi maior do que a concordância entre os mapas de solos. / In Brazil, the implementation of soil mapping throughout the national territory is a constant demand of research institutions and planning organs, as it is an important tool for rational planning of land occupation. Digital Soil Mapping (DSM) is an alternative to increase the viability of the soil survey because plots the information based on the relief to draw the soil map. This study aims to test methodologies DSM applied to similar landscapes areas. It also aims to reclassify the pedological map generated by DSM to create a new land suitability classes map and compare it with the land suitability classes map generated from conventional maps. The study was conducted in South Sentinel and Cerro Grande do Sul considering the lack of data in that area. The MDS was generated using a global model of decision tree (DT) for the entire area and combined with the use of two predictive models. The use of DSM to land suitability classes map is unknown. Perhaps interpretive maps created from the reclassification of DSM can produce more accurate maps than the predictor model would generate of the pedological map. The use of set models of DT created models with greater hits and higher reproductive capacity of the conventional map. The extrapolation to Cerro Grande do Sul was efficient . The DSM was more efficient to classify land suitability classes than to classify pedological maps, but this system of land sutability needs adjustments to reflect the local reality. Aptidão agrícola Mapeamento digital Uso da terra Classificacao do solo Sentinela do Sul (RS) Cerro Grande do Sul (RS) Decision trees Soil survey
78	[en] USING MACHINE LEARNING TO BUILD A TOOL THAT HELPS COMMENTS MODERATION / [pt] UTILIZANDO APRENDIZADO DE MÁQUINA PARA CONSTRUÇÃO DE UMA FERRAMENTA DE APOIO A MODERAÇÃO DE COMENTÁRIOS SILVANO NOGUEIRA BUBACK 05 March 2012 (has links) [pt] Uma das mudanças trazidas pela Web 2.0 é a maior participação dos usuários na produção do conteúdo, através de opiniões em redes sociais ou comentários nos próprios sites de produtos e serviços. Estes comentários são muito valiosos para seus sites pois fornecem feedback e incentivam a participação e divulgação do conteúdo. Porém excessos podem ocorrer através de comentários com palavrões indesejados ou spam. Enquanto para alguns sites a própria moderação da comunidade é suficiente, para outros as mensagens indesejadas podem comprometer o serviço. Para auxiliar na moderação dos comentários foi construída uma ferramenta que utiliza técnicas de aprendizado de máquina para auxiliar o moderador. Para testar os resultados, dois corpora de comentários produzidos na Globo.com foram utilizados, o primeiro com 657.405 comentários postados diretamente no site, e outro com 451.209 mensagens capturadas do Twitter. Nossos experimentos mostraram que o melhor resultado é obtido quando se separa o aprendizado dos comentários de acordo com o tema sobre o qual está sendo comentado. / [en] One of the main changes brought by Web 2.0 is the increase of user participation in content generation mainly in social networks and comments in news and service sites. These comments are valuable to the sites because they bring feedback and motivate other people to participate and to spread the content. On the other hand these comments also bring some kind of abuse as bad words and spam. While for some sites their own community moderation is enough, for others this impropriate content may compromise its content. In order to help theses sites, a tool that uses machine learning techniques was built to mediate comments. As a test to compare results, two datasets captured from Globo.com were used: the first one with 657.405 comments posted through its site and the second with 451.209 messages captured from Twitter. Our experiments show that best result is achieved when comment learning is done according to the subject that is being commented. [pt] CLASSIFICACAO DE TEXTOS [en] TEXT CLASSIFICATION [pt] PROCESSAMENTO DA LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] SVM [en] SVM [pt] BOOSTING [en] BOOSTING
79	Comparação de métodos de mapeamento digital de solos através de variáveis geomorfométricas e sistemas de informações geográficas Coelho, Fabrício Fernandes January 2010 (has links) Mapas pedológicos são fontes de informações primordiais para planejamento e manejo de uso do solo, porém apresentam altos custos de produção. A fim de produzir mapas de solos a partir de mapas existentes, o presente trabalho objetiva testar e comparar métodos de classificação em estágio único (regressões logísticas múltiplas multinomiais e Bayes) e em estágios múltiplos (CART, J48 e LMT) com utilização de sistemas de informações geográficas e de variáveis geomorfométricas para produção de mapas pedológicos com legenda original e simplificada. A base de dados foi gerenciada em ambiente ArcGis onde as variáveis e o mapa original foram relacionados através de amostras de treinamento para os algoritmos. O resultado dos algoritmos obtidos no software Weka foram implementados no ArcGis para a confecção dos mapas. Foram gerados matrizes de erros para análise de acurácias dos mapas. As variáveis geomorfométricas de declividade, perfil e plano de curvatura, elevação e índice de umidade topográfica são aquelas que melhor explicam a distribuição espacial das classes de solo. Os métodos de classificação em estágio múltiplo apresentaram sensíveis melhoras nas acurácias globais, porém significativas melhoras nos índices Kappa. A utilização de legenda simplificada aumentou significativamente as acurácias do produtor e do usuário, porém sensível melhora na acurácia global e índice Kappa. / Soil maps are sources of important information for land planning and management, but are expensive to produce. This study proposes testing and comparing single stage classification methods (multiple multinomial logistic regression and Bayes) and multiple stage classification methods (CART, J48 and LMT) using geographic information system and terrain parameters for producing soil maps with both original and simplified legend. In ArcGis environment terrain parameters and original soil map were sampled for training algoritms. The results from statistical software Weka were implemented in ArcGis environment to generate digital soil maps. Error matrices were genereted for analysis accuracies of the maps.The terrain parameters that best explained soil distribution were slope, profile and planar curvature, elevation, and topographic wetness index. The multiple stage classification methods showed small improvements in overall accuracies and large improvements in the Kappa index. Simplification of the original legend significantly increased the producer and user accuracies, however produced small improvements in overall accuracies and Kappa index. Classificacao do solo Geomorfologia Mapeamento digital Sensoriamento remoto Sistema de informação geográfica Digital elevation model Terrain parameters Single stage classification Classification trees
80	Comparação de métodos de mapeamento digital de solos através de variáveis geomorfométricas e sistemas de informações geográficas Coelho, Fabrício Fernandes January 2010 (has links) Mapas pedológicos são fontes de informações primordiais para planejamento e manejo de uso do solo, porém apresentam altos custos de produção. A fim de produzir mapas de solos a partir de mapas existentes, o presente trabalho objetiva testar e comparar métodos de classificação em estágio único (regressões logísticas múltiplas multinomiais e Bayes) e em estágios múltiplos (CART, J48 e LMT) com utilização de sistemas de informações geográficas e de variáveis geomorfométricas para produção de mapas pedológicos com legenda original e simplificada. A base de dados foi gerenciada em ambiente ArcGis onde as variáveis e o mapa original foram relacionados através de amostras de treinamento para os algoritmos. O resultado dos algoritmos obtidos no software Weka foram implementados no ArcGis para a confecção dos mapas. Foram gerados matrizes de erros para análise de acurácias dos mapas. As variáveis geomorfométricas de declividade, perfil e plano de curvatura, elevação e índice de umidade topográfica são aquelas que melhor explicam a distribuição espacial das classes de solo. Os métodos de classificação em estágio múltiplo apresentaram sensíveis melhoras nas acurácias globais, porém significativas melhoras nos índices Kappa. A utilização de legenda simplificada aumentou significativamente as acurácias do produtor e do usuário, porém sensível melhora na acurácia global e índice Kappa. / Soil maps are sources of important information for land planning and management, but are expensive to produce. This study proposes testing and comparing single stage classification methods (multiple multinomial logistic regression and Bayes) and multiple stage classification methods (CART, J48 and LMT) using geographic information system and terrain parameters for producing soil maps with both original and simplified legend. In ArcGis environment terrain parameters and original soil map were sampled for training algoritms. The results from statistical software Weka were implemented in ArcGis environment to generate digital soil maps. Error matrices were genereted for analysis accuracies of the maps.The terrain parameters that best explained soil distribution were slope, profile and planar curvature, elevation, and topographic wetness index. The multiple stage classification methods showed small improvements in overall accuracies and large improvements in the Kappa index. Simplification of the original legend significantly increased the producer and user accuracies, however produced small improvements in overall accuracies and Kappa index. Classificacao do solo Geomorfologia Mapeamento digital Sensoriamento remoto Sistema de informação geográfica Digital elevation model Terrain parameters Single stage classification Classification trees

Search results