Global ETD Search

161	Estimativa de desempenho acadêmico de estudantes em um AVA utilizando técnicas de mineração de dados Gottardo, Ernani 04 December 2012 (has links) Alguns ambientes educacionais têm incorporado softwares que são utilizados como apoio ou, em alguns casos, como condição básica para a disponibilização de cursos. Neste cenário, destacam-se os Ambientes Virtuais de Aprendizagem (AVA) usados para apoiar o desenvolvimento de cursos presenciais, semipresenciais e a distância. Os AVA caracterizam-se por armazenar um grande volume de dados. Contudo, esses ambientes carecem de ferramentas que permitam extrair informações úteis para o desenvolvimento de processos de acompanhamento eficiente dos estudantes. Diante disso, esta pesquisa investiga como os dados armazenados em um AVA poderiam ser processados para geração de informações relacionadas a estimativas de desempenho acadêmico futuro de estudantes. Para obter essas informações, primeiramente fez-se necessário a seleção de um conjunto de atributos para representar estudantes em um curso a distância (EAD) utilizando um AVA. O conjunto de atributos foi escolhido considerando-se três dimensões, selecionadas partir da análise de referências teóricas da literatura sobre cursos EAD: perfil de uso do AVA, interação estudante-estudante e interação bidirecional estudante-professor. Aplicando-se técnicas de mineração de dados sobre o conjunto de atributos selecionados, foi possível então a obter estimativas sobre o desempenho futuro de estudantes. Essas estimativas poderiam apoiar o desenvolvimento de processos de acompanhamento efetivo dos estudantes, atividade de fundamental importância em cursos EAD. Neste trabalho, um estudo com sete experimentos foram realizados e apresentam diferentes cenários em que as estimativas sobre o desempenho podem ser obtidas. Os resultados desses experimentos apontam para a viabilidade desta proposta, tendo em vista os índices promissores de acurácia obtidos na classificação de estudantes quanto ao seu desempenho final nos cursos. / Some educational environments have incorporated software to support or, in some cases, as a basic condition to the availability of courses. In this scenario, stand out Learning Management Systems (LMS) used to support the development of classroom, blended or distance courses. Learning Management System are characterized by storing a large volume of data. However, these environments lack tools to extract useful information for the development of efficient processes for monitoring students’. Thus, this research investigates how data stored in a LMS could be processed to generate information regarding estimates of students’ future academic performance. To obtain this information, first became necessary to select a set of attributes to represent students in an online course using a LMS. This set of attributes was chosen considering three dimensions, selected through the analysis of theoretical bases about online courses: LMS use profile, student-student interaction and bidirectional student-teacher interaction. Applying data mining techniques on the set of selected attributes, it was possible to obtain estimates of students’ future performance. These estimates can support the development of effective processes for monitoring students, activity of fundamental importance in distance learning. In this research, a study with seven experiments were conducted and present different scenarios where estimates of performance can be obtained. The results of these experiments indicate the viability of this proposal, given the promising accuracy rates obtained in the classification of students regarding their final performance in courses. Mineração de dados (Computação) Ensino à distância Aprendizagem Software educacional Internet na educação Computação Data mining Distance education Learning Educational software Internet in education Computer science
162	Previsão do índice de desenvolvimento humano e da expectativa de vida na América Latina por meio de técnicas de mineração de dados / Prediction of the human development index and life expectancy in Latin American using data mining techniques Santos, Celso Bilynkievycz dos 22 December 2016 (has links) A previsibilidade de indicadores de qualidade de vida pode contribuir na projeção de variáveis dependentes, auxiliar em tomadas de decisões para sustentar ou não políticas públicas e justificar o cenário vivido pelos países e o mundo. Objetivo: Prever o Índice de Desenvolvimento Humano (IDH) e a expectativa de vida (EV) nos países latino-americanos no período de 2015 a 2020, utilizando técnicas de Mineração de Dados. Metodologia: Foram percorridas as etapas do processo Descoberta de Conhecimento em Base Dados (DCBD). Durante a etapa de DCBD de Mineração de Dados, foi avaliado o desempenho de diferentes algoritmos com paradigma de aprendizado baseados em funções. A partir do algoritmo com melhor desempenho, foram desenvolvidos 748 modelos de previsão univariados e dois multivariados para previsão do IDH de 187 países do mundo e seus resultados, comparados com os últimos relatórios do United Nations Development Programme (UNDP), para definição do modelo mais eficiente. Os resultados desses testes de previsões ainda foram comparados com 44 modelos univariados Autoregressive Integrated Moving Average (ARIMA). A partir da definição do melhor algoritmo de Mineração de Dados e modelo, fez-se a previsão do IDH e da EV para os países da America Latina para o período de 2015 a 2020. Resultados: O algoritmo SMOReg e os modelos multivariados apresentaram melhor desempenho nos testes desenvolvidos durante o experimento. As médias de crescimento do IDH e EV previstas para os países latino-americanos tendem a aumentar no período analisado, respectivamente, 4,99±3,90 % e 2,47±0,09 anos. Conclusão: Experiências multivariadas possibilitam maior aprendizagem dos algoritmos, aumentando sua precisão. As técnicas de Mineração de Dados apresentaram melhor qualidade nas previsões em relação à técnica mais popular, ARIMA. As previsões sugerem média de crescimento do IDH e EV dos países latino-americanos maiores que a média mundial. / The predictability of quality of life indicators can contribute to the projection of dependent variables, help decision-making processes to support public policies and justify the scenario experienced by the countries and the world. Aim: This study aimed to predict the Human Development Index (HDI) and life expectancy (LE) in Latin American countries in the period of 2015–2020 using data mining techniques. Methodology: The study followed the steps of Knowledge Discovery in Database (KDD) processes. During the data mining KDD step, the performance of different algorithms with function-based learning paradigms was analyzed. From the algorithm with the best performance, 748 prediction models of univariate and two multivariate were developed to predict the HDI of 187 countries and their results were compared with the last reports from the United Nations Development Program (UNDP) in order to define the most efficient model. The results of these prediction tests were compared with 44 univariate Autoregressive Integrated Moving Average (ARIMA) models. From the definition of the best algorithm of data mining and model, the prediction of HDI and LE for Latin American countries from 2015 and 2020 was done. Results: The SMOReg algorithm and the multivariate models presented the best performance in the tests during the experiment. The average growth in HDI and LE predicted for Latin American countries tend to increase in the period analyzed, 4.99±3.90 % and 2.47±0.09 years, respectively. Conclusion: Multivariate experiences allow better learning of algorithms, increasing their prediction. Mining data techniques present better quality in the predictions compared to Autoregressive Integrated Moving Average (ARIMA), which is the most popular technique. The predictions suggest an average growth in HDI and LE in Latin American countries compared to the world average. Indicadores sociais Desenvolvimento social Qualidade de vida - América Latina Mineração de dados (Computação) Social indicators Progress Quality of life - Latin America Data mining Engenharia de Produção
163	Identificação e propagação de temas em redes sociais Klinczak, Marjori Naiele Mocelin 24 August 2016 (has links) Os últimos anos foram marcados pelo surgimento de diversas mídias sociais, desde o Orkut até o Facebook, assim como Twitter, Youtube, Google+ e tantos outros: cada um oferece novas funcionalidades como forma de atrair um maior número de usuários. Essas mídias sociais geram uma grande quantidade de dados, que se devidamente processados podem ser utilizados para se identificar tendências, padrões e mudanças. O objetivo deste trabalho é a descoberta dos principais temas abordados em uma rede social, caracterizados como agrupamentos de termos relevantes, restritos a determinado contexto e o estudo de sua evolução ao longo do tempo. Para tanto serão utilizados procedimentos fundamentados em Mineração de Dados e no Processamento de Textos. Em um primeiro momento são utilizadas técnicas de pré-processamento de textos com o objetivo de identificar os termos mais relevantes que aparecem nas mensagens textuais da rede social. Em seguida utilizam-se algoritmos clássicos de agrupamento - k-means, k-medoids, DBSCAN - e o recente NMF (Non-negative Matrix Factorization), para a identificação dos temas principais destas mensagens, caracterizados como agrupamentos de termos relevantes. A proposta foi avaliada sobre a rede Twitter, utilizando-se bases de tweets considerando diversos contextos. Os resultados obtidos evidenciam a viabilidade da proposta e sua aplicação na identificação de temas relevantes desta rede social. / Recent years have been marked by the emergence of various social media, from Orkut to Facebook, and Twitter, Youtube, Google+ and many others: each offers new features as a way to attract more users. These social media generate a large amount of data which is processed properly can be used to identify trends, patterns and changes. The objective of this work is the discovery of the key topics in a social network, characterized as relevant terms groupings, restricted to a particular context and the study of its evolution over time. For that will be used procedures based on Data Mining and Text Processing. At first techniques are used preprocessing of texts in order to identify the most relevant terms that appear in the text messages from the social network. Next are used grouping of classical algorithms - k-means, k-medoids, DBSCAN - and the recent NMF (Non-negative Matrix Factorization), to identify the main themes of these messages, characterized as relevant terms groupings. The proposal was evaluated on the Twitter network, using bases tweets considering different contexts. The results show the feasibility of the proposal and its application in the identification of relevant topics of this social network Mineração de dados (Computação) Mineração de uso da Web Redes sociais on-line Computação Data mining Web usage mining Online social networks Computer science Ciência da Computação
164	Utilizando técnicas de mineração de dados para apoiar a busca ativa de famílias em situação de vulnerabilidade e risco social / Using data mining techniques to support active search for families in situations of social risk and vulnerability Terrin, Marcos Alexandre Pastori 18 August 2015 (has links) No âmbito da Assistência Social, existe a necessidade de se identificar as famílias em situação de vulnerabilidade e risco social, processo esse chamado de “Busca Ativa”, para que as famílias nesta situação possam ser assistidas adequadamente. O Ministério do Desenvolvimento Social e Combate à Fome do Brasil orienta que seja realizado o cruzamento de bases de dados como forma de realizar a Busca Ativa, mas não disponibiliza nenhuma ferramenta para realização desse processo. Este trabalho busca identificar e aplicar técnicas de mineração de dados para apoiar a identificação das famílias em situação de vulnerabilidade e risco social. Os resultados obtidos em experimentos preliminares demonstraram que na maioria dos casos os modelos gerados preveem sempre a classe majoritária. Após realizar um balanceamento manual das classes removendo algumas amostras os experimentos foram repetidos e indicaram que os resultados estavam sendo diretamente afetados devido ao desbalanceamento das classes. Por esse motivo foram utilizados diversos métodos específicos para realizar o balanceamento das amostras a fim de que todas as classes possuíssem a mesma quantidade de amostras. Após realizar o balanceamento das amostras novos experimentos foram realizados. Durante a análise dos resultados foi observado que com as medidas padrões de avaliação de aprendizado de máquina não estava sendo possível identificar qual método havia obtido o melhor resultado. Em função disso um método de qualidade de ranking foi utilizado juntamente com a medida Recall para avaliar os resultados. / In the current Brazilian Government there is a Social Assistance policy that is highly concerned about helping families who might be at social risk and vulnerability. The process of identification of these families is known as “active search”. The task of active search is defined in a document by the Brazilian Ministry of Social Development and Fight Against Hunger. This document provides the main guidelines about how to perform the active search. However, despite the task’s importance, there are still no tool to help the social assistants with this task. This work aim to investigate the use of data mining techniques to identify the families in vulnerability and social risk situations. The results obtained in preliminary experiments showed that the classification models created always predict the majority class. After balancing manually the datasets by removing some examples the experiments were repeated and showed that the results were being directly influenced by the imbalanced data. Because of it was used a bunch of sampling methods to produce the same amount of examples in each class. After proceed with the sampling of the examples new experiments were proceeded. During the result’s evaluation it was realized that the standard metrics used in machine learn were not being able to identify wich method obtained the best result. Due to this situation a ranking quality method was used combined with the Recall metric to evaluate the results. CNPQ::CIENCIAS EXATAS E DA TERRA Serviço social com a família Mineração de dados (Computação) Family social work Data mining Bayesian statistical decision theory Ciência da Computação
165	Recursos computacionais para auxiliar a análise da aptidão física relacionada à saúde de universitários Sena, Rafael Veloso da [UNESP] 25 February 2013 (has links) (PDF) Made available in DSpace on 2014-06-11T19:29:48Z (GMT). No. of bitstreams: 0 Previous issue date: 2013-02-25Bitstream added on 2014-06-13T20:39:35Z : No. of bitstreams: 1 sena_rv_me_rcla.pdf: 393538 bytes, checksum: e72ebab2329a84bc76986c21f6b4012c (MD5) / Estudar as características relacionadas à aptidão física é um importante passo tanto para avaliar indivíduos quanto à sua saúde, em relação aos considerados padrões de normalidade, como para procurar identificar possíveis associações entre essas características. Isso possibilita propor medidas que possam ser tomadas visando melhorar variáveis relacionadas à aptidão física para a manutenção ou melhora da saúde das pessoas. Esta dissertação visou identificar associações entre características de composição corporal e resultados referentes ao desempenho em testes neuromotores e cardiorrespiratório de universitários. Os dados coletados foram analisados usando recursos e técnicas computacionais, no caso, Banco de Dados e Mineração de Dados. Foram identificadas associações relevantes entre as próprias características de composição corporal e delas com os desempenhos nos testes realizados. Algumas associações mostraram valores altos para a Confiança, métrica usada nesta dissertação. Os resultados das análises permitiram descrever o perfil do grupo analisado. Considerando este perfil, foi construído um aplicativo computacional que compara dados de um indivíduo com valores de variáveis referentes ao perfil e mostra a situação do mesmo em relação a este perfil. O aplicativo também mostra como aquele indivíduo se encontra em relação a tabelas padrão conhecidas / The study of the characteristics related to physical fitness is an important step to evaluate individuals according to their health, based on the considered standards of normality. It is also important to try to identify associations between these characteristics in order to try to propose ways to improve the variables related to physical fitness to maintain or improve people health. This work was aimed to identify associations between body composition and results from neuromotor and cardiopulmonary tests of university students. The results were analyzed using Database and Data Mining techniques. Important associations were identified amongst body composition characteristics and amongst them and the test results. Some associations showed high values to Confidence, the metric used in this study. Based on the analysis results, it was possible to describe the profile of the analyzed group and, based on this profile, develop a computational system that compares data of a person with values of a specific profile and shows his/her situation with regard to that profile. The application also show the comparison of a person data with known reference tables Aptidão física Software - Desenvolvimento Capacidade aeróbia Software de aplicação Banco de dados Mineração de dados (Computação) Corpo - Composição
166	Caracterização e previsão de ondas de calor com impacto na mortalidade de frangos de corte / Characterization and estimation of occurrence of heat waves with impact on broiler mortality Vale, Marcos Martinez do 23 April 2008 (has links) Orientador: Daniella Jorge de Moura / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-10T15:17:54Z (GMT). No. of bitstreams: 1 Vale_MarcosMartinezdo_D.pdf: 4930085 bytes, checksum: c13a4400cf22926da65e99857857d0ba (MD5) Previous issue date: 2008 / Resumo: Com o aumento da produção de frangos de corte no Brasil surge a necessidade de otimização do sistema de produção, principalmente devido a um mercado competitivo, sendo necessária a aplicação de recursos de tecnologia que reduzam perdas. Perdas produtivas decorrentes de ondas de calor (OC) são comuns na produção de frangos de corte em clima tropical e a solução é um problema complexo. A previsão precoce destes eventos climáticos com impacto na mortalidade permite reduzir perdas. Bancos de dados zootécnicos e meteorológicos podem conter padrões úteis para a previsão da mortalidade de frangos de corte, possíveis de se extrair por técnicas como a Mineração de Dados. Este trabalho teve por objetivo geral predizer a mortalidade de frangos de corte com um mínimo de 24 horas de antecedência. Os objetivos específicos foram: 1) Caracterizar OC com impacto sobre a mortalidade de frangos de corte; 2) Gerar modelos de previsão aplicável a sistemas de suporte à decisão durante o processo produtivo de frangos de corte prevendo a ocorrência de mortalidade alta em frangos de corte devido a OC; 3) Indicar ações mitigadoras para a amenização do impacto de OC. As OC com impacto na mortalidade de frangos de corte apresentaram características que dependem do tipo construtivo e da idade da ave. A condição mínima para a ocorrência de OC afetando aviários sem climatização foi: temperatura máxima do dia > 32º C; temperatura média do dia > 24º C; Índice de Temperatura e Umidade (ITU) médio > 23º C; Velocidade média do vento _ 1,4 m s-1. Para aviários com climatização mínima, a mortalidade ocorreu de forma diferente entre as idades, não havendo mortalidade por OC para idade até 31 dias. Para as demais idades as condições para o desencadeamento de mortalidade alta foram: entre 31 e 40 dias: ITU máximo > 30,6º C e temperatura máxima > 34,4º C; entre 41 dias e o abate: ITU máximo > 30,6º C; temperatura máxima > 34,4º C; ITU mínimo _ 15,5º C; hora da temperatura máxima > 15h00min. A magnitude média de OC com impacto na mortalidade de frangos de corte, medida em ITU horas grau acumulado (ITUhga) > 24º C, foi de 367º C acumulados no dia. As previsões com 48 horas (precisão de 91,12% do modelo e 66,9% para a mortalidade alta) e 24 horas (precisão de 97,2% do modelo e 93,3% para a mortalidade alta) de antecedência permitem o desencadeamento de ações mitigadoras para a redução da mortalidade em frangos de corte. Dias de OC apresentam uma pior condição térmica, uma menor umidade relativa do ar nos horários de pico de calor, no turno da tarde, o que permite estratégias de mitigação com a intensificação do uso dos ventiladores e resfriamento evaporativo iniciando operação entre 09h00min e 10h00min, perdurando até as 20h00min. A previsão da mortalidade alta em frangos de corte a partir de dados meteorológicos com 24 e 48 horas de antecedência pode auxiliar na tomada de decisão precoce para se evitar esta mortalidade / Abstract: As broiler production increases in Brazil it appears the need of optimizing production system mainly due to the market competitiveness, and technological resources application are required for reducing losses. Productive loss decurrently from heat wave (HW) incidence is quite common in broiler rearing under tropical conditions, and the solution for this is a rather complex problem. The early forecast of these climate events with impact on animal mortality may allow losses reduction. Data base on animal production and meteorology may enclose useful pattern for broiler mortality prediction, and it can be possible to extract them by techniques such as Data Mining. This research had the general objective of predicting broiler chicken mortality with a minimum period of 24 hours prior to heat wave exposure. The specific objectives were: 1) To characterize HW with impact on broiler mortality; 2) To generate forecast models applied to decision making systems during the broiler productive process, estimating the high mortality occurrence due to HW exposure; 3) To indicate mitigation actions to reduce HW impact on broiler chicken production. The HW with impact on broiler mortality presented characteristics that depend on the housing characteristics as well as on the age of the bird. The minimum concomitant climatic condition for HW affecting broiler production reared on housing without acclimatization was: maximum daily environmental temperature > 32º C; average daily temperatures > 24º C; average temperature and humidity index (THI) > 23º C; and average wind speed _ 1.4 m s-1. For housing with the minimum acclimatization equipments mortality occurred in a distinct way for birds with distinct ages, and there was not mortality by HW exposure for birds up to 31 days old. For birds with age different from that, the climate condition for starting the high mortality incidence was distinct such as: between 31 and 40 days old: Maximum THI > 30.6 ºC and maximum environmental temperature above 34.4 ºC; between 41 days old and laughter age: maximum THI > 30.6 ºC; maximum ambient temperature > 34.4º C; minimum THI _ 15.5 ºC; time that the maximum ambient temperature was found > 15h00min. The mean HW magnitude with impact in broiler 31 days old and characterized by THI degrees hour accumulated (THIdha) >24ºC, was of 367 ºC accumulated during the day. The forecast within 48 hours (91.12% accuracy and 0.66 precision for the class High Mortality) and 24 hours (97.2% accuracy of the model, and 0.93 precision for the class High Mortality) of minimum forecast allows the start of mitigation actions for reducing broiler mortality. Days during HW present the worst thermal conditions, with lower air relative humidity during peak of heat during the afternoon; that allows the adoption of mitigation strategies by using fans and evaporative cooling starting between 09h00min and 10h00min up to 20h00min. It was possible to predict high broiler mortality using meteorological data forecast within 24 and 48 hours, and this may help early decision making to avoid economical losses / Doutorado / Construções Rurais e Ambiencia / Doutor em Engenharia Agrícola Frango de corte Mineração de dados (Computação) Frango de corte - Mortalidade Meta-análises Frango de corte - Fatores climaticos Broiler chicken Mortality Heat wave Data mining Meta-analysis
167	Using supervised machine learning and sentiment analysis techniques to predict homophobia in portuguese tweets Pereira, Vinicius Gomes 16 April 2018 (has links) Submitted by Vinicius Pereira (viniciusgomespe@gmail.com) on 2018-06-26T20:56:26Z No. of bitstreams: 1 DissertacaoFinal.pdf: 2029614 bytes, checksum: 3eda3dc97f25c0eecd86608653150d82 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2018-07-11T12:40:51Z (GMT) No. of bitstreams: 1 DissertacaoFinal.pdf: 2029614 bytes, checksum: 3eda3dc97f25c0eecd86608653150d82 (MD5) / Made available in DSpace on 2018-07-16T17:48:51Z (GMT). No. of bitstreams: 1 DissertacaoFinal.pdf: 2029614 bytes, checksum: 3eda3dc97f25c0eecd86608653150d82 (MD5) Previous issue date: 2018-04-16 / Este trabalho estuda a identificação de tweets homofóbicos, utilizando uma abordagem de processamento de linguagem natural e aprendizado de máquina. O objetivo é construir um modelo preditivo que possa detectar, com razoável precisão, se um Tweet contém conteúdo ofensivo a indivı́duos LGBT ou não. O banco de dados utilizado para treinar os modelos preditivos foi construı́do agregando tweets de usuários que interagiram com polı́ticos e/ou partidos polı́ticos no Brasil. Tweets contendo termos relacionados a LGBTs ou que têm referências a indivı́duos LGBT foram coletados e classificados manualmente. Uma grande parte deste trabalho está na construção de features que capturam com precisão não apenas o texto do tweet, mas também caracterı́sticas especı́ficas dos usuários e de expressões coloquiais do português. Em particular, os usos de palavrões e vocabulários especı́ficos são um forte indicador de tweets ofensivos. Naturalmente, n-gramas e esquemas de frequência de termos também foram considerados como caracterı́sticas do modelo. Um total de 12 conjuntos de recursos foram construı́dos. Uma ampla gama de técnicas de aprendizado de máquina foi empregada na tarefa de classificação: Naive Bayes, regressões logı́sticas regularizadas, redes neurais feedforward, XGBoost (extreme gradient boosting), random forest e support vector machines. Depois de estimar e ajustar cada modelo, eles foram combinados usando voting e stacking. Voting utilizando 10 modelos obteve o melhor resultado, com 89,42% de acurácia. / This work studies the identification of homophobic tweets from a natural language processing and machine learning approach. The goal is to construct a predictive model that can detect, with reasonable accuracy, whether a Tweet contains offensive content to LGBT or not. The database used to train the predictive models was constructed aggregating tweets from users that have interacted with politicians and/or political parties in Brazil. Tweets containing LGBT-related terms or that have references to open LGBT individuals were collected and manually classified. A large part of this work is in constructing features that accurately capture not only the text of the tweet but also specific characteristics of the users and language choices. In particular, the uses of swear words and strong vocabulary is a quite strong predictor of offensive tweets. Naturally, n-grams and term weighting schemes were also considered as features of the model. A total of 12 sets of features were constructed. A broad range of machine learning techniques were employed in the classification task: naive Bayes, regularized logistic regressions, feedforward neural networks, extreme gradient boosting (XGBoost), random forest and support vector machines. After estimating and tuning each model, they were combined using voting and stacking. Voting using 10 models obtained the best result, with 89.42% accuracy. Sentiment Analysis Machine Learning Supervised learning Ensemble Methods Homophobia Análise de sentimentos Aprendizagem de máquina Aprendizagem supervisionada Mineração de dados (Computação) Aprendizado do computador Modelagem de dados Homofobia
168	Aplicação de mineração de dados na identificação de áreas cultivadas com cana-de-açúcar em imagens de sensoriamento remoto no Estado de São Paulo / Application of data mining for identifying sugar cane crop plantations in remote sensing images of the state of São Paulo Nonato, Robson Tavares 07 July 2010 (has links) Orientador: Stanley Robson de Medeiros Oliveira / Acompanhado de 1 DVD / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-16T20:09:48Z (GMT). No. of bitstreams: 1 Nonato_RobsonTavares_M.pdf: 2571579 bytes, checksum: 95440ba27ff9c0fe2dfa47f9b7f3d9e5 (MD5) Previous issue date: 2010 / Resumo: O surgimento e a evolução das geotecnologias, que podem ser entendidas como tecnologias originadas de estudos e pesquisas na área de sensoriamento remoto, mais especificamente da utilização de sensores situados na órbita do planeta Terra, têm permitido o desenvolvimento de metodologias inovadoras para o mapeamento da cobertura do solo e o monitoramento agrícola. O emprego dessas novas tecnologias tem permitido, também, uma melhoria das metodologias utilizadas na estimativa da produtividade agrícola e na previsão de safras. Mesmo assim, no Brasil, muitas das metodologias empregadas no mapeamento agrícola ainda utilizam as imagens de satélite como material auxiliar, principalmente, em levantamentos amostrais. Isto se deve, em parte, aos avanços necessários no processo de extração de informações das imagens. Dentre estes avanços, deve-se destacar a necessidade de melhoria dos métodos utilizados para identificação e classificação digital de regiões contendo a cultura agrícola de interesse dentro da imagem. Amplamente utilizadas na resolução de problemas de classificação automatizada de dados, nas mais diversas áreas do conhecimento, as técnicas de mineração de dados se apresentam como uma alternativa promissora na resolução de problemas de identificação e classificação de regiões cultivadas com cana-de-açúcar. Dentro desse contexto, o objetivo desse trabalho foi avaliar as técnicas de mineração de dados voltadas para classificação de dados, dentre elas os métodos de seleção de atributos e a técnica de árvore de decisão binária na identificação de áreas cultivadas com cana-de-açúcar, no estado de São Paulo, em imagens com correção atmosférica do sensor TM a bordo do satélite Landsat 5. Também foi investigado o resultado da inserção de atributos de textura e de índices de vegetação com o objetivo de melhorar os resultados da identificação e classificação de áreas cultivadas com cana-de-açúcar. Neste trabalho foram abordados três cenários contendo áreas cultivadas com canade- açúcar. No primeiro cenário, a técnica de árvore de decisão foi avaliada na classificação de pixels puros de regiões cultivadas com cana-de-açúcar em meio a alvos diversos, como áreas urbanas, solo exposto, corpos compostos por água e outros tipos de vegetação. No segundo cenário, a ênfase foi a classificação de pixels puros de regiões cultivadas com cana-de-açúcar em diferentes fases fenológicas. No último cenário, a técnica de classificação foi avaliada na distinção de pixels puros de regiões cultivadas com cana-de-açúcar, em diferentes fases fenológicas, e em meio a outros tipos de cobertura do solo como áreas urbanas, solo exposto, corpos compostos por água e outros tipos de vegetação, como pastos e florestas. Nos três cenários abordados, os modelos de árvores de decisão binária, induzidos pelo algoritmo J48, produziram taxas de acerto superiores a 90%. A introdução de atributos de textura trouxe ganhos expressivos nos três cenários e contribuiu para melhorar a distinção de áreas cultivadas com cana-de-açúcar em meio a tipos diversos de cobertura do solo, como solo exposto, área urbana e corpos d'água. Os resultados de todos os cenários estudados reforçam o potencial forte das árvores de decisão no processo de classificação e identificação de áreas cultivadas com canade- açúcar, em diferentes cidades produtoras no estado de São Paulo. Também, deve-se destacar, que as técnicas de mineração de dados destinadas à seleção de subconjuntos de atributos relevantes para a classificação trouxeram redução significativa dos conjuntos de dados e permitiram a identificação de modelos melhores de classificação / Abstract: The appearance and evolution of geotechnologies, notably those originated from research results in the area of remote sensing, allowed for the development of innovative methodologies for the land cover mapping and agricultural monitoring. The use of such technologies also allowed for a significant improvement in the methods used for agricultural productivity and crop forecasting. However, in Brazil, most of the methodologies applied to agricultural mapping are still using remote sensing images as an auxiliary tool, especially in connection with sample surveys designed to solve agricultural problems. This fact may be explained, in part, by the advances in the information extraction process of remote sensing images. Among such advances, it could be highlighted the need for improvement in methods used for identification and digital classification of regions containing agricultural crops inside the remote sensing images. Frequently used to solve data classification problems at the most different knowledge areas, the data mining techniques arise as alternative way to solve problems related to classification of pixels related to sugar cane tilled areas. So this work aimed evaluate the data mining techniques driven for data classification like decision tree learning methods and feature selection methods for the identification and classification of tilled regions with sugar cane inside TM Landsat 5 images. In this work three scenarios having tilled areas with sugar cane inside were evaluated. In the first scenario, decision tree learning technique was evaluated in the classification process of pixels having only sugar cane tilled areas among several others soil coverage like water, rivers, lakes, forest and others kind of vegetations. The second scenario was compound by pure pixels having only sugar cane in three different age phases. In the last scenario, the decision three learning technique was evaluated in the distinction of pure pixels having sugar cane in three different age phases among different kinds of soil coverage like urban areas, water, rivers, lakes, forests and vegetation. In all of the three scenarios, the binary decision three learning techniques, inducted by J48 algorithm, produced accuracy rates up to 90%. The insertion of the texture attributes produced relevant gains in two of three scenarios and also has demonstrated to bring contribution to improvement of the classification process of tilled sugar cane among different kinds of soil coverage. The observed results in all studied scenarios confirm the relevance of the decision three learning technique in the classification and identification process of regions tilled with sugar cane in different producer cities from the state of São Paulo. Also, should be highlighted that data mining techniques driven to feature selection have bring significant reduction of the databases and allowed the identification of better classification models / Mestrado / Planejamento e Desenvolvimento Rural Sustentável / Mestre em Engenharia Agrícola Mineração de dados (Computação) Árvores de decisão Análise de imagem Cana-de-açúcar - Colheita Atributos Data mining (Computer) Cecision trees Image analysis Cane sugar - Harvest Attributes
169	Extensões e aplicações de redes neuro-imunológicas / Extensions and applications of neuro-immune network Knidel, Helder 04 October 2006 (has links) Orientadoesr: Fernando José Von Zuben, Leandro Nunes de Castro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-17T00:46:41Z (GMT). No. of bitstreams: 1 Knidel_Helder_M.pdf: 7578387 bytes, checksum: d653b5bd7e4bf2758525ced52374d42d (MD5) Previous issue date: 2006 / Resumo: Esta dissertação propõe a extensão e desenvolvimento de ferramentas imuno-inspiradas. As ferramentas desenvolvidas destinam-se à resolução de problemas de agrupamento e classificação de dados com atributos binários ou reais. Inspirados em idéias advindas do sistema imunológico, os algoritmos propostos apresentam robustez e soluções parcimoniosas. Uma característica comum presente nas ferramentas desenvolvidas é a definição automática do número de protótipos por meio de estágios de clonagem e poda. Baseado na projeção de protótipos, empregando uma técnica de escalonamento multidimensional, desenvolveu-se uma ferramenta de visualização de redes imunológicas com dados numéricos multivariados, com o propósito de obter uma descrição da estrutura global dos grupos, visualizar a presença e forma de grupos, descobrir protótipos pouco representativos e identificar outliers. Por fim, a aplicação de um algoritmo proposto em conjunto com uma heurística desenvolvida e um algoritmo de busca local iterativa solucionou de forma inovadora um problema relacionado à área de equalização de canais em telecomunicações / Abstract: This thesis considers the extension and development of immune-inspired tools. The developed tools are devoted to the resolution of clustering and classification problems with binary or real-valued data attributes. Inspired by ideas of the immune system, the considered algorithms have produced robust and parsimonious solutions. A common feature in the developed tools is the automatic definition of the number of prototypes by means of cloning and pruning stages. Based on the projection of prototypes, using a technique of multidimensional scaling, a visualization tool of immune networks with multivariate numerical data was developed, making it possible to get a description of the global structure of the groups, to visualize the presence and form of groups, to discover low representative prototypes and to identify outliers. Finally, a device composed of one of the tools considered above, a dedicated heuristic and an algorithm for iterative local search was developed. The application of this device solved in an innovative way a problem related to channel equalization / Mestrado / Engenharia de Computação Redes neurais (Computação) Mineração de dados (Computação) Análise de dados Inteligência artificial Immune systems Artificial neural networks Data mining Data analysis
170	Boclusterização na análise de dados incertos / Biclustering on uncertais data analysis França, Fabricio Olivetti de 17 August 2018 (has links) Orientador: Fernando Jose Von Zuben / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-17T09:17:50Z (GMT). No. of bitstreams: 1 Franca_FabricioOlivettide_D.pdf: 3983253 bytes, checksum: 6b0d30018574ad5a6e0cce05c34606b8 (MD5) Previous issue date: 2010 / Resumo: O processo de aquisição de dados está sujeito a muitas fontes de incerteza e inconsistência. Essas incertezas podem fazer com que os dados se tornem ruidosos ou impedir a aquisição dos mesmos, gerando o problema de dados faltantes. A maioria das ferramentas utilizadas para tratar tais problemas age de forma global em relação às informações da base de dados e ignora o efeito que o ruído pode ter na análise desses. Esta tese tem como objetivo explorar as propriedades do processo de biclusterização, que faz uma análise local dos dados, criando múltiplos modelos de imputação de dados que buscam minimizar o erro de predição dos valores faltantes na base de dados. Primeiramente, é proposto um novo algoritmo de biclusterização com um melhor desempenho que outras abordagens utilizadas atualmente, enfatizando a capacidade dos biclusters em gerar modelos com ruído reduzido. Em seguida, é proposta uma formulação de otimização quadrática para, utilizando os modelos locais gerados pelo bicluster, imputar os valores faltantes na base de dados. Os resultados obtidos indicam que a utilização da biclusterização ajuda a reduzir o erro de predição da imputação, além de fornecer condições favoráveis a uma análise a posteriori das informações contidas nos dados / Abstract: The data acquisition process is subject to many inconsistencies and uncertainties. These uncertainties may produce noisy data or even provoke the absence of some of them, thus leading to the missing data problem. Most procedures used to deal with such problem act in a global manner, relatively to the dataset, and ignore the noise e_ect on such analysis. The objective of this thesis is to explore the properties of the so called biclustering method, which performs a local data analysis, creating several imputation models for the dataset in order to minimize the prediction error estimating missing values of the dataset. First, it is proposed a new biclustering algorithm with a better performance than the one produced by other traditional approaches, with emphasis on the noise reduction capability of the models generated by the biclusters. Next, it is proposed the formulation of a quadratic optimization problem to impute the missing data by means of the local models engendered by a set of biclusters. The obtained results show that the use of biclustering helps to reduce the prediction error of data imputation, besides providing some interesting conditions for an a posteriori analysis of the dataset / Doutorado / Engenharia de Computação / Doutor em Engenharia Elétrica Aprendizado de máquina Dados faltantes (Estatística) Cluster Mineração de dados (Computação) Algoritmos evolutivos Computer training Missing data (Statistics) Cluster Data mining (Computer) Evolutionary algorithms

Search results