Spelling suggestions: "subject:"data mining (computer)"" "subject:"data mining (coomputer)""
11 |
Metodologia de mineração de dados para ambientes educacionais online / Data mining methodology for online educational environmentsFalci Júnior, Geraldo Ramos 17 August 2018 (has links)
Orientador: Ivan Luiz Marques Ricarte / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-17T16:59:53Z (GMT). No. of bitstreams: 1
FalciJunior_GeraldoRamos_M.pdf: 698385 bytes, checksum: 02542ffd87be662788d4f79b80ba9a7a (MD5)
Previous issue date: 2010 / Resumo: Educação a distância populariza-se como meio prático de ensino com a expansão de recursos computacionais e da Internet. Apesar disto, ela traz dificuldades ao educador para compreender as necessidades de suas classes. A análise do uso desses Sistemas de Gerência de Aprendizado a distância por meio de técnicas de mineração de dados é uma forma de obter informações relevantes que permitam ao educador observar essas necessidades e modificar seus cursos de acordo. O objetivo deste trabalho é elaborar uma metodologia de trabalho que permita abordar problemas dessa natureza de forma objetiva e flexível, facilitando identificar potenciais problemas na análise e pontos de retorno adequados para correção e retomada do processo. Um conjunto de etapas é elaborado para compor esta metodologia e em seguida colocado à prova com um conjunto de dados reais obtidos através da instância do TIDIA-Ae utilizada pela UNICAMP como auxiliar às aulas presenciais. Os resultados mostram a eficácia do método proposto e permitiram a observação de diversos problemas devido à maneira de utilização do sistema por alunos e professores / Abstract: Computer-based distance education is becoming popular as computational resources and the Internet expand. Nevertheless, educators may have difficulties to understand the necessities of his classes and therefore improve their courses. Usage analysis of these distance Learning Management Systems through data mining techniques is a way of obtaining relevant information that allow the educator to observe some of the classes' needs and modify his courses accordingly. The goal of the work described in this thesis is to elaborate a methodology to allow tackling problems of this nature in an objective and flexible way, easing the identification of potential problems in the analysis and adequate points of feedback to correct and retake the process. A sequence of steps is elaborated to constitute this methodology and test it with real data obtained from the instance of TIDIA-Ae used by UNICAMP as an auxiliary to classes in campus. The results show the efficiency of the proposed method, though some problems surfaced on these results originated from the way the system is employed by students and teachers / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
|
12 |
Arvore de decisão aplicada a bancos de dados de incubatorio de matrizes de postura / Decision tree applied to hatchery databases of breeder henLima, Marcelo Gomes Ferreira 11 August 2018 (has links)
Orientador: Luiz Henrique Antunes Rodrigues / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-11T14:21:00Z (GMT). No. of bitstreams: 1
Lima_MarceloGomesFerreira_M.pdf: 1187384 bytes, checksum: c8afd722e3c0a9ff22e8f9cdff828369 (MD5)
Previous issue date: 2007 / Resumo: Incubatório de ovos é um setor de grande importância na Avicultura de postura. Com a redução dos custos dos equipamentos de informática cresce o armazenamento de dados para gerenciamento do processo produtivo. A Mineração de Dados surge como uma técnica para identificar conhecimentos novos e úteis nos bancos de dados. Neste sentido, este trabalho tem por objetivo explorar a técnica Arvore de Decisão em banco de dados de dados de incubatórios de matrizes de postura visando a elaboração de padrões de incubação. Foram disponibilizados, pela empresa Hy-Line do Brasil Ltda, dados de incubação entre os anos de
2002 e 2006 das linhagens Hy-Line W-36, Hy-Line Brown e Lohmann LSL. Dois experimentos foram realizados para cada linhagem. Valores acima dos estabelecidos pela empresa como desejado para o índice ¿fêmeas nascidas vendáveis¿, foram identificados como
relevantes para a geração das regras no primeiro experimento e no segundo, valores abaixo do estabelecidos pela empresa. Foi utilizado o algoritmo Entropia C4.5 e o software SASEnterprise Miner como ferramenta de análise . Como conclusão deste estudo, foi possível observar que com técnica estudada, os dados utilizados no gerenciamento de produção são suficientes para identificar conhecimentos novos, úteis e aplicáveis a fim de melhorar a produtividade das empresas incubadoras, atendendo a demanda com diminuição do desperdício / Abstract: Hatchery is a sector of high importance in the egg production. Due to the cost reduction of computers there is an increase in data storage for the production management process. Data Mining has appeared as a technique to identify new and useful knowledge in databases. This paper aims to explore the Decision Tree technique in hatchery databases to identify the best standards of the incubation process. The data set used in this research was supplied by Hy-Line do Brasil Ltda., corresponding to the incubation period of 2002-2006, from the strains Hy-line W-36, Hy-line Brown and Lohmann LSL. Two experiments were carried out for each strain. For the first experiment, values higher than the company¿s standards for saleable females were identified as relevant to generate the rules. In the opposite way, the second experiment evaluated values lower than the standards values. The algorithm
Entropy C 4.5 and the software SAS-Enterprise Miner 4.3. were used for data analysis. The conclusion is that the technique and the management of attributes can be used to identify new, useful and applicable knowledge in order to increase hatcheries productivity, attending the demand with less waste / Mestrado / Planejamento e Desenvolvimento Rural Sustentável / Mestre em Engenharia Agrícola
|
13 |
Modelos baseados em técnicas de mineração de dados para suporte à certificação racial de ovinos / Models based on data mining techniques to support breed certification testing in brazilian sheepVieira, Fábio Danilo, 1977- 26 August 2018 (has links)
Orientadores: Stanley Robson de Medeiros Oliveira, Samuel Rezende Paiva / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-26T01:06:59Z (GMT). No. of bitstreams: 1
Vieira_FabioDanilo_M.pdf: 3608471 bytes, checksum: 4705c25d2fbd6794b8aa85559e3620a0 (MD5)
Previous issue date: 2014 / Resumo: As raças de ovinos localmente adaptadas descendem de animais trazidos durante o período colonial, e durante anos foram submetidas a cruzamentos indiscriminados com raças exóticas. Estas raças de ovinos são consideradas importantes por possuírem características adaptativas às diversas condições ambientais brasileiras. Para evitar a perda deste importante material genético, a Empresa Brasileira de Pesquisa Agropecuária (Embrapa) decidiu incluí-las no seu Programa de Pesquisa em Recursos Genéticos, armazenando-as em seus bancos de germoplasma, sendo que as que possuem maior destaque nacional são as raças Crioula, Morada Nova e Santa Inês. A seleção dos ovinos para compor estes bancos é realizada por meio da avaliação de características morfológicas e produtivas. Entretanto, essa avaliação está sujeita a falhas, pois alguns animais cruzados mantêm características semelhantes àquelas dos animais locais. Desta forma, identificar se os animais depositados nos bancos são ou não pertencentes a uma raça é uma tarefa que exige muita cautela. Em busca de soluções, nos últimos anos houve um aumento significativo no uso de tecnologias que utilizam marcadores moleculares SNP (do inglês Single Nucleotide Polimorphism). No entanto, o grande número de marcadores gerados, que pode chegar a centenas de milhares por animal, torna-se um problema crucial. Para abordar esse problema, o objetivo deste trabalho é desenvolver modelos baseados em técnicas de mineração de dados para selecionar os principais marcadores SNP para as raças Crioula, Morada Nova e Santa Inês. Os dados utilizados neste estudo foram obtidos do Consórcio Internacional de Ovinos e são compostos por 72 animais destas três raças e 49.034 marcadores SNP para cada ovino. O resultado obtido com a conclusão deste trabalho foi um conjunto de modelos preditivos baseados em técnicas de mineração de dados que selecionaram os principais marcadores SNP para identificação das raças estudadas. A partir da intersecção desses modelos identificou-se um subconjunto de 15 marcadores com maior potencial de identificação das raças. Os modelos poderão ser utilizados para certificação das raças de ovinos já depositados nos bancos de germoplasma e de novos animais a serem inclusos, além de subsidiar associações de criadores interessadas em certificar seus animais, bem como o MAPA (Ministério da Agricultura, Pecuária e Abastecimento) no controle de animais registrados. Os modelos gerados poderão ser estendidos para outras espécies animais de produção / Abstract: The locally adapted breeds of sheep are descended from animals brought in during the colonial period, and for years were subjected to indiscriminate crossbreeding with exotic breeds. These breeds of sheep are considered important by having adaptive characteristics to several Brazilian environmental conditions. To avoid the loss of this important genetic material, the Brazilian Agricultural Research Corporation (Embrapa) decided to include them in its Programme of Research in Genetic Resources, storing them in their genebanks, while those with greater national prominence are Creole breeds, Morada Nova and Santa Ines. The selection of sheep to compose these banks is performed through the evaluation of morphological and productive characteristics. However, this assessment is subject to failures, because some crossbred maintains similar characteristics to those of the local animals. Thus, identifying if the animals deposited in banks belong or not to a breed is a challenging task. In search for solutions in recent years there has been a significant increase in the use of technologies that use molecular markers SNP (Single Nucleotide Polimorphism). However, the large number of markers generated, which can reach hundreds of thousands per animal, becomes a crucial issue. To address this problem, the aim of this study is to develop models based on data mining techniques to select the main SNP markers for Creole, Morada Nova and Santa Ines breeds. The data used in this study were obtained from the International Consortium of Sheep and consist of 72 animals e of these three breeds and 49,034 SNP markers for each sheep. The result obtained with this study was a set of predictive models based on data mining techniques to selected major SNP markers to identify the breeds studied. The intersection of the generated models identified a subset of 15 markers, with greater potential for identification of sheep breeds. The models may be used for certification of sheep breeds already deposited in genebanks and new animals to be included, apart from subsidizing breeders associations interested in certifying their animals, as well as MAPA (Ministry of Agriculture, Livestock and Food Supply) in control registered animals. The proposed models can be extended to other species of production animals / Mestrado / Planejamento e Desenvolvimento Rural Sustentável / Mestre em Engenharia Agrícola
|
14 |
Aplicação de mineração de dados na identificação de áreas cultivadas com cana-de-açúcar em imagens de sensoriamento remoto no Estado de São Paulo / Application of data mining for identifying sugar cane crop plantations in remote sensing images of the state of São PauloNonato, Robson Tavares 07 July 2010 (has links)
Orientador: Stanley Robson de Medeiros Oliveira / Acompanhado de 1 DVD / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-16T20:09:48Z (GMT). No. of bitstreams: 1
Nonato_RobsonTavares_M.pdf: 2571579 bytes, checksum: 95440ba27ff9c0fe2dfa47f9b7f3d9e5 (MD5)
Previous issue date: 2010 / Resumo: O surgimento e a evolução das geotecnologias, que podem ser entendidas como tecnologias originadas de estudos e pesquisas na área de sensoriamento remoto, mais especificamente da utilização de sensores situados na órbita do planeta Terra, têm permitido o desenvolvimento de metodologias inovadoras para o mapeamento da cobertura do solo e o monitoramento agrícola. O emprego dessas novas tecnologias tem permitido, também, uma melhoria das metodologias utilizadas na estimativa da produtividade agrícola e na previsão de safras. Mesmo assim, no Brasil, muitas das metodologias empregadas no mapeamento agrícola ainda utilizam as imagens de satélite como material auxiliar, principalmente, em levantamentos amostrais. Isto se deve, em parte, aos avanços necessários no processo de extração de informações das imagens. Dentre estes avanços, deve-se destacar a necessidade de melhoria dos métodos utilizados para identificação e classificação digital de regiões contendo a cultura agrícola de interesse dentro da imagem. Amplamente utilizadas na resolução de problemas de classificação automatizada de dados, nas mais diversas áreas do conhecimento, as técnicas de mineração de dados se apresentam como uma alternativa promissora na resolução de problemas de identificação e classificação de regiões cultivadas com cana-de-açúcar. Dentro desse contexto, o objetivo desse trabalho foi avaliar as técnicas de mineração de dados voltadas para classificação de dados, dentre elas os métodos de seleção de atributos e a técnica de árvore de decisão binária na identificação de áreas cultivadas com cana-de-açúcar, no estado de São Paulo, em imagens com correção atmosférica do sensor TM a bordo do satélite Landsat 5. Também foi investigado o resultado da inserção de atributos de textura e de índices de vegetação com o objetivo de melhorar os resultados da identificação e classificação de áreas cultivadas com cana-de-açúcar. Neste trabalho foram abordados três cenários contendo áreas cultivadas com canade- açúcar. No primeiro cenário, a técnica de árvore de decisão foi avaliada na classificação de pixels puros de regiões cultivadas com cana-de-açúcar em meio a alvos diversos, como áreas urbanas, solo exposto, corpos compostos por água e outros tipos de vegetação. No segundo cenário, a ênfase foi a classificação de pixels puros de regiões cultivadas com cana-de-açúcar em diferentes fases fenológicas. No último cenário, a técnica de classificação foi avaliada na distinção de pixels puros de regiões cultivadas com cana-de-açúcar, em diferentes fases fenológicas, e em meio a outros tipos de cobertura do solo como áreas urbanas, solo exposto, corpos compostos por água e outros tipos de vegetação, como pastos e florestas. Nos três cenários abordados, os modelos de árvores de decisão binária, induzidos pelo algoritmo J48, produziram taxas de acerto superiores a 90%. A introdução de atributos de textura trouxe ganhos expressivos nos três cenários e contribuiu para melhorar a distinção de áreas cultivadas com cana-de-açúcar em meio a tipos diversos de cobertura do solo, como solo exposto, área urbana e corpos d'água. Os resultados de todos os cenários estudados reforçam o potencial forte das árvores de decisão no processo de classificação e identificação de áreas cultivadas com canade- açúcar, em diferentes cidades produtoras no estado de São Paulo. Também, deve-se destacar, que as técnicas de mineração de dados destinadas à seleção de subconjuntos de atributos relevantes para a classificação trouxeram redução significativa dos conjuntos de dados e permitiram a identificação de modelos melhores de classificação / Abstract: The appearance and evolution of geotechnologies, notably those originated from research results in the area of remote sensing, allowed for the development of innovative methodologies for the land cover mapping and agricultural monitoring. The use of such technologies also allowed for a significant improvement in the methods used for agricultural productivity and crop forecasting. However, in Brazil, most of the methodologies applied to agricultural mapping are still using remote sensing images as an auxiliary tool, especially in connection with sample surveys designed to solve agricultural problems. This fact may be explained, in part, by the advances in the information extraction process of remote sensing images. Among such advances, it could be highlighted the need for improvement in methods used for identification and digital classification of regions containing agricultural crops inside the remote sensing images. Frequently used to solve data classification problems at the most different knowledge areas, the data mining techniques arise as alternative way to solve problems related to classification of pixels related to sugar cane tilled areas. So this work aimed evaluate the data mining techniques driven for data classification like decision tree learning methods and feature selection methods for the identification and classification of tilled regions with sugar cane inside TM Landsat 5 images. In this work three scenarios having tilled areas with sugar cane inside were evaluated. In the first scenario, decision tree learning technique was evaluated in the classification process of pixels having only sugar cane tilled areas among several others soil coverage like water, rivers, lakes, forest and others kind of vegetations. The second scenario was compound by pure pixels having only sugar cane in three different age phases. In the last scenario, the decision three learning technique was evaluated in the distinction of pure pixels having sugar cane in three different age phases among different kinds of soil coverage like urban areas, water, rivers, lakes, forests and vegetation. In all of the three scenarios, the binary decision three learning techniques, inducted by J48 algorithm, produced accuracy rates up to 90%. The insertion of the texture attributes produced relevant gains in two of three scenarios and also has demonstrated to bring contribution to improvement of the classification process of tilled sugar cane among different kinds of soil coverage. The observed results in all studied scenarios confirm the relevance of the decision three learning technique in the classification and identification process of regions tilled with sugar cane in different producer cities from the state of São Paulo. Also, should be highlighted that data mining techniques driven to feature selection have bring significant reduction of the databases and allowed the identification of better classification models / Mestrado / Planejamento e Desenvolvimento Rural Sustentável / Mestre em Engenharia Agrícola
|
15 |
Boclusterização na análise de dados incertos / Biclustering on uncertais data analysisFrança, Fabricio Olivetti de 17 August 2018 (has links)
Orientador: Fernando Jose Von Zuben / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-17T09:17:50Z (GMT). No. of bitstreams: 1
Franca_FabricioOlivettide_D.pdf: 3983253 bytes, checksum: 6b0d30018574ad5a6e0cce05c34606b8 (MD5)
Previous issue date: 2010 / Resumo: O processo de aquisição de dados está sujeito a muitas fontes de incerteza e inconsistência. Essas incertezas podem fazer com que os dados se tornem ruidosos ou impedir a aquisição dos mesmos, gerando o problema de dados faltantes. A maioria das ferramentas utilizadas para tratar tais problemas age de forma global em relação às informações da base de dados e ignora o efeito que o ruído pode ter na análise desses. Esta tese tem como objetivo explorar as propriedades do processo de biclusterização, que faz uma análise local dos dados, criando múltiplos modelos de imputação de dados que buscam minimizar o erro de predição dos valores faltantes na base de dados. Primeiramente, é proposto um novo algoritmo de biclusterização com um melhor desempenho que outras abordagens utilizadas atualmente, enfatizando a capacidade dos biclusters em gerar modelos com ruído reduzido. Em seguida, é proposta uma formulação de otimização quadrática para, utilizando os modelos locais gerados pelo bicluster, imputar os valores faltantes na base de dados. Os resultados obtidos indicam que a utilização da biclusterização ajuda a reduzir o erro de predição da imputação, além de fornecer condições favoráveis a uma análise a posteriori das informações contidas nos dados / Abstract: The data acquisition process is subject to many inconsistencies and uncertainties. These uncertainties may produce noisy data or even provoke the absence of some of them, thus leading to the missing data problem. Most procedures used to deal with such problem act in a global manner, relatively to the dataset, and ignore the noise e_ect on such analysis. The objective of this thesis is to explore the properties of the so called biclustering method, which performs a local data analysis, creating several imputation models for the dataset in order to minimize the prediction error estimating missing values of the dataset. First, it is proposed a new biclustering algorithm with a better performance than the one produced by other traditional approaches, with emphasis on the noise reduction capability of the models generated by the biclusters. Next, it is proposed the formulation of a quadratic optimization problem to impute the missing data by means of the local models engendered by a set of biclusters. The obtained results show that the use of biclustering helps to reduce the prediction error of data imputation, besides providing some interesting conditions for an a posteriori analysis of the dataset / Doutorado / Engenharia de Computação / Doutor em Engenharia Elétrica
|
16 |
Uso de ferramentas de aprendizado de máquina para prospecção de perdas comerciais em distribuição de energia elétrica / Use of machine learning tools for prospecting commercial losses in electric energy distributionFerreira, Hamilton Melo 15 August 2018 (has links)
Orientador: Fernando José Von Zuben / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-15T23:45:59Z (GMT). No. of bitstreams: 1
Ferreira_HamiltonMelo_M.pdf: 539116 bytes, checksum: 3ef220fd5b659d2f8f794d853924ae71 (MD5)
Previous issue date: 2008 / Resumo: As concessionárias de energia elétrica deixam de faturar anualmente expressivos valores devido a perdas comerciais, as quais são originadas principalmente por fraudes cometidas por parte dos consumidores e por medidores defeituosos. A detecção automática dos pontos específicos onde ocorrem tais perdas é uma tarefa complexa, dada a grande quantidade de consumidores, a grande variedade de perfis de consumo de energia elétrica e o alto custo de cada inspeção. Este trabalho propõe o uso de técnicas de aprendizado de máquina para a incorporação de processamento inteligente na identificação das fontes de perdas comerciais, usando os dados reais fornecidos pela concessionária de energia elétrica AES Eletropaulo. Além da manipulação dos dados e análise de propostas alternativas presentes na literatura, quatro estratégias de classificação foram implementadas e comparadas, sendo que o algoritmo de indução C4.5 produziu os resultados mais consistentes em termos de especificidade e confiabilidade, tomadas como critérios de desempenho / Abstract: The electric power concessionaires miss along the year significant amount of revenue due to commercial losses, which are mainly caused by frauds produced by consumers and defective sensors. The automatic detection of the specific sites where the losses are located is a complex task, given the high number of consumers, the great variety of electric power consumption profiles, and the high cost of each inspection. This work proposes the use of machine learning techniques capable of incorporating intelligent processing in the identification of the sources of commercial losses, using real data provided by the electric power concessionaire AES Eletropaulo. Besides data manipulation and analysis of alternative proposals presented in the literature, four classification strategies have been implemented and compared. The C4.5 algorithm has produced the most consistent results in terms of specificity and confiability, taken as performance criteria / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
|
17 |
Quadri-dimensional approach for data analytics in mobile networksMinerve, Mampaka Maluambanzila 10 1900 (has links)
The telecommunication market is growing at a very fast pace with the evolution of new technologies to support high speed throughput and the availability of a wide range of services and applications in the mobile networks. This has led to a need for communication service providers (CSPs) to shift their focus from network elements monitoring towards services monitoring and subscribers’ satisfaction by introducing the service quality management (SQM) and the customer experience management (CEM) that require fast responses to reduce the time to find and solve network problems, to ensure efficiency and proactive maintenance, to improve the quality of service (QoS) and the quality of experience (QoE) of the subscribers. While both the SQM and the CEM demand multiple information from different interfaces, managing multiple data sources adds an extra layer of complexity with the collection of data.
While several studies and researches have been conducted for data analytics in mobile networks, most of them did not consider analytics based on the four dimensions involved in the mobile networks environment which are the subscriber, the handset, the service and the network element with multiple interface correlation.
The main objective of this research was to develop mobile network analytics models applied to the 3G packet-switched domain by analysing data from the radio network with the Iub interface and the core network with the Gn interface to provide a fast root cause analysis (RCA) approach considering the four dimensions involved in the mobile networks. This was achieved by using the latest computer engineering advancements which are Big Data platforms and data mining techniques through machine learning algorithms. / Electrical and Mining Engineering / M. Tech. (Electrical Engineering)
|
Page generated in 0.1094 seconds