Spelling suggestions: "subject:"mineração dde dados (computação)"" "subject:"mineração dee dados (computação)""
171 |
Validation of structural heterogeneity in Cryo-EM datasets by cluster ensembles = Validação de heterogeneidade estrutural em dados de Crio-ME por comitês de agrupadores / Validação de heterogeneidade estrutural em dados de Crio-ME por comitês de agrupadoresRighetto, Ricardo Diogo, 1986- 08 August 2014 (has links)
Orientadores: Fernando José Von Zuben, Rodrigo Villares Portugal / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-25T22:36:38Z (GMT). No. of bitstreams: 1
Righetto_RicardoDiogo_M.pdf: 5898819 bytes, checksum: c98b9e2b61390aa847a4a6040d3f550b (MD5)
Previous issue date: 2014 / Resumo: Análise de Partículas Isoladas é uma técnica que permite o estudo da estrutura tridimensional de proteínas e outros complexos macromoleculares de interesse biológico. Seus dados primários consistem em imagens de microscopia eletrônica de transmissão de múltiplas cópias da molécula em orientações aleatórias. Tais imagens são bastante ruidosas devido à baixa dose de elétrons utilizada. Reconstruções 3D podem ser obtidas combinando-se muitas imagens de partículas em orientações similares e estimando seus ângulos relativos. Entretanto, estados conformacionais heterogêneos frequentemente coexistem na amostra, porque os complexos moleculares podem ser flexíveis e também interagir com outras partículas. Heterogeneidade representa um desafio na reconstrução de modelos 3D confiáveis e degrada a resolução dos mesmos. Entre os algoritmos mais populares usados para classificação estrutural estão o agrupamento por k-médias, agrupamento hierárquico, mapas autoorganizáveis e estimadores de máxima verossimilhança. Tais abordagens estão geralmente entrelaçadas à reconstrução dos modelos 3D. No entanto, trabalhos recentes indicam ser possível inferir informações a respeito da estrutura das moléculas diretamente do conjunto de projeções 2D. Dentre estas descobertas, está a relação entre a variabilidade estrutural e manifolds em um espaço de atributos multidimensional. Esta dissertação investiga se um comitê de algoritmos de não-supervisionados é capaz de separar tais "manifolds conformacionais". Métodos de "consenso" tendem a fornecer classificação mais precisa e podem alcançar performance satisfatória em uma ampla gama de conjuntos de dados, se comparados a algoritmos individuais. Nós investigamos o comportamento de seis algoritmos de agrupamento, tanto individualmente quanto combinados em comitês, para a tarefa de classificação de heterogeneidade conformacional. A abordagem proposta foi testada em conjuntos sintéticos e reais contendo misturas de imagens de projeção da proteína Mm-cpn nos estados "aberto" e "fechado". Demonstra-se que comitês de agrupadores podem fornecer informações úteis na validação de particionamentos estruturais independetemente de algoritmos de reconstrução 3D / Abstract: Single Particle Analysis is a technique that allows the study of the three-dimensional structure of proteins and other macromolecular assemblies of biological interest. Its primary data consists of transmission electron microscopy images from multiple copies of the molecule in random orientations. Such images are very noisy due to the low electron dose employed. Reconstruction of the macromolecule can be obtained by averaging many images of particles in similar orientations and estimating their relative angles. However, heterogeneous conformational states often co-exist in the sample, because the molecular complexes can be flexible and may also interact with other particles. Heterogeneity poses a challenge to the reconstruction of reliable 3D models and degrades their resolution. Among the most popular algorithms used for structural classification are k-means clustering, hierarchical clustering, self-organizing maps and maximum-likelihood estimators. Such approaches are usually interlaced with the reconstructions of the 3D models. Nevertheless, recent works indicate that it is possible to infer information about the structure of the molecules directly from the dataset of 2D projections. Among these findings is the relationship between structural variability and manifolds in a multidimensional feature space. This dissertation investigates whether an ensemble of unsupervised classification algorithms is able to separate these "conformational manifolds". Ensemble or "consensus" methods tend to provide more accurate classification and may achieve satisfactory performance across a wide range of datasets, when compared with individual algorithms. We investigate the behavior of six clustering algorithms both individually and combined in ensembles for the task of structural heterogeneity classification. The approach was tested on synthetic and real datasets containing a mixture of images from the Mm-cpn chaperonin in the "open" and "closed" states. It is shown that cluster ensembles can provide useful information in validating the structural partitionings independently of 3D reconstruction methods / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
|
172 |
Mineração de dados para modelagem de risco de metástase em tumor de próstata / Data mining for the modeling of metastasis risk on prostate tumorChahine, Gabriel Jorge, 1982- 23 August 2018 (has links)
Orientadores: Laercio Luis Vendite, Stanley Robson de Medeiros Oliveira / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática Estatística e Computação Científica / Made available in DSpace on 2018-08-23T23:19:05Z (GMT). No. of bitstreams: 1
Chahine_GabrielJorge_M.pdf: 1229228 bytes, checksum: fffd253696b5a9dee9870ae1910256e5 (MD5)
Previous issue date: 2013 / Resumo: Dos cânceres do trato urinário, os mais comuns são os de Próstata e de Bexiga, sendo o primeiro a causa mais comum de morte por câncer e o carcinoma mais comum para homens. Nosso objetivo nesse trabalho é desenvolver modelos para determinar se um dado tumor irá aumentar e invadir outros órgãos ou se não apresenta esse risco e permanecerá contido. Para isso, coletamos dados de pacientes com câncer de próstata e analisamos quais variáveis mais impactam para ocorrência de metástase. Com isso construímos modelos de classificação, que, com os dados de um determinado paciente, detectam se naquele caso haverá ou não metástase à distância. Nesse trabalho apresentamos modelos para predição de ocorrência de metástases em câncer de próstata. As simulações foram feitas com dados cedidos pelo prof. Dr. Ubirajara Ferreira, responsável pela disciplina de Urologia da FCM da Unicamp, do Hospital das Clinicas - UNICAMP / Abstract: Of all the cancers of the urinary tract, the most common are the Prostate and Bladder. The first being the most common cause of death by cancer and the most common carcinoma in men. Our goal in this work is to develop predictive models to determine whether a given tumor will grow and invade other organs or, if it doesn't present this risk and will remain constrained. To do this, we collected data from patients with prostate cancer and assessed which variables were the most responsible for the occurrence of metastasis. Hence, we built predictive models that, with the data of a given patient, are able detect whether or not a distant metastasis would occur in. In this work we present models to predict the occurrence of metastasis in prostate cancer. The simulations were made with the data given by prof. Dr. Ubirajara Ferreira, responsible for the disciplines of Urology from Unicamp's Faculty of Medical Sciences / Mestrado / Matematica Aplicada e Computacional / Mestre em Matemática Aplicada e Computacional
|
173 |
Eficácia de medidas de similaridade para a classificação de séries temporais associadas ao comportamento fenológico de plantas / Eficácia de medidas de similaridade para a classificação de séries temporais associadas ao comportamento fenológico de plantasConti, José Carlos, 1966- 12 November 2013 (has links)
Orientadores: Luiz Camolesi Júnior, Ricardo da Silva Torres / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia / Made available in DSpace on 2018-08-24T02:27:51Z (GMT). No. of bitstreams: 1
Conti_JoseCarlos_M.pdf: 2108170 bytes, checksum: 16e7093192986c856bf2d3675ef2a605 (MD5)
Previous issue date: 2013 / Resumo: Fenologia é o estudo de fenômenos naturais periódicos e sua relação com o clima. Nos últimos anos, tem se apresentado relevante como o indicador mais simples e confiável dos efeitos das mudanças climáticas em plantas e animais. É nesse contexto que se destaca o e-phenology, um projeto multidisciplinar envolvendo pesquisas na área de computação e fenologia. Suas principais características são: o uso de novas tecnologias de monitoramento ambiental, o fornecimento de modelos, métodos e algoritmos para apoiar o gerenciamento, a integração e a análise remota de dados de fenologia, além da criação de um protocolo para um programa de monitoramento de fenologia. Do ponto de vista da computação, as pesquisas científicas buscam modelos, ferramentas e técnicas baseadas em processamento de imagem, extraindo e indexando características de imagens associadas a diferentes tipos de vegetação, além de se concentrar no gerenciamento e mineração de dados e no processamento de séries temporais. Diante desse cenário, esse trabalho especificamente, tem como objetivo investigar a eficácia de medidas de similaridade para a classificação de séries temporais sobre fenômenos fenológicos caracterizados por vetores de características extraídos de imagens de vegetação. Os cálculos foram realizados considerando regiões de imagens de vegetação e foram considerados diferentes critérios de avaliação: espécies de planta, hora do dia e canais de cor. Os resultados obtidos oferecem algumas possibilidades de análise, porém na visão geral, a medida de distância Edit Distance with Real Penalty (ERP) apresentou o índice de acerto mais alto com 29,90%. Adicionalmente, resultados obtidos mostram que as primeiras horas do dia e no final da tarde, provavelmente devido à luminosidade, apresentam os índices de acerto mais altos para todas as visões de análise / Abstract: Phenology is the study of periodic natural phenomena and their relationship to climate. In recent years, it has gained importance as the more simple and reliable indicator of effects of climate changes on plants and animals. In this context, we emphasizes the e-phenology, a multidisciplinary research project in computer science and phenology. Its main characteristics are: The use of new technologies for environmental monitoring, providing models, methods and algorithms to support management, integration and remote analysis of data on phenology, and the creation a protocol for a program to monitoring phenology. From the computer science point of view, the e-phenology project has been dedicated to creating models, tools and techniques based on image processing algorithms, extracting and indexing image features associated with different types of vegetation, and implementing data mining algorithms for processing time series. This project has as main goal to investigate the effectiveness of similarity measures for the classification of time series associated with phenological phenomena characterized by feature vectors extracted from images. Conducted experiments considered different regions containing individuals of different species and considering different criteria such as: plant species, time of day and color channels. Obtained results show that the Edit Distance with Real Penalty (ERP) distance measure yields the highest accuracy. Additionally, the analyzes show that in the early morning and late afternoon, probably due to light conditions, it can be observed the highest accuracy rates for all views analysis / Mestrado / Tecnologia e Inovação / Mestre em Tecnologia
|
174 |
Anotação automática de imagens utilizando regras de associação / Automatic image annotation using associative rulesArmigliatto, Guilherme Moraes 19 August 2018 (has links)
Orientador: Ricardo da Silva Torres / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-19T16:06:22Z (GMT). No. of bitstreams: 1
Armigliatto_GuilhermeMoraes_M.pdf: 5003825 bytes, checksum: b03061ff457c08c89d0e045840955929 (MD5)
Previous issue date: 2011 / Resumo: Com os avanços tecnológicos, grandes coleções de imagens são geradas, manipuladas e armazenadas em bancos de dados. Dado o grande tamanho destes bancos, verifica-se a necessidade de se criar ferramentas para gerenciá-los de forma eficiente e eficaz. Uma das tarefas mais demandadas deste gerenciamento é a recuperação das imagens, e uma forma de fazê-la é baseada no uso de anotações textuais associadas às imagens (por exemplo, palavras-chave e categorias). Entretanto, a anotação manual de grandes coleções de imagens apresenta vários problemas, como o alto consumo de tempo e a não padronização dos termos utilizados. Desse modo, esta dissertação apresenta quatro novos métodos para anotação automática de imagens, que visam amenizar estes problemas. Estes métodos utilizam as abordagens de descritores de imagens, dicionários visuais, programação genética e regras de associação. Os descritores e os dicionários são utilizados para representar as propriedades visuais das imagens, a programação genética é usada para combinar estas características e as regras de associação são usadas para relacioná-las com anotações. A principal contribuição desta dissertação consiste na análise do comportamento das regras de associação utilizadas para anotação de imagens em um conjunto de experimentos. Resultados experimentais demonstraram que os métodos propostos apresentam desempenho comparável ou superior ao de técnicas tradicionais da literatura / Abstract: With technological advances, large collections of images are generated, handled and, stored in databases. Given the large size of these collections, there is a need for tools to manage efficiently and effectively these images. One of the most demanding tasks of this management is the retrieval of images from databases, usually based on the use of textual annotations associated with images (for example, keywords and categories). However, manual annotation of large images collections face a lot of problems related to the huge time required to annotate and the lack of standardization of used terms. This work presents four new methods for automatic image annotation. These methods rely on the use of image descriptors, visual dictionaries, genetic programming, and association rules. The descriptors and dictionaries are used to represent the visual properties of images, genetic programming is used to combine extracted visual features, and association rules are used to associate them with annotations. The main contribution of this work is views on the analyze the behavior of association rules used for annotating images on a set of experiments. Experimental results demonstrated that the proposed methods have performance comparable or superior to traditional techniques of literature / Mestrado / Ciência da Computação / Mestre em Ciência da Computação
|
175 |
Classificação de condições de estresse, gasto energético e identificação de suinos a partir de sua vocalização / Classification of stress conditions, energy expenditure and identification of pigs from your vocalizationCordeiro, Alexandra Ferreira da Silva 21 August 2018 (has links)
Orientador: Irenilza de Alencar Nääs / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-21T11:14:36Z (GMT). No. of bitstreams: 1
Cordeiro_AlexandraFerreiradaSilva_M.pdf: 2367138 bytes, checksum: 6f75c3d8e468c0ebd6f7bceda2a2889b (MD5)
Previous issue date: 2012 / Resumo: Entre os desafios da suinocultura no atual mercado competitivo destaca-se a rastreabilidade do produto que garante entre muitos pontos a questão do bem estar animal. O objetivo dessa pesquisa é estimar o gasto energético da vocalização de leitões em situação de dor e identificar suínos e sua condição de estresse pela sua vocalização. A primeira hipótese é que é possível estimar a energia gasta na vocalização. A segunda é que é possível identificar suínos pela sua vocalização e a terceira é que é possível identificar o estado de bem- estar ou estresse de suínos pela sua vocalização. Para tanto foram realizados três experimentos em granja comercial da cidade de Holambra- SP. No primeiro experimento foi analisada a vocalização de dois grupos de leitões durante a castração, um grupo com anestesia local e outro sem anestesia. A energia emitida no sinal vocal foi processada no software Matlab®. No segundo foi realizado a gravação da vocalização dos animais durante a caudectomia, marcação e castração. No terceiro experimento foi realizada a gravação da vocalização de leitões nas fases de maternidade, creche, crescimento e terminação em diferentes situações de estresse: sem estresse e com estresse térmico, fome, sede e dor. Para análises dos sinais de sons foi utilizado o software Praat®. Foi possível estimar a energia gasta na vocalização dos suínos e identificar condições de estresse pela sua vocalização. Porém, não foi possível identificar os animais pela sua vocalização / Abstract: Among the challenges in today's competitive market hog stands out for the product traceability, that ensures many points between the issue of animal welfare. The objective of this research is to estimate the energy expenditure of the vocalization of piglets in a situation of pain and identify pigs and their stress condition for their vocalization. The first hypothesis is that it is possible to estimate the energy expended in vocalization. The second is that pigs can be identified by their vocalizations, and the third is that it is possible to identify the state of well-being or stress of pigs by their vocalization. For this purpose, two experiments were conducted in commercial farm, in the city of Holambra-SP. In the first experiment, we analyzed the vocalizations of two groups of piglets during castration, one group with local anesthesia and the other without anesthesia. The energy emitted in the voice signal was obtained in Matlab ®. In the second experiment we analyzed the vocalizations of piglets during caudectomia, marking and castration. In the third experiment, it was performed recording of the vocalization of piglets in the stages of farrowing, nursery, growing and finishing in different situations of stress: no stress and thermal stress, hunger, thirst and pain. The software Praat® was used for analyzing of sound signals. It was possible to estimate the energy expended in the vocalization of pigs, and identify the stress conditions by using their vocalization as input variable. However, it was not possible to identify animals by their vocalization / Mestrado / Construções Rurais e Ambiencia / Doutora em Engenharia Agrícola
|
176 |
Tratamento de dados faltantes empregando biclusterização com imputação múltipla / Treatment of missing data using biclustering with multiple imputationVeroneze, Rosana, 1982- 18 August 2018 (has links)
Orientadores: Fernando José Von Zuben, Fabrício Olivetti de França. / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-18T15:42:38Z (GMT). No. of bitstreams: 1
Veroneze_Rosana_M.pdf: 1996086 bytes, checksum: d4be557c3ffb4512e37232c537c78721 (MD5)
Previous issue date: 2011 / Resumo: As respostas fornecidas por sistemas de recomendação podem ser interpretadas como dados faltantes a serem imputados a partir do conhecimento dos dados presentes e de sua relação com os dados faltantes. Existem variadas técnicas de imputação de dados faltantes, sendo que o emprego de imputação múltipla será considerado neste trabalho. Também existem propostas alternativas para se chegar à imputação múltipla, sendo que se propõe aqui a biclusterização como uma estratégia eficaz, flexível e com desempenho promissor. Para tanto, primeiramente é realizada a análise de sensibilidade paramétrica do algoritmo SwarmBcluster, recentemente proposto para a tarefa de biclusterização e já adaptado, na literatura, para a realização de imputação única. Essa análise mostrou que a escolha correta dos parâmetros pode melhorar o desempenho do algoritmo. Em seguida, o SwarmBcluster é estendido para a implementação de imputação múltipla, sendo comparado com o bem-conhecido algoritmo NORM. A qualidade dos resultados obtidos é mensurada através de métricas diversas, as quais mostram que a biclusterização conduz a imputações múltiplas de melhor qualidade na maioria dos experimentos / Abstract: The answers provided by recommender systems can be interpreted as missing data to be imputed considering the knowledge associated with the available data and the relation between the available and the missing data. There is a wide range of techniques for data imputation, and this work is concerned with multiple imputation. Alternative approaches for multiple imputation have already been proposed, and this work takes biclustering as an effective, flexible and promising strategy. To this end, firstly it is performed a parameter sensitivity analysis of the SwarmBcluster algorithm, recently proposed to implement biclustering and already adapted, in the literature, to accomplish single imputation of missing data. This analysis has indicated that a proper choice of parameters may significantly improve the performance of the algorithm. Secondly, SwarmBcluster was extended to implement multiple imputation, being compared with the well-known NORM algorithm. The quality of the obtained results is computed considering diverse metrics, which reveal that biclustering guides to imputations of better quality in the majority of the experiments / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
|
177 |
On biclusters aggregation and its benefits for enumerative solutions = Agregação de biclusters e seus benefícios para soluções enumerativas / Agregação de biclusters e seus benefícios para soluções enumerativasOliveira, Saullo Haniell Galvão de, 1988- 27 August 2018 (has links)
Orientador: Fernando José Von Zuben / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-27T03:28:44Z (GMT). No. of bitstreams: 1
Oliveira_SaulloHaniellGalvaode_M.pdf: 1171322 bytes, checksum: 5488cfc9b843dbab6d7a5745af1e3d4b (MD5)
Previous issue date: 2015 / Resumo: Biclusterização envolve a clusterização simultânea de objetos e seus atributos, definindo mo- delos locais de relacionamento entre os objetos e seus atributos. Assim como a clusterização, a biclusterização tem uma vasta gama de aplicações, desde suporte a sistemas de recomendação, até análise de dados de expressão gênica. Inicialmente, diversas heurísticas foram propostas para encontrar biclusters numa base de dados numérica. No entanto, tais heurísticas apresen- tam alguns inconvenientes, como não encontrar biclusters relevantes na base de dados e não maximizar o volume dos biclusters encontrados. Algoritmos enumerativos são uma proposta recente, especialmente no caso de bases numéricas, cuja solução é um conjunto de biclusters maximais e não redundantes. Contudo, a habilidade de enumerar biclusters trouxe mais um cenário desafiador: em bases de dados ruidosas, cada bicluster original se fragmenta em vá- rios outros biclusters com alto nível de sobreposição, o que impede uma análise direta dos resultados obtidos. Essa fragmentação irá ocorrer independente da definição escolhida de co- erência interna no bicluster, sendo mais relacionada com o próprio nível de ruído. Buscando reverter essa fragmentação, nesse trabalho propomos duas formas de agregação de biclusters a partir de resultados que apresentem alto grau de sobreposição: uma baseada na clusteriza- ção hierárquica com single linkage, e outra explorando diretamente a taxa de sobreposição dos biclusters. Em seguida, um passo de poda é executado para remover objetos ou atributos indesejados que podem ter sido incluídos como resultado da agregação. As duas propostas foram comparadas entre si e com o estado da arte, em diversos experimentos, incluindo bases de dados artificiais e reais. Essas duas novas formas de agregação não só reduziram significa- tivamente a quantidade de biclusters, essencialmente defragmentando os biclusters originais, mas também aumentaram consistentemente a qualidade da solução, medida em termos de precisão e recuperação, quando os biclusters são conhecidos previamente / Abstract: Biclustering involves the simultaneous clustering of objects and their attributes, thus defin- ing local models for the two-way relationship of objects and attributes. Just like clustering, biclustering has a broad set of applications, ranging from an advanced support for recom- mender systems of practical relevance to a decisive role in data mining techniques devoted to gene expression data analysis. Initially, heuristics have been proposed to find biclusters, and their main drawbacks are the possibility of losing some existing biclusters and the inca- pability of maximizing the volume of the obtained biclusters. Recently efficient algorithms were conceived to enumerate all the biclusters, particularly in numerical datasets, so that they compose a complete set of maximal and non-redundant biclusters. However, the ability to enumerate biclusters revealed a challenging scenario: in noisy datasets, each true bicluster becomes highly fragmented and with a high degree of overlapping, thus preventing a direct analysis of the obtained results. Fragmentation will happen no matter the boundary condi- tion adopted to specify the internal coherence of the valid biclusters, though the degree of fragmentation will be associated with the noise level. Aiming at reverting the fragmentation, we propose here two approaches for properly aggregating a set of biclusters exhibiting a high degree of overlapping: one based on single linkage and the other directly exploring the rate of overlapping. A pruning step is then employed to filter intruder objects and/or attributes that were added as a side effect of aggregation. Both proposals were compared with each other and also with the actual state-of-the-art in several experiments, including real and artificial datasets. The two newly-conceived aggregation mechanisms not only significantly reduced the number of biclusters, essentially defragmenting true biclusters, but also consistently in- creased the quality of the whole solution, measured in terms of Precision and Recall when the composition of the dataset is known a priori / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
|
178 |
Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigDataFRANÇA, Arilene Santos de 20 February 2014 (has links)
Submitted by Cleide Dantas (cleidedantas@ufpa.br) on 2014-07-31T13:38:32Z
No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_OtimizacaoProcessoAprendizagem.pdf: 1776244 bytes, checksum: 70399c027bdcfb2e5676cb7cc2b4d049 (MD5) / Approved for entry into archive by Ana Rosa Silva (arosa@ufpa.br) on 2014-09-05T12:32:05Z (GMT) No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_OtimizacaoProcessoAprendizagem.pdf: 1776244 bytes, checksum: 70399c027bdcfb2e5676cb7cc2b4d049 (MD5) / Made available in DSpace on 2014-09-05T12:32:05Z (GMT). No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_OtimizacaoProcessoAprendizagem.pdf: 1776244 bytes, checksum: 70399c027bdcfb2e5676cb7cc2b4d049 (MD5)
Previous issue date: 2014 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A automação na gestão e análise de dados tem sido um fator crucial para as empresas que necessitam de soluções eficientes em um mundo corporativo cada vez mais competitivo. A explosão do volume de informações, que vem se mantendo crescente nos últimos anos, tem exigido cada vez mais empenho em buscar estratégias para gerenciar e, principalmente, extrair informações estratégicas valiosas a partir do uso de algoritmos de Mineração de Dados, que comumente necessitam realizar buscas exaustivas na base de dados a fim de obter estatísticas que solucionem ou otimizem os parâmetros do modelo de extração do conhecimento utilizado; processo que requer computação intensiva para a execução de cálculos e acesso frequente à base de dados.
Dada a eficiência no tratamento de incerteza, Redes Bayesianas têm sido amplamente utilizadas neste processo, entretanto, à medida que o volume de dados (registros e/ou atributos) aumenta, torna-se ainda mais custoso e demorado extrair informações relevantes em uma base de conhecimento. O foco deste trabalho é propor uma nova abordagem para otimização do aprendizado da estrutura da Rede Bayesiana no contexto de BigData, por meio do uso do processo de MapReduce, com vista na melhora do tempo de processamento. Para tanto, foi gerada uma nova metodologia que inclui a criação de uma Base de Dados Intermediária contendo todas as probabilidades necessárias para a realização dos cálculos da estrutura da rede. Por meio das análises apresentadas neste estudo, mostra-se que a combinação da metodologia proposta com o processo de MapReduce é uma boa alternativa para resolver o problema de escalabilidade nas etapas de busca em frequência do algoritmo K2 e, consequentemente, reduzir o tempo de resposta na geração da rede. / Automation at data management and analysis has been a crucial factor for companies which need efficient solutions in an each more competitive corporate world. The explosion of the volume information, which has remained increasing in recent years, has demanded more and more commitment to seek strategies to manage and, especially, to extract valuable strategic informations from the use of data mining algorithms, which commonly need to perform exhausting queries at the database in order to obtain statistics that solve or optimize the parameters of the model of knowledge discovery selected; process which requires intensive computing to perform calculations and frequent access to the database. Given the effectiveness of uncertainty treatment, Bayesian networks have been widely used for this process, however, as the amount of data (records and/or attributes) increases, it becomes even more costly and time consuming to extract relevant information in a knowledge base. The goal of this work is to propose a new approach to optimization of the Bayesian Network structure learning in the context of BigData, by using the MapReduce process, in order to improve the processing time. To that end, it was generated a new methodology that includes the creation of an Intermediary Database, containing all the necessary probabilities to the calculations of the network structure. Through the analyzes presented at this work, it is shown that the combination of the proposed methodology with the MapReduce process is a good alternative to solve the scalability problem of the search frequency steps of K2 algorithm and, as a result, to reduce the response time generation of the network.
|
179 |
Avaliação de desempenho em programa de formação massiva utilizando técnicas de mineração de dadosPINHEIRO, Marcia Fontes 28 August 2015 (has links)
Submitted by camilla martins (camillasmmartins@gmail.com) on 2017-03-28T14:02:12Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_AvaliacaoDesempenhoPrograma.pdf: 2051365 bytes, checksum: 481f57ea955edcaba40e27c16bea5f61 (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2017-03-28T14:33:45Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_AvaliacaoDesempenhoPrograma.pdf: 2051365 bytes, checksum: 481f57ea955edcaba40e27c16bea5f61 (MD5) / Made available in DSpace on 2017-03-28T14:33:45Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_AvaliacaoDesempenhoPrograma.pdf: 2051365 bytes, checksum: 481f57ea955edcaba40e27c16bea5f61 (MD5)
Previous issue date: 2015-08-28 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / Com a evolução da aplicação de Tecnologias da Informação e Comunicação (TICs) no sistema educacional, foi fomentado o surgimento de novos métodos, técnicas e procedimentos que favoreçam a aprendizagem ativa, planejamento e gestão de cursos e suporte para superação de dificuldades no processo educacional, sejam presenciais ou a distância. Os Ambientes Virtuais de Aprendizagem (AVAs) tornaram-se fundamentais à condução de processos educacionais, propiciando a democratização da educação e permitindo a formação continuada, além de gerar grandes volumes de dados a respeito do processo de aprendizagem. Ter informações sobre o processo de aprendizagem é de extrema importância para os educadores e alunos, uma vez que permite apoiar a tomada de decisão e reflexão sobre as metodologias aplicadas no ensino, conteúdo utilizado e desempenho dos alunos. Neste sentido, esta pesquisa propõe metodologia de seleção de atributos para avaliação de desempenho de alunos de Programa de Formação Massiva utilizando técnicas de Mineração de Dados. A metodologia proposta considera identificar atributos a serem utilizados para realização de inferências relacionadas ao desempenho dos estudantes e correlacionando com aspectos sociais através de análise qualitativa e quantitativa de resultados. Esta metodologia foi desenvolvida considerando o contexto educacional e valorizando a diversidade neste processo. Para demonstrar a viabilidade da metodologia proposta aplicou-se estudo de caso em ambiente híbrido de aprendizagem massiva com bases de dados proprietárias do Programa Telecentros.BR disponibilizadas pelos gestores do Programa. No estudo de caso foi aplicada a metodologia de seleção de atributos para a mineração de dados educacionais, conseguinte foram aplicadas tarefas de classificação utilizando os algoritmos J48, Random Forest e Random Tree para predição de notas de alunos; tarefas de agrupamento utilizando os algoritmos de K-means para encontrar perfil de alunos baseado em logs de utilização do AVA e Self-Organized Maps (SOM) para encontrar características educacionais qualitativas a partir de avaliações qualitativas textuais. Os resultados obtidos através de estudo de caso demonstraram a viabilidade da metodologia considerando o contexto educacional e apresentam novos indicadores de desempenho aos gestores do Programa Telecentros, tais como perfil de uso do AVA, indicadores de evasão, perfil dos alunos. / With the evolution of the application of Information and Communication Technologies (ICTs) in education was fostered the emergence of new methods, techniques and procedures that favor active learning, planning and management courses and support for overcoming difficulties in the educational process, be distance learning or presencial teaching. The Virtual Learning Environments (VLEs) have become fundamental to the conduct of educational processes, providing the democratization of education and enabling continuing education, as well as generating large volumes of data about the learning process. Have information about the learning process is of utmost importance for educators and students, as it allows to support decision making and reflection on the methodologies applied in education, used content and student performance. In this sense, this research proposes feature selection methodology for performance evaluation Massive Training Program students using data mining techniques. The proposed methodology considers identify attributes to be used for making inferences related to student performance and correlated with social aspects through qualitative and quantitative analysis of results. This methodology was developed considering the educational context and valuing diversity in the process. To demonstrate the feasibility of the proposed methodology was applied case study on hybrid environment of massive learning with proprietary databases from Telecentros.BR program provided by the managers of the program. In the case study was applied to feature selection methodology for Educational Data Mining, thus classification tasks were applied using the J48 algorithms, Random Forest and Random Tree to predict student grades; grouping tasks using the K-means algorithm to find profile of students based on the VLE usage logs and Self-Organized Maps (SOM) to find quality educational features from textual qualitative assessments. The results obtained through case study demonstrated the feasibility of the methodology considering the educational context and present new performance indicators to managers of Telecentros.BR program, such as profile use of AVA, evasion indicators, student profile.
|
180 |
Tratamento temporal em mineração de dados educacionais para fidelização de estudantes / Tempory treatment in data mining educational for fidelization of studentsFazolin, Kleyton 22 August 2017 (has links)
O tratamento temporal tem se revelado importante em muitos problemas de mineração de dados em que a base de dados é formada por dados coletados historicamente [Romero e Ventura 2007]. Um exemplo desta situação ocorre em instituições de ensino, onde os dados históricos dos alunos - tais como o desempenho escolar e a situação financeira - vem sendo adquiridos paulatinamente ao longo do tempo [Romero e Ventura 2007]. Este trabalho apresenta uma proposta de criação de atributos temporais com o objetivo de auxiliar a previsão da evasão de alunos de Ensino Fundamental em escolas particulares, tratada como um problema de classificação. A fidelização e retenção de alunos em instituições de ensino se tornou um dos maiores desafios para a área de gestão destas instituições [Lin 2012]. Uma solução promissora para alcançar esse objetivo é o uso da mineração de dados educacionais, para a identificação de padrões que auxiliem nas tomadas de decisões. Para a realização dos experimentos, os dados de 15.753 alunos da Rede Educacional Adventista – uma das maiores redes educacionais do mundo [“Educação Adventista” 2016] – foram extraídos e utilizados. Após a aplicação dos algoritmos de classificação, verificou-se que o classificador baseado em instâncias KNN conseguiu a melhor acurácia antes do uso dos novos atributos temporais criados, porém o melhor algoritmo para efetuar previsão da evasão no contexto desta pesquisa foi a Árvore de Decisão J4.8, pois permite a interpretação dos fatores que levaram ao resultado final. Os resultados mostram que a abordagem é viável, tendo-se obtido uma acurácia de até 96,57% utilizando o algoritmo J48 e um aumento de 14,39% na acurácia do classificador KNN com o uso dos atributos temporais. / The creation of temporal attributes has proved important in many data mining problems in that the database is formed by data collected historically [Romero e Ventura 2007]. An example of this situation occurs in educational institutions, where the historical data of students – such as school performance and financial situation – has been gradually acquired over time [Romero e Ventura 2007]. This paper presents a proposal for the creation of temporal attributes with the purpose of helping to predict the avoidance of elementary school students in private schools, treated as a classification problem. The loyalty and retention of students in educational institutions has become one of the greatest challenges for the management area of these institutions [Lin 2012]. A promising solution to achieve this goal is the use of educational data mining to identify patterns that aid in decision making. For the experiments, the data of 15,753 students of the Adventist Educational Network – one of the largest educational networks in the world [“Educação Adventista” 2016]– were employed. After the application of the classification algorithms, it was verified that the instance-based KNN classifier obtained the best accuracy before the use of the time attributes created, but the best algorithm to predict the avoidance in the context of this research was the Decision Tree J4.8 algorithm, because it allows the interpretation of the factors that led to the final result. The results show that the approach is feasible, obtaining an accuracy of up to 97.87% in the experiments performed and a gain of up to 14.39% in the accuracy when using the KNN with temporal attributes.
|
Page generated in 0.1255 seconds