• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 26
  • Tagged with
  • 26
  • 26
  • 26
  • 26
  • 26
  • 23
  • 21
  • 21
  • 21
  • 21
  • 21
  • 5
  • 5
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Solu??o de aux?lio ao diagn?stico e ? pesquisa m?dica baseada em minera??o de dados utilizando interface android

Chimieski, Bruno Fernandes 12 November 2012 (has links)
Made available in DSpace on 2015-04-14T13:56:27Z (GMT). No. of bitstreams: 1 445055.pdf: 5786647 bytes, checksum: cdcdc51bf8f86cf0c8bce837ef82e984 (MD5) Previous issue date: 2012-11-12 / Since the primary studies on the applications of Information Technology aiming to add value to other areas of knowledge, the playing eld of medicine has always been seen as fertile ground for such. With the advent of Arti cial Intelligence techniques, computer programs have been given a power of learning more sophisticated and thus opening the possibility of its use beyond the hospital administrative processes, drawing ever closer to the provision of patient care. Therefore, this paper proposes to demonstrate the feasibility of an aid to medical diagnosis and obtaining implicit knowledge in databases of three diseases: breast cancer, dermatology and vertebral column problems. To do so, is applied the process of extracting knowledge from databases in order to achieve these goals. This process has Data Mining as its core, which in turn relies on machine learning algorithms to transform data, sometimes not analyzed, in useful information for business referred to, in this case about health care. Therefore, this work presents a study aided by the tool Weka, to determine which machine learning algorithms perform best when applied to target databases. With these algorithms in hand, is implemented a solution to aid the diagnosis and study of medical applications making use of Android as interface for healthcare professionals, with it, utilizing what is most modern in terms of mobile electronic devices in the world market. The results were quite satisfactory, given that the objectives for the study on the determination of Data Mining algorithms, preparation of databases for future research and implementation of the solution for the diagnosis have been met and, together, prove that you can apply tools of information technology to add value to medical practice. / Desde os estudos primordiais sobre as aplica??es da Tecnologia da Informa??o objetivando agregar valor a outras areas do conhecimento, o campo de atua??o da Medicina sempre foi visto como terreno f?rtil para tal. Com o advento das t?cnicas de Intelig?ncia Artificial, os programas de computador passaram a ter um poderio de aprendizagem mais sofisticado e, portanto, abrindo a possibilidade da sua utiliza??o al?m dos processos administrativos hospitalares, chegando cada vez mais pr?ximo da presta??o de cuidados aos pacientes. Por isso, a presente disserta??o prop?e-se a demonstrar a viabilidade de uma solu??o de aux?lio ao diagn?stico m?dico e a obten??o de conhecimento impl?cito em bases de dados de tr?s doen?as: tumor de mama, problemas dermatol?gicos e da coluna vertebral. Para tanto, aplica-se o processo de extra??o de conhecimento de bases de dados afim de atingir esses objetivos. Esse processo tem como cerne o uso da Minera??o de Dados, que por sua vez, apoia-se nos algoritmos de aprendizado de m?quina para transformar dados em informa??es ?teis para os neg?cios a que se referem. Por isso, esse trabalho apresenta um estudo, auxiliado pela ferramenta Weka, para a determina??o de quais os algoritmos de aprendizado de m?quina apresentam melhor desempenho quando aplicados as bases de dados alvo. Com esses algoritmos em m?os, implementou-se uma solu??o de auxilio ao diagn?stico e estudo m?dico fazendo uso de aplicativos Android como interface de utiliza??o para os profissionais de sa?de, com isso, utilizando o que h? de mais moderno em termos de dispositivos eletr?nicos m?veis no mercado mundial. Os resultados foram bastante satisfat?rios, dado que os objetivos tra?ados referentes ao estudo sobre a determina??o de algoritmos de Minera??o de Dados, a prepara??o das bases de dados para futuras pesquisas e a implementa??o da solu??o de aux?lio ao diagn?stico foram atingidos e, em conjunto, comprovam que e poss?vel aplicar ferramentas da Tecnologia da Informa??o para agregar valor a pr?tica m?dica.
2

Triagem virtual em banco de dados de ligantes considerando propriedades f?sico-qu?micas de um modelo de receptor totalmente flex?vel / Virtual screening in ligand databases considering phisical-chemical properties of a fully-flexible receptor model

Quevedo, Christian Vahl 27 January 2016 (has links)
Submitted by Caroline Xavier (caroline.xavier@pucrs.br) on 2017-03-20T14:28:36Z No. of bitstreams: 1 TES_CHRISTIAN_VAHL_QUEVEDO_COMPLETO.pdf: 4899891 bytes, checksum: d1bdebeb58af0b6576f8370b00023654 (MD5) / Made available in DSpace on 2017-03-20T14:28:36Z (GMT). No. of bitstreams: 1 TES_CHRISTIAN_VAHL_QUEVEDO_COMPLETO.pdf: 4899891 bytes, checksum: d1bdebeb58af0b6576f8370b00023654 (MD5) Previous issue date: 2016-01-27 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / Funda??o de Amparo ? Pesquisa do Estado do Rio Grande do Sul (FAPERGS) / Pharmacophore models have been widely used in the virtual screening, allowing to select ligands that containing the spatial arrangement of essential physico-chemical properties. These properties are obtained from the evaluation of similar interactions identified in known receptor-ligand complexes. Currently, these pharmacophore models based on ligands are dependent on the physicochemical characteristics present in the known receptorligand complex. Thus, the pharmacophore model generated can overlook the proteins that have no known ligands complexed and whose physical and chemical properties do not establish interaction in the evaluated complex. That is, regions in the cavity that do not interact with ligands that generate the pharmacophore model and that may allow the interaction of structurally diverse ligands are not included in the selective search. Furthermore, several authors have shown that not taking the protein?s flexibility into account during the selection of drug candidates limits the result?s accuracy significantly. Thus, this thesis presents a new method for performing a virtual screening of ligands based on the evaluation of the 3D physico-chemical properties of the substrate binding pocket, and without the presence of complexed ligands, of representative structures of a Fully-Flexible Receptor (FFR) model. This method allows identifying 3D pharmacophoric models of flexible regions, which cannot be obtained from 3D pharmacophore models developed only from crystal structures of the ligand-receptor complex. A list of pharmacophoric hypothesis is proposed to select a set of ligands ZINC DB. Tests of this method?s efficacy were based on cross-docking experiments with the FFR model of 19.5 ns of the InhA enzyme from Mycobacterium tuberculosis. Molecular docking experiments with selected ligands showed that 95.0% of this group were negative values FEB, with 20.6% of these values that the best values obtained with FEB docking experiments with the crystalline structure that generated the rated model. These promising results show that the developed method may be an important support tool for researchers in the search for new drug candidates, accelerating the selection of possible candidates to be tested with FFR models of target molecules. The method presented also provides a great way to evaluate FFR models, enabling the domain expert to identify whether the obtained regions are really accessible in the investigated protein. / Modelos farmacof?ricos t?m sido amplamente utilizados no processo de triagem virtual de ligantes, permitindo selecionar ligantes que contenham as propriedades f?sicoqu?micas essenciais em um arrranjo espacial adequado. Essas propriedades s?o obtidas a partir da avalia??o das intera??es similares identificadas de complexos receptor-ligante conhecidos. Atualmente, esses modelos farmacof?ricos baseados em ligantes s?o dependentes das caracter?sticas f?sico-qu?micas presentes nos complexos receptor-ligante conhecidos. Desta forma, o modelo farmacof?rico gerado pode negligenciar as prote?nas que n?o possuem ligantes complexados conhecidos e cujas propriedades f?sico-qu?micas n?o estabelecem intera??o nos complexos avaliados. Ou seja, regi?es dentro da cavidade que n?o interagem com o conjunto de ligantes geradores do modelo farmacof?rico e que podem permitir a intera??o de ligantes estruturalmente diferentes n?o est?o inclu?das nessa busca seletiva. Al?m disso, diversos autores t?m mostrado que n?o considerar a flexibilidade da prote?na no processo de sele??o de candidatos a f?rmacos acaba limitando significativamente a precis?o dos resultados. Assim, esta tese apresenta um novo m?todo para realizar uma triagem virtual de ligantes baseada na avalia??o das propriedades f?sico-qu?micas 3D da cavidade de liga??o do substrato, e sem a presen?a de ligantes complexados, de estruturas representativas de um modelo de Receptor Totalmente Flex?vel (FFR). O resultado desse m?todo permite identificar modelos farmacof?ricos 3D de regi?es flex?veis que podem n?o ser obtidos de modelos desenvolvidos apenas a partir de estruturas cristalinas de complexos receptor-ligante. Uma lista de hip?teses farmacof?ricas ? proposta para selecionar um conjunto de ligantes do banco de dados ZINC. Testes da efic?cia desse m?todo foram baseados em experimentos de cross docking com um modelo de FFR de 19,5 ns da enzima InhA de Mycobacterium tuberculosis. Os experimentos de docagem molecular com o conjunto de ligantes selecionado mostraram que 95,0% desse conjunto obtiveram valores negativos de FEB, sendo 20,6% desses valores melhores que os valores de FEB obtidos com experimentos de docagem com a estrutura cristalina que gerou o modelo avaliado. Esses resultados promissores comprovam que o m?todo desenvolvido tem condi??es de ser uma importante ferramenta de apoio aos pesquisadores na busca por novos candidatos a f?rmacos, acelerando o processo de sele??o dos poss?veis candidatos a serem testados com modelos FFR de mol?culas alvo. O m?todo apresentado tamb?m fornece uma ?tima forma de avaliar o modelo FFR empregado, possibilitando ao especialista de dom?nio identificar se as regi?es obtidas s?o realmente acess?veis na prote?na investigada.
3

Processo de KDD para aux?lio ? reconfigura??o de ambientes virtualizados

Winck, Ana Trindade 20 December 2007 (has links)
Made available in DSpace on 2015-04-14T14:48:55Z (GMT). No. of bitstreams: 1 397762.pdf: 1330898 bytes, checksum: 5d70750d721e0c762826c9afce7b0753 (MD5) Previous issue date: 2007-12-20 / Xen ? um paravirtualizador que permite a execu??o simult?nea de diversas m?quinas virtuais (VM), cada uma com seu pr?prio sistema operacional. O consumo dessas VMs se d? em diferentes n?veis de recursos. Com o objetivo de melhorar a performance do Xen, ? interessante verificar qual a melhor aloca??o de recursos para uma dada m?quina Xen, quando v?rias VMs s?o executadas, e quais s?o os respectivos par?metros. Para auxiliar a eventual reconfigura??o de par?metros, este trabalho prop?e um processo completo de descoberta de conhecimento em banco de dados (processo de KDD) para capturar dados de desempenho das VMs, organiz?-los em um modelo anal?tico e aplicar t?cnicas de minera??o para sugerir novos par?metros. Inicialmente s?o obtidos dados de desempenho de cada VM, onde a estrat?gia empregada ? a execu??o de benchmarks sobre cada sistema operacional. Esses dados s?o armazenados em um data warehouse propriamente modelado para armazenar registros de captura de m?tricas de benchmarks. Os dados armazenados s?o convenientemente preparados para serem utilizados por algoritmos de minera??o de dados. Os modelos preditivos gerados podem, ent?o, ser enriquecidos com instru??es em alto n?vel de reconfigura??es. Tais modelos buscam sugerir, dada uma configura??o vigente, qual o melhor conjunto de par?metros de configura??o para modificar o ambiente, e alcan?ar um ganho global de desempenho. O processo proposto foi implementado e testado com um conjunto significativo de execu??es de benchmarks, o que mostrou a qualidade e abrang?ncia da solu??o.
4

SPDW-Miner : um m?todo para a execu??o de processos de descoberta de conhecimento em bases de dados de projetos de software

Figueira, Fernanda Vieira 31 March 2008 (has links)
Made available in DSpace on 2015-04-14T14:49:12Z (GMT). No. of bitstreams: 1 417649.pdf: 1251849 bytes, checksum: ad607557163d02817ddb83aa46013681 (MD5) Previous issue date: 2008-03-31 / As organiza??es de software buscam, cada vez mais, aprimorar seu Processo de Desenvolvimento de Software (PDS), com o intuito de garantir a qualidade dos seus processos e produtos. Para tanto, elas adotam modelos de maturidade de software. Esses modelos estabelecem que a mensura??o da qualidade seja realizada atrav?s de um programa de m?tricas (PM). As m?tricas definidas devem ser coletadas e armazenadas, permitindo manter um hist?rico organizacional da qualidade. Contudo, apenas mensurar n?o ? o bastante. As informa??es armazenadas devem ser ?teis para apoiar na manuten??o da qualidade do PDS. Para tanto, os n?veis mais altos dos modelos de maturidade sugerem que t?cnicas estat?sticas e anal?ticas sejam utilizadas, com a finalidade de estabelecer o entendimento quantitativo sobre as m?tricas. As t?cnicas de minera??o de dados entram neste contexto como uma abordagem capaz de aumentar a capacidade anal?tica e preditiva sobre as estimativas e o desempenho quantitativo do PDS. Este trabalho prop?e um m?todo para a execu??o do processo de KDD (Knowledge Discovery in Database), denominado de SPDW-Miner, voltado para a predi??o de m?tricas de software. Para tanto, prop?e um processo de KDD que incorpora o ambiente de data warehousing, denominado SPDW+. O m?todo ? composto por uma s?rie de etapas que guiam os usu?rios para o desenvolvimento de todo o processo de KDD. Em especial, em vez de considerar o DW (data warehouse) como um passo intermedi?rio deste processo, o toma como ponto de refer?ncia para a sua execu??o. S?o especificadas todas as etapas que comp?em o processo de KDD, desde o estabelecimento do objetivo de minera??o; a extra??o e prepara??o dos dados; a minera??o at? a otimiza??o dos resultados. A contribui??o est? em estabelecer um processo de KDD em um n?vel de detalhamento bastante confort?vel, permitindo que os usu?rios organizacionais possam adot?-lo como um manual de refer?ncia para a descoberta de conhecimento.
5

Evolutionary model tree induction

Barros, Rodrigo Coelho 10 December 2009 (has links)
Made available in DSpace on 2015-04-14T14:49:20Z (GMT). No. of bitstreams: 1 422461.pdf: 1656872 bytes, checksum: 4520cf1ef2435e86327deed3e89baed9 (MD5) Previous issue date: 2009-12-10 / ?rvores-modelo s?o um caso particular de ?rvores de decis?o aplicadas na solu??o de problemas de regress?o, onde a vari?vel a ser predita ? cont?nua. Possuem a vantagem de apresentar uma sa?da interpret?vel, auxiliando o usu?rio do sistema a ter mais confian?a na predi??o e proporcionando a base para o usu?rio ter novos insights sobre os dados, confirmando ou rejeitando hip?teses previamente formadas. Al?m disso, ?rvores-modelo apresentam um n?vel aceit?vel de desempenho preditivo quando comparadas ? maioria das t?cnicas utilizadas na solu??o de problemas de regress?o. Uma vez que gerar a ?rvore-modelo ?tima ? um problema NP-Completo, algoritmos tradicionais de indu??o de ?rvores-modelo fazem uso da estrat?gia gulosa, top-down e de divis?o e conquista, que pode n?o convergir ? solu??o ?tima-global. Neste trabalho ? proposta a utiliza??o do paradigma de algoritmos evolutivos como uma heur?stica alternativa para gera??o de ?rvores-modelo. Esta nova abordagem ? testada por meio de bases de dados de regress?o p?blicas da UCI, e os resultados s?o comparados ?queles gerados por algoritmos gulosos tradicionais de indu??o de ?rvores-modelo. Os resultados mostram que esta nova abordagem apresenta uma boa rela??o custo-benef?cio entre desempenho preditivo e gera??o de modelos de f?cil interpreta??o, proporcionando um diferencial muitas vezes crucial em diversas aplica??es de minera??o de dados.
6

Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento

Dall"agno, Karina Cristina da Motta 22 March 2012 (has links)
Made available in DSpace on 2015-04-14T14:49:45Z (GMT). No. of bitstreams: 1 438289.pdf: 4232980 bytes, checksum: 881bd64c55df7a95a458dac98379df88 (MD5) Previous issue date: 2012-03-22 / One of the most important problems in Structural Bioinformatics is to understand how the information coded in linear sequence amino acids, or primary structure, is translated into the three-dimensional structure of a protein. Many algorithms proposed solutions to this complex problem of NP-complete class. One of them is the CReF method (Central Residue Fragment-based) which makes prediction of approximate 3-D structure of proteins and polypeptides. The method uses data mining techniques to group data structures, showing good secondary structure prediction, good performance at low machine cost, but has problems in the prediction of turns and loops regions and usability. Valuing the different characteristics of CReF and seeking to evolve it, this work proposes improvements to CReF. After the initial stage of understanding the tool and making changes to turn it executable on the current state of data banks and support tools, two categories of improvements to make were identified. The technical improvements aimed to automate CReF, adapting it to the environment and emphasizing usability. In the method‟s improvements variations on the amount of groups were tested for data mining with the Expectation Maximization algorithm in Weka. Tests indicated that the best results for the initial conformation were for four and six groups, hence we decided to allow the user to select the amount of groups. A new mapping of the data in the Ramachandran plot indicated some problems that had to be fixed. In the analysis of data mining results, we decided that groups in regions not allowed would be discarded. The new version of CReF generated by the implementation of these improvements standardized the method of secondary structure prediction to use Porter. As a consequence, the rules of selection of data mining groups to represent each amino acids have been changed and extended. The new version has the same initial performance of CReF in prediction and execution, however, the problem of correct predictions of turns and loops remained. This problem was addressed through a refinement protocol, based on simulations by the molecular dynamics method, which presented a significant result for the target protein 1ZDD. / Um dos principais desafios da Bioinform?tica Estrutural ? entender como a informa??o decodificada em uma sequ?ncia linear de amino?cidos, ou estrutura prim?ria de uma prote?na, possibilita a forma??o de sua estrutura tridimensional. Muitos algoritmos buscam propor solu??es para o problema complexo da classe NP-completo. Dentre eles, est? o m?todo CReF (Central Residue Fragment-based method) que realiza a predi??o da estrutura 3D aproximada de prote?nas ou polipept?dios. O m?todo usa t?cnicas de minera??o de dados para agrupar dados de estruturas, apresentando boa predi??o de estruturas secund?rias, bom desempenho em m?quina de baixo custo, mas enfrenta problemas na predi??o das regi?es de voltas e al?as e na usabilidade. Valorizando as caracter?sticas diferenciadas do m?todo e buscando sua evolu??o, este trabalho prop?s-se a realizar melhorias no CReF. Ap?s uma etapa inicial de entendimento e adapta??es para tornar a ferramenta execut?vel na situa??o atual dos bancos de dados e ferramentas de apoio, foram identificadas duas categorias de melhorias. As melhorias t?cnicas tiveram por objetivo automatizar a ferramenta, adapt?-la ao ambiente e ao usu?rio enfatizando usabilidade. Para melhorias no m?todo realizaram-se testes com varia??o na quantidade de grupos identificados na etapa de minera??o de dados com o algoritmo Expectation Maximization (EM) no Weka. Os testes indicaram que as melhores conforma??es iniciais eram obtidas com quatro e seis grupos, assim, optou-se por permitir ao usu?rio a escolha dos grupos a considerar. Um novo mapeamento do mapa de Ramachandran indicou ajustes que foram corrigidos e decidiu-se descartar grupos identificados nas regi?es n?o permitidas na an?lise do resultado da minera??o de dados. A nova vers?o do CReF, gerada pela implementa??o dessas melhorias, tamb?m padronizou o m?todo de predi??o de estrutura secund?ria, passando a utilizar o m?todo Porter. Como consequ?ncia, as regras para escolha do grupo resultante da minera??o a representar cada amino?cido foram adaptadas e ampliadas para atender novas situa??es. A nova vers?o manteve o desempenho de predi??o e execu??o iniciais do CReF, entretanto, manteve o problema das voltas e al?as. Este problema de otimiza??o das regi?es de voltas e al?as foi endere?ado por meio do desenho e aplica??o de um protocolo de refinamento, baseado em simula??es pelo m?todo da din?mica molecular, o qual apresentou um resultado expressivo para a prote?na alvo de c?digo PDB 1ZDD.
7

Uma abordagem para minera??o de dados e visualiza??o de resultados em imagens batim?tricas

Gonzalez, Luis Fernando Planella 27 March 2012 (has links)
Made available in DSpace on 2015-04-14T14:49:49Z (GMT). No. of bitstreams: 1 439096.pdf: 7558590 bytes, checksum: 4fb2b1caf2e02f0f7ee3d5ffb4741bb7 (MD5) Previous issue date: 2012-03-27 / Bathymetry is the measurement of the depth at various places in a body of water, as well as information derived from such measurements. It has several important applications, and has been attracting increasing interest over the last years. Bathymetry maps may cover the entire extent of the Earth globe. However, the analysis of such maps by visual inspection solely is difficult, due to subtle variations on the seafloor conformation. Thus, it would be interesting to have available computational tools capable of assisting a domain expert in problems related to bathymetry images, by analyzing them automatically or semi-automatically. The contribution of this work is an approach to use data mining for such analysis, and an iconography for results visualization, as well as map characteristics. We propose techniques to process input images, in order to extract records and their features, which can be processed by classic data mining algorithms. We also propose an iconography for visualization of knowledge discovery process results, as well as characteristics of areas in the processed map. Finally, the proposed approach is tested by applying it on a real database, under a domain expert supervision. / A batimetria ? a medida da profundidade em distintos lugares de uma massa de ?gua, e tamb?m a informa??o derivada de tais medi??es. Possui diversas aplica??es importantes e tem atra?do cada vez mais interesse nos ?ltimos anos. Mapas batim?tricos podem cobrir toda a extens?o do globo terrestre. Entretanto, a an?lise apenas por inspe??o visual destes mapas pode ser dif?cil, devido a varia??es sutis na conforma??o do solo oce?nico. Assim, seria interessante a disponibiliza??o de ferramentas computacionais capazes de auxiliar ao especialista de dom?nio nos mais diversos problemas relativos a imagens batim?tricas, analisando-as de forma autom?tica ou semi-autom?tica. A contribui??o deste trabalho ? uma abordagem para a utiliza??o da minera??o de dados para tal an?lise, e de uma iconografia para a visualiza??o dos resultados da minera??o e de caracter?sticas do pr?prio mapa. S?o propostas t?cnicas para o processamento da imagem de entrada, a fim de extrair da mesma registros e atributos que possam ser processados por algoritmos cl?ssicos da minera??o de dados. Tamb?m ? proposta uma iconografia para a visualiza??o dos resultados do processo de descoberta de conhecimento e das caracter?sticas de ?reas processadas do mapa. Finalmente a abordagem proposta ? testada, aplicando-a sobre uma base de dados real, com supervis?o de um especialista de dom?nio.
8

Random forests estoc?stico

G?mez, Silvio Normey 31 August 2012 (has links)
Made available in DSpace on 2015-04-14T14:50:03Z (GMT). No. of bitstreams: 1 449231.pdf: 1860025 bytes, checksum: 1ace09799e27fa64938e802d2d91d1af (MD5) Previous issue date: 2012-08-31 / In the Data Mining area experiments have been carried out using Ensemble Classifiers. We experimented Random Forests to evaluate the performance when randomness is applied. The results of this experiment showed us that the impact of randomness is much more relevant in Random Forests when compared with other algorithms, e.g., Bagging and Boosting. The main purpose of this work is to decrease the effect of randomness in Random Forests. To achieve the main purpose we implemented an extension of this method named Stochastic Random Forests and specified the strategy to increase the performance and stability combining the results. At the end of this work the improvements achieved are presented / Na ?rea de Minera??o de Dados, experimentos vem sendo realizados utilizando Conjuntos de Classificadores. Estes experimentos s?o baseados em compara??es emp?ricas que sofrem com a falta de cuidados no que diz respeito ? quest?es de aleatoriedade destes m?todos. Experimentamos o Random Forests para avaliar a efici?ncia do algoritmo quando submetido a estas quest?es. Estudos sobre os resultados mostram que a sensibilidade do Random Forests ? significativamente maior quando comparado com a de outros m?todos encontrados na literatura, como Bagging e Boosting. O proposito desta disserta??o ? diminuir a sensibilidade do Random Forests quando submetido a aleatoriedade. Para alcan?ar este objetivo, implementamos uma extens?o do m?todo, que chamamos de Random Forests Estoc?stico. Logo especificamos como podem ser alcan?adas melhorias no problema encontrado no algoritmo combinando seus resultados. Por ?ltimo, um estudo ? apresentado mostrando as melhorias atingidas no problema de sensibilidade
9

RSAPP, um algoritmo baseado em rough sets para aux?lio ao processo de descoberta de conhecimento em banco de dados

Silveira, Juliano Gomes da 14 March 2013 (has links)
Made available in DSpace on 2015-04-14T14:50:07Z (GMT). No. of bitstreams: 1 451416.pdf: 14714043 bytes, checksum: 81e6c7473cbbdc708a5b414e1b3ffc85 (MD5) Previous issue date: 2013-03-14 / Techniques of Business Intelligence (BI) became one of the main allies of organizations in tasks of transforming data into knowledge, supporting the middle and upper management levels in decision making. BI tools in their composition are based on techniques of knowledge management, such as Data Warehouse (DW), OLAP (Online Analytical Processing), Data Mining (DM), among others. In this context, it is observed that in many case, DM projects become unfeasible by some factors, such as project costs, duration and specially the uncertainty in obtaining results that return the investment spent on the project. This work seeks to minimize these factors through a diagnosis on data, by an algorithm based on Rough Sets Theory. The algorithm, named Rough Set App (RSAPP) aims to create a diagnosis on data persisted in DW, in order to map which attributes have the greatest potential for generating more accurate mining models and more interesting results. Thus, it is expected that the diagnosis generated by RSAPP can complement the KDD (Knowledge Discovery in Database) process, reducing the time spent on activities of understanding and reducing data dimensionality. This work presents a detailed description about the implemented algorithm, as well as the report of the executed tests. At the end there is an empirical analysis of the results, in order to estimate the effectiveness of the proposed algorithm. / As t?cnicas, business intelligence (BI) firmaram-se como grandes aliadas das organiza??es nas tarefas de transformar dados em conhecimento, apoiando a m?dia e alta gest?o na tomada de decis?es. As ferramentas de BI em sua, composi??o s?o fundadas em t?cnicas de gest?o do conhecimento, tais como Data Warehouse (DW), OLAP (Online Analytical Processing), minara??o de dados (MD), entre outras. Neste contexto, observa-se que em muitos casos, projatos de MD acabam sendo inviabilizados por alguns fatores, tais como, custo do projeto, dura??o e principalmente, a incerteza na obten??o de resultados que retornem o investimento despedindo no projeto. O presente trabalho busca minimizar os fatores acima por meio um diagn?stico sobre dados, atrav?s de um algoritmo baseado em Rough Sets Theory (Teoria dos Conjuntos Aproximados (TCA)). O algoritmo desenvolvido, nomeado Rough Set App (RSAPP) objetiva criar um diagn?stico sobre os dados persistidos no DW, a fim de mapear quais atributos possuem maior potencial de gerar modelos de minera??o mais preciosos e resultados mais interessantes. Desta forma, entende-se que o diagn?stico gerado por RSAPP pode complementar o processo de KDD (Knowledge Discovery in database), reduzindo o tempo gasto nas atividades de entendimento e redu??o da dimensionalidade dos dados. No trabalho se faz uma descri??o detalhada acerca do algoritmo implementado, bem como o relato dos, testes que foram executados. Ao final faz-se uma an?lise emp?rica sobre os resultados a fim de estimar a efic?cia do algoritmo quanto a sua proposta.
10

Spatio-temporal data mining in palaeogeographic data with a density-based clustering algorithm

Hemerich, Daiane 20 March 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:12Z (GMT). No. of bitstreams: 1 458539.pdf: 3705446 bytes, checksum: de3d802acba0f10f03298ee0277b51b1 (MD5) Previous issue date: 2014-03-20 / The usefulness of data mining and the process of Knowledge Discovery in Databases (KDD) has increased its importance as grows the volume of data stored in large repositories. A promising area for knowledge discovery concerns oil prospection, in which data used differ both from traditional and geographical data. In palaeogeographic data, temporal dimension is treated according to the geologic time scale, while the spatial dimension is related to georeferenced data, i.e., latitudes and longitudes on Earth s surface. This approach differs from that presented by spatio-temporal data mining algorithms found in literature, arising the need to evolve the existing ones to the context of this research. This work presents the development of a solution to employ a density-based spatio-temporal algorithm for mining palaeogeographic data on the Earth s surface. An evolved version of the ST-DBSCAN algorithm was implemented in Java language making use of Weka API, where improvements were carried out in order to allow the data mining algorithm to solve a variety of research problems identified. A set of experiments that validate the proposed implementations on the algorithm are presented in this work. The experiments show that the solution developed allow palaeogeographic data mining by applying appropriate formulas for calculating distances over the Earth s surface and, at the same time, treating the temporal dimension according to the geologic time scale / O uso da minera??o de dados e do processo de descoberta de conhecimento em banco de dados (Knowledge Discovery in Databases (KDD)) vem crescendo em sua import?ncia conforme cresce o volume de dados armazenados em grandes reposit?rios. Uma ?rea promissora para descoberta do conhecimento diz respeito ? prospec??o de petr?leo, onde os dados usados diferem tanto de dados tradicionais como de dados geogr?ficos. Nesses dados, a dimens?o temporal ? tratada de acordo com a escala de tempo geol?gico, enquanto a escala espacial ? relacionada a dados georeferenciados, ou seja, latitudes e longitudes projetadas na superf?cie terrestre. Esta abordagem difere da adotada em algoritmos de minera??o espa?o-temporal presentes na literatura, surgindo assim a necessidade de evolu??o dos algoritmos existentes a esse contexto de pesquisa. Este trabalho apresenta o desenvolvimento de uma solu??o para uso do algoritmo de minera??o de dados espa?o-temporais baseado em densidade ST-DBSCAN para minera??o de dados paleogeogr?ficos na superf?cie terrestre. O algoritmo foi implementado em linguagem de programa??o Java utilizando a API Weka, onde aperfei?oamentos foram feitos a fim de permitir o uso de minera??o de dados na solu??o de problemas de pesquisa identificados. Como resultados, s?o apresentados conjuntos de experimentos que validam as implementa??es propostas no algoritmo. Os experimentos demonstram que a solu??o desenvolvida permite a minera??o de dados paleogeogr?ficos com a aplica??o de f?rmulas apropriadas para c?lculo de dist?ncias sobre a superf?cie terrestre e, ao mesmo tempo, tratando a dimens?o temporal de acordo com a escala de tempo geol?gico

Page generated in 0.025 seconds