• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1606
  • 457
  • 422
  • 170
  • 114
  • 102
  • 61
  • 49
  • 40
  • 36
  • 29
  • 23
  • 21
  • 17
  • 16
  • Tagged with
  • 3646
  • 856
  • 805
  • 754
  • 608
  • 544
  • 420
  • 400
  • 392
  • 363
  • 310
  • 304
  • 296
  • 277
  • 264
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
981

Algoritmo para prospecção multirrelacional de dados espaciais

Ichiba, Fernando Tochio [UNESP] 22 February 2013 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:29:40Z (GMT). No. of bitstreams: 0 Previous issue date: 2013-02-22Bitstream added on 2014-06-13T19:26:57Z : No. of bitstreams: 1 ichiba_ft_me_sjrp.pdf: 1239292 bytes, checksum: cfb214bc34aad17fb1b60e6eb5b2f5cd (MD5) / As pesquisas acerca de spatial data mining - ou prospecção de dados espaciais - tem avançado no sentido de melhorar a qualidade dos resultados obtidos pelos algoritmos da área e aprimorar as técnicas utilizadas, na tentativa de apresentar soluções que contornam os principais problemas e desafios: custo computacional elevado e baixa eficiência dos algoritmos. Neste trabalho, é apresentado um algoritmo desenvolvido para prospecção de dados espaciais, que introduz uma abordagem multirrelacional para suportar o agrupamento de dados por similaridade de características espaciais e não espaciais com possibilidade de agregação semântica nessa tarefa. Aplicável a bases de dados volumosas, o algoritmo desenvolvido apresentou resultados com qualidade superior nos experimentos realizados, se comparado com alguns dos mais tradicionais de spatial data mining, sem que houvesse perda semântica no levantamento das informações - muitas vezes ocasionada pelas junções de dados exigidas na aplicação de algoritmos tradicionais - e com um desempenho otimizado por meio do uso de multithreading / Researches involving spatial data mining have advanced in order to improve the quality of results obtained with algorithms and techniques, aiming to present solutions which avoid the main problems and challenges in this research area: high computational cost and low efficiency of the algorithms. In this work, an algorithm for spatial data mining is presented, based on techniques introduced by the VDBSCAN algorithm, which introduces a multi-relational approach to support spatial clustering by similarity of spatial and non-spatial characteristics with the possibility of semantic aggregation in this process. The developed algorithm is able to deal with voluminous databases and it presented better results than some of the most traditional spatial data mining algorithms, avoiding semantic losses in data joining required by traditional algorithms and performing an optimised execution time due to the use of multithreading
982

Estratégia para extração, transformação e armazenamento em Data Warehouse ativo baseada em políticas configuráveis de propagação de dados

Scarpelini Neto, Paulo [UNESP] 21 February 2013 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:29:40Z (GMT). No. of bitstreams: 0 Previous issue date: 2013-02-21Bitstream added on 2014-06-13T18:39:29Z : No. of bitstreams: 1 scarpelinineto_p_me_sjrp.pdf: 872066 bytes, checksum: 81892b88aa310d76b81d958f0a528616 (MD5) / Em arquiteturas de Data Warehouse os dados são integrados periodicamente por meio da execução de processos de Extração, Transformação e Armazenamento – ETA. A atualização desses dados de forma periódica provoca um problema referente à desatualização das informações, uma vez que as ferramentas ETAs são executadas geralmente uma vez ao dia. A crescente necessidade do mundo corporativo por análises sobre dados cada vez mais recentes evidencia a necessidade de arquiteturas DW que possuam um maior grau de atualização. Nesse contexto, surgiram os DW ativos cujo intervalo de tempo entre as execuções do processo ETAs diminuem significativamente. Para suportar o aumento da frequência das atualizações, surge a necessidade de criação de critérios para priorização dos dados a serem transferidos, uma vez que a transferência de todo e qualquer dado inserido nas fontes pode sobrecarregar os sistemas envolvidos. O trabalho proposto consiste na construção de uma estratégia denominada ETA-PoCon, que tem como objetivo a execução do processo ETA em DW ativos. A estratégia distingue-se das existentes, pois possui políticas configuráveis de propagação de informações com base em parâmetros como intervalo de tempo em que a informação deve ser transferida, volume que deve ser propagado e relevância dos dados em relação às informações contidas no repositório. É demonstrado por meio dos experimentos executados que a aplicação da estratégia proporciona uma redução considerável no número de transferência de dados ao DW, uma vez que em todos os resultados a redução no total de atualizações foi superior a 60% / In Data Warehouse (DW) architectures data are periodically integrated by means of execution of Extraction, Transformation and Load (ETL) processes which lead to the problem of outdated information. The growing necessity in the corporate world for analysis of constantly renewed data bespeaks of the need for DW architectures with higher level of freshness. In that context, active DWs appeared having a significant reduction of the interval of time between the executions of ETL processes. To support the increased frequency of the refreshment it’s necessary to create criteria to prioritise the data to be transferred, since a transfer of all and any data from the sources would overload the systems. This work consists of the construction of a strategy called ETL-PoCon to execute ETL processes in active DWs. The original contribution of this work is to provide a strategy that considerably reduces the quantity of data transfers to active DWs, besides maintaining a satisfactory level of data freshness. Said reduction is obtained by means of configurable policies of data propagation based on parameters such as: the time in which the data must be transferred, the volume to be propagated and the relevance of the data regarding to the information stored in the DW. Experiments have shown that the ETL-PoCon strategy significantly contributes towards a reduction of the overload on the systems involved in the active DW environment, since all results presented a reduction higher than 60% in the amount of DW refreshments
983

Uma abordagem lógica para o gerenciamento de identificadores de objetos em sistemas gerenciadores de banco de dados não convencionais /

Ferrizzi, André Cid. January 2010 (has links)
Orientador: Carlos Roberto Valêncio / Banca: Rogéria Cristiane Gratão de Souza / Banca: Marilde Terezinha Prado Santos / Resumo: Os Sistemas Gerenciadores de Banco de Dados Não Convencionais são utilizados por aplicações que necessitam de e ciência no gerenciamento de objetos complexos. Um dos conceitos fundamentais nestes sistemas e o de identidade de objetos, pois em uma base de dados cada objeto possui um identificador unico que e utilizado para acessá-lo e referenciá-lo em relacionamentos com outros objetos. A implementação de identidade pode ser feita com OIDs físicos ou OIDs lógicos. A abordagem física apresenta o problema de fragmentação da base de dados, pois os OIDs são formados diretamente pelos endereções dos objetos. Já a abordagem lógica não tem este problema, e as técnicas são arvore-B, hashing e mapeamento direto. Cada uma destas abordagens apresenta um determinado problema: arvore-B pode ocupar muita mem oria e o tempo de mapeamento possui complexidade logar tmica; em hashing ocorrem colisões pois o conhecimento prévio do tamanho da tabela hash se torna inviável em base de dados, que crescem de maneira imprevisível; e por ultimo, mapeamento direto, que apesar de possuir o menor tempo de mapeamento dentre as três abordagens, não permite a relocação de todas as páginas da base de dados. Uma outra abordagem lógica é utilizada no Núcleo Gerenciador de Dados Multimídia (NUGEM), o qual vem sendo desenvolvido junto ao Grupo de Banco de Dados do IBILCE de São José do Rio Preto com o intuito de gerenciar dados não convencionais. Neste trabalho e proposta uma nova estrutura e funcionalidades para a t ecnica de gerenciamento de OIDs, cuja experimenta cão foi efetivada junto ao NUGEM, caracterizando uma nova abordagem com um menor tempo de manipulação dos OIDs, a qual pode ser nomeada de mapeamento indireto. E tamb em avaliado o esgotamento de OIDs, comprovando-se que este não representa um problema para a abordagem de mapeamento indireto. Em comparaçãocom as abordagens... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Non-Conventional Database Management Systems are used for applications that require e cient management of complex objects. One fundamental concept of these systems is object identity, because in a database each object has a unique identi er that is used to access it and reference it in relationships with another objects. The implementation of identity can be made with physical OIDs or logical OIDs. The physical approach presents the problem of fragmenting the database, because the OIDs are formed directly by addresses of objects. The logical approach does not have this problem, and the techniques are B-tree, hashing and direct mapping. Each of these approaches presents a particular problem: B-tree can occupy a lot of memory and its mapping time is logarithmic, in hashing collisions occur because the prior knowledge of the table size becomes a problem in databases, which grow in unpredictable ways, and nally, direct mapping, which despite having the smallest mapping time of the three approaches, does not allow the relocation of all pages in the database. Another logical approach is used in the Multimedia Data Manager Kernel (NUGEM), which is being developed by the Database Group at IBILCE, S~ao Jos e do Rio Preto, S~ao Paulo, Brazil, in order to manage non-conventional data. This work proposes a new structure and features for the OID management, which was tested in NUGEM, featuring a new approach with a shorter handling time of OIDs, that can be named indirect mapping. It is also evaluated the exhaustion of OIDs, proving that this is not a problem for the indirect mapping approach. Compared with the approaches of the literature, the approach of indirect mapping has constant mapping time, uses less memory than the B-tree approach, has no problems like collisions and, unlike direct mapping, allows total exibility for relocating pages in the database / Mestre
984

Uma abordagem lógica para o gerenciamento de identificadores de objetos em sistemas gerenciadores de banco de dados não convencionais

Ferrizzi, André Cid [UNESP] 21 May 2010 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:29:41Z (GMT). No. of bitstreams: 0 Previous issue date: 2010-05-21Bitstream added on 2014-06-13T18:39:30Z : No. of bitstreams: 1 ferrizzi_ac_me_sjrp.pdf: 598030 bytes, checksum: 77b6ef0379d56ab11ae68873cafa2f56 (MD5) / Os Sistemas Gerenciadores de Banco de Dados Não Convencionais são utilizados por aplicações que necessitam de e ciência no gerenciamento de objetos complexos. Um dos conceitos fundamentais nestes sistemas e o de identidade de objetos, pois em uma base de dados cada objeto possui um identificador unico que e utilizado para acessá-lo e referenciá-lo em relacionamentos com outros objetos. A implementação de identidade pode ser feita com OIDs físicos ou OIDs lógicos. A abordagem física apresenta o problema de fragmentação da base de dados, pois os OIDs são formados diretamente pelos endereções dos objetos. Já a abordagem lógica não tem este problema, e as técnicas são arvore-B, hashing e mapeamento direto. Cada uma destas abordagens apresenta um determinado problema: arvore-B pode ocupar muita mem oria e o tempo de mapeamento possui complexidade logar tmica; em hashing ocorrem colisões pois o conhecimento prévio do tamanho da tabela hash se torna inviável em base de dados, que crescem de maneira imprevisível; e por ultimo, mapeamento direto, que apesar de possuir o menor tempo de mapeamento dentre as três abordagens, não permite a relocação de todas as páginas da base de dados. Uma outra abordagem lógica é utilizada no Núcleo Gerenciador de Dados Multimídia (NUGEM), o qual vem sendo desenvolvido junto ao Grupo de Banco de Dados do IBILCE de São José do Rio Preto com o intuito de gerenciar dados não convencionais. Neste trabalho e proposta uma nova estrutura e funcionalidades para a t ecnica de gerenciamento de OIDs, cuja experimenta cão foi efetivada junto ao NUGEM, caracterizando uma nova abordagem com um menor tempo de manipulação dos OIDs, a qual pode ser nomeada de mapeamento indireto. E tamb em avaliado o esgotamento de OIDs, comprovando-se que este não representa um problema para a abordagem de mapeamento indireto. Em comparaçãocom as abordagens... / Non-Conventional Database Management Systems are used for applications that require e cient management of complex objects. One fundamental concept of these systems is object identity, because in a database each object has a unique identi er that is used to access it and reference it in relationships with another objects. The implementation of identity can be made with physical OIDs or logical OIDs. The physical approach presents the problem of fragmenting the database, because the OIDs are formed directly by addresses of objects. The logical approach does not have this problem, and the techniques are B-tree, hashing and direct mapping. Each of these approaches presents a particular problem: B-tree can occupy a lot of memory and its mapping time is logarithmic, in hashing collisions occur because the prior knowledge of the table size becomes a problem in databases, which grow in unpredictable ways, and nally, direct mapping, which despite having the smallest mapping time of the three approaches, does not allow the relocation of all pages in the database. Another logical approach is used in the Multimedia Data Manager Kernel (NUGEM), which is being developed by the Database Group at IBILCE, S~ao Jos e do Rio Preto, S~ao Paulo, Brazil, in order to manage non-conventional data. This work proposes a new structure and features for the OID management, which was tested in NUGEM, featuring a new approach with a shorter handling time of OIDs, that can be named indirect mapping. It is also evaluated the exhaustion of OIDs, proving that this is not a problem for the indirect mapping approach. Compared with the approaches of the literature, the approach of indirect mapping has constant mapping time, uses less memory than the B-tree approach, has no problems like collisions and, unlike direct mapping, allows total exibility for relocating pages in the database
985

Estudo dos constituintes químicos dos óleos voláteis de espécies de Eupatorium nativas do Rio Grande do Sul e construção de banco de dados de lactonas sesquiterpênicas / Study of chemical constituents of essential oils from Eupatorium species native in Rio Grande do Sul State and framing of a sesquiterpene lactone database

Souza, Tiago Juliano Tasso de January 2014 (has links)
O gênero Eupatorium L. (Asteraceae) apresenta muitas espécies comumente encontradas no Rio Grande do Sul e se caracteriza pela presença de óleos voláteis e outros derivados terpenoídicos entre seus metabólitos secundários. Neste trabalho, o óleo volátil de oito espécies de Eupatorium nativas do estado foi extraído por hidrodestilação em aparelho tipo Clevenger e sua composição química foi avaliada por cromatografia gasosa acoplada a espectrometria de massas (CG/EM). As espécies analisadas foram: E. inulifolium Kunth, E. polystachyum DC, E. picturatum Malme, E. tremulum Hook. & Arn, E. ivifolium L., E. laevigatum Lam., E. casarettoi (B.L.Rob.) Steyerm., E. itatiayense Hieron. e E. gaudichaudianum DC. Os óleos voláteis de partes aéreas de E. tremulum analisados antes, durante e após a floração, aplicando-se análises multivariadas para identificar compostos com variação significativa em cada estágio de desenvolvimento da espécie. Os extratos diclorometano das mesmas espécies foram avaliados na busca de lactonas sesquiterpênicas utilizando como metodologia a mensuração da absorção característica de lactonas no espectro Infravermelho e aplicação de métodos de extração específicos para essa classe de compostos. Foi realizado fracionamento dos óleos voláteis em cromatografia em coluna aberta (CC), cromatografia flash (CC flash) e cromatografia líquida de média pressão (MPLC) com monitoramento das frações por CG/EM para o isolamento de compostos não identificados apenas por seu índice de retenção linear e espectro de massas. Utilizando essa abordagem foi isolado e identificado por seus dados espectrais de RMN um furanossesquiterpeno, 3-oxoverboccidentafurano, descrito pela primeira vez em Eupatorium. Também foi realizado o fracionamento de extratos diclorometano (E. casaretoi e E. inulifolium) em CC flash e MPLC, com monitoramento das frações por CG/EM e cromatografia líquida de alta eficiência acoplada a detector de arranjo de diodos (HPLC-DAD) na tentativa de isolamento de lactonas sesquiterpênicas. Um composto foi isolado e sua completa elucidação estrutural está em andamento. Considerando as dificuldades encontradas no processo de elucidação estrutural da molécula isolada do extrato de E. inulifolium, mesmo com a abundância de dados de ressonância magnética nuclear (RMN) 13C disponíveis para consulta, e que não foi encontrada uma base digital dedicada a lactonas sesquiterpênicas reunindo esses dados em uma plataforma facilmente acessível e utilizável, foi realizada a transposição de uma base de dados da literatura para um formato digital amigável (baseada em Excel®), com a visualização e comparação de dados facilitadas graças à utilização de formas gráficas em lugar das formas tabulares de apresentação dos espectros comuns na literatura. / The genus Eupatorium L. (Asteraceae) contains several species that are common in Rio Grande do Sul State and it is characterized by essential oils and other terpenic derivatives among its secondary metabolites. Through this survey, it was evaluated the chemical composition of the essential oil from eight species of Eupatorium natives to the State and their chemical composition was analysed by gas chromatogaphy coupled to mass spectrometry. The following species were studied: E. inulifolium Kunth, E. polystachyum DC, E. picturatum Malme, E. tremulum Hook. & Arn, E. ivifolium L., E. laevigatum Lam., E. casarettoi (B.L.Rob.) Steyerm., E. itatiayense Hieron. and E. gaudichaudianum DC. Volatile oils from aereal parts of E. tremulum were analysed before, during and after blooming. Multivariate analyses were employed in order to identify compounds showing significant variation between each developmental stage. Dichloromethane extracts of these same species were evaluated for sesquiterpene lactones by measuring the typical infrared absorption for lactones and applying extraction methods directed to this class of compounds. The essential oils were fractionated by CC, CC flash and MPLC, with fractions being monitored by GC/MS for isolation of unknown compounds, whose retention index and mass spectrum were not enough for identification. Using this approach a furansesquiterpene, 3-oxo-verboccidentafuran, described for the first time for Eupatorium, was isolated and identified based on NMR spectral data. Dichloromethane extracts (E. casarettoi and E. inulifolium) were also fractionated by CC flash and MPLC, fractions were monitored by GC/MS and HPLC-DAD aiming the isolation of sesquiterpene lactones One compound was isolated and its structural elucidation is ongoing. Considering difficulties faced in the process of structural elucidation of the compound isolated from the extract of E. inulifolium, even with plenty of NMR 13C data available for search, and considering that no digital database dedicated to sesquiterpene lactones was found, that gathers these data in an easily accessible and user friendly platform, we performed the transposition of a bibliographic database to a more user friendly digital format (baseada em Excel®), with enhanced data visualization and comparison, thanks to the use of graphical rather than the tabular spectral presentation usually found in the literature.
986

Gold Standard Website

Ahmad, Khurram, Azeem, Muhammad January 2009 (has links)
The aim of this thesis is to design a web base system which provides functionality of comparison between two java files on the basis of point-to information (P2I). User will upload Java files and analysis of Java files called point-to analysis (P2A). System will store the files in the file system for reference and download in later time. System will extract the information called P2I from P2A and it will store that information in the database. Database should be flexible to accommodate the changes in P2A file and system should be able to extract the P2I and store it in database with minimum support of system administrator.
987

Proposta de um sistema de banco de dados para tomografia por ressonância magnética nuclear / Proposal of a database system for magnetic resonance imaging

Henrique Jota de Paula Freire 05 December 1997 (has links)
Este trabalho é uma proposta e uma implementação de um sistema de banco de dados para ser utilizado no armazenamento e gerenciamento dos dados resultantes da operação de tomógrafos de ressonância magnética nuclear. O objetivo é obter tecnologia na área de sistemas de arquivamento e comunicação de imagens médicas. O trabalho insere-se em um esforço maior do grupo de ressonância do IFSC/USP-São Carlos na pesquisa e desenvolvimento de tecnologias na área de imagens por ressônancia magnética. A motivação para a utilização de sistemas digitais de bancos de dados para o armazenamento e gerenciamento de imagens médicas é o crescente aumento do volume gerado deste tipo de imagem nas instalações médicas. Quando comparado com o sistema de armazenamento tradicional, baseado em filmes, os sistemas digitais prometem ser mais seguros, eficientes e eficazes, além de proporcionar novas possibilidades na área de diagnóstico médico. Os principais resultados do trabalho são um modelo de dados conceitual elaborado com o modelo Entidade-relacionamento Estendido; um modelo de implementação relacional; e um sistema de banco de dados desenvolvido para uma plataforma computacional baseada em microcomputador e sistema operacional da família Windows. A metodologia utilizada no desenvolvimento do trabalho é baseada em conceitos básicos da disciplina de engenharia de programação. O sistema de banco de dados foi desenvolvido utilizando um sistema de gerenciamento de banco de dados comercial, o Microsoft Acess Versão 2.0. O trabalho também apresenta o padrão industrial DICOM 3,0 e destaca as partes que são específicas para a modalidade de imagens médicas por ressonância magnética e que foram implementadas neste trabalho. / This work is a proposal and an implementation of a database system for archiving and management of data related to the operation of magnetic resonance imaging systems. The objective is to acquire technology in the area of medical image archiving and communication systems. This work is part of a broader effort of the IFSC/USP-São Carlos magnetic resonance group in the research and development of technologies in the area of magnetic resonance imaging. The reason for using digital database systems to archive and manage medical images is the growing volume of this kind of images in medical institutions. When compared to the traditional film based archiving systems, digital systems claim to be more secure, efficient and effective, besides giving place to new possibilities in medical diagnoses. The main results of this work are: a conceptual data model built with the Enhanced Entity-relationship model; a relational implementation model; and a database system to run in a PC-Windows computational platform and operational system. The methodology used throughout the development of this work is based on some basic concepts of the software engineering discipline. The database system was developed using a commercial database management system, the Microsoft® Access® Version 2.0. This work also presents the industrial standard DICOM 3.0 and highlights those parts that are specific for the magnetic resonance imaging modality and were implemented in this work.
988

MyDBaaS: um framework para o monitoramento de serviÃos de banco de dados em nuvem

David AraÃjo Abreu 18 September 2013 (has links)
Conselho Nacional de Desenvolvimento CientÃfico e TecnolÃgico / A adoÃÃo de serviÃos em nuvem està aumentando exponencialmente, e uma das razÃes à porque a sua arquitetura salienta os benefÃcios de serviÃos compartilhados e com pagamento baseado no uso. A computaÃÃo em nuvem possui o foco de proporcionar uma economia em grande escala, possibilitando o acesso a diversos recursos computacionais em tempo real, como serviÃos de aplicaÃÃes, infraestrutura e armazenamento, de modo que estes possam ser obtidos de modo dinÃmico, elÃstico, escalÃvel e rÃpido na medida em que forem consumidos, independente de quem os administra e onde estes recursos estejam alocados. Dentre esses serviÃos, o gerenciamento e armazenamento de dados sÃo componentes crÃticos na pilha de software da nuvem, pois a maioria das aplicaÃÃes sÃo orientadas a dados. Esse serviÃo, conhecido por Database as a Service (DBaaS), nasce como um paradigma de gestÃo de dados, onde um provedor hospeda e gerencia todo ambiente necessÃrio ao funcionamento dos sistemas de banco de dados e o terceiriza como um serviÃo para um ou mais consumidores. PorÃm, ainda hà problemas que impedem a sua adoÃÃo generalizada dos DBaaS. Fornecer serviÃos em nuvem requer procedimentos sofisticados de gestÃo por parte do fornecedor para garantir robustez, desempenho, confiabilidade, seguranÃa, elasticidade e qualidade. Portanto, os consumidores esperam que provedores de DBaaS garantam a qualidade do serviÃo, e lidem com padrÃes dinÃmicos de carga de trabalho e elasticidade, pois à fundamental para garantir que os acordos de nÃvel de serviÃo (SLA) sejam atendidos. No entanto, prover mecanismos de elasticidade, escalabilidade, qualidade de serviÃo e disponibilidade em ambientes em nuvem à um grande desafio. Claramente isto à um desafio tambÃm na disponibilizaÃÃo dos DBaaS, e para se alcanÃar essas funcionalidades e princÃpios à necessÃrio um monitoramento detalhado e preciso. Com isso, esta dissertaÃÃo tem por objetivo a proposta de um framework open-source para o monitoramento de serviÃos de DBaaS, denominado MyDBaaS, cuja finalidade à possibilitar a criaÃÃo de soluÃÃes de monitoramento personalizÃveis e eficientes atravÃs de um modelo de programaÃÃo abrangente e extensÃvel, que disponibiliza desde a definiÃÃo das mÃtricas, procedimento de coleta, recebimento e armazenamento atà mecanismos para consumo das informaÃÃes coletadas em tempo real.
989

Imersão de espaços métricos em espaços multidimensionais para indexação de dados usando detecção de agrupamentos / Embedding of metric spaces in multidimensional spaces for data indexing using cluster detection

Adriano Arantes Paterlini 28 March 2011 (has links)
O sucesso dos Sistemas de Gerenciamento de Banco de Dados (SGBDs) em aplicações envolvendo dados tradicionais (números e textos curtos) encorajou o seu uso em novos tipos de aplicações, que exigem a manipulação de dados complexos. Séries temporais, dados científicos, dados multimídia e outros são exemplos de Dados Complexos. Inúmeras áreas de aplicação têm demandado soluções para o gerenciamento de dados complexos, dentre as quais a área de informática médica. Dados complexos podem também ser estudos com técnicas de descoberta de conhecimentos, conhecidas como KDD (Knowledge Discovery in Database), usando alguns algoritmos de detecção de agrupamentos apropriados. Entretanto, estes algoritmos possuem custo computacional elevado, o que dificulta a sua utilização em grandes conjuntos de dados. As técnicas já desenvolvidas na Área de Bases de Dados para indexação de espaços métricos usualmente consideram o conjunto de maneira uniforme sem levar em conta a existência de agrupamentos nos dados, por isso as estruturas buscam maximizar a eficiência das consultas para todo o conjunto simultaneamente. No entanto muitas vezes as consultas por similaridade estão limitadas a uma região específica do conjunto de dados. Neste contexto, esta dissertação propõe a criação de um novo método de acesso, que seja capaz de indexar de forma eficiente dados métricos, principalmente para conjuntos que contenham agrupamentos. Para atingir esse objetivo este trabalho também propõe um novo algoritmo para detecção de agrupamentos em dados métricos tornando mais eficiente a escolha do medoide de determinado conjunto de elementos. Os resultados dos experimentos mostram que os algoritmo propostos FAMES e M-FAMES podem ser utilizados para a detecção de agrupamentos em dados complexos e superam os algoritmos PAM, CLARA e CLARANS em eficácia e eficiência. Além disso, as consultas por similaridade realizadas com o método de acesso métrico proposto FAMESMAM mostraram ser especialmente apropriados para conjuntos de dados com agrupamentos / The success of Database Management System (DBMS) for applications with traditional data (numbers and short texts) has encouraged its use in new types of applications that require manipulation of complex data. Time series, scientific data and other multimedia data are examples of complex data. Several application fields, like medical informatics, have demanded solutions for managing complex data. Complex data can also be studied by means of Knowledge Discovery Techniques (KDD) applying appropriate clustering algorithms. However, these algorithms have high computational cost hindering their use in large data sets. The techniques already developed in the Databases research field for indexing metric spaces usually consider the sets have a uniform distribution, without taking into account the existence of clusters in the data, therefore the structures need to generalize the efficiency of queries for the entire set simultaneously. However the similarity searching is often limited to a specific region of the data set. In this context, this dissertation proposes a new access method able to index metric data efficiently, especially for sets containing clusters. It also proposes a new algorithm for clustering metric data so that selection of a medoid from a particular subset of elements becomes more efficient. The experimental results showed that the proposed algorithms FAMES and M-FAMES can be used as a clustering technique for complex data that outperform PAM, CLARA and CLARANS in effectiveness and efficiency. Moreover, the similarity searching performed with the proposed metric access method FAMESMAM proved to be especially appropriate to data sets with clusters
990

Impact of Cassandra Compaction on Dockerized Cassandra’s performance : Using Size Tiered Compaction Strategy

Mohanty, Biswajeet January 2016 (has links)
Context. Cassandra is a NoSQL Database which handles large amount of data simultaneously and provides high availability for the data present. Compaction in Cassandra is a process of removing stale data and making data more available to the user. This thesis focusses on analyzing the impact of Cassandra compaction on Cassandra’s performance when running inside a Docker container. Objectives. In this thesis, we investigate the impact of Cassandra compaction on the database performance when it is used within a Docker based container platform. We further fine tune Cassandra’s compaction settings to arrive at a sub-optimal scenario which maximizes its performance while operating within a Docker. Methods. Literature review is performed to enlist different compaction related metrics and compaction related parameters which have an effect on Cassandra’s performance. Further, Experiments are conducted using different sets of mixed workload to estimate the impact of compaction over database performance when used within a Docker. Once these experiments are conducted, we modify compaction settings while operating under a write heavy workload and access database performance in each of these scenarios to identify a sub-optimal value of parameter for maximum database performance. Finally, we use these sub-optimal parameters to perform an experiment and access the database performance. Results. The Cassandra and Operating System related parameters and metrics which affect the Cassandra compaction are listed and their effect on Cassandra’s performance has been tested using some experiments. Based on these experiments, few sub-optimum values are proposed for the listed metrics. Conclusions. It can be concluded that, for better performance of Dockerized Cassandra, the proposed values for each of the parameters in the results (i.e. 5120 for Memtable_heap_size_in_mb, 24 for concurrent_compactors, 16 for compaction_throughput_mb_per_sec, 6 for Memtable_flush_writers and 0.14 for Memtable_cleaup _threshold) can be chosen separately but not the union of those proposed values (confirmed from the experiment performed). Also the metrics and parameters affecting Cassandra performance are listed in this thesis.

Page generated in 0.0521 seconds