251 |
Critérios de seleção de sistemas de gerenciamento de banco de dados não relacionais em organizações privadas / Selection criteria of non-relational database management systems data in private organizationsSouza, Alexandre Morais de 31 October 2013 (has links)
Sistemas de Gerenciamento de Banco de Dados Não Relacionais (SGBDs NoSQL) são pacotes de software para gerenciamento de dados utilizando um modelo não relacional. Dado o atual contexto de crescimento na geração de dados e a necessidade que as organizações possuem em coletar grande quantidade de informações de clientes, pesquisas científicas, vendas e outras informações para análises futuras, é importante repensar a forma de se definir um SGBD adequado levando em consideração fatores econômicos, técnicos e estratégicos da organização. Esta é uma pesquisa relacionada com o estudo do novo modelo de gerenciamento de banco de dados, conhecido como NoSQL e traz como contribuição apresentar critérios de seleção para auxiliar consumidores de serviços de banco de dados, em organizações privadas, a selecionar um SGBD NoSQL. Para atender a este objetivo foi realizada revisão da literatura com levantamento bibliográfico sobre processo de seleção de software e de SGBDs, levantando critérios utilizados para este fim. Feito o levantamento bibliográfico, definiu-se o método de pesquisa como sendo a aplicação de um Painel Delphi, na modalidade ranking form. Por meio do painel foi possível determinar, após a realização de duas rodadas e participando um grupo de especialistas misto formado por gerentes, fornecedores de SGBD, acadêmicos, desenvolvedores e DBAs e DAs, os critérios mais relevantes para a escolha de um SGBD NoSQL, ordenados conforme pontuação obtida para cada critério. Os dados foram coletados por meio de questionário. A partir dos critérios identificados, foram feitas análises sobre os principais critérios de seleção de SGBDs NoSQL. Posteriormente, as conclusões e considerações finais contemplaram a análise dos resultados obtidos com o Painel Delphi. Como principal resultado alcançado, este estudo oferece uma visão realística acerca do modelo não relacional para gerenciamento de dados e apresenta os critérios mais importantes que indicam plausível a adoção de SGBDs NoSQL. / Database Management Systems Not Relational (NoSQL DBMSs) are software packages for data management using a non-relational model. Given the current context of growth in data generation and the need that organizations have to collect vast amount of customer information, scientific research, sales and other information for further analysis, it is important to rethink how to define a suitable DBMS considering economic, technical and strategic organization. This research is concerned with the study of the new management model database, known as NoSQL, and brings the present contribution selection criteria to assist service consumers Database, private organizations, to select a NoSQL DBMS. To satisfy this objective was reviewed the literature with bibliographic on software selection process and DBMSs, identifying criteria used for this purpose. After completion of the literature, was defined the search method with application of a Delphi panel, by the ranking form mode. Through the panel could be determined, after the completion of two rounds and attending a mixed group of experts formed by managers, DBMS vendors, academics, developers, DBAs and DAs, the most relevant criteria for choosing a NoSQL DBMS, ordered according score for each criteria. Data were collected through a survey. From the identified criteria, analyzes were made on the main selection criteria of NoSQL DBMSs. Subsequently, the conclusions and final considerations were made with analysis of the results obtained with the Delphi panel. The main result achieved, this study offers a realistic view about the non-relational model for managing data and presents the most important criteria that indicate plausible the adoption of NoSQL DBMSs.
|
252 |
Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop / Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no HadoopBrito, Jaqueline Joice 12 December 2017 (has links)
The era of Big Data is here: the combination of unprecedented amounts of data collected every day with the promotion of open source solutions for massively parallel processing has shifted the industry in the direction of data-driven solutions. From recommendation systems that help you find your next significant one to the dawn of self-driving cars, Cloud Computing has enabled companies of all sizes and areas to achieve their full potential with minimal overhead. In particular, the use of these technologies for Data Warehousing applications has decreased costs greatly and provided remarkable scalability, empowering business-oriented applications such as Online Analytical Processing (OLAP). One of the most essential primitives in Data Warehouses are the Star Joins, i.e. joins of a central table with satellite dimensions. As the volume of the database scales, Star Joins become unpractical and may seriously limit applications. In this thesis, we proposed specialized solutions to optimize the processing of Star Joins. To achieve this, we used the Hadoop software family on a cluster of 21 nodes. We showed that the primary bottleneck in the computation of Star Joins on Hadoop lies in the excessive disk spill and overhead due to network communication. To mitigate these negative effects, we proposed two solutions based on a combination of the Spark framework with either Bloom filters or the Broadcast technique. This reduced the computation time by at least 38%. Furthermore, we showed that the use of full scan may significantly hinder the performance of queries with low selectivity. Thus, we proposed a distributed Bitmap Join Index that can be processed as a secondary index with loose-binding and can be used with random access in the Hadoop Distributed File System (HDFS). We also implemented three versions (one in MapReduce and two in Spark) of our processing algorithm that uses the distributed index, which reduced the total computation time up to 88% for Star Joins with low selectivity from the Star Schema Benchmark (SSB). Because, ideally, the system should be able to perform both random access and full scan, our solution was designed to rely on a two-layer architecture that is framework-agnostic and enables the use of a query optimizer to select which approaches should be used as a function of the query. Due to the ubiquity of joins as primitive queries, our solutions are likely to fit a broad range of applications. Our contributions not only leverage the strengths of massively parallel frameworks but also exploit more efficient access methods to provide scalable and robust solutions to Star Joins with a significant drop in total computation time. / A era do Big Data chegou: a combinação entre o volume dados coletados diarimente com o surgimento de soluções de código aberto para o processamento massivo de dados mudou para sempre a indústria. De sistemas de recomendação que assistem às pessoas a encontrarem seus pares românticos à criação de carros auto-dirigidos, a Computação em Nuvem permitiu que empresas de todos os tamanhos e áreas alcançassem o seu pleno potencial com custos reduzidos. Em particular, o uso dessas tecnologias em aplicações de Data Warehousing reduziu custos e proporcionou alta escalabilidade para aplicações orientadas a negócios, como em processamento on-line analítico (Online Analytical Processing- OLAP). Junções Estrelas são das primitivas mais essenciais em Data Warehouses, ou seja, consultas que realizam a junções de tabelas de fato com tabelas de dimensões. Conforme o volume de dados aumenta, Junções Estrela tornam-se custosas e podem limitar o desempenho das aplicações. Nesta tese são propostas soluções especializadas para otimizar o processamento de Junções Estrela. Para isso, utilizamos a família de software Hadoop em um cluster de 21 nós. Nós mostramos que o gargalo primário na computação de Junções Estrelas no Hadoop reside no excesso de operações escrita do disco (disk spill) e na sobrecarga da rede devido a comunicação excessiva entre os nós. Para reduzir estes efeitos negativos, são propostas duas soluções em Spark baseadas nas técnicas Bloom filters ou Broadcast, reduzindo o tempo total de computação em pelo menos 38%. Além disso, mostramos que a realização de uma leitura completa das tables (full table scan) pode prejudicar significativamente o desempenho de consultas com baixa seletividade. Assim, nós propomos um Índice Bitmap de Junção distribuído que é implementado como um índice secundário que pode ser combinado com acesso aleatório no Hadoop Distributed File System (HDFS). Nós implementamos três versões (uma em MapReduce e duas em Spark) do nosso algoritmo de processamento baseado nesse índice distribuído, os quais reduziram o tempo de computação em até 77% para Junções Estrelas de baixa seletividade do Star Schema Benchmark (SSB). Como idealmente o sistema deve ser capaz de executar tanto acesso aleatório quanto full scan, nós também propusemos uma arquitetura genérica que permite a inserção de um otimizador de consultas capaz de selecionar quais abordagens devem ser usadas dependendo da consulta. Devido ao fato de consultas de junção serem frequentes, nossas soluções são pertinentes a uma ampla gama de aplicações. A contribuições desta tese não só fortalecem o uso de frameworks de processamento de código aberto, como também exploram métodos mais eficientes de acesso aos dados para promover uma melhora significativa no desempenho Junções Estrela.
|
253 |
Reportagem orientada pelo clique: audiência enquanto critério de seleção da notícia online / Reportagem orientada pelo clique: audiência enquanto critério de notícias onlineHatzigeorgiou, Ricardo Fotios 22 March 2018 (has links)
Submitted by Adriana Alves Rodrigues (aalves@espm.br) on 2018-10-11T13:56:04Z
No. of bitstreams: 1
MPPJM - RICARDO FOTIOS HATZIGEROGIOU.pdf: 89994916 bytes, checksum: 10eec05217008402d932b74a6a5896c0 (MD5) / Approved for entry into archive by Adriana Alves Rodrigues (aalves@espm.br) on 2018-10-11T13:56:34Z (GMT) No. of bitstreams: 1
MPPJM - RICARDO FOTIOS HATZIGEROGIOU.pdf: 89994916 bytes, checksum: 10eec05217008402d932b74a6a5896c0 (MD5) / Approved for entry into archive by Debora Cristina Bonfim Aquarone (deborabonfim@espm.br) on 2018-10-11T13:58:17Z (GMT) No. of bitstreams: 1
MPPJM - RICARDO FOTIOS HATZIGEROGIOU.pdf: 89994916 bytes, checksum: 10eec05217008402d932b74a6a5896c0 (MD5) / Made available in DSpace on 2018-10-11T13:58:29Z (GMT). No. of bitstreams: 1
MPPJM - RICARDO FOTIOS HATZIGEROGIOU.pdf: 89994916 bytes, checksum: 10eec05217008402d932b74a6a5896c0 (MD5)
Previous issue date: 2018-03-22 / The fragmentation of the production and consumption of news on the Internet triggers the
need for more and better processes to measure audience habits to guide the journalistic work.
This new skill in the professional routine – which emerges from the increase in “big data”
gathering and analyzes associated with the complexity of the publishing systems, also called
CMS (Content Management System) – allows the journalist to follow all stages of news
spreading in terms of quantity of accesses as well as public engagement. In this research,
called ROC (Portuguese acronym for Click-Oriented News Reporting), we sought to analyze
the impact that the knowledge of these consumption habits exerts on the deontology of
cyberjournalism, more specifically, on the selection of guidelines and highlights in editorial
homepages of websites and news portals. / A fragmentação da produção e do consumo de notícias na internet desencadeia a necessidade
de mais e melhores processos de aferição de métricas de audiência para balizar o trabalho
jornalístico. Essa nova competência na rotina profissional – que emerge da expansão dos
cruzamentos de dados em rede (big data) associada à complexificação dos sistemas
publicadores, chamados CMS (Content Management System) – permite ao jornalista
acompanhar a trajetória da circulação da produção informativa tanto em quantidade de
acessos quanto em engajamento do público. Nesta pesquisa, denominada Reportagem
Orientada pelo Clique (ROC), buscamos analisar o impacto que o conhecimento dos hábitos
de consumo exerce sobre a deontologia do ciberjornalismo, mais especificamente, na escolha
de pautas e na seleção de destaques nas homepages editoriais de sites e portais de notícias.
|
254 |
Estudos em softwares de monitoramento e mensuração: subsídios para a implementação de políticas públicas na área educacional / Studies from monitoring and measurement softwares: subsidies for implementation of public policies in the educational areaMengalli, Neli Maria 23 March 2018 (has links)
Submitted by Filipe dos Santos (fsantos@pucsp.br) on 2018-07-11T12:27:34Z
No. of bitstreams: 1
Neli Maria Mengalli.pdf: 4615029 bytes, checksum: f0448be5dd4b884a6551582299adf35b (MD5) / Made available in DSpace on 2018-07-11T12:27:34Z (GMT). No. of bitstreams: 1
Neli Maria Mengalli.pdf: 4615029 bytes, checksum: f0448be5dd4b884a6551582299adf35b (MD5)
Previous issue date: 2018-03-23 / The thesis evidences the investigation about how softwares that monitor and measure digital spaces can produce indicatives for public policies in the educational area. There are potential computational resources for the analysis of information extracted register from virtual spaces that are not always used to verify the implementation of government actions, projects and programs. Since the use is limited to press offices or sectors that work with digital media. The question is about the use the software that monitors, analyzes and measures social networks and digital media to utilize in prospective scenarios for public management in the area of education. The main aim is to study software that is developed to monitor and measure social media and digital spaces to be present in prospective scenarios. After knowing how they are structured and how they are customized. And then verified how such computer programs can be parameterized to offer data and information for the accomplishment of governmental policies. This research has been examined softwares which would provide reports that can be used by public managers in the educational area to make decisions in the implementation of projects or programs as well as to correct the flow of work whenever necessary. After the simulation of hypothetical situations and the studies done with software chosen it was found that they could to show the possibility of use in public policies in the educational area. In addition, it was realized that the data contained in the software reports were potential for use in strategic decision and that the cybersociety could be considered stakeholders for the change of public policies in the educational area. For the purpose of this research, five prospective scenarios were constructed using some of the software studied / A tese evidencia a investigação de como os softwares que monitoram e mensuram espaços digitais podem produzir indicadores para as políticas públicas na área educacional. Existem recursos computacionais potenciais para as análises de informações em registros extraídos de espaços virtuais que nem sempre são usados para verificar a implementação de ações, projetos e programas governamentais, visto que a utilização fica limitada a assessorias de imprensa ou setores que trabalham com mídias digitais. A questão feita refere-se ao uso de softwares que monitoram, que analisam e que mensuram redes sociais e mídias digitais para a utilização em cenários prospectivos para a gestão pública na área da educação. O objetivo maior é estudar softwares que são desenvolvidos para fazer o monitoramento e a mensuração em mídias sociais e espaços digitais para estar presente nos cenários prospectivos. Após conhecer como estão estruturados e como são customizados, verifica-se como tais programas computacionais podem ser parametrizados para oferecer dados e informações para a efetivação de políticas governamentais. Nesta investigação foram examinados softwares que forneceriam relatórios que podem ser usados por gestores públicos na área da educação para a tomada de decisão na implementação de projetos ou de programas, assim como corrigir o fluxo do trabalho sempre que necessário. Após a simulação de situações hipotéticas e os recortes de estudos feitos, averiguou-se que poderiam fornecer subsídios para a implementação de políticas públicas na área educacional. Além disso, verificou-se que os dados contidos nos relatórios dos softwares eram potenciais para uso nas tomadas de decisões estratégicas e que a cibersociedade pode ser considerada stakeholders para a mudança das políticas públicas na área educacional. Assim, foram construídos cinco cenários prospectivos usando alguns dos softwares estudados
|
255 |
Processos no jornalismo digital: do Big Data à visualização de dados / Processes in digital journalism: from Big Data to data visualizationEstevanim, Mayanna 16 September 2016 (has links)
A sociedade está cada vez mais digitalizada, dados em diferentes extensões são passíveis de serem armazenados e correlacionados, temos um volume, variedade e velocidade de dados humanamente imensuráveis sem o auxílio de computadores. Neste cenário, falamos de um jornalismo de dados que visa o entendimento de temas complexos de relevância social e que sintoniza a profissão com as novas necessidades de compreensão informativa contemporânea. O intuito desta dissertação é problematizar a visualização de dados no jornalismo brasileiro partindo exatamente do que é esta visualização de dados jornalísticos e diante dos apontamentos sobre seu conceito e prática questionar como proporciona diferenciais relevantes. Por relevantes entendemos pautas de interesse público, que envolvem maior criticidade, maior aprofundamento e contextualização dos conteúdos no Big Data. As iniciativas que reúnem imagens relacionadas a dados e metadados ocorrem nas práticas de mercado, laboratórios acadêmicos, assim como em mídias independentes. Neste sistema narrativo atuam diferentes atores humanos e não-humanos, em construções iniciadas em codificações maquínicas, com bases de dados que dialogam com outras camadas até chegar a uma interface com o usuário. Há a necessidade de novas expertises por parte dos profissionais, trabalhos em equipe e conhecimento básico, muitas vezes, em linguagem de programação, estatística e a operacionalização de ferramentas na construção de narrativas dinâmicas e que cada vez mais envolvam o leitor. Sendo importante o pensar sobre um conteúdo que seja disponível para diferentes formatos. Para o desenvolvimento da pesquisa foi adotada uma estratégia multimetodológica, tendo os pressupostos da centralidade da comunicação, que perpassa todas as atividades comunicativas e informativas de forma transversal, sejam elas analógicas ou não. Um olhar que requer resiliências diante das abordagens teórico-metodológicas para que as mesmas consigam abarcar e sustentar as reflexões referentes ao dinâmico campo de estudos. Para se fazer as proposições e interpretações adotou-se como base o paradigma Jornalismo Digital em Base de Dados, tendo as contribuições dos conceitos de formato (RAMOS, 2012 e MACHADO, 2003), de jornalismo pós-industrial (COSTA, 2014), sistema narrativo e antenarrativa (BERTOCCHI, 2013) como meios de amadurecimento da compreensão do objeto proposto. / Society is increasingly digitalized. Different scopes of data are likely to be stored and correlated, having volumes, variety and accumulating speeds humanly impossible to track and analyze without the aid of computers. In this scenario we explore the realm of data-driven journalism with its aim of helping us understand complex issues of social relevance and which integrates journalism with the new needs of contemporary informative understanding. The purpose of this paper is to discuss data visualization in Brazilian journalism, starting with what data visualization is and then, upon its concept and practical uses, determine how this view provides relevant advantages. By relevant advantages we mean matters of public interest with more critical, greater depth and context of content on Big Data. Initiatives that bring together images related to data and metadata occur on market practices, academic laboratories, as well as independent media. This narrative system is acted upon different human and nonhuman agents, whose structures are being built with machinic codifications, using databases that communicate with other layers until reaching a user interface. There is a need for new expertise from professionals, teamwork and basic knowledge, often in programming languages, statistics and operational tools to build dynamic narratives and increasingly involve the reader. It is important to think about content that is available to different formats. For this research we adopted a multi-methodological strategy and the assumptions of the centrality of communication that permeates all communication and informational activities across the board, whether analog or not. A view that requires resilience in the face of theoretical and methodological approaches, so that they are able to embrace and support the reflections for this dynamic field of study. To make propositions and interpretations, adopted based on the Database Digital Journalism paradigm, and the contributions of format concepts (RAMOS, 2012 and MACHADO, 2003), post-industrial journalism (COSTA, 2014), system narrative and antenarrative (BERTOCCHI, 2013) maturing as means of understanding the proposed object.
|
256 |
Fatores críticos de sucesso para ferramentas de Business Analytics. / Critical success factors of business analytics tools.Sayão, Cezar 15 September 2017 (has links)
Atualmente vivemos em uma sociedade com a maior quantidade de dados já disponíveis em toda a história, e ao mesmo tempo que ocorre o crescimento desta vasta quantidade de informações dispersas, os ambientes empresariais tornaram-se cada vez mais complexos e competitivos. Nos quais gestores necessitam detectar e, se possível, prever tendências para estruturar planos de ação através de análises simples e/ou, por vezes, extremamente complexas dos dados. Dessa forma, o potencial impacto nas organizações referentes à utilização dessas informações em sua gestão tem chamado a atenção tanto de executivos com de pesquisadores. Esta pesquisa buscou identificar os fatores de sucesso de sistemas de Business Analytics (BA) e avaliar empiricamente suas relações de causalidade, sendo utilizada a metodologia de pesquisa científica de Levantamento tipo Survey e a técnica estatística de Modelagem de Equações Estruturais. Além de contribuir com a expansão do conhecimento relacionado a área de Business Analytics, esta dissertação apresentou uma discussão e proposta de delimitação do conceito de BA frente demais termos relacionados a literatura de sistemas de suporte a decisão (i.e. BI, Big Data e Inteligência Competitiva) e a estruturação de uma ferramenta de mensuração de sucesso de SI de BA baseado no modelo apresentado por Delone e McLean. Após a delimitação do conceito de BA, foi discutido os fatores críticos de sucesso (FCS) presentes na literatura e suas particularidades frente a sistemas transacionais (e.g. Enterprise Resource Planning). Os quais foram estruturados em 3 dimensões e 4 construtos: Tecnologia (Qualidade dos dados), Cultura organizacional (Gestão Baseada em Fatos e Engajamento dos executivos) e Pessoas (Qualidade da Equipe). Nesta análise, a Cultura Organizacional apresentou a maior relevância no sucesso de SI (i.e. Uso da Informação e Impacto Individual) dentre as 3 dimensões. Como alta impacto tanto do engajamento dos executivos, como da Cultura organizacional de gestão baseada em fatos. / We have never lived in a society with such amount of data available where, at the same time of this dispersed information growth, managers and decision makers are facing the most challenging and competitive business environment they have ever seen. Being necessary to detect and, if it is possible, predict trends based on simple and/or complex data analysis in order to structure action plans. In this context, the potential impact of data based management on organizations has increased and have been drawing attention of scholars and executives. This research focused on identify critical success factors of Business Analytics (BA) systems and analyze their causal relationship. It was conducted by survey methodology and the statistical technique selected was structural equation modeling (Partial Least Square). Besides the contribution to the body of knowledge of Business Analytics field, this dissertation presents a theoretical discussion about BA definition, its relationship with order support decision systems terms often present on literature (i.e. Business Intelligence, Big Data and Competitive Intelligence), and a search tool for information system success based on DeLone and McLean model. The proposition of critical success factors of Business Analytics systems were based on a comprehensive literature review and were classified into 3 groups and 4 constructs: Technology (Data Quality), Organizational culture (Fact-based management and Executive engagement) and People (Team knowledge and skill). Organizational Culture showed more relevance on Business Analytics system success (i.e. Information Use and Individual Impact) them Technology and People, with high impact of both constructs (Fact-based management and Executive engagement).
|
257 |
Google matrix analysis of Wikipedia networksEl Zant, Samer 06 July 2018 (has links)
Cette thèse s’intéresse à l’analyse du réseau dirigé extrait de la structure des hyperliens de Wikipédia. Notre objectif est de mesurer les interactions liant un sous-ensemble de pages du réseau Wikipédia. Par conséquent, nous proposons de tirer parti d’une nouvelle représentation matricielle appelée matrice réduite de Google ou "reduced Google Matrix". Cette matrice réduite de Google (GR) est définie pour un sous-ensemble de pages donné (c-à-d un réseau réduit).Comme pour la matrice de Google standard, un composant de GR capture la probabilité que deux noeuds du réseau réduit soient directement connectés dans le réseau complet. Une des particularités de GR est l’existence d’un autre composant qui explique la probabilité d’avoir deux noeuds indirectement connectés à travers tous les chemins possibles du réseau entier. Dans cette thèse, les résultats de notre étude de cas nous montrent que GR offre une représentation fiable des liens directs et indirects (cachés). Nous montrons que l’analyse de GR est complémentaire à l’analyse de "PageRank" et peut être exploitée pour étudier l’influence d’une variation de lien sur le reste de la structure du réseau. Les études de cas sont basées sur des réseaux Wikipédia provenant de différentes éditions linguistiques. Les interactions entre plusieurs groupes d’intérêt ont été étudiées en détail : peintres, pays et groupes terroristes. Pour chaque étude, un réseau réduit a été construit. Les interactions directes et indirectes ont été analysées et confrontées à des faits historiques, géopolitiques ou scientifiques. Une analyse de sensibilité est réalisée afin de comprendre l’influence des liens dans chaque groupe sur d’autres noeuds (ex : les pays dans notre cas). Notre analyse montre qu’il est possible d’extraire des interactions précieuses entre les peintres, les pays et les groupes terroristes. On retrouve par exemple, dans le réseau de peintre sissu de GR, un regroupement des artistes par grand mouvement de l’histoire de la peinture. Les interactions bien connues entre les grands pays de l’UE ou dans le monde entier sont également soulignées/mentionnées dans nos résultats. De même, le réseau de groupes terroristes présente des liens pertinents en ligne avec leur idéologie ou leurs relations historiques ou géopolitiques.Nous concluons cette étude en montrant que l’analyse réduite de la matrice de Google est une nouvelle méthode d’analyse puissante pour les grands réseaux dirigés. Nous affirmons que cette approche pourra aussi bien s’appliquer à des données représentées sous la forme de graphes dynamiques. Cette approche offre de nouvelles possibilités permettant une analyse efficace des interactions d’un groupe de noeuds enfoui dans un grand réseau dirigé / This thesis concentrates on the analysis of the large directed network representation of Wikipedia.Wikipedia stores valuable fine-grained dependencies among articles by linking webpages togetherfor diverse types of interactions. Our focus is to capture fine-grained and realistic interactionsbetween a subset of webpages in this Wikipedia network. Therefore, we propose to leverage anovel Google matrix representation of the network called the reduced Google matrix. This reducedGoogle matrix (GR) is derived for the subset of webpages of interest (i.e. the reduced network). Asfor the regular Google matrix, one component of GR captures the probability of two nodes of thereduced network to be directly connected in the full network. But unique to GR, anothercomponent accounts for the probability of having both nodes indirectly connected through allpossible paths in the full network. In this thesis, we demonstrate with several case studies that GRoffers a reliable and meaningful representation of direct and indirect (hidden) links of the reducednetwork. We show that GR analysis is complementary to the well-known PageRank analysis andcan be leveraged to study the influence of a link variation on the rest of the network structure.Case studies are based on Wikipedia networks originating from different language editions.Interactions between several groups of interest are studied in details: painters, countries andterrorist groups. For each study, a reduced network is built, direct and indirect interactions areanalyzed and confronted to historical, geopolitical or scientific facts. A sensitivity analysis isconducted to understand the influence of the ties in each group on other nodes (e.g. countries inour case). From our analysis, we show that it is possible to extract valuable interactions betweenpainters, countries or terrorist groups. Network of painters with GR capture art historical fact sucha painting movement classification. Well-known interactions of countries between major EUcountries or worldwide are underlined as well in our results. Similarly, networks of terrorist groupsshow relevant ties in line with their objective or their historical or geopolitical relationships. Weconclude this study by showing that the reduced Google matrix analysis is a novel powerfulanalysis method for large directed networks. We argue that this approach can find as well usefulapplication for different types of datasets constituted by the exchange of dynamic content. Thisapproach offers new possibilities to analyze effective interactions in a group of nodes embedded ina large directed network.
|
258 |
Uma arquitetura de preservação a longo prazo de Big Data com gerenciamento de elasticidade em nuvem. / An architecture for long term preservation of Big Data with elasticity management in the cloud.Viana, Phillip Luiz 13 June 2018 (has links)
Com o crescimento exponencial do volume de dados estruturados e não estruturados (Big Data) em sistemas de armazenamento corporativos, aliado à também crescente demanda por preservação de tais dados devido a regulamentações e auditorias, surge o problema da preservação a longo prazo de Big Data, e mais especificamente o de como estender sistemas existentes ao longo do tempo. Pesquisas recentes contemplam arquiteturas de preservação de dados estruturados ou de arquivamento a curto prazo de Big Data, porém carecem de um modelo para arquiteturas que suportem a preservação a longo prazo de Big Data com elasticidade. Na presente tese, propõe-se uma arquitetura para o arquivamento, preservação a longo prazo e recuperação de Big Data com elasticidade. Um método de criação de arquiteturas de referência foi seguido e obteve-se como resultado uma arquitetura de preservação a longo prazo que é reprodutível e capaz de adaptar-se a uma demanda crescente, recebendo Big Data de fontes heterogêneas continuamente. A arquitetura é compatível com computação em nuvem e foi testada com diversas mídias de armazenamento, como mídias magnéticas, nuvem e de estado sólido. É feito também um comparativo entre a arquitetura desenvolvida e outras arquiteturas disponíveis. / With the exponential growth in the volume of structured and unstructured data (Big Data) in enterprise storage systems, along with the also increasing demand for preservation of such data due to regulations and audits, there arises the problem of long-term preservation of Big Data, and more specifically of how to extend existing systems with time. Recent research projects encompass architectures for the preservation of structured data or short term archiving of Big Data, however they lack a model for architectures that support long-term preservation of Big Data with elasticity. In the present thesis, we propose an architecture for the archiving, longterm preservation and retrieval of Big Data with elasticity. A method for creating reference architectures was followed and as a result a reproducible long-term preservation architecture was obtained, which is capable of adapting to a growing demand receiving Big Data continuously. The architecture is compatible with cloud computing and was tested against several storage media, such as magnetic media, cloud and solid state. A comparison between the architecture and other available architectures is also provided. g Data. Unstructured data. Elasticity.
|
259 |
Critérios de seleção de sistemas de gerenciamento de banco de dados não relacionais em organizações privadas / Selection criteria of non-relational database management systems data in private organizationsAlexandre Morais de Souza 31 October 2013 (has links)
Sistemas de Gerenciamento de Banco de Dados Não Relacionais (SGBDs NoSQL) são pacotes de software para gerenciamento de dados utilizando um modelo não relacional. Dado o atual contexto de crescimento na geração de dados e a necessidade que as organizações possuem em coletar grande quantidade de informações de clientes, pesquisas científicas, vendas e outras informações para análises futuras, é importante repensar a forma de se definir um SGBD adequado levando em consideração fatores econômicos, técnicos e estratégicos da organização. Esta é uma pesquisa relacionada com o estudo do novo modelo de gerenciamento de banco de dados, conhecido como NoSQL e traz como contribuição apresentar critérios de seleção para auxiliar consumidores de serviços de banco de dados, em organizações privadas, a selecionar um SGBD NoSQL. Para atender a este objetivo foi realizada revisão da literatura com levantamento bibliográfico sobre processo de seleção de software e de SGBDs, levantando critérios utilizados para este fim. Feito o levantamento bibliográfico, definiu-se o método de pesquisa como sendo a aplicação de um Painel Delphi, na modalidade ranking form. Por meio do painel foi possível determinar, após a realização de duas rodadas e participando um grupo de especialistas misto formado por gerentes, fornecedores de SGBD, acadêmicos, desenvolvedores e DBAs e DAs, os critérios mais relevantes para a escolha de um SGBD NoSQL, ordenados conforme pontuação obtida para cada critério. Os dados foram coletados por meio de questionário. A partir dos critérios identificados, foram feitas análises sobre os principais critérios de seleção de SGBDs NoSQL. Posteriormente, as conclusões e considerações finais contemplaram a análise dos resultados obtidos com o Painel Delphi. Como principal resultado alcançado, este estudo oferece uma visão realística acerca do modelo não relacional para gerenciamento de dados e apresenta os critérios mais importantes que indicam plausível a adoção de SGBDs NoSQL. / Database Management Systems Not Relational (NoSQL DBMSs) are software packages for data management using a non-relational model. Given the current context of growth in data generation and the need that organizations have to collect vast amount of customer information, scientific research, sales and other information for further analysis, it is important to rethink how to define a suitable DBMS considering economic, technical and strategic organization. This research is concerned with the study of the new management model database, known as NoSQL, and brings the present contribution selection criteria to assist service consumers Database, private organizations, to select a NoSQL DBMS. To satisfy this objective was reviewed the literature with bibliographic on software selection process and DBMSs, identifying criteria used for this purpose. After completion of the literature, was defined the search method with application of a Delphi panel, by the ranking form mode. Through the panel could be determined, after the completion of two rounds and attending a mixed group of experts formed by managers, DBMS vendors, academics, developers, DBAs and DAs, the most relevant criteria for choosing a NoSQL DBMS, ordered according score for each criteria. Data were collected through a survey. From the identified criteria, analyzes were made on the main selection criteria of NoSQL DBMSs. Subsequently, the conclusions and final considerations were made with analysis of the results obtained with the Delphi panel. The main result achieved, this study offers a realistic view about the non-relational model for managing data and presents the most important criteria that indicate plausible the adoption of NoSQL DBMSs.
|
260 |
Uma arquitetura de preservação a longo prazo de Big Data com gerenciamento de elasticidade em nuvem. / An architecture for long term preservation of Big Data with elasticity management in the cloud.Phillip Luiz Viana 13 June 2018 (has links)
Com o crescimento exponencial do volume de dados estruturados e não estruturados (Big Data) em sistemas de armazenamento corporativos, aliado à também crescente demanda por preservação de tais dados devido a regulamentações e auditorias, surge o problema da preservação a longo prazo de Big Data, e mais especificamente o de como estender sistemas existentes ao longo do tempo. Pesquisas recentes contemplam arquiteturas de preservação de dados estruturados ou de arquivamento a curto prazo de Big Data, porém carecem de um modelo para arquiteturas que suportem a preservação a longo prazo de Big Data com elasticidade. Na presente tese, propõe-se uma arquitetura para o arquivamento, preservação a longo prazo e recuperação de Big Data com elasticidade. Um método de criação de arquiteturas de referência foi seguido e obteve-se como resultado uma arquitetura de preservação a longo prazo que é reprodutível e capaz de adaptar-se a uma demanda crescente, recebendo Big Data de fontes heterogêneas continuamente. A arquitetura é compatível com computação em nuvem e foi testada com diversas mídias de armazenamento, como mídias magnéticas, nuvem e de estado sólido. É feito também um comparativo entre a arquitetura desenvolvida e outras arquiteturas disponíveis. / With the exponential growth in the volume of structured and unstructured data (Big Data) in enterprise storage systems, along with the also increasing demand for preservation of such data due to regulations and audits, there arises the problem of long-term preservation of Big Data, and more specifically of how to extend existing systems with time. Recent research projects encompass architectures for the preservation of structured data or short term archiving of Big Data, however they lack a model for architectures that support long-term preservation of Big Data with elasticity. In the present thesis, we propose an architecture for the archiving, longterm preservation and retrieval of Big Data with elasticity. A method for creating reference architectures was followed and as a result a reproducible long-term preservation architecture was obtained, which is capable of adapting to a growing demand receiving Big Data continuously. The architecture is compatible with cloud computing and was tested against several storage media, such as magnetic media, cloud and solid state. A comparison between the architecture and other available architectures is also provided. g Data. Unstructured data. Elasticity.
|
Page generated in 0.0908 seconds