Global ETD Search

251	Reportagem orientada pelo clique: audiência enquanto critério de seleção da notícia online / Reportagem orientada pelo clique: audiência enquanto critério de notícias online Hatzigeorgiou, Ricardo Fotios 22 March 2018 (has links) Submitted by Adriana Alves Rodrigues (aalves@espm.br) on 2018-10-11T13:56:04Z No. of bitstreams: 1 MPPJM - RICARDO FOTIOS HATZIGEROGIOU.pdf: 89994916 bytes, checksum: 10eec05217008402d932b74a6a5896c0 (MD5) / Approved for entry into archive by Adriana Alves Rodrigues (aalves@espm.br) on 2018-10-11T13:56:34Z (GMT) No. of bitstreams: 1 MPPJM - RICARDO FOTIOS HATZIGEROGIOU.pdf: 89994916 bytes, checksum: 10eec05217008402d932b74a6a5896c0 (MD5) / Approved for entry into archive by Debora Cristina Bonfim Aquarone (deborabonfim@espm.br) on 2018-10-11T13:58:17Z (GMT) No. of bitstreams: 1 MPPJM - RICARDO FOTIOS HATZIGEROGIOU.pdf: 89994916 bytes, checksum: 10eec05217008402d932b74a6a5896c0 (MD5) / Made available in DSpace on 2018-10-11T13:58:29Z (GMT). No. of bitstreams: 1 MPPJM - RICARDO FOTIOS HATZIGEROGIOU.pdf: 89994916 bytes, checksum: 10eec05217008402d932b74a6a5896c0 (MD5) Previous issue date: 2018-03-22 / The fragmentation of the production and consumption of news on the Internet triggers the need for more and better processes to measure audience habits to guide the journalistic work. This new skill in the professional routine – which emerges from the increase in “big data” gathering and analyzes associated with the complexity of the publishing systems, also called CMS (Content Management System) – allows the journalist to follow all stages of news spreading in terms of quantity of accesses as well as public engagement. In this research, called ROC (Portuguese acronym for Click-Oriented News Reporting), we sought to analyze the impact that the knowledge of these consumption habits exerts on the deontology of cyberjournalism, more specifically, on the selection of guidelines and highlights in editorial homepages of websites and news portals. / A fragmentação da produção e do consumo de notícias na internet desencadeia a necessidade de mais e melhores processos de aferição de métricas de audiência para balizar o trabalho jornalístico. Essa nova competência na rotina profissional – que emerge da expansão dos cruzamentos de dados em rede (big data) associada à complexificação dos sistemas publicadores, chamados CMS (Content Management System) – permite ao jornalista acompanhar a trajetória da circulação da produção informativa tanto em quantidade de acessos quanto em engajamento do público. Nesta pesquisa, denominada Reportagem Orientada pelo Clique (ROC), buscamos analisar o impacto que o conhecimento dos hábitos de consumo exerce sobre a deontologia do ciberjornalismo, mais especificamente, na escolha de pautas e na seleção de destaques nas homepages editoriais de sites e portais de notícias. CIENCIAS SOCIAIS APLICADAS::COMUNICACAO
252	Estudos em softwares de monitoramento e mensuração: subsídios para a implementação de políticas públicas na área educacional / Studies from monitoring and measurement softwares: subsidies for implementation of public policies in the educational area Mengalli, Neli Maria 23 March 2018 (has links) Submitted by Filipe dos Santos (fsantos@pucsp.br) on 2018-07-11T12:27:34Z No. of bitstreams: 1 Neli Maria Mengalli.pdf: 4615029 bytes, checksum: f0448be5dd4b884a6551582299adf35b (MD5) / Made available in DSpace on 2018-07-11T12:27:34Z (GMT). No. of bitstreams: 1 Neli Maria Mengalli.pdf: 4615029 bytes, checksum: f0448be5dd4b884a6551582299adf35b (MD5) Previous issue date: 2018-03-23 / The thesis evidences the investigation about how softwares that monitor and measure digital spaces can produce indicatives for public policies in the educational area. There are potential computational resources for the analysis of information extracted register from virtual spaces that are not always used to verify the implementation of government actions, projects and programs. Since the use is limited to press offices or sectors that work with digital media. The question is about the use the software that monitors, analyzes and measures social networks and digital media to utilize in prospective scenarios for public management in the area of education. The main aim is to study software that is developed to monitor and measure social media and digital spaces to be present in prospective scenarios. After knowing how they are structured and how they are customized. And then verified how such computer programs can be parameterized to offer data and information for the accomplishment of governmental policies. This research has been examined softwares which would provide reports that can be used by public managers in the educational area to make decisions in the implementation of projects or programs as well as to correct the flow of work whenever necessary. After the simulation of hypothetical situations and the studies done with software chosen it was found that they could to show the possibility of use in public policies in the educational area. In addition, it was realized that the data contained in the software reports were potential for use in strategic decision and that the cybersociety could be considered stakeholders for the change of public policies in the educational area. For the purpose of this research, five prospective scenarios were constructed using some of the software studied / A tese evidencia a investigação de como os softwares que monitoram e mensuram espaços digitais podem produzir indicadores para as políticas públicas na área educacional. Existem recursos computacionais potenciais para as análises de informações em registros extraídos de espaços virtuais que nem sempre são usados para verificar a implementação de ações, projetos e programas governamentais, visto que a utilização fica limitada a assessorias de imprensa ou setores que trabalham com mídias digitais. A questão feita refere-se ao uso de softwares que monitoram, que analisam e que mensuram redes sociais e mídias digitais para a utilização em cenários prospectivos para a gestão pública na área da educação. O objetivo maior é estudar softwares que são desenvolvidos para fazer o monitoramento e a mensuração em mídias sociais e espaços digitais para estar presente nos cenários prospectivos. Após conhecer como estão estruturados e como são customizados, verifica-se como tais programas computacionais podem ser parametrizados para oferecer dados e informações para a efetivação de políticas governamentais. Nesta investigação foram examinados softwares que forneceriam relatórios que podem ser usados por gestores públicos na área da educação para a tomada de decisão na implementação de projetos ou de programas, assim como corrigir o fluxo do trabalho sempre que necessário. Após a simulação de situações hipotéticas e os recortes de estudos feitos, averiguou-se que poderiam fornecer subsídios para a implementação de políticas públicas na área educacional. Além disso, verificou-se que os dados contidos nos relatórios dos softwares eram potenciais para uso nas tomadas de decisões estratégicas e que a cibersociedade pode ser considerada stakeholders para a mudança das políticas públicas na área educacional. Assim, foram construídos cinco cenários prospectivos usando alguns dos softwares estudados Software educacional Tecnologia educacional Big data Educational software Educational technology Big data
253	Processos no jornalismo digital: do Big Data à visualização de dados / Processes in digital journalism: from Big Data to data visualization Estevanim, Mayanna 16 September 2016 (has links) A sociedade está cada vez mais digitalizada, dados em diferentes extensões são passíveis de serem armazenados e correlacionados, temos um volume, variedade e velocidade de dados humanamente imensuráveis sem o auxílio de computadores. Neste cenário, falamos de um jornalismo de dados que visa o entendimento de temas complexos de relevância social e que sintoniza a profissão com as novas necessidades de compreensão informativa contemporânea. O intuito desta dissertação é problematizar a visualização de dados no jornalismo brasileiro partindo exatamente do que é esta visualização de dados jornalísticos e diante dos apontamentos sobre seu conceito e prática questionar como proporciona diferenciais relevantes. Por relevantes entendemos pautas de interesse público, que envolvem maior criticidade, maior aprofundamento e contextualização dos conteúdos no Big Data. As iniciativas que reúnem imagens relacionadas a dados e metadados ocorrem nas práticas de mercado, laboratórios acadêmicos, assim como em mídias independentes. Neste sistema narrativo atuam diferentes atores humanos e não-humanos, em construções iniciadas em codificações maquínicas, com bases de dados que dialogam com outras camadas até chegar a uma interface com o usuário. Há a necessidade de novas expertises por parte dos profissionais, trabalhos em equipe e conhecimento básico, muitas vezes, em linguagem de programação, estatística e a operacionalização de ferramentas na construção de narrativas dinâmicas e que cada vez mais envolvam o leitor. Sendo importante o pensar sobre um conteúdo que seja disponível para diferentes formatos. Para o desenvolvimento da pesquisa foi adotada uma estratégia multimetodológica, tendo os pressupostos da centralidade da comunicação, que perpassa todas as atividades comunicativas e informativas de forma transversal, sejam elas analógicas ou não. Um olhar que requer resiliências diante das abordagens teórico-metodológicas para que as mesmas consigam abarcar e sustentar as reflexões referentes ao dinâmico campo de estudos. Para se fazer as proposições e interpretações adotou-se como base o paradigma Jornalismo Digital em Base de Dados, tendo as contribuições dos conceitos de formato (RAMOS, 2012 e MACHADO, 2003), de jornalismo pós-industrial (COSTA, 2014), sistema narrativo e antenarrativa (BERTOCCHI, 2013) como meios de amadurecimento da compreensão do objeto proposto. / Society is increasingly digitalized. Different scopes of data are likely to be stored and correlated, having volumes, variety and accumulating speeds humanly impossible to track and analyze without the aid of computers. In this scenario we explore the realm of data-driven journalism with its aim of helping us understand complex issues of social relevance and which integrates journalism with the new needs of contemporary informative understanding. The purpose of this paper is to discuss data visualization in Brazilian journalism, starting with what data visualization is and then, upon its concept and practical uses, determine how this view provides relevant advantages. By relevant advantages we mean matters of public interest with more critical, greater depth and context of content on Big Data. Initiatives that bring together images related to data and metadata occur on market practices, academic laboratories, as well as independent media. This narrative system is acted upon different human and nonhuman agents, whose structures are being built with machinic codifications, using databases that communicate with other layers until reaching a user interface. There is a need for new expertise from professionals, teamwork and basic knowledge, often in programming languages, statistics and operational tools to build dynamic narratives and increasingly involve the reader. It is important to think about content that is available to different formats. For this research we adopted a multi-methodological strategy and the assumptions of the centrality of communication that permeates all communication and informational activities across the board, whether analog or not. A view that requires resilience in the face of theoretical and methodological approaches, so that they are able to embrace and support the reflections for this dynamic field of study. To make propositions and interpretations, adopted based on the Database Digital Journalism paradigm, and the contributions of format concepts (RAMOS, 2012 and MACHADO, 2003), post-industrial journalism (COSTA, 2014), system narrative and antenarrative (BERTOCCHI, 2013) maturing as means of understanding the proposed object. Big Data Big Data Brazilian journalism data visualization datadriven journalism jornalismo brasileiro jornalismo de dados narrative system sistema narrativo visualização de dados
254	Fatores críticos de sucesso para ferramentas de Business Analytics. / Critical success factors of business analytics tools. Sayão, Cezar 15 September 2017 (has links) Atualmente vivemos em uma sociedade com a maior quantidade de dados já disponíveis em toda a história, e ao mesmo tempo que ocorre o crescimento desta vasta quantidade de informações dispersas, os ambientes empresariais tornaram-se cada vez mais complexos e competitivos. Nos quais gestores necessitam detectar e, se possível, prever tendências para estruturar planos de ação através de análises simples e/ou, por vezes, extremamente complexas dos dados. Dessa forma, o potencial impacto nas organizações referentes à utilização dessas informações em sua gestão tem chamado a atenção tanto de executivos com de pesquisadores. Esta pesquisa buscou identificar os fatores de sucesso de sistemas de Business Analytics (BA) e avaliar empiricamente suas relações de causalidade, sendo utilizada a metodologia de pesquisa científica de Levantamento tipo Survey e a técnica estatística de Modelagem de Equações Estruturais. Além de contribuir com a expansão do conhecimento relacionado a área de Business Analytics, esta dissertação apresentou uma discussão e proposta de delimitação do conceito de BA frente demais termos relacionados a literatura de sistemas de suporte a decisão (i.e. BI, Big Data e Inteligência Competitiva) e a estruturação de uma ferramenta de mensuração de sucesso de SI de BA baseado no modelo apresentado por Delone e McLean. Após a delimitação do conceito de BA, foi discutido os fatores críticos de sucesso (FCS) presentes na literatura e suas particularidades frente a sistemas transacionais (e.g. Enterprise Resource Planning). Os quais foram estruturados em 3 dimensões e 4 construtos: Tecnologia (Qualidade dos dados), Cultura organizacional (Gestão Baseada em Fatos e Engajamento dos executivos) e Pessoas (Qualidade da Equipe). Nesta análise, a Cultura Organizacional apresentou a maior relevância no sucesso de SI (i.e. Uso da Informação e Impacto Individual) dentre as 3 dimensões. Como alta impacto tanto do engajamento dos executivos, como da Cultura organizacional de gestão baseada em fatos. / We have never lived in a society with such amount of data available where, at the same time of this dispersed information growth, managers and decision makers are facing the most challenging and competitive business environment they have ever seen. Being necessary to detect and, if it is possible, predict trends based on simple and/or complex data analysis in order to structure action plans. In this context, the potential impact of data based management on organizations has increased and have been drawing attention of scholars and executives. This research focused on identify critical success factors of Business Analytics (BA) systems and analyze their causal relationship. It was conducted by survey methodology and the statistical technique selected was structural equation modeling (Partial Least Square). Besides the contribution to the body of knowledge of Business Analytics field, this dissertation presents a theoretical discussion about BA definition, its relationship with order support decision systems terms often present on literature (i.e. Business Intelligence, Big Data and Competitive Intelligence), and a search tool for information system success based on DeLone and McLean model. The proposition of critical success factors of Business Analytics systems were based on a comprehensive literature review and were classified into 3 groups and 4 constructs: Technology (Data Quality), Organizational culture (Fact-based management and Executive engagement) and People (Team knowledge and skill). Organizational Culture showed more relevance on Business Analytics system success (i.e. Information Use and Individual Impact) them Technology and People, with high impact of both constructs (Fact-based management and Executive engagement). Big data Big data Business analytics Business intelligence Decision making process Modelagem de equações estruturais Structural equation modeling Tomada de decisão
255	Google matrix analysis of Wikipedia networks El Zant, Samer 06 July 2018 (has links) Cette thèse s’intéresse à l’analyse du réseau dirigé extrait de la structure des hyperliens de Wikipédia. Notre objectif est de mesurer les interactions liant un sous-ensemble de pages du réseau Wikipédia. Par conséquent, nous proposons de tirer parti d’une nouvelle représentation matricielle appelée matrice réduite de Google ou "reduced Google Matrix". Cette matrice réduite de Google (GR) est définie pour un sous-ensemble de pages donné (c-à-d un réseau réduit).Comme pour la matrice de Google standard, un composant de GR capture la probabilité que deux noeuds du réseau réduit soient directement connectés dans le réseau complet. Une des particularités de GR est l’existence d’un autre composant qui explique la probabilité d’avoir deux noeuds indirectement connectés à travers tous les chemins possibles du réseau entier. Dans cette thèse, les résultats de notre étude de cas nous montrent que GR offre une représentation fiable des liens directs et indirects (cachés). Nous montrons que l’analyse de GR est complémentaire à l’analyse de "PageRank" et peut être exploitée pour étudier l’influence d’une variation de lien sur le reste de la structure du réseau. Les études de cas sont basées sur des réseaux Wikipédia provenant de différentes éditions linguistiques. Les interactions entre plusieurs groupes d’intérêt ont été étudiées en détail : peintres, pays et groupes terroristes. Pour chaque étude, un réseau réduit a été construit. Les interactions directes et indirectes ont été analysées et confrontées à des faits historiques, géopolitiques ou scientifiques. Une analyse de sensibilité est réalisée afin de comprendre l’influence des liens dans chaque groupe sur d’autres noeuds (ex : les pays dans notre cas). Notre analyse montre qu’il est possible d’extraire des interactions précieuses entre les peintres, les pays et les groupes terroristes. On retrouve par exemple, dans le réseau de peintre sissu de GR, un regroupement des artistes par grand mouvement de l’histoire de la peinture. Les interactions bien connues entre les grands pays de l’UE ou dans le monde entier sont également soulignées/mentionnées dans nos résultats. De même, le réseau de groupes terroristes présente des liens pertinents en ligne avec leur idéologie ou leurs relations historiques ou géopolitiques.Nous concluons cette étude en montrant que l’analyse réduite de la matrice de Google est une nouvelle méthode d’analyse puissante pour les grands réseaux dirigés. Nous affirmons que cette approche pourra aussi bien s’appliquer à des données représentées sous la forme de graphes dynamiques. Cette approche offre de nouvelles possibilités permettant une analyse efficace des interactions d’un groupe de noeuds enfoui dans un grand réseau dirigé / This thesis concentrates on the analysis of the large directed network representation of Wikipedia.Wikipedia stores valuable fine-grained dependencies among articles by linking webpages togetherfor diverse types of interactions. Our focus is to capture fine-grained and realistic interactionsbetween a subset of webpages in this Wikipedia network. Therefore, we propose to leverage anovel Google matrix representation of the network called the reduced Google matrix. This reducedGoogle matrix (GR) is derived for the subset of webpages of interest (i.e. the reduced network). Asfor the regular Google matrix, one component of GR captures the probability of two nodes of thereduced network to be directly connected in the full network. But unique to GR, anothercomponent accounts for the probability of having both nodes indirectly connected through allpossible paths in the full network. In this thesis, we demonstrate with several case studies that GRoffers a reliable and meaningful representation of direct and indirect (hidden) links of the reducednetwork. We show that GR analysis is complementary to the well-known PageRank analysis andcan be leveraged to study the influence of a link variation on the rest of the network structure.Case studies are based on Wikipedia networks originating from different language editions.Interactions between several groups of interest are studied in details: painters, countries andterrorist groups. For each study, a reduced network is built, direct and indirect interactions areanalyzed and confronted to historical, geopolitical or scientific facts. A sensitivity analysis isconducted to understand the influence of the ties in each group on other nodes (e.g. countries inour case). From our analysis, we show that it is possible to extract valuable interactions betweenpainters, countries or terrorist groups. Network of painters with GR capture art historical fact sucha painting movement classification. Well-known interactions of countries between major EUcountries or worldwide are underlined as well in our results. Similarly, networks of terrorist groupsshow relevant ties in line with their objective or their historical or geopolitical relationships. Weconclude this study by showing that the reduced Google matrix analysis is a novel powerfulanalysis method for large directed networks. We argue that this approach can find as well usefulapplication for different types of datasets constituted by the exchange of dynamic content. Thisapproach offers new possibilities to analyze effective interactions in a group of nodes embedded ina large directed network. Big Data Matrice de Google Analyse de réseau Chaine de Markov PageRank Wikipédia Big Data Google matrix Network analysis Markov chain PageRank Wikipedia
256	Uma arquitetura de preservação a longo prazo de Big Data com gerenciamento de elasticidade em nuvem. / An architecture for long term preservation of Big Data with elasticity management in the cloud. Viana, Phillip Luiz 13 June 2018 (has links) Com o crescimento exponencial do volume de dados estruturados e não estruturados (Big Data) em sistemas de armazenamento corporativos, aliado à também crescente demanda por preservação de tais dados devido a regulamentações e auditorias, surge o problema da preservação a longo prazo de Big Data, e mais especificamente o de como estender sistemas existentes ao longo do tempo. Pesquisas recentes contemplam arquiteturas de preservação de dados estruturados ou de arquivamento a curto prazo de Big Data, porém carecem de um modelo para arquiteturas que suportem a preservação a longo prazo de Big Data com elasticidade. Na presente tese, propõe-se uma arquitetura para o arquivamento, preservação a longo prazo e recuperação de Big Data com elasticidade. Um método de criação de arquiteturas de referência foi seguido e obteve-se como resultado uma arquitetura de preservação a longo prazo que é reprodutível e capaz de adaptar-se a uma demanda crescente, recebendo Big Data de fontes heterogêneas continuamente. A arquitetura é compatível com computação em nuvem e foi testada com diversas mídias de armazenamento, como mídias magnéticas, nuvem e de estado sólido. É feito também um comparativo entre a arquitetura desenvolvida e outras arquiteturas disponíveis. / With the exponential growth in the volume of structured and unstructured data (Big Data) in enterprise storage systems, along with the also increasing demand for preservation of such data due to regulations and audits, there arises the problem of long-term preservation of Big Data, and more specifically of how to extend existing systems with time. Recent research projects encompass architectures for the preservation of structured data or short term archiving of Big Data, however they lack a model for architectures that support long-term preservation of Big Data with elasticity. In the present thesis, we propose an architecture for the archiving, longterm preservation and retrieval of Big Data with elasticity. A method for creating reference architectures was followed and as a result a reproducible long-term preservation architecture was obtained, which is capable of adapting to a growing demand receiving Big Data continuously. The architecture is compatible with cloud computing and was tested against several storage media, such as magnetic media, cloud and solid state. A comparison between the architecture and other available architectures is also provided. g Data. Unstructured data. Elasticity. Big Data Big Data Cloud computing Computação em nuvem Computer architecture and organization Digital preservation Preservação digital
257	Critérios de seleção de sistemas de gerenciamento de banco de dados não relacionais em organizações privadas / Selection criteria of non-relational database management systems data in private organizations Alexandre Morais de Souza 31 October 2013 (has links) Sistemas de Gerenciamento de Banco de Dados Não Relacionais (SGBDs NoSQL) são pacotes de software para gerenciamento de dados utilizando um modelo não relacional. Dado o atual contexto de crescimento na geração de dados e a necessidade que as organizações possuem em coletar grande quantidade de informações de clientes, pesquisas científicas, vendas e outras informações para análises futuras, é importante repensar a forma de se definir um SGBD adequado levando em consideração fatores econômicos, técnicos e estratégicos da organização. Esta é uma pesquisa relacionada com o estudo do novo modelo de gerenciamento de banco de dados, conhecido como NoSQL e traz como contribuição apresentar critérios de seleção para auxiliar consumidores de serviços de banco de dados, em organizações privadas, a selecionar um SGBD NoSQL. Para atender a este objetivo foi realizada revisão da literatura com levantamento bibliográfico sobre processo de seleção de software e de SGBDs, levantando critérios utilizados para este fim. Feito o levantamento bibliográfico, definiu-se o método de pesquisa como sendo a aplicação de um Painel Delphi, na modalidade ranking form. Por meio do painel foi possível determinar, após a realização de duas rodadas e participando um grupo de especialistas misto formado por gerentes, fornecedores de SGBD, acadêmicos, desenvolvedores e DBAs e DAs, os critérios mais relevantes para a escolha de um SGBD NoSQL, ordenados conforme pontuação obtida para cada critério. Os dados foram coletados por meio de questionário. A partir dos critérios identificados, foram feitas análises sobre os principais critérios de seleção de SGBDs NoSQL. Posteriormente, as conclusões e considerações finais contemplaram a análise dos resultados obtidos com o Painel Delphi. Como principal resultado alcançado, este estudo oferece uma visão realística acerca do modelo não relacional para gerenciamento de dados e apresenta os critérios mais importantes que indicam plausível a adoção de SGBDs NoSQL. / Database Management Systems Not Relational (NoSQL DBMSs) are software packages for data management using a non-relational model. Given the current context of growth in data generation and the need that organizations have to collect vast amount of customer information, scientific research, sales and other information for further analysis, it is important to rethink how to define a suitable DBMS considering economic, technical and strategic organization. This research is concerned with the study of the new management model database, known as NoSQL, and brings the present contribution selection criteria to assist service consumers Database, private organizations, to select a NoSQL DBMS. To satisfy this objective was reviewed the literature with bibliographic on software selection process and DBMSs, identifying criteria used for this purpose. After completion of the literature, was defined the search method with application of a Delphi panel, by the ranking form mode. Through the panel could be determined, after the completion of two rounds and attending a mixed group of experts formed by managers, DBMS vendors, academics, developers, DBAs and DAs, the most relevant criteria for choosing a NoSQL DBMS, ordered according score for each criteria. Data were collected through a survey. From the identified criteria, analyzes were made on the main selection criteria of NoSQL DBMSs. Subsequently, the conclusions and final considerations were made with analysis of the results obtained with the Delphi panel. The main result achieved, this study offers a realistic view about the non-relational model for managing data and presents the most important criteria that indicate plausible the adoption of NoSQL DBMSs. Banco de dados Big data SGBDs NoSQL Técnica delphi Tecnologia da informação Big data Database Delphi technique Information technology NoSQL DBMSs
258	Uma arquitetura de preservação a longo prazo de Big Data com gerenciamento de elasticidade em nuvem. / An architecture for long term preservation of Big Data with elasticity management in the cloud. Phillip Luiz Viana 13 June 2018 (has links) Com o crescimento exponencial do volume de dados estruturados e não estruturados (Big Data) em sistemas de armazenamento corporativos, aliado à também crescente demanda por preservação de tais dados devido a regulamentações e auditorias, surge o problema da preservação a longo prazo de Big Data, e mais especificamente o de como estender sistemas existentes ao longo do tempo. Pesquisas recentes contemplam arquiteturas de preservação de dados estruturados ou de arquivamento a curto prazo de Big Data, porém carecem de um modelo para arquiteturas que suportem a preservação a longo prazo de Big Data com elasticidade. Na presente tese, propõe-se uma arquitetura para o arquivamento, preservação a longo prazo e recuperação de Big Data com elasticidade. Um método de criação de arquiteturas de referência foi seguido e obteve-se como resultado uma arquitetura de preservação a longo prazo que é reprodutível e capaz de adaptar-se a uma demanda crescente, recebendo Big Data de fontes heterogêneas continuamente. A arquitetura é compatível com computação em nuvem e foi testada com diversas mídias de armazenamento, como mídias magnéticas, nuvem e de estado sólido. É feito também um comparativo entre a arquitetura desenvolvida e outras arquiteturas disponíveis. / With the exponential growth in the volume of structured and unstructured data (Big Data) in enterprise storage systems, along with the also increasing demand for preservation of such data due to regulations and audits, there arises the problem of long-term preservation of Big Data, and more specifically of how to extend existing systems with time. Recent research projects encompass architectures for the preservation of structured data or short term archiving of Big Data, however they lack a model for architectures that support long-term preservation of Big Data with elasticity. In the present thesis, we propose an architecture for the archiving, longterm preservation and retrieval of Big Data with elasticity. A method for creating reference architectures was followed and as a result a reproducible long-term preservation architecture was obtained, which is capable of adapting to a growing demand receiving Big Data continuously. The architecture is compatible with cloud computing and was tested against several storage media, such as magnetic media, cloud and solid state. A comparison between the architecture and other available architectures is also provided. g Data. Unstructured data. Elasticity. Big Data Computação em nuvem Preservação digital Big Data Cloud computing Computer architecture and organization Digital preservation
259	KerA : Un Système Unifié d'Ingestion et de Stockage pour le Traitement Efficace du Big Data : Un Système Unifié d'Ingestion et de Stockage pour le Traitement Efficace du Big Data / KerA : A Unified Ingestion and Storage System for Scalable Big Data Processing Marcu, Ovidiu-Cristian 18 December 2018 (has links) Le Big Data est maintenant la nouvelle ressource naturelle. Les architectures actuelles des environnements d'analyse des données massives sont constituées de trois couches: les flux de données sont acquis par la couche d’ingestion (e.g., Kafka) pour ensuite circuler à travers la couche de traitement (e.g., Flink) qui s’appuie sur la couche de stockage (e.g., HDFS) pour stocker des données agrégées ou pour archiver les flux pour un traitement ultérieur. Malheureusement, malgré les bénéfices potentiels apportés par les couches spécialisées (e.g., une mise en oeuvre simplifiée), déplacer des quantités importantes de données à travers ces couches spécialisées s’avère peu efficace: les données devraient être acquises, traitées et stockées en minimisant le nombre de copies. Cette thèse propose la conception et la mise en oeuvre d’une architecture unifiée pour l’ingestion et le stockage de flux de données, capable d'améliorer le traitement des applications Big Data. Cette approche minimise le déplacement des données à travers l’architecture d'analyse, menant ainsi à une amélioration de l’utilisation des ressources. Nous identifions un ensemble de critères de qualité pour un moteur dédié d’ingestion des flux et stockage. Nous expliquons l’impact des différents choix architecturaux Big Data sur la performance de bout en bout. Nous proposons un ensemble de principes de conception d’une architecture unifiée et efficace pour l’ingestion et le stockage des données. Nous mettons en oeuvre et évaluons le prototype KerA dans le but de gérer efficacement divers modèles d’accès: accès à latence faible aux flux et/ou accès à débit élevé aux flux et/ou objets. / Big Data is now the new natural resource. Current state-of-the-art Big Data analytics architectures are built on top of a three layer stack:data streams are first acquired by the ingestion layer (e.g., Kafka) and then they flow through the processing layer (e.g., Flink) which relies on the storage layer (e.g., HDFS) for storing aggregated data or for archiving streams for later processing. Unfortunately, in spite of potential benefits brought by specialized layers (e.g., simplified implementation), moving large quantities of data through specialized layers is not efficient: instead, data should be acquired, processed and stored while minimizing the number of copies. This dissertation argues that a plausible path to follow to alleviate from previous limitations is the careful design and implementation of a unified architecture for stream ingestion and storage, which can lead to the optimization of the processing of Big Data applications. This approach minimizes data movement within the analytics architecture, finally leading to better utilized resources. We identify a set of requirements for a dedicated stream ingestion/storage engine. We explain the impact of the different Big Data architectural choices on end-to-end performance. We propose a set of design principles for a scalable, unified architecture for data ingestion and storage. We implement and evaluate the KerA prototype with the goal of efficiently handling diverse access patterns: low-latency access to streams and/or high throughput access to streams and/or objects. Big Data Streaming Ingestion Stockage Partitionnement dynamique Données en premier Big Data Streaming Ingestion Storage Dynamic partitioning Data first 004.5
260	MaSTA: a text-based machine learning approach for systems-of-systems in the big data context / MaSTA: uma abordagem de aprendizado de máquina orientado a textos para sistemas-de-sistemas no contexto de big data Bianchi, Thiago 11 April 2019 (has links) Systems-of-systems (SoS) have gained a very important status in industry and academia as an answer to the growing complexity of software-intensive systems. SoS are particular in the sense that their capabilities transcend the mere sum of the capacities of their diverse independent constituents. In parallel, the current growth in the amount of data collected in different formats is impressive and imposes a considerable challenge for researchers and professionals, characterizing hence the Big Data context. In this scenario, Machine Learning techniques have been increasingly explored to analyze and extract relevant knowledge from such data. SoS have also generated a large amount of data and text information and, in many situations, users of SoS need to manually register unstructured, critical texts, e.g., work orders and service requests, and also need to map them to structured information. Besides that, these are repetitive, time-/effort-consuming, and even error-prone tasks. The main objective of this Thesis is to present MaSTA, an approach composed of an innovative classification method to infer classifiers from large textual collections and an evaluation method that measures the reliability and performance levels of such classifiers. To evaluate the effectiveness of MaSTA, we conducted an experiment with a commercial SoS used by large companies that provided us four datasets containing near one million records related with three classification tasks. As a result, this experiment indicated that MaSTA is capable of automatically classifying the documents and also improve the user assertiveness by reducing the list of possible classifications. Moreover, this experiment indicated that MaSTA is a scalable solution for the Big Data scenarios in which document collections have hundreds of thousands (even millions) of documents, even produced by different constituents of an SoS. / Sistemas-de-sistemas (SoS) conquistaram um status muito importante na indústria e na academia como uma resposta à crescente complexidade dos sistemas intensivos de software. SoS são particulares no sentido de que suas capacidades transcendem a mera soma das capacidades de seus diversos constituintes independentes. Paralelamente, o crescimento atual na quantidade de dados coletados em diferentes formatos é impressionante e impõe um desafio considerável para pesquisadores e profissionais, caracterizando consequentemente o contexto de Big Data. Nesse cenário, técnicas de Aprendizado de Máquina têm sido cada vez mais exploradas para analisar e extrair conhecimento relevante de tais dados. SoS também têm gerado uma grande quantidade de dados e informações de texto e, em muitas situações, os usuários do SoS precisam registrar manualmente textos críticos não estruturados, por exemplo, ordens de serviço e solicitações de serviço, e também precisam mapeá-los para informações estruturadas. Além disso, essas tarefas são repetitivas, demoradas, e até mesmo propensas a erros. O principal objetivo desta Tese é apresentar o MaSTA, uma abordagem composta por um método de classificação inovador para inferir classificadores a partir de grandes coleções de texto e um método de avaliação que mensura os níveis de confiabilidade e desempenho desses classificadores. Para avaliar a eficácia do MaSTA, nós conduzimos um experimento com um SoS comercial utilizado por grandes empresas que nos forneceram quatro conjuntos de dados contendo quase um milhão de registros relacionados com três tarefas de classificação. Como resultado, esse experimento indicou que o MaSTA é capaz de classificar automaticamente os documentos e também melhorar a assertividade do usuário através da redução da lista de possíveis classificações. Além disso, esse experimento indicou que o MaSTA é uma solução escalável para os cenários de Big Data, nos quais as coleções de documentos têm centenas de milhares (até milhões) de documentos, até mesmo produzidos por diferentes constituintes de um SoS. Aprendizado de máquina Big Data Big Data Classificação de texto Machine learning Naive Bayes Naive Bayes Sistema-de-sistemas System-of-systems Text classification

Search results