Spelling suggestions: "subject:"gig data"" "subject:"gig mata""
421 |
Google matrix analysis of Wikipedia networksEl zant, Samer 06 July 2018 (has links) (PDF)
Cette thèse s’intéresse à l’analyse du réseau dirigé extrait de la structure des hyperliens deWikipédia. Notre objectif est de mesurer les interactions liant un sous-ensemble de pages duréseau Wikipédia. Par conséquent, nous proposons de tirer parti d’une nouvelle représentationmatricielle appelée matrice réduite de Google ou "reduced Google Matrix". Cette matrice réduitede Google (GR) est définie pour un sous-ensemble de pages donné (c-à-d un réseau réduit).Comme pour la matrice de Google standard, un composant de GR capture la probabilité que deuxnoeuds du réseau réduit soient directement connectés dans le réseau complet. Une desparticularités de GR est l’existence d’un autre composant qui explique la probabilité d’avoir deuxnoeuds indirectement connectés à travers tous les chemins possibles du réseau entier. Dans cettethèse, les résultats de notre étude de cas nous montrent que GR offre une représentation fiabledes liens directs et indirects (cachés). Nous montrons que l’analyse de GR est complémentaire àl’analyse de "PageRank" et peut être exploitée pour étudier l’influence d’une variation de lien surle reste de la structure du réseau. Les études de cas sont basées sur des réseaux Wikipédiaprovenant de différentes éditions linguistiques. Les interactions entre plusieurs groupes d’intérêtont été étudiées en détail : peintres, pays et groupes terroristes. Pour chaque étude, un réseauréduit a été construit. Les interactions directes et indirectes ont été analysées et confrontées à desfaits historiques, géopolitiques ou scientifiques. Une analyse de sensibilité est réalisée afin decomprendre l’influence des liens dans chaque groupe sur d’autres noeuds (ex : les pays dansnotre cas). Notre analyse montre qu’il est possible d’extraire des interactions précieuses entre lespeintres, les pays et les groupes terroristes. On retrouve par exemple, dans le réseau de peintresissu de GR, un regroupement des artistes par grand mouvement de l’histoire de la peinture. Lesinteractions bien connues entre les grands pays de l’UE ou dans le monde entier sont égalementsoulignées/mentionnées dans nos résultats. De même, le réseau de groupes terroristes présentedes liens pertinents en ligne avec leur idéologie ou leurs relations historiques ou géopolitiques.Nous concluons cette étude en montrant que l’analyse réduite de la matrice de Google est unenouvelle méthode d’analyse puissante pour les grands réseaux dirigés. Nous affirmons que cetteapproche pourra aussi bien s’appliquer à des données représentées sous la forme de graphesdynamiques. Cette approche offre de nouvelles possibilités permettant une analyse efficace desinteractions d’un groupe de noeuds enfoui dans un grand réseau dirigé
|
422 |
Afinimapa: mapeamento relacional de comunidades, topologias de afinidadeCorrêa, Marcelo Stoppa Augusto 15 April 2016 (has links)
Submitted by Filipe dos Santos (fsantos@pucsp.br) on 2016-09-22T18:33:26Z
No. of bitstreams: 1
Marcelo Stoppa Augusto Corrêa.pdf: 12054164 bytes, checksum: 1d76d1664521ddad6653a226c9ccfe4b (MD5) / Made available in DSpace on 2016-09-22T18:33:26Z (GMT). No. of bitstreams: 1
Marcelo Stoppa Augusto Corrêa.pdf: 12054164 bytes, checksum: 1d76d1664521ddad6653a226c9ccfe4b (MD5)
Previous issue date: 2016-04-15 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Pontifícia Universidade Católica de São Paulo / The modern spirit performed deep, structural transformations in society. The new
and more fluid socio-political settings changed not only the way interpersonal relations
happen, but also the arrangements by which individuals may attach to one another: groups,
multitudes or communities have evolved to a new dimension. The socio-political changes
and the growing sophistication of media render the groupings ephemeral, empowers the
crowds and favors the creation of new and hybrid communicational and cultural codes
through cultural identity clashes caused by faster economic exchange.
The present work lays out a methodology that aims the collaboration to research
relational, cultural and social phenomena in groups, to analyze crowd and community
dynamics through an ensemble of techniques to crawl, analyze and visualize data and
build relational and affinity topologies which we named affinimaps.
This transdisciplinary methodology stands on Big Data, Open Data, analytics,
ontologies and complex data visualization algorithms, as the technical axis; on the works
of Jacob Levy Moreno and Timothy Leary, as the psychological and sociometric axis; and
on infographics and topology, on the artistic axis. It intends to offer the representation of
complex relations of different sorts of actors so as to transcend the vision and improve the
detection of arrangement and behavior patterns. This way, it might contribute to the
research conducted by different knowledge areas investigating the relationships between
men and the world / O espírito moderno trouxe profundas transformações estruturais à sociedade. Os
novos arranjos político-sociais, mais fluidos, mudaram não apenas as formas com que se
dão as relações interpessoais, mas também como se formam os arranjos sociais pelos quais
os indivíduos se vinculam uns aos outros: os grupos, as multidões e as comunidades não
são os mesmos. As mutações sócio-políticas, com a sofisticação cada vez maior dos meios
de comunicação, aumentam a efemeridade dos agrupamentos, dando às multidões o poder
se auto-organizarem e as diferentes comunidades do planeta efetuam trocas econômicas
com muita rapidez e que, pelo confronto de identidades culturais, tecem códigos de
comunicação e cultura cada vez mais híbridos.
O presente trabalho propõe a construção de uma metodologia que visa colaborar
com a investigação de fenômenos relacionais, culturais e sociais nos grupos, bem como
investigar a dinâmica nas multidões e nas comunidades por meio de um conjunto de
técnicas de captura, análise e visualização de dados para a construção de topologias
relacionais e de afinidade, que nomeamos afinimapas.
Esta metodologia transdisciplinar apoia-se em Big Data, Open Data, analytics,
ontologia e algoritmos de visualização de dados complexos, no eixo técnico; nas obras de
Jacob Levy Moreno e Timothy Leary, no eixo psicológico e sociométrico; e na infografia
e na topologia, no eixo artístico. Ela pretende fornecer a representação da complexidade
das relações de diferentes tipos de atores para transcender a visão e favorecer a detecção
de padrões de arranjos e comportamentos. Deste modo, deseja-se contribuir com as
investigações conduzidas por diferentes áreas do saber que levem em conta as relações
entre o homem e o mundo
|
423 |
Perspectivas organizacional e tecnológica da aplicação de analytics nas organizaçõesBritto, Fernando Perez de 12 September 2016 (has links)
Submitted by Filipe dos Santos (fsantos@pucsp.br) on 2016-11-01T17:05:22Z
No. of bitstreams: 1
Fernando Perez de Britto.pdf: 2289185 bytes, checksum: c32224fdc1bfd0e47372fe52c8927cff (MD5) / Made available in DSpace on 2016-11-01T17:05:22Z (GMT). No. of bitstreams: 1
Fernando Perez de Britto.pdf: 2289185 bytes, checksum: c32224fdc1bfd0e47372fe52c8927cff (MD5)
Previous issue date: 2016-09-12 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The use of Analytics technologies is gaining prominence in organizations exposed to pressures for greater profitability and efficiency, and to a highly globalized and competitive environment in which cycles of economic growth and recession and cycles of liberalism and interventionism, short or long, are more frequents. However, the use of these technologies is complex and influenced by conceptual, human, organizational and technologicalaspects, the latter especially in relation to the manipulation and analysis of large volumes of data, Big Data. From a bibliographicresearch on the organizational and technological perspectives, this work initially deals with theconcepts and technologies relevant to the use of Analytics in organizations, and then explores issues related to the alignment between business processes and data and information, the assessment of the potential of theuseofAnalytics, the use of Analytics in performance management, in process optimization and as decision support, and the establishment of a continuousimprovement process. Enabling at the enda reflection on the directions, approaches, referrals, opportunities and challenges related to the use of Analytics in organizations / A utilização de tecnologias de Analyticsvem ganhando destaque nas organizações expostas a pressões por maior rentabilidade e eficiência, ea um ambiente altamente globalizado e competitivo no qual ciclos de crescimento econômico e recessão e ciclos de liberalismo e intervencionismo, curtos ou longos, estão mais frequentes. Entretanto, a utilização destas tecnologias é complexa e influenciada por aspectos conceituais, humanos, organizacionais e tecnológicos, este último principalmente com relação à manipulação e análise de grandes volumes de dados, Big Data. A partir de uma pesquisa bibliográfica sobre as perspectivas organizacional e tecnológica, este trabalho trata inicialmente de conceitos e tecnologias relevantes para a utilização de Analyticsnas organizações, eem seguida explora questões relacionadas ao alinhamento entre processos organizacionaise dados e informações, à avaliação de potencial de utilização de Analytics, à utilização de Analyticsem gestão de performance, otimização de processos e como suporte à decisão, e ao estabelecimento de um processo de melhoria contínua.Possibilitandoao finaluma reflexão sobre os direcionamentos, as abordagens, os encaminhamentos, as oportunidades e os desafios relacionados àutilização de Analyticsnas organizações
|
424 |
Da identidade dos grupos aos perfis programados: uma possível passagem à luz da teoria da comunicaçãoPicchiai, Daniela de Queiroz 02 December 2014 (has links)
Made available in DSpace on 2016-04-26T18:14:45Z (GMT). No. of bitstreams: 1
Daniela de Queiroz Picchiai.pdf: 564041 bytes, checksum: 70762e27f3ed8170f628c4f853bd1639 (MD5)
Previous issue date: 2014-12-02 / This dissertation has the main objective investigate the recent changes in the
orientation market research that makes increasing use of digital databases as a source
of information about consumers. The work begins by analyzing the methodologies of
market research already established, of qualitative source, from data collection,
sample character, such as questionnaires and interviews, focuses on attitudes and
behaviors of consumers, and starting from this creates marketing communication
strategies for institutions interested in this information. With the emergence of Big
Data, the statement changes. In the evolution of this path, we highlight the
increasingly important reflections of philosophers (Foucault, Deleuze) and
communication theorists (Martin-Barbero, Jenkins) about our role current in society
of control. That must mean, for our study, an increasingly centered on search for
patterns of behavior by way of digital data. With the influence of new technologies,
the digital universe and the arrival of Big Data, the market research proceeds to
analyze the data from environments such as businesses databases or activities on
social networks, and check what kind of consumption pattern can be identified. With
that, they could theoretically build a communication to induce and direct the actions
and consumers choices. As a result, the research compares two formats of action
utilized by companies as a strategy for reaching possible consumers: the first, as a
base, has qualitative tools and an understanding of the social environment and
determined segments; the second considers the enormous dimension of existing
techniques in the online environment that influence people's behavior.The work
reflects on how business communication strategies are utilized by brands in order to
involve and generate recognition from its audiences. As a working methodology, we
use the following authors: Harold Lasswell, for identifying the influence of research
in advertising communication; Jesús Martín-Barbero, one of the first scholars to
understand the mediation between individuals and social environments; Philip Kotler
and Gilbert A. Churchill, central authors in the understanding of marketing
techniques; Michel Foucault, Felix Guattari and Gilles Deleuze to recognize how the
look of Big Data articulated in our society of control. The dissertation considers that
communication has a decisive role in influencing individuals' choices and constantly
searches for the previous path in this process, in order to recognize and emphasize the
variables that lead to these choices / Esta dissertação tem como objetivo principal investigar as recentes mudanças na
orientação das pesquisas de mercado, que fazem uso cada vez maior de bases de
dados digitais como fonte de informação sobre os consumidores. O trabalho começa
analisando as metodologias de pesquisa mercadológica já consolidadas, de natureza
qualitativa, que a partir de levantamentos de dados, de caráter amostral, tais como
questionários e entrevistas, busca compreender atitudes e comportamentos dos
consumidores e, assim, criar estratégias de comunicação mercadológica para as
instituições interessadas nessa informação. Com o surgimento das análises ditas de
Big Data, o cenário muda. Na evolução desse caminho, destacamos o papel cada vez
mais importante das reflexões de filósofos (Foucault, Deleuze) e teóricos da
comunicação (Martin-Barbero, Jenkins) sobre nossa atual sociedade de controle. Isso
deve significar, para nosso estudo, um caminho cada vez mais centrado na busca por
padrões de comportamento através de dados digitais. Com a influência das novas
tecnologias, do universo digital e com a chegada do Big Data, a pesquisa de mercado
passa a analisar os dados retirados de ambientes tais como as bases de dados das
empresas ou de atividades em redes sociais, e verificam quais tipos de padrão de
consumo podem ser identificados. Com isso, poderiam em tese construir uma
comunicação para induzir e direcionar as ações e escolhas dos consumidores. Com
isso, o trabalho compara dois formatos de ação utilizados pelas empresas como
estratégia para atingir possíveis consumidores: o primeiro tem como base ferramentas
qualitativas e compreensão do ambiente social de determinados segmentos; o
segundo considera a gigantesca dimensão de técnicas existentes no ambiente online
que influenciam o comportamento das pessoas. O trabalho faz uma reflexão sobre
como as estratégias de comunicação são utilizadas pelas empresas para envolver e
gerar identificação em seus públicos. Como metodologia de trabalho, utilizamos os
seguintes autores: Harold Lasswell, para identificar a influência das pesquisas na
comunicação publicitária; Jesús Martín-Barbero, um dos primeiros estudiosos a
compreender as mediações entre indivíduos e ambientes sociais; Philip Kotler e
Gilbert A. Churchill, autores centrais no conhecimento das técnicas de marketing;
Michel Foucault, Felix Guattari e Gilles Deleuze para reconhecer como o olhar do
BigData se articula com nossa sociedade de controle. A pesquisa conclui que a
comunicação mercadológica tem um papel decisivo na indução das escolhas dos
indivíduos e busca constatar o caminho percorrido nesse processo, para assim
reconhecer e pontuar os fatores que conduzem a essas escolhas
|
425 |
High performance trace replay event simulation of parallel programs behavior / Ferramenta de alto desempenho para análise de comportamento de programas paralelos baseada em rastos de execuçãoKorndorfer, Jonas Henrique Muller January 2016 (has links)
Sistemas modernos de alto desempenho compreendem milhares a milhões de unidades de processamento. O desenvolvimento de uma aplicação paralela escalável para tais sistemas depende de um mapeamento preciso da utilização recursos disponíveis. A identificação de recursos não utilizados e os gargalos de processamento requere uma boa análise desempenho. A observação de rastros de execução é uma das técnicas mais úteis para esse fim. Infelizmente, o rastreamento muitas vezes produz grandes arquivos de rastro, atingindo facilmente gigabytes de dados brutos. Portanto ferramentas para análise de desempenho baseadas em rastros precisam processar esses dados para uma forma legível e serem eficientes a fim de permitirem uma análise rápida e útil. A maioria das ferramentas existentes, tais como Vampir, Scalasca e TAU, focam no processamento de formatos de rastro com semântica associada, geralmente definidos para lidar com programas desenvolvidos com bibliotecas populares como OpenMP, MPI e CUDA. No entanto, nem todas aplicações paralelas utilizam essas bibliotecas e assim, algumas vezes, essas ferramentas podem não ser úteis. Felizmente existem outras ferramentas que apresentam uma abordagem mais dinâmica, utilizando um formato de arquivo de rastro aberto e sem semântica específica. Algumas dessas ferramentas são Paraver, Pajé e PajeNG. Por outro lado, ser genérico tem custo e assim tais ferramentas frequentemente apresentam baixo desempenho para o processamento de grandes rastros. O objetivo deste trabalho é apresentar otimizações feitas para o conjunto de ferramentas PajeNG. São apresentados o desenvolvimento de um estratégia de paralelização para o PajeNG e uma análise de desempenho para demonstrar nossos ganhos. O PajeNG original funciona sequencialmente, processando um único arquivo de rastro que contém todos os dados do programa rastreado. Desta forma, a escalabilidade da ferramenta fica muito limitada pela leitura dos dados. Nossa estratégia divide o arquivo em pedaços permitindo seu processamento em paralelo. O método desenvolvido para separar os rastros permite que cada pedaço execute em um fluxo de execução separado. Nossos experimentos foram executados em máquinas com acesso não uniforme à memória (NUMA).Aanálise de desempenho desenvolvida considera vários aspectos como localidade das threads, o número de fluxos, tipo de disco e também comparações entre os nós NUMA. Os resultados obtidos são muito promissores, escalando o PajeNG cerca de oito a onze vezes, dependendo da máquina. / Modern high performance systems comprise thousands to millions of processing units. The development of a scalable parallel application for such systems depends on an accurate mapping of application processes on top of available resources. The identification of unused resources and potential processing bottlenecks requires good performance analysis. The trace-based observation of a parallel program execution is one of the most helpful techniques for such purpose. Unfortunately, tracing often produces large trace files, easily reaching the order of gigabytes of raw data. Therefore tracebased performance analysis tools have to process such data to a human readable way and also should be efficient to allow an useful analysis. Most of the existing tools such as Vampir, Scalasca, TAU have focus on the processing of trace formats with a fixed and well-defined semantic. The corresponding file format are usually proposed to handle applications developed using popular libraries like OpenMP, MPI, and CUDA. However, not all parallel applications use such libraries and so, sometimes, these tools cannot be useful. Fortunately, there are other tools that present a more dynamic approach by using an open trace file format without specific semantic. Some of these tools are the Paraver, Pajé and PajeNG. However the fact of being generic comes with a cost. These tools very frequently present low performance for the processing of large traces. The objective of this work is to present performance optimizations made in the PajeNG tool-set. This comprises the development of a parallelization strategy and a performance analysis to set our gains. The original PajeNG works sequentially by processing a single trace file with all data from the observed application. This way, the scalability of the tool is very limited by the reading of the trace file. Our strategy splits such file to process several pieces in parallel. The created method to split the traces allows the processing of each piece in each thread. The experiments were executed in non-uniform memory access (NUMA) machines. The performance analysis considers several aspects like threads locality, number of flows, disk type and also comparisons between the NUMA nodes. The obtained results are very promising, scaling up the PajeNG about eight to eleven times depending on the machine.
|
426 |
Distributed data analysis over meteorological datasets using the actor modelSanchez, Jimmy Kraimer Martin Valverde January 2017 (has links)
Devido ao contínuo crescimento dos dados científicos nos últimos anos, a análise intensiva de dados nessas quantidades massivas de dados é muito importante para extrair informações valiosas. Por outro lado, o formato de dados científicos GRIB (GRIdded Binary) é amplamente utilizado na comunidade meteorológica para armazenar histórico de dados e previsões meteorológicas. No entanto, as ferramentas atuais disponíveis e métodos para processar arquivos neste formato não realizam o processamento em um ambiente distribuído. Essa situação limita as capacidades de análise dos cientistas que precisam realizar uma avaliação sobre grandes conjuntos de dados com o objetivo de obter informação no menor tempo possível fazendo uso de todos os recursos disponíveis. Neste contexto, este trabalho apresenta uma alternativa ao processamento de dados no formato GRIB usando o padrão Manager-Worker implementado com o modelo de atores fornecido pelo Akka toolkit. Realizamos também uma comparação da nossa proposta com outros mecanismos, como o round-robin, random, balanceamento de carga adaptativo, bem como com um dos principais frameworks para o processamento de grandes quantidades de dados tal como o Apache Spark. A metodologia utilizada considera vários fatores para avaliar o processamento dos arquivos GRIB. Os experimentos foram conduzidos em um cluster na plataforma Microsoft Azure. Os resultados mostram que nossa proposta escala bem à medida que o número de nós aumenta. Assim, nossa proposta atingiu um melhor desempenho em relação aos outros mecanismos utilizados para a comparação, particularmente quando foram utilizadas oito máquinas virtuais para executar as tarefas. Nosso trabalho com o uso de metadados alcançou um ganho de 53.88%, 62.42%, 62.97%, 61.92%, 62.44% e 59.36% em relação aos mecanismos round-robin, random, balanceamento de carga adaptativo que usou métricas CPU, JVM Heap e um combinado de métricas, e o Apache Spark, respectivamente, em um cenário onde um critério de busca é aplicado para selecionar 2 dos 27 parâmetros totais encontrados no conjunto de dados utilizado nos experimentos. / Because of the continuous and overwhelming growth of scientific data in the last few years, data-intensive analysis on this vast amount of scientific data is very important to extract valuable scientific information. The GRIB (GRIdded Binary) scientific data format is widely used within the meteorological community and is used to store historical meteorological data and weather forecast simulation results. However, current libraries to process the GRIB files do not perform the computation in a distributed environment. This situation limits the analytical capabilities of scientists who need to perform analysis on large data sets in order to obtain information in the shortest time possible using of all available resources. In this context, this work presents an alternative to data processing in the GRIB format using the well-know Manager-Worker pattern, which was implemented with the Actor model provided by the Akka toolkit. We also compare our proposal with other mechanisms, such as the round-robin, random and an adaptive load balancing, as well as with one of the main frameworks currently existing for big data processing, Apache Spark. The methodology used considers several factors to evaluate the processing of the GRIB files. The experiments were conducted on a cluster in Microsoft Azure platform. The results show that our proposal scales well as the number of worker nodes increases. Our work reached a better performance in relation to the other mechanisms used for the comparison particularly when eight worker virtual machines were used. Thus, our proposal upon using metadata achieved a gain of 53.88%, 62.42%, 62.97%, 61.92%, 62.44% and 59.36% in relation to the mechanisms: round-robin, random, an adaptive load balancing that used CPU, JVM Heap and mix metrics, and the Apache Spark respectively, in a scenario where a search criteria is applied to select 2 of 27 total parameters found in the dataset used in the experiments.
|
427 |
Ensaios em macroeconomia aplicadaCosta, Hudson Chaves January 2016 (has links)
Esta tese apresenta três ensaios em macroeconomia aplicada e que possuem em comum o uso de técnicas estatísticas e econométricas em problemas macroeconômicos. Dentre os campos de pesquisa da macroeconomia aplicada, a tese faz uso de modelos macroeconômicos microfundamentados, em sua versão DSGE-VAR, e da macroeconomia financeira por meio da avaliação do comportamento da correlação entre os retornos das ações usando modelos Garch multivariados. Além disso, a tese provoca a discussão sobre um novo campo de pesquisa em macroeconomia que surge a partir do advento da tecnologia. No primeiro ensaio, aplicamos a abordagem DSGE-VAR na discussão sobre a reação do Banco Central do Brasil (BCB) as oscilações na taxa de câmbio, especificamente para o caso de uma economia sob metas de inflação. Para tanto, baseando-se no modelo para uma economia aberta desenvolvido por Gali e Monacelli (2005) e modificado por Lubik e Schorfheide (2007), estimamos uma regra de política monetária para o Brasil e examinamos em que medida o BCB responde a mudanças na taxa de câmbio. Além disso, estudamos o grau de má especificação do modelo DSGE proposto. Mais especificamente, comparamos a verossimilhança marginal do modelo DSGE às do modelo DSGE-VAR e examinamos se o Banco Central conseguiu isolar a economia brasileira, em particular a inflação, de choques externos. Nossas conclusões mostram que as respostas aos desvios da taxa de câmbio são diferentes de zero e menores do que as respostas aos desvios da inflação. Finalmente, o ajuste do modelo DSGE é consideravelmente pior do que o ajuste do modelo DSGE-VAR, independentemente do número de defasagens utilizadas no VAR o que indica que de um ponto de vista estatístico existem evidências de que as restrições cruzadas do modelo teórico são violadas nos dados. O segundo ensaio examina empiricamente o comportamento da correlação entre o retorno de ações listadas na BMF&BOVESPA no período de 2000 a 2015. Para tanto, utilizamos modelos GARCH multivariados introduzidos por Bollerslev (1990) para extrair a série temporal das matrizes de correlação condicional dos retornos das ações. Com a série temporal dos maiores autovalores das matrizes de correlação condicional estimadas, aplicamos testes estatísticos (raiz unitária, quebra estrutural e tendência) para verificar a existência de tendência estocástica ou determinística para a intensidade da correlação entre os retornos das ações representadas pelos autovalores. Nossas conclusões confirmam que tanto em períodos de crises nacionais como turbulências internacionais, há intensificação da correlação entre as ações. Contudo, não encontramos qualquer tendência de longo prazo na série temporal dos maiores autovalores das matrizes de correlação condicional. Isso sugere que apesar das conclusões de Costa, Mazzeu e Jr (2016) sobre a tendência de queda do risco idiossincrático no mercado acionário brasileiro, a correlação dos retornos não apresentou tendência de alta, conforme esperado pela teoria de finanças. No terceiro ensaio, apresentamos pesquisas que utilizaram Big Data, Machine Learning e Text Mining em problemas macroeconômicos e discutimos as principais técnicas e tecnologias adotadas bem como aplicamos elas na análise de sentimento do BCB sobre a economia. Por meio de técnicas de Web Scraping e Text Mining, acessamos e extraímos as palavras usadas na escrita das atas divulgadas pelo Comitê de Política Monetária (Copom) no site do BCB. Após isso, comparando tais palavras com um dicionário de sentimentos (Inquider) mantido pela Universidade de Harvard e originalmente apresentado por Stone, Dunphy e Smith (1966), foi possível criar um índice de sentimento para a autoridade monetária. Nossos resultados confirmam que tal abordagem pode contribuir para a avaliação econômica dado que a série temporal do índice proposto está relacionada com variáveis macroeconômicas importantes para as decisões do BCB. / This thesis presents three essays in applied macroeconomics and who have in common the use of statistical and econometric techniques in macroeconomic problems. Among the search fields of applied macroeconomics, the thesis makes use of microfounded macroeconomic models, in tis DSGE-VAR version, and financial macroeconomics through the evaluation of the behavior of correlation between stock returns using multivariate Garch models. In addition, leads a discussion on a new field of research in macroeconomics which arises from the advent of technology. In the first experiment, we applied the approach to dynamic stochastic general equilibrium (DSGE VAR in the discussion about the reaction of the Central Bank of Brazil (CBB) to fluctuations in the exchange rate, specifically for the case of an economy under inflation targeting. To this end, based on the model for an open economy developed by Gali and Monacelli (2005) and modified by Lubik and Schorfheide (2007), we estimate a rule of monetary policy for the United States and examine to what extent the CBC responds to changes in the exchange rate. In addition, we studied the degree of poor specification of the DSGE model proposed. More specifically, we compare the marginal likelihood of the DSGE model to the DSGE-VAR model and examine whether the Central Bank managed to isolate the brazilian economy, in particular the inflation, external shocks. Our findings show that the response to deviations of the exchange rate are different from zero and lower than the response to deviations of inflation. Finally, the adjustment of the DSGE model is considerably worse than the adjustment of the DSGE-VAR model, regardless of the number of lags used in the VAR which indicates that a statistical point of view there is evidence that the restrictions crusades of the theoretical model are violated in the data. The second essay examines empirically the behavior of the correlation between the return of shares listed on the BMF&BOVESPA over the period from 2000 to 2015. To this end, we use models multivariate GARCH introduced by Bollerslev (1990) to remove the temporal series of arrays of conditional correlation of returns of stocks. With the temporal series of the largest eigenvalues of matrices of correlation estimated conditional, we apply statistical tests (unit root, structural breaks and trend) to verify the existence of stochastic trend or deterministic to the intensity of the correlation between the returns of the shares represented by eigenvalues. Our findings confirm that both in times of crises at national and international turbulence, there is greater correlation between the actions. However, we did not find any long-term trend in time series of the largest eigenvalues of matrices of correlation conditional. In the third test, we present research that used Big Data, Machine Learning and Text Mining in macroeconomic problems and discuss the main techniques and technologies adopted and apply them in the analysis of feeling of BCB on the economy. Through techniques of Web Scraping and Text Mining, we accessed and extracted the words used in the writing of the minutes released by the Monetary Policy Committee (Copom) on the site of the BCB. After that, comparing these words with a dictionary of feelings (Inquider) maintained by Harvard University and originally presented by Stone, Dunphy and Smith (1966), it was possible to create an index of sentiment for the monetary authority. Our results confirm that such an approach can contribute to the economic assessment given that the temporal series of the index proposed is related with macroeconomic variables are important for decisions of the BCB.
|
428 |
A benchmark suite for distributed stream processing systems / Um benchmark suite para sistemas distribuídos de stream processingBordin, Maycon Viana January 2017 (has links)
Um dado por si só não possui valor algum, a menos que ele seja interpretado, contextualizado e agregado com outros dados, para então possuir valor, tornando-o uma informação. Em algumas classes de aplicações o valor não está apenas na informação, mas também na velocidade com que essa informação é obtida. As negociações de alta frequência (NAF) são um bom exemplo onde a lucratividade é diretamente proporcional a latência (LOVELESS; STOIKOV; WAEBER, 2013). Com a evolução do hardware e de ferramentas de processamento de dados diversas aplicações que antes levavam horas para produzir resultados, hoje precisam produzir resultados em questão de minutos ou segundos (BARLOW, 2013). Este tipo de aplicação tem como característica, além da necessidade de processamento em tempo-real ou quase real, a ingestão contínua de grandes e ilimitadas quantidades de dados na forma de tuplas ou eventos. A crescente demanda por aplicações com esses requisitos levou a criação de sistemas que disponibilizam um modelo de programação que abstrai detalhes como escalonamento, tolerância a falhas, processamento e otimização de consultas. Estes sistemas são conhecidos como Stream Processing Systems (SPS), Data Stream Management Systems (DSMS) (CHAKRAVARTHY, 2009) ou Stream Processing Engines (SPE) (ABADI et al., 2005). Ultimamente estes sistemas adotaram uma arquitetura distribuída como forma de lidar com as quantidades cada vez maiores de dados (ZAHARIA et al., 2012). Entre estes sistemas estão S4, Storm, Spark Streaming, Flink Streaming e mais recentemente Samza e Apache Beam. Estes sistemas modelam o processamento de dados através de um grafo de fluxo com vértices representando os operadores e as arestas representando os data streams. Mas as similaridades não vão muito além disso, pois cada sistema possui suas particularidades com relação aos mecanismos de tolerância e recuperação a falhas, escalonamento e paralelismo de operadores, e padrões de comunicação. Neste senário seria útil possuir uma ferramenta para a comparação destes sistemas em diferentes workloads, para auxiliar na seleção da plataforma mais adequada para um trabalho específico. Este trabalho propõe um benchmark composto por aplicações de diferentes áreas, bem como um framework para o desenvolvimento e avaliação de SPSs distribuídos. / Recently a new application domain characterized by the continuous and low-latency processing of large volumes of data has been gaining attention. The growing number of applications of such genre has led to the creation of Stream Processing Systems (SPSs), systems that abstract the details of real-time applications from the developer. More recently, the ever increasing volumes of data to be processed gave rise to distributed SPSs. Currently there are in the market several distributed SPSs, however the existing benchmarks designed for the evaluation this kind of system covers only a few applications and workloads, while these systems have a much wider set of applications. In this work a benchmark for stream processing systems is proposed. Based on a survey of several papers with real-time and stream applications, the most used applications and areas were outlined, as well as the most used metrics in the performance evaluation of such applications. With these information the metrics of the benchmark were selected as well as a list of possible application to be part of the benchmark. Those passed through a workload characterization in order to select a diverse set of applications. To ease the evaluation of SPSs a framework was created with an API to generalize the application development and collect metrics, with the possibility of extending it to support other platforms in the future. To prove the usefulness of the benchmark, a subset of the applications were executed on Storm and Spark using the Azure Platform and the results have demonstrated the usefulness of the benchmark suite in comparing these systems.
|
429 |
Chromosome 3D Structure Modeling and New Approaches For General Statistical InferenceRongrong Zhang (5930474) 03 January 2019 (has links)
<div>This thesis consists of two separate topics, which include the use of piecewise helical models for the inference of 3D spatial organizations of chromosomes and new approaches for general statistical inference. The recently developed Hi-C technology enables a genome-wide view of chromosome</div><div>spatial organizations, and has shed deep insights into genome structure and genome function. However, multiple sources of uncertainties make downstream data analysis and interpretation challenging. Specically, statistical models for inferring three-dimensional (3D) chromosomal structure from Hi-C data are far from their maturity. Most existing methods are highly over-parameterized, lacking clear interpretations, and sensitive to outliers. We propose a parsimonious, easy to interpret, and robust piecewise helical curve model for the inference of 3D chromosomal structures</div><div>from Hi-C data, for both individual topologically associated domains and whole chromosomes. When applied to a real Hi-C dataset, the piecewise helical model not only achieves much better model tting than existing models, but also reveals that geometric properties of chromatin spatial organization are closely related to genome function.</div><div><br></div><div><div>For potential applications in big data analytics and machine learning, we propose to use deep neural networks to automate the Bayesian model selection and parameter estimation procedures. Two such frameworks are developed under different scenarios. First, we construct a deep neural network-based Bayes estimator for the parameters of a given model. The neural Bayes estimator mitigates the computational challenges faced by traditional approaches for computing Bayes estimators. When applied to the generalized linear mixed models, the neural Bayes estimator</div><div>outperforms existing methods implemented in R packages and SAS procedures. Second, we construct a deep convolutional neural networks-based framework to perform</div><div>simultaneous Bayesian model selection and parameter estimation. We refer to the neural networks for model selection and parameter estimation in the framework as the</div><div>neural model selector and parameter estimator, respectively, which can be properly trained using labeled data systematically generated from candidate models. Simulation</div><div>study shows that both the neural selector and estimator demonstrate excellent performances.</div></div><div><br></div><div><div>The theory of Conditional Inferential Models (CIMs) has been introduced to combine information for efficient inference in the Inferential Models framework for priorfree</div><div>and yet valid probabilistic inference. While the general theory is subject to further development, the so-called regular CIMs are simple. We establish and prove a</div><div>necessary and sucient condition for the existence and identication of regular CIMs. More specically, it is shown that for inference based on a sample from continuous</div><div>distributions with unknown parameters, the corresponding CIM is regular if and only if the unknown parameters are generalized location and scale parameters, indexing</div><div>the transformations of an affine group.</div></div>
|
430 |
Efficient Matrix-aware Relational Query Processing in Big Data SystemsYongyang Yu (5930462) 03 January 2019 (has links)
<div>In the big data era, the use of large-scale machine learning methods is becoming ubiquitous in data exploration tasks ranging from business intelligence and bioinformatics to self-driving cars. In these domains, a number of queries are composed of various kinds of operators, such as relational operators for preprocessing input data, and machine learning models for complex analysis. Usually, these learning methods heavily rely on matrix computations. As a result, it is imperative to develop novel query processing approaches and systems that are aware of big matrix data and corresponding operators, scale to clusters of hundreds of machines, and leverage distributed memory for high-performance computation. This dissertation introduces and studies several matrix-aware relational query processing strategies, analyzes and optimizes their performance.</div><div><br></div><div><div>The first contribution of this dissertation is MatFast, a matrix computation system for efficiently processing and optimizing matrix-only queries in a distributed in-memory environment. We introduce a set of heuristic rules to rewrite special features of a matrix query for less memory footprint, and cost models to estimate the sparsity of sparse matrix multiplications, and to distribute the matrix data partitions among various compute workers for a communication-efficient execution. We implement and test the query processing strategies in an open-source distributed dataflow</div><div>engine (Apache Spark).</div></div><div><br></div><div><div>In the second contribution of this dissertation, we extend MatFast to MatRel, where we study how to efficiently process queries that involve both matrix and relational operators. We identify a series of equivalent transformation rules to rewrite a logical plan when both relational and matrix operations are present. We introduce selection, projection, aggregation, and join operators over matrix data, and propose optimizations to reduce computation overhead. We also design a cost model to distribute matrix data among various compute workers for communication-efficient</div><div>evaluation of relational join operations.</div></div><div><br></div><div><div>In the third and last contribution of this dissertation, we demonstrate how to leverage MatRel for optimizing complex matrix-aware relational query evaluation pipelines. Especially, we showcase how to efficiently learn model parameters for deep neural networks of various applications with MatRel, e.g., Word2Vec.</div></div>
|
Page generated in 0.0926 seconds