Global ETD Search

Return to search

Managing large-scale scientific hypotheses as uncertain and probabilistic data / Gerência de hipóteses científicas de larga-escala como dados incertos e probabilísticos

Submitted by Maria Cristina (library@lncc.br) on 2015-04-02T17:47:07Z
No. of bitstreams: 1
bernardo-thesis.pdf: 1669339 bytes, checksum: fbd578e31ff13004edbe4fe1eec0ef5f (MD5) / Approved for entry into archive by Maria Cristina (library@lncc.br) on 2015-04-02T17:47:51Z (GMT) No. of bitstreams: 1
bernardo-thesis.pdf: 1669339 bytes, checksum: fbd578e31ff13004edbe4fe1eec0ef5f (MD5) / Made available in DSpace on 2015-04-02T17:48:29Z (GMT). No. of bitstreams: 1
bernardo-thesis.pdf: 1669339 bytes, checksum: fbd578e31ff13004edbe4fe1eec0ef5f (MD5)
Previous issue date: 2015-01-28 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Fundação Carlos Chagas Filho de Amparo à Pesquisa do estado do Rio de Janeiro / Tendo em vista a mudança de paradigma que faz da ciência cada vez mais guiada por dados, nesta tese propomos um método para codifica e gerência de hipóteses científicas determinísticas de larga escala como dados incertos e probabilísticos.
Na forma de equações matemáticas, hipóteses relacionam simetricamente aspectos do fenômeno de estudo. Para computação de predições, no entanto, hipóteses determinísticas podem ser abstraídas como funções. Levamos adiante a no de Simon de equações estruturais para extrair de forma eficiente a então chamada ordenação causal implícita na estrutura de uma hipótese.
Mostramos como processar a estrutura preditiva de uma hipótese através de algoritmos originais para sua codifica ‹o como um conjunto de dependências funcionais (df's) e então realizamos inferência causal em termos de raciocínio acíclico pseudo-transitivo sobre df's.
Tal raciocínio revela importantes dependências causais implícitas nos dados preditivos da hipótese, que conduzem nossa síntese do banco de dados probabilístico. Como na área de modelos gráficos (IA), o banco de dados probabilístico deve ser normalizado de tal forma que a incerteza oriunda de hipóteses alternativas seja decomposta em fatores e propagada propriamente recuperando sua distribuição de probabilidade conjunta via junção 'lossless.' Isso é motivado como um princípio teórico de projeto para gerência e análise de hip teses.
O método proposto é aplicável a hipóteses determinísticas quantitativas e qualitativas e é demonstrado em casos realísticos de ciência computacional. / In view of the paradigm shift that makes science ever more data-driven, in this thesis we propose a synthesis method for encoding and managing large-scale deterministic scientific hypotheses as uncertain and probabilistic data.
In the form of mathematical equations, hypotheses symmetrically relate aspects of the studied phenomena. For computing predictions, however, deterministic hypotheses can be abstracted as functions. We build upon Simon's notion of structural equations in order to efficiently extract the (so-called) causal ordering between variables, implicit in a hypothesis structure (set of mathematical equations).
We show how to process the hypothesis predictive structure effectively through original algorithms for encoding it into a set of functional dependencies (fd's) and then performing causal reasoning in terms of acyclic pseudo-transitive reasoning over fd's. Such reasoning reveals important causal dependencies implicit in the hypothesis predictive data and guide our synthesis of a probabilistic database. Like in the field of graphical models in AI, such a probabilistic database should be normalized so that the uncertainty arisen from competing hypotheses is decomposed into factors and propagated properly onto predictive data by recovering its joint probability distribution through a lossless join. That is motivated as a design-theoretic principle for data-driven hypothesis management and predictive analytics.
The method is applicable to both quantitative and qualitative deterministic hypotheses and demonstrated in realistic use cases from computational science.

Gerência de banco de dados

Dados incertos e probabilísticos

Uncertain and probabilistic data

Database management

Ciências Exatas e da Terra

Ciência da Computação

Banco de dados

Identifer	oai:union.ndltd.org:IBICT/oai:tede-server.lncc.br:tede/197
Date	28 January 2015
Creators	Gonçalves, Bernardo Nunes
Contributors	Porto, Fabio André Machado, Casanova, Marco Antonio, Dias, Pedro Leite da Silva, Salgado, Ana Carolina
Publisher	Laboratório Nacional de Computação Científica, Programa de Pós-Graduação em Modelagem Computacional, LNCC, Brasil, Serviço de Análise e Apoio a Formação de Recursos Humanos
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Format	application/pdf
Source	reponame:Biblioteca Digital de Teses e Dissertações do LNCC, instname:Laboratório Nacional de Computação Científica, instacron:LNCC
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0026 seconds

Managing large-scale scientific hypotheses as uncertain and probabilistic data / Gerência de hipóteses científicas de larga-escala como dados incertos e probabilísticos

Description

Links & Downloads

Tags

Additional Fields