Return to search

Mineração de dados em base de germoplasma

Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008. / Submitted by Jaqueline Oliveira (jaqueoliveiram@gmail.com) on 2008-11-28T12:09:59Z
No. of bitstreams: 1
DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf: 895106 bytes, checksum: 181e2a9a782456ffe4637fc5519e09c8 (MD5) / Approved for entry into archive by Georgia Fernandes(georgia@bce.unb.br) on 2009-02-11T16:01:26Z (GMT) No. of bitstreams: 1
DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf: 895106 bytes, checksum: 181e2a9a782456ffe4637fc5519e09c8 (MD5) / Made available in DSpace on 2009-02-11T16:01:26Z (GMT). No. of bitstreams: 1
DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf: 895106 bytes, checksum: 181e2a9a782456ffe4637fc5519e09c8 (MD5) / Os bancos de germoplasma do SIBRARGEN (Sistema Brasileiro de Informações em
Recursos Genéticos) funcionam como um grande catálogo das espécies vegetais e de
seus acessos (tipos característicos dentro de um grupo ou variabilidades dentro da
espécie), contendo mais de 100 mil acessos catalogados. Esses bancos incluem a
identificação do acesso (passaporte), descrição dos aspectos genótipos (caracterização) e descrição dos aspectos fenótipos (avaliação) e permitem aos pesquisadores dessa área realizarem consultas SQL mas recuperando apenas os dados armazenados, resultantes da resolução das expressões booleanas utilizadas como critérios de busca. Essas
consultas não facilitam a descoberta de novos conhecimentos ou a construção de
modelos de previsão ou descrição.
Essa pesquisa propõe uma metodologia de mineração de dados, derivada do modelo de
referência CRISP/DM, que auxilie a exploração dessas bases de dados por
pesquisadores não vinculados à área de informática (por exemplo, biólogos ou
agrônomos) visando facilitar a realização de tarefas previstas nas seguintes fases do
CRISP/DM: entendimento do negócio, compreensão dos dados, preparação de dados, modelagem, avaliação dos modelos gerados e colocação em uso. Para materializar a metodologia proposta e automatizar a sua utilização por parte de não-informatas, foi implementada a ferramenta HaDog (Hiragi Approach for Data Mining of Germoplasm). HaDog foi implementada utilizando a linguagem Java, banco de dados Oracle® versão 10g release 2 e é acessível através de uma interface Web, disponível aos pesquisadores credenciados para acesso ao SIBRARGEN. A metodologia de mineração de germoplasma proposta foi avaliada de forma experimental através de dois estudos de casos conduzidos com o apoio de pesquisadores da Embrapa Recursos Genéticos e Biotecnologia: determinação de acessos representativos de uma espécie ou grupo de espécies e proposição de coletas direcionadas, ambos problemas típicos de interesse do curador (pesquisador responsável pelo banco de germoplasma de uma espécie). Essa
avaliação experimental mostrou que é possível introduzir os especialistas na área na utilização de técnicas de mineração de dados na base de germoplasma sem requerem que eles se envolvam em atividades de programação. Os resultados experimentais obtidos até o momento demonstram que o HaDog pode se constituir em um importante facilitador para a mineração das bases do SIBRARGEN, visando, principalmente, a descoberta de novos conhecimentos pelos especialistas.
_________________________________________________________________________________________ ABSTRACT / The banks of germplasm of the SIBRARGEN (Brazilian Information System in Genetic
Resources) function as a great catalogue of the vegetal species and of its accesses
(characteristic types inside of a group or variabilities inside of the species), contend
more than 100 thousand catalogued accesses. These banks include the identification of the access (passport), description of the genotypes aspects (characterization) and phenotype description (evaluation) and allow researchers of this area to carry through SQL queries but recouping only the stored data, resultant of the resolution of the used boolean expressions as criteria search. These queries don’t facilitate to the discovery of
new knowledge or the construction of forecast models or description. This research
considers a data mining methodology, derived from the model of reference CRISP/DM,
that assists the exploration of these databases for researchers tied with the computer science area (for example, biologists or agronomists) aiming to facilitate the accomplishment of tasks foreseen in the following phases of the CRISP/DM: business
understanding, data understanding, data preparation, modeling, evaluation of the
generated models and deployment. To materialize the methodology proposal and to
automatize its use by people who aren’t of the computer science area, the HaDog tool
was implemented (Hiragi Approach of Data Mining of Germplasm). HaDog was
implemented using the Java language, database Oracle® version 10g release 2 and is accessible through a Web interface, available to the credential researchers for access to the SIBRARGEN. The methodology of mining of germplasm proposal was evaluated of experimental form through two studies of cases lead with the support of researchers of the Embrapa (Genetic Resources and Biotechnology: determination of representative accesses of a species or group of species and proposal of directed collections, both typical problems of interest of the custodian (responsible researcher for the Bank of germplasm of a species). This experimental evaluation showed that it is possible to introduce the specialists in the area in the use of techniques of mining of data in the base of germplasm without require that they become involved themselves in activities of programming. The experimental results obtained so far show that HaDog can be a major facilitator for the mining of foundations of SIBRARGEN, targeting mainly, the discovery of new knowledge by specialists.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/1187
Date03 1900
CreatorsHiragi, Gilberto de Oliveira
ContributorsLadeira, Marcelo
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds